CN101159834A

CN101159834A - 一种重复性视频音频节目片段的检测方法和系统

Info

Publication number: CN101159834A
Application number: CNA2007101763541A
Authority: CN
Inventors: 高杨; 王向东; 钱越良; 刘群
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-10-25
Filing date: 2007-10-25
Publication date: 2008-04-09
Anticipated expiration: 2027-10-25
Also published as: CN101159834B

Abstract

本发明公开了一种重复性视频音频节目片段的检测方法和系统。该方法包括下列步骤：将待检测的视频音频节目片段中的音频流进行分割得到音频流片段，并从每一音频流片段中提取音频特征；在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，得到重复性视频音频节目片段；对初步得到重复性视频音频节目片段，利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点；对精确地定位的重复性视频音频节目片段，使用基于序列的方法对匹配对进行合并，得到完整的重复性视频音频节目片段。其能够更准确、高效地检测出视频音频节目中的特定视频音频节目片段。

Description

一种重复性视频音频节目片段的检测方法和系统

技术领域

本发明涉及视频音频片段的检测技术领域，特别是涉及一种重复性视频音频节目片段的检测方法和系统。

背景技术

视频音频节目(如广播电视节目)的检测是指在视频音频节目中定位和标记视、音流中特定视频音频节目片段(如广告)所出现的位置。

视频音频节目的自动检测就是利用计算机从一段视、音流中自动检测出特定视频音频节目片段并精确地定位该特定视频音频节目片段的位置。

目前常见的视频音频节目的自动检测的方法是基于规则的方法、基于标识的方法、基于识别的方法等。

基于规则的方法，是针对视频音频节目的一些特点人为的去制定一些规则。

申请号200410055809.0的中国公开申请公开了一种在视频信号中进行高效能广告检测的方法与相关系统。其在广电媒体所提供的视频信号中，会在正常节目之间穿插有广告片段，使得广告插入处相邻帧的画面不会连续；而在广告片段结束后，还会重播前一段正常节目的部分片段。该发明即先检测视频信号中两相邻帧的画面是否连续，并从画面不连续的帧往前搜寻是否有相似画面的帧。若有，则可评估出该两帧之间涵盖有广告片段的帧，达成广告检测的目的。

但该方法的缺陷是选择表示视频音频节目的特征有时不是足够的稳定，所以通过这些特征很难建立统一的检测系统。

基于标识的方法，如通过电视台的台标来检测视频音频节目片段，但是，目前很多电视台在插播特定视频音频节目片段(如广告)的时候不隐去台标，而且这种现象越来越多，所以这种通过台标检测视频音频节目片段的方法就失效了。

基于识别的方法，此方法要求事先有一个很大很全的存储广告的数据库，然后利用此数据库识别嵌入在电视节目里面的视频音频节目片段，此方法不能检测出数据库中不存在的视频音频节目片段。

同时上述现有的检测方法几乎都是通过视频特征来实现视频音频节目的检测。由于视频本身的特点，这些方法所需数据量大，特征复杂性高，计算速度慢。

发明内容

本发明的目的在于提供一种重复性视频音频节目片段的检测方法和系统，其能够更准确、高效地检测出视频音频节目中的特定视频音频节目片段。

为实现本发明目的而提供的一种重复性视频音频节目片段的检测方法，包括下列步骤：

步骤A，将待检测的视频音频节目片段中的音频流进行分割得到音频流片段，并从每一音频流片段中提取音频特征；

步骤B，在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，得到重复性视频音频节目片段。

所述步骤B之后还可以包括下列步骤：

步骤C，对步骤B中初步得到的重复性视频音频节目片段，利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点；

步骤D，对步骤C中精确地定位的重复性视频音频节目片段，使用基于序列的方法对匹配对进行合并，得到完整的重复性视频音频节目片段。

所述步骤A可以包括下列步骤：

步骤A1，将待检测的视频音频节目片段中的音频流分割为多个音频流片段，每个音频流片段为以一时间单元为一个单位进行标记；

步骤A2，从音频流片段中提取音频特征参数。

所述音频特征参数包括美尔倒谱系数，过零率和短时能量中一个参数或者一个以上的参数组合。

所述提取美尔倒谱系数，过零率和短时能量，包括下列步骤：

以40ms采集的音频数据量为一帧，相邻音频帧没有重复，提取12个美尔倒谱系数、过零率和短时能量共14个参数，来构成14维的帧特征参数。

所述提取美尔倒谱系数，包括下列步骤：

步骤A21，根据公式Mel(f)＝2595lg(1+f/700)将实际频率转换为美尔频率；

步骤A22，根据语音信号|X_n(k)|求每一个三角滤波器的输出：

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) | X_{n} (k) |,

其中

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)} \\ \frac{h (l) - k}{h (l) - c (l)} \end{matrix},

o(l)、c(l)、h(l)分别是三角滤波器的下限、中心、上限频率，且c(l)＝h(l-1)＝o(l+1)。

步骤A23，对所有的滤波器输出作对数运算，再进一步做离散余弦变换，得到美尔倒谱系数：

C_{mfcc} (i) = \sqrt{\frac{2}{n}} Σ_{l = 1}^{L} \log m (l) \cos {(l - \frac{1}{2}) \frac{iπ}{L}} .

所述在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，是通过利用欧氏距离作为粗粒度相似性匹配的距离测度实现的。

所述利用欧氏距离作为粗粒度相似性匹配的距离测度，包括下列步骤：

利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的视频音频节目小片段，并规定两个小片段中重复的部分大于一半才为匹配片段序列。

所述利用欧氏距离作为粗粒度相似性匹配的距离测度，采用的方法是每隔10帧计算帧级欧式距离D1：

D 1 = Σ_{n = 1}^{N} \sqrt{{(a_{n} - b_{n})}^{2}}

其中N为14维的帧特征参数。

得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较，如果存在7个或以上帧数小于预先设定好的匹配阈值TD，就认为该视频音频节目片段是与音频流片段匹配的具有重复性的视频音频节目片段的音频序列。

所述步骤C中，精确地定位重复性视频音频节目片段的起始和结束时间点，包括如下步骤：

利用改进式的欧式距离D2作为细粒度相似性匹配的距离测度重新测定重复性视频音频节目片段的起始和结束时间点；

D 2 = Σ_{n = 1}^{N} | a_{n} - b_{n} |

其中N为14维的帧特征参数；

对于每一对找到的匹配对，分别计算逐帧的改进式欧式距离，得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较，分别记下小于阈值TD的点的位置，精确地定位重复性视频音频节目片段的开始和结束的时间。

所述步骤D中，对匹配对进行合并，包括下列步骤：

对于检测匹配到的每一对精确匹配的重复性视频音频节目片段，分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对，把新找到的匹配对和原来的匹配对进行连接，然后再次的重复检测匹配过程，直到没有满足条件的匹配对存在，得到的新的匹配对的开始和结束时间就是一个完整的重复性视频音频节目片段的起始和结束时间。

为实现本发明目的还提供一种重复性视频音频节目片段的检测系统，包括：

音频处理模块，用于将待检测的视频音频节目片段中的音频流进行分割得到音频流片段，并从每一音频流片段中提取音频特征；

检测匹配模块，用于利用欧氏距离作为粗粒度相似性匹配的距离测度，在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，初步得到重复性视频音频节目片段。

所述的重复性视频音频节目片段的检测系统，还可以包括：

第二匹配模块，用于对检测匹配模块中初步得到的重复性视频音频节目片段，利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点；

合并模块，用于对第二匹配模块中精确地定位的重复性视频音频节目片段，使用基于序列的方法对匹配对进行合并，得到完整的重复性视频音频节目片段。

所述音频特征包括美尔倒谱系数，过零率和短时能量中一个参数或者一个以上的组合。

本发明的有益效果是：本发明的重复性视频音频节目片段的检测方法和系统，利用重复性视频音频节目片段(如广告)的重复性，即重复性视频音频节目片段经常重复多次地在各种各样的视频音频节目中重复出现。这是重复性视频音频节目片段的最为稳定的特征，比其它的特点和规则要稳定，所以准确率会更高。此外本发明是采用音频特征检测重复性视频音频节目片段，只用音频信息就足以表示、区分重复性视频音频节目片段和正常节目，而音频信息比视频信息具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。

附图说明

图1为本发明重复性视频音频节目片段的检测方法流程图；

图2为本发明重复性视频音频节目片段的检测系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种重复性视频音频节目片段的检测方法和系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的重复性视频音频节目片段的检测方法和系统，是一种音频内容分析和检索的应用，其利用视频音频节目中的音频特征，自动的检测出视频音频节目中重复出现的重复性视频音频节目片段(如广告)，并且可以精确地定位和标记所有重复出现的重复性视频音频节目片段的位置。

本发明要解决的技术问题包括：

1、重复性视频音频节目片段中的音频流的分割和音频特征的提取；

2、具有重复性的音频序列匹配对的检测；

3、利用细粒度的音频匹配来精确的定位重复性视频音频节目片段的起始和结束时间点；

4、使用基于序列的方法对匹配对进行合并。

下面结合上述目标详细介绍本发明重复性视频音频节目片段的检测方法，包括下列步骤：

步骤S100，将待检测的视频音频节目片段中的音频流进行分割得到音频流片段，并从每一音频流片段中提取音频特征；

步骤S110，将待检测的视频音频节目片段中的音频流分割为多个音频流片段，每个音频流片段为以一时间单元为一个单位进行标记。

将待检测的视频音频节目片段中的音频流提取出来，把该段音频流分割成一个个小音频片段，是音频检测的一个重要的准备步骤。

这里所谓的分割并不是把一大段音频流真正的分割成一个个n(如n＝5)秒的小片段，而是人为的每隔n秒片段作一个标记，然后以n秒音频流为一个单位的音频流进行处理。其主要目的是更加方便的提取特征、更加高效进行各种处理。

较佳地，本发明以没有重叠的长度为5秒的音频流片段，作为分割音频流的基本单元，对待检测的视频音频节目片段中的音频流进行分割。

选择5秒为一个检测单元，是因为重复性视频音频节目片段的长度一般都大于5秒，所以就不用去检测这5秒内是否有重复匹配的重复性视频音频节目片段，而且还能保证找到所有重复的重复性视频音频节目片段序列。

步骤S120，从音频流片段中提取音频特征参数。

音频特征参数特征提取是指寻找原始音频信号表达形式，提取能代表原始信号的数据。

较佳地，本发明以40ms采集的音频数据量为一帧，相邻音频帧没有重复、即帧移也是40ms，提取12个美尔倒谱系数(Mel Frequency CepstrumCoeficient，MFCC)、过零率和短时能量共14个参数，来构成14维的帧特征参数。

1)提取美尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)。

MFCC特征是语音识别和说话人识别中经常采用的特征，它是利用三角滤波器组对傅立叶变换能量系数滤波而得，并且对其频域进行美尔(Mel)尺度变换，更符合人类的听觉特性。

提取MFCC特征的过程包括下列步骤：

步骤S121，根据公式Mel(f)＝2595lg(1+f/700)将实际频率转换为美尔(Mel)频率；

步骤S122，根据语音信号|X_n(k)|求每一个三角滤波器的输出：

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) | X_{n} (k) |,

其中

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)} \\ \frac{h (l) - k}{h (l) - c (l)} \end{matrix},

步骤S123，对所有的滤波器输出作对数运算，再进一步做离散余弦(DCT)变换，即可得到MFCC：

C_{mfcc} (i) = \sqrt{\frac{2}{n}} Σ_{l = 1}^{L} \log m (l) \cos {(l - \frac{1}{2}) \frac{iπ}{L}} .

2)提取过零率(Zero-Crossing Rate，ZCR)

过零率是指单位时间内信号值通过零值的次数。其一定程度上说明了平均信号频率。当离散的时间信号相邻的两个取样具有不同的符号时，便出现“过零”现象。

ZCR = \frac{1}{2 (N - 1)} Σ_{m = 1}^{N - 1} | sgn [x (m + 1) - sgn [x (m)] |

其中，sgn[.]是符号函数，x(m)为音频信号的采样值。

3)提取短时能量(Short Time Energy)

声音信号的能量分析是基于声音信号能量随时间有相当大的变化.短时平均能量说明了音频信号的强度。

E_{n} = Σ_{m = 0}^{N - 1} x_{n}^{2} (m)

其中，x(m)为音频信号的采样值。

步骤S200，利用欧氏距离作为粗粒度相似性匹配的距离测度，在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，初步得到重复性视频音频节目片段；

重复性视频音频节目片段检测最为关键的阶段就是在大量的视频音频节目流中迅速而又准确的定位重复性视频音频节目片段的起始和结束位置。

为了实现上述要求，本发明采用音频信息来检测潜在的匹配序列。选择音频信息，是因为音频比视频具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。而且能够达到视频信息所检测的效果。

利用分割好的长度为5秒的音频流片段作为一个探针，在视频音频节目流中搜索所有的广播电视流，包括这5秒所在的电视流和其他电视流。

较佳地，利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的视频音频节目小片段，并规定两个小片段中重复的部分大于一半才为匹配片段序列。

利用欧氏距离作为粗粒度相似性匹配的距离测度，采用的方法是每隔10帧计算帧级欧式距离D1，这样的优点为计算量是逐帧计算欧式距离的十分之一，而精确度却几乎没有损失。

D 1 = Σ_{n = 1}^{N} \sqrt{{(a_{n} - b_{n})}^{2}}

其中N为14维的帧特征参数。

得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较，如果存在7个或以上帧数(即长度大于2.5秒)小于预先设定好的匹配阈值TD，就认为该视频音频节目片段是与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，在视频音频节目流中有相似的、匹配的重复性视频音频节目片段，初步得到该重复性视频音频节目片段，即匹配对。

步骤S300，对步骤S200中初步得到的重复性视频音频节目片段，利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点；

粗粒度相似性匹配方法还有两方面的局限性：1)由于上述匹配是粗略的匹配，匹配边界和真实的重复性视频音频节目片段边界存在一定程度上的偏差；2)只能检测出大于片段长度一半的匹配序列，对于长度小于一半的匹配序列是无效的。

对于利用欧氏距离作为粗粒度相似性匹配的距离测度检测到的匹配对，利用改进式的欧式距离D2作为细粒度相似性匹配的距离测度重新测定重复性视频音频节目片段的起始和结束时间点。

D 2 = Σ_{n = 1}^{N} | a_{n} - b_{n} |

其中N为14维的帧特征参数。

对于每一对找到的5秒匹配对，把它们标记为A₂和B₂。然后分别计算A₂B₂、A₂B₁、A₁B₂、A₁B₁、A₂B₃、A₃B₂、A₃B₃逐帧的改进式欧式距离，得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较，分别记下小于阈值TD的点的位置。这样就可以精确地定位重复性视频音频节目片段的开始和结束的时间。

步骤S400，对步骤S300中精确地定位的重复性视频音频节目片段，使用基于序列的方法对匹配对进行合并，得到完整的重复性视频音频节目片段。

由于是把视频音频节目分割为5秒为一个单元，所以当重复性视频音频节目片段的长度大于5秒时，一个完整的重复性视频音频节目片段就会被过度的分割。因此要对一个过度分割的重复性视频音频节目片段进行合并。

本发明利用基于序列的方法对一个完整的重复性视频音频节目片段进行合并。

对于检测匹配到的每一对精确匹配的5秒重复性视频音频节目片段，分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对，把新找到的匹配对和原来的匹配对进行连接，然后再次的重复检测匹配过程，直到没有满足条件的匹配对存在，得到的新的匹配对的开始和结束时间就是一个完整的重复性视频音频节目片段的起始和结束时间。

下面通过对一段长度为10分钟的广播电视节目中的广告进行检测作为实例，详细介绍本发明的重复性广播电视节目片段的检测方法的实施过程。

整个过程基本分为四个阶段：音频流的分割和音频特征的提取；具有重复性的音频序列匹配对的检测；利用细粒度的音频匹配来精确的定位广告的起始和结束时间点；使用基于序列的方法对匹配对进行合并。

音频流的分割和音频特征的提取阶段，把此阶段将10分钟的广播电视节目片段分成没有重叠的120个长度均为5秒小片段，然后分别对120个小片段进行特征提取，提取的特征包括：12个MFCC、过零率、短时能量，采用的帧长为40ms，帧移为40ms，形成14维的特征向量。

每一个小片段共有125个14维的特征向量。

例如该段长度为10分钟的电视节目中有2个不同的广告：新×××，鲁××××。其中新×××出现2次的位置分别为10-25秒(第3、4、5段)，123-138秒(第25、26、27、28段)；鲁××××出现2次的位置分别为30-50秒(第7、8、9、10段)，155-175秒(第32、33、34、35段)。

具有重复性的音频序列匹配对的检测阶段，利用上述特征向量计算125个小片段两两之间的欧氏距离D1，如果某两个小片段相同的长度大于片段长度的一半，即2.5秒。标记此两个小片段是匹配的。

利用上述125个小片段的特征向量通过公式

D 1 = Σ_{n = 1}^{N} \sqrt{{(a_{n} - b_{n})}^{2}}

其中N为14维的帧特征参数。

计算两两之间的欧氏距离，如果某两个小片段相同的长度大于片段长度的一半，即2.5秒。标记此两个小片段是匹配的。则(3，26)，(4，27)，(5，28)是相似的；(7，32)，(8，33)，(9，34)，(10，35)是相似的。

利用细粒度的音频匹配来精确的定位重复性广播电视节目片段的起始和结束时间点阶段，对上述找到的匹配小片段对，计算其改进式的欧式距离，精确的标记此两个小片段匹配的开始和结束时间点。

对于(3，26)，(4，27)，(5，28)，(7，32)，(8，33)，(9，34)，(10，35)几个相似对，利用改进式的欧式距离

D 2 = Σ_{n = 1}^{N} | a_{n} - b_{n} |,

其中N为14维的帧特征参数，计算两两之间、以及(3，25)(2，26)(1，25)(5，29)(6，28)(6，29)，(7，31)(6，32)(6，31)(10，36)(11，35)(11，36)改进式的欧氏距离。最后可以得到第3段的0-2秒和第25段的3-5秒相似，第3段的2-5秒和第26段的0-3秒相似，第4段的0-2秒和第26段的3-5秒相似，第4段的2-5秒和第27段的0-3秒相似，第5段的0-2秒和第27段的3-5秒相似，第5段的2-5秒和第28段的0-3秒相似，而(7，32)，(8，33)，(9，34)，(10，35)则是完全相似。

使用基于序列的方法对匹配对进行合并阶段，通过上述找到的精确匹配小片段对的序号，对其进行合并。

对于上面找到的每一对精确匹配的5秒片段，按照基于序列的方法进行合并，即得到第3段0秒开始到第5段的5秒结束和第25段的第4秒开始到第28段的第3秒结束，长度分别是15秒就是10-25秒和123-138秒匹配。而(7，32)，(8，33)，(9，34)，(10，35)是完全匹配则即为30-50秒和155-175秒匹配。

相应于本发明的重复性视频音频节目片段的检测方法，本发明还提供一种重复性视频音频节目片段的检测系统，其包括：

音频处理模块21，用于将待检测的视频音频节目片段中的音频流进行分割得到音频流片段，并从每一音频流片段中提取音频特征；

检测匹配模块22，用于利用欧氏距离作为粗粒度相似性匹配的距离测度，在视频音频节目流中检测与流频流片段匹配的具有重复性的视频音频节目片段的音频序列，初步得到重复性视频音频节目片段；

第二匹配模块23，用于对检测匹配模块22中初步得到的重复性视频音频节目片段，利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点；

合并模块24，用于对第二匹配模块23中精确地定位的重复性视频音频节目片段，使用基于序列的方法对匹配对进行合并，得到完整的重复性视频音频节目片段。

本发明的重复性视频音频节目片段的检测系统，音频处理模块对音频流的进行分割和音频特征进行提取；检测匹配模块对具有重复性的音频序列匹配进对进行检测匹配；第二匹配模块利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点；合并模块使用基于序列的方法对匹配对进行合并。

本发明的重复性视频音频节目片段的检测系统，采用与本发明重复性视频音频节目片段的检测方法相同的工作过程进行检测匹配，得到重复性视频音频节目片段，因此，在本发明实施例中，不再一一详细进行描述。

本发明的重复性视频音频节目片段的检测方法和系统，利用重复性视频音频节目片段(如广告)的重复性，即重复性视频音频节目片段经常重复多次地在各种各样的视频音频节目中重复出现。这是重复性视频音频节目片段的最为稳定的特征，比其它的特点和规则要稳定，所以准确率会更高。此外本发明是采用音频特征检测重复性视频音频节目片段，只用音频信息就足以表示、区分重复性视频音频节目片段和正常节目，而音频信息比视频信息具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。

通过以上结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1.一种重复性视频音频节目片段的检测方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的重复性视频音频节目片段的检测方法，其特征在于，所述步骤B之后还包括下列步骤：

3.根据权利要求1或2所述的重复性视频音频节目片段的检测方法，其特征在于，所述步骤A包括下列步骤：

步骤A2，从音频流片段中提取音频特征参数。

4.根据权利要求3所述的重复性视频音频节目片段的检测方法，其特征在于，所述音频特征参数包括美尔倒谱系数，过零率和短时能量中一个参数或者一个以上的参数组合。

5.根据权利要求4所述的重复性视频音频节目片段的检测方法，其特征在于，所述提取美尔倒谱系数，过零率和短时能量，包括下列步骤：

6.根据权利要求5所述的重复性视频音频节目片段的检测方法，其特征在于，所述提取美尔倒谱系数，包括下列步骤：

步骤A22，根据语音信号|X_n(k)|求每一个三角滤波器的输出：

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) | X_{n} (k) |,

其中

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)} \\ \frac{h (l) - k}{h (l) - c (l)} \end{matrix},

C_{mfcc} (i) = \sqrt{\frac{2}{n}} Σ_{l = 1}^{L} \log m (l) \cos {(l - \frac{1}{2}) \frac{iπ}{L}} .

7.根据权利要求1或2所述的重复性视频音频节目片段的检测方法，其特征在于，所述在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列，是通过利用欧氏距离作为粗粒度相似性匹配的距离测度实现的。

8.根据权利要求7所述的重复性视频音频节目片段的检测方法，其特征在于，所述利用欧氏距离作为粗粒度相似性匹配的距离测度，包括下列步骤：

9.根据权利要求7所述的重复性视频音频节目片段的检测方法，其特征在于，所述利用欧氏距离作为粗粒度相似性匹配的距离测度，采用的方法是每隔10帧计算帧级欧式距离D1：

D 1 = Σ_{n = 1}^{N} \sqrt{{(a_{n} - b_{n})}^{2}}

其中N为14维的帧特征参数。

10.根据权利要求2所述的重复性视频音频节目片段的检测方法，其特征在于，所述步骤C中，精确地定位重复性视频音频节目片段的起始和结束时间点，包括如下步骤：

D 2 = Σ_{n = 1}^{N} | a_{n} - b_{n} |

其中N为14维的帧特征参数；

11.根据权利要求10所述的重复性视频音频节目片段的检测方法，其特征在于，所述步骤D中，对匹配对进行合并，包括下列步骤：

12.一种重复性视频音频节目片段的检测系统，其特征在于，包括：

13.根据权利要求12所述的重复性视频音频节目片段的检测系统，其特征在于，还包括：

14.根据权利要求12或13所述的重复性视频音频节目片段的检测系统，所述音频特征包括美尔倒谱系数，过零率和短时能量中一个参数或者一个以上的组合。