CN101159834A - 一种重复性视频音频节目片段的检测方法和系统 - Google Patents
一种重复性视频音频节目片段的检测方法和系统 Download PDFInfo
- Publication number
- CN101159834A CN101159834A CNA2007101763541A CN200710176354A CN101159834A CN 101159834 A CN101159834 A CN 101159834A CN A2007101763541 A CNA2007101763541 A CN A2007101763541A CN 200710176354 A CN200710176354 A CN 200710176354A CN 101159834 A CN101159834 A CN 101159834A
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- audio program
- fragment
- program fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000012634 fragment Substances 0.000 claims abstract description 66
- 230000008878 coupling Effects 0.000 claims description 66
- 238000010168 coupling process Methods 0.000 claims description 66
- 238000005859 coupling reaction Methods 0.000 claims description 66
- 238000001514 detection method Methods 0.000 claims description 57
- 230000001256 tonic effect Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 8
- 230000013011 mating Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 240000006028 Sambucus nigra Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Television Receiver Circuits (AREA)
Abstract
本发明公开了一种重复性视频音频节目片段的检测方法和系统。该方法包括下列步骤:将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,得到重复性视频音频节目片段;对初步得到重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;对精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。其能够更准确、高效地检测出视频音频节目中的特定视频音频节目片段。
Description
技术领域
本发明涉及视频音频片段的检测技术领域,特别是涉及一种重复性视频音频节目片段的检测方法和系统。
背景技术
视频音频节目(如广播电视节目)的检测是指在视频音频节目中定位和标记视、音流中特定视频音频节目片段(如广告)所出现的位置。
视频音频节目的自动检测就是利用计算机从一段视、音流中自动检测出特定视频音频节目片段并精确地定位该特定视频音频节目片段的位置。
目前常见的视频音频节目的自动检测的方法是基于规则的方法、基于标识的方法、基于识别的方法等。
基于规则的方法,是针对视频音频节目的一些特点人为的去制定一些规则。
申请号200410055809.0的中国公开申请公开了一种在视频信号中进行高效能广告检测的方法与相关系统。其在广电媒体所提供的视频信号中,会在正常节目之间穿插有广告片段,使得广告插入处相邻帧的画面不会连续;而在广告片段结束后,还会重播前一段正常节目的部分片段。该发明即先检测视频信号中两相邻帧的画面是否连续,并从画面不连续的帧往前搜寻是否有相似画面的帧。若有,则可评估出该两帧之间涵盖有广告片段的帧,达成广告检测的目的。
但该方法的缺陷是选择表示视频音频节目的特征有时不是足够的稳定,所以通过这些特征很难建立统一的检测系统。
基于标识的方法,如通过电视台的台标来检测视频音频节目片段,但是,目前很多电视台在插播特定视频音频节目片段(如广告)的时候不隐去台标,而且这种现象越来越多,所以这种通过台标检测视频音频节目片段的方法就失效了。
基于识别的方法,此方法要求事先有一个很大很全的存储广告的数据库,然后利用此数据库识别嵌入在电视节目里面的视频音频节目片段,此方法不能检测出数据库中不存在的视频音频节目片段。
同时上述现有的检测方法几乎都是通过视频特征来实现视频音频节目的检测。由于视频本身的特点,这些方法所需数据量大,特征复杂性高,计算速度慢。
发明内容
本发明的目的在于提供一种重复性视频音频节目片段的检测方法和系统,其能够更准确、高效地检测出视频音频节目中的特定视频音频节目片段。
为实现本发明目的而提供的一种重复性视频音频节目片段的检测方法,包括下列步骤:
步骤A,将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;
步骤B,在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,得到重复性视频音频节目片段。
所述步骤B之后还可以包括下列步骤:
步骤C,对步骤B中初步得到的重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;
步骤D,对步骤C中精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。
所述步骤A可以包括下列步骤:
步骤A1,将待检测的视频音频节目片段中的音频流分割为多个音频流片段,每个音频流片段为以一时间单元为一个单位进行标记;
步骤A2,从音频流片段中提取音频特征参数。
所述音频特征参数包括美尔倒谱系数,过零率和短时能量中一个参数或者一个以上的参数组合。
所述提取美尔倒谱系数,过零率和短时能量,包括下列步骤:
以40ms采集的音频数据量为一帧,相邻音频帧没有重复,提取12个美尔倒谱系数、过零率和短时能量共14个参数,来构成14维的帧特征参数。
所述提取美尔倒谱系数,包括下列步骤:
步骤A21,根据公式Mel(f)=2595lg(1+f/700)将实际频率转换为美尔频率;
步骤A22,根据语音信号|Xn(k)|求每一个三角滤波器的输出:
其中 o(l)、c(l)、h(l)分别是三角滤波器的下限、中心、上限频率,且c(l)=h(l-1)=o(l+1)。
步骤A23,对所有的滤波器输出作对数运算,再进一步做离散余弦变换,得到美尔倒谱系数:
所述在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,是通过利用欧氏距离作为粗粒度相似性匹配的距离测度实现的。
所述利用欧氏距离作为粗粒度相似性匹配的距离测度,包括下列步骤:
利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的视频音频节目小片段,并规定两个小片段中重复的部分大于一半才为匹配片段序列。
所述利用欧氏距离作为粗粒度相似性匹配的距离测度,采用的方法是每隔10帧计算帧级欧式距离D1:
其中N为14维的帧特征参数。
得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,如果存在7个或以上帧数小于预先设定好的匹配阈值TD,就认为该视频音频节目片段是与音频流片段匹配的具有重复性的视频音频节目片段的音频序列。
所述步骤C中,精确地定位重复性视频音频节目片段的起始和结束时间点,包括如下步骤:
利用改进式的欧式距离D2作为细粒度相似性匹配的距离测度重新测定重复性视频音频节目片段的起始和结束时间点;
其中N为14维的帧特征参数;
对于每一对找到的匹配对,分别计算逐帧的改进式欧式距离,得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,分别记下小于阈值TD的点的位置,精确地定位重复性视频音频节目片段的开始和结束的时间。
所述步骤D中,对匹配对进行合并,包括下列步骤:
对于检测匹配到的每一对精确匹配的重复性视频音频节目片段,分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对,把新找到的匹配对和原来的匹配对进行连接,然后再次的重复检测匹配过程,直到没有满足条件的匹配对存在,得到的新的匹配对的开始和结束时间就是一个完整的重复性视频音频节目片段的起始和结束时间。
为实现本发明目的还提供一种重复性视频音频节目片段的检测系统,包括:
音频处理模块,用于将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;
检测匹配模块,用于利用欧氏距离作为粗粒度相似性匹配的距离测度,在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,初步得到重复性视频音频节目片段。
所述的重复性视频音频节目片段的检测系统,还可以包括:
第二匹配模块,用于对检测匹配模块中初步得到的重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;
合并模块,用于对第二匹配模块中精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。
所述音频特征包括美尔倒谱系数,过零率和短时能量中一个参数或者一个以上的组合。
本发明的有益效果是:本发明的重复性视频音频节目片段的检测方法和系统,利用重复性视频音频节目片段(如广告)的重复性,即重复性视频音频节目片段经常重复多次地在各种各样的视频音频节目中重复出现。这是重复性视频音频节目片段的最为稳定的特征,比其它的特点和规则要稳定,所以准确率会更高。此外本发明是采用音频特征检测重复性视频音频节目片段,只用音频信息就足以表示、区分重复性视频音频节目片段和正常节目,而音频信息比视频信息具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。
附图说明
图1为本发明重复性视频音频节目片段的检测方法流程图;
图2为本发明重复性视频音频节目片段的检测系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种重复性视频音频节目片段的检测方法和系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的重复性视频音频节目片段的检测方法和系统,是一种音频内容分析和检索的应用,其利用视频音频节目中的音频特征,自动的检测出视频音频节目中重复出现的重复性视频音频节目片段(如广告),并且可以精确地定位和标记所有重复出现的重复性视频音频节目片段的位置。
本发明要解决的技术问题包括:
1、重复性视频音频节目片段中的音频流的分割和音频特征的提取;
2、具有重复性的音频序列匹配对的检测;
3、利用细粒度的音频匹配来精确的定位重复性视频音频节目片段的起始和结束时间点;
4、使用基于序列的方法对匹配对进行合并。
下面结合上述目标详细介绍本发明重复性视频音频节目片段的检测方法,包括下列步骤:
步骤S100,将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;
步骤S110,将待检测的视频音频节目片段中的音频流分割为多个音频流片段,每个音频流片段为以一时间单元为一个单位进行标记。
将待检测的视频音频节目片段中的音频流提取出来,把该段音频流分割成一个个小音频片段,是音频检测的一个重要的准备步骤。
这里所谓的分割并不是把一大段音频流真正的分割成一个个n(如n=5)秒的小片段,而是人为的每隔n秒片段作一个标记,然后以n秒音频流为一个单位的音频流进行处理。其主要目的是更加方便的提取特征、更加高效进行各种处理。
较佳地,本发明以没有重叠的长度为5秒的音频流片段,作为分割音频流的基本单元,对待检测的视频音频节目片段中的音频流进行分割。
选择5秒为一个检测单元,是因为重复性视频音频节目片段的长度一般都大于5秒,所以就不用去检测这5秒内是否有重复匹配的重复性视频音频节目片段,而且还能保证找到所有重复的重复性视频音频节目片段序列。
步骤S120,从音频流片段中提取音频特征参数。
音频特征参数特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据。
较佳地,本发明以40ms采集的音频数据量为一帧,相邻音频帧没有重复、即帧移也是40ms,提取12个美尔倒谱系数(Mel Frequency CepstrumCoeficient,MFCC)、过零率和短时能量共14个参数,来构成14维的帧特征参数。
1)提取美尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)。
MFCC特征是语音识别和说话人识别中经常采用的特征,它是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行美尔(Mel)尺度变换,更符合人类的听觉特性。
提取MFCC特征的过程包括下列步骤:
步骤S121,根据公式Mel(f)=2595lg(1+f/700)将实际频率转换为美尔(Mel)频率;
步骤S122,根据语音信号|Xn(k)|求每一个三角滤波器的输出:
其中 o(l)、c(l)、h(l)分别是三角滤波器的下限、中心、上限频率,且c(l)=h(l-1)=o(l+1)。
步骤S123,对所有的滤波器输出作对数运算,再进一步做离散余弦(DCT)变换,即可得到MFCC:
2)提取过零率(Zero-Crossing Rate,ZCR)
过零率是指单位时间内信号值通过零值的次数。其一定程度上说明了平均信号频率。当离散的时间信号相邻的两个取样具有不同的符号时,便出现“过零”现象。
其中,sgn[.]是符号函数,x(m)为音频信号的采样值。
3)提取短时能量(Short Time Energy)
声音信号的能量分析是基于声音信号能量随时间有相当大的变化.短时平均能量说明了音频信号的强度。
其中,x(m)为音频信号的采样值。
步骤S200,利用欧氏距离作为粗粒度相似性匹配的距离测度,在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,初步得到重复性视频音频节目片段;
重复性视频音频节目片段检测最为关键的阶段就是在大量的视频音频节目流中迅速而又准确的定位重复性视频音频节目片段的起始和结束位置。
为了实现上述要求,本发明采用音频信息来检测潜在的匹配序列。选择音频信息,是因为音频比视频具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。而且能够达到视频信息所检测的效果。
利用分割好的长度为5秒的音频流片段作为一个探针,在视频音频节目流中搜索所有的广播电视流,包括这5秒所在的电视流和其他电视流。
较佳地,利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的视频音频节目小片段,并规定两个小片段中重复的部分大于一半才为匹配片段序列。
利用欧氏距离作为粗粒度相似性匹配的距离测度,采用的方法是每隔10帧计算帧级欧式距离D1,这样的优点为计算量是逐帧计算欧式距离的十分之一,而精确度却几乎没有损失。
其中N为14维的帧特征参数。
得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,如果存在7个或以上帧数(即长度大于2.5秒)小于预先设定好的匹配阈值TD,就认为该视频音频节目片段是与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,在视频音频节目流中有相似的、匹配的重复性视频音频节目片段,初步得到该重复性视频音频节目片段,即匹配对。
步骤S300,对步骤S200中初步得到的重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;
粗粒度相似性匹配方法还有两方面的局限性:1)由于上述匹配是粗略的匹配,匹配边界和真实的重复性视频音频节目片段边界存在一定程度上的偏差;2)只能检测出大于片段长度一半的匹配序列,对于长度小于一半的匹配序列是无效的。
对于利用欧氏距离作为粗粒度相似性匹配的距离测度检测到的匹配对,利用改进式的欧式距离D2作为细粒度相似性匹配的距离测度重新测定重复性视频音频节目片段的起始和结束时间点。
其中N为14维的帧特征参数。
对于每一对找到的5秒匹配对,把它们标记为A2和B2。然后分别计算A2B2、A2B1、A1B2、A1B1、A2B3、A3B2、A3B3逐帧的改进式欧式距离,得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,分别记下小于阈值TD的点的位置。这样就可以精确地定位重复性视频音频节目片段的开始和结束的时间。
步骤S400,对步骤S300中精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。
由于是把视频音频节目分割为5秒为一个单元,所以当重复性视频音频节目片段的长度大于5秒时,一个完整的重复性视频音频节目片段就会被过度的分割。因此要对一个过度分割的重复性视频音频节目片段进行合并。
本发明利用基于序列的方法对一个完整的重复性视频音频节目片段进行合并。
对于检测匹配到的每一对精确匹配的5秒重复性视频音频节目片段,分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对,把新找到的匹配对和原来的匹配对进行连接,然后再次的重复检测匹配过程,直到没有满足条件的匹配对存在,得到的新的匹配对的开始和结束时间就是一个完整的重复性视频音频节目片段的起始和结束时间。
下面通过对一段长度为10分钟的广播电视节目中的广告进行检测作为实例,详细介绍本发明的重复性广播电视节目片段的检测方法的实施过程。
整个过程基本分为四个阶段:音频流的分割和音频特征的提取;具有重复性的音频序列匹配对的检测;利用细粒度的音频匹配来精确的定位广告的起始和结束时间点;使用基于序列的方法对匹配对进行合并。
音频流的分割和音频特征的提取阶段,把此阶段将10分钟的广播电视节目片段分成没有重叠的120个长度均为5秒小片段,然后分别对120个小片段进行特征提取,提取的特征包括:12个MFCC、过零率、短时能量,采用的帧长为40ms,帧移为40ms,形成14维的特征向量。
每一个小片段共有125个14维的特征向量。
例如该段长度为10分钟的电视节目中有2个不同的广告:新×××,鲁××××。其中新×××出现2次的位置分别为10-25秒(第3、4、5段),123-138秒(第25、26、27、28段);鲁××××出现2次的位置分别为30-50秒(第7、8、9、10段),155-175秒(第32、33、34、35段)。
具有重复性的音频序列匹配对的检测阶段,利用上述特征向量计算125个小片段两两之间的欧氏距离D1,如果某两个小片段相同的长度大于片段长度的一半,即2.5秒。标记此两个小片段是匹配的。
利用上述125个小片段的特征向量通过公式
其中N为14维的帧特征参数。
计算两两之间的欧氏距离,如果某两个小片段相同的长度大于片段长度的一半,即2.5秒。标记此两个小片段是匹配的。则(3,26),(4,27),(5,28)是相似的;(7,32),(8,33),(9,34),(10,35)是相似的。
利用细粒度的音频匹配来精确的定位重复性广播电视节目片段的起始和结束时间点阶段,对上述找到的匹配小片段对,计算其改进式的欧式距离,精确的标记此两个小片段匹配的开始和结束时间点。
对于(3,26),(4,27),(5,28),(7,32),(8,33),(9,34),(10,35)几个相似对,利用改进式的欧式距离 其中N为14维的帧特征参数,计算两两之间、以及(3,25)(2,26)(1,25)(5,29)(6,28)(6,29),(7,31)(6,32)(6,31)(10,36)(11,35)(11,36)改进式的欧氏距离。最后可以得到第3段的0-2秒和第25段的3-5秒相似,第3段的2-5秒和第26段的0-3秒相似,第4段的0-2秒和第26段的3-5秒相似,第4段的2-5秒和第27段的0-3秒相似,第5段的0-2秒和第27段的3-5秒相似,第5段的2-5秒和第28段的0-3秒相似,而(7,32),(8,33),(9,34),(10,35)则是完全相似。
使用基于序列的方法对匹配对进行合并阶段,通过上述找到的精确匹配小片段对的序号,对其进行合并。
对于上面找到的每一对精确匹配的5秒片段,按照基于序列的方法进行合并,即得到第3段0秒开始到第5段的5秒结束和第25段的第4秒开始到第28段的第3秒结束,长度分别是15秒就是10-25秒和123-138秒匹配。而(7,32),(8,33),(9,34),(10,35)是完全匹配则即为30-50秒和155-175秒匹配。
相应于本发明的重复性视频音频节目片段的检测方法,本发明还提供一种重复性视频音频节目片段的检测系统,其包括:
音频处理模块21,用于将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;
检测匹配模块22,用于利用欧氏距离作为粗粒度相似性匹配的距离测度,在视频音频节目流中检测与流频流片段匹配的具有重复性的视频音频节目片段的音频序列,初步得到重复性视频音频节目片段;
第二匹配模块23,用于对检测匹配模块22中初步得到的重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;
合并模块24,用于对第二匹配模块23中精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。
本发明的重复性视频音频节目片段的检测系统,音频处理模块对音频流的进行分割和音频特征进行提取;检测匹配模块对具有重复性的音频序列匹配进对进行检测匹配;第二匹配模块利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;合并模块使用基于序列的方法对匹配对进行合并。
本发明的重复性视频音频节目片段的检测系统,采用与本发明重复性视频音频节目片段的检测方法相同的工作过程进行检测匹配,得到重复性视频音频节目片段,因此,在本发明实施例中,不再一一详细进行描述。
本发明的重复性视频音频节目片段的检测方法和系统,利用重复性视频音频节目片段(如广告)的重复性,即重复性视频音频节目片段经常重复多次地在各种各样的视频音频节目中重复出现。这是重复性视频音频节目片段的最为稳定的特征,比其它的特点和规则要稳定,所以准确率会更高。此外本发明是采用音频特征检测重复性视频音频节目片段,只用音频信息就足以表示、区分重复性视频音频节目片段和正常节目,而音频信息比视频信息具有更少的数据量、复杂性更低的辨别特征以及更少的计算量和更加高效的计算速度。
通过以上结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。
Claims (14)
1.一种重复性视频音频节目片段的检测方法,其特征在于,包括下列步骤:
步骤A,将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;
步骤B,在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,得到重复性视频音频节目片段。
2.根据权利要求1所述的重复性视频音频节目片段的检测方法,其特征在于,所述步骤B之后还包括下列步骤:
步骤C,对步骤B中初步得到的重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;
步骤D,对步骤C中精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。
3.根据权利要求1或2所述的重复性视频音频节目片段的检测方法,其特征在于,所述步骤A包括下列步骤:
步骤A1,将待检测的视频音频节目片段中的音频流分割为多个音频流片段,每个音频流片段为以一时间单元为一个单位进行标记;
步骤A2,从音频流片段中提取音频特征参数。
4.根据权利要求3所述的重复性视频音频节目片段的检测方法,其特征在于,所述音频特征参数包括美尔倒谱系数,过零率和短时能量中一个参数或者一个以上的参数组合。
5.根据权利要求4所述的重复性视频音频节目片段的检测方法,其特征在于,所述提取美尔倒谱系数,过零率和短时能量,包括下列步骤:
以40ms采集的音频数据量为一帧,相邻音频帧没有重复,提取12个美尔倒谱系数、过零率和短时能量共14个参数,来构成14维的帧特征参数。
6.根据权利要求5所述的重复性视频音频节目片段的检测方法,其特征在于,所述提取美尔倒谱系数,包括下列步骤:
步骤A21,根据公式Mel(f)=2595lg(1+f/700)将实际频率转换为美尔频率;
步骤A22,根据语音信号|Xn(k)|求每一个三角滤波器的输出:
其中 o(l)、c(l)、h(l)分别是三角滤波器的下限、中心、上限频率,且c(l)=h(l-1)=o(l+1)。
步骤A23,对所有的滤波器输出作对数运算,再进一步做离散余弦变换,得到美尔倒谱系数:
7.根据权利要求1或2所述的重复性视频音频节目片段的检测方法,其特征在于,所述在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,是通过利用欧氏距离作为粗粒度相似性匹配的距离测度实现的。
8.根据权利要求7所述的重复性视频音频节目片段的检测方法,其特征在于,所述利用欧氏距离作为粗粒度相似性匹配的距离测度,包括下列步骤:
利用欧氏距离作为粗粒度相似性匹配的距离测度找到所有和它匹配的具有重复性的视频音频节目小片段,并规定两个小片段中重复的部分大于一半才为匹配片段序列。
9.根据权利要求7所述的重复性视频音频节目片段的检测方法,其特征在于,所述利用欧氏距离作为粗粒度相似性匹配的距离测度,采用的方法是每隔10帧计算帧级欧式距离D1:
其中N为14维的帧特征参数。
得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,如果存在7个或以上帧数小于预先设定好的匹配阈值TD,就认为该视频音频节目片段是与音频流片段匹配的具有重复性的视频音频节目片段的音频序列。
10.根据权利要求2所述的重复性视频音频节目片段的检测方法,其特征在于,所述步骤C中,精确地定位重复性视频音频节目片段的起始和结束时间点,包括如下步骤:
利用改进式的欧式距离D2作为细粒度相似性匹配的距离测度重新测定重复性视频音频节目片段的起始和结束时间点;
其中N为14维的帧特征参数;
对于每一对找到的匹配对,分别计算逐帧的改进式欧式距离,得到距离矩阵后通过和预先设定好的匹配阈值TD进行比较,分别记下小于阈值TD的点的位置,精确地定位重复性视频音频节目片段的开始和结束的时间。
11.根据权利要求10所述的重复性视频音频节目片段的检测方法,其特征在于,所述步骤D中,对匹配对进行合并,包括下列步骤:
对于检测匹配到的每一对精确匹配的重复性视频音频节目片段,分别查找和它们的时间间隔小于预先设定好的阈值TT的所有匹配对,把新找到的匹配对和原来的匹配对进行连接,然后再次的重复检测匹配过程,直到没有满足条件的匹配对存在,得到的新的匹配对的开始和结束时间就是一个完整的重复性视频音频节目片段的起始和结束时间。
12.一种重复性视频音频节目片段的检测系统,其特征在于,包括:
音频处理模块,用于将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;
检测匹配模块,用于利用欧氏距离作为粗粒度相似性匹配的距离测度,在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,初步得到重复性视频音频节目片段。
13.根据权利要求12所述的重复性视频音频节目片段的检测系统,其特征在于,还包括:
第二匹配模块,用于对检测匹配模块中初步得到的重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;
合并模块,用于对第二匹配模块中精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。
14.根据权利要求12或13所述的重复性视频音频节目片段的检测系统,所述音频特征包括美尔倒谱系数,过零率和短时能量中一个参数或者一个以上的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101763541A CN101159834B (zh) | 2007-10-25 | 2007-10-25 | 一种重复性视频音频节目片段的检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101763541A CN101159834B (zh) | 2007-10-25 | 2007-10-25 | 一种重复性视频音频节目片段的检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101159834A true CN101159834A (zh) | 2008-04-09 |
CN101159834B CN101159834B (zh) | 2012-01-11 |
Family
ID=39307736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101763541A Expired - Fee Related CN101159834B (zh) | 2007-10-25 | 2007-10-25 | 一种重复性视频音频节目片段的检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101159834B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101594527B (zh) * | 2009-06-30 | 2011-01-05 | 成都艾索语音技术有限公司 | 从音频视频流中高精度检测模板的两阶段方法 |
CN102045520A (zh) * | 2009-10-15 | 2011-05-04 | 康佳集团股份有限公司 | 一种电视节目的切换方法、系统及电视机 |
CN101404030B (zh) * | 2008-11-05 | 2011-07-20 | 中国科学院计算技术研究所 | 一种视频中周期性结构片段检测的方法及系统 |
CN102215365A (zh) * | 2010-04-01 | 2011-10-12 | 鸿富锦精密工业(深圳)有限公司 | 媒体数据播放装置及其回放方法 |
CN102222103A (zh) * | 2011-06-22 | 2011-10-19 | 央视国际网络有限公司 | 视频内容的匹配关系的处理方法及装置 |
CN101901622B (zh) * | 2009-05-27 | 2012-08-29 | 鸿富锦精密工业(深圳)有限公司 | 音频资料定位方法 |
CN102779184A (zh) * | 2012-06-29 | 2012-11-14 | 中国科学院自动化研究所 | 一种近似重复视频片段自动定位方法 |
CN102056026B (zh) * | 2009-11-06 | 2013-04-03 | 中国移动通信集团设计院有限公司 | 音视频同步检测方法及其系统、语音检测方法及其系统 |
CN103077203A (zh) * | 2012-12-28 | 2013-05-01 | 青岛爱维互动信息技术有限公司 | 一种重复性音视频片段的检测方法 |
CN103440270A (zh) * | 2013-08-02 | 2013-12-11 | 清华大学 | 实现音频文件重复模式发现的系统和方法 |
CN103594083A (zh) * | 2012-08-14 | 2014-02-19 | 韩凯 | 通过电视伴音自动识别电视节目的技术 |
CN103617233A (zh) * | 2013-11-26 | 2014-03-05 | 烟台中科网络技术研究所 | 一种基于语义内容多层表示的重复视频检测方法与装置 |
WO2014079322A1 (zh) * | 2012-11-22 | 2014-05-30 | 腾讯科技(深圳)有限公司 | 音频流媒体的跟踪方法及系统、存储介质 |
WO2014172873A1 (en) * | 2013-04-25 | 2014-10-30 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for improved network recording |
CN104581396A (zh) * | 2014-12-12 | 2015-04-29 | 北京百度网讯科技有限公司 | 一种推广信息的处理方法及装置 |
CN105227999A (zh) * | 2015-09-29 | 2016-01-06 | 北京奇艺世纪科技有限公司 | 一种视频裁剪的方法和装置 |
US9313593B2 (en) | 2010-12-30 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Ranking representative segments in media data |
CN106375849A (zh) * | 2015-07-23 | 2017-02-01 | 无锡天脉聚源传媒科技有限公司 | 一种生成模板的方法、装置、视频的更新方法及装置 |
CN107481738A (zh) * | 2017-06-27 | 2017-12-15 | 中央电视台 | 实时音频比对方法及装置 |
CN107562737A (zh) * | 2017-09-05 | 2018-01-09 | 语联网(武汉)信息技术有限公司 | 一种用于翻译的视频分割方法及其系统 |
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
CN107886959A (zh) * | 2017-09-30 | 2018-04-06 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN108428457A (zh) * | 2018-02-12 | 2018-08-21 | 北京百度网讯科技有限公司 | 音频去重方法及装置 |
CN109547850A (zh) * | 2018-11-22 | 2019-03-29 | 深圳艺达文化传媒有限公司 | 视频拍摄纠错方法及相关产品 |
CN110858492A (zh) * | 2018-08-23 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 音频剪辑方法、装置、设备和系统及数据处理方法 |
CN110958485A (zh) * | 2019-10-30 | 2020-04-03 | 维沃移动通信有限公司 | 一种视频播放方法、电子设备及计算机可读存储介质 |
CN111356015A (zh) * | 2020-02-25 | 2020-06-30 | 北京奇艺世纪科技有限公司 | 重复视频检测方法、装置、计算机设备和存储介质 |
CN111370022A (zh) * | 2019-12-25 | 2020-07-03 | 厦门快商通科技股份有限公司 | 音频广告检测方法、装置、电子设备及介质 |
CN111540376A (zh) * | 2020-03-30 | 2020-08-14 | 北京讯听网络技术有限公司 | 广播节目智能碎片化的方法、装置及存储介质 |
CN112601153A (zh) * | 2021-03-01 | 2021-04-02 | 成都大熊猫繁育研究基地 | 一种声音自动采集与传输装置及其使用方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040062520A1 (en) * | 2002-09-27 | 2004-04-01 | Koninklijke Philips Electronics N.V. | Enhanced commercial detection through fusion of video and audio signatures |
CN1842151A (zh) * | 2005-03-30 | 2006-10-04 | 株式会社东芝 | 信息处理装置和方法 |
CN100485780C (zh) * | 2005-10-31 | 2009-05-06 | 浙江大学 | 基于基音频率的快速音频分割方法 |
US8068719B2 (en) * | 2006-04-21 | 2011-11-29 | Cyberlink Corp. | Systems and methods for detecting exciting scenes in sports video |
CN100461179C (zh) * | 2006-10-11 | 2009-02-11 | 北京新岸线网络技术有限公司 | 基于内容的音频分析系统 |
-
2007
- 2007-10-25 CN CN2007101763541A patent/CN101159834B/zh not_active Expired - Fee Related
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404030B (zh) * | 2008-11-05 | 2011-07-20 | 中国科学院计算技术研究所 | 一种视频中周期性结构片段检测的方法及系统 |
CN101901622B (zh) * | 2009-05-27 | 2012-08-29 | 鸿富锦精密工业(深圳)有限公司 | 音频资料定位方法 |
CN101594527B (zh) * | 2009-06-30 | 2011-01-05 | 成都艾索语音技术有限公司 | 从音频视频流中高精度检测模板的两阶段方法 |
CN102045520A (zh) * | 2009-10-15 | 2011-05-04 | 康佳集团股份有限公司 | 一种电视节目的切换方法、系统及电视机 |
CN102056026B (zh) * | 2009-11-06 | 2013-04-03 | 中国移动通信集团设计院有限公司 | 音视频同步检测方法及其系统、语音检测方法及其系统 |
CN102215365B (zh) * | 2010-04-01 | 2013-11-06 | 鸿富锦精密工业(深圳)有限公司 | 媒体数据播放装置及其回放方法 |
CN102215365A (zh) * | 2010-04-01 | 2011-10-12 | 鸿富锦精密工业(深圳)有限公司 | 媒体数据播放装置及其回放方法 |
US9313593B2 (en) | 2010-12-30 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Ranking representative segments in media data |
US9317561B2 (en) | 2010-12-30 | 2016-04-19 | Dolby Laboratories Licensing Corporation | Scene change detection around a set of seed points in media data |
CN102222103A (zh) * | 2011-06-22 | 2011-10-19 | 央视国际网络有限公司 | 视频内容的匹配关系的处理方法及装置 |
CN102222103B (zh) * | 2011-06-22 | 2013-03-27 | 央视国际网络有限公司 | 视频内容的匹配关系的处理方法及装置 |
CN102779184B (zh) * | 2012-06-29 | 2014-05-14 | 中国科学院自动化研究所 | 一种近似重复视频片段自动定位方法 |
CN102779184A (zh) * | 2012-06-29 | 2012-11-14 | 中国科学院自动化研究所 | 一种近似重复视频片段自动定位方法 |
CN103594083A (zh) * | 2012-08-14 | 2014-02-19 | 韩凯 | 通过电视伴音自动识别电视节目的技术 |
US9612791B2 (en) | 2012-11-22 | 2017-04-04 | Guangzhou Kugou Computer Technology Co., Ltd. | Method, system and storage medium for monitoring audio streaming media |
WO2014079322A1 (zh) * | 2012-11-22 | 2014-05-30 | 腾讯科技(深圳)有限公司 | 音频流媒体的跟踪方法及系统、存储介质 |
CN103077203A (zh) * | 2012-12-28 | 2013-05-01 | 青岛爱维互动信息技术有限公司 | 一种重复性音视频片段的检测方法 |
WO2014172873A1 (en) * | 2013-04-25 | 2014-10-30 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for improved network recording |
CN103440270A (zh) * | 2013-08-02 | 2013-12-11 | 清华大学 | 实现音频文件重复模式发现的系统和方法 |
CN103440270B (zh) * | 2013-08-02 | 2017-06-09 | 清华大学 | 实现音频文件重复模式发现的系统和方法 |
CN103617233A (zh) * | 2013-11-26 | 2014-03-05 | 烟台中科网络技术研究所 | 一种基于语义内容多层表示的重复视频检测方法与装置 |
CN104581396A (zh) * | 2014-12-12 | 2015-04-29 | 北京百度网讯科技有限公司 | 一种推广信息的处理方法及装置 |
CN106375849A (zh) * | 2015-07-23 | 2017-02-01 | 无锡天脉聚源传媒科技有限公司 | 一种生成模板的方法、装置、视频的更新方法及装置 |
CN106375849B (zh) * | 2015-07-23 | 2019-05-24 | 无锡天脉聚源传媒科技有限公司 | 一种生成模板的方法、装置、视频的更新方法及装置 |
CN105227999B (zh) * | 2015-09-29 | 2018-12-14 | 北京奇艺世纪科技有限公司 | 一种视频裁剪的方法和装置 |
CN105227999A (zh) * | 2015-09-29 | 2016-01-06 | 北京奇艺世纪科技有限公司 | 一种视频裁剪的方法和装置 |
CN107481738A (zh) * | 2017-06-27 | 2017-12-15 | 中央电视台 | 实时音频比对方法及装置 |
CN107481738B (zh) * | 2017-06-27 | 2021-06-08 | 中央电视台 | 实时音频比对方法及装置 |
CN107562737A (zh) * | 2017-09-05 | 2018-01-09 | 语联网(武汉)信息技术有限公司 | 一种用于翻译的视频分割方法及其系统 |
CN107886959A (zh) * | 2017-09-30 | 2018-04-06 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN107886959B (zh) * | 2017-09-30 | 2021-07-27 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
CN108428457A (zh) * | 2018-02-12 | 2018-08-21 | 北京百度网讯科技有限公司 | 音频去重方法及装置 |
CN108428457B (zh) * | 2018-02-12 | 2021-03-23 | 北京百度网讯科技有限公司 | 音频去重方法及装置 |
CN110858492A (zh) * | 2018-08-23 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 音频剪辑方法、装置、设备和系统及数据处理方法 |
CN109547850B (zh) * | 2018-11-22 | 2021-04-06 | 杭州秋茶网络科技有限公司 | 视频拍摄纠错方法及相关产品 |
CN109547850A (zh) * | 2018-11-22 | 2019-03-29 | 深圳艺达文化传媒有限公司 | 视频拍摄纠错方法及相关产品 |
CN110958485A (zh) * | 2019-10-30 | 2020-04-03 | 维沃移动通信有限公司 | 一种视频播放方法、电子设备及计算机可读存储介质 |
CN111370022A (zh) * | 2019-12-25 | 2020-07-03 | 厦门快商通科技股份有限公司 | 音频广告检测方法、装置、电子设备及介质 |
CN111356015A (zh) * | 2020-02-25 | 2020-06-30 | 北京奇艺世纪科技有限公司 | 重复视频检测方法、装置、计算机设备和存储介质 |
CN111356015B (zh) * | 2020-02-25 | 2022-05-10 | 北京奇艺世纪科技有限公司 | 重复视频检测方法、装置、计算机设备和存储介质 |
CN111540376A (zh) * | 2020-03-30 | 2020-08-14 | 北京讯听网络技术有限公司 | 广播节目智能碎片化的方法、装置及存储介质 |
CN112601153A (zh) * | 2021-03-01 | 2021-04-02 | 成都大熊猫繁育研究基地 | 一种声音自动采集与传输装置及其使用方法 |
CN112601153B (zh) * | 2021-03-01 | 2021-05-07 | 成都大熊猫繁育研究基地 | 一种声音自动采集与传输装置及其使用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101159834B (zh) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101159834B (zh) | 一种重复性视频音频节目片段的检测方法和系统 | |
CN100530196C (zh) | 一种基于分层匹配的快速音频广告识别方法 | |
CN100580693C (zh) | 一种广告检测识别方法及系统 | |
CN102799605A (zh) | 一种广告监播方法和系统 | |
US20030065655A1 (en) | Method and apparatus for detecting query-driven topical events using textual phrases on foils as indication of topic | |
CN101477798A (zh) | 一种分析和提取设定场景的音频数据的方法 | |
CN102073636A (zh) | 节目高潮检索方法和系统 | |
CN102436806A (zh) | 一种基于相似度的音频拷贝检测的方法 | |
CN102073631A (zh) | 利用关联规则技术的视频新闻单元划分方法 | |
Johnson et al. | Spoken Document Retrieval for TREC-8 at Cambridge University. | |
Silovsky et al. | Speaker diarization of broadcast streams using two-stage clustering based on i-vectors and cosine distance scoring | |
CN101594527B (zh) | 从音频视频流中高精度检测模板的两阶段方法 | |
CN103077203A (zh) | 一种重复性音视频片段的检测方法 | |
Flamary et al. | Spoken WordCloud: Clustering recurrent patterns in speech | |
Kim et al. | Comparison of MPEG-7 audio spectrum projection features and MFCC applied to speaker recognition, sound classification and audio segmentation | |
CN103730129A (zh) | 一种用于数据库信息查询的语音查询系统 | |
CN109995450B (zh) | 一种基于云技术语音识别与智能鉴别“黑广播”方法 | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
Dharanipragada et al. | Audio-Indexing For Broadcast News. | |
Kim et al. | Quick audio retrieval using multiple feature vectors | |
US7680654B2 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
CN116318457B (zh) | 一种无线电信号监测方法及系统 | |
CN103294696A (zh) | 音视频内容检索方法及系统 | |
Liu et al. | A linguistic data acquisition front-end for language recognition evaluation. | |
Zhao et al. | Fast commercial detection based on audio retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Gao Yang Inventor after: Wang Xiangdong Inventor after: Qian Yueliang Inventor after: Liu Qun Inventor before: Gao Yang Inventor before: Wang Xiangdong Inventor before: Qian Yueliang Inventor before: Liu Qun |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120111 |