CN103605666A

CN103605666A - 一种进行广告检测的视频拷贝检测方法

Info

Publication number: CN103605666A
Application number: CN201310513718.6A
Authority: CN
Inventors: 金城; 吴渊; 赵花婷; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2013-10-28
Filing date: 2013-10-28
Publication date: 2014-02-26
Anticipated expiration: 2033-10-28
Also published as: CN103605666B

Abstract

本发明属于计算机视频处理技术领域，具体为一种进行广告检测的视频拷贝检测方法；其先采用音频匹配的方法检测出候选的匹配广告片段，然后采用图像匹配的方法去验证候选匹配片段，实现视频拷贝检测。本发明的有益效果在于：本发明方法采用把图像和音频特征二者相结合的算法，高效；其能够处理大规模视频，检测过程快速，结果更加精确。

Description

一种进行广告检测的视频拷贝检测方法

技术领域

本发明属于计算机视频处理技术领域，具体为一种高效的视频检索方法。

背景技术

电视中的广告对我们的生活有很大的影响，尽管大多数观众并不喜欢观看广告。电视中的广告检测有很多用途。例如：投放广告的公司通常都会检验他们的广告有没有按照合同播出；一些公司也可能想了解他们的竞争对手在做些什么[5]；制作广告的公司可能想要调查目前所有在播的广告，然后制作出更具影响力的广告。站在消费者的角度来看，他们可能想要录下电视节目但是并不想要把广告也录下来。然而，目前来说要想完成这项工作则必须需要人为干预。因此，能自动检测电视中的广告这项工作就显得很有必要。

目前已经出现了很多关于自动检测电视中的广告这方面的研究。这些研究方法可以被归为三类[7]：第一类是基于规则的方法，这类方法采用一系列的特征和规则来区分广告和非广告[2,4]。第二类方法是基于商标的算法，这类方法只能通过电视台商标来识别广告[5,6]。第三类是基于识别的方法，这类方法通过视频签名只能够检测出一支的广告[3,4]。

对于基于规则的方法来说，有很多阈值参数需要调整。系统对于一些阈值可能会非常敏感，从而很难为各种各样的节目找到一个统一的阈值。目前许多电视台在播出广告时通常不会隐藏台标，这就导致基于商标的算法无法处理这种情况。更进一步地说，现在的电视台台标已经变得越来越复杂，有时候甚至是半透明或有动画效果的，这就使得检测台标变得非常困难。对于基于识别的方法来说，只能检测过去已知的广告，因此需要一个相当大的数据库来存储所有已知广告的特征。对于一段全新的广告，就必须要手动标注，然后再把它的特征存放进数据库中。这些不足之处限制了这些方法的可应用的范围。

除了以上这些问题之外，这些方法主要用于检测某种特殊节目中的广告，例如新闻或电影[4]。它们选取的用来表示广告的特征有时也不够稳定，因为它们往往是基于不同的电视台甚至不同国家的节目来进行研究的。这就很难找到一个统一的检测系统。而且，不管是在广告块中或者在广告块的边界，许多方法都高度依赖黑帧或者黑白帧。然而，电视台可以很轻易地去除掉黑帧，而且其他节目像电影则可能包含许多黑帧。另外，对于音频特征采用上述方法则不会有很好的效果。许多方法并没有利用音频特征[3,4,5,6]或者只是利用了很小的一部分[2]。

数字电视运营商的广告检测，绝大部分都是重复性广告检测，也就是拷贝检测。一则广告持续的时间相对较长，因此我们主要解决拷贝检测问题。主流的视频拷贝检测方法有两种：1. 基于图像特征的拷贝检测；2. 基于图像特征的机器学习。第一种方法的缺点是无法处理新的广告，且速度较慢。随着样本数量的增加，性能会下降。第二种方法依赖样本库和广告特征的人为主观视觉映象，对复杂条件广告没有很好的办法。基于机器学习的方法，挑选了一批有代表性的广告样本，从中定义了一些能够代表广告特征的特征集，然后训练这些特征集得到分类器并以之来对视频进行分类。然而，这些方法对训练集的依赖性很强，采用不同样本进行训练所得的分类器的差别比较大，随着广告拍摄手法的多样化，特别是近年来出现的一些类似电视剧片段的广告，这类方法面临越来越大的困难。也有人提出了将音频和视频相结合的广告检测方法，通过提取广告视频的最具代表性的帧（通常是最后一帧）来分割广告段和非广告段，避开了对广告区间的搜索，这种方法本质上仍然是基于视频的机器学习的方法，不同之处仅在于通过检测广告的静音段来辅助定位广告的边界。机器学习方法所固有的缺陷依然存在。

参考资料

[1] D. Lowe. “Object recognition from local scale-invariant features,”（基于局部尺度不变特征进行物体识别） in Proc. of International Conference on ComputerVision, 1999.

[2] D. Sadlier, et al, “Automatic TV Advertisement Detection fromMPEG Bitstream,” （自动从MPEG流中进行广告检测）Intl Conf onEnterprise Information Systems,Setubal, Portugal, 7-10 July 2001.

[3] J.M. Sánchez, X. Binefa.“AudiCom: a Video Analysis System forAuditing Commercial Broadcasts,”（音频广告检测系统） in Proc.of ICMCS, 1999, vol. 2, pp.272-276, Firenze, Italy, June 1999.

[4] P. Viola and M. Jones, “Robust real-time object detection,”（具有鲁棒性的实时物体检测）InternationalJournal of Computer Vision, 2002.

[5] R. Lienhart, et al. “On the Detection and Recognition of TelevisionCommercials,” （电视广告检测与识别）in Proc. of IEEE Conf on Multimedia Computing andSystems, Ottawa, Canada, pp. 509-516, June 1997.

[6] R. Wetzel, et al, “NOMAD,” http://www.fatalfx.com/nomad/, 1998.

[7] T. Hargrove, “Logo Detection in Digital Video,”（电子视频中的商标检测）http://toonarchive.com/logo-detection/, Mar 2001.

[8] X. Hua, L. Lu, and H. Zhang.“Robust learning-based TV commercialdetection,”（基于学习的鲁棒性的电视广告检测） in Proc. ofICME, 2005, pp. 149?152.

[9] Y. Ke, D. Hoiem, and R. Sukthankar.“Computer vision for musicidentification,”（基于计算机视觉的音乐识别） in Proc. ofComputer Vision and Pattern Recognition, 2005。

发明内容

本发明的目的在于提出一种高效的进行广告检测的视频拷贝检测方法；其能够处理大规模视频，检测过程快速准确。

视频拷贝检测的任务是给定若干查询的视频片段，在视频数据库中进行查找，检测是否存在相应的视频片段与查询视频片段内容相同；如果存在，查询视频片段就被称为测试视频拷贝片段。

本发明提供的一种进行广告检测的视频拷贝检测方法，其先采用音频匹配的方法检测出候选的匹

配广告片段，然后采用图像匹配的方法去验证候选匹配片段。

一、.基于音频特征的广告拷贝检测方法

基于音频的拷贝检测与基于图像的拷贝检测类似，目的都是能够识别出数据库中的广告。该方法主要分为两个过程：1.对广告的处理；2.检测实时视频流。第一阶段的主要工作是：首先提取广告的音频，然后利用Ke[9]的方法提取广告的音频特征，并建立音频特征库。第二阶段的主要工作是：输入实时视频流，然后截取查询音频片段，提取该查询片段的音频特征，在广告音频数据库中进行查找，如果能够检索出与之相匹配的广告片段，就判定该片段为广告。

该方法的流程为：

（1）从广告视频语料库进行预处理，提取出相应的音频；

（2）提取广告音频特征

首先利用短时傅里叶变换（STFT）把每段广告音频数据转换成二维的时间-频率图像（即声谱图），然后在Viola-Jones特征集合上应用boosting算法，计算局部描述子，把这些描述子作为用于检索的广告音频特征，进而构建广告音频特征库，用.kdb和.fdb两个文件来保存；

其中：描述子的计算方法采用Ke[9]提出的音乐识别系统，具体算法如下：

采用0.372秒的滑动窗口在33个对数间隔的频率段上计算一个声谱图，滑动窗口的步长为11.6毫秒。然后利用过滤后的声谱图在时间和频率的不同尺度上去计算32个简单的一阶和二阶的差值。过滤过程采用[6]提出的积分图像技术能够快速地完成。这些过滤器的输出值是一系列的阈值，这些阈值能够保证经过滤器处理后在每11.6毫秒的时间步长中只有一个bit的值能够保留。采用boosting算法来选取过滤器和阈值，从而形成了32bit的描述子。在训练阶段，boosting算法利用一些正样本（变形但是匹配）和负样本（不匹配）来选择那些能够提供高区分度且对噪声具有鲁棒性的过滤器和阈值。（3）对检测视频进行拷贝检测

输入待检测视频流，然后每隔3秒截取一段3秒长的音频。之所以这么做，是因为经过我们实验测试得出Ke[9]的系统能够识别的最短音频为3秒，而且经过测试还发现如果一段音频中包含的数据库中的音频占的比例大于60%，就可以识别出该段音频为广告。该测试主要是针对在广告边界处截取到的音频为混合音频的情况。混合音频就是既有数据库中A音频的片段，又有数据库中B音频的片段或者是既有A音频的片段又有非数据库中音频N的片段。总之，考虑到准确率的问题，我们最终选定截取3秒长的音频；考虑到运行时间的问题，我们选定每隔3秒去截取音频。

采用与步骤（1）、（2）相同的方法从检测视频中抽取音频，再转换成声谱图，形成查询片段，然后进一步计算每段查询片段的描述子，再采用标准哈希表进行特征匹配，在广告音频特征库中检索出与查询片段相匹配的候选片段，从而实现音频匹配拷贝检测。

本发明中，定义两个相似的描述子之间的距离不大于2个汉明距离。首先探测哈希表，这一步返回的匹配片段与探测片段的汉明距离为0。然后构造32个探测片段，每个都包含一个比特的反转查询描述子。这样可以找出汉明距离为1的片段。最后，重复上述过程，不同的是每个探测片段包含两个比特的反转描述子，这样可以找出汉明距离为2的片段。进而找出相似的片段。

一旦所有相似的片段都找出后，需要识别与查询片段最相似的片段。为了完成这个过程，该系统采用一个与物体识别技术中采用的局部特征[1]类似的几何验证方法而不是简单的投票系统。对每一段候选音频，确认描述子是不是具有连续匹配性。这里，采用RANSAC算法在时间轴上进行迭代结算，然后采用EM算法计分。RANSAC算法可以在小于500次迭代的过程中收敛。最后进行对齐。在所有候选片段都对齐后，选出具有最高EM得分的片段。

尽管这个方法能够提供精确的音频匹配，但是在不同的节目中经常会出现相似的音乐，这就会导致伪匹配。另外，静默片段经常会导致不正确的匹配。因此采用图像匹配就可以去除掉这些伪匹配。

二、基于图像的广告拷贝检测方法

图像匹配进行广告拷贝检测的方法，具体步骤包括：

（1）广告视频关键帧的抽取

首先需要对广告视频语料库进行预处理，即提取广告视频特征，并建立从广告视频语料库到广告特征库的哈希映射。广告视频特征的提取是在广告视频的关键帧的基础上进行的。

利用镜头分割技术提取关键帧。由于镜头之间有突变或渐变的切换（这里把渐变镜头的渐变结束点作为镜头边界），而镜头的第一帧很好地反映了这个信息，所以本发明把每个镜头的第一帧作为关键帧提取，并记录下相应的时间轴信息。

本发明利用颜色直方图作为判断镜头变化的主要依据，利用颜色直方图的变化率(HCR)进行比较。该方法的特点在于比较两帧间直方图的分布，而不是比较某一颜色在直方图中的变化。

（2）广告视频关键帧的特征向量形成

利用分块颜色直方图作为关键帧的特征：将每一个关键帧等分成4×4块，对每一块分别计算其平均亮度特征，然后计算相邻块之间的灰度排序特征；通过结合关键帧的时间轴信息，就能得到每一关键帧的十七维特征向量信息；

（3）广告视频语料库到广告特征库的映射

对每个广告视频，通过哈希映射，将其所有的关键帧的特征信息写入到一个对应的.feature文件中，形成了从广告视频语料库到广告特征库的一一映射；其中.feature文件的格式如下：第一行记录该特征文件对应的广告视频信息，即广告视频文件名称以及存放地址；第二行开始按时间轴的顺序分别记录关键帧的特征信息，共十七维，互相之间以空格形式间隔开；

（4）对视频进行拷贝检测

对检测视频采用基于局部排序的视频拷贝检测方法，具体的步骤如下：

按照步骤（1）、（2）中的方法提取检测视频的特征；

匹配待检测视频特征与广告特征库，并生成匹配结果图；采用基于局部敏感哈希的￡近邻查询模式，使得数据库中视频帧距离近的矢量聚集到一起的概率远高于距离远的矢量；

对匹配结果图中的每个节点在匹配图中查找其最长路径，并形成最终的拷贝检测结果；采用Floyd-warshall算法，计算出每个节点之间的最短路径，通过该路径信息形成视频的拷贝的最长路径，从而判定检测视频是否为广告视频库中视频的一个拷贝。

对视频进行拷贝检测时，同时进行过期广告的清除，具体方法如下：首先检查广告库内视频的last_vist字段，若此时间已经超过了过期广告的时间期限则视为过期广告，从视频库中删除这条视频。每次在拷贝检测完成后，更新选中的视频基本信息表的last_vist字段为当前日期。

本发明的有益效果在于：本发明方法采用把图像和音频特征二者相结合的算法，高效；其能够处理大规模视频，检测过程快速，结果更加精确。

附图说明

图1为基于图像的视频拷贝检测流程图。

图2为提取广告图像特征流程图。

具体实施方式

下面结合附图和实例对本发明做进一步阐述。

图1为基于图像的视频拷贝检测流程图。

图2为提取广告图像特征流程图。

1.下面详细介绍实验的镜头分割算法和广告特征数据库的建立。

1.1镜头分割算法

这里颜色特征选取HSV的颜色直方图，其中直方图只选取h和s分量，不选择v的原因在于，对于渐变来说，色度和饱和度不会变化很大，但亮度会在这个过程中发生较大变化，去掉该分量就对渐变有一定的适应性。

颜色直方图变化率(HCR)：

其中，

分别表示相邻两帧图像的颜色直方图。

定义如下：

其中表示直方图k在第i个bin上的高度，N表示直方图H所划分的所有bin的数量。这种计算整体颜色变化的方法特点在于不关注颜色的绝对值变化，而是计算两帧间颜色在颜色直方图中分布的变化，根据计算的结果，设定阈值来确定镜头切边的位置。

1.2 广告视频特征数据库的建立

对每个广告视频，通过哈希映射，将其所有的关键帧的特征信息写入到一个对应的.feature文件中，这样就形成了从广告视频语料库到广告特征库的一一映射。.feature文件的格式如下：第一行记录该特征文件对应的广告视频信息（广告视频文件名称以及存放地址）；第二行开始按时间轴的顺序分别记录关键帧的特征信息，共十七维，互相之间以空格形式间隔开。

2.下面详细介绍基于音频的拷贝检测的测试结果。

本发明中把查询音频分割成一系列3秒的探测片段，这些片段互不相交。测试结果显示，查询的准确率在90%左右，查全率则在80%左右。如果测试视频时长为6分钟，那么运行时间约为3.5分钟。

本发明还实验验证了截取不相交的探测片段的优势。如果截取的探测片段互相重叠，比如每隔1秒截取3秒的探测片段，运行时间会非常慢。经过实验验证，同样用6分钟时长的视频进行测试，如果每隔1秒截取3秒长的片段的话，运行时间约为30分钟，同时准确率也没有太大提高。

本发明还针对不同类型的音频片段验证了其准确率。如果截取的3秒音频为全A或全B，则能够准确的这种类型的片段为广告。如果截取的片段为全N，能够判定这种类型的片段为非广告。如果截取的片段为AB或AN混合，这种类型的片段则有可能会判断出错。这是因为如果是ABB这种情况，二者都是数据库中的广告，且总是有一种广告的比例在混合音频中大于60%，理论上应该能被识别出来。但是如果占有较大比例的音频B在其所属的广告音频中占的比例很小，则很有可能不会被识别出来。

表1展示了不同数量的数据库样本对检索结果的影响。本发明中的方法在数据库样本数目较少的情况下准确率很高。随着数据库样本数目的增多，准确率依然在90%以上。这是因为本发明中采用的特征描述方法对不同的音频具有很好的区分度。

表1：数据库中的样本对查询结果的影响

。

Claims

1.一种进行广告检测的视频拷贝检测方法，其特征在于：先采用音频匹配的方法检测出候选的匹配广告片段，然后采用图像匹配的方法去验证候选匹配片段，实现视频拷贝检测。

2.根据权利要求1所述的视频拷贝检测方法，其特征在于：所述检测出候选的匹配广告片段时采用的音频匹配的方法，具体步骤如下：

（1）从广告视频语料库提取出相应的音频；

（2）提取广告音频特征

首先利用短时傅里叶变换把每段广告音频数据转换成声谱图，然后在Viola-Jones特征集合上应用boosting算法，计算局部描述子，得到广告音频特征，进而构建广告音频特征库；

其中：描述子的计算方法如下：采用0.372秒的滑动窗口在33个对数间隔的频率段上计算一个声谱图，滑动窗口的步长为11.6毫秒；然后利用过滤后的声谱图在时间和频率的不同尺度，去计算32个简单的一阶和二阶的差值，得到32bit的描述子；

（3）对检测视频进行拷贝检测

3.根据权利要求2所述的视频拷贝检测方法，其特征在于：所使用标准哈希表进行特征匹配的方法，具体如下：

（1）选取描述子之间的距离不大于2个汉明距离的候选片段作为相似片段；

（2）进一步采用RANSAC算法在时间轴上进行迭代结算，然后采用EM算法计分，选出具有最高EM得分的片段，即为与查询片段最相似的片段，实现音频匹配拷贝检测。

4.根据权利要求1所述的视频拷贝检测方法，其特征在于：所述查找描述子之间距离不大于2个汉明距离片段的方法如下：首先探测哈希表，这一步返回的匹配片段与探测片段的汉明距离为0；然后构造32个探测片段，每个都包含一个比特的反转查询描述子，这样可以找出汉明距离为1的片段；最后，重复上述过程，每个探测片段包含2bit的反转描述子，这样可以找出汉明距离为2的片段。

5.根据权利要求1所述的视频拷贝检测方法，其特征在于：所述图像匹配的方法，具体步骤包括：

（1）广告视频关键帧的抽取

利用镜头分割技术提取关键帧，把每个镜头的第一帧选为关键帧，并记录下相应的时间轴信息；

（2）广告视频关键帧的特征向量形成

（3）广告视频语料库到广告特征库的映射

（4）对视频进行拷贝检测

按照步骤（1）、（2）中的方法提取检测视频的特征；

6.根据权利要求4所述的视频拷贝检测方法，其特征在于：对视频进行拷贝检测时，同时进行过期广告的清除，具体方法如下：首先检查广告库内视频的last_vist字段，若此时间已经超过了过期广告的时间期限则视为过期广告，从视频库中删除这条视频。