CN102737135A

CN102737135A - 基于变形敏感的软级联模型的视频拷贝检测方法及系统

Info

Publication number: CN102737135A
Application number: CN2012102385531A
Authority: CN
Inventors: 田永鸿; 姜梦林; 黄铁军
Original assignee: Peking University
Current assignee: Chinese Academy Of Press And Publication; Peking University
Priority date: 2012-07-10
Filing date: 2012-07-10
Publication date: 2012-10-17
Anticipated expiration: 2032-07-10
Also published as: CN102737135B

Abstract

本发明提供了基于变形敏感的软级联模型的视频拷贝检测方法及系统。包括以下步骤：预处理步骤，从查询视频中提取出格式一致的视觉关键帧和音频帧；变形识别步骤，判定所述查询视频经受的变形的类别，并将它传递给该类别对应的级联检测器链；检测步骤：级联检测器链中的检测器依次处理查询视频，直到某个检测器判定它为拷贝，或者所有检测器全部判定它为非拷贝，在某一个检测器内部，首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，然后利用时域金字塔匹配TPM将帧层次的检索结果整合为视频层次的拷贝检测结果。本发明可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝，在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。

Description

基于变形敏感的软级联模型的视频拷贝检测方法及系统

技术领域

本发明提供了一种基于变形敏感的软级联模型的视频拷贝检测方法及系统，可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝，在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。本发明属于计算机网络技术领域。

背景技术

随着经济文化发展和技术进步，全球影视行业近年来一直稳步增长。仅2011年，我国电影票房就超过131亿人民币，较2010年增长28.93％，而全球电影总票房更是创下326亿美元的新高。影视产业已经成为很多国家的支柱产业之一，比如美国的影视产业仅在2009年就创造了1370亿美元的产值，提供了220万个工作岗位。

在影视资源日益丰富的同时，随着视频复制和网络传输技术的发展，盗版视频也愈加泛滥。据统计，全球超过23％的因特网流量用于传输侵犯知识产权的内容，其中大部分为盗版影视节目。如此大规模的盗版视频严重危害了影视作品创作者和广大消费者的利益。仅在2005年，盗版电影就导致全球电影产业损失了约205亿美元。同时，视频盗版问题也引发了越来越多的法律纠纷，比如Viacom媒体公司就曾于2007年起诉YouTube播放盗版视频，并索赔10亿美元。视频盗版问题正引起全社会的关注，各个国家纷纷出台相应法规打击盗版，比如美国通过了《反网络侵权与盗版法案》，大力制裁提供盗版视频的网站。

打击盗版视频，保护数字版权，已经成为社会各界的共识。但是爆炸式增长的视频数量给版权保护带来了巨大的困难。2012年1月的统计数据表明，每分钟上传到YouTube的视频长度已超过60小时。面对海量视频内容，传统的人工审查制度显然力不从心，必须依靠自动的数字版权管理DRM(Digital RightsManagement)技术。

现有的DRM技术主要包括加密(Encryption)、数字水印(DigitalWatermarking)和基于内容的拷贝检测CBCD(Content-Based Copy Detection)。其中，加密是指将他人容易理解的明文信息编码成难以理解的形式。目前，基于加密的DRM技术有诸多缺陷：成熟的文本加密技术不能直接应用于视频数据；不同的DRM系统使用不同的加密方法，导致系统缺乏互用性和兼容性；加密技术限制了合法用户的使用权，妨碍了大众获得版权失效的视频内容；加密技术大大增加了发布数字视频的成本；加密技术面临模拟陷阱(Analog Hole)，即可以通过模拟方式翻录视频，然后重新数字化以绕过加密保护。数字水印是指向数字作品中嵌入特定信号，该信号可以被检测或提取出来，从而对作品的版权进行认定。数字水印同样面临诸多挑战：嵌入的水印不够健壮，难以抵御如压缩之类的变形；嵌入水印会导致视频质量下降；数字水印不具备完备性，即任何人都可以向视频中加入自己的水印；数字水印同样面临模拟陷阱。上述问题限制了加密技术和数字水印在视频版权保护中的应用，作为两者的替代方案，基于内容的拷贝检测吸引了越来越多的关注。

所谓拷贝(Copy)，是指从一段参考视频(Refe rence Video)经过某些音视频变形(Audio-Visual Transformation)后得到的视频。这里的“参考视频”可以看作受到版权保护的原始视频，比如影视节目，“拷贝”可以看作盗版视频，“音视频变形”是指在制作拷贝的过程中有意或无意加入的修改，比如在电影院偷录电影时会引入噪声和颜色失真。基于内容的拷贝检测CBCD(Content-Based Copy Detection)，是指对于给定的参考视频库(ReferenceVideo Data Base)和任意查询视频(Query Video)，通过分析查询视频的内容来判断它是否包含来自参考视频库的拷贝片段，如果是的话，还要找出该片段在查询视频和参考视频库中的位置。

拷贝检测可以有效克服基于加密和数字水印的DRM技术的缺陷。但是，拷贝检测也面临一系列技术难点。首先，拷贝视频可能经受了某些音视频变形，比如模糊、Gamma变换等质量下降，甚至是画中画、插入模式等内容改变(如图1所示)，这使得从拷贝视频和原始的参考视频中提取出不变的音视频特征(Audio-Visual Feature)变得困难，即要求特征具有很高的健壮性(Robustness)。其次，有一些非拷贝查询视频(Non-Copy Query)与参考视频非常相似(如图2所示)，为了准确地排除这些查询视频，需要特征具有很高的区分性(Discriminability)。再次，实际应用中的参考视频库规模很大，比如一家大型电影公司的所有电影，为了快速比对查询视频和参考视频，需要特征具有很高的紧致性(Compactness)。最后，对于基于关键帧和索引的拷贝检测方法，需要合适的时域投票方法(Temporal Voting Approach)将帧层次的检索结果转化为视频层次的拷贝检测结果。为了解决上述难点，现有拷贝检测方法主要关注音视频特征、时域投票和多特征融合三个方面。

音视频特征：现有的音视频特征可以分成局部视觉特征、全局视觉特征和音频特征三类。局部视觉特征描述了一帧图像中的局部区域，或连续多帧图像中的时空立方体，比如SIFT(Scale Invariant Feature Transform)、SURF(Speeded Up Robust Features)和STIP(Space-Time Interest Points)，等等。全局视觉特征描述了一帧或连续多帧图像的整体统计信息，比如颜色直方图(Color Histogram)和序数度量(Ordinal Measure)。音频特征描述了视频音轨的时域和/或频域统计信息，比如健壮音频哈希(Robust Audio Hashing)和MFCC(Mel-Frequency Cepstral Coefficients)。

当前的音视频特征都不是“包打天下”的，即没有一种特征能够抵御所有音视频变形。总体来说，局部视觉特征对部分内容改变的视觉变形(PartialContent-Altered Visual Transformation)具有较好的健壮性，因为当图像或视频中的部分区域被改变时，仍然能够从未被改变的区域提取出不变的局部特征。但是对于一些内容保持的视觉变形(Content-Preserved VisualTransformation)，比如模糊和加噪，局部视觉特征的健壮性不如全局视觉特征。此外，局部视觉特征的时空代价远高于全局视觉特征。全局视觉特征与局部视觉特征具有鲜明的互补性，它对于内容保持的视觉变形具有较高的健壮性，并且具有紧致性高、匹配速度快的优点。全局视觉特征的缺点在于对部分内容改变的视觉变形不够健壮，比如当视觉关键帧中最暗的区域被一个很亮的电视台标志挡住的时候，它的序数度量就会发生很大的改变。音频特征能够很好地抵御内容保持的音频变形(Content-Preserved Audio Transformation)，并且也具有紧致性高、匹配速度快的优点。但是音频特征对于内容改变的音频变形(Content-Altered Audio Transformation)，比如混合语音，仍然不够健壮。

时域投票：利用一种视觉特征或音频特征，可以为查询视频的视觉关键帧或音频帧找到最相近的参考视频的视觉关键帧或音频帧。然而拷贝检测需要的是为一个查询视频找到最相近的参考视频，这就引入了时域投票(TemporalVoting)的问题。时域投票可以利用视频的时域特性检测经过严重变形的拷贝，同时排除与参考视频相似的非拷贝，因此对于拷贝检测系统非常重要。目前已经有多种时域投票方法。霍夫变换(Hough Transform)是一种适用于所有音视频特征的时域投票模型，它的出发点是：两个视频之间相互匹配的视觉关键帧或音频帧应该是对齐的，即所有匹配具有相似的时间差。几何一致性匹配(Geometrically Consistent Matching)以及时空验证(Spatio-TemporalVerification)都是针对局部视觉特征的时域投票模型，两者的出发点都是：限制查询视频和参考视频的特征匹配符合某个全局变换模型(Global TransformModel)。基于维特比算法的帧融合(Viterbi-based Frame Fusion)也是一种适用于所有音视频特征的时域投票模型，该方法将时域投票过程转化为隐马尔科夫模型(Hidden Markov Models)的解码问题，并利用一个修改的维特比算法(Viterbi Algorithm)进行快速求解。

上述几种时域投票方法都存在一定的问题。霍夫变换对帧层次匹配施加了很强的时域一致性约束，虽然能较好地排除非拷贝，但也容易漏掉一些经过严重变形的拷贝；几何一致性匹配和时空验证都是为局部视觉特征设计的，在计算全局变换模型时需要使用局部视觉特征的位置等信息，因此不适用于全局视觉特征和音频特征；基于维特比算法的帧融合使用的模型复杂，计算速度慢。

多特征融合方法：如前所述，目前还没有“包打天下”的特征，因此越来越多的拷贝检测方法开始利用多种特征，即使用几个相互独立的检测器(Detector)，每个检测器利用一种特征得到一个单独的拷贝检测结果，最后将几个检测器的结果融合成为最终的拷贝检测结果。竞争型结果融合模型就是一个典型的例子，该模型将几个检测器的结果进行竞争，胜出的作为最终结果。重排序型结果融合模型类似于元搜索引擎中使用的重排序(Re-ranking)策略，即每个检测器分别返回若干个与查询视频最相似的参考视频，对这些参考视频进行合并同时重新计算相似度，取相似度最高的参考视频作为最终结果。校验型结果融合模型将几个检测器的结果相互校验，若保持一致则成为最终结果，否则采用额外的方法重新计算。分工型结果融合模型首先对查询视频进行变形识别，根据它经受的变形调用相应的检测器进行处理。

上述结果层融合方法虽然都取得了比单一检测器好的效果，但仍然存在一定的问题。对竞争型、重排序型和校验型融合方法来说，因为要执行所有检测器，所以处理时间至少是各个检测器的运行时间之和，检测效率低下。分工型融合方法每次只需要执行一个检测器，相对于使用单一检测器来说，仅仅增加了变形识别的时间；但是它的总体性能严重依赖于变形识别的效果，对于经受复杂变形的查询视频，变形识别很可能失败，这时系统会选择不合适的检测器，影响检测效果。

发明内容

本发明针对较大规模、包含复杂变形的视频拷贝检测问题，提出了一种基于变形敏感的软级联TSSC(Transformation-Sensitive Soft Cascade)模型的视频拷贝检测方法及系统。

一种基于变形敏感的软级联模型的视频拷贝检测方法，包括以下步骤：

预处理步骤，从查询视频中提取出格式一致的视觉关键帧和音频帧；

变形识别步骤，判定所述查询视频经受的变形的类别，并将它传递给该类别对应的级联检测器链；

检测步骤，所述级联检测器链中的检测器依次处理所述查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝。每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，然后利用时域金字塔匹配TPM(Temporal Pyramid Matching)将帧层次的检索结果整合为视频层次的拷贝检测结果。

所述预处理步骤用于从格式千差万别的视频中提取出格式一致的视觉关键帧和音视帧。预处理的第一步是提取视觉关键帧，第二步是提取音频帧，第三步是针对特定的变形进行额外的处理。

作为预处理方案的优选，本发明的实施例针对画中画和左右翻转变形，采取了额外处理。

所述变形识别步骤将音视频混合变形分成若干类别，并根据查询视频的音频帧和视觉关键帧的分类结果来判定查询视频经受的变形的类别。其中，对音视频混合变形进行分类的依据有两点：第一，各个类别具有较大的类间差异和较小的类内差异，可以被有效地区分开。第二，同一个类别中的变形可以被相同的级联检测器链处理。

作为变形识别方案的优选，本发明的实施例将音视频混合变形分为三类，第一类指“包含音频，并且经受内容保持的音频变形”，第二类指“静音或经受内容改变的音频变形，并且经受内容保持的视觉变形”，第三类指“静音或经受内容改变的音频变形，并且经受内容改变的视觉变形”。本发明利用WASF特征来判断视频是否是静音的，利用WASF特征与支持向量机SVM来判断视频是否经受了内容改变的音频变形，利用稠密彩色SIFT词袋(Dense Color SIFTBag-of-Words，DCSIFT BoW)特征与SVM来判断视频是否经受了内容改变的视觉变形。

所述检测器通过处理查询视频的视觉关键帧或音频帧，来判定查询视频是否是给定参考视频库的拷贝。在某一个检测器内部，首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，然后利用时域金字塔匹配TPM将这些帧层次的检索结果整合为视频层次的拷贝检测结果。

所述视觉特征和音频特征有多种，每一种特征对应一个检测器。具体说来，应该包含一种局部视觉特征，用于抵御内容改变的视觉变形(Content-AlteredVisual Transformation)，比如摄录、画中画和后处理；应该包含一种全局视觉特征，用于抵御内容保持的视觉变形(Content-Preserved VisualTransformation)，比如压缩、Gamma变换和加噪；还应该包含一种音频特征，用于抵御内容保持的音频变形(Content-Preserved Audio Transformation)，比如MP3压缩和多带扩展。

作为特征的优选，本发明的实施例采用了一种局部视觉特征DCSIFT BoW，一种全局视觉特征DCT，以及一种音频特征WASF。

所述TPM用于将帧层次的检索结果整合为视频层次的拷贝检测结果。TPM包含以下步骤：第一步，对帧层次匹配集合进行霍夫变换，得到若干视频匹配的假设，每个假设指明了一个查询视频片段和一个参考视频片段。第二步，对于第一步中得出的每一个假设，将其中指定的查询视频片段和参考视频片段分割为越来越精细的子段，并在多个粒度上计算视频之间的相似度。在每一个粒度上，只有位于对应子段的帧层次匹配被保留下来，并参与相似度的计算。各个粒度上的相似度的加权和构成最终的视频相似度，每一个假设及对应的相似度就构成了一个视频匹配。第三步，从第二步计算出的视频匹配中挑选出相似度最大的那一个作为最终输出，并根据它的相似度判定查询视频是否为拷贝：若相似度大于等于某个预先设定的阈值，则判定它是拷贝视频。

所述级联检测器链有多条，每一条链处理一类音视频混合变形。构造级联检测器链的依据有两点：第一，要充分利用各个检测器对不同变形的健壮性。第二，要保留一定的冗余处理能力，以应对变形识别错误的情况。

作为级联检测器链的优选，本发明的实施例为第一类和第二类变形构建了一个快速的级联检测器链，其中包含WASF检测器和DCT检测器，为第三类变形构建了一个健壮的级联检测器链，包含WASF检测器、DCT检测器以及DCSIFT检测器。

所述级联检测器链包含一个相似度阈值向量，其中每一个阈值对应一个检测器，用于判定查询视频是否是拷贝。所述TSSC模型使用阈值学习算法，自动为级联检测器链选择出最优的相似度阈值向量。

所述阈值学习算法定义了检测器在一个训练视频集上的错误率，用于衡量检测器在训练视频集上的检测效果。所述错误率是检测器在所有训练视频上的检测代价的加权和。训练视频的权重是不同的，而且可以根据视频重要性的变化进行调整。检测代价与检测器使用的相似度阈值有关，对于相同的视频匹配，不同的阈值会导致不同的拷贝判定结果，继而导致不同的检测代价。因此，对于给定的检测器和训练视频集，错误率取决于检测器使用的相似度阈值以及训练视频的权重分配。

所述阈值学习算法的依据有两点：第一，最优阈值应该在减少假正检FP(False Positive)和减少假负检FN(False Negative)之间取得合适的折衷，为此需要在一系列阈值上计算检测器的错误率，阈值的取值范围是检测器为所有训练视频返回的视频匹配的相似度，与最小错误率相对应的相似度就被选作最优阈值。第二，后面的检测器应该重点关注前面的检测器检测错误的训练视频，从而充分发挥检测器之间的互补性。为此，在执行后面的检测器时，要修改训练视频的权重，使得之前被正确检测的视频的权重减小。

一种基于变形敏感的软级联模型的视频拷贝检测系统，包括以下模块：

预处理模块，从查询视频中提取出格式一致的视觉关键帧和音频帧；

变形识别模块，判定所述查询视频经受的变形的类别；

多个检测器模块，每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到帧层次匹配的集合，然后利用时域金字塔匹配TPM处理帧层次匹配的集合，得到一个视频匹配；

TSSC模块，根据变形识别结果以及用户的配置，调用一组检测器模块依次处理查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝；

用户配置与结果展示模块，允许用户选择系统使用的预处理操作和检测器，并将拷贝检测结果展示给用户。

每一个检测器模块包括以下子模块：

帧层次检索子模块，利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，查询视频的视觉关键帧或音频帧与检索到的参考视频的视觉关键帧或音频帧构成帧层次匹配的集合；

时域金字塔匹配TPM子模块，利用时域金字塔匹配TPM处理帧层次匹配的集合，得到与查询视频最相似的参考视频，以及两者的相似度，查询视频与返回的参考视频构成一个视频匹配。

与现有技术相比，本发明的创新点和优势主要包括：

1、利用预处理排除了视频格式不同造成的影响；在保持视频主要的视觉内容的同时丢弃了大部分视频帧，降低了帧层次检索的时空代价；通过针对画中画和翻转变形的额外处理，提高了拷贝检测效果。

2、挑选了多种互补的音视频特征，每种特征都能有效抵御一类变形，通过TSSC模型对这些特征进行结果层融合，可以抵御绝大部分变形。

3、利用TPM将帧层次的检索结果整合为视频层次的拷贝检测结果。TPM充分利用了视频的时域特性，提高了拷贝检测效果，并且模型简单，计算快速。

4、利用变形识别判断出查询视频经受的变形的类别，并为每一类变形“量身订做”了一条级联检测器链，充分利用多个检测器的互补优势，大大提高了拷贝检测效果。

5、对于绝大部分查询视频，TSSC模型只需要执行一到两个非常快速的检测器，仅仅对于少数经受复杂变形的查询视频，TSSC模型才需要执行慢速的检测器。总体说来，TSSC模型节省了大部分处理时间，大大提高了拷贝检测速度。

6、TSSC模型利用阈值学习算法，自动选择最优的相似度阈值。这样一方面充分发挥了检测器之间的互补特性，使系统达到最优的检测效果和速度，另一方面避免了人工调整阈值的麻烦，提高了系统的通用性。

7、本发明可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝，在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。

附图说明

图1拷贝视频经受的视觉变形示例：中心是原始的参考视频，周围是拷贝视频；

图2与参考视频非常相似的非拷贝查询视频示例：(a)是在不同的球队在同一个冰球场打球，(b)是不同的嘉宾接受同一个主持人采访；

图3基于变形敏感的软级联模型的视频拷贝检测方法的流程图；

图4变形识别过程的流程图；

图5检测器的框架；

图6利用DCS I FT BoW特征检索视觉关键帧的过程；

图7DCT特征的能量子带分布；

图8WASF特征提取过程；

图9TPM预处理过程示意图；

图10一个L＝2的TPM的示例；

图11基于变形敏感的软级联模型的视频拷贝检测系统的框架。

具体实施方式

下面结合实施例和附图，对本发明进行详细的描述。

一种基于变形敏感的软级联模型的视频拷贝检测方法，其整体流程参见图3。其中，预处理操作包括以下步骤：

步骤11：提取视觉关键帧；本发明按照每秒3帧的频率，等间隔地提取视觉关键帧。每秒3帧的采样率可以在保持视频主要视觉内容的同时丢弃大部分视频帧，节约了视觉帧检索的时空代价。

步骤12：提取音频帧；为此，首先要将视频的音轨分割成90毫秒的音频字，相邻音频字之间有60毫秒的重叠，然后，连续198个音频字构成一个6秒长的音频帧，相邻音频帧共用178个音频字，即有5.4秒的重叠。

步骤13：对于查询视频，采取了额外的预处理措施，以便更好地应对画中画和左右翻转变形；具体说来，利用二维霍夫变换来检测两组平行线，继而检测和定位出画中画的区域；对于包含画中画的视频，要分别对整个视觉关键帧和画中画部分进行检测，只要有一个结果判定它是拷贝，就确认它是拷贝；此外，为应对潜在的左右翻转变形，所有判定为非拷贝的查询视频都要翻转过来重新进行拷贝检测。

变形识别模块将音视频混合变形分为三类，第一类指“包含音频，并且经受内容保持的音频变形”，第二类指“静音或经受内容改变的音频变形，并且经受内容保持的视觉变形”，第三类指“静音或经受内容改变的音频变形，并且经受内容改变的视觉变形”。变形识别过程参见图4，包括以下步骤：

步骤21：从查询视频的音频帧中提取WASF特征，WASF特征提取过程参见步骤61。若某一个WASF特征向量全部由0组成，则说明对应的音频帧是静音的。如果超过10％的音频帧是静音的，则判断该视频是静音的；如果查询视频是静音的，则执行步骤23，否则执行步骤22。

步骤22：将查询视频的WASF特征依次送入一个支持向量机SVM(SupportVector Machine)，判断对应的音频帧是否经受了内容改变的音频变形。通过对所有音频帧的结果进行投票，判断该视频是否经受了内容改变的音频变形。如果查询视频没有经受内容改变的音频变形，则判定它属于第一类变形，并终止变形识别过程；否则执行步骤23。

步骤23：对查询视频进行画中画检测，如果包含画中画，则判定它属于第三类变形，并终止变形识别过程；否则执行步骤24。

步骤24：从查询视频的视觉关键帧中提取DCSIFT BoW特征，DCSIFT BoW特征提取过程参见步骤41；将这些特征依次送入第二个SVM，判断对应的视觉关键帧是否经受了内容改变的视觉变形。通过对所有视觉关键帧的结果进行投票，判断该视频是否经受了内容改变的视觉变形。如果查询视频经受了内容改变的视觉变形，则判定它属于第三类变形，否则判定它属于第二类变形。终止变形识别过程。

本发明采用的检测器的框架参见图5，检测过程包括：

步骤31：在离线处理阶段，从所有参考视频的视觉关键帧(音频帧)中提取某种视觉特征(音频特征)，然后存储在合适的索引结构中。

步骤32：在查询阶段，检索查询视频的视觉关键帧(音频帧)。为此，首先使用步骤31中的特征提取方法，从查询视频的视觉关键帧(音频帧)中提取出特征，然后在参考特征索引中进行搜索，为每一个查询视频的视觉关键帧(音频帧)找出最相似的K_F个参考视频的视觉关键帧(音频帧)，得到一个帧层次匹配的集合FM，其中包含一系列帧层次匹配：

fm＝<q，t(q)，r，t(r)，fs> (1)

其中，q和r分别表示查询视频和参考视频的ID，t(q)和t(r)分别表示查询视频的视觉关键帧(音频帧)和参考视频的视觉关键帧(音频帧)的时间戳，fs表示两个视觉关键帧(音频帧)的相似度；fm表示q位于t(q)时刻的视觉关键帧(音频帧)匹配上了r位于t(r)时刻的视觉关键帧(音频帧)，两帧之间的相似度为fs。K_F代表为每个查询视频的视觉关键帧(音频帧)检索出的最相似的参考视频的视觉关键帧(音频帧)的数目，其取值范围是5≤K_F≤100，本发明的实施例使用K_F＝20。

步骤33：在查询阶段，对帧层次匹配集合FM进行时域金字塔匹配TPM(Temporal Pyramid Matching)，得到最相似的视频层次匹配：

vm(q)＝<q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r)，vs> (2)

其中，q和r分别表示查询视频和参考视频的ID，t^B(q)和t^E(q)表示查询视频q中的拷贝片段的起止时间戳，t^B(r)和t^E(r)表示该拷贝片段对应的参考视频r中的片段的起止时间戳，vs表示查询视频q与参考视频r的相似度。vm(q)表示q的片段[t^B(q)，t^E(q)]匹配到了r的片段[t^B(r)，t^E(r)]，两个视频之间的相似度为vs。

然后，根据vs和一个预先设定的相似度阈值θ判定查询视频是否为拷贝，若vs≥θ，则输出：

C(q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r)) (3)

表明q是r的拷贝，简记作C(q，r)。其中公式(3)中各个参数的含义与公式(2)相同。否则输出：

&Not; C (q) - - - (4)

表明q不是拷贝。

本发明利用三种互补的音视频特征，即DCSIFT BoW、DCT和WASF，构建了三个相互独立的检测器d_CSIFT、d_DCT和d_WASF，每个检测器都按照步骤31～33进行拷贝检测。

利用DCSIFT BoW特征检索视觉关键帧的过程参见图6，其过程包括：

步骤41：在离线处理阶段，从所有参考视频的视觉关键帧中提取出稠密彩色SIFT(Dense Color SIFT，DCSIFT)特征，量化为词袋BoW(Bag-of-Words)表达方式，并存储在倒排索引中。

具体地，DCSIFT与传统SIFT的区别在于稠密(Dense)和彩色(Color)。所谓稠密，是指抛弃了SIFT的兴趣点检测模块，转而使用多尺度稠密采样(Multi-Scale Dense Sampling)将图像划分为多个区域，将其中的单色区域抛弃后，为剩下的每个区域计算一个局部特征。所谓彩色，指的是描述子并不是从灰度图像中提取的，而是从LAB彩色图像的3个通道中提取，然后拼接在一起。

具体地，本发明使用优化的BoW方法对DCSIFT特征进行量化，并使用倒排索引存储量化后的DCSIFT BoW特征。由于向量量化会削弱描述子的区分性，本发明考虑了特征的位置、尺度和主方向信息，以弥补描述子量化时损失的区分性。具体说来，首先随机选择出10,000,000个参考视频的描述子，利用KMeans算法将其聚成800个簇，之后每一个描述子都可以量化为一个簇ID。特征的位置、尺度和主方向也依次量化为4、2和16个格子。于是，扩展后的视觉词典(Visual Vocabulary)包含800×4×2×16＝102,400个视觉单词(Visual Word)。每一个视觉关键帧可以表示为一系列视觉单词的集合，简称为词袋BoW(Bag-of-Words)。为了加快特征匹配，使用倒排索引来存储所有参考视频的DCSIFT BoW特征。

步骤42：在查询阶段，利用相同的特征提取与量化方法，从查询视频的视觉关键帧中提取出DCSIFT BoW特征，并对参考视频库的DCSIFT BoW倒排索引进行搜索，得到帧层次匹配的集合FM。

利用DCT特征检索视觉关键帧的过程包括：

步骤51：在离线处理阶段，从所有参考视频的视觉关键帧中提取出DCT特征，并存储在局部敏感哈希LSH(Locality Sensitive Hashing)中。

具体地，DCT特征是根据相邻图像块的DCT系数的关系计算出来的，其过程包括：

1.将图像转变为灰度图，并归一化为64×64像素；

2.将图像等分为64个子块，子块编号为0～63，每个子块包含8×8个像素；

3.对每一个子块进行离散余弦变换DCT(Discrete Cosine Transform)，得到8×8的系数矩阵；

4.计算出每个系数矩阵的前4个子带的能量，前4个子带的编号为0～3，分布如图7所示；

5.根据相邻子块的子带能量的大小关系，生成一个256维的特征F₂₅₆：

f_{i, j} = \{\begin{matrix} 1, if e_{i, j} &GreaterEqual; e_{i, (j + 1) % 64} \\ 0, otherwise \end{matrix} 0 \leq i \leq 3,0 \leq j \leq 63 - - - (5)

F₂₅₆＝<f_0，0，…，f_0，63，…，f_3，0，…，f_3，63〉(6)

其中e_i，j表示第j个图像块的第i个子带的能量，f_i，j表示DCT特征中的一个维度，F₂₅₆表示一幅图像的DCT特征。

DCT特征采用汉明距离(Hamming Distance)进行相似度计算。DCT特征可以有效地抵御内容保持的视觉变形，并且具有紧致性好、提取与检索速度快的优点。

步骤52：在查询阶段，利用相同的特征提取方法，从查询视频的视觉关键帧中提取出DCT特征，并对参考视频库的DCT LSH进行搜索，得到帧层次匹配的集合FM。

利用WASF特征检索音频帧的过程包括：

步骤61：在离线处理阶段，从所有参考视频的音频帧中提取出WASF特征，并存储在一个LSH中。

具体地，WASF特征的全称为加权音频谱平滑度(Weighted Audio SpectrumFlatness)，该特征首先利用人类听觉系统HAS(Human Auditory System)函数对音频谱进行加权，然后再计算MPEG-7描述子——音频谱平滑度ASF(AudioSpectrum Flatness)，使得特征更加符合HAS的外耳和中耳模型。

WASF特征的提取过程可以概括地说，首先按照图8所示的流程，从每个90毫秒的音频字中提取出一个12维的指纹，然后将一个音频帧所包含的198个音频字的指纹拼接起来，得到一个2，376维的向量，最后将这个高维向量降维到72维，就是一个音频帧的WASF特征。

WASF特征采用欧式距离(Euclidean Distance)进行相似度计算。WASF特征可以有效地抵御内容保持的音频变形，并且具有提取与检索速度快的优点。

步骤62：在查询阶段，利用相同的特征提取方法，从查询视频的音频帧中提取出WASF特征，并对参考视频库的WASF LSH进行搜索，得到帧层次匹配的集合FM。

时域金字塔匹配TPM(Temporal Pyramid Matching)将金字塔匹配核(Pyramid Match Kernel)应用于一维的时域空间，利用帧层次匹配的集合FM，在多粒度上计算视频之间的相似度。其过程包括：

步骤71：预处理，得到一系列假设。对FM进行二维霍夫变换，其中第一个维度代表参考视频的ID，第二个维度代表查询视频的视觉关键帧(音频帧)与参考视频的视觉关键帧(音频帧)之间的时间差δt＝t(q)-t(r)，参考视频ID与时间差δt两两组合得到一个二维直方图，其中的每一个格子(Bin)代表一个查询视频的潜在匹配<r，δt>。霍夫变换的过程就是将FM中的每个fm划分到相应的格子中，然后统计每个格子中的fm，将它们的相似度fs累加起来作为该格子的相似度bs，最终挑选出相似度最高的K_b个格子，K_b的取值范围是5≤K_b≤20，本发明的实施例使用K_b＝10。对于每一个格子<r，δt>，从FM中挑选出与之相符的第一个和最后一个帧层次匹配，从而完成对拷贝片段的定位，得到一个可能的假设(Hypothesis)：

h(q)＝(q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r)> (7)

t^B(q)-t^B(r)＝t^E(q)-t^E(r)＝δt (8)

其中，公式(7)和(8)中各个参数的含义与公式(2)相同。h(q)表示q的片段[t^B(q)，t^E(q)]匹配到了参考视频r的片段[t^B(r)，t^E(r)]。预处理过程如图9所示。

步骤72：对步骤71得到的各个假设分别进行时域金字塔匹配TPM，得到一系列视频匹配。对于给定假设h(q)，TPM将它分割成越来越精细的子段，并在多个粒度上计算视频之间的相似度，如图10所示。具体说来，TPM在第0，1，…，L层上分别进行时域匹配，L的取值范围是1≤L≤5，本发明的实施例使用L＝3。在第l层上，视频片段[t^B(q)，t^E(q)]和[t^B(r)，t^E(r)]都被等分为D＝2^l个时域子段TS(Temporal Segment)，分别记作ts₁(q)，…，ts_D(q)和ts₁(r)，…，ts_D(r)，只有位于对应子段的帧层次匹配被保留下来并参与视频相似度的计算。在第l层上的视频相似度vs^l按照如下方式计算：

{vs}_{i} l = sum {fs | < q, t (q), r, t (r), fs > &Element; FM, t (q) &Element; {ts}_{i} (q), t (r) &Element; {ts}_{i} (r)} - - - (9)

{vs}^{l} = \frac{1}{n_{f}} Σ_{i = 1}^{D} {vs}_{i}^{l} - - - (10)

其中，

表示第l层上、第i个时域子段的相似度，n_f表示[t^B(q)，t^E(q)]中的视觉关键帧(音频帧)的数目，归一化因子1/n_f确保vs^l不受视频片段长度的影响。最终的视频相似度是各层上的相似度的加权和：

vs = 2^{- L} {vs}^{0} + Σ_{l = 1}^{L} 2^{l - L - 1} {vs}^{l} - - - (11)

其中，第0层的相似度权重设置为2^-L，第l层(l＝1，…，L)的相似度权重设置为2^l-L-1。这些相似度权重满足两个条件：第一，越低层的相似度权重越小，这反应了对稀疏层次上的匹配的惩罚；第二，所有权重的和为1，这保证了vs的取值范围是[0，1]。利用TPM计算出一个假设h(q)的相似度之后，就得到一个视频匹配：

vm(q)＝<q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r)，vs> (12)

其中，公式(12)中各个参数的含义与公式(2)相同。vm(q)表示查询视频q的片段[t^B(q)，t^E(q)]匹配到了参考视频r的片段[t^B(r)，t^E(r)]，两个视频之间的相似度为vs。

步骤73：后处理，输出拷贝检测结果。从K_b个视频匹配中挑选出相似度最高的一个，作为最终匹配，并根据它的相似度vs和预先设定的阈值θ判定q是否为拷贝。若vs≥θ，则输出C(q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r))，表明q是r的拷贝，简记作C(q，r)。否则输出表明q不是拷贝。

变形敏感的软级联TSSC(Transformation-Sensitive Soft Cascade)模型如图3所示。TSSC为第一类和第二类音视频混合变形构建了一个快速的检测器链<d_WASF，d_DCT>，为第三类音视频混合变形构建了一个健壮的检测器链<d_WASF，d_DCT，d_DCSIFT>。整个TSSC模型可以表示为：

D = [\begin{matrix} d_{WASF} & d_{DCT} \\ d_{WASF} & d_{DCT} \\ d_{WASF} & d_{DCT} & d_{DCSIFT} \end{matrix}] - - - (13)

TSSC进行拷贝检测的过程如下：

步骤81：利用如11～13所示的预处理步骤，从查询视频q中提取出视觉关键帧和音频帧，并针对画中画和左右翻转变形进行额外处理。

步骤82：利用如21～24所示的变形识别步骤，将查询视频q划分到某一个音视频混合变形类别m(m∈{1，2，3})中。

步骤83：第m条链上的检测器

依次处理q，直到某个检测器判定它为拷贝，或者全部检测器一致判定它为非拷贝。其中N_m表示第m条链上的检测器的数目，d_m，n表示第m条链上的第n个检测器。具体地说，d_m，1首先处理q并返回最相近的参考视频r_m，1，若两者的相似度vs_m，1大于等于某个预先设定的阈值

则系统立刻判定q是r_m，1的拷贝，并终止运行，否则将执行检测器d_m，2。这个过程持续下去，直到N_m个检测器全部运行完毕。仅当N_m个检测器全部判定q为非拷贝时，系统才会接受q为非拷贝视频。

TSSC中的每个检测器都有一个相似度阈值，用于判定查询视频是否为拷贝。检测器d_m，n的相似度阈值记作θ_m，n所有检测器的阈值构成一个矩阵Θ＝[θ_m，n]。TSSC利用一个阈值学习算法，自动挑选出最优的相似度阈值矩阵

其中与θ_m，n的区别在于：前者是通过机器学习选择出的最优相似度阈值，而后者是人工设定的相似度阈值。具体到图3所示的实施例，需要学习的最优阈值矩阵可以表示为：

\hat{Θ} = [\begin{matrix} {\hat{θ}}_{1,1} & {\hat{θ}}_{1,2} \\ {\hat{θ}}_{2,1} & {\hat{θ}}_{2,2} \\ {\hat{θ}}_{3,1} & {\hat{θ}}_{3,2} & {\hat{θ}}_{3,3} \end{matrix}] - - - (14)

为了学习最优阈值，首先需要定义检测器在一个训练视频集上的错误率。阈值学习的目标就是为每一条级联检测器链选择出最优阈值向量，使其在训练视频集上的错误率达到最低。

对于给定的训练视频q、检测器d及相似度阈值θ，假设d返回的视频匹配为vm(q)＝<q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r)，vs>，q对应于θ的检测代价记作c(q，θ)，其计算方法概括如下：

(1)当q的确是拷贝视频时，不妨假设真实结果为则：

a.当d判定q为拷贝，即vs≥θ时：若vm(q)包含了正确的参考视频片段，即

并且[t^B(r)，t^E(r)]与有重叠时，则vm(q)是一个真正检TP(True Positive)，c(q，θ)被设为0；若vm(q)包含了错误的参考视频片段，则它同时造成了一个假正检FP(False Positive)和一个假负检FN(FalseNegative)，c(q，θ)被设为c_FP+c_FN，其中c_FP与c_FN分别代表对一个FP和一个FN的惩罚；

b.若d判定q为非拷贝，即vs＜θ时，则vm(q)是一个FN，c(q，θ)被设为c_FN；

(2)当q为非拷贝视频时：

a.若d判定q为拷贝，则vm(q)是一个FP，c(q，θ)被设为c_FP；

b.若d判定q为非拷贝，则vm(q)是一个真负检TN(True Negative)，c(q，θ)被设为0。

上述规则可以概括为：

其中，

表示q的确是拷贝，T(vm(q))表示vm(q)中包含了正确的参考视频片段。<C_FP，C_FN>是根据现实需要设定的，本发明实施例中设定为<2，0.2>，因为在版权保护等应用中，一般说来，一个FP比一个FN的危害要大得多。

对于给定的训练视频集Q＝{q₁，q₂，…，q_J}、检测器d及相似度阈值θ，d在Q上、对应于θ的错误率记作∈(Q，θ)。其中J表示训练视频的数目，q_j(j＝1，2，…，J)表示第j个训练视频。∈(Q，θ)定义为每个训练视频的检测代价的加权和：

ϵ (Q, θ) = Σ_{j = 1}^{J} w_{j} \cdot c (q_{j}, θ) - - - (16)

其中，w_j(j＝1，2，…，J)表示训练视频q_j的权重。

在TSSC中，每一条级联检测器链处理一类变形，因此在学习阈值的时候，应该以一条级联检测器链为单位，学习出一个最优阈值向量。对于给定的级联检测器链D＝<d₁，d₂，…，d_N>，以及训练视频集Q＝{q₁，q₂，…，q_J}，其中N和J分别表示检测器和训练视频的数目，阈值学习过程包括：

步骤91：初始化训练视频的权重：

w_{1, j} = \frac{1}{J}, j = 1,2, . . ., J - - - (17)

其中，w_1，j(j＝1，2，…，J)表示第1次执行步骤92时，训练视频q_j的权重。

步骤92：对于i=1，2，…，N，分别执行步骤92.1～92.4：

步骤92.1：对训练视频的权重进行归一化：

sum = Σ_{j = 1}^{J} w_{i, j} - - - (18)

w_{i, j} = \frac{w_{i, j}}{sum}, j = 1,2, . . ., J - - - (19)

其中，w_i，j(j＝1，2，…，J)表示第i次执行步骤92时训练视频q_j的权重，sum表示所有权重的和。

步骤92.2：利用d_i检测Q中的每一个视频，记录下d_i返回的所有视频匹配，得到集合VM_i，同时记录下这些视频匹配的相似度，得到集合VS_i：

VM_i＝{vm_i(q)|j＝1，2，…，J} (20)

vs＝｛|<q，t^B(q)，t^E(q)，r，t^B(r)，t^E(r)，vs>∈VM_i} (21)

其中，vm_i(q_j)(j＝1，2，…，J)表示检测器d_i为训练视频q_j返回的视频匹配。

步骤92.3：为d_i寻找最优阈值

同时计算出d_i的最小错误率

太大的θ_i会导致FN增加，太小的θ_i会导致FP增加，只有θ_i取得合适的值，才能均衡地减少FP和FN，从而得到最小错误率

为此，依次令θ_i等于VS_i中的各个值，并计算∈_i(Q，θ_i)，与最小错误率相对应的θ_i就被选作

{\hat{θ}}_{i} = \underset{θ_{i} &Element; {VS}_{i}}{\arg \min} ϵ_{i} (Q, θ_{i}) - - - (22)

{\hat{ϵ}}_{i} = ϵ_{i} (Q, {\hat{θ}}_{i}) - - - (23)

步骤92.4：更新训练视频的权重。为充分发挥检测器之间的互补性，提高系统整体性能，后面的检测器应该重点关注前面的检测器检测错误的训练视频。为此，在执行后面的检测器时，要减小之前被正确检测的视频的权重：

w_{i + 1, j} = \{\begin{matrix} w_{i, j} \frac{{\hat{ϵ}}_{i}}{1 - {\hat{ϵ}}_{i}}, & if c_{i} (q_{j}, {\hat{θ}}_{i}) = 0 \\ w_{i, j}, & otherwise \end{matrix} j = 1,2, . . ., J - - - (24)

其中，

表示q_j相对应

的检测代价，

表示当相似度阈值为

的时候，d_i正确检测了q_j，此时要根据

来减小q_j的权重，否则维持权重不变。

步骤93：输出最优阈值向量

本发明实施例提供了一种基于变形敏感的软级联模型的视频拷贝检测系统，如图11所示，该系统实现了上述技术方案，即包含了一个预处理模块、一个变形识别模块、三个基本检测器模块、一个TSSC模块，以及一个用户配置与结果展示模块。其中，每个检测器模块包含一个帧层次检索子模块，所有检测器模块共用一个相同的TPM子模块；TSSC模块根据变形识别结果以及用户的配置，调用一组检测器模块依次处理查询视频；用户配置与结果展示模块允许用户根据现实需求配置系统，并且能将检测结果直观地展示给用户。

最后需要强调的是，上述实施例仅用于说明本发明的技术方案，并非是对该技术方案的限制。本领域的技术人员应当理解：技术人员可以对上述实施例包含的具体技术细节进行修改甚至替换。比如，可以将DCSIFT BoW、DCT和WASF特征替换为其他特征，也可以将音视频混合变形分成其他几种类别，并采用其他的变形识别方法。这些修改或者替换，并不使相应技术方案的本质脱离本发明技术方案的范围。

Claims

1.一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于包括以下步骤：

变形识别步骤，判定查询视频经受的变形的类别，并将它传递给该类别对应的级联检测器链；

检测步骤，级联检测器链中的检测器依次处理所述查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝。

2.根据权利要求1所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述变形识别步骤，利用WASF特征来判断查询视频是否是静音的，利用WASF特征与支持向量机SVM来判断查询视频是否经受了内容改变的音频变形，利用DCSIFT BoW特征与SVM来判断查询视频是否经受了内容改变的视觉变形。

3.根据权利要求1所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于每一个检测器包括以下检测步骤：

帧层次检索步骤，利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，查询视频的视觉关键帧或音频帧与检索到的参考视频的视觉关键帧或音频帧构成帧层次匹配的集合；

时域金字塔匹配TPM步骤，利用时域金字塔匹配TPM处理帧层次匹配的集合，得到与查询视频最相似的参考视频，以及两者的相似度，查询视频与返回的参考视频构成一个视频匹配。

4.根据权利要求3所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述视觉特征和音频特征至少包含一种效果好的局部视觉特征、一种速度快的全局视觉特征以及一种速度快的音频特征，每种特征对应一个检测器。

5.根据权利要求3所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述时域金字塔匹配TPM将查询视频和参考视频分割为越来越精细的子段，并在多个粒度上计算视频之间的相似度；在每一个粒度上，只有位于对应子段的帧层次匹配被保留下来，并参与该粒度上的相似度的计算；各个粒度上的相似度的加权和构成最终的相似度。

6.根据权利要求1所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述检测步骤，级联检测器链上的检测器依次处理查询视频，每一个检测器返回与查询视频最相似的参考视频及相似度，若相似度大于等于某个预先设定的阈值，则判定查询视频是拷贝，并终止运行，否则执行下一个检测器；仅当所有检测器全部判定查询视频为非拷贝时，系统才会接受它为非拷贝视频。

7.根据权利要求6所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于使用阈值学习算法，自动为级联检测器链选择出最优的相似度阈值向量；每一个相似度阈值对应一个检测器，用于判定查询视频是否是拷贝。

8.根据权利要求7所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述阈值学习算法定义了检测器在一个训练视频集上的错误率；对于给定的检测器和训练视频集，所述错误率取决于检测器使用的相似度阈值以及所有训练视频的权重。

9.根据权利要求7所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述阈值学习算法在为一个检查器挑选最优阈值的时候，将阈值设定为一系列值并分别计算检测器的错误率，与最小错误率相对应的阈值就被选作最优阈值；阈值的取值范围是检测器为所有训练视频返回的视频匹配的相似度的集合。

10.根据权利要求7所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述阈值学习算法在为一个检查器挑选出最优阈值之后，会减小该检测器检测正确的训练视频的权重；权重减小的程度取决于检测器的最小错误率，最小错误率越小，权重减小的程度越大。

11.一种基于变形敏感的软级联模型的视频拷贝检测系统，其特征在于包括以下模块：

变形识别模块，判定所述查询视频经受的变形的类别；

12.根据权利要求11所述的一种基于变形敏感的软级联模型的视频拷贝检测系统，其特征在于每一个检测器模块包括以下子模块：