发明内容
本发明针对较大规模、包含复杂变形的视频拷贝检测问题,提出了一种基于变形敏感的软级联TSSC(Transformation-Sensitive Soft Cascade)模型的视频拷贝检测方法及系统。
一种基于变形敏感的软级联模型的视频拷贝检测方法,包括以下步骤:
预处理步骤,从查询视频中提取出格式一致的视觉关键帧和音频帧;
变形识别步骤,判定所述查询视频经受的变形的类别,并将它传递给该类别对应的级联检测器链;
检测步骤,所述级联检测器链中的检测器依次处理所述查询视频,直到其中一个检测器判定它为拷贝,或者所有检测器判定它为非拷贝。每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧,然后利用时域金字塔匹配TPM(Temporal Pyramid Matching)将帧层次的检索结果整合为视频层次的拷贝检测结果。
所述预处理步骤用于从格式千差万别的视频中提取出格式一致的视觉关键帧和音视帧。预处理的第一步是提取视觉关键帧,第二步是提取音频帧,第三步是针对特定的变形进行额外的处理。
作为预处理方案的优选,本发明的实施例针对画中画和左右翻转变形,采取了额外处理。
所述变形识别步骤将音视频混合变形分成若干类别,并根据查询视频的音频帧和视觉关键帧的分类结果来判定查询视频经受的变形的类别。其中,对音视频混合变形进行分类的依据有两点:第一,各个类别具有较大的类间差异和较小的类内差异,可以被有效地区分开。第二,同一个类别中的变形可以被相同的级联检测器链处理。
作为变形识别方案的优选,本发明的实施例将音视频混合变形分为三类,第一类指“包含音频,并且经受内容保持的音频变形”,第二类指“静音或经受内容改变的音频变形,并且经受内容保持的视觉变形”,第三类指“静音或经受内容改变的音频变形,并且经受内容改变的视觉变形”。本发明利用WASF特征来判断视频是否是静音的,利用WASF特征与支持向量机SVM来判断视频是否经受了内容改变的音频变形,利用稠密彩色SIFT词袋(Dense Color SIFTBag-of-Words,DCSIFT BoW)特征与SVM来判断视频是否经受了内容改变的视觉变形。
所述检测器通过处理查询视频的视觉关键帧或音频帧,来判定查询视频是否是给定参考视频库的拷贝。在某一个检测器内部,首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧,得到最相似的参考视频的视觉关键帧或音频帧,然后利用时域金字塔匹配TPM将这些帧层次的检索结果整合为视频层次的拷贝检测结果。
所述视觉特征和音频特征有多种,每一种特征对应一个检测器。具体说来,应该包含一种局部视觉特征,用于抵御内容改变的视觉变形(Content-AlteredVisual Transformation),比如摄录、画中画和后处理;应该包含一种全局视觉特征,用于抵御内容保持的视觉变形(Content-Preserved VisualTransformation),比如压缩、Gamma变换和加噪;还应该包含一种音频特征,用于抵御内容保持的音频变形(Content-Preserved Audio Transformation),比如MP3压缩和多带扩展。
作为特征的优选,本发明的实施例采用了一种局部视觉特征DCSIFT BoW,一种全局视觉特征DCT,以及一种音频特征WASF。
所述TPM用于将帧层次的检索结果整合为视频层次的拷贝检测结果。TPM包含以下步骤:第一步,对帧层次匹配集合进行霍夫变换,得到若干视频匹配的假设,每个假设指明了一个查询视频片段和一个参考视频片段。第二步,对于第一步中得出的每一个假设,将其中指定的查询视频片段和参考视频片段分割为越来越精细的子段,并在多个粒度上计算视频之间的相似度。在每一个粒度上,只有位于对应子段的帧层次匹配被保留下来,并参与相似度的计算。各个粒度上的相似度的加权和构成最终的视频相似度,每一个假设及对应的相似度就构成了一个视频匹配。第三步,从第二步计算出的视频匹配中挑选出相似度最大的那一个作为最终输出,并根据它的相似度判定查询视频是否为拷贝:若相似度大于等于某个预先设定的阈值,则判定它是拷贝视频。
所述级联检测器链有多条,每一条链处理一类音视频混合变形。构造级联检测器链的依据有两点:第一,要充分利用各个检测器对不同变形的健壮性。第二,要保留一定的冗余处理能力,以应对变形识别错误的情况。
作为级联检测器链的优选,本发明的实施例为第一类和第二类变形构建了一个快速的级联检测器链,其中包含WASF检测器和DCT检测器,为第三类变形构建了一个健壮的级联检测器链,包含WASF检测器、DCT检测器以及DCSIFT检测器。
所述级联检测器链包含一个相似度阈值向量,其中每一个阈值对应一个检测器,用于判定查询视频是否是拷贝。所述TSSC模型使用阈值学习算法,自动为级联检测器链选择出最优的相似度阈值向量。
所述阈值学习算法定义了检测器在一个训练视频集上的错误率,用于衡量检测器在训练视频集上的检测效果。所述错误率是检测器在所有训练视频上的检测代价的加权和。训练视频的权重是不同的,而且可以根据视频重要性的变化进行调整。检测代价与检测器使用的相似度阈值有关,对于相同的视频匹配,不同的阈值会导致不同的拷贝判定结果,继而导致不同的检测代价。因此,对于给定的检测器和训练视频集,错误率取决于检测器使用的相似度阈值以及训练视频的权重分配。
所述阈值学习算法的依据有两点:第一,最优阈值应该在减少假正检FP(False Positive)和减少假负检FN(False Negative)之间取得合适的折衷,为此需要在一系列阈值上计算检测器的错误率,阈值的取值范围是检测器为所有训练视频返回的视频匹配的相似度,与最小错误率相对应的相似度就被选作最优阈值。第二,后面的检测器应该重点关注前面的检测器检测错误的训练视频,从而充分发挥检测器之间的互补性。为此,在执行后面的检测器时,要修改训练视频的权重,使得之前被正确检测的视频的权重减小。
一种基于变形敏感的软级联模型的视频拷贝检测系统,包括以下模块:
预处理模块,从查询视频中提取出格式一致的视觉关键帧和音频帧;
变形识别模块,判定所述查询视频经受的变形的类别;
多个检测器模块,每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧,得到帧层次匹配的集合,然后利用时域金字塔匹配TPM处理帧层次匹配的集合,得到一个视频匹配;
TSSC模块,根据变形识别结果以及用户的配置,调用一组检测器模块依次处理查询视频,直到其中一个检测器判定它为拷贝,或者所有检测器判定它为非拷贝;
用户配置与结果展示模块,允许用户选择系统使用的预处理操作和检测器,并将拷贝检测结果展示给用户。
每一个检测器模块包括以下子模块:
帧层次检索子模块,利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧,得到最相似的参考视频的视觉关键帧或音频帧,查询视频的视觉关键帧或音频帧与检索到的参考视频的视觉关键帧或音频帧构成帧层次匹配的集合;
时域金字塔匹配TPM子模块,利用时域金字塔匹配TPM处理帧层次匹配的集合,得到与查询视频最相似的参考视频,以及两者的相似度,查询视频与返回的参考视频构成一个视频匹配。
与现有技术相比,本发明的创新点和优势主要包括:
1、利用预处理排除了视频格式不同造成的影响;在保持视频主要的视觉内容的同时丢弃了大部分视频帧,降低了帧层次检索的时空代价;通过针对画中画和翻转变形的额外处理,提高了拷贝检测效果。
2、挑选了多种互补的音视频特征,每种特征都能有效抵御一类变形,通过TSSC模型对这些特征进行结果层融合,可以抵御绝大部分变形。
3、利用TPM将帧层次的检索结果整合为视频层次的拷贝检测结果。TPM充分利用了视频的时域特性,提高了拷贝检测效果,并且模型简单,计算快速。
4、利用变形识别判断出查询视频经受的变形的类别,并为每一类变形“量身订做”了一条级联检测器链,充分利用多个检测器的互补优势,大大提高了拷贝检测效果。
5、对于绝大部分查询视频,TSSC模型只需要执行一到两个非常快速的检测器,仅仅对于少数经受复杂变形的查询视频,TSSC模型才需要执行慢速的检测器。总体说来,TSSC模型节省了大部分处理时间,大大提高了拷贝检测速度。
6、TSSC模型利用阈值学习算法,自动选择最优的相似度阈值。这样一方面充分发挥了检测器之间的互补特性,使系统达到最优的检测效果和速度,另一方面避免了人工调整阈值的麻烦,提高了系统的通用性。
7、本发明可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝,在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。
具体实施方式
下面结合实施例和附图,对本发明进行详细的描述。
一种基于变形敏感的软级联模型的视频拷贝检测方法,其整体流程参见图3。其中,预处理操作包括以下步骤:
步骤11:提取视觉关键帧;本发明按照每秒3帧的频率,等间隔地提取视觉关键帧。每秒3帧的采样率可以在保持视频主要视觉内容的同时丢弃大部分视频帧,节约了视觉帧检索的时空代价。
步骤12:提取音频帧;为此,首先要将视频的音轨分割成90毫秒的音频字,相邻音频字之间有60毫秒的重叠,然后,连续198个音频字构成一个6秒长的音频帧,相邻音频帧共用178个音频字,即有5.4秒的重叠。
步骤13:对于查询视频,采取了额外的预处理措施,以便更好地应对画中画和左右翻转变形;具体说来,利用二维霍夫变换来检测两组平行线,继而检测和定位出画中画的区域;对于包含画中画的视频,要分别对整个视觉关键帧和画中画部分进行检测,只要有一个结果判定它是拷贝,就确认它是拷贝;此外,为应对潜在的左右翻转变形,所有判定为非拷贝的查询视频都要翻转过来重新进行拷贝检测。
变形识别模块将音视频混合变形分为三类,第一类指“包含音频,并且经受内容保持的音频变形”,第二类指“静音或经受内容改变的音频变形,并且经受内容保持的视觉变形”,第三类指“静音或经受内容改变的音频变形,并且经受内容改变的视觉变形”。变形识别过程参见图4,包括以下步骤:
步骤21:从查询视频的音频帧中提取WASF特征,WASF特征提取过程参见步骤61。若某一个WASF特征向量全部由0组成,则说明对应的音频帧是静音的。如果超过10%的音频帧是静音的,则判断该视频是静音的;如果查询视频是静音的,则执行步骤23,否则执行步骤22。
步骤22:将查询视频的WASF特征依次送入一个支持向量机SVM(SupportVector Machine),判断对应的音频帧是否经受了内容改变的音频变形。通过对所有音频帧的结果进行投票,判断该视频是否经受了内容改变的音频变形。如果查询视频没有经受内容改变的音频变形,则判定它属于第一类变形,并终止变形识别过程;否则执行步骤23。
步骤23:对查询视频进行画中画检测,如果包含画中画,则判定它属于第三类变形,并终止变形识别过程;否则执行步骤24。
步骤24:从查询视频的视觉关键帧中提取DCSIFT BoW特征,DCSIFT BoW特征提取过程参见步骤41;将这些特征依次送入第二个SVM,判断对应的视觉关键帧是否经受了内容改变的视觉变形。通过对所有视觉关键帧的结果进行投票,判断该视频是否经受了内容改变的视觉变形。如果查询视频经受了内容改变的视觉变形,则判定它属于第三类变形,否则判定它属于第二类变形。终止变形识别过程。
本发明采用的检测器的框架参见图5,检测过程包括:
步骤31:在离线处理阶段,从所有参考视频的视觉关键帧(音频帧)中提取某种视觉特征(音频特征),然后存储在合适的索引结构中。
步骤32:在查询阶段,检索查询视频的视觉关键帧(音频帧)。为此,首先使用步骤31中的特征提取方法,从查询视频的视觉关键帧(音频帧)中提取出特征,然后在参考特征索引中进行搜索,为每一个查询视频的视觉关键帧(音频帧)找出最相似的KF个参考视频的视觉关键帧(音频帧),得到一个帧层次匹配的集合FM,其中包含一系列帧层次匹配:
fm=<q,t(q),r,t(r),fs> (1)
其中,q和r分别表示查询视频和参考视频的ID,t(q)和t(r)分别表示查询视频的视觉关键帧(音频帧)和参考视频的视觉关键帧(音频帧)的时间戳,fs表示两个视觉关键帧(音频帧)的相似度;fm表示q位于t(q)时刻的视觉关键帧(音频帧)匹配上了r位于t(r)时刻的视觉关键帧(音频帧),两帧之间的相似度为fs。KF代表为每个查询视频的视觉关键帧(音频帧)检索出的最相似的参考视频的视觉关键帧(音频帧)的数目,其取值范围是5≤KF≤100,本发明的实施例使用KF=20。
步骤33:在查询阶段,对帧层次匹配集合FM进行时域金字塔匹配TPM(Temporal Pyramid Matching),得到最相似的视频层次匹配:
vm(q)=<q,tB(q),tE(q),r,tB(r),tE(r),vs> (2)
其中,q和r分别表示查询视频和参考视频的ID,tB(q)和tE(q)表示查询视频q中的拷贝片段的起止时间戳,tB(r)和tE(r)表示该拷贝片段对应的参考视频r中的片段的起止时间戳,vs表示查询视频q与参考视频r的相似度。vm(q)表示q的片段[tB(q),tE(q)]匹配到了r的片段[tB(r),tE(r)],两个视频之间的相似度为vs。
然后,根据vs和一个预先设定的相似度阈值θ判定查询视频是否为拷贝,若vs≥θ,则输出:
C(q,tB(q),tE(q),r,tB(r),tE(r)) (3)
表明q是r的拷贝,简记作C(q,r)。其中公式(3)中各个参数的含义与公式(2)相同。否则输出:
表明q不是拷贝。
本发明利用三种互补的音视频特征,即DCSIFT BoW、DCT和WASF,构建了三个相互独立的检测器dCSIFT、dDCT和dWASF,每个检测器都按照步骤31~33进行拷贝检测。
利用DCSIFT BoW特征检索视觉关键帧的过程参见图6,其过程包括:
步骤41:在离线处理阶段,从所有参考视频的视觉关键帧中提取出稠密彩色SIFT(Dense Color SIFT,DCSIFT)特征,量化为词袋BoW(Bag-of-Words)表达方式,并存储在倒排索引中。
具体地,DCSIFT与传统SIFT的区别在于稠密(Dense)和彩色(Color)。所谓稠密,是指抛弃了SIFT的兴趣点检测模块,转而使用多尺度稠密采样(Multi-Scale Dense Sampling)将图像划分为多个区域,将其中的单色区域抛弃后,为剩下的每个区域计算一个局部特征。所谓彩色,指的是描述子并不是从灰度图像中提取的,而是从LAB彩色图像的3个通道中提取,然后拼接在一起。
具体地,本发明使用优化的BoW方法对DCSIFT特征进行量化,并使用倒排索引存储量化后的DCSIFT BoW特征。由于向量量化会削弱描述子的区分性,本发明考虑了特征的位置、尺度和主方向信息,以弥补描述子量化时损失的区分性。具体说来,首先随机选择出10,000,000个参考视频的描述子,利用KMeans算法将其聚成800个簇,之后每一个描述子都可以量化为一个簇ID。特征的位置、尺度和主方向也依次量化为4、2和16个格子。于是,扩展后的视觉词典(Visual Vocabulary)包含800×4×2×16=102,400个视觉单词(Visual Word)。每一个视觉关键帧可以表示为一系列视觉单词的集合,简称为词袋BoW(Bag-of-Words)。为了加快特征匹配,使用倒排索引来存储所有参考视频的DCSIFT BoW特征。
步骤42:在查询阶段,利用相同的特征提取与量化方法,从查询视频的视觉关键帧中提取出DCSIFT BoW特征,并对参考视频库的DCSIFT BoW倒排索引进行搜索,得到帧层次匹配的集合FM。
利用DCT特征检索视觉关键帧的过程包括:
步骤51:在离线处理阶段,从所有参考视频的视觉关键帧中提取出DCT特征,并存储在局部敏感哈希LSH(Locality Sensitive Hashing)中。
具体地,DCT特征是根据相邻图像块的DCT系数的关系计算出来的,其过程包括:
1.将图像转变为灰度图,并归一化为64×64像素;
2.将图像等分为64个子块,子块编号为0~63,每个子块包含8×8个像素;
3.对每一个子块进行离散余弦变换DCT(Discrete Cosine Transform),得到8×8的系数矩阵;
4.计算出每个系数矩阵的前4个子带的能量,前4个子带的编号为0~3,分布如图7所示;
5.根据相邻子块的子带能量的大小关系,生成一个256维的特征F256:
F256=<f0,0,…,f0,63,…,f3,0,…,f3,63〉(6)
其中ei,j表示第j个图像块的第i个子带的能量,fi,j表示DCT特征中的一个维度,F256表示一幅图像的DCT特征。
DCT特征采用汉明距离(Hamming Distance)进行相似度计算。DCT特征可以有效地抵御内容保持的视觉变形,并且具有紧致性好、提取与检索速度快的优点。
步骤52:在查询阶段,利用相同的特征提取方法,从查询视频的视觉关键帧中提取出DCT特征,并对参考视频库的DCT LSH进行搜索,得到帧层次匹配的集合FM。
利用WASF特征检索音频帧的过程包括:
步骤61:在离线处理阶段,从所有参考视频的音频帧中提取出WASF特征,并存储在一个LSH中。
具体地,WASF特征的全称为加权音频谱平滑度(Weighted Audio SpectrumFlatness),该特征首先利用人类听觉系统HAS(Human Auditory System)函数对音频谱进行加权,然后再计算MPEG-7描述子——音频谱平滑度ASF(AudioSpectrum Flatness),使得特征更加符合HAS的外耳和中耳模型。
WASF特征的提取过程可以概括地说,首先按照图8所示的流程,从每个90毫秒的音频字中提取出一个12维的指纹,然后将一个音频帧所包含的198个音频字的指纹拼接起来,得到一个2,376维的向量,最后将这个高维向量降维到72维,就是一个音频帧的WASF特征。
WASF特征采用欧式距离(Euclidean Distance)进行相似度计算。WASF特征可以有效地抵御内容保持的音频变形,并且具有提取与检索速度快的优点。
步骤62:在查询阶段,利用相同的特征提取方法,从查询视频的音频帧中提取出WASF特征,并对参考视频库的WASF LSH进行搜索,得到帧层次匹配的集合FM。
时域金字塔匹配TPM(Temporal Pyramid Matching)将金字塔匹配核(Pyramid Match Kernel)应用于一维的时域空间,利用帧层次匹配的集合FM,在多粒度上计算视频之间的相似度。其过程包括:
步骤71:预处理,得到一系列假设。对FM进行二维霍夫变换,其中第一个维度代表参考视频的ID,第二个维度代表查询视频的视觉关键帧(音频帧)与参考视频的视觉关键帧(音频帧)之间的时间差δt=t(q)-t(r),参考视频ID与时间差δt两两组合得到一个二维直方图,其中的每一个格子(Bin)代表一个查询视频的潜在匹配<r,δt>。霍夫变换的过程就是将FM中的每个fm划分到相应的格子中,然后统计每个格子中的fm,将它们的相似度fs累加起来作为该格子的相似度bs,最终挑选出相似度最高的Kb个格子,Kb的取值范围是5≤Kb≤20,本发明的实施例使用Kb=10。对于每一个格子<r,δt>,从FM中挑选出与之相符的第一个和最后一个帧层次匹配,从而完成对拷贝片段的定位,得到一个可能的假设(Hypothesis):
h(q)=(q,tB(q),tE(q),r,tB(r),tE(r)> (7)
tB(q)-tB(r)=tE(q)-tE(r)=δt (8)
其中,公式(7)和(8)中各个参数的含义与公式(2)相同。h(q)表示q的片段[tB(q),tE(q)]匹配到了参考视频r的片段[tB(r),tE(r)]。预处理过程如图9所示。
步骤72:对步骤71得到的各个假设分别进行时域金字塔匹配TPM,得到一系列视频匹配。对于给定假设h(q),TPM将它分割成越来越精细的子段,并在多个粒度上计算视频之间的相似度,如图10所示。具体说来,TPM在第0,1,…,L层上分别进行时域匹配,L的取值范围是1≤L≤5,本发明的实施例使用L=3。在第l层上,视频片段[tB(q),tE(q)]和[tB(r),tE(r)]都被等分为D=2l个时域子段TS(Temporal Segment),分别记作ts1(q),…,tsD(q)和ts1(r),…,tsD(r),只有位于对应子段的帧层次匹配被保留下来并参与视频相似度的计算。在第l层上的视频相似度vsl按照如下方式计算:
其中,
表示第l层上、第i个时域子段的相似度,n
f表示[t
B(q),t
E(q)]中的视觉关键帧(音频帧)的数目,归一化因子1/n
f确保vs
l不受视频片段长度的影响。最终的视频相似度是各层上的相似度的加权和:
其中,第0层的相似度权重设置为2-L,第l层(l=1,…,L)的相似度权重设置为2l-L-1。这些相似度权重满足两个条件:第一,越低层的相似度权重越小,这反应了对稀疏层次上的匹配的惩罚;第二,所有权重的和为1,这保证了vs的取值范围是[0,1]。利用TPM计算出一个假设h(q)的相似度之后,就得到一个视频匹配:
vm(q)=<q,tB(q),tE(q),r,tB(r),tE(r),vs> (12)
其中,公式(12)中各个参数的含义与公式(2)相同。vm(q)表示查询视频q的片段[tB(q),tE(q)]匹配到了参考视频r的片段[tB(r),tE(r)],两个视频之间的相似度为vs。
步骤73:后处理,输出拷贝检测结果。从Kb个视频匹配中挑选出相似度最高的一个,作为最终匹配,并根据它的相似度vs和预先设定的阈值θ判定q是否为拷贝。若vs≥θ,则输出C(q,tB(q),tE(q),r,tB(r),tE(r)),表明q是r的拷贝,简记作C(q,r)。否则输出表明q不是拷贝。
变形敏感的软级联TSSC(Transformation-Sensitive Soft Cascade)模型如图3所示。TSSC为第一类和第二类音视频混合变形构建了一个快速的检测器链<dWASF,dDCT>,为第三类音视频混合变形构建了一个健壮的检测器链<dWASF,dDCT,dDCSIFT>。整个TSSC模型可以表示为:
TSSC进行拷贝检测的过程如下:
步骤81:利用如11~13所示的预处理步骤,从查询视频q中提取出视觉关键帧和音频帧,并针对画中画和左右翻转变形进行额外处理。
步骤82:利用如21~24所示的变形识别步骤,将查询视频q划分到某一个音视频混合变形类别m(m∈{1,2,3})中。
步骤83:第m条链上的检测器
依次处理q,直到某个检测器判定它为拷贝,或者全部检测器一致判定它为非拷贝。其中N
m表示第m条链上的检测器的数目,d
m,n表示第m条链上的第n个检测器。具体地说,d
m,1首先处理q并返回最相近的参考视频r
m,1,若两者的相似度vs
m,1大于等于某个预先设定的阈值
则系统立刻判定q是r
m,1的拷贝,并终止运行,否则将执行检测器d
m,2。这个过程持续下去,直到N
m个检测器全部运行完毕。仅当N
m个检测器全部判定q为非拷贝时,系统才会接受q为非拷贝视频。
TSSC中的每个检测器都有一个相似度阈值,用于判定查询视频是否为拷贝。检测器d
m,n的相似度阈值记作θ
m,n所有检测器的阈值构成一个矩阵Θ=[θ
m,n]。TSSC利用一个阈值学习算法,自动挑选出最优的相似度阈值矩阵
其中
与θ
m,n的区别在于:前者是通过机器学习选择出的最优相似度阈值,而后者是人工设定的相似度阈值。具体到图3所示的实施例,需要学习的最优阈值矩阵可以表示为:
为了学习最优阈值,首先需要定义检测器在一个训练视频集上的错误率。阈值学习的目标就是为每一条级联检测器链选择出最优阈值向量,使其在训练视频集上的错误率达到最低。
对于给定的训练视频q、检测器d及相似度阈值θ,假设d返回的视频匹配为vm(q)=<q,tB(q),tE(q),r,tB(r),tE(r),vs>,q对应于θ的检测代价记作c(q,θ),其计算方法概括如下:
(1)当q的确是拷贝视频时,不妨假设真实结果为则:
a.当d判定q为拷贝,即vs≥θ时:若vm(q)包含了正确的参考视频片段,即
并且[t
B(r),t
E(r)]与
有重叠时,则vm(q)是一个真正检TP(True Positive),c(q,θ)被设为0;若vm(q)包含了错误的参考视频片段,则它同时造成了一个假正检FP(False Positive)和一个假负检FN(FalseNegative),c(q,θ)被设为c
FP+c
FN,其中c
FP与c
FN分别代表对一个FP和一个FN的惩罚;
b.若d判定q为非拷贝,即vs<θ时,则vm(q)是一个FN,c(q,θ)被设为cFN;
(2)当q为非拷贝视频时:
a.若d判定q为拷贝,则vm(q)是一个FP,c(q,θ)被设为cFP;
b.若d判定q为非拷贝,则vm(q)是一个真负检TN(True Negative),c(q,θ)被设为0。
上述规则可以概括为:
其中,
表示q的确是拷贝,T(vm(q))表示vm(q)中包含了正确的参考视频片段。<C
FP,C
FN>是根据现实需要设定的,本发明实施例中设定为<2,0.2>,因为在版权保护等应用中,一般说来,一个FP比一个FN的危害要大得多。
对于给定的训练视频集Q={q1,q2,…,qJ}、检测器d及相似度阈值θ,d在Q上、对应于θ的错误率记作∈(Q,θ)。其中J表示训练视频的数目,qj(j=1,2,…,J)表示第j个训练视频。∈(Q,θ)定义为每个训练视频的检测代价的加权和:
其中,wj(j=1,2,…,J)表示训练视频qj的权重。
在TSSC中,每一条级联检测器链处理一类变形,因此在学习阈值的时候,应该以一条级联检测器链为单位,学习出一个最优阈值向量。对于给定的级联检测器链D=<d1,d2,…,dN>,以及训练视频集Q={q1,q2,…,qJ},其中N和J分别表示检测器和训练视频的数目,阈值学习过程包括:
步骤91:初始化训练视频的权重:
其中,w1,j(j=1,2,…,J)表示第1次执行步骤92时,训练视频qj的权重。
步骤92:对于i=1,2,…,N,分别执行步骤92.1~92.4:
步骤92.1:对训练视频的权重进行归一化:
其中,wi,j(j=1,2,…,J)表示第i次执行步骤92时训练视频qj的权重,sum表示所有权重的和。
步骤92.2:利用di检测Q中的每一个视频,记录下di返回的所有视频匹配,得到集合VMi,同时记录下这些视频匹配的相似度,得到集合VSi:
VMi={vmi(q)|j=1,2,…,J} (20)
vs={|<q,tB(q),tE(q),r,tB(r),tE(r),vs>∈VMi} (21)
其中,vmi(qj)(j=1,2,…,J)表示检测器di为训练视频qj返回的视频匹配。
步骤92.3:为d
i寻找最优阈值
同时计算出d
i的最小错误率
太大的θ
i会导致FN增加,太小的θ
i会导致FP增加,只有θ
i取得合适的值,才能均衡地减少FP和FN,从而得到最小错误率
为此,依次令θ
i等于VS
i中的各个值,并计算∈
i(Q,θ
i),与最小错误率
相对应的θ
i就被选作
步骤92.4:更新训练视频的权重。为充分发挥检测器之间的互补性,提高系统整体性能,后面的检测器应该重点关注前面的检测器检测错误的训练视频。为此,在执行后面的检测器时,要减小之前被正确检测的视频的权重:
其中,
表示q
j相对应
的检测代价,
表示当相似度阈值为
的时候,d
i正确检测了q
j,此时要根据
来减小q
j的权重,否则维持权重不变。
本发明实施例提供了一种基于变形敏感的软级联模型的视频拷贝检测系统,如图11所示,该系统实现了上述技术方案,即包含了一个预处理模块、一个变形识别模块、三个基本检测器模块、一个TSSC模块,以及一个用户配置与结果展示模块。其中,每个检测器模块包含一个帧层次检索子模块,所有检测器模块共用一个相同的TPM子模块;TSSC模块根据变形识别结果以及用户的配置,调用一组检测器模块依次处理查询视频;用户配置与结果展示模块允许用户根据现实需求配置系统,并且能将检测结果直观地展示给用户。
最后需要强调的是,上述实施例仅用于说明本发明的技术方案,并非是对该技术方案的限制。本领域的技术人员应当理解:技术人员可以对上述实施例包含的具体技术细节进行修改甚至替换。比如,可以将DCSIFT BoW、DCT和WASF特征替换为其他特征,也可以将音视频混合变形分成其他几种类别,并采用其他的变形识别方法。这些修改或者替换,并不使相应技术方案的本质脱离本发明技术方案的范围。