CN108427925A

CN108427925A - 一种基于连续拷贝帧序列的拷贝视频检测方法

Info

Publication number: CN108427925A
Application number: CN201810201344.7A
Authority: CN
Inventors: 谢毓湘; 张莉莉; 栾悉道; 张芯; 贺竟锰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2018-08-21
Anticipated expiration: 2038-03-12
Also published as: CN108427925B

Abstract

本发明公开了一种基于连续拷贝帧序列的拷贝视频检测方法，目的是提供一种能实现对待检测视频由拷贝片段和非拷贝片段拼接情况有效检测的方法。技术方案是先提取参考视频和待检测视频的关键帧及关键帧特征，得到参考视频关键帧特征矩阵和待检测视频关键帧特征矩阵；然后对待检测视频关键帧特征矩阵中的每一行在参考视频关键帧特征矩阵中搜索欧式距离最小的行向量，得到最相似参考视频关键帧序号列表R^*和最相似帧距离d₁,d₂,...d_i,...,d_M；基于R^*和d₁,d₂,...d_i,...,d_M判断待检测视频关键帧是否为拷贝帧，判断待检测视频是否为拷贝视频，并对拷贝视频中的拷贝片段进行定位。采用本发明可有效解决待检测视频由拷贝片段和非拷贝片段拼接的情况，提高相似关键帧匹配的速度和准确性。

Description

一种基于连续拷贝帧序列的拷贝视频检测方法

技术领域

本发明涉及多媒体信息处理技术领域关于拷贝视频检测的方法，是一种能够适应多种不同编辑变换的视频检测方法。

背景技术

随着网络技术，视频硬件处理技术和软件处理技术的飞速发展，视频数据在众多领域呈现海量增长的趋势。与此同时，互联网用户的快速增加和视频技术的普遍化，社交媒体平台视频共享等因素，使得视频数据的下载，再编辑和重新上传更加方便快捷，互联网上的视频数量和种类呈爆炸型增长。以YouTube视频网站为例，每分钟就有超过100小时数据量的视频被下载，在一些社交网站，每天同样有大量的视频被下载和分享，这就导致互联网上充斥着大量的相似或者拷贝视频，且越来越多。相关研究结果显示，在YouTube，GoogleVideo和Yahoo_Video上基于一些流行的关键词进行视频检索，返回结果中有将近27％的视频是相似视频，这大大降低了视频检索的效率和准确度。这些相似视频中除了部分是完全一模一样的视频之外，更多的是一些经过了视觉变换或者后期制作等再编辑的拷贝视频。常见的拷贝视频编辑变换的方式如图1所示，包括模糊变换、亮度对比度变化、比例变化、内容变化、画中画、拉伸变换、组合编辑以及镜像等。大量拷贝视频的存在会带来许多问题，例如视频内容监管难度增大、视频版权侵犯现象普遍、视频检索效果不理想，视频存储空间浪费等多方面影响。拷贝视频检测技术可以实现对这些相同或者几乎相同的视频的筛选，这对于视频内容监管、视频版权保护和提高检索效率等都有很大的意义。

利用计算机进行拷贝视频检测研究是近年来人们普遍关注的新兴研究课题，主要涉及的关键帧(指按一定的时间间隔提取的视频数据帧，图像处理领域的常用术语，并不是指关键帧的内容有何特殊之处)相似性匹配、视频子序列相似性匹配等技术已经得到了众多学者和机构的关注。特别是关键帧相似性匹配已经作为一项重要任务出现在视频检索权威评测机构TRECVID(TREC Video Retrieval Evaluation)的任务列表中。在2014年第一届全国特定音视频检索识别挑战赛和2016年第一届全国网络舆情大赛中，视频内容拷贝检测也被作为检测任务之一。目前，拷贝视频片段检测技术研究主要集中于基于视频关键帧特征的相似性匹配以及视频子序列的相似性匹配两方面。

基于视频关键帧特征的相似性匹配主要运用关键帧的全局特征和局部特征进行相似性匹配。关键帧的全局特征主要是指颜色、形状、纹理以及空间关系等全局视觉特征，将一幅关键帧某个特征的全局信息用简单的向量进行表示。全局特征的优点是计算量小，对相同内容或者变化不是很大的拷贝视频比较有效，但全局特征极易受到光照、裁剪等因素的干扰，很难应对经过了复杂编辑变换的拷贝视频，因此不够鲁棒。与全局特征相比，局部特征的鲁棒性要高很多，主要包括尺度不变特征转换(Scale Invariant FeatureTransform，SIFT)、加速鲁棒特征(Speeded Up Robust Features，SURF)、ORB(OrientedFAST and Rotated BRIEF)等，可以应对拷贝视频中的光照变换、旋转变换、尺度变换和几何变换等复杂的编辑变换。但是，局部特征点检测算法复杂，特征点数量多，局部描述子维度高，都使得采用局部特征进行关键帧相似性匹配的计算量比采用全局特征大很多，匹配效率较低，在应对大规模数据集时算法的耗时较高。

对于视频子序列相似性匹配方面的研究主要包含两类：基于模板序列匹配的视频子序列相似性匹配和基于帧融合的视频子序列相似性匹配。模板序列匹配是指以待检测视频序列的长度为窗口长度，然后以一个固定步长在参考视频序列中依次滑动，度量窗口内对应视频序列的相似度值，找到整个滑动过程中相似度值最大的位置，如果此时的相似度值大于事先设定的阈值，则此时窗口中的序列即为对应的待检测视频和参考视频中的拷贝序列。基于模板序列匹配的视频子序列相似性匹配方法计算简单、容易实现，但它很难应对帧率改变、插帧、丢帧等视频编辑变换，在视频规模较大时，基于模板序列匹配的方法时间复杂度较高，而且也无法解决待检测视频由拷贝片段和非拷贝片段拼接的情况，适用性较低。基于帧融合的视频子序列相似性匹配方法从待检测视频序列入手，对于待检测视频序列中的每一个关键帧，采用基于关键帧特征的相似性匹配方法在参考视频关键帧中查找与待检测帧最相似的前K个关键帧。为所有的待检测关键帧都得到前K个最相似的参考视频关键帧后，再通过视频子序列的时序信息进行拷贝视频片段的判别和定位。基于帧融合的方法能够应对视频帧率改变、插帧、丢帧等编辑变换，也能够解决视频中只存在部分拷贝片段的情况，但基于帧融合的方法计算复杂，算法实现也比较难。

因此这一系列研究面临拷贝视频检测中的一些典型限制：一是当前绝大多数研究在都采用鲁棒性较高的局部特征进行关键帧的相似性匹配，导致关键帧相似性匹配速度仍然较慢。影响速度的原因主要有两个：(1)视频库的关键帧数量巨大，要在整个库中进行关键帧相似性匹配是一项费时的任务；(2)关键帧的局部关键点数量庞大，关键点描述向量维度高，在关键帧之间进行局部关键点的一一匹配需要耗费大量时间。二是当前绝大多数的拷贝视频检测研究均侧重于待检测视频与参考视频长度相等的情况和待检测视频是参考视频子集的情况，这两种情况中待检测视频是纯拷贝的，没有非拷贝片段。虽然这些方法在解决各自的应用问题时都取得了比较好的效果，但是应用面太窄，适用性不高，当待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考视频中的子集时，当前研究方法就无法解决，检测的准确率也会大大降低。

因此，拷贝视频检测的研究现状还不能有效满足视频检索、版权保护、视频内容监管的需要，提出一种快速有效的拷贝视频检测方法尤为重要。

发明内容

本发明要解决的技术问题是提供一种可以应对多种编辑变换的基于连续拷贝帧序列的拷贝视频检测方法，实现对待检测视频由拷贝片段和非拷贝片段拼接情况的有效检测，提高相似关键帧匹配的速度和准确性，满足视频检索、版权保护、视频内容监管的需求。

本发明的具体技术方案是：

第一步，对参考视频进行处理，即提取参考视频的关键帧、提取关键帧特征，并将关键帧的所属参考视频和帧号信息及其特征存储到参考视频数据库中。

具体方法是：

1.1、从参考视频提取关键帧。每隔T秒从参考视频提取一帧关键帧，T为自然数(实验证明T＝1时检测速度和准确率效果最好)，提取出的关键帧构成关键帧集合R'，R'＝{r'₁,r'₂,...,r'_j,...,r'_N}，r'_j为第j个参考视频关键帧，1≤j≤N，N为参考视频关键帧的数量，是一个大于1的自然数。

1.2、提取参考视频关键帧集合R'中各参考视频关键帧的特征。将R'中各关键帧图像的尺寸归一化(对图像的尺寸进行一系列标准的处理变换，使之变换为一固定尺寸形式的过程)为227×227，得到归一化后的关键帧集合R＝{r₁,r₂,...,r_j,...,r_N}，r_j为第j个归一化后的参考视频关键帧，然后将归一化后的关键帧与各关键帧图像的图像均值的差值输入到AlexNet卷积神经网络模型(见文献“ImageNet Classification with DeepConvolutional Neural Networks[J],Advances in Neural Information ProcessingSystems Conference(NIPS),2012,25(2):2012.”即Alex Krizhevsky的论文：基于深度卷积神经网络ImageNet分类第3页-第7页描述的AlexNet卷积神经网络模型)中，选择模型中FC7层的4096维向量作为关键帧的特征，得到N个4096维的特征向量，将这N个4096维的特征向量存储在参考视频数据库中。所述AlexNet卷积神经网络模型在ImageNet数据集(见文献“L.Fei-Fei,ImageNet:crowdsourcing,benchmarking&other cool things,CMU VASCSeminar,March,2010.”即李菲菲在2010年3月在CMU VASC Seminar上发表论文《ImageNet：众包，标杆和其他很酷的东西》中描述的ImageNet数据集)上预训练过。参考视频数据库还包含一张参考视频关键帧表，该表包含N个表项，每个表项包含4个域，即关键帧序号、关键帧所属的参考视频标号，关键帧在所属参考视频中的帧序号，关键帧特征的存放路径。

第二步，提取待检测视频的关键帧，并提取关键帧的特征。

具体方法是：

2.1、从待检测视频提取关键帧，每隔t秒从待检测视频提取视频关键帧，t为自然数(实验证明t＝1或2时检测速度和准确率效果最好)。提取出的关键帧构成待检测视频关键帧集合Q，Q＝{q₁,q₂,...q_i,...,q_M}，q_i为按时间先后排序的待检测视频关键帧，1≤i≤M，M表示待检测视频关键帧的数量，是一个大于1的整数。

2.2、提取待检测视频关键帧集合Q中各待检测视频关键帧特征。将所有关键帧图像的尺寸归一化为227×227，然后将其与图像均值的差值输入到AlexNet卷积神经网络模型(也已经在ImageNet数据集上预训练过)中，选择模型中FC7层的4096维向量作为待检测视频关键帧的特征。提取M个待检测视频关键帧特征，得到M个4096维的特征向量，每个待检测视频关键帧的特征在提取后直接用于计算，因此无需存储到数据库中。

第三步，基于参考视频关键帧特征和待检测视频关键帧特征，进行关键帧的相似性计算和最相似关键帧匹配。方法为：

3.1、依次访问参考视频关键帧表中的关键帧特征存放路径并读取关键帧特征，将N个参考视频关键帧的4096维特征向量组合在一起，构成一个4096×N的参考视频关键帧特征矩阵。

3.2、将第二步得到的待检测视频关键帧集合Q的M个4096维特征向量组合在一起，构成一个4096×M的待检测视频关键帧特征矩阵。

3.3、采用近似最近邻搜索算法(见文献An Optimal Algorithm for ApproximateNearest Neighbor Searching[C]，Acm-Siam Symposium on DiscreteAlgorithms.Society for Industrial and Applied Mathematics,1994:573-582，即1994年Arya S的论文：《近似最近邻搜索的优化算法》中第574页-第579页描述的近似最近邻搜索算法，对待检测视频关键帧特征矩阵中的每一行在参考视频关键帧特征矩阵中搜索欧式距离最小的行向量，即找到距离待检测关键帧q_i最近的一个关键帧j^*为最相似关键帧序号，并计算出q_i和之间的距离得到待检测视频关键帧集合Q的最相似参考视频关键帧序号列表R^*。具体方法如下：

3.3.1初始化变量i＝1。

3.3.2初始化变量j＝1，初始化最相似关键帧序号j^*＝j，初始化最小距离d_i＝d_i1，d_i1为第i个待检测视频关键帧与第1个参考视频关键帧r₁的距离，

为待检测视频关键帧q_i的特征向量，为v_Q(q_i)的第p维，为参考视频关键帧r₁的特征向量，为v_R(r₁)的第p维，1≤p≤4096。

3.3.3计算q_i与r_j的特征向量的距离d_ij，为参考视频关键帧r_j的特征向量，为v_R(r_j)的第p维。

3.3.4如果d_ij＜d_i，则令d_i＝d_ij，令最相似关键帧序号j^*＝j，转3.3.5；否则d_i和j^*保持不变，转3.3.5。

3.3.5j＝j+1，如果j＞N，说明已经计算和比较完所有参考视频关键帧与q_i的特征向量距离，最小距离为最相似关键帧为转3.3.6；如果j≤N，转3.3.3。

3.3.6 i＝i+1。

3.3.7如果i≤M，转步骤3.3.2；否则，说明已经找到所有待检测视频关键帧的最相似参考视频关键帧，所有待检测视频关键帧的最相似参考视频关键帧组成最相似帧列表R^*，并得到每个待检测视频关键帧与其最相似参考帧之间的距离，即最相似帧距离d₁,d₂,...d_i,...,d_M，执行第四步。

第四步，基于待检测视频关键帧集合Q的最相似帧列表R^*和最相似帧距离d₁,d₂,...d_i,...,d_M，判断待检测视频关键帧是否为拷贝帧，寻找连续拷贝帧序列，从而判断待检测视频是否为拷贝视频，并对拷贝视频中的拷贝片段进行定位。

具体方法为：

4.1、根据最相似帧距离d₁,d₂,...d_i,...,d_M，初步判断每个待检测视频关键帧是否为拷贝帧，方法是：

4.1.1归一化q₁,q₂,...q_i,...,q_M的最相似帧距离d₁,d₂,...d_i,...,d_M，并计算归一化最相似帧距离的平均值K。方法如下：

4.1.1.1初始化变量i＝1。

4.1.1.2归一化最相似帧距离S为待检测视频关键帧与其最相似帧的欧式距离的总和，

4.1.1.3i＝i+1。

4.1.1.4如果i≤M，执行4.1.1.2；否则，说明已经计算完每个待检测视频关键帧的归一化最相似帧距离，执行4.1.1.5。

4.1.1.5计算归一化最相似帧距离的平均值

4.1.2根据待检测视频关键帧的归一化最相似帧距离D₁,D₂,...,D_i,...,D_M确定待检测视频关键帧q₁,q₂,...q_i,...,q_M的拷贝属性值y₁,y₂,...,y_i,...y_M。具体方法如下：

4.1.2.1初始化变量i＝1。

4.1.2.2如果D_i＜K，则待检测视频关键帧q_i的拷贝属性值y_i＝1(说明q_i是拷贝帧)，转步骤4.1.2.3；否则，y_i＝-1(说明q_i不是拷贝帧)，转步骤4.1.2.3。

4.1.2.3 i＝i+1。

4.1.2.4如果i≤M，执行4.1.2.2；否则，说明已得到所有的待检测视频关键帧的拷贝属性值y₁,y₂,...y_i,...,y_M，执行步骤4.2。

4.2、基于步骤4.1.2得到的待检测视频关键帧q₁,q₂,...q_i,...,q_M的拷贝属性结果y₁,y₂,...y_i,...,y_M，检测并纠正错判的关键帧拷贝属性。

4.2.1根据关键帧的拷贝属性值，对待检测视频关键帧进行区间划分，得到待检测视频关键帧区间集合W、正区间集合W⁺和待验证关键帧区间集合W^*：先按帧号顺序对待检测视频关键帧进行区间划分，相邻关键帧拷贝属性不一样(y_i≠y_i+1)的帧号位置i为第j₁个区间和第j₁+1个区间分界点，区间内的关键帧号是连续的且拷贝属性值均是相同的，都等于y_i，y_i即为区间的拷贝属性，区间内所包含的关键帧数量为区间的长度从划分出来的待检测视频关键帧的区间中筛选出长度小于l(l为长度阈值，实验证明l＝4具有最佳效果)的区间为待验证关键帧区间，若视频中所有拷贝属性为1的区间均为待验证区间或不存在拷贝属性为1的区间，则判定该视频为非拷贝视频，转第五步，反之则为拷贝视频。如果拷贝视频中不存在待验证区间，转4.3；如果拷贝视频中存在待验证区间，转4.2.2。具体方法如下：

4.2.1.1初始化变量i＝1。

4.2.1.2初始化变量j₁＝2，令第一分界点x₁＝1。

4.2.1.3如果y_i≠y_i+1，则令第j₁分界点转4.2.1.4；如果y_i＝y_i+1，令j₁＝j₁+1，转4.2.1.3；

4.2.1.4 i＝i+1。

4.2.1.5如果i＜M，执行4.2.1.3；否则，说明已经找出所有的区间分界点，完成对待检测视频关键帧区间的划分，分界点个数m＝j₁+1，第m分界点x_m＝M，待检测视频关键帧区间集合W＝{w₁,w₂,...,w_n,...w_m-1}，w_n为第n个区间，1≤n≤m-1，转4.2.1.6。

4.2.1.6初始化关键帧区间个数变量j^#＝1，初始化待验证关键帧区间计数变量n^*＝1，初始化待验证区间总数N^*＝1，初始化正区间计数变量n⁺＝1，初始化正区间总数N⁺＝1，初始化正区间集合W⁺和待验证关键帧区间集合W^*为空集。

4.2.1.7令如果区间内的关键帧属性值为1，则该区间属于正区间集合W⁺，n⁺＝n⁺+1；如果l(w_j#)＜l，则为待验证关键帧区间属于待验证区间集合W^*，区间的起始边界为结束边界为n^*＝n^*+1。

4.2.1.8j^#＝j^#+1。

4.2.1.9如果j^#≤m，执行4.2.1.7，否则，说明已经找出所有待验证区间和正区间，令N^*＝n^*,N⁺＝n⁺，令待验证区间集合为正区间集合为转4.2.1.10。

4.2.1.10如果或即拷贝属性为1的正区间均为待验证区间，则说明该待检测视频为非拷贝视频，转第五步；如果且则说明待检测视频为拷贝视频且关键帧区间不存在待验证区间，无需对关键帧的拷贝属性进行重新验证，可直接对拷贝片段进行定位，转4.3；如果且W⁺≠W^*且且则说明待检测视频为拷贝视频，且存在待验证区间需要验证拷贝属性，转4.2.2。

4.2.2对4.2.1得到的待验证区间集合W^*中的待验证区间按长度从小到大的顺序对其拷贝属性的正确性进行验证并纠正错判的关键帧拷贝属性，方法是：

如果区间的长度小于其前后相邻区间的长度，则判定该区间的拷贝属性是错误的，其所包含的待检测视频关键帧即为错判的关键帧，将错判关键帧的拷贝属性值取相反数，即完成对该区间的纠正。在纠正后的基础上再进行下一个待验证区间的判断。检测出错判的关键帧并纠正后，拷贝属性值为1的区间内的待检测视频关键帧即构为连续拷贝帧序列C_jj＝{c_jj1,c_jj2,...,c_jji,...,c_jjL}(jj表示第jj个连续拷贝帧序列)，L即为该拷贝帧序列的长度，该序列中的第一个关键帧c_jj1和最后一个关键帧c_jjL的时间位置，即为拷贝片段在待检测视频中的时间起始位置和结束位置。具体方法如下：

4.2.2.1将待验证关键帧区间集合W^*内的区间按长度从小到大的顺序进行排列，排列后的待验证关键帧区间集合为W^#，其中a_j为在W^*中对应的区间的序号n^*，1≤a_j≤N^*，

4.2.2.2初始化变量n^*＝1，处理对象为排列后的待验证关键帧区间。

4.2.2.3如果区间的长度小于其在待检测视频关键帧区间中前后相邻的区间即和的长度，则区间的拷贝属性是错误的，将区间内的关键帧拷贝属性值取反，即将与其前后相邻区间和合并为一个区间，使得W、W^*和W⁺得到更新。

4.2.2.4 ii＝ii+1。

4.2.2.5如果ii≤N^*，执行4.2.2.3；否则，说明完成对待验证关键帧区间的重新判断，得到纠正后的关键帧拷贝属性值，并得到更新了的正区间集合z为最终的正区间个数。W⁺中的正区间内的关键帧构成连续拷贝帧序列C_jj，C_jj＝{c_jj1,c_jj2,...,c_jji,...,c_jjL}，即为该拷贝帧序列的长度，该序列中的第一个关键帧c_jj1和最后一个关键帧c_jjL的时间位置，即为拷贝片段在待检测视频中的时间起始位置和结束位置。

4.3、对拷贝片段进行判断与定位，方法是：

根据3.3中得到的待检测视频关键帧集合Q的最相似参考视频关键帧序号列表R^*，记录连续拷贝帧序列C_jj中每一个关键帧的最相似参考视频关键帧，找出其中长度最长的连续参考视频关键帧序列E_jj，E_jj＝{e_i,e_i+1,...,e_i+b|i≥1,i+b≤L}，e_i为长度最长的参考视频关键帧序列的第一帧的帧号(i等于第一帧e_i所对应的待检测视频关键帧在连续拷贝帧序列C_jj中的位置jji)，b为该关键帧序列E_jj的长度，以E_jj作为定位基准，将该序列向前和向后扩展，使得扩展后的序列长度为连续拷贝帧序列的长度L，得到

扩展后的最长最相似参考视频关键帧序列的第一帧e_i-i+1和最后一帧e_i+L-i+1的时间位置即为拷贝片段在参考视频中的起始位置和结束位置。执行第五步。

第五步，如果待检测视频被判断为拷贝视频，输出“待检测视频为拷贝视频”消息，并输出拷贝片段的在待检测视频和参考视频中的起始位置和结束位置，结束；如果待检测视频被判断为非拷贝视频，输出“待检测视频为非拷贝视频”消息，结束。

采用本发明可以达到以下技术效果：

1、与当前绝大多数研究中基于局部关键点匹配的关键帧相似性匹配方法相比，本发明第二步通过利用AlexNet卷积神经网络模型提取关键帧特征，并在第三步基于此特征利用近似最邻近搜索算法进行待检测视频关键帧最相似性参考视频关键帧的匹配，使得进行匹配运算的数据量大大减少，大幅度提高了计算速度；利用AlexNet提取到的关键帧特征相对于常用的利用SIFT、SURF构造词袋模型(文献“Visual categorization with bags ofkey points,workshop on statistical learning in computer vision Eccv,2004,44(247):1-22.”译为：基于关键点袋的视觉分类)得到的关键帧特征可以更好地描述关键帧的信息，关键帧相似性匹配的准确率也有大幅的提高。

2、本发明第四步在待检测视频关键帧最相似性帧的匹配结果的基础上判断每一关键帧的拷贝属性，能有效区分拷贝帧和非拷贝帧，并寻找连续拷贝帧序列，从而有效区分拷贝序列和非拷贝序列。因此，采用基于连续拷贝帧序列的方法进行拷贝视频片段的判断与定位可以有效解决待检测视频是由拷贝片段和非拷贝片段拼接的情况。

附图说明

图1为背景技术中介绍的拷贝视频编辑变换示意图。

图2为背景技术中介绍的视频拷贝检测研究中待检测视频与参考视频之间的三种拷贝关系示意图。

图3为本发明总体流程图。

图4为基于AlexNet卷积神经网络模型提取的关键帧特征进行关键帧相似性匹配示意图。

图5为第三步得到的待检测关键帧的最相似帧匹配结果示意图。

图6为第四步中4.1.1归一化最相似帧距离得到的结果示意图。

图7为第四步中4.1.2初步判断待检测视频关键帧拷贝属性的结果示意图。

图8为第四步中4.2.1区间划分示意图。

图9为第四步中4.2.2纠正错判关键帧后的结果示意图。

图10为第四步中4.3拷贝片段的判断与定位的示意图。

具体实施方式

图1为背景技术中介绍的拷贝视频编辑变换示意图，图1(a)为源视频，其余均为经过了一定编辑变换的拷贝视频，图1(b)在源视频的基础上进行了高斯模糊，图1(c)在源视频的基础上进行了改变了对比度和亮度，图1(d)为对源视频进行了比例变换，图1(e)对源视频增加了画面内容，图1(f)对源视频进行了画中画编辑，图1(g)对原视频进行了拉伸变换，图1(h)是对原视频进行编辑各种变换的组合，图1(i)是对原视频进行镜像变换。此图说明了拷贝视频编辑变换的种类非常多，要进行拷贝视频检测具有一定的难度，本发明提出的基于连续拷贝帧序列的拷贝视频检测方法可以应对以上多种不同的编辑变换类型。

图2为背景技术中介绍的待检测视频与参考视频之间的拷贝关系示意图，图中I为待检测视频长度与参考视频长度相等且待检测视频为参考视频完整拷贝；图中II为待检测视频是参考视频一个子集，且待检测视频为完整拷贝；图中III为待检测视频是部分拷贝，拷贝片段是参考视频中的一个子集。当前研究绝大多数都是解决图中I，II两种拷贝关系的情况，对于图中III所示的情况难以应对，本发明提出的基于连续拷贝帧的拷贝视频检测方法可以应对图中III所示的拷贝关系。

图3为本发明总体流程图，本发明包括以下五个步骤，实验时采用2014年全国第一届特定音视频检索识别挑战赛中“视频拷贝检测”的数据集，包括参考视频和待检测视频，数据集中的待检测视频的编辑变换类型如图1所示：

第一步，对参考视频进行处理，即提取参考视频的关键帧、提取关键帧特征，并将相关信息存储到参考视频数据库中，方法是：

1.1、从参考视频提取关键帧。每隔T秒从参考视频提取一帧关键帧，T为自然数，令T＝1，提取出的关键帧构成关键帧集合R'，R'＝{r'₁,r'₂,...,r'_j,...,r'_N}，r'_j为第j个参考视频关键帧，1≤j≤N，N为参考视频关键帧的数量，是一个大于1的自然数。

1.2、如图4所示，提取参考视频关键帧集合R'中各参考视频关键帧的特征。将R'中各关键帧图像的尺寸归一化为227×227，得到归一化后的关键帧集合R＝{r₁,r₂,...,r_j,...,r_N}，r_j为第j个归一化后的参考视频关键帧，然后将归一化后的关键帧与各关键帧图像的图像均值的差值输入到AlexNet卷积神经网络模型中，选择模型中FC7层的4096维向量作为关键帧的特征，得到N个4096维的特征向量，将这N个4096维的特征向量存储在SqlSever2008中的参考视频数据库中。

第二步，提取待检测视频的关键帧，并基于AlexNet卷积神经网络模型提取关键帧的特征，实验时以待检测视频Video 1为例，Video 1是在待检测视频数据集中随机抽取的一个视频，其编辑变换类型是模糊变换，方法是：

2.1从待检测视频Video 1中提取关键帧，每隔t秒从待检测视频提取视频关键帧，令t＝1。提取出的关键帧构成待检测视频关键帧集合Q，Q＝{q₁,q₂,...q_i,...,q_M}，q_i为按时间先后排序的待检测视频关键帧，1≤i≤M，M表示待检测视频关键帧的数量，是一个大于1的整数。

2.2、如图4所示，提取待检测视频关键帧集合Q中各待检测视频关键帧特征。将所有关键帧图像的尺寸归一化为227×227，然后将其与图像均值的差值输入到AlexNet卷积神经网络模型中，选择模型中FC7层的4096维向量作为待检测视频关键帧的特征。提取M个待检测视频关键帧特征，得到M个4096维的特征向量，待检测视频关键帧的特征在提取后直接用于计算，因此无需存储到数据库中。

第三步，根据提取的关键帧特征，进行待检测视频关键帧的最相似参考视频关键帧匹配，方法是：

3.3、如图5所示，采用近似最邻近搜索算法对待检测视频关键帧特征矩阵中的每一行在参考视频关键帧特征矩阵中搜索欧式距离最小的行向量，即找到距离待检测关键帧q_i最近的一个关键帧j^*为最相似关键帧序号，并计算出q_i和之间的距离就是关键帧q_i的最相似帧距离d_i。找到所有待检测视频关键帧的最相似参考视频关键帧帧，并得到所有待检测视频关键帧的最相似帧距离d₁,d₂,...d_i,...,d_M和待检测视频关键帧集合Q的最相似参考视频关键帧序号列表R^*。具体方法如下：

3.3.1初始化变量i＝1。

为待检测视频关键帧q_i的特征向量，为特征向量v_Q(q_i)的第p维，为参考视频关键帧r₁的特征向量，为特征向量v_R(r₁)的第p维，1≤p≤4096。

3.3.3计算q_i与r_j的特征向量的距离d_ij，为参考视频关键帧r_j的特征向量，为特征向量v_R(r_j)的第p维。

3.3.6 i＝i+1。

3.3.7如果i≤M，转步骤3.3.2，否则，说明已经找到所有待检测视频关键帧的最相似参考视频关键帧，所有待检测视频关键帧的最相似参考视频关键帧组成最相似帧列表R^*，并得到所有待检测视频关键帧与其最相似参考帧之间的距离，即最相似帧距离d₁,d₂,...d_i,...,d_M。如图6所示，图6为视频Video 1的最相似帧距离结果，横坐标为关键帧帧号，纵坐标为待检测视频关键帧与其最相似帧的距离。执行第四步。

第四步，基于待检测视频关键帧集合Q的最相似帧列表R^*和最相似帧距离d₁,d₂,...d_i,...,d_M，判断待检测视频关键帧是否为拷贝帧，寻找连续拷贝帧序列，从而判断待检测视频是否为拷贝视频，并对拷贝片段进行定位。

4.1.1.1初始化变量i＝1。

4.1.1.3 i＝i+1。

4.1.1.5计算归一化最相似帧距离的平均值

4.1.2.1初始化变量i＝1。

4.1.2.3 i＝i+1。

4.1.2.4如果i≤M，执行4.1.2.2；否则，说明已得到所有的待检测视频关键帧的初步判断的拷贝属性值y₁,y₂,...y_i,...,y_M，执行步骤4.2。对视频Video 1的关键帧拷贝属性的初步判断结果如图7所示，横坐标为关键帧帧号，纵坐标为关键帧拷贝属性值，纵坐标数值为1的为拷贝帧，纵坐标数值为－1的为非拷贝帧。视频Video 1中初步判断的拷贝帧为帧号9～11和30～60的待检测视频关键帧。

基于步骤4.1.2得到的待检测视频关键帧q₁,q₂,...q_i,...,q_M的拷贝属性结果y₁,y₂,...y_i,...,y_M，检测并纠正错判的关键帧拷贝属性：

4.2.1根据关键帧的拷贝属性值，对待检测视频关键帧进行区间划分，得到待检测视频关键帧区间集合W、正区间集合W⁺和待验证关键帧区间集合W^*：先按帧号顺序对待检测视频关键帧进行区间划分，相邻关键帧拷贝属性不一样(y_i≠y_i+1)的帧号位置i为第j₁个区间和第j₁+1区间分界点，区间内的关键帧号是连续的且拷贝属性值均是相同的，都等于y_i，y_i即为区间的拷贝属性，区间内所包含的关键帧数量为区间的长度从划分出来的待检测视频关键帧的区间中筛选出长度小于l，令l＝4的区间为待验证关键帧区间，若视频中所有拷贝属性为1的区间均为待验证区间或不存在拷贝属性为1的区间，则判定该视频为非拷贝视频，转第五步，反之则为拷贝视频。如果拷贝视频中不存在待验证区间，转4.3；如果拷贝视频中存在待验证区间，转4.2.2。具体方法如下：

4.2.1.1初始化变量i＝1。

4.2.1.2初始化变量j₁＝2，令第一分界点x₁＝1。

4.2.1.4 i＝i+1。

4.2.1.5如果i＜M，执行4.2.1.3；否则，说明已经找出所有的区间分界点，完成对待检测视频关键帧区间的划分，分界点个数m＝j₁+1，第m分界点x_m＝M，待检测视频关键帧区间集合W＝{w₁,w₂,...,w_n,...w_m-1}，w_n为第n个区间，1≤n≤m-1，转4.2.1.6。如图7所示，视频Video 1的分界点为1，8，11，29，60，120，关键帧区间集合W＝{w₁,w₂,w₃,w₄,w₅}

4.2.1.7令如果区间内的关键帧属性值为1，则该区间属于正区间集合W⁺，n⁺＝n⁺+1；如果则为待验证关键帧区间属于待验证区间集合W^*，区间的起始边界为结束边界为n^*＝n^*+1。

4.2.1.8j^#＝j^#+1。

4.2.1.9如果j^#≤m，执行4.2.1.7，否则，说明已经找出所有待验证区间和正区间，令N^*＝n^*,N⁺＝n⁺，令待验证区间集合为正区间集合为转4.2.1.10。如图8(a)所示，l(w₁)＝7，l(w₂)＝3，l(w₃)＝18，l(w₄)＝31，w₂,w₄内的关键帧属性值为1，所以视频Video 1的待验证区间集合为正区间集合为即区间w₂为待验证区间，区间w₂,w₄为正区间。

4.2.1.10如果或即拷贝属性为1的正区间均为待验证区间，则说明该待检测视频为非拷贝视频，转第五步；如果且则说明待检测视频关键帧区间不存在待验证区间，无需对关键帧的拷贝属性进行重新验证，可直接对拷贝片段进行定位转4.3；如果且W⁺≠W^*且且说明待检测视频为拷贝视频，且存在待验证区间需要重新判断拷贝属性，转4.2.2。如图8(a)所示，视频Video1中且W⁺≠W^*且且所以Video 1为拷贝视频，且需重新判断待验证区间的拷贝属性，转4.2.2。

4.2.2.3如果区间的长度小于其在待检测视频关键帧区间中前后相邻的区间即和的长度，则区间的拷贝属性是错误的，将区间内的关键帧拷贝属性值取反，即将与其前后相邻区间和合并为一个区间，使得W、W^*和W⁺得到更新。视频Video 1中，w₂为待验证区间，且l(w₂)＜l(w₁)＜l(w₃)，所以区间w₂的拷贝属性是错误的，将其拷贝属性值取反为-1，与w₁，w₃合并为一个区间，合并后的结果如图8(b)所示，此时W＝{w'₁,w'₂,w'₃}，W⁺＝{w'₂}。

4.2.2.4 ii＝ii+1。

4.2.2.5如果ii≤N^*，执行4.2.2.3；否则，说明完成对待验证关键帧区间的重新判断，得到纠正后的关键帧拷贝属性值，并得到更新了的正区间集合z为最终的正区间个数。W⁺中的正区间内的关键帧构成连续拷贝帧序列C_jj，C_jj＝{c_jj1,c_jj2,...,c_jji,...,c_jjL}，即为该拷贝帧序列的长度，该序列中的第一个关键帧c_jj1和最后一个关键帧c_jjL的时间位置，即为拷贝片段在待检测视频中的时间起始位置和结束位置。纠正所有错判关键帧拷贝属性之后，视频Video 1的正区间集合为因此jj＝1，区间w'₂内的关键帧构成如图9所示的连续拷贝帧序列C₁＝{q₃₀,q₃₁,...,q₅₉,q₆₀}。

4.3、对拷贝片段进行判断与定位，方法是：

扩展后的最长最相似参考视频关键帧序列的第一帧e_i-i+1和最后一帧e_i+L-i+1的时间位置即为拷贝片段在参考视频中的起始位置和结束位置。

待检测视频Video 1的连续拷贝帧序列为C₁＝{q₃₀,q₃₁,...,q₅₉,q₆₀}，长度L＝30，30s～60s，即为拷贝片段在待检测视频Video 1中的定位。如图10所示，确定拷贝片段在参考视频中的位置。找出视频Video 1拷贝帧序列C₁＝{q₃₀,q₃₁,...,q₅₉,q₆₀}所对应的最相似参考视频关键帧序列为r₄₀,r₃₁,...,r₆₉,r₇₀，该序列的帧号是连续的，且长度与C₁的长度L＝31相同，所以，该序列的第一帧r₄₀的时间位置第40s和最后一帧r₇₀的时间位置第70s为拷贝片段在参考视频中的起始位置和结束位置，即拷贝片段在参考视频中的起始位置为第40s的时刻，结束位置为第70s的时刻，执行第五步。

Claims

1.一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于包括以下步骤：

第一步，对参考视频进行处理，即提取参考视频的关键帧、提取关键帧特征，并将关键帧的所属参考视频和帧号信息及其特征存储到参考视频数据库中，具体方法是：

1.1、从参考视频提取关键帧：每隔T秒从参考视频提取一帧关键帧，T为自然数，提取出的关键帧构成关键帧集合R'，R'＝{r₁',r₂',...,r_j',...,r'_N}，r_j'为第j个参考视频关键帧，1≤j≤N，N为参考视频关键帧的数量，是一个大于1的自然数；

1.2、提取参考视频关键帧集合R'中各参考视频关键帧的特征：将R'中各关键帧图像的尺寸归一化为227×227，得到归一化后的关键帧集合R＝{r₁,r₂,...,r_j,...,r_N}，r_j为第j个归一化后的参考视频关键帧，然后将归一化后的关键帧与各关键帧图像的图像均值的差值输入到AlexNet卷积神经网络模型中，选择模型中FC7层的4096维向量作为关键帧的特征，得到N个4096维的特征向量，将这N个4096维的特征向量存储在参考视频数据库中；参考视频数据库还包含一张参考视频关键帧表，该表包含N个表项，每个表项包含4个域，即关键帧序号、关键帧所属的参考视频标号，关键帧在所属参考视频中的帧序号，关键帧特征的存放路径；

第二步，提取待检测视频的关键帧，并提取关键帧的特征，具体方法是：

2.1、从待检测视频提取关键帧，每隔t秒从待检测视频提取视频关键帧，t为自然数；提取出的关键帧构成待检测视频关键帧集合Q，Q＝{q₁,q₂,...q_i,...,q_M}，q_i为按时间先后排序的待检测视频关键帧，1≤i≤M，M表示待检测视频关键帧的数量，是一个大于1的整数；

2.2、提取待检测视频关键帧集合Q中各待检测视频关键帧特征：将所有关键帧图像的尺寸归一化为227×227，然后将其与图像均值的差值输入到AlexNet卷积神经网络模型中，选择模型中FC7层的4096维向量作为待检测视频关键帧的特征；提取M个待检测视频关键帧特征，得到M个4096维的特征向量；

第三步，基于参考视频关键帧特征和待检测视频关键帧特征，进行关键帧的相似性计算和最相似关键帧匹配，方法为：

3.1、依次访问参考视频关键帧表中的关键帧特征存放路径并读取关键帧特征，将N个参考视频关键帧的4096维特征向量组合在一起，构成一个4096×N的参考视频关键帧特征矩阵；

3.2、将待检测视频关键帧集合Q的M个4096维特征向量组合在一起，构成一个4096×M的待检测视频关键帧特征矩阵；

3.3、采用近似最邻近搜索算法对待检测视频关键帧特征矩阵中的每一行在参考视频关键帧特征矩阵中搜索欧式距离最小的行向量，找到距离待检测关键帧q_i最近的一个关键帧j^*为最相似关键帧序号，并计算出q_i和之间的距离得到待检测视频关键帧集合Q的最相似参考视频关键帧序号列表R^*和每个待视频关键帧与其最相似参考帧之间的距离，即最相似帧距离d₁,d₂,...d_i,...,d_M；

第四步，基于待检测视频关键帧集合Q的最相似帧列表R^*和最相似帧距离d₁,d₂,...d_i,...,d_M，判断待检测视频关键帧是否为拷贝帧，寻找连续拷贝帧序列，从而判断待检测视频是否为拷贝视频，并对拷贝视频进行定位，具体方法为：

4.1.1 归一化q₁,q₂,...q_i,...,q_M的最相似帧距离d₁,d₂,...d_i,...,d_M，得到归一化最相似帧距离D₁,D₂,...,D_i,...,D_M，计算归一化最相似帧距离D₁,D₂,...,D_i,...,D_M的平均值K；

4.1.2 根据待检测视频关键帧的归一化最相似帧距离D₁,D₂,...,D_i,...,D_M确定待检测视频关键帧q₁,q₂,...q_i,...,q_M的拷贝属性值y₁,y₂,...,y_i,...y_M；

4.2、基于待检测视频关键帧q₁,q₂,...q_i,...,q_M的拷贝属性值y₁,y₂,...y_i,...,y_M，检测并纠正错判的关键帧拷贝属性：

4.2.1 根据关键帧的拷贝属性值，根据关键帧的拷贝属性值，对待检测视频关键帧进行区间划分，得到待检测视频关键帧区间集合W、正区间集合W⁺和待验证关键帧区间集合W^*，方法是：

4.2.1.1 初始化变量i＝1；

4.2.1.2 初始化变量j₁＝2，令第一分界点x₁＝1；

4.2.1.3 如果y_i≠y_i+1，则令第j₁分界点转4.2.1.4；如果y_i＝y_i+1，令j₁＝j₁+1,转4.2.1.3；

4.2.1.4 i＝i+1；

4.2.1.5 如果i＜M，则执行4.2.1.3；否则，说明已经找出所有的区间分界点，完成对待检测视频关键帧区间的划分，分界点个数m＝j₁+1，第m分界点x_m＝M，待检测视频关键帧区间集合W＝{w₁,w₂,...,w_n,...w_m-1}，w_n为第n个区间，1≤n≤m-1，转4.2.1.6；

4.2.1.6 初始化关键帧区间个数变量j^#＝1，初始化待验证关键帧区间计数变量n^*＝1，初始化待验证区间总数N^*＝1，初始化正区间计数变量n⁺＝1，初始化正区间总数N⁺＝1，初始化正区间集合W⁺和待验证关键帧区间集合W^*为空集；

4.2.1.7 令区间的长度如果区间内的关键帧属性值为1，则该区间属于正区间集合W⁺，n⁺＝n⁺+1；如果l为长度阈值，则为待验证关键帧区间属于待验证区间集合W^*，区间的起始边界为结束边界为n^*＝n^*+1；

4.2.1.8 j^#＝j^#+1；

4.2.1.9 如果j^#≤m，执行4.2.1.7，否则，说明已经找出所有待验证区间和正区间，令N^*＝n^*,N⁺＝n⁺，令待验证区间集合为正区间集合为转4.2.1.10；

4.2.1.10 如果或即拷贝属性为1的正区间均为待验证区间，则说明该待检测视频为非拷贝视频，转第五步；如果且则说明待检测视频为拷贝视频且关键帧区间不存在待验证区间，无需对关键帧的拷贝属性进行重新验证，可直接对拷贝片段进行定位，转4.3；如果且W⁺≠W^*且且则说明待检测视频为拷贝视频，且存在待验证区间需要验证拷贝属性，转4.2.2；

4.2.2 对4.2.1得到的待验证区间集合W^*中的待验证区间按长度从小到大的顺序对其拷贝属性的正确性进行验证并纠正错判的关键帧拷贝属性，方法是：

4.2.2.1 将待验证关键帧区间集合W^*内的区间按长度从小到大的顺序进行排列，排列后的待验证关键帧区间集合为其中a_j为在W^*中对应的区间的序号n^*，1≤a_j≤N^*，

4.2.2.2 初始化变量ii＝1，处理对象为排列后的待验证关键帧区间；

4.2.2.3 如果区间的长度小于其在待检测视频关键帧区间中前后相邻的区间即和的长度，将区间内的关键帧拷贝属性值取反；

4.2.2.4 ii＝ii+1；

4.2.2.5 如果ii≤N^*，执行4.2.2.3；否则，说明完成对待验证关键帧区间的重新判断，得到纠正后的关键帧拷贝属性值，并得到更新了的正区间集合z为最终的正区间个数；W⁺中的正区间内的关键帧构成连续拷贝帧序列C_jj，C_jj＝{c_jj1,c_jj2,...,c_jji,...,c_jjL}，即为该拷贝帧序列的长度，该序列中的第一个关键帧c_jj1和最后一个关键帧c_jjL的时间位置，即为拷贝片段在待检测视频中的时间起始位置和结束位置；

4.3、对拷贝片段进行判断与定位，方法是：

根据待检测视频关键帧集合Q的最相似参考视频关键帧序号列表R^*，记录连续拷贝帧序列C_jj中每一个关键帧的最相似参考视频关键帧，找出其中长度最长的连续参考视频关键帧序列E_jj，E_jj＝{e_i,e_i+1,...,e_i+b|i≥1,i+b≤L}，e_i为长度最长的参考视频关键帧序列的第一帧的帧号，i等于第一帧e_i所对应的待检测视频关键帧在连续拷贝帧序列C_jj中的位置jji，b为该关键帧序列E_jj的长度，以E_jj作为定位基准，将该序列向前和向后扩展，使得扩展后的序列长度为连续拷贝帧序列的长度L，得到

扩展后的最长最相似参考视频关键帧序列的第一帧e_i-i+1和最后一帧e_i+L-i+1的时间位置即为拷贝片段在参考视频中的起始位置和结束位置；

2.如权利要求1所述的一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于所述T＝1，所述t＝1或2。

3.如权利要求1所述的一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于所述AlexNet卷积神经网络模型在ImageNet数据集上预训练过。

4.如权利要求1所述的一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于3.3步所述得到待检测视频关键帧集合Q的最相似参考视频关键帧序号列表R^*和每个待检测视频关键帧与其最相似参考帧之间的距离的方法是：

3.3.1 初始化变量i＝1；

3.3.2 初始化变量j＝1，初始化最相似关键帧序号j^*＝j，初始化最小距离d_i＝d_i1，d_i1为第i个待检测视频关键帧与第1个参考视频关键帧r₁的距离，

为待检测视频关键帧q_i的特征向量，为v_Q(q_i)的第p维，为参考视频关键帧r₁的特征向量，为v_R(r₁)的第p维，1≤p≤4096；

3.3.3 计算q_i与r_j的特征向量的距离d_ij，为参考视频关键帧r_j的特征向量，为v_R(r_j)的第p维；

3.3.4 如果d_ij＜d_i，则令d_i＝d_ij，令最相似关键帧序号j^*＝j，转3.3.5；否则d_i和j^*保持不变，转3.3.5；

3.3.5 j＝j+1，如果j＞N，说明已经计算和比较完所有参考视频关键帧与q_i的特征向量距离，最小距离为最相似关键帧为转3.3.6；如果j≤N，转3.3.3；

3.3.6 i＝i+1；

3.3.7 如果i≤M，转步骤3.3.2，否则，说明已经找到所有待检测视频关键帧的最相似参考视频关键帧，所有待检测视频关键帧的最相似参考视频关键帧组成最相似帧列表R^*，并得到每个待检测视频关键帧与其最相似参考帧之间的距离，即最相似帧距离d₁,d₂,...d_i,...,d_M。

5.如权利要求1所述的一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于4.1.1步所述归一化最相似帧距离d₁,d₂,...d_i,...,d_M，并计算归一化最相似帧距离的平均值K的方法是：

4.1.1.1 初始化变量i＝1；

4.1.1.2 归一化最相似帧距离S为待检测视频关键帧与其最相似帧的欧式距离的总和，

4.1.1.3 i＝i+1；

4.1.1.4 如果i≤M，执行4.1.1.2；否则，执行4.1.1.5；

4.1.1.5 计算归一化最相似帧距离的平均值

6.如权利要求1所述的一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于4.1.2步所述确定待检测视频关键帧q₁,q₂,...q_i,...,q_M的拷贝属性值y₁,y₂,...,y_i,...y_M的方法是：

4.1.2.1 初始化变量i＝1；

4.1.2.2 如果D_i＜K，则待检测视频关键帧q_i的拷贝属性值y_i＝1，转步骤4.1.2.3；否则，y_i＝-1，转步骤4.1.2.3；

4.1.2.3 i＝i+1；4.1.2.4如果i≤M，执行4.1.2.2；否则，说明已得到所有的待检测视频关键帧的拷贝属性值y₁,y₂,...y_i,...,y_M。

7.如权利要求1所述的一种基于连续拷贝帧序列的拷贝视频检测方法，其特征在于所述长度阈值l＝4。