CN106778686A

CN106778686A - 一种基于深度学习和图论的拷贝视频检测方法和系统

Info

Publication number: CN106778686A
Application number: CN201710024138.9A
Authority: CN
Inventors: 杨欧
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2017-05-31

Abstract

本发明公开了一种基于深度学习和图论的拷贝视频检测方法，包括：抽取参考库视频中的关键帧，从关键帧中提取关键帧特征，并将该关键帧特征存储在参考库视频数据库中；抽取待检测视频中的关键帧，并从关键帧中提取关键帧特征；采用近似最近邻搜索算法对得到的参考库视频数据库中的关键帧特征和得到的待检测视频中的关键帧特征进行相似性匹配，根据图论的方法对得到的相似性匹配列表进行拷贝视频片段的判断与定位。本发明能够解决现有方法中存在的拷贝视频检测时间消耗大以及对部分视频编辑变换方式难以应对的技术问题。

Description

一种基于深度学习和图论的拷贝视频检测方法和系统

技术领域

本发明属于多媒体信息处理技术领域，更具体地，涉及一种基于深度学习和图论的拷贝视频检测方法和系统。

背景技术

随着信息技术、视频采集设备和视频编辑软件的发展，视频数据呈现海量增长的趋势。互联网上每天都有大量的视频被上传和下载，这就导致互联网上存在着大量的相似或者拷贝视频。大量拷贝视频的产生给视频内容监管、视频版权保护、视频搜索引擎结果排序等多方面带来技术性的难题。利用计算机进行拷贝视频检测研究是近年来人们普遍关注的新兴研究课题，其涉及到的关键帧相似性匹配、视频子序列相似性匹配等技术已引起了越来越多学者和机构的关注。

目前，拷贝视频片段检测技术研究主要集中于基于视频关键帧特征的相似性匹配以及视频子序列的相似性匹配两方面。基于视频关键帧特征的相似性匹配目前研究主要集中于基于关键帧的局部特征进行相似性匹配，局部特征即通过提取关键帧的局部关键点并对关键点进行描述从而对关键帧进行描述。对于视频子序列相似性匹配方面的研究主要是采用模板序列匹配的方法，模板序列匹配是指以待检测视频序列的长度为窗口长度，然后以一个步长在参考视频序列中依次滑动，度量窗口内对应视频序列的相似度值。

然而，现有的拷贝视频检测方法存在以下的技术问题：第一，局部特征点检测算法较为复杂，局部描述子的维度高，且使采用局部特征进行关键帧相似性匹配需要对关键帧进行两两相似度计算，因此时间消耗过大，在应对大规模数据集时算法的效率不高；第二，基于模板序列匹配的视频子序列相似性匹配方法很难应对帧率改变、插帧、丢帧等视频编辑变换，而且在视频规模较大时，基于模板序列匹配的方法时间复杂度较高；第三，当前绝大多数的拷贝视频检测研究均侧重于待检测视频与参考视频长度相等的情况和待检测视频是参考视频子集的情况，但是当待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考库视频中的子集时，当前研究方法就变得难以应对，检测的准确率也会大大降低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习和图论的拷贝视频检测方法和系统，其目的在于，解决现有方法中存在的拷贝视频检测时间消耗大以及对部分视频编辑变换方式难以应对的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习和图论的拷贝视频检测方法，包括以下步骤：

(1)抽取参考库视频中的关键帧，从关键帧中提取关键帧特征，并将该关键帧特征存储在参考库视频数据库中；

(2)抽取待检测视频中的关键帧，并从关键帧中提取关键帧特征；

(3)采用近似最近邻搜索算法对步骤(1)中得到的参考库视频数据库中的关键帧特征和步骤(2)中得到的待检测视频中的关键帧特征进行相似性匹配；

(4)根据图论的方法对步骤(3)得到的相似性匹配列表进行拷贝视频片段的判断与定位。

优选地，步骤(1)具体包括以下子步骤：

(1-1)抽取参考库视频中的多个关键帧，具体是按照时间间隔T秒抽取一个关键帧，其中T为自然数；

(1-2)将步骤(1-1)中获取的多个关键帧进行归一化，将归一化的关键帧大小减去图像均值，并将结果输入到卷积神经网络模型进行处理，并将处理得到的W维向量作为关键帧特征，其中W为自然数；

(1-3)将步骤(1-2)中获得的关键帧特征按生成时间的先后顺序保存在参考库视频数据库中，并记录每个关键帧特征所对应的参考库视频序号。

优选地，步骤(1-2)中采用的是AlexNet卷积神经网络模型FC7层输出的的4096维向量，即W＝4096。

优选地，步骤(2)具体包括以下步骤：

(2-1)抽取待检测视频中的多个关键帧，具体是按照时间间隔S秒抽取一个关键帧，其中S为自然数；

(2-2)将步骤(2-1)中获取的多个关键帧进行归一化，将归一化的关键帧大小减去图像均值，并将结果输入到卷积神经网络模型中进行处理，并将处理得到的W维向量作为关键帧特征。

优选地，步骤(3)具体包括以下步骤：

(3-1)读取参考库视频数据库中的关键帧特征R＝{r₁,r₂,...,r_n}，并将所有关键帧特征组合为W×n的矩阵，其中n表示参考库视频数据库中关键帧的数量，r_j为参考视频关键帧，且j∈(1,n)；

(3-2)读取待检测视频中的关键帧特征Q＝{q₁,q₂,...,q_m}，并将所有关键帧特征组合为W×m的矩阵，其中，m表示待检测视频关键帧的数量，q_i为按时间先后排序的待检测视频关键帧，且i∈(1,m)；

(3-3)采用近似最近邻搜索算法对获得的W×m的矩阵和W×n的矩阵进行关键帧的相似性匹配，以得到关键帧相似性匹配结果。

优选地，步骤(3-3)具体为，采用近似最近邻搜索算法，针对步骤(3-2)得到的矩阵W×m中的每一行，在步骤(3-1)得到的矩阵W×n中搜索与其欧式距离最小的前K个行向量，并按欧式距离由小到大的顺序对结果进行排序，即得到参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧r_j，并得到待检测视频关键帧集合Q与参考库视频数据库中关键帧集合R的相似性匹配结果，其中K为自然数。

优选地，步骤(4)具体包括以下子步骤：

(4-1)根据步骤(3)得到的关键帧相似性匹配结果构造匹配结果图中的结点，即对于待检测关键帧q_i，如果参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧中包含r_j，则得到结点M_i,j；

(4-2)判断匹配结果图中的相邻两个结点是存在连边，如果是则进入步骤(4-3)，否则转入步骤(4-4)；

(4-3)将该两个结点之间距离设为1，然后转入步骤(4-5)；

(4-4)将该两个结点之间距离设为-1；

(4-5)针对匹配结果图中的所有任意两个结点，重复上述步骤(4-2)至(4-4)，直到得到所有结点之间的距离为止，利用获得的所有向结点之间的距离，并使用Floyd_Warshall算法查找匹配结果图中任意两结点之间的最长路径Dist(M_i,j,M_u,v)，其中u∈(1,m)，v∈(1,n)。

(4-6)根据步骤(4-5)得到的结果对待检测视频中的拷贝片段进行判断，以获取非拷贝视频。

优选地，步骤(4-2)具体为，判断两个结点M_i,j和M_u,v是否存在连边需要同时两个条件：一是满足时间方向的一致性，即(i-u)*(j-v)＞0；二是满足两结点之间的跳跃度其中τ为结点之间的时间跳跃度阈值。

优选地，步骤(4-6)具体为，查找匹配结果图中的最长路径maxDist(M_i,j,M_u,v)，如果maxDist(M_i,j,M_u,v)≥λ，则判断该待检测视频为包含拷贝片段，拷贝片段的关键帧序列为从q_i到q_u，对应的参考视频库关键帧序列为从r_j到r_v，λ是对最大路径长度的限制阈值，如果maxDist(M_i,j,M_u,v)＜λ，则判断该待检测视频不包含拷贝片段，即为非拷贝视频。

按照本发明的另一方面，提供了一种基于深度学习和图论的拷贝视频检测系统，包括：

第一模块，用于抽取参考库视频中的关键帧，从关键帧中提取关键帧特征，并将该关键帧特征存储在参考库视频数据库中；

第二模块，用于抽取待检测视频中的关键帧，并从关键帧中提取关键帧特征；

第三模块，用于采用近似最近邻搜索算法对第一模块得到的参考库视频数据库中的关键帧特征和第二模块得到的待检测视频中的关键帧特征进行相似性匹配；

第四模块，用于根据图论的方法对第三模块得到的相似性匹配列表进行拷贝视频片段的判断与定位。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明能够解决现有基于关键帧特征相似性匹配方法中存在的计算复杂度高，时间消耗大的技术问题：本发明由于采用了步骤(1)和步骤(2)，通过利用卷积神经网络模型提取关键帧特征，使得关键帧特征描述能力更好且维数大大减少，又由于步骤(3)利用近似最近邻搜索算法进行关键帧相似性匹配，不需对关键帧两两计算相似度，而是一次性得到所有待检测关键帧的相似性匹配结果，大幅度提高了计算速度，因此本发明能够解决计算复杂度高，时间消耗大的技术问题。

(2)本发明能够解决现有基于模板序列匹配方法中存在的计算复杂度高，难以应对帧率改变、插帧、丢帧等视频编辑变换的技术问题：本发明由于采用了步骤(3)和步骤(4)，通过利用近似最近邻搜索算法进行关键帧相似性匹配，通过利用图论的方法将拷贝视频的判断与定位转化为在有向图中寻找最长路径，因此本发明能够解决计算复杂度高，难以应对帧率改变、插帧、丢帧等视频编辑变换的技术问题。

(3)本发明能够解决现有方法无法应对待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考库视频中的子集的技术问题：本发明步骤(4)，通过利用图论的方法将拷贝视频的判断与定位转化为在有向图中寻找最长路径，可以应对待检测视频与参考库视频之间的任意匹配形式，因此本发明能够解决待检测视频本身也为拷贝片段和非拷贝片段拼接且拷贝片段仅为参考库视频中的子集的技术问题。

附图说明

图1是现有技术中拷贝视频编辑变换的示意图。

图2是现有技术中待检测视频与参考库视频之间的匹配形式示意图。

图3是本发明基于深度学习和图论的拷贝视频检测方法的流程图。

图4是本发明步骤(3)中基于AlexNet卷积神经网络模型提取的关键帧特征进行关键帧相似性匹配示意图。

图5是本发明步骤(3)中得到的待检测关键帧相似性匹配结果示意图。

图6是本发明步骤(4)中得到的匹配结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为现有技术的拷贝视频编辑变换示意图，图中(a)为源视频，其余均为经过了一定编辑变换的拷贝视频，图中(b)在源视频的基础上进行了高斯模糊，图中(c)在源视频的基础上进行了改变了对比度，图中(d)为对源视频进行了裁剪变换，图中(e)对源视频添加了黑边，图中(f)对源视频进行了高斯模糊同时添加了标志，此图说明了拷贝视频编辑变换的种类非常多，要进行拷贝视频检测具有一定的难度，本发明提出的基于深度学习和图论的拷贝视频检测方法可以应对以上多种不同的编辑变换类型。

图2为现有技术的待检测视频与参考库视频之间的匹配形式示意图，图中(a)为待检测视频长度与参考视频长度相等且待检测视频即为参考视频完整拷贝的情况，图中(b)为待检测视频拷贝自参考视频一个子集的情况，图中(c)即待检测视频片段中的部分片段与参考库视频中片段中的一个子集是拷贝的情况，当前研究绝大多数都是解决图中(a)、(b)两种匹配形式的情况，对于图中(c)所示的情况难以应对，本发明提出的基于深度学习和图论的拷贝视频检测方法可以应对图中(c)所示的匹配形式。

如图3所示，本发明基于深度学习和图论的拷贝视频检测方法包括以下步骤：

(1)抽取参考库视频中的关键帧，从关键帧中提取关键帧特征，并将该关键帧特征存储在参考库视频数据库中。

本步骤具体包括以下子步骤：

(1-1)抽取参考库视频中的多个关键帧；具体而言，本步骤是按照时间间隔T秒抽取一个关键帧，其中T为自然数，且优选值等于1；

(1-2)将步骤(1-1)中获取的多个关键帧进行归一化(例如，归一化为227×227大小)，将归一化的关键帧大小减去图像均值，并将结果输入到卷积神经网络模型进行处理(在本实施方式中，采用已经在诸如ImageNet数据集的海量图像数据集上预训练的AlexNet卷积神经网络模型)，并将处理得到的W维向量作为关键帧特征，其中W为自然数，在本实施方式中采用的是AlexNet卷积神经网络模型FC7层输出的的4096维向量，即W＝4096；

(2)抽取待检测视频中的关键帧，并从关键帧中提取关键帧特征。

本步骤具体包括以下步骤：

(2-1)抽取待检测视频中的多个关键帧；具体而言，本步骤是按照时间间隔S秒抽取一个关键帧，其中S为自然数，且优选值等于1；

(2-2)将步骤(2-1)中获取的多个关键帧进行归一化(例如，归一化为227×227大小)，将归一化的关键帧大小减去图像均值，并将结果输入到卷积神经网络模型中进行处理(在本实施方式中，采用已经在诸如ImageNet数据集的海量图像数据集上预训练的AlexNet卷积神经网络模型)，并将处理得到的W维向量作为关键帧特征。

本步骤具体包括以下子步骤：

(3-1)读取参考库视频数据库中的关键帧特征，并将所有关键帧特征组合为W×n的矩阵，其中n表示参考库视频数据库中关键帧的数量，且为自然数；具体而言，设参考库视频数据库中关键帧集合为R＝{r₁,r₂,...,r_n}，r_j为参考视频关键帧，且j∈(1,n)，本发明中每一个关键帧特征为一个4096维向量，则可将参考库视频数据库中所有关键帧特征组合在一起，构成一个4096×n的矩阵；

(3-2)读取待检测视频中的关键帧特征，并将所有关键帧特征组合为W×m的矩阵，其中，m表示待检测视频关键帧的数量，且为自然数；具体而言，设待检测视频中关键帧集合为Q＝{q₁,q₂,...,q_m}，q_i为按时间先后排序的待检测视频关键帧，且i∈(1,m)，本发明中每一个关键帧特征为一个4096维向量，则可将所有待检测视频中关键帧特征组合在一起，构成一个4096×m的矩阵；

(3-3)采用近似最近邻搜索算法对获得的W×m的矩阵和W×n的矩阵进行关键帧的相似性匹配，以得到关键帧相似性匹配结果；具体而言，采用近似最近邻搜索算法，针对步骤(3-2)得到的矩阵4096×m中的每一行，在步骤(3-1)得到的矩阵4096×n中搜索与其欧式距离最小的前K个行向量，并按欧式距离由小到大的顺序对结果进行排序(其中K为自然数，且优选值等于10)；也就是说，对每一个待检测关键帧q_i，均得到参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧r_j，这样也就得到了待检测视频关键帧集合Q与参考库视频数据库中关键帧集合R的相似性匹配结果。

本步骤具体包括以下子步骤：

(4-1)根据步骤(3)得到的关键帧相似性匹配结果构造匹配结果图中的结点；具体而言，对于待检测关键帧q_i，如果参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧中包含r_j，则得到结点M_i,j；

(4-2)判断匹配结果图中的相邻两个结点是存在连边，如果是则进入步骤(4-3)，否则转入步骤(4-4)；具体而言，判断两个结点M_i,j和M_u,v是否存在连边需要同时两个条件：一是满足时间方向的一致性，即(i-u)*(j-v)＞0；二是满足两结点之间的跳跃度其中τ为结点之间的时间跳跃度阈值，且优选值等于5，v∈(1,n)，u∈(1,m)；

(4-3)将该两个结点之间距离设为1，然后转入步骤(4-5)；

(4-4)将该两个结点之间距离设为-1；

(4-5)针对匹配结果图中的所有任意两个结点，重复上述步骤(4-2)至(4-4)，直到得到所有结点之间的距离为止，利用获得的所有向结点之间的距离，并使用Floyd_Warshall算法查找匹配结果图中任意两结点之间的最长路径Dist(M_i,j,M_u,v)。

(4-6)根据步骤(4-5)得到的结果对待检测视频中的拷贝片段进行判断；具体而言，查找匹配结果图中的最长路径maxDist(M_i,j,M_u,v)，如果maxDist(M_i,j,M_u,v)≥λ，则判断该待检测视频为包含拷贝片段，拷贝片段的关键帧序列为从q_i到q_u，对应的参考视频库关键帧序列为从r_j到r_v，λ是对最大路径长度的限制阈值，且优选值等于5，如果maxDist(M_i,j,M_u,v)＜λ，则判断该待检测视频不包含拷贝片段，即为非拷贝视频。

图4为本发明步骤(3)中基于AlexNet卷积神经网络模型提取的关键帧特征进行关键帧相似性匹配示意图，利用AlexNet卷积神经网络模型输出的FC7层特征进行关键帧相似度的计算，这里即计算两个4096维向量的距离。

图5为本发明步骤(3)中得到的待检测关键帧相似性列表示意图，代表待检测视频的第m帧，代表参考库视频数据库关键帧集中的第f帧。图中的前7列数据为实验中一段待检测视频的匹配结果，匹配时，待检测视频Q＝{q₁,...,q_m}中的每一帧q_i按照时间先后顺序进行排序，然后将待检测关键帧q_i与参考库视频数据库中关键帧集合R＝{r₁,...,r_n}进行相似性匹配，按照欧式距离从小到大对匹配结果进行排序，图中K＝5，即取前5个距离最小的结果。以图中第一列匹配结果为例，则有dist(q₁,r₂₆)≤dist(q₁,r₄₀)≤dist(q₁,r₁₁₂)≤dist(q₁,r₁₁)≤dist(q₁,r₇₆)。

图6为本发明步骤(4)中得到的匹配结果示意图，其是由图5中的前7列数据转化而来，两条虚线边的地方代表两个结点之间不存在边，匹配结果图中令τ＝5，虚线(1)连接的两个结点超过了时间跳跃度阈值，虚线(2)连接的两个结点不满足时间方向的一致性，图中红色路径即为匹配结果图中的最长路径，路径的起止结点M_1,26和M_7,33表示待检测视频的第一帧到第七帧为拷贝片段，对应于整个参考库视频关键帧中的第26到第33帧，通过数据库里记录到的关键帧所属视频标号，即可查找拷贝片段的源视频片段，由此完成拷贝视频片段的判断和定位。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和图论的拷贝视频检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的拷贝视频检测方法，其特征在于，步骤(1)具体包括以下子步骤：

3.根据权利要求1所述的拷贝视频检测方法，其特征在于，步骤(1-2)中采用的是AlexNet卷积神经网络模型FC7层输出的的4096维向量，即W＝4096。

4.根据权利要求2所述的拷贝视频检测方法，其特征在于，步骤(2)具体包括以下步骤：

5.根据权利要求4所述的拷贝视频检测方法，其特征在于，步骤(3)具体包括以下步骤：

6.根据权利要求5所述的拷贝视频检测方法，其特征在于，步骤(3-3)具体为，采用近似最近邻搜索算法，针对步骤(3-2)得到的矩阵W×m中的每一行，在步骤(3-1)得到的矩阵W×n中搜索与其欧式距离最小的前K个行向量，并按欧式距离由小到大的顺序对结果进行排序，即得到参考库视频数据库关键帧集合R中与其距离最近的前K个关键帧r_j，并得到待检测视频关键帧集合Q与参考库视频数据库中关键帧集合R的相似性匹配结果，其中K为自然数。

7.根据权利要求5所述的拷贝视频检测方法，其特征在于，步骤(4)具体包括以下子步骤：

(4-3)将该两个结点之间距离设为1，然后转入步骤(4-5)；

(4-4)将该两个结点之间距离设为-1；

(4-5)针对匹配结果图中的所有任意两个结点，重复上述步骤(4-2)至(4-4)，直到得到所有结点之间的距离为止，利用获得的所有向结点之间的距离，并使用Floyd_Warshall算法查找匹配结果图中任意两结点之间的最长路径Dist(M_i,j,M_u,v)，其中u∈(1,m)，v∈(1,n)；

8.根据权利要求7所述的拷贝视频检测方法，其特征在于，步骤(4-2)具体为，判断两个结点M_i,j和M_u,v是否存在连边需要同时两个条件：一是满足时间方向的一致性，即(i-u)*(j-v)＞0；二是满足两结点之间的跳跃度其中τ为结点之间的时间跳跃度阈值。

9.根据权利要求8所述的拷贝视频检测方法，其特征在于，步骤(4-6)具体为，查找匹配结果图中的最长路径maxDist(M_i,j,M_u,v)，如果maxDist(M_i,j,M_u,v)≥λ，则判断该待检测视频为包含拷贝片段，拷贝片段的关键帧序列为从q_i到q_u，对应的参考视频库关键帧序列为从r_j到r_v，λ是对最大路径长度的限制阈值，如果maxDist(M_i,j,M_u,v)＜λ，则判断该待检测视频不包含拷贝片段，即为非拷贝视频。

10.一种基于深度学习和图论的拷贝视频检测系统，其特征在于，包括：