CN108985165A

CN108985165A - 一种基于卷积及循环神经网络的视频拷贝检测系统及方法

Info

Publication number: CN108985165A
Application number: CN201810600019.8A
Authority: CN
Inventors: 路小波; 胡耀聪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-12-11

Abstract

本发明公开了一种基于卷积及循环神经网络的视频拷贝检测系统，该系统包括5个模块，分别为数据集建立模块、帧特征提取模块、时空特征训练模块、循环网络测试模块和拷贝视频匹配模块，其中时空特征训练模块还包括视频剪辑模块和循环网络训练模块。本发明采用残差卷积神经网络有利于提取更深层次的帧级特征表示，有效的提高检测准确率，降低检测召回率，采用孪生循环神经网络以融合多个帧级特征，利用帧间的动态信息生成时空特征表示，实现了序列间的时空融合，使得视频匹配耗费时间少、占用内存低。

Description

一种基于卷积及循环神经网络的视频拷贝检测系统及方法

技术领域

本发明涉及一种视频拷贝检测系统及方法，具体涉及一种基于卷积及循环神经网络的视频拷贝检测系统及方法。

背景技术

随着网络多媒体技术的发展，网络视频数据呈海量式增长，大量的视频数据在互联网上公开。互联网使用者可以在Youtube或者MetaCafe上搜索不同类型的视频如政治、娱乐、体育等。尽管在线视频使得网络使用者可以获得全球最新的信息，但是也存在一些潜在的风险。盗版商可以轻松的剽窃或篡改在线的原始视频以赚取非法收入。因此，基于视频分析的拷贝检测技术对于网络安全和版权保护具有极其重要的意义。

在早期的视频版权保护任务中，水印或者数字标签被作为补充信息插入到视频流中，以用于拷贝检测。随着计算机视觉技术的发展，目前基于内容的拷贝检测方法逐步取代了传统的数字水印技术。这类方法通过提取视频中的内容信息作为特征表示而不再需要向原始视频中添加冗余信息。而这类方法在视频拷贝检测任务中的效果主要取决于两个方面：

(1)如何提取视频中单帧图像的内容信息。

(2)如何组合连续多个单帧图像的内容信息，并将帧与帧的信息进行融合以生成时空特征表示。

在基于内容的视频拷贝检测问题中，目前常用传统特征和深度学习特征这两种特征表示方式。

(1)基于传统特征的视频拷贝检测方法：使用稀疏采样的方法组合视频中多个关键帧的单帧特征表示用于视频匹配。但是尺度不变特征变换描述子SIFT对旋转、光照等变化较为敏感，因此这种很难检测出经过某些篡改的拷贝视频。另外稀疏的关键帧采样策略忽略了视频中帧间的动态信息，导致检测结果准确性下降。

(2)基于深度学习特征的视频拷贝检测方法：有人提出使用AlexNet卷积神经网络端到端的提取视频中单帧图像的特征表示，接着稠密的采样视频中单帧特征表示以用于视频序列匹配。但是简单的将单帧图像特征在时间域上进行稠密组合会得到很大维度的特征表示，使得视频匹配耗费时间、耗费内存。

也有人提出通过VGG16卷积神经网络端到端的提取视频中单帧图像的特征表示，并将单帧特征进行稠密组合，使用稀疏编码的方式进行特征空间域降维，使用视频池化进行时间域降维，最后将降维后的特征表示用于视频匹配。但是该方法中所采用的降维方式只是在视频的时间域和空间域上分别进行压缩和整合，并没有利用视频中帧与帧之间的时空信息。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于卷积及循环神经网络的视频拷贝检测系统及方法，可以解决在检测中检测结果准确性低，视频匹配中耗费时间、耗费内存的问题。

技术方案：一方面，本发明所述的基于卷积及循环神经网络的视频拷贝检测系统，该系统包括：

数据集建立模块，使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集，使用公开视频数据集VCDB作为测试集；

帧特征提取模块，采用50层的残差卷积神经网络ResNet50提取所述训练集视频的图像帧级静态特征；

时空特征训练模块，该模块包括视频剪辑模块和循环网络训练模块，所述视频剪辑模块用于将所述训练集中的视频剪辑成若干剪辑段，并将所述若干剪辑段组合成若干个剪辑对，所述剪辑对包括剪辑内容相同的剪辑对和剪辑内容不相同的剪辑对；所述循环网络训练模块利用所述剪辑对中的帧级静态特征序列训练孪生循环神经网络，生成降维的时空特征表示，并采用比较损失函数优化所述孪生循环网络的参数；

循环网络测试模块，用于将所述测试集中的库视频和待查询视频生成时空特征表示，所述生成方法是采用所述循环网络训练模块中训练的孪生循环神经网络；

拷贝视频匹配模块，用于使用基于图的时空网络算法匹配所述测试集中的库视频，以确定所述待查询视频是否为拷贝视频。

优选的，所述循环网络训练模块的孪生循环神经网络的基本神经单元为长短期记忆胞元，所述长短期记忆胞元包括一个记忆胞元和三个控制门，所述三个控制门分别为输入门、遗忘门和输出门，所述控制门的输入均为帧级静态特征和上一个状态的输出值，所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到，分别将为i_t、f_t和o_t，所述输入门的输出值i_t可以调制所述长短期记忆胞元的输入z_t，所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定，进而融合出时空特征表示。

优选的，所述输入门、遗忘门和输出门的输出分别通过所述剪辑对的帧级静态特征、权重矩阵和阈值项计算得到，计算公式为：

i_t＝σ(W_iX_t+R_ih_t-1+b_i)

f_t＝σ(W_fX_t+R_fh_t-1+b_f)

o_t＝σ(W_oX_t+R_oh_t-1+b_o)

z_t＝σ(W_zX_t+R_zh_t-1+b_z)

其中，W_i，W_f，W_o和W_z分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵，X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征，X_t∈X＝{X^(a),X^(b)}， L为剪辑对的帧长，h_t-1为上一个状态的输出值，R_i，R_f，R_o和R_z分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵，b_i，b_f，b_o和b_z分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项，σ为sigmoid函数，φ为双正切函数，表示元素内积。

优选的，所述输出由所述遗忘门和所述输出门共同决定，进而融合出时空特征表示，具体公式为：

其中，所述i_t为所述输入门的输出值，f_t为所述遗忘门的输出值，o_t为所述输出门的输出值，φ为双正切函数，c_t为记忆胞元的输入值，c_t-1为所述记忆胞元上一个状态的输入值。

优选的，所述比较损失函数表示为：

L_cst＝l·(1-d)+(1-l)·max(0,d-m)

其中，d表示时空特征表示Y^(a)，Y^(b)间的余弦距离，l为标签，l＝1表示帧序列对包含相同的内容，l＝0表示帧序列对包含不同的内容，m表示损失函数的限定阈值。

优选的，所述使用基于图的时空网络算法匹配所述测试集中的库视频，具体方法为：

(1)判断剪辑过的查询视频是否为拷贝视频

记录查询视频的状态为Q＝{q₁,q₂,...,q_|Q|}，库视频的状态为R＝{r₁,r₂,...r_|R|}，|·|表示测试集的基数，第i个查询视频q_i和第j个库视频的r_j的相似度可以通过公式表示为：

设定相似度阈值，当所述查询视频和库视频的相似度大于等于所述相似度阈值是，判定所述查询视频为拷贝视频，否则所述查询视频不是拷贝视频；

(2)判断完整的查询视频是否为拷贝视频

所述查询视频Q和库视频R的最优路径的搜索方法为：

其中，P_Q＝{a₁,a₂,...,a_h}和P_R＝{b₁,b₂,...,b_h}分别表示查询视频Q和库视频R的状态路径。

另一方面，本发明还提供一种基于卷积及循环神经网络的视频拷贝检测方法，该方法包括以下步骤：

S01使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集，使用公开视频数据集VCDB作为测试集；

S02将所述训练集中的每一个图像帧进行归一化，作为残差网络的输入I＝{I₁,I₂,...I_N}，所述残差卷积神经网络ResNet50可以提取输入的每一帧图像的静态特征X＝{X₁,X₂,...X_N}，单帧图片通过残差网络ResNet的前向传播映射为M维的特征向量；

S03将所述训练集中的视频每隔L帧看做一个剪辑，将所述剪辑组合成若干个剪辑对，包括内容相同的剪辑对和内容不相同的剪辑对；帧长为L的剪辑对所述残差卷积神经网络ResNet50提取出帧级静态特征X＝{X^(a),X^(b)}，利用取出的所述静态特征迭代训练孪生循环神经网络用于获取帧间的动态信息，每一个帧长为L的剪辑可生成N维的时空特征表示，记为Y；使用比较损失函数训练网络参数，将M×L的帧级输入特征降维成N维的时空特征表示用于帧序列匹配；

S04同步骤S03，将所述测试集中的库视频和待查询视频采用所述孪生循环神经网络生成时空特征表示；

S05若所述待查询视频的帧长度为T，将连续的L帧看做一个状态，通过步骤S04生成N×T/L的特征表示，通过使用基于图的时空网络算法匹配所述查询视频和库视频。

优选的，所述步骤(3)中，孪生循环神经网络的基本神经单元为长短期记忆胞元，所述长短期记忆胞元包括一个记忆胞元和三个控制门，所述三个控制门分别为输入门、遗忘门和输出门，所述控制门的输入均为帧级静态特征和上一个状态的输出值，所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到，分别将为i_t、f_t和o_t，所述输入门的输出值i_t可以调制所述长短期记忆胞元的输入z_t，所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定，进而融合出时空特征表示。

计算公式为：

i_t＝σ(W_iX_t+R_ih_t-1+b_i)

f_t＝σ(W_fX_t+R_fh_t-1+b_f)

o_t＝σ(W_oX_t+R_oh_t-1+b_o)

z_t＝σ(W_zX_t+R_zh_t-1+b_z)

优选的，所述比较损失函数表示为：

L_cst＝l·(1-d)+(1-l)·max(0,d-m)

优选的，所述通过使用基于图的时空网络算法匹配所述查询视频和库视频，具体方法为：

(1)判断剪辑过的查询视频是否为拷贝视频

(2)判断完整的查询视频是否为拷贝视频

所述查询视频Q和库视频R的最优路径的搜索方法为：

有益效果：本发明与现有技术相比，其显著优点是：1、本发明采用残差卷积神经网络有利于提取更深层次的帧级特征表示，有效的提高检测准确率，降低检测召回率；2、本发明采用孪生循环神经网络以融合多个帧级特征，利用帧间的动态信息生成时空特征表示，实现了序列间的时空融合，使得视频匹配耗费时间少、占用内存低。

附图说明

图1为本发明所述的视频拷贝检测系统结构示意图；

图2为本发明所述残差网络的残差块结构示意图；

图3为本发明所述的孪生循环神经网络中的长短期记忆胞元单元的结构示意图；

图4为本发明所述的视频拷贝检测方法流程图；

图5为本发明所述的视频拷贝检测方法整体流程中涉及模块结构示意图；

图6为本发明所述的孪生循环神经网络结构示意图。

具体实施方式

如图1所示，本发明提供一种视频拷贝检测系统，系统包括5个模块，分别为数据集建立模块1、帧特征提取模块2、时空特征训练模块3、循环网络测试模块4和拷贝视频匹配模块5，其中时空特征训练模块3还包括视频剪辑模块31和循环网络训练模块32，数据集建立模块1主要是搜集视频拷贝检测的相关数据，使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练数据集，使用公开数据集VCDB验证本发明中提出方法的性能，作为测试数据集。

帧特征提取模块2，用于使用50层的残差卷积神经网络ResNet50提取CC_WEB视频中的图像帧特征，残差卷积神经网络以224×224×3作为网络输入，包含50层，第一层为卷积层，最后一层为全连接层，其余的中间层由4个残差块组成，残差块由多个卷积层堆叠组成。批规范化和残差学习是残差卷积神经网络性能优于传统卷积神经网络的两个关键策略。批规范化策略可以加速卷积神经网络的收敛速度。如图2所示，在中间层的四个残差块中，首先是输入为64*56*56池化层，后面是三个卷积层，各个卷积层的特性特征如图所示，每一次卷积操作后都跟随一次批规范化处理，对于给定的一批样本特征χ＝{x₁,x₂,...,x_k}，这批数据的均值和方差可以通过以下公式计算：

其中，k表示批数据的样本总数，x_i,f表示第i个样本的第f维向量值。μ_f和分别为计算得到的批数据特征的均值和方差。对批数据的特征通过如下公式进行规范化：

其中，ε取近似于0的正常数以提高特征规范化的泛化能力。规范化后的特征通过尺度和偏移变换作为批规范化的的最终输出。尺度和偏移变换如下公式：

其中，γ_f和β_f分别为待学习的尺度和偏移变换参数。BN(x_f)为批标准化的最终输出。

残差学习单元是残差卷积神经网络的核心。该残差单元使用捷径连接(shortcut)的连接方式，即为残差块的输出加入一个输入的恒等映射，可表示为：

y＝x+F(x,θ)

其中，x为残差块的输入，y为残差块的输出，F为残差块的前向传播映射。残差块由多个卷积层堆叠组合而成。每层卷积后都跟随最大值池化和批规范化，θ表示残差块中待学习的网络参数。

时空特征训练模块3包括视频剪辑模块31，将CC_WEB数据集中的视频每隔L帧看做一个剪辑。将这些剪辑组合成若干个剪辑对，包括内容相同的剪辑对和内容不相同的剪辑对，分别称为正样本和负样本。帧长为L的剪辑对通过残差卷积神经网络ResNet50可以提取出帧级静态特征X＝{X^(a),X^(b)}，循环网络训练模块32，利用取出的静态特征训练一个孪生循环神经网络用于获取帧间的动态信息。每一个帧长为L的剪辑可生成N维的时空特征表示，记为Y。孪生循环神经网络的初始学习率为η,迭代送入的样本为K。使用比较损失训练网络参数，从而将M×L的帧级输入特征降维成N维的时空特征表示用于序列匹配。

本发明中所设计的孪生循环神经网络以长短期记忆胞元作为基本神经单元。如图3所示，长短期记忆单元包括一个记忆胞元321和三个控制门，三个控制门分别为输入门，遗忘门和输出门。输入门i_t可以调制长短期记忆胞元单元的输入z_t。记忆单元c_t记录了当前的记忆状态。LSTM单元的输出h_t由遗忘门f_t和输出门o_t共同决定。长短期记忆胞元单元具体操作可表示为：

i_t＝σ(W_iX_t+R_ih_t-1+b_i)

f_t＝σ(W_fX_t+R_fh_t-1+b_f)

o_t＝σ(W_oX_t+R_oh_t-1+b_o)

z_t＝σ(W_zX_t+R_zh_t-1+b_z)

其中，其中，W_i，W_f，W_o和W_z分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵，X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征，X_t∈X＝{X^(a),X^(b)}， L为剪辑对的帧长，h_t-1为上一个状态的输出值，R_i，R_f，R_o和R_z分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵，b_i，b_f，b_o和b_z分别表示在输入门、遗忘门、输出门和孪生循环卷积神经网络阈值项，σ为sigmoid函数，φ为双正切函数，表示元素内积。长短期记忆单元的输出取决于当前状态和前一个状态，即实现了序列间的时空融合。

将残差网络提取的M×L维帧级特征送入共享参数的孪生循环神经网络，可以融合出N维的时空特征表示，记为Y^(a)，Y^(b)。对比损失用来优化整个孪生循环网络的参数，该损失函数可表示为：

L_cst＝l·(1-d)+(1-l)·max(0,d-m)

其中，d表示时空特征Y^(a)，Y^(b)间的余弦距离，l为标签，l＝1表示帧序列对包含相同的内容，l＝0表示帧序列对包含不同的内容，m表示损失函数的限定阈值。这样的一种损失函数可以有效地增加类间方差，并减小类内方差，可适用与序列匹配任务。

循环网络测试模块4，对测试数据集VCDB中的库视频和查询视频使用时空特征训练模块中涉及的方法生成时空特征表示。拷贝视频匹配模块5，使用基于图的时空网络算法匹配库视频，以确定查询视频是否为拷贝视频。

对于帧长度为T的查询视频，将连续的L帧看做一个状态，可以生成N×T/L的特征表示。通过使用基于图的时空网络算法匹配查询视频和库视频。记录查询视频的状态为Q＝{q₁,q₂,...,q_|Q|}，库视频的状态为R＝{r₁,r₂,...r_|R|}，|·|表示集合的基数。第i个查询视频q_i和第j个库视频的r_j的相似度可以通过公式表示为：

视频间的相似度即可看做时空特征表示之间的余弦距离。对于查询视频的每一个状态，使用最相近的k个状态用以构建时态网络。每个时间状态根据严格的时间顺序排序。设定相似度阈值，当所述查询视频和库视频的相似度大于等于所述相似度阈值是，判定所述查询视频为拷贝视频，否则所述查询视频不是拷贝视频。针对完整的视频，采用查询视频Q和库视频R的最优路径可用搜索方法得到：

P_Q＝{a₁,a₂,...,a_h}和P_R＝{b₁,b₂,...,b_h}分别表示查询视频Q和库视频R的状态路径。最大流算法通过搜索最短路径来确定查询视频的拷贝片段。该算法将库视频的每一帧作为时态网络的一个节点，遵从查询视频节点的时间序和库视频节点的时间序，找出最大权值路径。该路径串联了库视频的有序节点，表示找出与查询视频最相似的库视频片段。

本发明还提出一种基于卷积及循环神经网络的视频拷贝检测方法，如图4和图5所示，该方法包括以下步骤：

S01建立视频拷贝检测的训练集和测试集；

使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集，使用公开视频数据集VCDB作为测试集；

S02生成训练集的图像帧级静态特征；

在Caffe Model Zoo(http://caffe.berkeleyvision.org/model_zoo.html)上下载残差卷积神经网络模型ResNet50。该网络以224×224×3作为网络输入，包含50层，第一层为卷积层，最后一层为全连接层，其余的中间层由4个残差块组成，残差块由多个卷积层堆叠组成。批规范化和残差学习是残差卷积神经网络性能优于传统卷积神经网络的两个关键策略。

批规范化策略可以加速卷积神经网络的收敛速度。在残差神经网络中每一次卷积操作后都跟随一次批规范化处理。对于给定的一批样本特征χ＝{x₁,x₂,...,x_k}，这批数据的均值和方差可以通过以下公式计算：

其中，ε取近似于0的正常数以提高特征规范化的泛化能力。规范化后的特征通过尺度和偏移变换作为Batch Normalization的最终输出。尺度和偏移变换如下公式：

残差学习单元是残差卷积神经网络的核心。该残差单元使用shortcut的连接方式，即为残差块的输出加入一个输入的恒等映射，可表示为：

y＝x+F(x,θ)

其中，x为残差块的输入，y为残差块的输出，F为残差块的前向传播映射。残差块由多个卷积层堆叠组合而成。每层卷积后都跟随最大值池化和批规范化，θ表示残差块中待学习的网络参数；

将CC_WEB数据集中视频的每一个图像帧归一化为224×224×3作为残差网络的输入I＝{I₁,I₂,...I_N}。残差卷积神经网络ResNet50可以提取输入的每一帧图片的静态特征X＝{X₁,X₂,...X_N}，单帧图片通过残差网络ResNet的前向传播映射为M维的特征向量。

S03训练孪生循环神经网络提取时空特征；

将CC_WEB数据集中的视频每隔L帧看做一个剪辑。将这些剪辑组合成若干个剪辑对，包括内容相同的剪辑对和内容不相同的剪辑对，分别称为正样本和负样本。帧长为L的剪辑对通过步骤S02的残差卷积神经网络ResNet50可以提取出帧级静态特征X＝{X^(a),X^(b)}，利用取出的静态特征训练一个孪生循环神经网络用于获取帧间的动态信息。每一个帧长为L的剪辑可生成N维的时空特征表示，记为Y。孪生循环神经网络的初始学习率为η,迭代送入的样本为K。使用比较损失训练网络参数，从而将M×L的帧级输入特征降维成N维的时空特征表示用于序列匹配。

本发明中所设计的孪生循环神经网络以长短期记忆胞元作为基本神经单元。长短期记忆单元包括一个记忆胞元和三个控制门，三个控制门输入门，遗忘门和输出门。输入门i_t可以调制长短期记忆胞元的输入z_t。记忆单元c_t记录了当前的记忆状态。LSTM单元的输出h_t由遗忘门f_t和输出门o_t共同决定。长短期记忆胞元具体操作可表示为：

i_t＝σ(W_iX_t+R_ih_t-1+b_i)

f_t＝σ(W_fX_t+R_fh_t-1+b_f)

o_t＝σ(W_oX_t+R_oh_t-1+b_o)

z_t＝σ(W_zX_t+R_zh_t-1+b_z)

其中，其中，W_i，W_f，W_o和W_z分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵，X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征，X_t∈X＝{X^(a),X^(b)}， L为剪辑对的帧长，h_t-1为上一个状态的输出值，R_i，R_f，R_o和R_z分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵，b_i，b_f，b_o和b_z分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项，σ为sigmoid函数，φ为双正切函数，表示元素内积。长短期记忆胞元的输出取决于当前状态和前一个状态，即实现了序列间的时空融合。

如图6所示，将残差网络提取的M×L维帧级特征送入共享参数的孪生循环神经网络，可以融合出N维的时空特征表示，记为Y^(a)，Y^(b)。对比损失函数用来优化整个孪生循环网络的参数，该损失函数可表示为：

L_cst＝l·(1-d)+(1-l)·max(0,d-m)

其中，d表示时空特征Y^(a)，Y^(b)间的余弦距离，l为标签，l＝1表示帧序列对包含相同的内容，l＝0表示帧序列对包含不同的内容，m表示损失函数的限定阈值。这样的一种损失函数可以有效地增加类间方差，并减小类内方差，可适用与序列匹配任务；

S04生成测试视频的时空特征表示；

同步骤S03，将所述测试集中的库视频和待查询视频采用所述孪生循环神经网络生成时空特征表示；

S05采用时空网络算法检测拷贝视频；

对于帧长度为T的查询视频，将连续的L帧看做一个状态，通过步骤4可以生成N×T/L的特征表示。通过使用基于图的时空网络算法匹配查询视频和库视频。记录查询视频的状态为Q＝{q₁,q₂,...,q_|Q|}，库视频的状态为R＝{r₁,r₂,...r_|R|}，|·|表示集合的基数。第i个查询视频q_i和第j个库视频的r_j的相似度可以通过公式表示为：

视频间的相似度即可看做时空特征表示之间的余弦距离。对于查询视频的每一个状态，使用最相近的k个状态用以构建时空网络。每个时间状态根据严格的时间顺序排序。设定相似度阈值，当所述查询视频和库视频的相似度大于等于所述相似度阈值是，判定所述查询视频为拷贝视频，否则所述查询视频不是拷贝视频。对剪辑的视频检测完毕后，针对完整视频，采用查询视频Q和库视频R的最优路径可用搜索方法得到：

其中，P_Q＝{a₁,a₂,...,a_h}和P_R＝{b₁,b₂,...,b_h}分别表示查询视频Q和库视频R的状态路径。最大流算法通过搜索最短路径来确定查询视频的拷贝片段。该算法将库视频的每一帧作为时态网络的一个节点，遵从查询视频节点的时间序和库视频节点的时间序，找出最大权值路径。该路径串联了库视频的有序节点，表示找出与查询视频最相似的库视频片段。

对于本发明所述的视频拷贝检测系统和方法，实验中涉及到的参数，其对应的含义以及优选参数取值如下表所示：

表1实验中相关参数建议取值

参数符号	参数说明	参数取值
			W	输入图片的宽	224
H	输入图片的高	224
			C	输入图片的通道	3
M	单帧特帧的维度数	2048
			L	输入帧长	20
N	时空特征维度数	1000
			η	网络参数初始学习率	0.01
K	一次迭代样本个数	80
			k	最近邻状态个数	5

表1为发明内容提到的基于卷积及循环神经网络的视频拷贝检测方法中定义参数的建议取值，表格中的参数取值仅为当前深度学习网络模型下的建议选取值，对该发明内容本身不具有限定性。

Claims

1.一种基于卷积及循环神经网络的视频拷贝检测系统，其特征在于，该系统包括：

2.根据权利要求1所述的基于卷积及循环神经网络的视频拷贝检测系统，其特征在于，所述循环网络训练模块的孪生循环神经网络的基本神经单元为长短期记忆胞元，所述长短期记忆胞元包括一个记忆胞元和三个控制门，所述三个控制门分别为输入门、遗忘门和输出门，所述控制门的输入均为帧级静态特征和上一个状态的输出值，所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到，分别将为i_t、f_t和o_t，所述输入门的输出值i_t可以调制所述长短期记忆胞元的输入z_t，所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定，进而融合出时空特征表示。

3.根据权利要求2所述的基于卷积及循环神经网络的视频拷贝检测系统，其特征在于，所述输入门、遗忘门和输出门的输出分别通过所述剪辑对的帧级静态特征、权重矩阵和阈值项计算得到，计算公式为：

i_t＝σ(W_iX_t+R_ih_t-1+b_i)

f_t＝σ(W_fX_t+R_fh_t-1+b_f)

o_t＝σ(W_oX_t+R_oh_t-1+b_o)

z_t＝σ(W_zX_t+R_zh_t-1+b_z)

4.根据权利要求2所述的基于卷积及循环神经网络的视频拷贝检测系统，其特征在于，所述输出由所述遗忘门和所述输出门共同决定，进而融合出时空特征表示，具体公式为：

5.根据权利要求1所述的基于卷积及循环神经网络的视频拷贝检测系统，其特征在于，所述比较损失函数表示为：

L_cst＝l·(1-d)+(1-l)·max(0,d-m)

6.根据权利要求1所述的基于卷积及循环神经网络的视频拷贝检测系统，其特征在于，所述使用基于图的时空网络算法匹配所述测试集中的库视频，具体方法为：

(1)判断剪辑过的查询视频是否为拷贝视频

(2)判断完整的查询视频是否为拷贝视频

所述查询视频Q和库视频R的最优路径的搜索方法为：

7.一种基于卷积及循环神经网络的视频拷贝检测方法，其特征在于，所述方法包括以下步骤：

8.根据权利要求7所述的基于卷积及循环神经网络的视频拷贝检测方法，其特征在于，所述步骤(3)中，孪生循环神经网络的基本神经单元为长短期记忆胞元，所述长短期记忆胞元包括一个记忆胞元和三个控制门，所述三个控制门分别为输入门、遗忘门和输出门，所述控制门的输入均为帧级静态特征和上一个状态的输出值，所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到，分别将为i_t、f_t和o_t，所述输入门的输出值i_t可以调制所述长短期记忆胞元的输入z_t，所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定，进而融合出时空特征表示。

计算公式为：

i_t＝σ(W_iX_t+R_ih_t-1+b_i)

f_t＝σ(W_fX_t+R_fh_t-1+b_f)

o_t＝σ(W_oX_t+R_oh_t-1+b_o)

z_t＝σ(W_zX_t+R_zh_t-1+b_z)

9.根据权利要求7所述的基于卷积及循环神经网络的视频拷贝检测方法，其特征在于，所述比较损失函数表示为：

L_cst＝l·(1-d)+(1-l)·max(0,d-m)

10.根据权利要求7所述的基于卷积及循环神经网络的视频拷贝检测方法，其特征在于，所述通过使用基于图的时空网络算法匹配所述查询视频和库视频，具体方法为：

(1)判断剪辑过的查询视频是否为拷贝视频

(2)判断完整的查询视频是否为拷贝视频

所述查询视频Q和库视频R的最优路径的搜索方法为：