CN108985165A - 一种基于卷积及循环神经网络的视频拷贝检测系统及方法 - Google Patents
一种基于卷积及循环神经网络的视频拷贝检测系统及方法 Download PDFInfo
- Publication number
- CN108985165A CN108985165A CN201810600019.8A CN201810600019A CN108985165A CN 108985165 A CN108985165 A CN 108985165A CN 201810600019 A CN201810600019 A CN 201810600019A CN 108985165 A CN108985165 A CN 108985165A
- Authority
- CN
- China
- Prior art keywords
- video
- neural network
- recognition
- network
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种基于卷积及循环神经网络的视频拷贝检测系统,该系统包括5个模块,分别为数据集建立模块、帧特征提取模块、时空特征训练模块、循环网络测试模块和拷贝视频匹配模块,其中时空特征训练模块还包括视频剪辑模块和循环网络训练模块。本发明采用残差卷积神经网络有利于提取更深层次的帧级特征表示,有效的提高检测准确率,降低检测召回率,采用孪生循环神经网络以融合多个帧级特征,利用帧间的动态信息生成时空特征表示,实现了序列间的时空融合,使得视频匹配耗费时间少、占用内存低。
Description
技术领域
本发明涉及一种视频拷贝检测系统及方法,具体涉及一种基于卷积及循环神经网络的视频拷贝检测系统及方法。
背景技术
随着网络多媒体技术的发展,网络视频数据呈海量式增长,大量的视频数据在互联网上公开。互联网使用者可以在Youtube或者MetaCafe上搜索不同类型的视频如政治、娱乐、体育等。尽管在线视频使得网络使用者可以获得全球最新的信息,但是也存在一些潜在的风险。盗版商可以轻松的剽窃或篡改在线的原始视频以赚取非法收入。因此,基于视频分析的拷贝检测技术对于网络安全和版权保护具有极其重要的意义。
在早期的视频版权保护任务中,水印或者数字标签被作为补充信息插入到视频流中,以用于拷贝检测。随着计算机视觉技术的发展,目前基于内容的拷贝检测方法逐步取代了传统的数字水印技术。这类方法通过提取视频中的内容信息作为特征表示而不再需要向原始视频中添加冗余信息。而这类方法在视频拷贝检测任务中的效果主要取决于两个方面:
(1)如何提取视频中单帧图像的内容信息。
(2)如何组合连续多个单帧图像的内容信息,并将帧与帧的信息进行融合以生成时空特征表示。
在基于内容的视频拷贝检测问题中,目前常用传统特征和深度学习特征这两种特征表示方式。
(1)基于传统特征的视频拷贝检测方法:使用稀疏采样的方法组合视频中多个关键帧的单帧特征表示用于视频匹配。但是尺度不变特征变换描述子SIFT对旋转、光照等变化较为敏感,因此这种很难检测出经过某些篡改的拷贝视频。另外稀疏的关键帧采样策略忽略了视频中帧间的动态信息,导致检测结果准确性下降。
(2)基于深度学习特征的视频拷贝检测方法:有人提出使用AlexNet卷积神经网络端到端的提取视频中单帧图像的特征表示,接着稠密的采样视频中单帧特征表示以用于视频序列匹配。但是简单的将单帧图像特征在时间域上进行稠密组合会得到很大维度的特征表示,使得视频匹配耗费时间、耗费内存。
也有人提出通过VGG16卷积神经网络端到端的提取视频中单帧图像的特征表示,并将单帧特征进行稠密组合,使用稀疏编码的方式进行特征空间域降维,使用视频池化进行时间域降维,最后将降维后的特征表示用于视频匹配。但是该方法中所采用的降维方式只是在视频的时间域和空间域上分别进行压缩和整合,并没有利用视频中帧与帧之间的时空信息。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于卷积及循环神经网络的视频拷贝检测系统及方法,可以解决在检测中检测结果准确性低,视频匹配中耗费时间、耗费内存的问题。
技术方案:一方面,本发明所述的基于卷积及循环神经网络的视频拷贝检测系统,该系统包括:
数据集建立模块,使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集,使用公开视频数据集VCDB作为测试集;
帧特征提取模块,采用50层的残差卷积神经网络ResNet50提取所述训练集视频的图像帧级静态特征;
时空特征训练模块,该模块包括视频剪辑模块和循环网络训练模块,所述视频剪辑模块用于将所述训练集中的视频剪辑成若干剪辑段,并将所述若干剪辑段组合成若干个剪辑对,所述剪辑对包括剪辑内容相同的剪辑对和剪辑内容不相同的剪辑对;所述循环网络训练模块利用所述剪辑对中的帧级静态特征序列训练孪生循环神经网络,生成降维的时空特征表示,并采用比较损失函数优化所述孪生循环网络的参数;
循环网络测试模块,用于将所述测试集中的库视频和待查询视频生成时空特征表示,所述生成方法是采用所述循环网络训练模块中训练的孪生循环神经网络;
拷贝视频匹配模块,用于使用基于图的时空网络算法匹配所述测试集中的库视频,以确定所述待查询视频是否为拷贝视频。
优选的,所述循环网络训练模块的孪生循环神经网络的基本神经单元为长短期记忆胞元,所述长短期记忆胞元包括一个记忆胞元和三个控制门,所述三个控制门分别为输入门、遗忘门和输出门,所述控制门的输入均为帧级静态特征和上一个状态的输出值,所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到,分别将为it、ft和ot,所述输入门的输出值it可以调制所述长短期记忆胞元的输入zt,所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定,进而融合出时空特征表示。
优选的,所述输入门、遗忘门和输出门的输出分别通过所述剪辑对的帧级静态特征、权重矩阵和阈值项计算得到,计算公式为:
it=σ(WiXt+Riht-1+bi)
ft=σ(WfXt+Rfht-1+bf)
ot=σ(WoXt+Roht-1+bo)
zt=σ(WzXt+Rzht-1+bz)
其中,Wi,Wf,Wo和Wz分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵,X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征,Xt∈X={X(a),X(b)}, L为剪辑对的帧长,ht-1为上一个状态的输出值,Ri,Rf,Ro和Rz分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵,bi,bf,bo和bz分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项,σ为sigmoid函数,φ为双正切函数,表示元素内积。
优选的,所述输出由所述遗忘门和所述输出门共同决定,进而融合出时空特征表示,具体公式为:
其中,所述it为所述输入门的输出值,ft为所述遗忘门的输出值,ot为所述输出门的输出值,φ为双正切函数,ct为记忆胞元的输入值,ct-1为所述记忆胞元上一个状态的输入值。
优选的,所述比较损失函数表示为:
Lcst=l·(1-d)+(1-l)·max(0,d-m)
其中,d表示时空特征表示Y(a),Y(b)间的余弦距离,l为标签,l=1表示帧序列对包含相同的内容,l=0表示帧序列对包含不同的内容,m表示损失函数的限定阈值。
优选的,所述使用基于图的时空网络算法匹配所述测试集中的库视频,具体方法为:
(1)判断剪辑过的查询视频是否为拷贝视频
记录查询视频的状态为Q={q1,q2,...,q|Q|},库视频的状态为R={r1,r2,...r|R|},|·|表示测试集的基数,第i个查询视频qi和第j个库视频的rj的相似度可以通过公式表示为:
设定相似度阈值,当所述查询视频和库视频的相似度大于等于所述相似度阈值是,判定所述查询视频为拷贝视频,否则所述查询视频不是拷贝视频;
(2)判断完整的查询视频是否为拷贝视频
所述查询视频Q和库视频R的最优路径的搜索方法为:
其中,PQ={a1,a2,...,ah}和PR={b1,b2,...,bh}分别表示查询视频Q和库视频R的状态路径。
另一方面,本发明还提供一种基于卷积及循环神经网络的视频拷贝检测方法,该方法包括以下步骤:
S01使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集,使用公开视频数据集VCDB作为测试集;
S02将所述训练集中的每一个图像帧进行归一化,作为残差网络的输入I={I1,I2,...IN},所述残差卷积神经网络ResNet50可以提取输入的每一帧图像的静态特征X={X1,X2,...XN},单帧图片通过残差网络ResNet的前向传播映射为M维的特征向量;
S03将所述训练集中的视频每隔L帧看做一个剪辑,将所述剪辑组合成若干个剪辑对,包括内容相同的剪辑对和内容不相同的剪辑对;帧长为L的剪辑对所述残差卷积神经网络ResNet50提取出帧级静态特征X={X(a),X(b)}, 利用取出的所述静态特征迭代训练孪生循环神经网络用于获取帧间的动态信息,每一个帧长为L的剪辑可生成N维的时空特征表示,记为Y;使用比较损失函数训练网络参数,将M×L的帧级输入特征降维成N维的时空特征表示用于帧序列匹配;
S04同步骤S03,将所述测试集中的库视频和待查询视频采用所述孪生循环神经网络生成时空特征表示;
S05若所述待查询视频的帧长度为T,将连续的L帧看做一个状态,通过步骤S04生成N×T/L的特征表示,通过使用基于图的时空网络算法匹配所述查询视频和库视频。
优选的,所述步骤(3)中,孪生循环神经网络的基本神经单元为长短期记忆胞元,所述长短期记忆胞元包括一个记忆胞元和三个控制门,所述三个控制门分别为输入门、遗忘门和输出门,所述控制门的输入均为帧级静态特征和上一个状态的输出值,所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到,分别将为it、ft和ot,所述输入门的输出值it可以调制所述长短期记忆胞元的输入zt,所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定,进而融合出时空特征表示。
计算公式为:
it=σ(WiXt+Riht-1+bi)
ft=σ(WfXt+Rfht-1+bf)
ot=σ(WoXt+Roht-1+bo)
zt=σ(WzXt+Rzht-1+bz)
其中,Wi,Wf,Wo和Wz分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵,X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征,Xt∈X={X(a),X(b)}, L为剪辑对的帧长,ht-1为上一个状态的输出值,Ri,Rf,Ro和Rz分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵,bi,bf,bo和bz分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项,σ为sigmoid函数,φ为双正切函数,表示元素内积。
优选的,所述比较损失函数表示为:
Lcst=l·(1-d)+(1-l)·max(0,d-m)
其中,d表示时空特征表示Y(a),Y(b)间的余弦距离,l为标签,l=1表示帧序列对包含相同的内容,l=0表示帧序列对包含不同的内容,m表示损失函数的限定阈值。
优选的,所述通过使用基于图的时空网络算法匹配所述查询视频和库视频,具体方法为:
(1)判断剪辑过的查询视频是否为拷贝视频
记录查询视频的状态为Q={q1,q2,...,q|Q|},库视频的状态为R={r1,r2,...r|R|},|·|表示测试集的基数,第i个查询视频qi和第j个库视频的rj的相似度可以通过公式表示为:
设定相似度阈值,当所述查询视频和库视频的相似度大于等于所述相似度阈值是,判定所述查询视频为拷贝视频,否则所述查询视频不是拷贝视频;
(2)判断完整的查询视频是否为拷贝视频
所述查询视频Q和库视频R的最优路径的搜索方法为:
其中,PQ={a1,a2,...,ah}和PR={b1,b2,...,bh}分别表示查询视频Q和库视频R的状态路径。
有益效果:本发明与现有技术相比,其显著优点是:1、本发明采用残差卷积神经网络有利于提取更深层次的帧级特征表示,有效的提高检测准确率,降低检测召回率;2、本发明采用孪生循环神经网络以融合多个帧级特征,利用帧间的动态信息生成时空特征表示,实现了序列间的时空融合,使得视频匹配耗费时间少、占用内存低。
附图说明
图1为本发明所述的视频拷贝检测系统结构示意图;
图2为本发明所述残差网络的残差块结构示意图;
图3为本发明所述的孪生循环神经网络中的长短期记忆胞元单元的结构示意图;
图4为本发明所述的视频拷贝检测方法流程图;
图5为本发明所述的视频拷贝检测方法整体流程中涉及模块结构示意图;
图6为本发明所述的孪生循环神经网络结构示意图。
具体实施方式
如图1所示,本发明提供一种视频拷贝检测系统,系统包括5个模块,分别为数据集建立模块1、帧特征提取模块2、时空特征训练模块3、循环网络测试模块4和拷贝视频匹配模块5,其中时空特征训练模块3还包括视频剪辑模块31和循环网络训练模块32,数据集建立模块1主要是搜集视频拷贝检测的相关数据,使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练数据集,使用公开数据集VCDB验证本发明中提出方法的性能,作为测试数据集。
帧特征提取模块2,用于使用50层的残差卷积神经网络ResNet50提取CC_WEB视频中的图像帧特征,残差卷积神经网络以224×224×3作为网络输入,包含50层,第一层为卷积层,最后一层为全连接层,其余的中间层由4个残差块组成,残差块由多个卷积层堆叠组成。批规范化和残差学习是残差卷积神经网络性能优于传统卷积神经网络的两个关键策略。批规范化策略可以加速卷积神经网络的收敛速度。如图2所示,在中间层的四个残差块中,首先是输入为64*56*56池化层,后面是三个卷积层,各个卷积层的特性特征如图所示,每一次卷积操作后都跟随一次批规范化处理,对于给定的一批样本特征χ={x1,x2,...,xk},这批数据的均值和方差可以通过以下公式计算:
其中,k表示批数据的样本总数,xi,f表示第i个样本的第f维向量值。μf和分别为计算得到的批数据特征的均值和方差。对批数据的特征通过如下公式进行规范化:
其中,ε取近似于0的正常数以提高特征规范化的泛化能力。规范化后的特征通过尺度和偏移变换作为批规范化的的最终输出。尺度和偏移变换如下公式:
其中,γf和βf分别为待学习的尺度和偏移变换参数。BN(xf)为批标准化的最终输出。
残差学习单元是残差卷积神经网络的核心。该残差单元使用捷径连接(shortcut)的连接方式,即为残差块的输出加入一个输入的恒等映射,可表示为:
y=x+F(x,θ)
其中,x为残差块的输入,y为残差块的输出,F为残差块的前向传播映射。残差块由多个卷积层堆叠组合而成。每层卷积后都跟随最大值池化和批规范化,θ表示残差块中待学习的网络参数。
时空特征训练模块3包括视频剪辑模块31,将CC_WEB数据集中的视频每隔L帧看做一个剪辑。将这些剪辑组合成若干个剪辑对,包括内容相同的剪辑对和内容不相同的剪辑对,分别称为正样本和负样本。帧长为L的剪辑对通过残差卷积神经网络ResNet50可以提取出帧级静态特征X={X(a),X(b)}, 循环网络训练模块32,利用取出的静态特征训练一个孪生循环神经网络用于获取帧间的动态信息。每一个帧长为L的剪辑可生成N维的时空特征表示,记为Y。孪生循环神经网络的初始学习率为η,迭代送入的样本为K。使用比较损失训练网络参数,从而将M×L的帧级输入特征降维成N维的时空特征表示用于序列匹配。
本发明中所设计的孪生循环神经网络以长短期记忆胞元作为基本神经单元。如图3所示,长短期记忆单元包括一个记忆胞元321和三个控制门,三个控制门分别为输入门,遗忘门和输出门。输入门it可以调制长短期记忆胞元单元的输入zt。记忆单元ct记录了当前的记忆状态。LSTM单元的输出ht由遗忘门ft和输出门ot共同决定。长短期记忆胞元单元具体操作可表示为:
it=σ(WiXt+Riht-1+bi)
ft=σ(WfXt+Rfht-1+bf)
ot=σ(WoXt+Roht-1+bo)
zt=σ(WzXt+Rzht-1+bz)
其中,其中,Wi,Wf,Wo和Wz分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵,X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征,Xt∈X={X(a),X(b)}, L为剪辑对的帧长,ht-1为上一个状态的输出值,Ri,Rf,Ro和Rz分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵,bi,bf,bo和bz分别表示在输入门、遗忘门、输出门和孪生循环卷积神经网络阈值项,σ为sigmoid函数,φ为双正切函数,表示元素内积。长短期记忆单元的输出取决于当前状态和前一个状态,即实现了序列间的时空融合。
将残差网络提取的M×L维帧级特征送入共享参数的孪生循环神经网络,可以融合出N维的时空特征表示,记为Y(a),Y(b)。对比损失用来优化整个孪生循环网络的参数,该损失函数可表示为:
Lcst=l·(1-d)+(1-l)·max(0,d-m)
其中,d表示时空特征Y(a),Y(b)间的余弦距离,l为标签,l=1表示帧序列对包含相同的内容,l=0表示帧序列对包含不同的内容,m表示损失函数的限定阈值。这样的一种损失函数可以有效地增加类间方差,并减小类内方差,可适用与序列匹配任务。
循环网络测试模块4,对测试数据集VCDB中的库视频和查询视频使用时空特征训练模块中涉及的方法生成时空特征表示。拷贝视频匹配模块5,使用基于图的时空网络算法匹配库视频,以确定查询视频是否为拷贝视频。
对于帧长度为T的查询视频,将连续的L帧看做一个状态,可以生成N×T/L的特征表示。通过使用基于图的时空网络算法匹配查询视频和库视频。记录查询视频的状态为Q={q1,q2,...,q|Q|},库视频的状态为R={r1,r2,...r|R|},|·|表示集合的基数。第i个查询视频qi和第j个库视频的rj的相似度可以通过公式表示为:
视频间的相似度即可看做时空特征表示之间的余弦距离。对于查询视频的每一个状态,使用最相近的k个状态用以构建时态网络。每个时间状态根据严格的时间顺序排序。设定相似度阈值,当所述查询视频和库视频的相似度大于等于所述相似度阈值是,判定所述查询视频为拷贝视频,否则所述查询视频不是拷贝视频。针对完整的视频,采用查询视频Q和库视频R的最优路径可用搜索方法得到:
PQ={a1,a2,...,ah}和PR={b1,b2,...,bh}分别表示查询视频Q和库视频R的状态路径。最大流算法通过搜索最短路径来确定查询视频的拷贝片段。该算法将库视频的每一帧作为时态网络的一个节点,遵从查询视频节点的时间序和库视频节点的时间序,找出最大权值路径。该路径串联了库视频的有序节点,表示找出与查询视频最相似的库视频片段。
本发明还提出一种基于卷积及循环神经网络的视频拷贝检测方法,如图4和图5所示,该方法包括以下步骤:
S01建立视频拷贝检测的训练集和测试集;
使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集,使用公开视频数据集VCDB作为测试集;
S02生成训练集的图像帧级静态特征;
在Caffe Model Zoo(http://caffe.berkeleyvision.org/model_zoo.html)上下载残差卷积神经网络模型ResNet50。该网络以224×224×3作为网络输入,包含50层,第一层为卷积层,最后一层为全连接层,其余的中间层由4个残差块组成,残差块由多个卷积层堆叠组成。批规范化和残差学习是残差卷积神经网络性能优于传统卷积神经网络的两个关键策略。
批规范化策略可以加速卷积神经网络的收敛速度。在残差神经网络中每一次卷积操作后都跟随一次批规范化处理。对于给定的一批样本特征χ={x1,x2,...,xk},这批数据的均值和方差可以通过以下公式计算:
其中,k表示批数据的样本总数,xi,f表示第i个样本的第f维向量值。μf和分别为计算得到的批数据特征的均值和方差。对批数据的特征通过如下公式进行规范化:
其中,ε取近似于0的正常数以提高特征规范化的泛化能力。规范化后的特征通过尺度和偏移变换作为Batch Normalization的最终输出。尺度和偏移变换如下公式:
其中,γf和βf分别为待学习的尺度和偏移变换参数。BN(xf)为批标准化的最终输出。
残差学习单元是残差卷积神经网络的核心。该残差单元使用shortcut的连接方式,即为残差块的输出加入一个输入的恒等映射,可表示为:
y=x+F(x,θ)
其中,x为残差块的输入,y为残差块的输出,F为残差块的前向传播映射。残差块由多个卷积层堆叠组合而成。每层卷积后都跟随最大值池化和批规范化,θ表示残差块中待学习的网络参数;
将CC_WEB数据集中视频的每一个图像帧归一化为224×224×3作为残差网络的输入I={I1,I2,...IN}。残差卷积神经网络ResNet50可以提取输入的每一帧图片的静态特征X={X1,X2,...XN},单帧图片通过残差网络ResNet的前向传播映射为M维的特征向量。
S03训练孪生循环神经网络提取时空特征;
将CC_WEB数据集中的视频每隔L帧看做一个剪辑。将这些剪辑组合成若干个剪辑对,包括内容相同的剪辑对和内容不相同的剪辑对,分别称为正样本和负样本。帧长为L的剪辑对通过步骤S02的残差卷积神经网络ResNet50可以提取出帧级静态特征X={X(a),X(b)},利用取出的静态特征训练一个孪生循环神经网络用于获取帧间的动态信息。每一个帧长为L的剪辑可生成N维的时空特征表示,记为Y。孪生循环神经网络的初始学习率为η,迭代送入的样本为K。使用比较损失训练网络参数,从而将M×L的帧级输入特征降维成N维的时空特征表示用于序列匹配。
本发明中所设计的孪生循环神经网络以长短期记忆胞元作为基本神经单元。长短期记忆单元包括一个记忆胞元和三个控制门,三个控制门输入门,遗忘门和输出门。输入门it可以调制长短期记忆胞元的输入zt。记忆单元ct记录了当前的记忆状态。LSTM单元的输出ht由遗忘门ft和输出门ot共同决定。长短期记忆胞元具体操作可表示为:
it=σ(WiXt+Riht-1+bi)
ft=σ(WfXt+Rfht-1+bf)
ot=σ(WoXt+Roht-1+bo)
zt=σ(WzXt+Rzht-1+bz)
其中,其中,Wi,Wf,Wo和Wz分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵,X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征,Xt∈X={X(a),X(b)}, L为剪辑对的帧长,ht-1为上一个状态的输出值,Ri,Rf,Ro和Rz分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵,bi,bf,bo和bz分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项,σ为sigmoid函数,φ为双正切函数,表示元素内积。长短期记忆胞元的输出取决于当前状态和前一个状态,即实现了序列间的时空融合。
如图6所示,将残差网络提取的M×L维帧级特征送入共享参数的孪生循环神经网络,可以融合出N维的时空特征表示,记为Y(a),Y(b)。对比损失函数用来优化整个孪生循环网络的参数,该损失函数可表示为:
Lcst=l·(1-d)+(1-l)·max(0,d-m)
其中,d表示时空特征Y(a),Y(b)间的余弦距离,l为标签,l=1表示帧序列对包含相同的内容,l=0表示帧序列对包含不同的内容,m表示损失函数的限定阈值。这样的一种损失函数可以有效地增加类间方差,并减小类内方差,可适用与序列匹配任务;
S04生成测试视频的时空特征表示;
同步骤S03,将所述测试集中的库视频和待查询视频采用所述孪生循环神经网络生成时空特征表示;
S05采用时空网络算法检测拷贝视频;
对于帧长度为T的查询视频,将连续的L帧看做一个状态,通过步骤4可以生成N×T/L的特征表示。通过使用基于图的时空网络算法匹配查询视频和库视频。记录查询视频的状态为Q={q1,q2,...,q|Q|},库视频的状态为R={r1,r2,...r|R|},|·|表示集合的基数。第i个查询视频qi和第j个库视频的rj的相似度可以通过公式表示为:
视频间的相似度即可看做时空特征表示之间的余弦距离。对于查询视频的每一个状态,使用最相近的k个状态用以构建时空网络。每个时间状态根据严格的时间顺序排序。设定相似度阈值,当所述查询视频和库视频的相似度大于等于所述相似度阈值是,判定所述查询视频为拷贝视频,否则所述查询视频不是拷贝视频。对剪辑的视频检测完毕后,针对完整视频,采用查询视频Q和库视频R的最优路径可用搜索方法得到:
其中,PQ={a1,a2,...,ah}和PR={b1,b2,...,bh}分别表示查询视频Q和库视频R的状态路径。最大流算法通过搜索最短路径来确定查询视频的拷贝片段。该算法将库视频的每一帧作为时态网络的一个节点,遵从查询视频节点的时间序和库视频节点的时间序,找出最大权值路径。该路径串联了库视频的有序节点,表示找出与查询视频最相似的库视频片段。
对于本发明所述的视频拷贝检测系统和方法,实验中涉及到的参数,其对应的含义以及优选参数取值如下表所示:
表1实验中相关参数建议取值
参数符号 | 参数说明 | 参数取值 |
W | 输入图片的宽 | 224 |
H | 输入图片的高 | 224 |
C | 输入图片的通道 | 3 |
M | 单帧特帧的维度数 | 2048 |
L | 输入帧长 | 20 |
N | 时空特征维度数 | 1000 |
η | 网络参数初始学习率 | 0.01 |
K | 一次迭代样本个数 | 80 |
k | 最近邻状态个数 | 5 |
表1为发明内容提到的基于卷积及循环神经网络的视频拷贝检测方法中定义参数的建议取值,表格中的参数取值仅为当前深度学习网络模型下的建议选取值,对该发明内容本身不具有限定性。
Claims (10)
1.一种基于卷积及循环神经网络的视频拷贝检测系统,其特征在于,该系统包括:
数据集建立模块,使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集,使用公开视频数据集VCDB作为测试集;
帧特征提取模块,采用50层的残差卷积神经网络ResNet50提取所述训练集视频的图像帧级静态特征;
时空特征训练模块,该模块包括视频剪辑模块和循环网络训练模块,所述视频剪辑模块用于将所述训练集中的视频剪辑成若干剪辑段,并将所述若干剪辑段组合成若干个剪辑对,所述剪辑对包括剪辑内容相同的剪辑对和剪辑内容不相同的剪辑对;所述循环网络训练模块利用所述剪辑对中的帧级静态特征序列训练孪生循环神经网络,生成降维的时空特征表示,并采用比较损失函数优化所述孪生循环网络的参数;
循环网络测试模块,用于将所述测试集中的库视频和待查询视频生成时空特征表示,所述生成方法是采用所述循环网络训练模块中训练的孪生循环神经网络;
拷贝视频匹配模块,用于使用基于图的时空网络算法匹配所述测试集中的库视频,以确定所述待查询视频是否为拷贝视频。
2.根据权利要求1所述的基于卷积及循环神经网络的视频拷贝检测系统,其特征在于,所述循环网络训练模块的孪生循环神经网络的基本神经单元为长短期记忆胞元,所述长短期记忆胞元包括一个记忆胞元和三个控制门,所述三个控制门分别为输入门、遗忘门和输出门,所述控制门的输入均为帧级静态特征和上一个状态的输出值,所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到,分别将为it、ft和ot,所述输入门的输出值it可以调制所述长短期记忆胞元的输入zt,所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定,进而融合出时空特征表示。
3.根据权利要求2所述的基于卷积及循环神经网络的视频拷贝检测系统,其特征在于,所述输入门、遗忘门和输出门的输出分别通过所述剪辑对的帧级静态特征、权重矩阵和阈值项计算得到,计算公式为:
it=σ(WiXt+Riht-1+bi)
ft=σ(WfXt+Rfht-1+bf)
ot=σ(WoXt+Roht-1+bo)
zt=σ(WzXt+Rzht-1+bz)
其中,Wi,Wf,Wo和Wz分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵,X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征,Xt∈X={X(a),X(b)}, L为剪辑对的帧长,ht-1为上一个状态的输出值,Ri,Rf,Ro和Rz分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵,bi,bf,bo和bz分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项,σ为sigmoid函数,φ为双正切函数,表示元素内积。
4.根据权利要求2所述的基于卷积及循环神经网络的视频拷贝检测系统,其特征在于,所述输出由所述遗忘门和所述输出门共同决定,进而融合出时空特征表示,具体公式为:
其中,所述it为所述输入门的输出值,ft为所述遗忘门的输出值,ot为所述输出门的输出值,φ为双正切函数,ct为记忆胞元的输入值,ct-1为所述记忆胞元上一个状态的输入值。
5.根据权利要求1所述的基于卷积及循环神经网络的视频拷贝检测系统,其特征在于,所述比较损失函数表示为:
Lcst=l·(1-d)+(1-l)·max(0,d-m)
其中,d表示时空特征表示Y(a),Y(b)间的余弦距离,l为标签,l=1表示帧序列对包含相同的内容,l=0表示帧序列对包含不同的内容,m表示损失函数的限定阈值。
6.根据权利要求1所述的基于卷积及循环神经网络的视频拷贝检测系统,其特征在于,所述使用基于图的时空网络算法匹配所述测试集中的库视频,具体方法为:
(1)判断剪辑过的查询视频是否为拷贝视频
记录查询视频的状态为Q={q1,q2,...,q|Q|},库视频的状态为R={r1,r2,...r|R|},|·|表示测试集的基数,第i个查询视频qi和第j个库视频的rj的相似度可以通过公式表示为:
设定相似度阈值,当所述查询视频和库视频的相似度大于等于所述相似度阈值是,判定所述查询视频为拷贝视频,否则所述查询视频不是拷贝视频;
(2)判断完整的查询视频是否为拷贝视频
所述查询视频Q和库视频R的最优路径的搜索方法为:
其中,PQ={a1,a2,...,ah}和PR={b1,b2,...,bh}分别表示查询视频Q和库视频R的状态路径。
7.一种基于卷积及循环神经网络的视频拷贝检测方法,其特征在于,所述方法包括以下步骤:
S01使用公开视频拷贝检测数据集CC_WEB作为循环神经网络的训练集,使用公开视频数据集VCDB作为测试集;
S02将所述训练集中的每一个图像帧进行归一化,作为残差网络的输入I={I1,I2,...IN},所述残差卷积神经网络ResNet50可以提取输入的每一帧图像的静态特征X={X1,X2,...XN},单帧图片通过残差网络ResNet的前向传播映射为M维的特征向量;
S03将所述训练集中的视频每隔L帧看做一个剪辑,将所述剪辑组合成若干个剪辑对,包括内容相同的剪辑对和内容不相同的剪辑对;帧长为L的剪辑对所述残差卷积神经网络ResNet50提取出帧级静态特征X={X(a),X(b)}, 利用取出的所述静态特征迭代训练孪生循环神经网络用于获取帧间的动态信息,每一个帧长为L的剪辑可生成N维的时空特征表示,记为Y;使用比较损失函数训练网络参数,将M×L的帧级输入特征降维成N维的时空特征表示用于帧序列匹配;
S04同步骤S03,将所述测试集中的库视频和待查询视频采用所述孪生循环神经网络生成时空特征表示;
S05若所述待查询视频的帧长度为T,将连续的L帧看做一个状态,通过步骤S04生成N×T/L的特征表示,通过使用基于图的时空网络算法匹配所述查询视频和库视频。
8.根据权利要求7所述的基于卷积及循环神经网络的视频拷贝检测方法,其特征在于,所述步骤(3)中,孪生循环神经网络的基本神经单元为长短期记忆胞元,所述长短期记忆胞元包括一个记忆胞元和三个控制门,所述三个控制门分别为输入门、遗忘门和输出门,所述控制门的输入均为帧级静态特征和上一个状态的输出值,所述输入门、遗忘门和输出的输出分别通过所述剪辑对中的帧级静态特征、权重矩阵和阈值项计算得到,分别将为it、ft和ot,所述输入门的输出值it可以调制所述长短期记忆胞元的输入zt,所述孪生循环神经网络的输出由所述遗忘门和所述输出门共同决定,进而融合出时空特征表示。
计算公式为:
it=σ(WiXt+Riht-1+bi)
ft=σ(WfXt+Rfht-1+bf)
ot=σ(WoXt+Roht-1+bo)
zt=σ(WzXt+Rzht-1+bz)
其中,Wi,Wf,Wo和Wz分别表示当前状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输入的权重矩阵,X为经过所述残差卷积神经网络提取出剪辑对中单帧图片的静态特征,Xt∈X={X(a),X(b)}, L为剪辑对的帧长,ht-1为上一个状态的输出值,Ri,Rf,Ro和Rz分别表示上一个状态在输入门、遗忘门、输出门和所述孪生循环卷积神经网络的输出的权重矩阵,bi,bf,bo和bz分别表示在输入门、遗忘门、输出门和所述孪生循环卷积神经网络阈值项,σ为sigmoid函数,φ为双正切函数,表示元素内积。
9.根据权利要求7所述的基于卷积及循环神经网络的视频拷贝检测方法,其特征在于,所述比较损失函数表示为:
Lcst=l·(1-d)+(1-l)·max(0,d-m)
其中,d表示时空特征表示Y(a),Y(b)间的余弦距离,l为标签,l=1表示帧序列对包含相同的内容,l=0表示帧序列对包含不同的内容,m表示损失函数的限定阈值。
10.根据权利要求7所述的基于卷积及循环神经网络的视频拷贝检测方法,其特征在于,所述通过使用基于图的时空网络算法匹配所述查询视频和库视频,具体方法为:
(1)判断剪辑过的查询视频是否为拷贝视频
记录查询视频的状态为Q={q1,q2,...,q|Q|},库视频的状态为R={r1,r2,...r|R|},|·|表示测试集的基数,第i个查询视频qi和第j个库视频的rj的相似度可以通过公式表示为:
设定相似度阈值,当所述查询视频和库视频的相似度大于等于所述相似度阈值是,判定所述查询视频为拷贝视频,否则所述查询视频不是拷贝视频;
(2)判断完整的查询视频是否为拷贝视频
所述查询视频Q和库视频R的最优路径的搜索方法为:
其中,PQ={a1,a2,...,ah}和PR={b1,b2,...,bh}分别表示查询视频Q和库视频R的状态路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810600019.8A CN108985165A (zh) | 2018-06-12 | 2018-06-12 | 一种基于卷积及循环神经网络的视频拷贝检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810600019.8A CN108985165A (zh) | 2018-06-12 | 2018-06-12 | 一种基于卷积及循环神经网络的视频拷贝检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108985165A true CN108985165A (zh) | 2018-12-11 |
Family
ID=64541119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810600019.8A Pending CN108985165A (zh) | 2018-06-12 | 2018-06-12 | 一种基于卷积及循环神经网络的视频拷贝检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108985165A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948692A (zh) * | 2019-03-16 | 2019-06-28 | 四川大学 | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 |
CN110457996A (zh) * | 2019-06-26 | 2019-11-15 | 广东外语外贸大学南国商学院 | 基于vgg-11卷积神经网络的视频运动对象篡改取证方法 |
CN111291223A (zh) * | 2020-01-21 | 2020-06-16 | 河南理工大学 | 四胞胎卷积神经网络视频指纹算法 |
CN112203115A (zh) * | 2020-10-10 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 一种视频识别方法和相关装置 |
CN113273108A (zh) * | 2019-01-07 | 2021-08-17 | 诺基亚技术有限公司 | 使用神经网络检测帧中传输的控制信息 |
CN113632094A (zh) * | 2019-02-22 | 2021-11-09 | 谷歌有限责任公司 | 存储器引导的视频对象检测 |
CN113761392A (zh) * | 2021-09-14 | 2021-12-07 | 上海任意门科技有限公司 | 内容召回方法、计算设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649663A (zh) * | 2016-12-14 | 2017-05-10 | 大连理工大学 | 一种基于紧凑视频表征的视频拷贝检测方法 |
CN106778686A (zh) * | 2017-01-12 | 2017-05-31 | 深圳职业技术学院 | 一种基于深度学习和图论的拷贝视频检测方法和系统 |
CN108509827A (zh) * | 2017-02-27 | 2018-09-07 | 阿里巴巴集团控股有限公司 | 视频流中异常内容的识别方法及视频流处理系统和方法 |
-
2018
- 2018-06-12 CN CN201810600019.8A patent/CN108985165A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649663A (zh) * | 2016-12-14 | 2017-05-10 | 大连理工大学 | 一种基于紧凑视频表征的视频拷贝检测方法 |
CN106778686A (zh) * | 2017-01-12 | 2017-05-31 | 深圳职业技术学院 | 一种基于深度学习和图论的拷贝视频检测方法和系统 |
CN108509827A (zh) * | 2017-02-27 | 2018-09-07 | 阿里巴巴集团控股有限公司 | 视频流中异常内容的识别方法及视频流处理系统和方法 |
Non-Patent Citations (1)
Title |
---|
YAOCONG HU, XIAOBO LU: "Learning spatial-temporal features for video copy detection by the combination of CNN and RNN", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113273108A (zh) * | 2019-01-07 | 2021-08-17 | 诺基亚技术有限公司 | 使用神经网络检测帧中传输的控制信息 |
CN113632094A (zh) * | 2019-02-22 | 2021-11-09 | 谷歌有限责任公司 | 存储器引导的视频对象检测 |
US11961298B2 (en) | 2019-02-22 | 2024-04-16 | Google Llc | Memory-guided video object detection |
CN109948692A (zh) * | 2019-03-16 | 2019-06-28 | 四川大学 | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 |
CN110457996A (zh) * | 2019-06-26 | 2019-11-15 | 广东外语外贸大学南国商学院 | 基于vgg-11卷积神经网络的视频运动对象篡改取证方法 |
CN111291223A (zh) * | 2020-01-21 | 2020-06-16 | 河南理工大学 | 四胞胎卷积神经网络视频指纹算法 |
CN111291223B (zh) * | 2020-01-21 | 2023-01-24 | 河南理工大学 | 四胞胎卷积神经网络视频指纹方法 |
CN112203115A (zh) * | 2020-10-10 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 一种视频识别方法和相关装置 |
CN112203115B (zh) * | 2020-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种视频识别方法和相关装置 |
CN113761392A (zh) * | 2021-09-14 | 2021-12-07 | 上海任意门科技有限公司 | 内容召回方法、计算设备和计算机可读存储介质 |
CN113761392B (zh) * | 2021-09-14 | 2022-04-12 | 上海任意门科技有限公司 | 内容召回方法、计算设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985165A (zh) | 一种基于卷积及循环神经网络的视频拷贝检测系统及方法 | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN109299341B (zh) | 一种基于字典学习的对抗跨模态检索方法和系统 | |
Hu et al. | Convolutional neural network architectures for matching natural language sentences | |
CN111782768B (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN105718532B (zh) | 一种基于多深度网络结构的跨媒体排序方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN111061843A (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN109918510A (zh) | 跨领域关键词提取方法 | |
Ji et al. | Unsupervised few-shot feature learning via self-supervised training | |
CN103514443B (zh) | 一种基于lpp特征提取的单样本人脸识别迁移学习方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
Li et al. | Shared autoencoder Gaussian process latent variable model for visual classification | |
Huang et al. | Multimodal network embedding via attention based multi-view variational autoencoder | |
Ivasic-Kos et al. | A knowledge-based multi-layered image annotation system | |
CN114528411B (zh) | 一种中文医药知识图谱自动化构建方法、装置及介质 | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
Zhou et al. | Self-selective attention using correlation between instances for distant supervision relation extraction | |
Wu et al. | MvsGCN: A novel graph convolutional network for multi-video summarization | |
Hu et al. | Hierarchical graph semantic pooling network for multi-modal community question answer matching | |
CN109284414B (zh) | 基于语义保持的跨模态内容检索方法和系统 | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
Dong et al. | Video retrieval based on deep convolutional neural network | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
CN115860152A (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181211 |