CN109492129B

CN109492129B - 一种基于双流神经网络的相似视频搜索方法和系统

Info

Publication number: CN109492129B
Application number: CN201811256363.6A
Authority: CN
Inventors: 夏又新; 高瑞; 施辉
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2020-08-07
Anticipated expiration: 2038-10-26
Also published as: CN109492129A

Abstract

本发明提出一种基于双流神经网络的相似视频搜索方法和系统。本发明中，视频帧提取采用关键帧提取技术，大大节省了存储空间，同时也使神经网络训练更加稳定，加快的神经网络训练的收敛速度；由于采用双流卷积神经网络提取视频特征，使得提取到的视频特征同时保留了视频中的空间信息和时间信息，更具有健壮性。本发明利用汉明距离来度量视频的相似性，汉明空间里的距离运算其实是一种位运算，所以即使是很复杂的检索算法，它的计算成本也远低于原始空间的运算，所以本检索算法是一种高效的检索方式。

Description

一种基于双流神经网络的相似视频搜索方法和系统

技术领域

本发明涉及一种相似视频的搜索算法，具体地指一种基于双流神经网络算法的特征提取与视频哈希搜索算法。

背景技术

伴随短视频的火热，用户规模、视频观看时长也在日益增长。在大型城市，每秒钟所产生的数据量要高达4T以上。其中大量的近似重复视频涌现在互联网中，并呈现爆炸式的增长趋势。而面对海量的视频，如何通过搜索算法在视频库中进行查找，找出与样例视频相似或者重复的视频，对如版权保护、视频监控、视频推荐具有非常重大的意义。

目前，视频搜索领域主要使用局部敏感哈希的算法，核心思想是在原始的数据空间里相似的数据，在哈希映射之后的哈希码也具有相似性，这些哈希方法是与数据无关的。局部敏感哈希也存在几个明显的缺点。首先，为了达到更高的检索要求，往往需要更长的哈希码，这无疑会牺牲查全率，而为了解决这个问题所采用的多哈希的算法又会增加存储成本和检索时间成本。其次，局部敏感只适用于某些特定的指标，如p系数，jaccard系数等，当检索要求表达方式变得复杂比如语义等，而不是简单的距离或者相似度，这种度量方式就不再满足近似最近邻检索的要求。

发明内容

针对这种情况，本发明提出了一种基于双流神经网络的相似视频搜索方法，本发明方法具有搜索精度高，搜索速度快，扩展性好等特点。

本发明的技术方案如下：一种基于双流神经网络的相似视频搜索方法，

步骤S100，采集视频数据训练样本，并对样本进行预处理；

步骤S200，提取视频数据训练样本中的视频关键帧；

步骤S300，使用经过步骤S200处理过后的视频关键帧数据训练双流深度网络模型；

步骤S400，将给定视频输入到步骤S300训练好的双流网络模型提取视频特征，用于在视频库中进行匹配；

步骤S500，对步骤S400得到的特征向量经过sgn阶跃函数二值化作为视频特征哈希吗，sgn函数如下：

其中，x为步骤S400得到的特征向量；

步骤S600，计算给定视频与视频库中所有视频的距离，按照距离由小到大对视频进行排序，排序靠前的视频即为最后的搜索结果。

进一步的，步骤S100中所述视频数据训练样本包括多种类型的视频，每种类型的视频数据在1000份以上；所述预处理包括对视频数据进行清洗，并删除噪声样本。

进一步的，步骤S200的具体实现包括如下子步骤，

步骤S201，输入视频数据，将视频分帧并按视频时间顺序保存；

步骤S202，从第1帧开始，利用相邻的前一帧，通过brox算法计算出每一视频帧单通道的光流图；

步骤S203，对所有光流图计算方差值，根据方差值对光流图排序，选取方差最大的m帧图像作为关键光流帧，并选取对应的RGB关键帧。

进一步的，步骤S300训练双流深度网络模型的具体实现方式如下，

步骤S301，对包括关键帧和非关键帧在内的所有帧数据进行随机裁剪，水平翻转与旋转，随机噪声扰动以增加数据的多样性；

步骤S302，选取y1类别的视频中一帧RGB关键帧和10帧光流关键帧在通道上连接，作为双流网络输入，提取出的特征向量作为positive；选取y1类别中的一帧RGB非关键帧和10帧光流非关键帧在通道上连接，作为双流网络输入，提取出的特征向量作为anchor；选取y2类别的视频中的一帧RGB关键帧和10帧光流图关键帧在通道上连接，作为双流网络输入，提取出的特征向量作为negative，其中positive、anchor和negative均为1024维度特征向量；

步骤S303，网络前向传播结束后，构造hash triplet loss损失函数，使用hashtriplet loss拉近positive和anchor的距离，拉远negative和anchor的距离，具体计算公式如下：

其中：定义哈希码特征b_i，b_j∈{+1，-1}^L，定义

计算二进制特征向量b_i和b_j的汉明距离；式中M表示训练视频对的数量，式中p_m为1024维度的向量，表示第m个视频对中的positive；q_m为1024维度向量，表示第m个视频对中的anchor；n_m为1024维度向量，表示第m个视频对中的negative；b_m＝sgn(p_m)表示哈希化之后的视频特征；α是一个常量，控制损失函数边缘大小；

为转换误差，对浮点型特征转换为二进制特征加上惩罚项；λ为超参数，控制惩罚的程度；

步骤S304，使用随机梯度下降优化算法，对网络反向传播，反复迭代，调整训练学习率等超参数，直到网络收敛。

进一步的，步骤S600中相似距离度量通过计算两两视频特征之间的汉明距离，计算公式如下：

其中，x,y为n维向量，x[i]表示给定视频特征哈希码向量x中的第i个元素的值，y[i]表示视频库中任一视频特征哈希码向量y中的第i个元素的值；

表示异或操作。

本发明还提供一种基于双流神经网络的相似视频搜索系统，包括如下模块：

视频数据采集模块，用于采集视频数据训练样本，并对样本进行预处理；

关键帧提取模块，用于提取视频数据训练样本中的视频关键帧；

双流网络训练模块，使用经过关键帧提取模块处理过后的视频关键帧数据训练双流深度网络模型；

视频特征提取模块，将给定视频输入到双流网络训练模块训练好的双流网络模型提取视频特征，用于在视频库中进行匹配；

特征哈希码转换模块，用于对视频特征提取模块得到的特征向量经过sgn阶跃函数二值化作为视频特征哈希码，sgn函数如下：

其中，x为步骤S400得到的特征向量；

搜索模块，用于计算给定视频与视频库中所有视频的距离，按照距离由小到大对视频进行排序，排序靠前的视频即为最后的搜索结果。

进一步的，视频数据采集模块中所述视频数据训练样本包括多种类型的视频，每种类型的视频数据在1000份以上；所述预处理包括对视频数据进行清洗，并删除噪声样本。

进一步的，关键帧提取模块中提取视频关键帧的具体实现包括如下子步骤，

进一步的，双流网络训练模块中训练双流深度网络模型的具体实现方式如下，

其中：定义哈希码特征b_i，b_j∈{+1，-1}^L，定义

进一步的，搜索模块中相似距离度量通过计算两两视频特征之间的汉明距离，计算公式如下：

表示异或操作。

与现有技术相比，本发明的优点如下；

(1)本发明中，视频帧提取采用关键帧提取技术，大大节省了存储空间，同时也使神经网络训练更加稳定，加快的神经网络训练的收敛速度。

(2)由于采用双流卷积神经网络提取视频特征，使得提取到的视频特征同时保留了视频中的空间信息和时间信息，更具有健壮性。

(3)利用汉明距离来度量视频的相似性，汉明空间里的距离运算其实是一种位运算，所以即使是很复杂的检索算法，它的计算成本也远低于原始空间的运算，所以本检索算法是一种高效的检索方式。

附图说明

图1是基于双流神经网络的相似视频搜索方法流程图；

图2是视频数据关键帧提取方法流程图；

图3是双流神经网络的算法训练过程结构流程图；

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，基于双流神经网络的相似视频搜索方法包括以下步骤：

步骤S100、采集视频数据训练样本，对每种类别的视频数据采集1000份以上，并做数据清洗，删除噪声样本。

步骤S200、提取样本视频关键帧，如图2所示，具体包括以下三个步骤：

步骤S201、输入视频数据，使用opencv将视频分帧并按视频时间顺序保存。

步骤S202、从第1帧开始，利用相邻的前一帧，通过brox算法计算出每一视频帧单通道的光流图。

步骤S203、对所有光流图计算方差值，根据方差值对光流图排序，取方差值较大帧即为关键帧。选取方差最大的m帧图像作为光流关键帧，并选取对应的RGB关键帧，本实施例中m取10。

步骤S300、使用经过步骤S200处理过后的视频关键帧数据训练双流深度网络模型，如图3所示，具体包括以下四个步骤：

步骤S301、输入视频数据，经过步骤S200处理过后，得到m张关键RGB帧和m张光流关键帧，对包括关键帧和非关键帧在内的所有帧数据进行随机裁剪，水平翻转与旋转，随机噪声扰动以增加数据的多样性。

步骤S302、使用双流卷积神经网络提取视频特征，双流卷积网络结构由两个深度网络组成，分别处理时间与空间的维度。对于空间域，将视频的单帧RGB图像作为输入，将图像输入inceptionv3模型，提取物体、场景信息，输出为1024维度特征向量。对于时间域，将10帧叠加后的光流关键帧图像作为输入，送入bn-inception模型，可以提取动作的信息，输出为1024维度的特征向量。在网络最后接入全连接层将两个模型输出的1024维度的特征向量融合作为最后双流网络的输出结果，结果为1024维度特征向量。本实施例中，每次输入2个不同类别的视频进入网络训练，选取y1类别的视频中一帧RGB关键帧和10帧光流关键帧在通道上连接，作为双流网络输入，提取出的特征向量作为positive；选取y1类别中的一帧RGB非关键帧和10帧光流非关键帧在通道上连接，作为双流网络输入，提取出的特征向量作为anchor；选取y2类别的视频中的一帧RGB关键帧和10帧光流图关键帧在通道上连接，作为双流网络输入，提取出的特征向量作为negative。

步骤S303、网络前向传播结束后，构造hash triplet loss损失函数，使用hashtriplet loss拉近positive和anchor的距离，拉远negative和anchor的距离，具体计算公式如下：

其中：定义哈希码特征b_i，b_j∈{+1，-1}^L，定义

计算二进制特征向量b_i和b_j的汉明距离；式中M表示训练视频对的数量，式中p_m为1024维度的向量，表示第m个视频对中的positive；q_m为1024维度向量，表示第m个视频对中的anchor；n_m为1024维度向量，表示第m个视频对中的negative；b_m＝sgn(p_m)表示哈希化之后的视频特征；α是一个常量，控制损失函数边缘大小，当α设置过大时损失函数过大模型难以收敛，当α设置过小时，损失函数较小，模型提取出的特征不能够很好的区分相似性；

为转换误差，对浮点型特征转换为二进制特征加上惩罚项；λ为超参数，控制惩罚的程度。

步骤S304、使用随机梯度下降算法进行优化，对网络反向传播，反复迭代，调整训练学习率等超参数，直到网络收敛，即Hash triplet loss损失函数值在训练数据上不再发生变化。

步骤S400、将给定视频输入到步骤S300训练好的双流网络模型提取视频特征，用于在视频库中进行匹配。

步骤S500、对步骤S400输出的1024维度特征向量，经过sgn阶跃函数二值化作为视频特征哈希码，sgn函数如下：

其中，x指1024维特征向量里的每一个元素。

步骤S600、计算给定视频与视频库中所有视频的距离，相似距离度量通过计算两两视频特征之间的汉明距离。计算公式如下：

式中x,y为n维向量，n＝1024，x[i]表示给定视频特征哈希码向量x中的第i个元素的值，y[i]表示视频库中任一视频特征哈希码向量y中的第i个元素的值；

表示异或操作。

按照距离由小到大对视频进行排序，排序靠前的视频即为最后的搜索结果。

本发明实施例还提供一种基于双流神经网络的相似视频搜索系统，包括如下模块：

其中，x为步骤S400得到的特征向量；

各模块的具体实现和各步骤相应，本发明不予撰述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。