CN113536939B

CN113536939B - 一种基于3d卷积神经网络的视频去重方法

Info

Publication number: CN113536939B
Application number: CN202110681087.3A
Authority: CN
Inventors: 张跃宇; 李雪; 徐跃; 李晖; 陈杰; 马佳骥; 吕嘉宁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2023-02-10
Anticipated expiration: 2041-06-18
Also published as: CN113536939A

Abstract

本发明提供了一种基于3D卷积神经网络的视频去重方法，通过将视频训练集以锚点视频、正视频、负视频的三元组形式来训练倒角相似度度量网络，使得倒角相似度度量网络具备良好的区分性，利于相似准确度的提升；对视频训练集进行时域降采样、灰度化等预处理操作，在消除视频冗余帧的同时，减小计算量；利用双流I3D网络提取视频特征，更好地对视频空间信息和时间信息进行充分提取；通过PCA操作对视频特征进行降维处理，以保证检测结果精准的同时降低计算复杂度；通过构建帧间相似矩阵，使得倒角相似度度量网络在学习过程中充分考虑区域到区域的相似性，对区域矢量进行加权计算，能够提取更细粒度的局部特征。

Description

一种基于3D卷积神经网络的视频去重方法

技术领域

本发明属于视频图像处理技术领域，具体涉及一种基于3D卷积神经网络的视频去重方法。

背景技术

随着云计算、人工智能等高新技术的快速发展及5G时代的到来，催生了对于数据存储、数据处理的大量需求，人们对信息的存储和管理造成了云端数据大量冗余的状况，如各类文本文件、高质量图像、音频和视频等都是导致数据量指数增长的重要影响因素，因为这不仅浪费网络带宽、给运营商带来高昂的硬件和人力成本，也对云存储系统的正常管理及检索带来不便。故对重复数据的检测和删除成为数据存储工作的重中之重。

I3D算法基于图像分类的最新架构，通过膨胀所有的过滤器和池内核来实现从2D网络到3D网络的转换，并构建两个三维网络结构流，分别是RGB信息流以及优化后的平滑光信息流，其中光流是利用TV-L1算法来计算得到的。每个视频选取经过中心裁剪之后的64帧图像对两个三维网络结构流进行训练，通过合理控制时间维度步长以提高光流信息检测性能，用ImageNet的Inception V1作为预训练网络，每个卷积网络后都放置批量归一化BN层和ReLU层，来产生分类的分数。测试时将完整视频的所有帧作为输入，得到RGB流和Flow的双流预测结果并取平均，最后利用softmax函数进行图像分类，在分类过程中，softmax函数对裁剪后的全局视频特征进行相似度计算，从而确定分类结果。

因此现有技术存在以下缺陷：(1)分类过程中，根据裁剪后的全局视频特征来计算视频相似性，对需要捕捉更细粒度的视频特征场景来说并不适用；(2)模型测试时将全局视频特征参与运算会消耗大量的计算资源和存储资源；(3)所得全局视频特征的维度较高，存在一定数据冗余，具有较高计算复杂性。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于3D卷积神经网络的视频去重方法。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供的一种基于3D卷积神经网络的视频去重方法，包括：

步骤1：获取视频训练集；

其中，视频训练集包括预定的锚点视频、与所述锚点视频相似的正视频和与所述锚点视频不相似的负视频；

步骤2：对所述视频训练数据进行预处理，以降低视频训练数据的冗余帧以及噪声，获得预处理之后的目标视频帧；

步骤3：对所述目标视频帧进行裁剪，将裁剪后的中心图像输入I3D网络中，以使I3D网络提取中心图像的RGB流特征以及Flow流特征，并对所述RGB流特征以及Flow流特征求取平均值，获得平均之后的第一特征；

步骤4：基于所述第一特征，获得描述两个视频第一特征相似距离远近的EMD距离；

步骤5：使用EMD距离构建帧间相似矩阵；

步骤6：对视频训练数据进行裁剪，将裁剪之后的视频训练数据分类输入至I3D网络中，以使所述I3D网络提取视频训练数据的RGB流特征以及Flow流特征，并对所述RGB流特征以及Flow流特征求取平均值，获得平均之后的第二特征；

步骤7：使用主成分分析PCA算法对第二特征进行白化以及降维操作，获得降维之后的第二特征；

步骤8：对所述降维之后的第二特征进行加权，将所述第二特征的权重限制在预设范围内，得到加权之后的第二特征；

步骤9：针对不同的两个视频加权之后的第二特征所组成的集合，将集合以及所述帧间相似矩阵输入至预设的倒角相似度度量网络中，以使倒角相似度度量网络对于一个集合中的第二特征，通过帧间相似矩阵在另一集合中查找与帧间相似矩阵中元素所表示的最小距离对应的项，将该项确定为与所述第二特征最相近的项，计算距离并求取平均值，再使用激活函数对倒角相似度度量网络中的神经元进行限制，以增加所述倒角相似度度量网络的非线性关系，迭代调整倒角相似度度量网络中的权重，并引入损失函数，对倒角相似度度量网络的输出进行限制，使得正视频与锚点视频的距离接近，负视频与锚点视频的距离远离，直至倒角相似度度量网络收敛；

步骤10：将收敛的倒角相似度度量网络作为分类网络；

步骤11：使用所述分类网络对待去重的视频进行相似性检测，并去重。

可选的，所述步骤2包括：

步骤21：对所述视频训练数据进行时域降采样，以消除视频训练数据中的冗余帧，获得降采样之后的视频训练数据；

步骤22：对降采样之后的视频训练数据按照均匀的时间间隔进行目标帧提取，获得目标视频帧；

步骤23：对所述目标视频帧进行灰度化以及高斯平滑处理，获得处理之后的目标视频帧。

可选的，所述步骤4包括：

步骤41：使用主成分分析PCA算法对平均之后的特征进行白化以及降维操作，获得降维之后的第一特征；

步骤:42：计算第一特征之间的EMD距离。

其中，所述EMD距离表示为：

其中，P和Q分别表示两个视频的第一特征集合，p_i(i＝1,2,...,m)表示一个视频的某个第一特征，q_j(j＝1,2,...,n)是另一个视频的某个第一特征，m和n表示第一特征的总数，i和j表示第一特征的序号，f_ij表示p_i和q_j之间的流动量，d_ij表示p_i和q_j的距离，[d_ij]是一个m×n的矩阵，其中f_ij≥0,1≤i≤m,1≤j≤n。

可选的，所述步骤5包括：

步骤51：将描述所述两个视频的任一第一特征作为一对特征；

步骤52：将该一对特征的EMD距离的维度转换为一维；

步骤53：将视频训练集中所有视频的一维的EMD距离按照视频序号组成帧间相似矩阵。

可选的，所述使用加权公式，对所述降维之后的第二特征进行加权，将所述第二特征的权重限制在预设范围内，得到加权之后的第二特征；

所述加权公式为：α_ij＝u^Tr_ij,||u||＝1，

其中，r’_ij＝(α_ij/2+0.5)r_ij，α_ij∈[-1,1]，r_ij表示降维之后的第二特征区域向量，u表示引入的向量，不代表任何含义，向量u和区域向量r_ij都是单位范数。

可选的，所述倒角相似度表示为：

其中，CS(x,y)≠CS(y,x)，x,y分别表示集合X以及集合Y中的特征，N表示X和Y的项数，S∈R^M×N表示帧间相似矩阵，S(i,j)表示帧间相似矩阵的元素。

可选的，在使用所述分类网络对待分类的视频进行相似度检测，并去重之前，所述视频去重方法还包括：

对所述分类网络进行测试，确定符合分类条件的分类网络。

可选的，对所述分类网络进行测试，确定符合分类条件的分类网络包括：

获取测试数据集；

将所述测试数据集中的视频进行分组，每组测试数据构成一个数据库；

将测试数据集中的锚点视频作为种子视频；

使用所述测试数据集对所述分类网络进行测试，获得描述每个数据库中的输入视频与所述种子视频之间的倒角相似度；

当所述倒角相似度小于预设的阈值时，则判定输入视频与种子视频相似；

当所述倒角相似度大于预设的阈值时，则判定输入视频与种子视频不相似；

将输入视频与种子视频相似或者不相似的判定结果与预设的核查标准进行比较，当判断结果中的相似或者不相似视频数量达到核查标准中的数量时，或者达到预设的正确率时，则确定该分类网络符合分类条件，否则不符合分类条件，对不符合分类条件的分类网络进行再训练，直至符合分类条件。

可选的，所述对不符合分类条件的分类网络进行再训练，直至符合分类条件包括：

通过调整分类网络参数、修改分类网络的内部结构、更换视频训练集等方式对所述分类网络进行再训练以及测试，直至符合分类条件。

本发明提供的一种基于3D卷积神经网络的视频去重方法，具体有以下有益效果：

(1)通过将视频训练集以锚点视频、正视频、负视频的三元组形式来训练倒角相似度度量网络，拉近相似视频与锚点视频的距离，拉远不相似视频与锚点视频的距离，使得倒角相似度度量网络具备良好的区分性，利于分类准确度的提升；

(2)对视频训练集进行时域降采样、灰度化等预处理操作，在消除视频冗余帧的同时，减小计算量；

(3)利用双流I3D网络提取视频特征，更好地对视频空间信息和时间信息进行充分提取；

(4)合理通过PCA操作对视频特征进行降维处理，以保证检测结果精准的同时降低计算复杂度；

(5)通过构建帧间相似矩阵，使得倒角相似度度量网络在学习过程中充分考虑区域到区域的相似性，对区域矢量进行加权运算，能够提取更细粒度的局部特征。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于3D卷积神经网络的视频去重方法的流程图；

图2是本发明实施例提供的倒角相似度度量网络学习训练的过程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

在介绍本发明的一种基于3D卷积神经网络的视频去重方法之前，首先对本发明可能涉及的技术术语进行介绍。

I3D(Interactive Three Dimensions)：交互式3D，deepmind等人在2017年提出的一种视频动作识别模型。

EMD距离(Earth Mover‘s Distance):一种用于计算两个概率分布距离的度量标准，在图像分类等计算机视觉领域具有很好的度量效果。

FFmpeg:一种可以用来进行音视频及图像处理，并将音视频转化成流的开源计算机程序，具有高性能、高安全性、高易用性、支持格式多样性、高扩展性等特点，常见的功能有：分离音视频流、视频转码、视频封装、视频裁剪、视频录制、视频切片、视频的放大与缩小、视频格式转换、视频的合成与分解等。

Adam(Adaptive Moment Estimation)：自适应矩估计梯度优化算法是一种可以替代传统随机梯度下降SGD过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。

如图1所示，本发明提供的一种基于3D卷积神经网络的视频去重方法包括：

步骤1：获取视频训练集；

其中，视频训练集包括预定的锚点视频、与锚点视频相似的正视频和与锚点视频不相似的负视频；

步骤2：对视频训练数据进行预处理，以降低视频训练数据的冗余帧以及噪声，获得预处理之后的目标视频帧；

步骤3：对目标视频帧进行裁剪，将裁剪后的中心图像输入I3D网络中，以使I3D网络提取中心图像的RGB流特征以及Flow流特征，并对RGB流特征以及Flow流特征求取平均值，获得平均之后的第一特征；

步骤4：基于第一特征，获得描述两个视频的第一特征相似距离远近的EMD距离；

步骤5：使用EMD距离构建帧间相似矩阵；

步骤6：对视频训练数据进行裁剪，将裁剪之后的视频训练数据分类输入至I3D网络中，以使I3D网络提取视频训练数据的RGB流特征以及Flow流特征，并对RGB流特征以及Flow流特征求取平均值，获得平均之后的第二特征；

其中，Flow流特征是通过TV-L1算法提取的，以构成光流图；

由于通过分析PCA降维操作保留的维度个数及所有成分方差和之间的关系可知：当降维后的维度个数为20时，所有成分的方差和为90％，当降维后的维度个数为40时，所有成分的方差和接近于100％，本发明为了提高准确度，保留40维度的特征。由于每个视频均按照时间发展顺序均匀选取50帧作为输入，故降维之后的第二特征的维度均为50×40。

步骤8：对降维之后的第二特征进行加权，将第二特征的权重限制在预设范围内，得到加权之后的第二特征；

参考图2，本发明对视频帧进行白化以及加权操作，本步骤可以使用加权公式，对降维之后的第二特征进行加权，将第二特征的权重限制在预设范围内，得到加权之后的第二特征。加权操作是指对所得特征中的不同区域向量r_ij进行不同程度的加权，区域向量可以描述目标视频帧的局部变化，此过程通过引入向量u来计算每个区域向量r_ij之间的点积，得到权重评分α_ij，其中向量u和区域向量r_ij都是单位范数，因此α_ij∈[-1,1]，可得加权公式为：

α_ij＝u^Tr_ij,||u||＝1

将权重α_ij除以2，再加上0.5，以使其在[0,1]的范围内，r’_ij＝(α_ij/2+0.5)r_ij，其中，α_ij＝u^Tr_ij,||u||＝1，α_ij∈[-1,1]，r_ij表示降维之后的第二特征不同区域向量，u表示引入的向量，不代表任何含义，向量u和区域向量r_ij都是单位范数。

步骤9：针对不同的两个视频加权之后的第二特征所组成的集合，将集合以及帧间相似矩阵输入至预设的倒角相似度度量网络中，以使倒角相似度度量网络对于一个集合中的第二特征，通过帧间相似矩阵在另一集合中查找与帧间相似矩阵中元素所表示的最小距离对应的项，将该项确定为与第二特征最相近的项，计算距离并求取平均值，再使用激活函数对倒角相似度度量网络中的神经元进行限制，以增加倒角相似度度量网络的非线性关系，迭代调整倒角相似度度量网络中的权重，并引入损失函数，对倒角相似度度量网络的输出进行限制，使得正视频与锚点视频的距离接近，负视频与锚点视频的距离远离，直至倒角相似度度量网络收敛；

示例性的，将加权之后的两个第二特征集合X和Y以及帧间相似矩阵输入至预设的倒角相似度度量网络中，对于集合X中的每一项都在集合Y中找到最相近的项，计算距离并求取平均值，再使用激活函数对倒角相似度度量网络中的神经元进行限制，以增加倒角相似度度量网络的非线性关系，迭代调整倒角相似度度量网络中的权重，直至网络收敛，并引入三重损失的方法，从而使得正视频与锚点视频的距离接近，负视频与锚点视频的距离远离。可以通过打分的方式，对正视频分配较高的相似度分数，为负视频分配较低的相似度分数，衡量其距离远近。

参考图2，本实施步骤中可以构建键值对形式的三元组字典，三元组即锚点视频、正视频和负视频，以预定的种子视频为视频训练集中的锚点视频，不相似视频作为负视频，相似视频作为正视频，该字典中包括与种子视频相似视频的ID号和与种子视频不相似视频的ID号，并将该字典文件提供给倒角相似度度量网络，以进行训练。

在具体实施时，将分组视频按照标注分为70％的训练集和30％的测试集，并按照构建的三元组字典将训练视频分三类进行输入；在每个训练时期，从视频池中采样固定数量的三元组，本发明取1000，从三元组的每个视频中选择总大小为50帧的随机视频片段，对模型进行100次训练；

其中，倒角相似度度量网络中用到的度量算法是倒角相似度度量算法(ChamferSimilarity)，它是指已知具有N个项的集X和具有M个项的集合Y，此处可以理解为步骤8之后待匹配的两个视频的特征集合，以及它们的帧间相似矩阵S∈R^N×M，对于集合X中的每一项都在集合Y中找到最相近的项最后取平均，即倒角相似度，简称为CS，用公式可表示为：

此处的倒角相似度不是对称的，即CS(x,y)≠CS(y,x)；

本发明在具体实施方式中将tanh激活函数应用于倒角相似度度量网络中，可以得到倒角相似度：

其中，

是CNN网络的输出，Htanh表示元素级硬tanh激活函数，来对倒角相似度度量网络中各层的输出进行限制，提高倒角相似度度量网络非线性特征。

在训练过程中，需要构造损失函数，使得目标视频的相似性度量得分CS_v(b,d)高于与之相关的视频，低于不相关的视频，用(v,v₊,v_{_})来分别表示锚点视频、正视频和负视频，为强制倒角相似度度量网络对正视频分配较高的相似度分数，为负视频分配较低的相似度分数，使用三重损失的方法：

L_tr＝max{0,CS_v(v,v^-)-CS_v(v,v⁺)+γ}

其中γ为调节参数。

除此之外，定义一个相似性正则化函数，该函数可对Htanh作用后的高值进行惩罚，使得倒角相似度度量网络生成的输出矩阵S_v的值在[-1,1]范围内，为计算正则化损失，将输出相似度矩阵中落在限制区域外的所有值相加：

倒角相似度度量网络总的损失函数可表示为：

L＝L_tr+r×L_reg

其中，r是正则化超参数，可调整相似度正则化对总消耗的占比。

同时在训练过程中，采用自适应矩估计梯度优化算法Adam，以使倒角相似度度量网络能够更稳定地收敛，减小震荡；

Adam是一种自适应学习率算法，根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计进行动态调整得到每个参数的学习速率，其优点是每次迭代参数的学习步长都稳定在一个确定范围内，可加速模型收敛，减小震荡，它不仅计算并保存一个指数衰减的历史平方梯度的平均值v_t，还保存一个历史梯度的指数衰减均值m_t，具体如下：

m_t＝α₁m_t-1+(1-α₁)τ_t

其中m_t和v_t分别表示梯度的一阶矩和二阶矩估计，当m_t和v_t初始化为零向量或当衰减很好的时候(如α₁和α₂趋于1)，m_t和v_t都偏向于0，可通过计算偏差校正的一阶矩和二阶矩估计来抵消偏差：

据此可得模型参数θ的更新规则如下：

一般情况下α₁取值为0.9，α₂取值为0.999，ε取值为10^-8。

通过设置倒角相似度度量网络的学习率I＝10^-5,并不断调整学习率等参数，直到倒角相似度度量网络收敛，即损失函数值在训练数据上不再发生变化。

步骤10：将收敛的倒角相似度度量网络作为分类网络；

步骤11：使用分类网络对待去重的视频进行相似性检测，并去重。

本发明提供的一种基于3D卷积神经网络的视频去重方法，通过将视频训练集以锚点视频、正视频、负视频的三元组形式来训练倒角相似度度量网络，使得倒角相似度度量网络具备良好的区分性，利于分类准确度的提升；对视频训练集进行时域降采样、灰度化等预处理操作，在消除视频冗余帧的同时，减小计算量；利用双流I3D网络提取视频特征，更好地对视频空间信息和时间信息进行充分提取；通过PCA操作对视频特征进行降维处理，以保证检测结果精准的同时降低计算复杂度；通过构建帧间相似矩阵，使得倒角相似度度量网络在学习过程中充分考虑区域到区域的相似性，对区域矢量进行加权运算，能够提取更细粒度的局部特征。

在一种具体的实施方式中，步骤2包括：

步骤21：对视频训练数据进行时域降采样，以消除视频训练数据中的冗余帧，获得降采样之后的视频训练数据；

步骤23：对目标视频帧进行灰度化以及高斯平滑处理，获得处理之后的目标视频帧。

参考图2，本发明可以利用FFmpeg工具对所有视频文件进行时域降采样，以消除视频中的冗余帧；对降采样之后的视频帧按照均匀的时间间隔进行目标帧提取，获得目标视频帧，每个目标视频帧共50帧；对目标视频帧进行灰度化和高斯平滑处理，以减小噪声，降低计算复杂度，获得处理之后的目标视频帧，再选择中心176×114的图像进行裁剪，为后续提取特征提供铺垫。

在一种具体的实施方式中，步骤4包括：

步骤:42：计算第一特征之间的EMD距离。

本发明计算降维之后的特征之间的EMD距离，使用EMD距离构建帧间相似矩阵，该相似矩阵中包括各个分组中每个视频与锚点视频的距离，其中EMD距离定义如下：

若用P和Q来分别表示两个视频的第一特征集合，则可设：

其中p_i(i＝1,2,...,m)和q_j(j＝1,2,...,n)分别表示两个视频的特征，

为特征p_i的权重，

为特征q_j的权重，则可定义一个特征P集合和特征Q集合之间的距离矩阵[d_ij]，d_ij表示p_i和q_j的距离，可知[d_ij]是一个m×n的矩阵。

设p_i和q_j之间的流动量为f_ij，则存在矩阵F＝[f_ij]以保证全局代价函数最小，其应该满足的约束条件为：

代价函数为：

则EMD距离如下：

由EMD公式可知：当特征值p_i和q_j发生小幅度变化时，并不会引起EMD距离的巨大改变，因而对概率分布之间的较小偏差不敏感，具备更强的鲁棒性和连续性，EMD距离特征分布的紧凑性与灵活性可避免相似性度量的量化问题，因此可实现信息与信息之间多对多的优良匹配。

在一种具体的实施方式中，步骤5包括：

步骤51：将描述两个视频的任一第一特征作为一对特征；

步骤52：将该一对特征的EMD距离的维度转换为一维；

本步骤可以使用flatten函数将得到的每对视频特征距离数组的维度转化为一维，即由50×40转化为1×2000，若以CC_WEB_VIDEO数据集为例，由于其共有24个分组，利用nums个视频文件进行模型训练时，则可得视频帧间相似矩阵维度为(nums-24)×2000。

在一种具体的实施方式中，在使用分类网络对待分类的视频进行相似度度量，并去重之前，视频去重方法还包括：

对分类网络进行测试，确定符合分类条件的分类网络。

在一种具体的实施方式中，对分类网络进行测试，确定符合分类条件的分类网络包括：

步骤a：获取测试数据集；

其中，测试数据集包括多个测试视频，每个测试视频携带编号。本步骤可以获取数据集CC_WEB_VIDEO，将数据集并按照标注划分视频训练集和测试数据集。

步骤b：将测试数据集中的视频进行分组，每组测试数据构成一个数据库；

步骤c：将测试数据集中的锚点视频作为种子视频；

步骤d：使用测试数据集对分类网络进行测试，获得描述每个数据库中的输入视频与种子视频之间距离的倒角相似度；

步骤e：当倒角相似度小于预设的阈值时，则判定输入视频与种子视频相似；

步骤f：当倒角相似度大于预设的阈值时，则判定输入视频与种子视频不相似；

步骤g：将输入视频与种子视频相似或者不相似的判定结果与预设的核查标准进行比较，当判断结果中的相似或者不相似的视频数量达到核查标准中的数量时，或者达到预设的正确率时，则确定该分类网络符合分类条件，否则不符合分类条件，对不符合分类条件的分类网络进行再训练，直至符合分类条件。

其中，预设的核查标准包括与种子视频相似视频的编号以及与种子视频不相似的视频的编号。

示例性的，可以对测试数据集的24个分组分别进行测试，每个分组的测试数据构成一个小型数据库，以24个种子视频分别作为查询视频，调用模型，对测试集中每个视频文件与种子视频之间的距离进行评估，设定阈值，若所得结果小于给定阈值，则与种子视频(锚点视频)相似，反之不相似。当大量视频数据参与测试时，若验证结果与核查文件所列结果不相符的数量过多，则证明模型准确度不高，继续通过调整网络参数、修改模型、更换数据集等方式进行训练并测试。

在一种具体的实施方式中，对不符合分类条件的分类网络进行再训练，直至符合分类条件包括：

通过调整分类网络参数、修改分类网络的内部结构、更换视频训练集等方式对分类网络进行再训练以及测试，直至符合分类条件。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。