CN113536939B - 一种基于3d卷积神经网络的视频去重方法 - Google Patents

一种基于3d卷积神经网络的视频去重方法 Download PDF

Info

Publication number
CN113536939B
CN113536939B CN202110681087.3A CN202110681087A CN113536939B CN 113536939 B CN113536939 B CN 113536939B CN 202110681087 A CN202110681087 A CN 202110681087A CN 113536939 B CN113536939 B CN 113536939B
Authority
CN
China
Prior art keywords
video
network
similarity
chamfer
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110681087.3A
Other languages
English (en)
Other versions
CN113536939A (zh
Inventor
张跃宇
李雪
徐跃
李晖
陈杰
马佳骥
吕嘉宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110681087.3A priority Critical patent/CN113536939B/zh
Publication of CN113536939A publication Critical patent/CN113536939A/zh
Application granted granted Critical
Publication of CN113536939B publication Critical patent/CN113536939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于3D卷积神经网络的视频去重方法,通过将视频训练集以锚点视频、正视频、负视频的三元组形式来训练倒角相似度度量网络,使得倒角相似度度量网络具备良好的区分性,利于相似准确度的提升;对视频训练集进行时域降采样、灰度化等预处理操作,在消除视频冗余帧的同时,减小计算量;利用双流I3D网络提取视频特征,更好地对视频空间信息和时间信息进行充分提取;通过PCA操作对视频特征进行降维处理,以保证检测结果精准的同时降低计算复杂度;通过构建帧间相似矩阵,使得倒角相似度度量网络在学习过程中充分考虑区域到区域的相似性,对区域矢量进行加权计算,能够提取更细粒度的局部特征。

Description

一种基于3D卷积神经网络的视频去重方法
技术领域
本发明属于视频图像处理技术领域,具体涉及一种基于3D卷积神经网络的视频去重方法。
背景技术
随着云计算、人工智能等高新技术的快速发展及5G时代的到来,催生了对于数据存储、数据处理的大量需求,人们对信息的存储和管理造成了云端数据大量冗余的状况,如各类文本文件、高质量图像、音频和视频等都是导致数据量指数增长的重要影响因素,因为这不仅浪费网络带宽、给运营商带来高昂的硬件和人力成本,也对云存储系统的正常管理及检索带来不便。故对重复数据的检测和删除成为数据存储工作的重中之重。
I3D算法基于图像分类的最新架构,通过膨胀所有的过滤器和池内核来实现从2D网络到3D网络的转换,并构建两个三维网络结构流,分别是RGB信息流以及优化后的平滑光信息流,其中光流是利用TV-L1算法来计算得到的。每个视频选取经过中心裁剪之后的64帧图像对两个三维网络结构流进行训练,通过合理控制时间维度步长以提高光流信息检测性能,用ImageNet的Inception V1作为预训练网络,每个卷积网络后都放置批量归一化BN层和ReLU层,来产生分类的分数。测试时将完整视频的所有帧作为输入,得到RGB流和Flow的双流预测结果并取平均,最后利用softmax函数进行图像分类,在分类过程中,softmax函数对裁剪后的全局视频特征进行相似度计算,从而确定分类结果。
因此现有技术存在以下缺陷:(1)分类过程中,根据裁剪后的全局视频特征来计算视频相似性,对需要捕捉更细粒度的视频特征场景来说并不适用;(2)模型测试时将全局视频特征参与运算会消耗大量的计算资源和存储资源;(3)所得全局视频特征的维度较高,存在一定数据冗余,具有较高计算复杂性。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于3D卷积神经网络的视频去重方法。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供的一种基于3D卷积神经网络的视频去重方法,包括:
步骤1:获取视频训练集;
其中,视频训练集包括预定的锚点视频、与所述锚点视频相似的正视频和与所述锚点视频不相似的负视频;
步骤2:对所述视频训练数据进行预处理,以降低视频训练数据的冗余帧以及噪声,获得预处理之后的目标视频帧;
步骤3:对所述目标视频帧进行裁剪,将裁剪后的中心图像输入I3D网络中,以使I3D网络提取中心图像的RGB流特征以及Flow流特征,并对所述RGB流特征以及Flow流特征求取平均值,获得平均之后的第一特征;
步骤4:基于所述第一特征,获得描述两个视频第一特征相似距离远近的EMD距离;
步骤5:使用EMD距离构建帧间相似矩阵;
步骤6:对视频训练数据进行裁剪,将裁剪之后的视频训练数据分类输入至I3D网络中,以使所述I3D网络提取视频训练数据的RGB流特征以及Flow流特征,并对所述RGB流特征以及Flow流特征求取平均值,获得平均之后的第二特征;
步骤7:使用主成分分析PCA算法对第二特征进行白化以及降维操作,获得降维之后的第二特征;
步骤8:对所述降维之后的第二特征进行加权,将所述第二特征的权重限制在预设范围内,得到加权之后的第二特征;
步骤9:针对不同的两个视频加权之后的第二特征所组成的集合,将集合以及所述帧间相似矩阵输入至预设的倒角相似度度量网络中,以使倒角相似度度量网络对于一个集合中的第二特征,通过帧间相似矩阵在另一集合中查找与帧间相似矩阵中元素所表示的最小距离对应的项,将该项确定为与所述第二特征最相近的项,计算距离并求取平均值,再使用激活函数对倒角相似度度量网络中的神经元进行限制,以增加所述倒角相似度度量网络的非线性关系,迭代调整倒角相似度度量网络中的权重,并引入损失函数,对倒角相似度度量网络的输出进行限制,使得正视频与锚点视频的距离接近,负视频与锚点视频的距离远离,直至倒角相似度度量网络收敛;
步骤10:将收敛的倒角相似度度量网络作为分类网络;
步骤11:使用所述分类网络对待去重的视频进行相似性检测,并去重。
可选的,所述步骤2包括:
步骤21:对所述视频训练数据进行时域降采样,以消除视频训练数据中的冗余帧,获得降采样之后的视频训练数据;
步骤22:对降采样之后的视频训练数据按照均匀的时间间隔进行目标帧提取,获得目标视频帧;
步骤23:对所述目标视频帧进行灰度化以及高斯平滑处理,获得处理之后的目标视频帧。
可选的,所述步骤4包括:
步骤41:使用主成分分析PCA算法对平均之后的特征进行白化以及降维操作,获得降维之后的第一特征;
步骤:42:计算第一特征之间的EMD距离。
其中,所述EMD距离表示为:
Figure BDA0003122527860000041
其中,P和Q分别表示两个视频的第一特征集合,pi(i=1,2,...,m)表示一个视频的某个第一特征,qj(j=1,2,...,n)是另一个视频的某个第一特征,m和n表示第一特征的总数,i和j表示第一特征的序号,fij表示pi和qj之间的流动量,dij表示pi和qj的距离,[dij]是一个m×n的矩阵,其中fij≥0,1≤i≤m,1≤j≤n。
可选的,所述步骤5包括:
步骤51:将描述所述两个视频的任一第一特征作为一对特征;
步骤52:将该一对特征的EMD距离的维度转换为一维;
步骤53:将视频训练集中所有视频的一维的EMD距离按照视频序号组成帧间相似矩阵。
可选的,所述使用加权公式,对所述降维之后的第二特征进行加权,将所述第二特征的权重限制在预设范围内,得到加权之后的第二特征;
所述加权公式为:αij=uTrij,||u||=1,
其中,r’ij=(αij/2+0.5)rij,αij∈[-1,1],rij表示降维之后的第二特征区域向量,u表示引入的向量,不代表任何含义,向量u和区域向量rij都是单位范数。
可选的,所述倒角相似度表示为:
Figure BDA0003122527860000042
其中,CS(x,y)≠CS(y,x),x,y分别表示集合X以及集合Y中的特征,N表示X和Y的项数,S∈RM×N表示帧间相似矩阵,S(i,j)表示帧间相似矩阵的元素。
可选的,在使用所述分类网络对待分类的视频进行相似度检测,并去重之前,所述视频去重方法还包括:
对所述分类网络进行测试,确定符合分类条件的分类网络。
可选的,对所述分类网络进行测试,确定符合分类条件的分类网络包括:
获取测试数据集;
将所述测试数据集中的视频进行分组,每组测试数据构成一个数据库;
将测试数据集中的锚点视频作为种子视频;
使用所述测试数据集对所述分类网络进行测试,获得描述每个数据库中的输入视频与所述种子视频之间的倒角相似度;
当所述倒角相似度小于预设的阈值时,则判定输入视频与种子视频相似;
当所述倒角相似度大于预设的阈值时,则判定输入视频与种子视频不相似;
将输入视频与种子视频相似或者不相似的判定结果与预设的核查标准进行比较,当判断结果中的相似或者不相似视频数量达到核查标准中的数量时,或者达到预设的正确率时,则确定该分类网络符合分类条件,否则不符合分类条件,对不符合分类条件的分类网络进行再训练,直至符合分类条件。
可选的,所述对不符合分类条件的分类网络进行再训练,直至符合分类条件包括:
通过调整分类网络参数、修改分类网络的内部结构、更换视频训练集等方式对所述分类网络进行再训练以及测试,直至符合分类条件。
本发明提供的一种基于3D卷积神经网络的视频去重方法,具体有以下有益效果:
(1)通过将视频训练集以锚点视频、正视频、负视频的三元组形式来训练倒角相似度度量网络,拉近相似视频与锚点视频的距离,拉远不相似视频与锚点视频的距离,使得倒角相似度度量网络具备良好的区分性,利于分类准确度的提升;
(2)对视频训练集进行时域降采样、灰度化等预处理操作,在消除视频冗余帧的同时,减小计算量;
(3)利用双流I3D网络提取视频特征,更好地对视频空间信息和时间信息进行充分提取;
(4)合理通过PCA操作对视频特征进行降维处理,以保证检测结果精准的同时降低计算复杂度;
(5)通过构建帧间相似矩阵,使得倒角相似度度量网络在学习过程中充分考虑区域到区域的相似性,对区域矢量进行加权运算,能够提取更细粒度的局部特征。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于3D卷积神经网络的视频去重方法的流程图;
图2是本发明实施例提供的倒角相似度度量网络学习训练的过程示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
在介绍本发明的一种基于3D卷积神经网络的视频去重方法之前,首先对本发明可能涉及的技术术语进行介绍。
I3D(Interactive Three Dimensions):交互式3D,deepmind等人在2017年提出的一种视频动作识别模型。
EMD距离(Earth Mover‘s Distance):一种用于计算两个概率分布距离的度量标准,在图像分类等计算机视觉领域具有很好的度量效果。
FFmpeg:一种可以用来进行音视频及图像处理,并将音视频转化成流的开源计算机程序,具有高性能、高安全性、高易用性、支持格式多样性、高扩展性等特点,常见的功能有:分离音视频流、视频转码、视频封装、视频裁剪、视频录制、视频切片、视频的放大与缩小、视频格式转换、视频的合成与分解等。
Adam(Adaptive Moment Estimation):自适应矩估计梯度优化算法是一种可以替代传统随机梯度下降SGD过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。
如图1所示,本发明提供的一种基于3D卷积神经网络的视频去重方法包括:
步骤1:获取视频训练集;
其中,视频训练集包括预定的锚点视频、与锚点视频相似的正视频和与锚点视频不相似的负视频;
步骤2:对视频训练数据进行预处理,以降低视频训练数据的冗余帧以及噪声,获得预处理之后的目标视频帧;
步骤3:对目标视频帧进行裁剪,将裁剪后的中心图像输入I3D网络中,以使I3D网络提取中心图像的RGB流特征以及Flow流特征,并对RGB流特征以及Flow流特征求取平均值,获得平均之后的第一特征;
步骤4:基于第一特征,获得描述两个视频的第一特征相似距离远近的EMD距离;
步骤5:使用EMD距离构建帧间相似矩阵;
步骤6:对视频训练数据进行裁剪,将裁剪之后的视频训练数据分类输入至I3D网络中,以使I3D网络提取视频训练数据的RGB流特征以及Flow流特征,并对RGB流特征以及Flow流特征求取平均值,获得平均之后的第二特征;
其中,Flow流特征是通过TV-L1算法提取的,以构成光流图;
步骤7:使用主成分分析PCA算法对第二特征进行白化以及降维操作,获得降维之后的第二特征;
由于通过分析PCA降维操作保留的维度个数及所有成分方差和之间的关系可知:当降维后的维度个数为20时,所有成分的方差和为90%,当降维后的维度个数为40时,所有成分的方差和接近于100%,本发明为了提高准确度,保留40维度的特征。由于每个视频均按照时间发展顺序均匀选取50帧作为输入,故降维之后的第二特征的维度均为50×40。
步骤8:对降维之后的第二特征进行加权,将第二特征的权重限制在预设范围内,得到加权之后的第二特征;
参考图2,本发明对视频帧进行白化以及加权操作,本步骤可以使用加权公式,对降维之后的第二特征进行加权,将第二特征的权重限制在预设范围内,得到加权之后的第二特征。加权操作是指对所得特征中的不同区域向量rij进行不同程度的加权,区域向量可以描述目标视频帧的局部变化,此过程通过引入向量u来计算每个区域向量rij之间的点积,得到权重评分αij,其中向量u和区域向量rij都是单位范数,因此αij∈[-1,1],可得加权公式为:
αij=uTrij,||u||=1
将权重αij除以2,再加上0.5,以使其在[0,1]的范围内,r’ij=(αij/2+0.5)rij,其中,αij=uTrij,||u||=1,αij∈[-1,1],rij表示降维之后的第二特征不同区域向量,u表示引入的向量,不代表任何含义,向量u和区域向量rij都是单位范数。
步骤9:针对不同的两个视频加权之后的第二特征所组成的集合,将集合以及帧间相似矩阵输入至预设的倒角相似度度量网络中,以使倒角相似度度量网络对于一个集合中的第二特征,通过帧间相似矩阵在另一集合中查找与帧间相似矩阵中元素所表示的最小距离对应的项,将该项确定为与第二特征最相近的项,计算距离并求取平均值,再使用激活函数对倒角相似度度量网络中的神经元进行限制,以增加倒角相似度度量网络的非线性关系,迭代调整倒角相似度度量网络中的权重,并引入损失函数,对倒角相似度度量网络的输出进行限制,使得正视频与锚点视频的距离接近,负视频与锚点视频的距离远离,直至倒角相似度度量网络收敛;
示例性的,将加权之后的两个第二特征集合X和Y以及帧间相似矩阵输入至预设的倒角相似度度量网络中,对于集合X中的每一项都在集合Y中找到最相近的项,计算距离并求取平均值,再使用激活函数对倒角相似度度量网络中的神经元进行限制,以增加倒角相似度度量网络的非线性关系,迭代调整倒角相似度度量网络中的权重,直至网络收敛,并引入三重损失的方法,从而使得正视频与锚点视频的距离接近,负视频与锚点视频的距离远离。可以通过打分的方式,对正视频分配较高的相似度分数,为负视频分配较低的相似度分数,衡量其距离远近。
参考图2,本实施步骤中可以构建键值对形式的三元组字典,三元组即锚点视频、正视频和负视频,以预定的种子视频为视频训练集中的锚点视频,不相似视频作为负视频,相似视频作为正视频,该字典中包括与种子视频相似视频的ID号和与种子视频不相似视频的ID号,并将该字典文件提供给倒角相似度度量网络,以进行训练。
在具体实施时,将分组视频按照标注分为70%的训练集和30%的测试集,并按照构建的三元组字典将训练视频分三类进行输入;在每个训练时期,从视频池中采样固定数量的三元组,本发明取1000,从三元组的每个视频中选择总大小为50帧的随机视频片段,对模型进行100次训练;
其中,倒角相似度度量网络中用到的度量算法是倒角相似度度量算法(ChamferSimilarity),它是指已知具有N个项的集X和具有M个项的集合Y,此处可以理解为步骤8之后待匹配的两个视频的特征集合,以及它们的帧间相似矩阵S∈RN×M,对于集合X中的每一项都在集合Y中找到最相近的项最后取平均,即倒角相似度,简称为CS,用公式可表示为:
Figure BDA0003122527860000101
此处的倒角相似度不是对称的,即CS(x,y)≠CS(y,x);
本发明在具体实施方式中将tanh激活函数应用于倒角相似度度量网络中,可以得到倒角相似度:
Figure BDA0003122527860000102
其中,
Figure BDA0003122527860000103
是CNN网络的输出,Htanh表示元素级硬tanh激活函数,来对倒角相似度度量网络中各层的输出进行限制,提高倒角相似度度量网络非线性特征。
在训练过程中,需要构造损失函数,使得目标视频的相似性度量得分CSv(b,d)高于与之相关的视频,低于不相关的视频,用(v,v+,v_)来分别表示锚点视频、正视频和负视频,为强制倒角相似度度量网络对正视频分配较高的相似度分数,为负视频分配较低的相似度分数,使用三重损失的方法:
Ltr=max{0,CSv(v,v-)-CSv(v,v+)+γ}
其中γ为调节参数。
除此之外,定义一个相似性正则化函数,该函数可对Htanh作用后的高值进行惩罚,使得倒角相似度度量网络生成的输出矩阵Sv的值在[-1,1]范围内,为计算正则化损失,将输出相似度矩阵中落在限制区域外的所有值相加:
Figure BDA0003122527860000111
倒角相似度度量网络总的损失函数可表示为:
L=Ltr+r×Lreg
其中,r是正则化超参数,可调整相似度正则化对总消耗的占比。
同时在训练过程中,采用自适应矩估计梯度优化算法Adam,以使倒角相似度度量网络能够更稳定地收敛,减小震荡;
Adam是一种自适应学习率算法,根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计进行动态调整得到每个参数的学习速率,其优点是每次迭代参数的学习步长都稳定在一个确定范围内,可加速模型收敛,减小震荡,它不仅计算并保存一个指数衰减的历史平方梯度的平均值vt,还保存一个历史梯度的指数衰减均值mt,具体如下:
mt=α1mt-1+(1-α1t
Figure BDA0003122527860000121
其中mt和vt分别表示梯度的一阶矩和二阶矩估计,当mt和vt初始化为零向量或当衰减很好的时候(如α1和α2趋于1),mt和vt都偏向于0,可通过计算偏差校正的一阶矩和二阶矩估计来抵消偏差:
Figure BDA0003122527860000122
Figure BDA0003122527860000123
据此可得模型参数θ的更新规则如下:
Figure BDA0003122527860000124
一般情况下α1取值为0.9,α2取值为0.999,ε取值为10-8
通过设置倒角相似度度量网络的学习率I=10-5,并不断调整学习率等参数,直到倒角相似度度量网络收敛,即损失函数值在训练数据上不再发生变化。
步骤10:将收敛的倒角相似度度量网络作为分类网络;
步骤11:使用分类网络对待去重的视频进行相似性检测,并去重。
本发明提供的一种基于3D卷积神经网络的视频去重方法,通过将视频训练集以锚点视频、正视频、负视频的三元组形式来训练倒角相似度度量网络,使得倒角相似度度量网络具备良好的区分性,利于分类准确度的提升;对视频训练集进行时域降采样、灰度化等预处理操作,在消除视频冗余帧的同时,减小计算量;利用双流I3D网络提取视频特征,更好地对视频空间信息和时间信息进行充分提取;通过PCA操作对视频特征进行降维处理,以保证检测结果精准的同时降低计算复杂度;通过构建帧间相似矩阵,使得倒角相似度度量网络在学习过程中充分考虑区域到区域的相似性,对区域矢量进行加权运算,能够提取更细粒度的局部特征。
在一种具体的实施方式中,步骤2包括:
步骤21:对视频训练数据进行时域降采样,以消除视频训练数据中的冗余帧,获得降采样之后的视频训练数据;
步骤22:对降采样之后的视频训练数据按照均匀的时间间隔进行目标帧提取,获得目标视频帧;
步骤23:对目标视频帧进行灰度化以及高斯平滑处理,获得处理之后的目标视频帧。
参考图2,本发明可以利用FFmpeg工具对所有视频文件进行时域降采样,以消除视频中的冗余帧;对降采样之后的视频帧按照均匀的时间间隔进行目标帧提取,获得目标视频帧,每个目标视频帧共50帧;对目标视频帧进行灰度化和高斯平滑处理,以减小噪声,降低计算复杂度,获得处理之后的目标视频帧,再选择中心176×114的图像进行裁剪,为后续提取特征提供铺垫。
在一种具体的实施方式中,步骤4包括:
步骤41:使用主成分分析PCA算法对平均之后的特征进行白化以及降维操作,获得降维之后的第一特征;
步骤:42:计算第一特征之间的EMD距离。
本发明计算降维之后的特征之间的EMD距离,使用EMD距离构建帧间相似矩阵,该相似矩阵中包括各个分组中每个视频与锚点视频的距离,其中EMD距离定义如下:
若用P和Q来分别表示两个视频的第一特征集合,则可设:
Figure BDA0003122527860000141
其中pi(i=1,2,...,m)和qj(j=1,2,...,n)分别表示两个视频的特征,
Figure BDA0003122527860000142
为特征pi的权重,
Figure BDA0003122527860000143
为特征qj的权重,则可定义一个特征P集合和特征Q集合之间的距离矩阵[dij],dij表示pi和qj的距离,可知[dij]是一个m×n的矩阵。
设pi和qj之间的流动量为fij,则存在矩阵F=[fij]以保证全局代价函数最小,其应该满足的约束条件为:
Figure BDA0003122527860000144
代价函数为:
Figure BDA0003122527860000145
则EMD距离如下:
Figure BDA0003122527860000146
由EMD公式可知:当特征值pi和qj发生小幅度变化时,并不会引起EMD距离的巨大改变,因而对概率分布之间的较小偏差不敏感,具备更强的鲁棒性和连续性,EMD距离特征分布的紧凑性与灵活性可避免相似性度量的量化问题,因此可实现信息与信息之间多对多的优良匹配。
在一种具体的实施方式中,步骤5包括:
步骤51:将描述两个视频的任一第一特征作为一对特征;
步骤52:将该一对特征的EMD距离的维度转换为一维;
步骤53:将视频训练集中所有视频的一维的EMD距离按照视频序号组成帧间相似矩阵。
本步骤可以使用flatten函数将得到的每对视频特征距离数组的维度转化为一维,即由50×40转化为1×2000,若以CC_WEB_VIDEO数据集为例,由于其共有24个分组,利用nums个视频文件进行模型训练时,则可得视频帧间相似矩阵维度为(nums-24)×2000。
在一种具体的实施方式中,在使用分类网络对待分类的视频进行相似度度量,并去重之前,视频去重方法还包括:
对分类网络进行测试,确定符合分类条件的分类网络。
在一种具体的实施方式中,对分类网络进行测试,确定符合分类条件的分类网络包括:
步骤a:获取测试数据集;
其中,测试数据集包括多个测试视频,每个测试视频携带编号。本步骤可以获取数据集CC_WEB_VIDEO,将数据集并按照标注划分视频训练集和测试数据集。
步骤b:将测试数据集中的视频进行分组,每组测试数据构成一个数据库;
步骤c:将测试数据集中的锚点视频作为种子视频;
步骤d:使用测试数据集对分类网络进行测试,获得描述每个数据库中的输入视频与种子视频之间距离的倒角相似度;
步骤e:当倒角相似度小于预设的阈值时,则判定输入视频与种子视频相似;
步骤f:当倒角相似度大于预设的阈值时,则判定输入视频与种子视频不相似;
步骤g:将输入视频与种子视频相似或者不相似的判定结果与预设的核查标准进行比较,当判断结果中的相似或者不相似的视频数量达到核查标准中的数量时,或者达到预设的正确率时,则确定该分类网络符合分类条件,否则不符合分类条件,对不符合分类条件的分类网络进行再训练,直至符合分类条件。
其中,预设的核查标准包括与种子视频相似视频的编号以及与种子视频不相似的视频的编号。
示例性的,可以对测试数据集的24个分组分别进行测试,每个分组的测试数据构成一个小型数据库,以24个种子视频分别作为查询视频,调用模型,对测试集中每个视频文件与种子视频之间的距离进行评估,设定阈值,若所得结果小于给定阈值,则与种子视频(锚点视频)相似,反之不相似。当大量视频数据参与测试时,若验证结果与核查文件所列结果不相符的数量过多,则证明模型准确度不高,继续通过调整网络参数、修改模型、更换数据集等方式进行训练并测试。
在一种具体的实施方式中,对不符合分类条件的分类网络进行再训练,直至符合分类条件包括:
通过调整分类网络参数、修改分类网络的内部结构、更换视频训练集等方式对分类网络进行再训练以及测试,直至符合分类条件。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于3D卷积神经网络的视频去重方法,其特征在于,包括:
步骤1:获取视频训练集;
其中,视频训练集包括预定的锚点视频、与所述锚点视频相似的正视频和与所述锚点视频不相似的负视频;
步骤2:对视频训练数据进行预处理,以降低视频训练数据的冗余帧以及噪声,获得预处理之后的目标视频帧;
步骤3:对所述目标视频帧进行裁剪,将裁剪后的中心图像输入I3D网络中,以使I3D网络提取中心图像的RGB流特征以及Flow流特征,并对所述RGB流特征以及Flow流特征求取平均值,获得平均之后的第一特征;
步骤4:基于所述第一特征,获得描述两个视频第一特征相似距离远近的EMD距离;
步骤5:使用EMD距离构建帧间相似矩阵;
步骤6:对视频训练数据进行裁剪,将裁剪之后的视频训练数据分类输入至I3D网络中,以使所述I3D网络提取视频训练数据的RGB流特征以及Flow流特征,并对所述RGB流特征以及Flow流特征求取平均值,获得平均之后的第二特征;
步骤7:使用主成分分析PCA算法对第二特征进行白化以及降维操作,获得降维之后的第二特征;
步骤8:对所述降维之后的第二特征进行加权,将所述第二特征的权重限制在预设范围内,得到加权之后的第二特征;
步骤9:针对不同的两个视频加权之后的第二特征所组成的集合,将集合以及所述帧间相似矩阵输入至预设的倒角相似度度量网络中,以使倒角相似度度量网络对于一个集合中的第二特征,通过帧间相似矩阵在另一集合中查找与帧间相似矩阵中元素所表示的最小距离对应的项,将该项确定为与所述第二特征最相近的项,计算距离并求取平均值,再使用激活函数对倒角相似度度量网络中的神经元进行限制,以增加所述倒角相似度度量网络的非线性关系,迭代调整倒角相似度度量网络中的权重,并引入损失函数,对倒角相似度度量网络的输出进行限制,使得正视频与锚点视频的距离接近,负视频与锚点视频的距离远离,直至倒角相似度度量网络收敛;
步骤10:将收敛的倒角相似度度量网络作为分类网络;
步骤11:使用所述分类网络对待去重的视频进行相似性检测,并去重;
所述步骤5包括:
步骤51:将描述所述两个视频的任一第一特征作为一对特征;
步骤52:将该一对特征的EMD距离的维度转换为一维;
步骤53:将视频训练集中所有视频的一维的EMD距离按照视频序号组成帧间相似矩阵;
使用加权公式,对所述降维之后的第二特征进行加权,将所述第二特征的权重限制在预设范围内,得到加权之后的第二特征;
加权公式为:
Figure FDA0003945045670000021
其中,
Figure FDA0003945045670000022
Figure FDA0003945045670000023
表示降维之后的第二特征区域向量,u表示引入的向量,不代表任何含义,向量u和区域向量
Figure FDA0003945045670000024
都是单位范数;
所述倒角相似度表示为:
Figure FDA0003945045670000025
其中,CS(x,y)≠CS(y,x),x,y分别表示集合X以及集合Y中的特征,N表示X和Y的项数,S∈RM×N表示帧间相似矩阵,S(i2,j2)表示帧间相似矩阵的元素。
2.根据权利要求1所述的视频去重方法,其特征在于,所述步骤2包括:
步骤21:对所述视频训练数据进行时域降采样,以消除视频训练数据中的冗余帧,获得降采样之后的视频训练数据;
步骤22:对降采样之后的视频训练数据按照均匀的时间间隔进行目标帧提取,获得目标视频帧;
步骤23:对所述目标视频帧进行灰度化以及高斯平滑处理,获得处理之后的目标视频帧。
3.根据权利要求1所述的视频去重方法,其特征在于,所述步骤4包括:
步骤41:使用主成分分析PCA算法对平均之后的特征进行白化以及降维操作,获得降维之后的第一特征;
步骤42:计算第一特征之间的EMD距离。
4.根据权利要求3所述的视频去重方法,其特征在于,所述EMD距离表示为:
Figure FDA0003945045670000031
其中,P和Q分别表示两个视频的第一特征集合,
Figure FDA0003945045670000032
i3=1,2,...,m表示一个视频的某个第一特征,
Figure FDA0003945045670000033
j3=1,2,...,n是另一个视频的某个第一特征,m和n表示第一特征的总数,i3和j3表示第一特征的序号,
Figure FDA0003945045670000034
表示
Figure FDA0003945045670000035
Figure FDA0003945045670000036
之间的流动量,
Figure FDA0003945045670000037
表示
Figure FDA0003945045670000038
Figure FDA0003945045670000039
的距离,
Figure FDA00039450456700000310
是一个m×n的矩阵,
Figure FDA00039450456700000311
5.根据权利要求1所述的视频去重方法,其特征在于,在使用所述分类网络对待分类的视频进行相似度检测,并去重之前,所述视频去重方法还包括:
对所述分类网络进行测试,确定符合分类条件的分类网络。
6.根据权利要求5所述的视频去重方法,其特征在于,对所述分类网络进行测试,确定符合分类条件的分类网络包括:
获取测试数据集;
将所述测试数据集中的视频进行分组,每组测试数据构成一个数据库;
将测试数据集中的锚点视频作为种子视频;
使用所述测试数据集对所述分类网络进行测试,获得描述每个数据库中的输入视频与所述种子视频之间的倒角相似度;
当所述倒角相似度小于预设的阈值时,则判定输入视频与种子视频相似;
当所述倒角相似度大于预设的阈值时,则判定输入视频与种子视频不相似;
将输入视频与种子视频相似或者不相似的判定结果与预设的核查标准进行比较,当判断结果中的相似或者不相似视频数量达到核查标准中的数量时,或者达到预设的正确率时,则确定该分类网络符合分类条件,否则不符合分类条件,对不符合分类条件的分类网络进行再训练,直至符合分类条件。
7.根据权利要求5所述的视频去重方法,其特征在于,所述对不符合分类条件的分类网络进行再训练,直至符合分类条件包括:
通过调整分类网络参数、修改分类网络的内部结构、更换视频训练集方式对所述分类网络进行再训练以及测试,直至符合分类条件。
CN202110681087.3A 2021-06-18 2021-06-18 一种基于3d卷积神经网络的视频去重方法 Active CN113536939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110681087.3A CN113536939B (zh) 2021-06-18 2021-06-18 一种基于3d卷积神经网络的视频去重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110681087.3A CN113536939B (zh) 2021-06-18 2021-06-18 一种基于3d卷积神经网络的视频去重方法

Publications (2)

Publication Number Publication Date
CN113536939A CN113536939A (zh) 2021-10-22
CN113536939B true CN113536939B (zh) 2023-02-10

Family

ID=78125171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110681087.3A Active CN113536939B (zh) 2021-06-18 2021-06-18 一种基于3d卷积神经网络的视频去重方法

Country Status (1)

Country Link
CN (1) CN113536939B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241223B (zh) * 2021-12-17 2023-03-24 北京达佳互联信息技术有限公司 视频相似度确定方法、装置、电子设备及存储介质
CN116778395B (zh) * 2023-08-21 2023-10-24 成都理工大学 基于深度学习的山洪漫流视频识别监测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN111324774A (zh) * 2020-02-26 2020-06-23 腾讯科技(深圳)有限公司 一种视频去重方法和装置
US10706286B1 (en) * 2019-09-05 2020-07-07 Alphonso Inc. 3D convolutional neural networks for television advertisement detection
CN111971713A (zh) * 2018-06-14 2020-11-20 英特尔公司 使用图像和时间跟踪神经网络进行的3d面部捕获和修改
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111971713A (zh) * 2018-06-14 2020-11-20 英特尔公司 使用图像和时间跟踪神经网络进行的3d面部捕获和修改
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
US10706286B1 (en) * 2019-09-05 2020-07-07 Alphonso Inc. 3D convolutional neural networks for television advertisement detection
CN111324774A (zh) * 2020-02-26 2020-06-23 腾讯科技(深圳)有限公司 一种视频去重方法和装置
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sequence-to-Segments Networks for Detecting Segments in Videos;Zijun Wei 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20210301;第43卷(第3期);全文 *
从视频到语言:视频标题生成与描述研究综述;汤鹏杰 等;《https://kns.cnki.net/kcms/detail/11.2109.tp.20210108.1810.002.html》;20210111;全文 *

Also Published As

Publication number Publication date
CN113536939A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
Zellinger et al. Robust unsupervised domain adaptation for neural networks via moment alignment
CN106599883B (zh) 一种基于cnn的多层次图像语义的人脸识别方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
US20190340533A1 (en) Systems and methods for preparing data for use by machine learning algorithms
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN113536939B (zh) 一种基于3d卷积神经网络的视频去重方法
CN109815814B (zh) 一种基于卷积神经网络的人脸检测方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN113095333B (zh) 无监督特征点检测方法及装置
US11645328B2 (en) 3D-aware image search
CN112507778B (zh) 一种基于线特征的改进词袋模型的回环检测方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN108256463B (zh) 基于esn神经网络的移动机器人场景识别方法
CN113743474A (zh) 基于协同半监督卷积神经网络的数字图片分类方法与系统
Wang et al. Video background/foreground separation model based on non-convex rank approximation RPCA and superpixel motion detection
CN113221758B (zh) 一种基于gru-nin模型的水声目标识别方法
CN115564983A (zh) 目标检测方法、装置、电子设备、存储介质及其应用
WO2019234156A1 (en) Training spectral inference neural networks using bilevel optimization
CN116910573B (zh) 异常诊断模型的训练方法及装置、电子设备和存储介质
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN113627240A (zh) 一种基于改进ssd学习模型的无人机树木种类识别方法
CN110110673B (zh) 一种基于双向2dpca和级联前向神经网络的人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant