CN114973098A

CN114973098A - 一种基于深度学习的短视频去重方法

Info

Publication number: CN114973098A
Application number: CN202210663392.4A
Authority: CN
Inventors: 刘怀亮; 傅子强; 赵舰波; 杨斌
Original assignee: Lezhi Future Technology Shenzhen Co ltd
Current assignee: Lezhi Future Technology Shenzhen Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-08-30

Abstract

本发明公开了一种基于深度学习的短视频去重方法，包括：对待比较的目标视频和询问视频进行预处理，分别获得所述目标视频和所述询问视频的张量表示；利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量；构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练；将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值；利用所述相似度值判断是否删除所述目标视频和所述询问视频。本发明针对短视频去重、存储和管理的情形运用视频理解的算法计算视频重复度，解决了针对视频内容重复的短视频检测问题，收敛快，效率高。

Description

一种基于深度学习的短视频去重方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于深度学习的短视频去重方法，可在短视频平台级视频数量条件下构建视频特征库，从而快速、高效地检测重复视频。

背景技术

随着用户使用习惯的改变和网络环境的改善，短视频越来越受到大家的喜爱。对于观众来说，良好的观看体验与视频内容有着很大的关系。当前，全网范围内的主要精品视频主要来自MCN机构，一些公司为了更快更好地去覆盖全网内容，会选择和内容代理合作，而代理手上会有很多重复版权的内容，导致重复内容出现。另外，搬运视频也会导致重复内容出现，这些重复内容会造成极差的用户体验。再者，大量内容相似的视频对于短视频平台存储也是一个极大的挑战，为了不必要的资源浪费，对视频内容进行去重是非常有必要的。

目前对视频相似度对比主要有如下两种：(1)通过某一算法生成视频的关键帧，然后利用一些图像特征提取的算法计算图片的特征，把这些特征进行融合生成视频的特征，最后通过视频特征之间的匹配生成视频相似度。特征提取方式又分为基于传统手工特征提取方式和基于深度学习的方式，刘守群等人通过SIFT算法和LSH(局部敏感哈希，locality-sensetive hashing)的方式生成视频帧之间的匹配从而快速检测视频间的重复片段。特征的匹配又分为机器学习和深度学习的方式，宋晓康等人通过从重复视频特征数据库中选取特征组合成三元组，训练孪生神经网络，进一步减小重复视频之间的距离，同时对特征降维。(2)舍弃关键帧算法，利用视频理解模型(如I3D，Inflated 3D ConvNets，膨胀卷积网络)作为backbone(主干网络)直接提取特征，张跃宇等人利用I3D提取的第一特征获取描述距离的EMD(Earth Mover's Distance，推土距离)距离，利用EMD距离构建帧间相似矩阵并通过孪生神经网络训练得到视频之间的相似度。

然而对于镜头晃动，视频目标持续运动的视频提取的关键帧比较模糊，通过关键帧将视频降维成图像的方法不适用于手工提取特征。另外，对于视频画面中嵌入文字的视频，如果对关键帧进行角点检测(如SIFT)，得到的特征点很可能会聚集在文字的边缘，无法反应视频原画面的特征。这时只能用深度学习的预训练模型对关键帧抽取中高层语义信息作为图片的特征，但是这种做法非常耗时，不适用于大规模视频数量场景。而且视频的多张关键帧包含了比较多的冗余信息，提取的特征也会包含大量冗余，这样会造成卷积神经网络的识别效果变差。对于使用光流的方法计算复杂度高，不适用于大规模短视频去重场景，此外，基于视频帧的去重方式没有考虑时间维度的特征，导致无法判别画面不同但内容相似的重复视频。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于深度学习的短视频去重方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于深度学习的短视频去重方法，包括：

对待比较的目标视频和询问视频进行预处理，分别获得所述目标视频和所述询问视频的张量表示；

利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量；

构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练，所述神经网络模型包括权重层、融合模块以及2D卷积神经网络模块，其中，所述权重层用于对所述目标视频和所述询问视频的时空特征向量分别进行加权，分别获得所述目标视频和所述询问视频的加权后时空特征向量，所述融合模块用于对所述目标视频和所述询问视频的加权后时空特征向量进行特征融合，获得融合后时空特征向量；所述2D卷积神经网络模块用于根据所述融合后时空特征向量获得所述目标视频和所述询问视频的相似度值；

将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值；

利用所述相似度值判断是否删除所述目标视频和所述询问视频。

在本发明的一个实施例中，对待比较的目标视频和询问视频并进行预处理，分别获得所述目标视频和所述询问视频的张量表示，包括：

对所述目标视频在时间维度上均匀提取多帧图像，去除所述多帧图像中相邻且结构相似的冗余图像，获得去除冗余图像后的多帧图像；

删除所述多帧图像中模糊度超过设定模糊度阈值的图像，获得去除模糊帧后的多帧剩余图像；

根据所述多帧剩余图像获得目标视频的张量表示；

依据所述目标视频的预处理过程对所述询问视频进行预处理，获得所述询问视频的张量表示。

在本发明的一个实施例中，去除所述多帧图像中相邻且结构相似的冗余图像，包括：

分别获得相邻帧图像的亮度相似度、对比度相似度以及结构相似度：

其中，l(x,y)、c(x,y)和s(x,y)分别表示相邻两张灰度图在当前窗口下的亮度、对比度和结构之间的相似度，x和y为相邻帧图像灰度化后当前N×N窗口下各自的像素点集合，μ_x为当前窗口中所有像素点x轴坐标的均值，μ_y为当前窗口中所有像素点y轴坐标的均值，

为当前窗口中所有像素点x轴坐标的方差，

为当前窗口中所有像素点y轴坐标的方差，σ_xy为当前窗口中所有像素点x轴坐标和y轴坐标的协方差，c₁、c₂和c₃为常数；

获得相邻帧图像之间的总相似度值：

SSIM(x,y)＝[l(x,y)^α·c(x,y)^β·s(x,y)^γ]，

其中，α、β、γ为设定的常数；

将相邻帧图像之间的总相似度值与设定的相似度阈值进行比较，若所述总相似度值大于设定的相似度阈值，则随机删除所述相邻帧图像中的一帧图像，对所述目标视频多帧图像的相邻帧图像两两进行比较，直到剩下所有相邻帧图像之间的总相似度值均小于所述相似度阈值。

在本发明的一个实施例中，利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量，包括：

将所述目标视频或询问视频中的预处理后的多帧图像分别输入预训练的VisionTransformer网络中得到每张图像的空间特征向量，随后将所述空间特征向量融合位置编码输入预训练Video transformer网络的时序特征编码器中，得到所述目标视频或所述询问视频的时空特征向量。

在本发明的一个实施例中，所述2D卷积神经网络包括依次连接的复制填充层、第一二维卷积层、复制填充层、第二二维卷积层、复制填充层、第三二维卷积层以及第四二维卷积层，其中，

每个复制填充层均用于对输入矩阵的四周填充一圈数值；

所述第一二维卷积层、所述第二二维卷积层和所述第三二维卷积层的激活函数为relu，均采用最大池化，所述第四二维卷积层利用softmax层输出一个相似度矩阵。

在本发明的一个实施例中，对所述神经网络模型进行训练，包括：

构建训练数据集，其中，所述训练数据集包括多个视频三元组，每个视频三元组包括锚点视频、与锚点视频内容相似的正视频以及与锚点视频内容不相似的负视频；

对所述视频三元组中的每个视频进行预处理，获得预处理后每个视频的张量表示；

利用预训练的神经网络分别获得所述锚点视频、所述正视频和所述负视频的时空特征向量；

对所述锚点视频、所述正视频和所述负视频的时空特征向量分别进行加权，获得所述锚点视频、所述正视频和所述负视频的加权后时空特征向量；

对所述锚定视频和所述正视频的加权后时空特征向量进行融合，获得第一联合矩阵，对所述锚定视频和所述负视频的加权后时空特征向量进行融合，获得第二联合矩阵；

将所述第一联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述正视频的相似度值，将所述第二联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述负视频的相似度值，并利用损失函数L＝Sim_a,n-Sim_a,p更新所述权重层和所述2D卷积神经网络模块的参数，Sim_a,n表示锚点视频与负视频的相似度值，Sim_a,p表示锚点视频与正视频的相似度值；

利用所述训练数据集中的视频三元组对所述权重层和所述2D卷积神经网络模块进行迭代训练和更新，获得训练后的神经网络模型。

在本发明的一个实施例中，将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值，包括：

利用所述权重层对所述目标视频和所述询问视频的时空特征向量分别进行加权，获得所述目标视频的加权后时空特征向量和所述询问视频的加权后时空特征向量并进行特征融合；

将融合后放入特征输入经训练的所述2D卷积神经网络中，输出所述目标视频和所述询问视频的相似度矩阵；

对所述相似度矩阵进行倒角相似度计算，获得所述目标视频和所述询问视频的相似度值。

在本发明的一个实施例中，利用获得的所述相似度值判断是否删除所述目标视频和所述询问视频，包括：

将经训练的2D卷积神经网络获得目标视频和询问视频的相似度值后，与设定的相似度阈值进行比较，当所述相似度值超过所述相似度阈值，删除所述目标视频和所述询问视频中时长更短或分辨率更低的视频。

本发明的另一方面提供了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序用于执行上述实施例中任一项所述基于深度学习的短视频去重方法的步骤。

本发明的又一方面提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上述实施例中任一项所述基于深度学习的短视频去重方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明基于深度学习的短视频去重方法，针对短视频去重、存储和管理的情形运用视频理解的算法计算视频重复度，解决了针对视频内容重复的短视频检测问题。该方法框架新颖，算法收敛快，效率高，不需要额外计算光流。特别针对内容相似的语义去重，能够比较快的计算基于主题的视频特征库，提升短视频去重的效率。

2、本发明的短视频去重方法在时空特征提取过程中使用预训练模型，不需要从头开始训练，并且可以使用公开的相似视频检索数据集，不需要额外人工达标构建训练数据集。

3、本发明的短视频去重方法鲁棒性、泛化强，针对短视频行业的不同类型的视频都能起到很好的去重效果。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于深度学习的短视频去重方法流程图；

图2是本发明实施例提供的一种Vision Transformer网络中的编码器的工作过程示意图；

图3是本发明实施例提供的一种时空特征向量提取过程示意图；

图4是本发明实施例提供的一种权重层的结构示意图；

图5是本发明实施例提供的一种2D卷积神经网络的结构示意图；

图6是本发明实施例提供的一种模型训练过程示意图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于深度学习的短视频去重方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

请参见图1，图1是本发明实施例提供的一种基于深度学习的短视频去重方法的流程图。该方法包括如下步骤：

S1：对待比较的目标视频和询问视频进行预处理，分别获得所述目标视频和所述询问视频的张量表示。

本实施例的步骤S1具体包括如下步骤：

S1.1：对所述目标视频在时间维度上根据视频时长均匀提取多帧图像，并且根据结构相似度指标(Structure Similarity Index Measure，SSIM)去除所述多帧图像中相邻且结构相似的冗余图像，获得去除冗余图像后的多帧图像。可以设定一个相似度阈值s，对抽取的时间维度上每一对相邻帧的图像通过SSIM计算一个相似度值，如果该SSIM值大于相似度阈值s，则随机删除这两帧图像中的一帧，直到剩下所有相邻帧图像之间的SSIM值均小于相似度阈值s即可。

具体地，首先对需要进行相似度计算的相邻帧图片进行灰度化，转化为灰度图。在每次计算时，从图片中选取一个N×N的窗口，然后不断滑动窗口进行计算相似度，最后取平均值作为整张图片的SSIM值。

SSIM指标计算如下：

其中，l(x,y)、c(x,y)和s(x,y)分别表示两张灰度图在当前窗口下的亮度(luminance)、对比度(constract)和结构(structure)之间的相似度，x和y为两张待比较的图像灰度化后当前N×N窗口下各自的像素点集合，μ_x为当前窗口中所有像素点x轴坐标的均值，μ_y为当前窗口中所有像素点y轴坐标的均值，

为当前窗口中所有像素点x轴坐标的方差，

为当前窗口中所有像素点y轴坐标的方差，σ_xy为当前窗口中所有像素点x轴坐标和y轴坐标的协方差，c₁＝(k₁L)²,c₂＝(k₂L)²为两个常数，c₃＝c₂/2避免除零，L为像素值范围，一般为255，k₁＝0.01,k₂＝0.03为默认值。以上三个公式分别计算了两张灰度图在当前窗口下的的亮度、对比度和结构之间的相似度。

随后，获得相邻帧的图片的总SSIM：

SSIM(x,y)＝[l(x,y)^α·c(x,y)^β·s(x,y)^γ]，

其中，α,β,γ将设为1，且c₃＝c₂/2，可以得到：

如果计算获得的该SSIM值大于设定的阈值s，则随机删除这两帧图像中的一帧，对每个视频截取的相邻帧图像两两进行比较，直到剩下所有相邻帧之间的SSIM值小于阈值s。

S1.2：删除去除冗余图像后的多帧图像中模糊度超过设定模糊度阈值的图像，获得去除模糊帧后的多帧剩余图像。

由于对模糊图像提取的图片特征具有不准确性，会影响后续对视频片段的时空特征提取，因此本实施例还需要检测并去掉模糊的图像。具体地，将步骤S1.1获取的目标视频的所有剩余帧图片先复制一份，然后对这一份图片灰度化后分别利用拉普拉斯算子进行步长为1的卷积，得到一个新矩阵后对该新矩阵求方差作为模糊度，并将该模糊度值与预先设定的模糊度阈值进行比较，如果该模糊度值超过了所述模糊度阈值，就在原始图像集合中删除这帧图像。

S1.3：根据去除模糊帧后的多帧剩余图像，获得目标视频的张量表示。

具体地，将这些剩余帧图像的短边等比放缩到256，然后在原来图像的中心位置剪裁出一个224×224大小的图片，然后收集这些图片获得所述目标视频的张量表示，表示形式如下：P₁∈R^{K×224×224×3}，其中，P₁表示目标视频的张量表示，K表示剩余图片数目，3表示图片通道数。

S1.4：依据所述目标视频的预处理过程对所述询问视频进行预处理，获得所述询问视频的张量表示。

类似地，依据步骤S1.1-S1.3，对所述询问视频在时间维度上根据视频时长均匀提取多帧图像，并且根据结构相似度指标去除所述多帧图像中相邻且结构相似的冗余图像，获得去除冗余图像后的多帧图像；删除去除冗余图像后的多帧图像中模糊度超过设定模糊度阈值的图像，获得去除模糊帧后的多帧图像；根据去除模糊帧后的多帧剩余图像，获得询问视频的张量表示。

S2：利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量。

将每个视频(目标视频或询问视频)中的每帧图像分别输入到预训练的VisionTransformer网络中得到每张图片的空间特征向量，再将这些空间特征向量融合位置编码输入到预训练的Video transformer网络的时序特征编码器中得到每个视频(目标视频或询问视频)的时空特征向量。

具体地，本实施例的步骤S2包括如下步骤：

S2.1：请参见图2，图2是本发明实施例提供的一种Vision Transformer网络中的编码器的工作过程示意图。将所述目标视频中的一帧图像输入预训练的VisionTransformer网络中，经过6个如图2所示的编码器后获得当前图像的空间特征，进而可以获得所述目标视频中每一帧图像的空间特征向量。类似地，将询问视频中的每一帧图像输入预训练的Vision Transformer网络中，也可以获得询问视频中每一帧图像的空间特征向量。

S2.2：将所述目标视频中所有图像的空间特征向量分批输入预训练的VideoTransformer网络的时间特征提取器中，获得所述目标视频每一批图像之间的时空特征，把目标视频的所有时空特征通过concat函数组合起来，成为整个目标视频的时空特征并对所述时空特征进行l2-norm归一化。

请参见图3，图3是本发明实施例提供的一种时空特征向量提取过程示意图。其中，Spatial attention-based Encoder表示基于自注意的时间编码器，Temporal attention-based Encoder表示基于自注意的空间编码器。在本实施例中，首先把视频例如所述目标视频中的一帧图像分成很多大小为16×16的patch(块)，由于步骤S1预处理之后的图片变成了224×224×3，3代表RGB图片的3个通道，因此这里一共可以得到196(224×224/(16×16))个patch，把每个patch展开得到一些长度为16×16×3＝768的向量。PE是位置编码，表示划分的每块patch在图片中的相对位置，比如说第三行的第四块(3，4)，映射得到的一个长度为768的向量。CLS为分类头，是一个随机生成的长度为768的向量。M，N分别对应基于自注意的时间编码器和基于自注意的空间编码器的个数，在本实施例中，M，N均取6。

S3：构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练，所述神经网络模型包括权重层、融合模块以及2D卷积神经网络模块，其中，所述权重层用于对所述目标视频和所述询问视频的时空特征向量分别进行加权，分别获得所述目标视频和所述询问视频的加权后时空特征向量，所述融合模块用于对所述目标视频和所述询问视频的加权后时空特征向量进行特征融合，获得融合后时空特征向量；所述2D卷积神经网络模块用于根据所述融合后时空特征向量获得所述目标视频和所述询问视频的相似度值。

进一步地，如图5所示，所述2D卷积神经网络包括依次连接的复制填充层、第一二维卷积层、复制填充层、第二二维卷积层、复制填充层、第三二维卷积层以及第四二维卷积层，其中，每个复制填充层均用于对输入矩阵的四周填充一圈数值；所述第一二维卷积层、所述第二二维卷积层和所述第三二维卷积层的激活函数为relu，均采用最大池化，所述第四二维卷积层利用softmax层输出一个相似度矩阵。

具体地，首先权重层对所述目标视频或所述询问视频不同时空特征向量进行加权，该权重层利用全连接神经网络将不同视频片段的特征映射到对应个数的输出上，然后经过softmax，得到的权重和对应的视频片段特征相乘。请参见图4，图4是本发明实施例提供的一种权重层的结构示意图。

对时空特征进行加权的具体步骤为：首先对目标视频或询问视频的时空特征图(大小为N×d的矩阵，其中，N表示时空特征图的个数，d表示时空特征图的维度)求取每个时空特征图的平均值得到一个长度为N的向量，然后将其输入到两层的神经网络中，第一层使用relu激活函数，第二层使用sigmoid激活函数，最后得到长度为N的向量作为权重，随后分别与原时空特征图对应相乘，得到加权后的空间特征图。

进一步地，如图6所示，对所述神经网络模型进行训练，包括：

构建训练数据集，其中，所述训练数据集包括多个视频三元组，每个视频三元组包括锚点视频、与锚点视频内容相似的正视频以及与锚点视频内容不相似的负视频。具体地，本实施例在大量视频中随机选择锚点视频，对锚点视频进行一定的剪辑即可作为正视频，剪辑的手段可以包括颜色变换(对比度、灰度等)、几何形状变换(水平、垂直翻转、旋转和缩放等)、时间变换(快进、慢放、暂停等)。需要保证锚点视频与正视频之间至少4秒的画面内容相似。负视频是从大量视频中选取的，需要与锚点视频在内容上毫不相关即可。

对所述视频三元组中的每个视频进行预处理，获得预处理后每个视频的张量表示。具体地，对每个视频在时间维度上根据视频时长均匀提取多帧图像，并且根据图片结构相似度指标(Structure Similarity Index Measure，SSIM)去除所述多帧图像中相邻且结构相似的冗余帧，删除每个视频截取的图像中模糊度超过设定的模糊度阈值的图像，获得每个视频的截取图像的张量表示，具体处理过程请参见步骤S1，这里不再赘述。

随后，利用预训练的神经网络分别获得所述锚点视频、所述正视频和所述负视频的时空特征向量，对所述锚点视频、所述正视频和所述负视频的时空特征向量分别进行加权，获得所述锚点视频、所述正视频和所述负视频的加权后时空特征向量，具体处理过程请参见步骤S2，这里不再赘述。

随后，对所述锚定视频和所述正视频的加权后时空特征向量进行融合，获得第一联合矩阵，对所述锚定视频和所述负视频的加权后时空特征向量进行融合，获得第二联合矩阵。

例如，对于正样本对(锚定视频和正视频)，对于两个视频的特征向量(N₁×d，N₂×d)，将其中所述正视频的特征向量转置后与锚定视频的特征向量相乘得到N₁×N₂的联合矩阵。

将所述第一联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述正视频的相似度矩阵，将所述第二联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述负视频的相似度矩阵；然后对输出的大小为N×M的相似度矩阵进行倒角相似度计算：

其中，S(i,j)表示所述相似度矩阵的第i行第j列的一个值。公式就是取每一行的最大值取平均值作为最后的相似度值，进而获得锚定视频和正视频的相似度值，以及锚定视频和负视频的相似度值。

进一步地，利用损失函数L＝Sim_a,n-Sim_a,p更新所述权重层和所述2D卷积神经网络模块的参数，利用所述训练数据集中的视频三元组对所述权重层和所述2D卷积神经网络模块进行迭代训练和更新，直至达到设定的迭代次数，获得训练后的神经网络模型。

S4：将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值。

具体地，利用所述权重层对所述目标视频和所述询问视频的时空特征向量分别进行加权，获得所述目标视频的加权后时空特征向量和所述询问视频的加权后时空特征向量并进行特征融合；将融合后放入特征输入经训练的所述2D卷积神经网络中，输出所述目标视频和所述询问视频的相似度矩阵；对所述相似度矩阵进行倒角相似度计算，获得所述目标视频和所述询问视频的相似度值。

在实际处理过程中，给定两个视频，将两个视频分别取名为询问视频，和目标视频，特征融合时的计算：F_combine＝F_query·(F_target)^T，F_query是询问视频的特征，F_target是目标视频的特征，F_combine是融合后的特征，经过视频相似度学习网络最后生成一个相似度，再将两个视频的角色调换过来，即将原来的目标视频作为询问视频，将原来的询问视频作为目标视频重新进行融合再计算一个相似度值，最后取两个相似度的平均做为最后的相似度值。

S5：利用所述相似度值判断是否删除所述目标视频和所述询问视频。

具体地，将经训练的2D卷积神经网络获得目标视频和询问视频的相似度值后，与设定的阈值进行比较，当所述相似度值超过所述阈值，删除所述目标视频和所述询问视频中时长更短或分辨率更低的视频。

本发明实施例基于深度学习的短视频去重方法，针对短视频去重、存储和管理的情形运用视频理解的算法计算视频重复度，解决了针对视频内容重复的短视频检测问题。该方法提出的算法框架新颖，算法收敛性快，效率高，不需要额外计算光流。特别针对内容相似的语义去重，能够比较快的计算基于主题的视频特征库，提升短视频去重的效率。本发明的短视频去重方法在时空特征提取过程中使用预训练模型，不需要从头开始训练，并且可以使用公开的相似视频检索数据集，不需要额外人工达标构建训练数据集。

本发明的又一实施例提供了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序用于执行上述实施例中所述基于深度学习的短视频去重方法的步骤。本发明的再一方面提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上述实施例所述基于深度学习的短视频去重方法的步骤。具体地，上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的短视频去重方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的短视频去重方法，其特征在于，对待比较的目标视频和询问视频并进行预处理，分别获得所述目标视频和所述询问视频的张量表示，包括：

根据所述多帧剩余图像获得目标视频的张量表示；

3.根据权利要求2所述的基于深度学习的短视频去重方法，其特征在于，去除所述多帧图像中相邻且结构相似的冗余图像，包括：

为当前窗口中所有像素点x轴坐标的方差，

获得相邻帧图像之间的总相似度值：

SSIM(x,y)＝[l(x,y)^α·c(x,y)^β·s(x,y)^γ]，

其中，α、β、γ为设定的常数；

4.根据权利要求2所述的基于深度学习的短视频去重方法，其特征在于，利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量，包括：

5.根据权利要求1所述的基于深度学习的短视频去重方法，其特征在于，所述2D卷积神经网络包括依次连接的复制填充层、第一二维卷积层、复制填充层、第二二维卷积层、复制填充层、第三二维卷积层以及第四二维卷积层，其中，

每个复制填充层均用于对输入矩阵的四周填充一圈数值；

6.根据权利要求1所述的基于深度学习的短视频去重方法，其特征在于，对所述神经网络模型进行训练，包括：

将所述第一联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述正视频的相似度值，将所述第二联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述负视频的相似度值，并利用损失函数L＝Sim_a,n-Sim_a,p更新所述权重层和所述2D卷积神经网络模块的参数，其中，Sim_a,n表示锚点视频与负视频的相似度值，Sim_a,p表示锚点视频与正视频的相似度值；

7.根据权利要求1所述的基于深度学习的短视频去重方法，其特征在于，将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值，包括：

8.根据权利要求1所述的基于深度学习的短视频去重方法，其特征在于，利用获得的所述相似度值判断是否删除所述目标视频和所述询问视频，包括：

将经训练的2D卷积神经网络获得目标视频和询问视频的相似度值后，与设定的阈值进行比较，当所述相似度值超过所述阈值，删除所述目标视频和所述询问视频中时长更短或分辨率更低的视频。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1至8中任一项所述基于深度学习的短视频去重方法的步骤。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至8任一项所述基于深度学习的短视频去重方法的步骤。