CN111324774A

CN111324774A - 一种视频去重方法和装置

Info

Publication number: CN111324774A
Application number: CN202010120900.5A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-23
Anticipated expiration: 2040-02-26
Also published as: CN111324774B

Abstract

本申请公开了一种视频去重方法和装置；本申请可以从原始视频中确定至少一个初始相似视频；将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。本申请可以通过改进识别重复视频的方法，提高视频去重的效率。

Description

一种视频去重方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及一种视频去重方法和装置。

背景技术

随着信息技术的发展，尤其是互联网的迅速发展，视频制作的难度越来越低，每天都有海量的视频发布到网上，在这些视频当中，存在着大量有意无意相似甚至是重复的视频。对于视频内容平台，需要去除重复的视频。要去除重复的视频，首先需要识别两个视频是否为相似度高的重复视频。

在目前的相关技术中，一般通过直接比较两个视频的视频封面，来判定两个视频是否为重复视频，这样往往在视频排重上的覆盖率较低，识别到的重复视频相对较少。

发明内容

本申请实施例提供一种视频去重方法和装置，有利于提高视频去重的效率。

本申请实施例提供一种视频去重方法，包括:

从原始视频中确定至少一个初始相似视频；

将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；

基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；

将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；

基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；

基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。

相应的，本申请实施例提供一种视频去重装置，包括:

第一确定单元，用于从原始视频中确定至少一个初始相似视频；

第一调整单元，用于将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；

第二确定单元，用于基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；

第二调整单元，用于将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；

第三确定单元，用于基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；

去重单元，用于基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。

可选的，在本申请的一些实施例中，所述第一确定单元可以包括第一计算子单元和第一确定子单元，如下：

所述第一计算子单元，用于基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度；

第一确定子单元，用于基于每两个原始视频之间在至少一个模态下的相似度，从所述原始视频中确定至少一个初始相似视频。

可选的，在本申请的一些实施例中，所述至少一个模态包括文本模态；所述第一计算子单元具体可以用于获取原始视频的文本描述信息，所述文本描述信息为所述原始视频在文本模态下的内容信息；对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息；基于每两个原始视频在文本模态下的时序特征信息，计算每两个原始视频之间在文本模态下的相似度。

其中，可选的，一些实施例中，步骤“对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息”，可以包括：

通过时序模型对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息。

可选的，在本申请的一些实施例中，所述第一确定单元还可以包括训练子单元，如下：

所述训练子单元，用于通过搜索引擎对所述原始视频的文本描述信息进行搜索，得到所述原始视频的文本描述信息对应的搜索结果信息；将所述搜索结果信息作为训练数据，并获取所述搜索结果信息对应的目标语义标签；通过时序模型，对所述搜索结果信息进行特征提取，得到所述搜索结果信息的时序特征信息；基于所述搜索结果信息的时序特征信息，预测所述搜索结果信息的语义标签；计算所述语义标签和所述目标语义标签对应的损失函数；基于所述损失函数，对时序模型的参数进行调整，以使预测到的语义标签和所述目标语义标签对应的损失函数满足预设条件。

可选的，在本申请的一些实施例中，所述至少一个模态包括语音模态；所述第一计算子单元具体可以用于获取原始视频的音频信息，所述音频信息为所述原始视频在语音模态下的内容信息；对所述原始视频的音频信息进行特征提取，得到所述原始视频在语音模态下的特征信息；基于每两个原始视频在语音模态下的特征信息，计算每两个原始视频之间在语音模态下的相似度。

可选的，在本申请的一些实施例中，所述至少一个模态包括视频时长和视频类别；所述第一计算子单元具体可以用于基于原始视频的视频类别，从原始视频中获取至少一个参考原始视频集合，其中，各个参考原始视频集合中的原始视频的视频类别相同；计算每个参考原始视频集合中的每两个原始视频之间的视频时长的相似度。

可选的，在本申请的一些实施例中，所述第二确定单元可以包括第一变换子单元、第一哈希子单元、第二计算子单元和第二确定子单元，如下：

所述第一变换子单元，用于将所述第一调整后视频的视频帧变换到频率域，得到所述第一调整后视频的视频帧的频率信息；

第一哈希子单元，用于对所述第一调整后视频的视频帧的频率信息进行哈希运算，得到所述第一调整后视频的视频帧的哈希值；

第二计算子单元，用于计算每两个第一调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第一调整后视频中相应视频帧之间的视频帧相似度；

第二确定子单元，用于基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频。

可选的，在本申请的一些实施例中，所述第三确定单元可以包括第二变换子单元、第二哈希子单元、第三计算子单元和第三确定子单元，如下：

所述第二变换子单元，用于将所述第二调整后视频的视频帧变换到频率域，得到所述第二调整后视频的视频帧的频率信息；

第二哈希子单元，用于对所述第二调整后视频的视频帧的频率信息进行哈希运算，得到所述第二调整后视频的视频帧的哈希值；

第三计算子单元，用于计算每两个第二调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第二调整后视频中相应视频帧之间的视频帧相似度；

第三确定子单元，用于基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的视频去重方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的视频去重方法中的步骤。

本申请实施例提供了一种视频去重方法和装置，可以从原始视频中确定至少一个初始相似视频；将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。本申请可以通过改进识别重复视频的方法，提高视频去重的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频去重方法的场景示意图；

图1b是本申请实施例提供的视频去重方法的流程图；

图1c是本申请实施例提供的视频去重方法的模型结构图；

图2是本申请实施例提供的视频去重方法的另一流程图；

图3a是本申请实施例提供的视频去重装置的结构示意图；

图3b是本申请实施例提供的视频去重装置的另一结构示意图；

图3c是本申请实施例提供的视频去重装置的另一结构示意图；

图3d是本申请实施例提供的视频去重装置的另一结构示意图；

图3e是本申请实施例提供的视频去重装置的另一结构示意图；

图4是本申请实施例提供的电子设备的结构示意图；

图5是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图；

图6是本申请实施例提供的区块结构的一个可选的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频去重方法、装置、电子设备和存储介质。具体地，本申请实施例提供适用于电子设备的视频去重装置，该电子设备可以为终端或服务器等设备。

可以理解的是，本实施例的视频去重方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。

参考图1a，以终端和服务器共同执行视频去重方法为例。本申请实施例提供的视频去重的系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，视频去重装置可以集成在服务器中。

其中，终端10可以通过输入模块获取需要待去重的原始视频，将原始视频发送给服务器11，以便于服务器11基于原始视频的内容信息，确定出相似度较高的重复视频，再对原始视频进行去重处理，得到去重后视频，将去重后视频返回给终端10。其中，终端10可以包括手机、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。

服务器11，可以用于：从原始视频中确定至少一个初始相似视频；将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频，再将去重后视频发送给终端10。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群。

上述服务器11对原始视频进行去重的过程，也可以由终端10执行。

本申请实施例提供的视频去重方法涉及人工智能(AI,ArtificialIntellegence)领域中的计算机视觉技术(CV,Computer Vision)。本申请实施例可以基于原始视频在至少一个模态下的内容信息，确定出相似度较高的重复视频，再对原始视频进行去重处理，得到去重后视频，而且改进了识别重复视频的方法，有利于提高视频去重的效率。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

实施例一、

本申请实施例将从视频去重装置的角度进行描述，该视频去重装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例的视频去重方法可以应用于各种需要识别重复视频或者需要对视频进行去重的场景中。例如，某视频平台需要对上百万个视频进行去重处理，可以通过本实施例提供的视频去重方法，可以快速地对海量视频进行去重，且本实施例提供的视频去重方法在视频排重上的覆盖率和准确率较高。

如图1b所示，该视频去重方法的具体流程如下所述，该视频去重方法可以由服务器执行，也可以由终端来执行，本实施例对此不作限制。

101、从原始视频中确定至少一个初始相似视频。

其中，原始视频为待去重的视频集合，原始视频的视频类型不限，视频时长不限，它可以包括各种类型的视频，比如新闻类视频、历史类视频和娱乐类视频等等。

其中，视频可以包含多种模态的信息，这些模态可以是图像模态、语音模态、文本模态、视频时长和视频类别等等。可以通过对各模态下的信息的分析处理，可以提取出该视频多模态的内容信息。

本实施例中，步骤“从原始视频中确定至少一个初始相似视频”可以包括：

基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度；

基于每两个原始视频之间在至少一个模态下的相似度，从所述原始视频中确定至少一个初始相似视频。

其中，对于两个原始视频之间在至少一个模态下的相似度高于预设相似度阈值的两个原始视频，确定为初始相似视频。预设相似度阈值可以根据实际情况进行设置，本实施例对此没有限制。

基于原始视频在至少一个模态下的内容信息，从所述原始视频中确定至少一个初始相似视频的方式有多种，具体如下：

(1)基于原始视频在文本模态下的内容信息，从所述原始视频中确定至少一个初始相似视频。

可选的，一些实施例中，所述至少一个模态包括文本模态；步骤“基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度”，可以包括：

获取原始视频的文本描述信息，所述文本描述信息为所述原始视频在文本模态下的内容信息；

对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息；

基于每两个原始视频在文本模态下的时序特征信息，计算每两个原始视频之间在文本模态下的相似度。

其中，文本描述信息可以包括视频标题、视频简介和视频字幕信息等等。

其中，时序特征信息具体可以是时序特征向量，可以计算每两个原始视频在文本模态下的时序特征向量的向量距离，该向量距离表示两个时序特征向量的相似度，可用于评估每两个原始视频之间在文本模态下的相似度；向量距离越大，相似度越低；向量距离越小，相似度越高。该向量距离可以是余弦距离，又称余弦相似度或余弦相似性，它是通过计算两个向量的夹角余弦值来评估二者之间的相似度。余弦相似度可以将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。余弦相似度的范围从0到1，当余弦相似度的值越接近于1时，则表明两个向量的相似度越高；当余弦相似度的值越接近于0时，则表明两个向量的相似度越低，二者是独立的。需要说明的是，本实施例中的向量距离并不仅限于余弦距离。

对于余弦相似度，两个向量间的余弦值可以通过欧几里得点积公式求出，如下公式(1)所示：

A·B＝||A||||B||cosθ (1)

其中，A和B分别为两个向量，二者之间的余弦相似度对应的夹角θ可以由向量A和B的点积和向量长度给出，如下公式(2)所示：

其中，similarity即是A和B两个向量之间的余弦相似度。

可选的，一些实施例中，步骤“对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息”，可以包括：

其中，该时序模型具体可以是双向编码器表示(Bert，Bidirectional EncoderRepresentations from Transformers)，也可以是长短期记忆网络(LSTM，Long Short-Term Memory)等等，本实施例的时序模型并不仅限于上述列举的几种类型。

其中，Bert是基于变压器(Transformer)结构的开源的时序模型，它的模型结构如图1c所示，Bert是由多层双向的Transformer连接而成，一般可以是12层或者24层等。图1c中的E₁、E₂…E_N表示输入，T₁、T₂…T_N表示输出，J表示Bert的每个Transformer节点，连线表示的是词与词之间的依赖关系，Bert中的依赖关系既有前文又有后文。Bert可以是通过预训练加微调得到的，Bert的训练数据为语料信息，Bert在训练时主要包含两个任务，第一个是随机扣掉训练语料中的词，并用掩码(mask)来代替，让模型去预测被扣掉的词；第二个任务是每个训练数据是一个上下句，其中，部分训练数据的下句和上句是真实关联的，而部分训练数据的下句和上句是无关的，需要让模型去判断训练数据中上下句的关系。基于两个任务的损失值来对模型进行优化。Bert的训练过程可以充分利用上下文的信息，使模型具有更强的表达能力。在完成对模型的预训练后，还可以针对特定的任务对模型进行微调。微调(fine-tune)是深度学习领域中常用的迁移学习技术，通过微调可以使模型更好地适用于特定场景下的语言知识。可选的，若该时序模型为Bert，原始视频的文本描述信息可以通过开源的Bert接口，获得Bert的向量化表示，即原始视频在文本模态下的时序特征向量。

其中，LSTM是一种时间循环神经网络，即为循环神经网络(RNN，Recurrent NeuralNetwork)的一种。LSTM比较适合用于对时序数据提取语义特征，在自然语言处理任务中常被用来对上下文信息提取语义特征。LSTM可以通过三个门结构(输入门，遗忘门，输出门)，选择性地遗忘部分历史数据，加入部分当前输入数据，最终整合到当前状态并产生输出状态。

需要说明的是，本实施例中的时序模型是由多个训练数据训练而成；该时序模型具体可以由其他设备进行训练后，提供给该视频去重装置，或者，也可以由该视频去重装置自行进行训练。

若由该视频去重装置自行进行训练，则在步骤“通过时序模型对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息”之前，该视频去重方法还可以包括：

通过搜索引擎对所述原始视频的文本描述信息进行搜索，得到所述原始视频的文本描述信息对应的搜索结果信息；

将所述搜索结果信息作为训练数据，并获取所述搜索结果信息对应的目标语义标签；

通过时序模型，对所述搜索结果信息进行特征提取，得到所述搜索结果信息的时序特征信息；

基于所述搜索结果信息的时序特征信息，预测所述搜索结果信息的语义标签；

计算所述语义标签和所述目标语义标签对应的损失函数；

基于所述损失函数，对时序模型的参数进行调整，以使预测到的语义标签和所述目标语义标签对应的损失函数满足预设条件。

其中，该时序模型可以是未预训练过的，通过上述训练过程对时序模型的参数进行调整；也可以是已预训练过，再通过上述训练过程进行微调(fine-tune)。

其中，该时序模型的训练过程可以是通过预测训练数据的语义标签，再基于预测到的语义标签和目标语义标签对应的损失函数，使用反向传播算法对时序模型的参数进行调整，使预测到的语义标签和目标语义标签对应的损失函数满足预设条件，该预设条件可以是预测到的语义标签和目标语义标签对应的损失值小于预设损失值，该预设损失值可以根据实际情况进行设置，本实施例对此不作限制。例如，具体可以根据对时序模型的要求进行设置，若对时序模型的要求越高，则预设损失值越小。

可以理解的是，对于仅基于原始视频的视频标题的相似度，从所述原始视频中确定至少一个初始相似视频的情况，通过以上微调过程，可以使时序模型更好地适用于当前地应用场景。因为视频标题的内容信息通常都比较少，缺乏足够的fine-tube语料，可以通过搜索引擎获取量产(mp，Manufacture Product)文本语料来作为补充。具体地，可以通过搜索引擎对原始视频的视频标题进行搜索，获得对应多条搜索结果信息，其中，搜索结果信息可以包括文本标题和摘要信息等，具体可以取前三条搜索结果信息作为当前场景的语料对Bert进行微调。

可选的，在一些实施例中，也可以不通过搜索引擎来获取训练数据，本实施例对此不作限制。

(2)基于原始视频在语音模态下的内容信息，从所述原始视频中确定至少一个初始相似视频。

可选的，一些实施例中，所述至少一个模态包括语音模态；步骤“基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度”，可以包括：

获取原始视频的音频信息，所述音频信息为所述原始视频在语音模态下的内容信息；

对所述原始视频的音频信息进行特征提取，得到所述原始视频在语音模态下的特征信息；

基于每两个原始视频在语音模态下的特征信息，计算每两个原始视频之间在语音模态下的相似度。

其中，步骤“对所述原始视频的音频信息进行特征提取，得到所述原始视频在语音模态下的特征信息”，可以包括：

通过神经网络对所述原始视频的音频信息进行卷积运算和池化运算，得到所述原始视频在语音模态下的特征信息。

其中，该神经网络具体可以为视觉几何组网络(VGGish，Visual Geometry Group)和长短期记忆网络(LSTM，Long Short-Term Memory)等等，本实施例对此不作限制。

其中，原始视频在语音模态下的特征信息可以为特征向量，可基于两个原始视频在语音模态下的特征向量间的向量距离来度量两个原始视频之间在语音模态下的相似度。向量距离越大，相似度越低；向量距离越小，相似度越高。

(3)基于原始视频的视频时长和视频类别，从所述原始视频中确定至少一个初始相似视频。

可选的，一些实施例中，所述至少一个模态包括视频时长和视频类别；步骤“基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度”，可以包括：

基于原始视频的视频类别，从原始视频中获取至少一个参考原始视频集合，其中，各个参考原始视频集合中的原始视频的视频类别相同；

计算每个参考原始视频集合中的每两个原始视频之间的视频时长的相似度。

其中，可以选取原始视频中，属于同一个视频类别且视频时长的差异比例小于预设差异比例的原始视频作为初始相似视频。该预设差异比例可以根据实际情况进行设置，本实施例对此不作限制。例如可以将该预设差异比例设置为10％。其中，两个视频之间视频时长的差异比例K可以通过公式(3)计算：

其中，K为视频A和视频B之间视频时长的差异比例，K的值越小，视频A和视频B之间的视频时长的相似度越高，K的值越大，视频A和视频B之间的视频时长的相似度越小；time(A)表示视频A的视频时长，time(B)表示视频B的视频时长,max(time(A),time(B))表示取time(A)和time(B)之间的较大者。

可以理解的是，本实施例可以只基于原始视频单模态下的内容信息，来从所述原始视频中确定至少一个初始相似视频；也可以基于原始视频多个模态下的内容信息，从所述原始视频中确定至少一个初始相似视频。例如，可以只基于原始视频在文本模态下的内容信息，或者只基于原始视频在语音模态下的内容信息来从原始视频中确定初始相似视频；又比如，可以基于原始视频的视频类别和视频时长从原始视频中确定初始相似视频，或者也可以先基于原始视频在文本模态下的内容信息，从原始视频中确定至少一个待选相似视频，再基于待选相似视频的视频类别和视频时长从待选相似视频中选取初始相似视频。需要说明的是，上述列举并不构成对本申请的限定，且对于以上从各个模态确定初始相似视频的方案，各个模态之间没有明确的时间先后顺序。

可选的，原始视频的各个模态下的内容信息还可以包括视频封面等。在一些实施例中，可以基于原始视频的视频封面，从所述原始视频中确定至少一个初始相似视频。

可选的，原始视频的各个模态下的内容信息还可以视频内容，例如，可以基于视频内容中一些关键的物体检测信息，从所述原始视频中确定至少一个初始相似视频。

通过上述从原始视频中确定至少一个初始相似视频的过程，可以对原始视频进行一个粗选，排除相似度较低的原始视频，大大减少后面计算的待去重视频的数量。

以下基于初始相似视频的视频帧内容，从初始相似视频中选取目标相似视频，再基于目标相似视频对原始视频进行去重处理，得到去重后的视频，具体如下所述。

可选的，可以对各个初始相似视频进行视频帧抽取，对抽取到的视频帧进行特征提取，得到各个初始相似视频的视频帧的特征信息；再比较每两个初始相似视频中相应视频帧之间的视频帧相似度，当两个初始相似视频中相似视频帧的数量满足预设条件，则可以将这两个初始相似视频确定为目标相似视频，其中，相似视频帧为两个视频帧之间的相似度高于预设相似度的视频帧。需要说明的是，对于每两个初始相似视频的抽取视频帧的方式应当一致。

可选的，为了降低计算量，可以对初始相似视频的相似度进行分级计算，具体如下所述。

102、将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频。

可选的，可以先对初始相似视频进行视频帧抽取。具体可以对初始相似视频进行固定间隔抽帧法，比如可以间隔1s抽取一帧视频帧；也可以对初始相似视频进行关键帧抽取，可通过各个视频帧之间的差值，来识别关键帧，进而对关键帧进行抽取。需要说明的是，各个初始相似视频的视频帧抽取方式应当一致。比如，视频1从视频起始播放位置开始间隔1s抽取一帧视频帧，视频2也必须从视频起始播放位置开始间隔1s抽取一帧视频帧。

其中，将初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，具体可以将视频帧的原始尺寸进行缩小到第一预设尺寸，第一预设尺寸小于原始尺寸，具体可以根据实际情况进行设置，本实施例对此不作限制。比如，可以将原始尺寸缩小到32*32的尺寸，总共1024个像素。其中，若初始相似视频进行了视频帧抽取，可以只对抽取到的视频帧的尺寸进行调整。

103、基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频。

本实施例中，可以对第一调整后视频的视频帧进行特征提取，得到视频帧的特征信息，再计算每两个第一调整后视频中相应视频帧的特征信息之间的视频帧相似度，将视频帧相似度高于预设视频帧相似度的两个视频帧作为相似视频帧，然后，基于相似视频帧的数量，计算每两个第一调整后视频的视频相似度，将视频相似度高于预设视频相似度的第一调整后视频确定为中间相似视频。

其中，预设视频帧相似度和预设视频相似度的值可以根据实际情况进行设置，本实施例对此不做限制。其中，视频相似度的计算具体如公式(4)所示：

其中，S表示视频1和视频2的视频相似度，l表示视频1和视频2中相似视频帧的数量，m表示视频1的视频帧总数，n表示视频2的视频帧总数，其中，m和n具体可以是视频1和视频2抽取的视频帧的数量。

其中，可以通过神经网络对第一调整后视频的视频帧进行特征提取，得到视频帧的特征信息；也可以通过哈希算法对第一调整后视频的视频帧进行特征提取，得到视频帧的特征信息；本实施例对此不作限制。其中，哈希算法可以包括均值哈希(aHash，AverageHash)、差异值哈希(dHash，Difference Hash)和感知哈希(pHash，Perceptual Hash)等等。可以通过哈希算法对每个视频帧生成一个“指纹”字符串，该“指纹”字符串即为视频帧的特征信息，然后通过比较“指纹”字符串的距离，即可获取两个视频帧之间的相似度。“指纹”字符串的距离越小，两个视频帧越相似。其中，具体可以通过汉明距离来计算“指纹”字符串的距离，将汉明距离小于预设阈值的视频帧作为相似视频帧。

均值哈希算法是通过对图片进行缩小，再计算缩小后图片的像素的均值，然后将缩小后图片的像素与均值比较，将像素值大于均值的用1表示，小于均值的用0表示，将得到的二进制码作为图片的aHash值，均值哈希算法的速度快，但是不太精确。

差异值哈希算法是通过将图片进行缩小，计算缩小后图片每行相邻像素的强度差异，如果前一个像素的强度大于第二个像素，则差异值设置为1，如果前一个像素的强度小于第二个像素，则差异值设置为0，基于差异值数组转换为字符串，即可得到dHash值。差异值哈希算法的计算速度比较快，与aHash算法相当，但准确度比aHash算法高。

感知哈希算法是通过对图片进行缩小，对图片进行离散余弦变换，并计算离散余弦变换后的平均值，将离散余弦变换后矩阵中的元素与平均值进行比较，大于平均值的设置为1，小于平均值的设置为0，即可得到二进制数组，作为图片的pHash值。感知哈希算法的准确度较高，但运算速度比均值哈希算法和差异值哈希算法慢。

可选的，一些实施例中，步骤“基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频”，可以包括：

将所述第一调整后视频的视频帧变换到频率域，得到所述第一调整后视频的视频帧的频率信息；

对所述第一调整后视频的视频帧的频率信息进行哈希运算，得到所述第一调整后视频的视频帧的哈希值；

计算每两个第一调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第一调整后视频中相应视频帧之间的视频帧相似度；

基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频。

其中，可以先对第一调整后视频的视频帧进行灰度化处理，再将视频帧变换到频率域，具体可以通过离散余弦变换(DCT，Discrete Cosine Transform)等。DCT变换是对称的，可以对DCT变换的图片进行还原操作，另外，DCT可以将图片从像素域变换到频率域，并且DCT矩阵从左上角到右下角代表越来越高频率的系数，但是除左上角外，其他地方的系数为0或接近0，因此可以选择只保留左上角的低频区域。例如，若第一调整后视频中视频帧的尺寸缩小到32*32，则经过DCT变换后，可以只选取左上角8*8的矩阵，作为第一调整后视频的视频帧的频率信息。

可选的，其中，步骤“对所述第一调整后视频的视频帧的频率信息进行哈希运算，得到所述第一调整后视频的视频帧的哈希值”，具体可以包括：通过计算各个DCT均值，再将每个DCT的值与该均值进行比较，将大于均值的DCT值设置为1，小于均值的DCT值设置为0，得到二进制数组，即为视频帧的哈希值。

其中，步骤“计算每两个第一调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第一调整后视频中相应视频帧之间的视频帧相似度”，具体可以通过汉明距离来度量每两个第一调整后视频中相应视频帧的哈希值之间的相似度。其中，汉明距离是指对两个字符串进行异或运算后，结果为1的位数的个数。通过汉明距离的大小，可以得知两个第一调整后视频中相应视频帧的哈希值之间的差异，哈希值之间的差异则反映了两个视频帧之间的相似度。汉明距离的值越小，相似度越高；汉明距离的值越大，相似度越低。

可选的，步骤“基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频”，可以包括：计算每两个第一调整后视频中相应视频帧的特征信息之间的视频帧相似度，将视频帧相似度高于预设视频帧相似度的两个视频帧作为相似视频帧，然后，基于相似视频帧的数量，计算每两个第一调整后视频的视频相似度，将视频相似度高于预设视频相似度的第一调整后视频确定为中间相似视频。

104、将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频。

可选的，本实施例中，可以先对中间相似视频进行视频帧抽取。例如，具体可以对初始相似视频进行固定间隔抽帧法，比如可以间隔1s抽取一帧视频帧。需要说明的是，各个初始相似视频的视频帧抽取方式应当一致。比如，视频1从视频起始播放位置开始间隔1s抽取一帧视频帧，视频2也必须从视频起始播放位置开始间隔1s抽取一帧视频帧。

其中，将中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，具体可以将视频帧的原始尺寸缩小到第二预设尺寸。需要说明的是，第二预设尺寸比步骤102中的第一预设尺寸要大。例如，第一预设尺寸为32*32，则第二预设尺寸可以为64*64。第二预设尺寸大于第一预设尺寸是因为步骤102-103是对初始相似视频进行粗选，因此将初始相似视频中视频帧的尺寸调整到相对比较小的尺寸。

105、基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频。

本实施例中，可以对第二调整后视频的视频帧进行特征提取，得到视频帧的特征信息，再计算每两个第二调整后视频中相应视频帧的特征信息之间的视频帧相似度，将视频帧相似度高于预设视频帧相似度的两个视频帧作为相似视频帧，然后，基于相似视频帧的数量，计算每两个第二调整后视频的视频相似度，将视频相似度高于预设视频相似度的第二调整后视频确定为目标相似视频。

其中，预设视频帧相似度和预设视频相似度的值可以根据实际情况进行设置，本实施例对此不做限制。其中，视频相似度的计算具体如上述公式(4)所示，此处不再赘述。

其中，可以通过神经网络对第二调整后视频的视频帧进行特征提取，得到视频帧的特征信息；也可以通过哈希算法对第二调整后视频的视频帧进行特征提取，得到视频帧的特征信息；本实施例对此不作限制。其中，哈希算法可以包括均值哈希、差异值哈希和感知哈希等等。可以通过哈希算法对每个视频帧生成一个“指纹”字符串，该“指纹”字符串即为视频帧的特征信息，然后通过比较“指纹”字符串的距离，即可获取两个视频帧之间的相似度。“指纹”字符串的距离越小，两个视频帧越相似。其中，具体可以通过汉明距离来计算“指纹”字符串的距离，将汉明距离小于预设阈值的视频帧作为相似视频帧。

可选的，一些实施例中，步骤“基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频”，可以包括：

将所述第二调整后视频的视频帧变换到频率域，得到所述第二调整后视频的视频帧的频率信息；

对所述第二调整后视频的视频帧的频率信息进行哈希运算，得到所述第二调整后视频的视频帧的哈希值；

计算每两个第二调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第二调整后视频中相应视频帧之间的视频帧相似度；

基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频。

其中，可以先对第二调整后视频的视频帧进行灰度化处理，再将视频帧变换到频率域，具体可以通过DCT变换，DCT矩阵从左上角到右下角代表越来越高频率的系数，但是除左上角外，其他地方的系数为0或接近0，因此可以选择只保留左上角的低频区域。例如，若第二调整后视频中视频帧的尺寸缩小到64*64，则经过DCT变换后，可以只选取左上角16*16的矩阵，作为第二调整后视频的视频帧的频率信息。

可选的，其中，步骤“对所述第二调整后视频的视频帧的频率信息进行哈希运算，得到所述第二调整后视频的视频帧的哈希值”，具体可以包括：通过计算各个DCT均值，再将每个DCT的值与该均值进行比较，将大于均值的DCT值设置为1，小于均值的DCT值设置为0，得到二进制数组，即为视频帧的哈希值。

其中，步骤“计算每两个第二调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第二调整后视频中相应视频帧之间的视频帧相似度”，具体可以通过汉明距离来度量每两个第二调整后视频中相应视频帧的哈希值之间的相似度。通过汉明距离的大小，可以得知两个第二调整后视频中相应视频帧的哈希值之间的差异，哈希值之间的差异则反映了两个视频帧之间的相似度。

可选的，步骤“基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频”，可以包括：计算每两个第二调整后视频中相应视频帧的特征信息之间的视频帧相似度，将视频帧相似度高于预设视频帧相似度的两个视频帧作为相似视频帧，然后，基于相似视频帧的数量，计算每两个第二调整后视频的视频相似度，将视频相似度高于预设视频相似度的第二调整后视频确定为目标相似视频。

可选的，一些实施例中，可以对视频进行哈希运算，基于本次哈希运算后视频中相应视频帧的哈希值之间的相似度，确定需要进行下次哈希运算的候选视频，依此经过多次哈希运算后，来确定目标相似视频，不止仅限于两次，本实施例对次数没有限制，通过哈希运算确定目标相似视频的具体过程可参考上述实施例中的描述。

106、基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。

其中，目标相似视频可以认为是原始视频中的重复视频。具体可以基于视频发布的时间顺序，将重复视频中发布时间较近的视频进行删除，即可得到去重后的视频。

由上可知，本实施例可以从原始视频中确定至少一个初始相似视频；将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。本申请可以通过改进识别重复视频的方法，提高视频去重的效率。

实施例二、

根据前面实施例所描述的方法，以下将以该视频去重装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种视频去重方法，如图2所示，该视频去重方法的具体流程可以如下：

201、服务器接收到终端发送的待去重的原始视频。

202、服务器基于原始视频在文本模态下的内容信息，从原始视频中确定至少一个待选相似视频。

本实施例中，步骤“服务器基于原始视频在文本模态下的内容信息，从原始视频中确定至少一个待选相似视频”，可以包括：

基于每两个原始视频在文本模态下的时序特征信息，计算每两个原始视频之间在文本模态下的相似度；

基于每两个原始视频之间在文本模态下的相似度，从原始视频中确定至少一个待选相似视频。

其中，时序特征信息具体可以是时序特征向量，可以计算每两个原始视频在文本模态下的时序特征向量的向量距离，该向量距离表示两个时序特征向量的相似度，可用于评估每两个原始视频之间在文本模态下的相似度；向量距离越大，相似度越低；向量距离越小，相似度越高。该向量距离可以是余弦距离，又称余弦相似度或余弦相似性，它是通过计算两个向量的夹角余弦值来评估二者之间的相似度。需要说明的是，本实施例中的向量距离并不仅限于余弦距离。

例如，可以计算每两个原始视频之间在文本模态下的余弦相似度，将余弦相似度大于0.7以上的原始视频，确定为待选相似视频。

203、服务器基于待选相似视频的视频时长和视频类别，从待选相似视频中确定至少一个初始相似视频。

本实施例中，步骤“服务器基于待选相似视频的视频时长和视频类别，从待选相似视频中确定至少一个初始相似视频”，可以包括：

基于待选相似视频的视频类别，从待选相似视频中获取至少一个参考相似视频集合，其中，各个参考相似视频集合中的待选相似视频的视频类别相同；

计算每个参考相似视频集合中的每两个待选相似视频之间的视频时长的相似度；

基于每个参考相似视频集合中的每两个待选相似视频之间的视频时长的相似度，从待选相似视频中确定至少一个初始相似视频。

204、服务器将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频。

可选的，可以先对初始相似视频进行视频帧抽取。具体可以对初始相似视频进行固定间隔抽帧法，比如可以间隔1s抽取一帧视频帧。需要说明的是，各个初始相似视频的视频帧抽取方式应当一致。

205、服务器基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频。

其中，可以先对第一调整后视频的视频帧进行灰度化处理，再将视频帧变换到频率域，具体可以通过离散余弦变换(DCT，Discrete Cosine Transform)等，DCT可以将图片从像素域变换到频率域，并且DCT矩阵从左上角到右下角代表越来越高频率的系数，但是除左上角外，其他地方的系数为0或接近0，因此可以选择只保留左上角的低频区域。例如，若第一调整后视频中视频帧的尺寸缩小到32*32，则经过DCT变换后，可以只选取左上角8*8的矩阵，作为第一调整后视频的视频帧的频率信息。

206、服务器将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频。

可选的，本实施例中，可以先对中间相似视频进行视频帧抽取。例如，具体可以对初始相似视频进行固定间隔抽帧法，比如可以间隔1s抽取一帧视频帧。需要说明的是，各个初始相似视频的视频帧抽取方式应当一致。

其中，将中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，具体可以将视频帧的原始尺寸缩小到第二预设尺寸。需要说明的是，第二预设尺寸比步骤204中的第一预设尺寸要大。例如，第一预设尺寸为32*32，则第二预设尺寸可以为64*64。第二预设尺寸大于第一预设尺寸是因为步骤204-205是对初始相似视频进行粗选，因此将初始相似视频中视频帧的尺寸调整到相对比较小的尺寸。

207、服务器基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频。

其中，可以通过神经网络对第二调整后视频的视频帧进行特征提取，得到视频帧的特征信息；也可以通过哈希算法对第二调整后视频的视频帧进行特征提取，得到视频帧的特征信息；本实施例对此不作限制。其中，哈希算法可以包括均值哈希、差异值哈希和感知哈希等等。

208、服务器基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。

由上可知，本实施例可以通过服务器接收到终端发送的待去重的原始视频，基于原始视频在文本模态下的内容信息，从原始视频中确定至少一个待选相似视频，基于待选相似视频的视频时长和视频类别，从待选相似视频中确定至少一个初始相似视频；将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频，基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频，将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频，基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频，基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。本申请可以通过改进识别重复视频的方法，提高视频去重的效率。

实施例三、

为了更好地实施以上方法，本申请实施例还提供一种视频去重装置，如图3a所示，该视频去重装置可以包括第一确定单元301、第一调整单元302、第二确定单元303、第二调整单元304、第三确定单元305和去重单元306，如下：

(1)第一确定单元301；

第一确定单元301，用于从原始视频中确定至少一个初始相似视频。

可选的，在本申请的一些实施例中，所述第一确定单元301可以包括第一计算子单元3011和第一确定子单元3012，参见图3b，如下：

所述第一计算子单元3011，用于基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度；

第一确定子单元3012，用于基于每两个原始视频之间在至少一个模态下的相似度，从所述原始视频中确定至少一个初始相似视频。

可选的，在本申请的一些实施例中，所述至少一个模态包括文本模态；所述第一计算子单元3011具体可以用于获取原始视频的文本描述信息，所述文本描述信息为所述原始视频在文本模态下的内容信息；对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息；基于每两个原始视频在文本模态下的时序特征信息，计算每两个原始视频之间在文本模态下的相似度。

可选的，在本申请的一些实施例中，所述第一确定单元301还可以包括训练子单元3013，参见图3c，如下：

所述训练子单元3013，用于通过搜索引擎对所述原始视频的文本描述信息进行搜索，得到所述原始视频的文本描述信息对应的搜索结果信息；将所述搜索结果信息作为训练数据，并获取所述搜索结果信息对应的目标语义标签；通过时序模型，对所述搜索结果信息进行特征提取，得到所述搜索结果信息的时序特征信息；基于所述搜索结果信息的时序特征信息，预测所述搜索结果信息的语义标签；计算所述语义标签和所述目标语义标签对应的损失函数；基于所述损失函数，对时序模型的参数进行调整，以使预测到的语义标签和所述目标语义标签对应的损失函数满足预设条件。

可选的，在本申请的一些实施例中，所述至少一个模态包括语音模态；所述第一计算子单元3011具体可以用于获取原始视频的音频信息，所述音频信息为所述原始视频在语音模态下的内容信息；对所述原始视频的音频信息进行特征提取，得到所述原始视频在语音模态下的特征信息；基于每两个原始视频在语音模态下的特征信息，计算每两个原始视频之间在语音模态下的相似度。

可选的，在本申请的一些实施例中，所述至少一个模态包括视频时长和视频类别；所述第一计算子单元3011具体可以用于基于原始视频的视频类别，从原始视频中获取至少一个参考原始视频集合，其中，各个参考原始视频集合中的原始视频的视频类别相同；计算每个参考原始视频集合中的每两个原始视频之间的视频时长的相似度。

(2)第一调整单元302；

第一调整单元302，用于将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频。

(3)第二确定单元303；

第二确定单元303，用于基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频。

可选的，在本申请的一些实施例中，所述第二确定单元303可以包括第一变换子单元3031、第一哈希子单元3032、第二计算子单元3033和第二确定子单元3034，参见图3d，如下：

所述第一变换子单元3031，用于将所述第一调整后视频的视频帧变换到频率域，得到所述第一调整后视频的视频帧的频率信息；

第一哈希子单元3032，用于对所述第一调整后视频的视频帧的频率信息进行哈希运算，得到所述第一调整后视频的视频帧的哈希值；

第二计算子单元3033，用于计算每两个第一调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第一调整后视频中相应视频帧之间的视频帧相似度；

第二确定子单元3034，用于基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频。

(4)第二调整单元304；

第二调整单元304，用于将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频。

(5)第三确定单元305；

第三确定单元305，用于基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频。

可选的，在本申请的一些实施例中，所述第三确定单元305可以包括第二变换子单元3051、第二哈希子单元3052、第三计算子单元3053和第三确定子单元3054，参见图3e，如下：

所述第二变换子单元3051，用于将所述第二调整后视频的视频帧变换到频率域，得到所述第二调整后视频的视频帧的频率信息；

第二哈希子单元3052，用于对所述第二调整后视频的视频帧的频率信息进行哈希运算，得到所述第二调整后视频的视频帧的哈希值；

第三计算子单元3053，用于计算每两个第二调整后视频中相应视频帧的哈希值之间的相似度，得到每两个第二调整后视频中相应视频帧之间的视频帧相似度；

第三确定子单元3054，用于基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频。

(6)去重单元306；

去重单元306，用于基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。

由上可知，本实施例可以由第一确定单元301从原始视频中确定至少一个初始相似视频；通过第一调整单元302将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，由第二确定单元303从所述至少一个第一调整后视频中确定中间相似视频；通过第二调整单元304，将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，由第三确定单元305从所述至少一个第二调整后视频中确定目标相似视频；通过去重单元306，基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。本申请可以通过改进识别重复视频的方法，提高视频去重的效率。

实施例四、

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

从原始视频中确定至少一个初始相似视频；将所述至少一个初始相似视频中视频帧的原始尺寸调整到第一预设尺寸，得到至少一个第一调整后视频；基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频；将所述中间相似视频中视频帧的原始尺寸调整到第二预设尺寸，得到至少一个第二调整后视频；基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频；基于所述目标相似视频对所述原始视频进行去重处理，得到去重后视频。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频去重方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频去重方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频去重方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本申请实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的电子设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图5，图5是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。本实施例中，时序模型和原始视频的内容信息等信息，可以通过节点被存储在区域链系统的共享账本中，电子设备(例如终端或服务器)可以基于共享账本存储的记录数据获取时序模型和原始视频的内容信息等信息。

参见图5示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图6，图6是本申请实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

以上对本申请实施例所提供的一种视频去重方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频去重方法，其特征在于，包括：

从原始视频中确定至少一个初始相似视频；

2.根据权利要求1所述的方法，其特征在于，所述从原始视频中确定至少一个初始相似视频，包括：

3.根据权利要求2所述的方法，其特征在于，所述至少一个模态包括文本模态；所述基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过时序模型对所述原始视频的文本描述信息进行特征提取，得到所述原始视频在文本模态下的时序特征信息之前，还包括：

计算所述语义标签和所述目标语义标签对应的损失函数；

6.根据权利要求2所述的方法，其特征在于，所述至少一个模态包括语音模态；所述基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度，包括：

7.根据权利要求2所述的方法，其特征在于，所述至少一个模态包括视频时长和视频类别；所述基于原始视频在至少一个模态下的内容信息，计算每两个原始视频之间在至少一个模态下的相似度，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于每两个第一调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第一调整后视频中确定中间相似视频，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于每两个第二调整后视频中相应视频帧之间的视频帧相似度，从所述至少一个第二调整后视频中确定目标相似视频，包括：

10.一种视频去重装置，其特征在于，包括：