CN110996123A

CN110996123A - 一种视频处理方法、装置、设备及介质

Info

Publication number: CN110996123A
Application number: CN201911311721.3A
Authority: CN
Inventors: 罗雄文; 石峰; 刘振强
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-10
Anticipated expiration: 2039-12-18
Also published as: CN110996123B

Abstract

本发明公开了一种视频处理方法、装置、设备及介质，涉及视频技术领域。该视频处理方法，包括：将获取到的目标视频输入到视频级特征提取模型；通过所述视频级特征提取模型提取所述目标视频的视频级特征；依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频；依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。本发明避免了多次提取视频的图片级特征的麻烦，大大减少了计算量，并且可以避免图片级特征仅侧重语义信息而割裂视频帧图片时间联系的缺陷，增加消重精度。

Description

一种视频处理方法、装置、设备及介质

技术领域

本发明涉及视频技术领域，尤其涉及一种视频处理方法、装置、设备及介质。

背景技术

目前，随着移动电子设备的普及和短视频的流行，传统的人工审核法以及“视频过滤-半自动人工审核法”已经无法满足规模不断大幅度扩大的视频量，视频消重成为审核效率提高的瓶颈。

现有的大部分视频消重方法都是通过提取图片级的特征来计算视频间的相似度，根据相似度的高低排序来消除冗余视频。但是，这种基于图片级特征的视频消重方法存在两个问题：一个是特征维度高导致计算开销巨大的问题，另一个是在视频种类多、分类边界模糊时的视频消重精度低的问题。具体的，基于图片级特征的视频消重方法首先需要从视频中采样多张视频帧图片，然后对每张视频帧图片进行特征提取，获取图片级的特征向量，所有图片级的特征向量都将被用于相似度计算，因此每个视频实际上进行了多次特征提取，并且用于消重的特征向量维度过高，在视频规模较大时，消重效率低，以及计算开销巨大。此外，在特征提取过程中，同一个视频的视频帧图片的特征提取操作相对独立，无法表达视频帧在时间维度上的关联关系，而帧图片在时间维度上的联系对视频间的相似度计算有很大的影响，因此这种基于图片级特征的视频消重方法在视频种类较多、分类边界较为模糊时，消重精度比较低。

发明内容

有鉴于此，本发明实施例提供一种新的视频处理方法、装置、设备及介质，以单个视频为粒度，对视频进行视频级特征提取，大大减少了特征提取的计算量，并避免了图片级特征仅侧重语义信息而割裂帧图片时间联系的缺陷，提高消重精度。

第一方面，本发明实施例提供了一种视频处理方法，包括：将获取到的目标视频输入到视频级特征提取模型；通过所述视频级特征提取模型提取所述目标视频的视频级特征；依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频；依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

第二方面，本发明实施例还提供了一种视频处理装置，包括：目标视频输入模块，用于将获取到的目标视频输入到视频级特征提取模型；视频级特征提取模块，用于通过所述视频级特征提取模型提取所述目标视频的视频级特征；相似度确定模块，用于依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频；视频消重处理模块，用于依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

第三方面，本发明实施例还提供了一种设备，包括：处理器和存储器；所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如第一方面所述的视频处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如第一方面所述的视频处理方法。

本发明实施例在通过视频级特征提取模型提取目标视频的视频级特征后，依据视频级特征确定目标视频与候选视频之间的相似度，依据相似度和视频级特征提取模型的相似度阈值进行视频消重处理，即通过一次视频级特征提取即可进行相似度检测，避免了多次提取视频的图片级特征的麻烦，大大减少了计算量，能够满足大规模视频消重的需求，并且可以避免图片级特征仅侧重语义信息而割裂视频帧图片时间联系的缺陷，提高了用于视频消重的特征的表达能力，增加消重精度。

附图说明

图1是本发明的一种视频处理方法实施例的步骤流程示意图；

图2是本发明一个可选实施例中的一种视频处理方法的步骤流程示意图；

图3是本发明一个示例中视频级特征提取模型的训练过程及其相似度阈值的计算过程的示意图；

图4是本发明的一种视频处理方法可选实施例的步骤流程示意图；

图5是本发明一个示例中经过轻量级改进的ECO的整体结构示意图；

图6是本发明一个示例中2D-Res50网络的整体结构示意图；

图7是本发明一个示例中的3D-Res10网络的整体结构示意图；

图8是本发明一个示例中的两级多感受野池化操作流程的示意图；

图9是本发明的一种视频处理装置实施例的结构方框图示意图；

图10是本发明一个示例中的一种设备的结构方框示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构或组成。

随着现在互联网上视频的上传量越来越大，传统的人工审核方法早已无法满足需求，因此在进行人工复审前，需要先对大量内容相似的视频消重，以减少审核量，提高审核效率。

在实际处理中，现有的视频消重技术主要有两类：一类是基于统计分析图像特征的视频消重，另一类是基于哈希编码特征的视频消重。具体的，基于统计分析图像特征的视频消重是通过图像的灰度强度统计或像素梯度统计，获得用于消重的视频特征，该视频特征实际上是图片级的图像特征，需要多次特征提取，计算量大；基于哈希编码特征的视频消重是使用哈希编码来建模，确定视频特征的类内关系和类间关系，以将传统视频特征转换为二值哈希特征，用于视频消重。最新的视频消重方法结合哈希编码和基于统计分析的图像特征来构造视频特征，虽然这种视频消重方法避免了多次特征提取，但构造哈希特征需要对原视频特征间的关系进行反复计算，效率不高，并且在计算相似度时，哈希特征仅能通过海明距离来衡量两个视频的相似度，这限制了方法的泛化能力。此外，现有技术还存在一类使用深度学习技术去提取视频特征的视频消重方法，但这一类视频消重方法实际上还是对视频的多张视频帧图片进行特征提取，然后归总图片级的特征为视频级特征，本质上丢失了视频在时间维度上的信息，因此消重精度低，且计算开销大。

为了解决上述问题，本发明实施例提出了一种新的视频处理方法。具体的，本发明实施例以单个视频为粒度，通过视频级特征提取模型提取目标视频的视频级特征，即直接一步完成视频级特征的提取，在减少特征提取的计算量的同时，避免了图片级特征仅侧重语义信息而割裂视频帧图片时间联系的缺陷，从而提高视频消重精度，以及两个视频的相似度的确定可以不受海明距离的限制，泛化能力高。其中，目标视频可以是指需要进行视频消重处理的视频，如可以是用户上传的待消重的视频，也可以是依据消重审核业务需求确定的视频列表中的视频等，本实施例对此不作具体限制。

参照图1，示出了本发明的一种视频处理方法实施例的步骤流程示意图，具体可以包括如下步骤：

步骤110，将获取到的目标视频输入到视频级特征提取模型。

具体而言，本发明实施例在需要进行视频消重时，可以获取当前所需要进行消重的视频，作为目标视频，并将该目标视频直接输入到预先生成的视频级特征提取模型中进行视频级特征提取，即执行步骤120。

步骤120，通过所述视频级特征提取模型提取所述目标视频的视频级特征。

本实施例中，在将目标视频输入到视频级特征提取模型后，可以触发视频级特征提取模型对该目标视频在图片维度和时间维度上的特征同时进行提取，得到视频级特征。该视频级特征可以表示视频的细节信息和各个视频帧的时空关系，具体可以用于进行视频相似度检测。

进一步而言，为了同时在图片维度和时间维度上提取视频级特征，本实施例中的视频级特征提取模型可以包含有第一神经网络和第二神经网络。其中，第一神经网络可以用于提取视频在图片维度上的特征；第二神经网络可以用于提取视频在时间维度上的特征。

可选的，本实施例中的视频级特征可以包括：图片维度特征和时间维度特征。其中，图片维度特征可以是指对视频在图片维度上提取到的特征，可以表示单个视频帧在时间点上的空间信息；时间维度特征可以是指对视频在时间维度上提取到的特征，可以表示视频各个视频帧在时间上的关联信息。本实施例通过所述视频级特征提取模型提取所述目标视频的视频级特征具体可以包括：通过所述视频级特征提取模型中的第一神经网络，对所述目标视频中每个视频帧进行特征提取，得到空间语义特征图和中间特征图；依据所述空间语义特征图确定所述目标视频的图片维度特征；依据所述中间特征图构成输入视频空间特征图组，并通过所述视频级特征提取模型中的第二神经网络对所述输入视频空间特征图组进行进一步的特征提取处理，得到所述目标视频的时间维度特征。

在实际处理中，视频级特征提取模型中的第一神经网络可以对视频输入的每个视频帧单独进行特征提取，获取视频在各个时间点上的空间信息，以基于视频在各个时间点上的空间信息输出各个视频帧对应的空间语义特征图和中间特征图。经第一神经网络提取得到的各个视频帧对应的空间语义特征图包含了视频在各个时间点的整体空间信息，随后可以对这些空间语义特征图执行尺度不同的池化操作，得到包含不同尺度空间信息的空间特征，随后整合所有视频帧的空间特征得到目标视频的图片维度特征。

视频级特征提取模型中的第二神经网络可以对整个视频的所有视频帧共同进行特征提取，学习视频各个视频帧在时间上的关联信息，以基于各个视频帧在时间上的关联信息输出各个视频帧的时空关联特征图。具体而言，针对同一个目标视频，可以将由第一神经网络得到的所有视频帧的中间特征图拼接成一个三维的输入视频空间特征图组，随后可以将该输入视频空间特征图组传送至第二神经网络中，以通过第二神经网络学习该输入视频空间特征图组中各个视频帧的时空关联特征图，随后可通过全局平均池化(GlobalAverage Pooling,GAP)对时空关联特征图进行池化操作，得到目标视频的时间维度特征。

步骤130，依据视频级特征，确定目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频。

在实际处理中，本实施例可以根据业务需求，获取需要与目标视频进行比较、进行重复性检测的视频，以作为候选视频。在确定出目标视频的视频级特征后，可以将该目标视频的视频级特征与候选视频的视频级特征进行比较，以根据比较结果确定出该目标视频与候选视频之间的相似度。其中，候选视频的视频级特征也可以通过视频级特征提取模型提取得到。

可选的，本实施例依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，具体可以包括：通过所述视频级特征提取模型提取所述候选视频的视频级特征；将所述候选视频的视频级特征与目标视频的视频级特征进行比较；依据比较结果确定所述目标视频与候选视频之间的相似度。具体而言，候选视频的视频级特征与目标视频的视频级特征越相似时，目标视频与候选视频之间的相似度越高，如在候选视频的视频级特征与目标视频的视频级特征完全相同时，目标视频与候选视频之间的相似度可以为100％；而在候选视频的视频级特征与目标视频的视频级特征完全不相同时，目标视频与候选视频之间的相似度可以为零。

步骤140，依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

本实施例中，在确定出目标视频与候选视频之间的相似度后，可以将该相似度与视频级特征提取模型的相似度阈值进行比较，以依据比较结果确定该候选视频是否与目标视频相似，构成相似视频对。若候选视频与目标视频不相似，即在目标视频与候选视频之间的相似度低于相似度阈值时，则可以确定该候选视频和目标视频不属于相似视频对，可以忽略该候选视频，如可不对该候选视频进行消重处理；若候选视频与目标视频相似，构成相似视频对，即在目标视频与候选视频之间的相似度超过相似度阈值时，则可以对该目标视频或候选视频进行消重处理，得到目标视频对应的视频消重处理结果。其中，视频消重处理结果可以包括与目标视频相似的候选视频，或者，可以包含目标视频和与该目标视频不相似的候选视频等，本实施例对此不作具体限制。

综上，本实施例通过视频级特征提取模型提取目标视频的视频级特征，即以视频为粒度，直接提取视频的视频级特征，以依据视频级特征确定目标视频与候选视频之间的相似度，即通过一次视频级特征提取即可进行相似度检测，避免了多次提取视频的图片级特征的麻烦，大大减少了计算量，能够满足大规模视频消重的需求，并且可以避免图片级特征仅侧重语义信息而割裂视频帧图片时间联系的缺陷，提高了用于视频消重的特征的表达能力，增加消重精度。

在上述实施例的基础上，可选的，本实施例依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果，具体可以包括：当所述目标视频与候选视频之间的相似度大于所述相似度阈值时，将所述目标视频和所述候选视频确定为相似视频对，并将所述相似视频对存储到相似视频对库中；基于所述相似视频对库中存储的相似视频对进行视频消重处理，得到所述消重处理结果。具体而言，本实施例在某一候选视频与目标视频之间的相似度大于相似度阈值时，可以将该候选视频和目标视频确定为相似视频对，随后可将该相似视频对存储至相似视频对库中，如可以将相似视频对标识(Identity，ID)上传到相似视频对库中，相似视频对ID可以包括目标视频ID和与该目标视频相似的候选视频ID，相似视频对库可以是指用于存储相似视频对的数据库。从而，在针对目标视频进行视频消重处理时，可以依据该相似视频对库中存储的相似视频对执行视频消重操作，如基于相似视频对库中存储的相似视频对ID，删除与目标视频相似的候选视频，使得该目标视频对应的消重处理结果包含目标视频和与该目标视频不相似的候选视频，达到视频消重的目的。

在具体实现中，本实施例可以使用经过轻量级改进的深度卷积神经网络(Efficient Convolutional Network，ECO)来充当视频级特征提取模型，以通过轻量级改进的ECO来提取视频的视频级特征。可选的，如图2所示，本实施例的视频处理方法还可以包括如下步骤：

步骤210，依据训练数据集中的相似视频组进行模型训练，得到深度卷积神经网络模型。

需要说明的是，每个相似视频组中的视频被视为同一类，使用一个独立的数字分类标签。具体而言，本实施例可以利用深度学习技术，采用端到端方式，从预先设置的训练数据集中提取多个相似视频度组和多个相似视频度组对应的分类标签进行模型训练，从而训练出深度卷积神经网络模型。其中，相似视频组对应的分类标签可以表示该相似视频组所使用的数字分类标签。

作为本发明的一个示例，轻量级ECO模型的视频特征提取网络可以使用一万组同源相似视频进行训练，该一万组同源相似视频一共可以包含有42万个视频；且每组视频可被视为同一类，使用一个独立的数字分类标签。为了使网络可以在大批量数据训练的前提下收敛充分，本示例可以采用多阶段学习率调控的训练方式对网络进行训练，使得网络的分类损失尽可能低。

具体而言，在网络训练过程中，若学习率已经低于某个学习率阈值，同时网络的分类损失已经持续一个时期(Epoch)不发生较为明显的变化，则可以结束当前训练阶段，并可将学习率重置为初始值，加载上一个训练阶段中损失值最小的网络模型参数，继续对ECO网络进行训练。重复前述阶段训练步骤，直至训练数据的分类精度高于分类阈值，且损失低于损失阈值为止。另外，网络训练的初始学习率lr可以设置为0.01，优化算法可以使用带有动量控制的随机梯度下降(Stochastic Gradient Decent，SGD)等，本示例对此不作具体限制。进一步而言，为了提高网络对一般困难样本的拟合能力，分类损失可以使用改进的人脸识别损失函数ArcFace Loss来确定，通过适当在决策面附近增加惩罚边界来提升精度。与一般的ArcFace Loss不同，本示例可以将ArcFace Loss与交叉熵结合，从而提高改进后的ArcFace Loss对类别数量的承受能力。需要说明的是，随机梯度下降可以表示一种深度神经网络的迭代式优化算法，可以为神经网络求得一系列合理的权重；ArcFace Loss可以是一种针对一般困难样本进行边界惩罚的神经网络损失评估方法；交叉熵可以是一种用于分类问题的损失评估函数。

综上，本示例运用数据增强技术和多阶段自适应学习率控制技术，来实现模型在大规模训练数据下的收敛饱和，从而可以加快模型训练效率；并且通过使用与普通多类交叉熵结合的ArcFace Loss，提高模型识别多组同源视频的能力。其中，一组同源视频可以被视为一个视频类别。

步骤220，去除所述深度卷积神经网络模型中的全连接层和损失计算层，得到视频级特征提取模型。

在具体实现中，因为利用深度学习技术训练得到的ECO模型通常包含了用于辅助反向传播的全连接层和损失计算层，所以训练得到ECO模型并不能直接输出所提取的视频级特征。因此，为了能够获取到视频的视频级特征，本实施例在训练出ECO模型后，可以将ECO模型中的全连接层和损失计算层去除，并可以将图片维度特征和时间维度特征拼接而成的特征向量调整为输出，生成视频特征提取模型。其中，采用图片维度特征和时间维度特征拼接而成的特征向量可以作为视频的视频级特征。例如，如图3所示，在获取到训练好的轻量版ECO模型后，可以去取该轻量版ECO模型中多余的全连接层和损失计算层，生成ECO视频特征提取模型，即得到视频特征提取模型，完成视频特征提取模型的训练。

在实际处理中，完成视频特征提取模型可以是模型使用的第一步。为了更好地使用训练好的视频特征提取模型完成视频消重的相关业务，本实施例还可以为该视频特征提取模型设置合适的相似度阈值。可选的，本实施例的视频处理方法还可以包括如下步骤：

步骤230，通过所述视频级特征提取模型，对获取到的抽样视频库中每个视频进行特征提取，得到所述抽样视频库对应的视频特征集。

本实施例中，抽样视频库可以是一个或多个抽样视频所构成的小视频数据库，如可以是从包含20万个视频的验证视频库中抽取N个小视频库，且每个小视频库中包含抽取到的5000个视频，其中N为大于1的整数，如N可以是5，本实施例对此不作具体限制。

具体而言，本实施例在获取到抽样视频库中的每一个视频后，可以将获取到的每一个视频输入到视频级特征提取模型中，以触发该视频级特征提取模型对每一个视频进行视频级特征提取，得到每一个视频的视频级特征。随后，可基于同一个抽样视频库中各个视频的视频级特征，构成该抽样视频库对应的视频特征集。换言而之，抽样视频库对应的视频特征集可以包含同一个抽样视频库中各个视频的视频级特征。

例如，为了给训练好的视频级特征提取模型找到合适的相似度阈值，可以使用多个抽样构建的验证视频库以及校验视频库来确定视频级特征提取模型对应的相似阈值。具体的，如图3所示，在生成ECO视频特征提取模型后，可以从验证视频库中抽取多个小视频库，作为抽样视频库，分别可以标记为DB_5k(1)、DB_5k(2)……DB_5k(N)。其中，DB_5k(1)可以表示抽取到的第一个小视频库，DB_5k(2)可以表示抽取到的第二个小视频库……，如此类推，DB_5k(N)可以表示抽取到的第N个小视频库，N为大于1的整数。每个小视频库可以包含5000个视频。随后，可以使用生成的视频级特征提取模型来提取所有小视频库中每个视频的视频级特征，即给小视频库的每个视频提取视频级特征，得到各个抽样视频库对应的视频特征集。

步骤240，依据所述抽样视频库对应的视频特征集，构建视频对相似度快速检索库。

具体的，本实施例可以利用最临近(k-Nearest Neighbor，kNN)算法，采用提取到的视频特征集，构建视频对相似度快速检索库，以便后续可以基于该视频对相似度快速检索库快速获取视频对的相似度。

作为本发明的一个示例，为了加快相似度的计算效率，避免两两计算视频对相似度导致的低效问题，可以利用kNN算法，结合Hnsw库和所提取的视频特征集，建立视频对相似度快速检索库，快速获取视频对的相似度。其中，Hnsw库可以是一个高速的KNN模型构建库。

具体而言，如图3所示，结合上述例子，在给小视频的每个视频提取视频级特征后，可以针对视频特征集中的视频级特征建立字典索引，即针对视频特征建立字典索引，随后可使用字典索引建立KNN相似度库，以便后续可以从KNN相似度库中快速检测每个视频与最近邻的相似度，即建立的KNN相似度库可以作为视频对相似度快速检索库。可见，本示例结合KNN算法来搭建视频相似对检索库，从而可以大大加速视频对相似度的计算过程。

另外，考虑到与ArcFace Loss的兼容问题，本示例可以使用向量的余弦(Cosine)距离来评估视频对的相似度，使得两个视频的相似度的确定可以不受海明距离的限制，泛化能力高。

步骤250，依据所述视频对相似度快速检索库，确定所述抽样视频库中每个视频与相邻视频之间的相似度。

具体的，本实施例在建立视频对相似度快速检索库后，可以从该视频对相似度快速检索库中，快速检索到抽样视频库中的每个视频与相邻视频之间的相似度。其中，视频的相邻视频可以表征与该视频相邻的视频，如可以将与视频A相邻的视频B可以确定该视频A的相邻视频。视频与相邻视频之间的相似度可以用于确定该视频与该相邻视频是否可以构成相似视频对。

步骤260，依据所述抽样视频库中每个视频与相邻视频之间的相似度，确定所述抽样视频库对应的视频对列表。

具体的，本实施例在确定出抽样视频库中各个视频与相邻视频之间的相似度后，可以基于该抽样视频库中各个视频与相邻视频之间的相似度生成对应的视频对列表。该视频对列表可以包含一个或多个视频对和该视频对对应的相似度，每个视频对可以包含一个视频和与该视频的一个相邻视频。

在实际处理中，当视频对对应的相似度超过一定的相似度阈值时，可以将该视频对确定为相似视频对。进一步的，为了提高相似度的判断效率，可以已经建立的相似视频对库来对视频列表中已经存在的相似视频对进行过滤，随后可经过人工的相似视频对甄别后，确定该抽样视频库对应的视频对列表。可选的，本实施例依据所述抽样视频库中每个视频与相邻视频之间的相似度，确定所述抽样视频库对应的视频对列表，具体可以包括：基于所述抽样视频库中每个视频与相邻视频之间的相似度，生成所述抽样视频库对应的初始视频对列表；依据相似视频对库对所述初始视频对列表中的相似视频对进行过滤，得到所述抽样视频库对应的视频对列表。

具体而言，本实施例基于抽样视频库中每个视频与相邻视频之间的相似度生成对应的初始视频对列表，具体可以包含相似度小于相似度阈值对应的视频对、相似度超过相似度阈值对应的相似视频对、相似度与相似度阈值相等的对应的相似视频对。例如，如图3所示，在确定出抽样视频库对应的初始视频对列表后，可以将该初始视频对列表中的视频对ID与相似视频对库中存储的相似视频对ID进行比较，以根据相似视频对库过滤掉已经存在的相似视频对，即读取相似视频对库中已经确认的相似视频对，并根据读取到的相似视频对初始视频对列表中的视频对进行过滤，得到过滤后的视频对列表，进而可以基于该过滤后的视频对列表中的相似视频对和相似视频对对应的相似度，生成抽样视频库对应的视频对列表。例如，在根据相似视频对库过滤掉已经存在的相似视频对后，随后可以通过人工判断到过滤后的视频对列表中剩余的相似视频对，并可以按照相似度从高到底，对过滤后的视频对列表中的剩余视频对进行排序，得到抽样视频库对应的视频对列表。

进一步而言，本实施例在得到所述抽样视频库对应的视频对列表之后，还可以包括：依据所述抽样视频库对应的视频对列表，对所述相似视频对库进行更新。具体的，本实施例可以在得到抽样视频库对应的视频对列表后，可以检测该视频对列表中是否包含相似视频对中未存储有的新的相似视频对；若检测该视频对列表中包含有的新的相似视频对，如图3所示，即在发现新的相似视频对时，则可以将该新的相似视频对存储到相似视频对库中，实现对该相似视频对库的更新，以便后续可以依据更新后的相似视频对库执行视频消重相关的业务，确保业务执行结果的准确性。

步骤270，依据相似视频对库中的存储信息确定所述视频对列表的准确率。

本实施例中，在经过人工的相似视频对甄别后，可以结合相似视频对库的信息计算抽样视频库对应的视频对列表的准确率，以便后续可以基于视频对列表的准确率确定抽样视频库的相似度阈值，即执行步骤280。

步骤280，依据所述视频对列表的准确率确定所述抽样视频库的相似度阈值。

作为本发明的一个示例，在经过人工的相似视频对甄别后，如图3所示，可以按照相似度从高到底对视频对列表中的相似视频对进行排序，随后可可以结合相似视频对库的信息计算视频对列表的topK准确率，以取定topK准确率对应的相似度阈值，作为抽样视频库的相似度阈值。例如，在topK准确率的取值范围为[0.99,0.95,0.90,…,0.25]，其对应的相似度阈值范围为[0.967,0.954,0.932,0.887,…,0.458]的情况下，若计算出视频对列表的topK准确率为0.99，则取定topK准确率对应的相似度阈值可以为0.967；若计算出视频对列表的topK准确率为0.95，则取定topK准确率对应的相似度阈值可以为0.954；若计算出视频对列表的topK准确率为0.90，则取定topK准确率对应的相似度阈值可以为0.932……如此类推，若计算出视频对列表的topK准确率为0.25，则取定topK准确率对应的相似度阈值可以为0.458。

进一步的，本示例在取定视频对列表的topK准确率后，如图3所示，还可以基于该topK准确率计算校验视频库的召回率，以结合校验视频库的召回率来确定视频级特征提取模型的相似度阈值。其中，校验视频库中存储的校验视频对可以是均已确认的相似视频对均已经确认。

可选的，本实施例依据所述视频对列表的准确率确定所述抽样视频库的相似度阈值可以包括：基于所述视频对列表的准确率，确定校验视频库的召回率；针对抽样视频库，依据所述召回率和所述准确率，确定相似度阈值。

具体而言，本实施例可以使用特征提取模型提取校验视频库中每个视频的视频级特征，然后可以基于提取到的视频级特征计算该校验视频对中各个校验视频对的相似度，从而可以件高于准确率对应的相似度阈值的校验视频对视为被成功发现的视频对，依此来计算召回率，即确定出校验视频库的召回率。随后可以基于召回率和抽样视频库的准确率来确定出该抽样视频库的相似度阈值，如图3所示，根据召回率和对应的topK准确率确定每一个小视频库的阈值。例如，可以在校验视频对的召唤率为0.99，且抽样视频库的准确率大于0.5时对应的相似度阈值确定为当前抽样视频库的相似度阈值，以基于样视频库的相似度阈值确定视频级特征提取模型的相似度阈值，即执行步骤290。

步骤290，依据所述抽样视频库的相似度阈值，确定所述视频级特征提取模型的相似度阈值。

在具体实现中，本实施例可以获取待多个抽样视频库中的视频，并可通过视频级特征提取模型分别提取多个抽样视频库中的视频的视频级特征，以确定出多个抽样视频库的相似度阈值，随后可基于多个抽样视频库的相似度阈值的平均值来确定出视频级特征提取模型的相似度阈值。

进一步而言，本实施例中的抽样视频库可以包含：从预设的验证视频库中抽取的至少两个抽样视频库。可选的，本实施例依据所述抽样视频库的相似度阈值，确定所述视频级特征提取模型的相似度阈值，包括：对所述至少两个抽样视频库的相似度阈值进行统计，得到所述至少两个抽样视频库对应的相似度平均值；将所述相似度平均值作为视频级特征提取模型的相似度阈值。具体的，在根据召回率和抽样视频库对应视频对列表的准确率，计算出每个抽样视频库的相似度阈值后，可以计算所有抽样视频库的相似度阈值的平均值，如图3所示，计算出所有小视频库的相似度阈值的平均值，以该平均值作为视频级特征提取模型所使用的相似度阈值，即确定视频级特征提取模型的相似度阈值。

可见，本实施例可以用多个抽样建立的验证视频库以及校验视频库来确定视频级特征提取模型对应的相似度阈值，以便后续可以基于该相似度阈值和视频级特征提取模型提取到的视频级特征来完成视频消重的相关业务。

具体而言，本实施例使用深度学习技术训练出视频级特征提取模型，并把模型的参数和结构保存起来，从而可以在执行产品侧的视频消重流程时，直接加载视频级特征提取模型完成视频特征提取即可，无需重新训练模型。

参照图4，示出了本发明的一种视频处理方法可选实施例的步骤流程示意图，具体可以包括如下步骤：

步骤410，将获取到的目标视频输入到视频级特征提取模型。

具体而言，本实施例在需要执行视频消重相关业务时，可加载预先训练好的视频级特征提取模型，并可将获取到的目标视频输入到加载到的视频级特征提取模型，以视频级特征提取模型进行视频级特征提取，即执行步骤420。

步骤420，通过所述视频级特征提取模型提取所述目标视频的视频级特征。

本实施例中，可以以单个视频为粒度，对目标视频在图片维度和时间维度上的特征同时进行提取，从而可以将提取到的图片维度特征和时间维度特征拼成目标视频的视频级特征。该视频级特征具体可以包含了图片维度特征和时间维度特征。

具体而言，在视频级特征提取模型包含有第一神经网络和第二神经网络的情况下，本实施例可以通过所述视频级特征提取模型中的第一神经网络，对所述目标视频中每个视频帧进行特征提取，得到空间语义特征图和中间特征图，随后可依据空间语义特征图确定目标视频的图片维度特征，以及可以依据中间特征图构成输入视频空间特征图组，然后通过视频级特征提取模型中的第二神经网络对该输入视频空间特征图组进行进一步的特征提取处理，得到目标视频的时间维度特征，进而可以针对目标视频，对该时间维度特征和图片维度特征进行拼接，形成该目标视频的视频级特征。

作为本发明的一个示例，如图5所示，在使用经过轻量级改进的ECO来充当视频级特征提取模型的情况下，为了同时在时间维度上和空间维度上获取视频的深度特征，ECO可以使用2D卷积与3D卷积这两种结构，并且在网络的特征提取部分均可以使用层次更深、表达能力更强的残差结构。需要说明的是，全残差化的网络结构可以在参数量大幅减少的前提下，仍然通过更深的层次和更多的非线性变换保持网络的特征学习能力。

其中，2D残差卷积块构成的2D-Res50网络可以作为视频级特征提取模型中的第一神经网络，对视频输入的每个视频帧单独进行特征提取，获取视频在各个时间点上的空间信息；而由3D残差卷积块构成的3D-Res10网络可以作为视频级特征提取模型中的第二神经网络，对整个视频的所有视频帧共同进行特征提取，学习视频各个视频帧在时间上的关联信息。经过2D-Res50网络提取得到的空间语义特征图包含了视频在各个时间点的整体空间信息。这些语义特征图将被传送至多感受野池化层，并可使用尺度不同的池化操作去归总视野大小不同的空间特征，最终整合所有视频帧的视频空间特征，随后可以将该视频空间特征确定为目标视频在图片维度上的图片维度特征。其中，感受野可以表示特征值所覆盖的图像或视频范围。

在具体实现中，可以采用一个1024维的2D视频特征向量来表示视频空间特征，本示例对此不作具体限制。另外，由2D-Res50网络得到的所有视频帧的中间特征图还可以被拼接为一个三维的输入视频空间特征图组，并传送至3D-Res10网络中，由其去学习视频各个视频帧的时空关联特征图，最终通过全局平均池化(Global Average Pooling,GAP)得到一个512维的3D视频特征向量，以作为目标视频在时间维度上的时间维度特征。

在进行视频消重时，2D视频特征向量和3D视频特征向量将被一并用于相似度计算，以提高特征的广度，如图5所示，将2D视频特征向量与3D视频特征向量进行拼接，形成用于消重的视频级特征。此外，由于3D卷积的参数量比较大，本示例可以采用顶重尾轻(Top-heavy)设计，即把浅层网络计算大尺寸特征图的卷积设定为2D卷积，深层网络计算小尺寸特征图的卷积设定为3D卷积，从而降低计算开销。

需要说明的是，Top-heavy设计可以是神经网络卷积核的一种设计方法，具体可以把卷积核参数多的卷积放在深层网络，而将卷积核参数少的卷积放在浅层网络。

本示例中的2D-Res50网络是一个50层的残差神经网络，如图6所示，可以由4个阶段(Stage)共16个使用2D卷积的残差块(Block)组成。为了减少卷积层运算的通道数进而减少参数量，每个残差块都可以使用瓶颈(Bottleneck)结构的设计理念，即每个残差块都由3个卷积(Conv)层组成，3个卷积核的卷积核参数分别可以为1*1、3*3和1*1，其中，进出口的两个1*1卷积核可以分别用来压缩和还原特征图的通道数。另外，因为每经过一个Stage，可以把特征图的尺寸缩小至四分之一、通道扩大为两倍，所以在每个Stage的入口处都使用了2D投影残差块。这种残差块可以在旁路中增加了一个1*1卷积层，用来保证做逐像素相加操作时，特征图的尺寸和通道数保持一致。同理，只在每个Stage的入口处使用2D投影残差块也是为了进一步减少网络参数。

目标视频中的N个视频帧通过2D-Res50网络后，可以获得对应的中间层特征图组，如来自Stage2-block4的中间特征图组将被组装为三维的视频张量，随后该视频张量可作为输入视频空间特征图组，输入至3D-Res10网络，以进行整个视频时空特征的提取。其中，视频张量的张量形状可以记为(c，f，h，w)，c可以表示视频帧图片的通道数，f可以表示视频帧数，h可以是指视频帧图片的高度，w可以是指视频帧图片的宽。如图7所示，3D-Res10网络可以由3个Stage共5个残差块组成，所有卷积层都使用三维的卷积核。在卷积过程中，时间维度上的信息也将一起参与计算。同样，为了减少网络参数，3D-Res10网络可以使用卷积层数更少的残差块，并且去除了在Bottleneck残差块中使用的通道数扩张技术。需要说明的是，Bottleneck可以表示一种三层的残差块结构，首层和尾层分别用于压缩和恢复图像通道。

在实际处理中，考虑到视频的特征图在特征提取后仍然有较大的尺寸，此时若直接把特征图展平，可能会使得特征向量维度过高。因此，本实施例中的第一神经网络和第二神经网络在完成一系列的特征提取操作以后，均可以使用池化操作把特征图直接归总为一维特征向量，以降低特征向量的维度，从而减少计算开销。例如，结合上述示例，2D-Res50网络和3D-Res10网络在完成一系列的特征提取操作以后，经可以使用池化操作把特征图直接归总为一维特征向量，以降低特征向量的维度。具体的，3D-Res10网络在完成卷积操作后，可以通过一个2*7*7的全局平均池化来对时空范围内的像素值求平均值，得到一个512维的视频时空特征向量(即图5中的3D视频特征向量)，以作为目标视频在时间维度上的时间维度特征；而2D-Res50网络则与一般的卷积神经网络不同，并没有使用一个简单的全局池化操作来归总特征图，而是采用了两级多感受野池化去归总特征图，得到一个1024维的2D视频特征向量，以作为目标视频在图片维度上的图片维度特征。

可见，本示例使用了2D-Res50网络和3D-Res10网络同时对视频的空间信息和时间关联关系建模，避免了现有方法只关注二维空间特征的缺陷，即利用深度学习技术，采用端到端方式，对视频的细节信息进行提炼和时空关系进行建模，避免了图片级特征仅侧重于语义信息和割裂视频帧图片时间联系的缺陷，提高了用于消重的特征的表达能力，通过在视频特征中加入视频时间维度的信息，提高了相似视频对的识别精度，从而增加消重精度。此外，本示例通过对ECO视频特征提取模型进行了轻量化的改进，如使用Top-heavy设计减少3D卷积带来的巨大参数量，减少3D残差块的卷积层数，取2D网络部分的中间层来作为3D网络的输入等等，加快了ECO模型的训练速度，并降低了视频特征提取过程的计算开销。

可选的，本实施例依据所述空间语义特征图确定所述目标视频的图片维度特征，可以包括：对每个视频帧的空间语义特征图进行池化操作，得到各个视频帧的空间特征；对所述各个视频帧的空间特征进行整合，得到作为所述图片维度特征的视频空间特征。具体而言，本实施例在提取出目标视频中各个视频帧的空间语义特征图后，可以分别对各个视频帧的空间语义特征图进行池化操作，得到各个视频帧的空间特征，随后针对目标视频，整合各个视频帧的空间特征，得到该目标视频的视频空间特征，并可将该视频空间特征确定为目标视频在图片维度上的图片维度特征。可见，本实施例在第一神经网络输出的空间语义特征图后，可以依据该第一神经网络输出的空间语义特征图进行池化整合，得到图片维度特征。

在具体实现中，本实施例可以使用至少两级多感受野池化层，去归总第一神经网络输出的空间语义特征图，使得归总的特征可以拥有不同的感受野，并使得特征可对不同尺寸的目标敏感，扩宽了对目标类别的识别范围，提高识别的准确率。进一步而言，本实施例中的视频级特征提取模型的第一神经网络可以包含有多感受野池化层，该多感受野池化层可以包含至少两个池化核，从而可以通过至少两个池化核对每个视频帧的空间语义特征图的像素进行总归，得到特征图。可选的，本实施例对每个视频帧的空间语义特征图进行池化操作，得到各个视频帧的空间特征，具体可以包括：分别通过所述至少两个池化核，对所述每个视频帧的空间语义特征图进行局部池化操作，得到对应的至少两组特征图；分别依据所述至少两组特征图进行全局池化操作，得到所述至少两组特征图对应的特征向量，以作为所述各个视频帧的空间特征。随后可依据所述至少两组特征图对应的特征向量进行像素相加操作，得到作为图片维度特征的视频空间特征向量。

例如，可以针对同一个视频的各个视频帧的空间语义特征图执行两级多感受野池化操作。具体的，如图8所示，在第一级的局部池化操作中，三个归总范围不同的最大池化(Max-pooling)被用于对特征图上的像素进行归总，这三个最大池化的核尺寸分别为7*7、4*4和2*2，即使用三个不同核尺寸的池化核进行局部池化操作。不同大小的池化核使得归总的特征拥有不同的感受野，使得特征可以对不同尺度的目标敏感，拓宽了对目标类别的识别范围。经过了第一级的多尺度局部池化操作以后，可以得到三组尺寸大大减少的特征图，这些特征图包含了不同尺度的视频特征。然后，可以依据这三组特征图分别进行第二级的求和全局池化(Global sum-pooling)操作，每个通道上的特征图都通过求和像素值得到一个特征，从而得到三组特征图，随后这三组特征图可以被归总为三个包含不同尺度视频空间信息的特征向量，以作为这三组特征图对应的特征向量；随后，可对这三组特征向量执行逐像素相加操作，获得一个1024维的2D特征向量，以作为空间特征。经过前述过程，目标视频的N个视频帧将获得N个1024维的2D特征向量，即获取到视频帧图片的特征向量，然后通过对这些视频帧图片的特征向量求和取平均即可获得代表整个视频空间信息的空间特征向量，即得到视频空间特征向量，以作为视频空间特征。该视频空间特征向量的特征维度可以为1024维，具体可以用于表示目标视频的图片维度特征。可见，本示例使用特有的多感受野池化层来汇总2D空间信息特征，提高了模型对不同尺度目标的识别能力。

当然，本实施例也可以对第二神经网络输出的时空关联特征图进行池化操作，得到目标视频在时间维度上的时间维度特征。在一种可选实施方式中，本实施例通过所述视频级特征提取模型中的第二神经网络对所述输入视频空间特征图组进行进一步的特征提取处理，得到所述目标视频的时间维度特征，具体可以包括：通过所述第二神经网络，对所述输入视频空间特征图组进行时空特征提取，得到时空关联特征图；依据所述时空关联特征图进行池化操作，得到作为所述时间维度特征的视频时空特征向量。具体的，本实施例通过第二神经网络提取出时空关联特征图后，可以对提取到的时空关联特征图进行GAP操作，得到视频时空特征向量，以作为目标视频在时间维度上的时间维度特征。

步骤430，将目标视频的视频级特征与候选视频的视频级特征进行比较。

本实施例中，可以业务需求获取需要与目标视频进行比较的候选视频，随后可将该候选视频的视频级特征与目标视频的视频级特征进行比较，以确定目标视频与候选视频之间的相似度，即执行步骤440。

在实际处理中，可以通过视频级特征提取模型提取候选视频的视频级特征，随后可将该候选视频的视频级特征与目标视频的视频级特征进行比较，以根据比较结果确定候选视频是否为与目标视频相似的相似视频，即执行步骤440。

步骤440，依据比较结果确定所述目标视频与候选视频之间的相似度。

具体的，当目标视频与候选视频之间的相似度大于相似度阈值时，可以将目标视频和该候选视频确定为相似视频对，随后执行步骤450；当目标视频与候选视频之间的相似度小于相似度阈值时，可以忽略该候选视频，随后可将该目标视频的视频级特征与下一个候选视频的的视频级特征进行比较，以确定下一个候选视频是否属于与该目标视频相似的相似视频，直到完成目标视频与获取到的所有候选视频的相似度比较。可选的，目标视频与候选视频之间的相似度等于相似度阈值时，可以将该候选视频和目标视频确定为相似视频对，或者，可以确定该候选视频不属于与该与该目标视频相似的相似视频等，本实施例对此不作具体限制。

步骤450，将所述相似视频对存储到相似视频对库中。

步骤460，基于所述相似视频对库中存储的相似视频对进行视频消重处理，得到所述消重处理结果。

具体而言，本实施例在确定出相似视频对后，可以将对应的相似结果保存至相似视频对库，如可以将相似视频对标识(Identity，ID)上传到相似视频对库中进行保存。从而，在执行与视频消重相关的业务操作时，可以根据相识视频对库中读取到的已经确认的相似视频对对当前所需要进行视频消重处理的目标视频进行消重处理，得到对应的消重处理结果，以便后续可以依据消重处理结果完成相应的业务操作，满足业务需求。

进一步而言，本实施例中的业务需求可以包含审核业务需求。该审核业务需求可以包括视频消重审核业务的需求，如可以是批量视频消重审核业务需求。可选的，本实施例在确定所述目标视频与候选视频之间的相似度之前，还可以包括：依据审核业务需求获取用户提交的视频列表，所述视频列表包含目标视频对应的视频信息和所述候选视频对应的视频信息。其中，目标视频对应的视频信息可以用于确定目标视频，如可以是目标视频的视频ID等；候选视频对应的视频信息可以用于确定后续视频，如可以是候选视频的视频ID等，本实施例对此不作具体限制。

例如，在批量视频消重审核的应用场景中，可以根据当前的审核业务需求获取审核员提交的视频列表，以将该视频列表中的视频确定为目标视频和与该目标视频对应的候选视频，即将视频列表中的各个视频分为目标视频和候选视频，随后可加载预先训练好的视频级特征提取模型，以通过视频级特征提取模型提取视频列表中每个视频的视频级特征，即通过视频级特征提取模型分别提取目标视频和候选视频的视频级特征，随后可使用视频级特征构建KNN视频相似度库，从而可以利用KNN视频相似度库，将相似度大于相似阈值的视频对推送给审核员进行复审，使得审核员可以依据推送的视频对确人最终的相似视频对，并可相似视频对的视频ID存储至相似视频对库中。

进一步的，本实施例在将所述目标视频和所述候选视频确定为相似视频对之后，还可以包括：基于所述相似视频对确定待审核视频对，并接收针对所述待审核视频对提交的审核操作。具体而言，本实施例基于相似度阈值和目标视频与候选视频之间的相似度，将该目标视频和候选视频确定为相似视频对后，可以将该相似视频对确定为待审核视频对，以将该待审核视频对推送给用户进行审核，使得用户可以针对该待审核视频对提交对应的审核操作。其中，审核操作可以用于确定是否用户是否将该待审核视频对确定为最终的相似视频对，如该审核操作可以分为确认操作和取消操作等，本实施例对此不作具体限制。需要说明的是，取消操作可以确定用户取消将待审核视频对确定为相似视频对。确认操作可以确定用户最终将待审核视频对确定为相似视频对。

可选的，本实施例将所述相似视频存储到相似视频对库中包括：在所述审核操作为确认操作时，将所述相似视频对的标识信息存储至所述相似视频对库。例如，结合上述例子，在接收到审核员针对推送的视频对提交的确认操作时，可以确定审核员最终将推送的视频对确认为相似视频对，随后可见该相似视频对的视频ID上传到相似视频对库中进行保存，实现对相似视频对库的更新，以便后续可以根据该相似视频对库中存储的相似视频对的视频ID进行视频消重处理。

进一步而言，本实施例基于所述相似视频对库中存储的相似视频对进行视频消重处理，具体可以包括：基于所述相似视频库中存储的相似视频对的标识信息，对所述视频列表中的目标视频和候选视频进行消重。例如，结合上述例子，可以根据相似视频对库中存储的相似视频对的视频ID，对审核员提交的视频列表中的视频进行消重，得到消息处理结果，随后可基于该消重处理结果确定出消重后的视频列表，并将消重后的视频列表推送给审核员进行视频违规审核，从而减少审核员的审核量。

可见，本实施例提供的视频处理方法可以用于辅助视频内容违规审核，通过批量消除冗余视频，减少违规审核员的审核量，如在其中一个目标视频被判为违规视频的情况下，该目标视频对应的相似视频也将被判为违规视频。

此外，本实施例在确定相似视频对的同时，可以将对应的相似结果保存至相似视频对库，从而在做批量视频消重审核操作时只需要获取到对应的视频列表就可以根据相似视频对库存储的相似结果确定可疑的相似视频对并返回给用户，使得用户可以再次对可疑相似视频对进行复审，确定真实的相似视频对，最后可根据相似视频对库存储的相似结果对真实的相似视频对进行消重，得到消重处理结果，以便后续可以依据该消重处理结果执行相应的业务处理操作。例如，在审核员做批量视频消重审核操作时，可以把对应的视频列表提交至消重系统，由消重系统根据相似视频对库中存储的相似视频对确定可疑的相似视频对并返回，然后审核员再次对可疑相似视频对复审，确定真实的相似视频对，随后可根据真实的相似视频对进行视频消重处理，得到消重后的视频列表，使得违规审核员可以根据消重后的视频列表成视频违规审核。

当然，本实施例还可以应用在其他应用场景中，如可以应用在相似视频检索应用场景中等，本实施例对此不作具体限制。可选的，本实施例中的业务需求可以包含相似视频检索业务需求；该相似视频检索业务可以是指检索相似视频的业务需求。可选的，本实施例在确定所述目标视频与候选视频之间的相似度之前，还可以包括：确定相似视频检索业务需求对应的目标视频和视频查找范围，并将所述视频查找范围内的视频确定为候选视频。例如，在用户检索相似视频的应用场景中，在用户上传视频至相似视频检测系统后，可以将该用户上传的视频确定位目标视频，并可设定查找的视频时间范围，使得相似视频检测系统在加载查找视频时间范围内的视频后，可以通过视频级特征提取模型提取用户上传视频和查找到的视频的视频级特征，随后可基于视频级特征确定每个查找到视频与用户上传视频之间的相似度，并可选择最大相似度，与相似度阈值进行比较。若最大相似度大于相似度阈值，则可以将该最大相似度对应的查找到的视频确定为与用户上传视频相似的相似视频，随后可向用户返回对应的相似视频检索结果。该相似视频检索结果可以作为目标视频的相似视频检索结果。

可见，应用本实施例，用户只需要简单地上传自己的视频，即可由相似视频检测系统自动完成整个相似视频检索的流程，返回相似视频检索结果。进一步的，本实施例在将所述目标视频和所述候选视频确定为相似视频对之后，还可以包括：依据所述相似视频对，确定所述目标视频的相似视频检索结果。其中，目标视频的相似视频检索结果可以包含相似度大于相似度阈值对应的相似视频对的视频ID等，本实施例对此不作具体限制。

综上，本实施例可以用于给相关用户提供相似视频检索功能，如提供用户级相似视频检测功能，上述例子中的用户检索功能可以扩展为检索多个相似视频；且每次完成检索流程后，可以对相似视频对库进行一次完善，如在将该最大相似度对应的查找到的视频确定为与用户上传视频相似的相似视频后，可以将该最大相似度对应的查找到的视频和用户上传视频确定为相似视频对，并可将该相似视频对存储在相似视频对库中，实现相似视频对库的更新。

另外，本实施例以整个视频为粒度来提取视频级特征，避免了现有技术在提取视频的图片级特征时需要多次运算特征提取过程，并且可以避免现有技术割裂帧图片间的联系的缺陷，能够同时在时间维度和图片维度上提取视频级的特征，大大地减少了特征向量的维度，减少后续视频消重的计算量。

此外，本实施例所提取的视频级特征并不会像哈希编码特征那样受到相似度评估方法的限制，即所提取的视频级特征可以使用其它方法计算相似度，并创造性地使用配合ArcFace Loss的Cosine距离来评估相似度，提高结果精度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。

参照图9，示出了本发明的一种视频处理装置实施例的结构框图，该视频处理装置具体可以包括如下模块：

目标视频输入模块910，用于将获取到的目标视频输入到视频级特征提取模型；

视频级特征提取模块920，用于通过所述视频级特征提取模型提取所述目标视频的视频级特征；

相似度确定模块930，用于依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频；

视频消重处理模块940，用于依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

在上述实施例的基础上，可选地，视频级特征包含图片维度特征和时间维度特征。上述视频级特征提取模块920可以包括如下子模块：

特征图子模块，用于通过所述视频级特征提取模型中的第一神经网络，对所述目标视频中每个视频帧进行特征提取，得到空间语义特征图和中间特征图；

图片维度特征确定子模块，用于依据所述空间语义特征图确定所述目标视频的图片维度特征；

时间维度特征确定子模块，用于依据所述中间特征图构成输入视频空间特征图组，并通过所述视频级特征提取模型中的第二神经网络对所述输入视频空间特征图组进行进一步的特征提取处理，得到所述目标视频的时间维度特征。

在本发明的一个可选实施例中，图片维度特征确定子模块可以包括如下单元：

池化单元，用于对每个视频帧的空间语义特征图进行池化操作，得到各个视频帧的空间特征；

整合单元，用于对所述各个视频帧的空间特征进行整合，得到作为所述图片维度特征的视频空间特征。

本发明实施例中，可选地，所述视频级特征提取模型包含多感受野池化层，所述多感受野池化层包含至少两个池化核；所述池化单元具体可以如下子单元:

局部池化操作子单元，用于分别通过所述至少两个池化核，对所述每个视频帧的空间语义特征图进行局部池化操作，得到对应的至少两组特征图；

全局池化操作子单元，用于分别依据所述至少两组特征图进行全局池化操作，得到所述至少两组特征图对应的特征向量，以作为所述各个视频帧的空间特征。

在本发明的一个可选实施例中，时间维度特征确定子模块可以包括如下子模块：

时空特征提取子模块，用于通过所述第二神经网络，对所述输入视频空间特征图组进行时空特征提取，得到时空关联特征图；

池化操作子模块，用于依据所述时空关联特征图进行池化操作，得到作为所述时间维度特征的视频时空特征向量。

在本发明的一个可选实施例中，上述视频处理装置还可以包括如下模块：

视频特征集确定模块，用于通过所述视频级特征提取模型，对获取到的抽样视频库中每个视频进行特征提取，得到所述抽样视频库对应的视频特征集；

相似度快速检索库构建模块，用于依据所述抽样视频库对应的视频特征集，构建视频对相似度快速检索库；

相似度模块，用于依据所述视频对相似度快速检索库，确定所述抽样视频库中每个视频与相邻视频之间的相似度；

视频对列表确定模块，用于依据所述抽样视频库中每个视频与相邻视频之间的相似度，确定所述抽样视频库对应的视频对列表；

准确率确定模块，用于依据相似视频对库中的存储信息确定所述视频对列表的准确率；

视频库相似度阈值确定模块，用于依据所述视频对列表的准确率确定所述抽样视频库的相似度阈值；

模型相似度阈值确定模块，用于依据所述抽样视频库的相似度阈值，确定所述视频级特征提取模型的相似度阈值。

在本发明的一个可选实施例中，视频库相似度阈值确定模块可以包括如下子模块：

召回率确定子模块，用于基于所述视频对列表的准确率，确定校验视频库的召回率；

阈值确定子模块，用于针对抽样视频库，依据所述召回率和所述准确率，确定相似度阈值。

在本发明的一个可选实施例中，视频对列表确定模块可以包括如下子模块：

初始视频对列表子模块，用于基于所述抽样视频库中每个视频与相邻视频之间的相似度，生成所述抽样视频库对应的初始视频对列表；

过滤子模块，用于依据相似视频对库对所述初始视频对列表中的相似视频对进行过滤，得到所述抽样视频库对应的视频对列表。

在本发明的一个可选实施例中，上述视频处理装置还可以包括相似视频对库更新模块。该相似视频对库更新模块用于依据所述抽样视频库对应的视频对列表，对所述相似视频对库进行更新，如在过滤子模块得到所述抽样视频库对应的视频对列表之后，依据所述抽样视频库对应的视频对列表，对所述相似视频对库进行更新。

模型训练模块，用于依据训练数据集中的相似视频组进行模型训练，得到深度卷积神经网络模型；

去除多余层模块，用于去除所述深度卷积神经网络模型中的全连接层和损失计算层，得到所视频级特征提取模型。

在本发明的一个可选实施例中，相似度确定模块930可以包括如下子模块：

视频级特征提取子模块，用于通过所述视频级特征提取模型提取所述候选视频的视频级特征；

比较子模块，用于将所述目标视频的视频级特征与候选视频的视频级特征进行比较；

相似度确定子模块，用于依据比较结果确定所述目标视频与候选视频之间的相似度。

在本发明的一个可选实施例中，视频消重处理模块940可以包括如下子模块：

相似视频对确定存储子模块，用于当所述目标视频与候选视频之间的相似度大于所述相似度阈值时，将所述目标视频和所述候选视频确定为相似视频对，并将所述相似视频对存储到相似视频对库中；

消重处理子模块，用于基于所述相似视频对库中存储的相似视频对进行视频消重处理，得到所述消重处理结果。

在本发明的一个可选实施例中，所述业务需求包含审核业务需求。上述视频处理装置还可以包括：视频列表获取模块、待审核视频对确定模块、审核操作接收模块。

其中，视频列表获取模块用于依据审核业务需求获取用户提交的视频列表，如在相似度确定模块930确定所述目标视频与候选视频之间的相似度之前，依据审核业务需求获取用户提交的视频列表。所述视频列表包含目标视频对应的视频信息和所述候选视频对应的视频信息。待审核视频对确定模块用于基于所述相似视频对确定待审核视频对，如在相似视频对确定存储子模块将所述目标视频和所述候选视频确定为相似视频对之后，基于所述相似视频对确定待审核视频对。审核操作接收模块用于接收针对所述待审核视频对提交的审核操作。

可选的，相似视频对确定存储子模块具体可以用于在所述审核操作为确认操作时，将所述相似视频对的标识信息存储至所述相似视频对库。消重处理子模块具体可以用于基于所述相似视频库中存储的相似视频对的标识信息，对所述视频列表中的目标视频和候选视频进行消重。

在本发明的一个可选实施例中，所述业务需求可以包含相似视频检索业务需求。上述视频处理装置还可以包括：候选视频确定模块和相似视频检索结果确定模块。其中，候选视频确定模块用于确定相似视频检索业务需求对应的目标视频和视频查找范围，并将所述视频查找范围内的视频确定为候选视频，如在相似度确定模块930确定所述目标视频与候选视频之间的相似度之前，确定相似视频检索业务需求对应的目标视频和视频查找范围，并将所述视频查找范围内的视频确定为候选视频。相似视频检索结果确定模块用于依据所述相似视频对，确定所述目标视频的相似视频检索结果，如在相似视频对确定存储子模块将所述目标视频和所述候选视频确定为相似视频对之后，依据所述相似视频对，确定所述目标视频的相似视频检索结果。

需要说明的是，上述提供的视频处理装置可执行本发明任意实施例所提供的视频处理方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述视频处理装置可以集成在设备中。该设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，如设备可以是个人计算机(PersonalComputer，PC)、电脑、手机、平板设备、个人数字助理、服务器、消息收发设备、游戏控制台等。

进一步的，本发明实施例还提供一种设备，包括：处理器和存储器。存储器中存储有至少一条指令，且指令由所述处理器执行，使得所述设备执行如上述方法实施例中所述的视频处理方法。

参照图10，示出了本发明一个示例中的一种设备的结构示意图。如图10所示，该设备具体可以包括：处理器100、存储器101、具有触摸功能的显示屏102、输入装置103、输出装置104以及通信装置105。该设备中处理器100的数量可以是一个或者多个，图10中以一个处理器100为例。该设备中存储器101的数量可以是一个或者多个，图10中以一个存储器101为例。该设备的处理器100、存储器101、显示屏102、输入装置103、输出装置104以及通信装置105可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的任务处理方法对应的程序指令/模块(例如，上述视频处理装置中的目标视频输入模块910、视频级特征提取模块920、相似度确定模块930以及视频消重处理模块940等)。存储器101可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器101可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏102为具有触摸功能的显示屏102，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏102用于根据处理器100的指示显示数据，还用于接收作用于显示屏102的触摸操作，并将相应的信号发送至处理器100或其他装置。可选的，当显示屏102为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏102的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器100或者其他设备。

通信装置105，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置103可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置104可以包括扬声器等音频设备。需要说明的是，输入装置103和输出装置104的具体组成可以根据实际情况设定。

处理器100通过运行存储在存储器101中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述视频处理方法。

具体的，实施例中，处理器100执行存储器101中存储的一个或多个程序时，具体实现如下操作：将获取到的目标视频输入到视频级特征提取模型；通过所述视频级特征提取模型提取所述目标视频的视频级特征；依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的；依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的视频处理方法。示例性的，该视频处理方法包括：将获取到的目标视频输入到视频级特征提取模型；通过所述视频级特征提取模型提取所述目标视频的视频级特征；依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的；依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种视频处理方法，其特征在于，包括：

将获取到的目标视频输入到视频级特征提取模型；

通过所述视频级特征提取模型提取所述目标视频的视频级特征；

依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频；

依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

2.根据权利要求1所述的视频处理方法，其特征在于，所述视频级特征包含图片维度特征和时间维度特征，通过所述视频级特征提取模型提取所述目标视频的视频级特征包括：

通过所述视频级特征提取模型中的第一神经网络，对所述目标视频中每个视频帧进行特征提取，得到空间语义特征图和中间特征图；

依据所述空间语义特征图确定所述目标视频的图片维度特征；

依据所述中间特征图构成输入视频空间特征图组，并通过所述视频级特征提取模型中的第二神经网络对所述输入视频空间特征图组进行进一步的特征提取处理，得到所述目标视频的时间维度特征。

3.根据权利要求2所述的视频处理方法，其特征在于，依据所述空间语义特征图确定所述目标视频的图片维度特征，包括：

对每个视频帧的空间语义特征图进行池化操作，得到各个视频帧的空间特征；

对所述各个视频帧的空间特征进行整合，得到作为所述图片维度特征的视频空间特征。

4.根据权利要求3所述的视频处理方法，其特征在于，所述视频级特征提取模型的第一神经网络包含多感受野池化层，所述多感受野池化层包含至少两个池化核，所述对每个视频帧的空间语义特征图进行池化操作，得到各个视频帧的空间特征，包括：

分别通过所述至少两个池化核，对所述每个视频帧的空间语义特征图进行局部池化操作，得到对应的至少两组特征图；

分别依据所述至少两组特征图进行全局池化操作，得到所述至少两组特征图对应的特征向量，以作为所述各个视频帧的空间特征。

5.根据权利要求2所述的视频处理方法，其特征在于，通过所述视频级特征提取模型中的第二神经网络对所述输入视频空间特征图组进行进一步的特征提取处理，得到所述目标视频的时间维度特征，包括：

通过所述第二神经网络，对所述输入视频空间特征图组进行时空特征提取，得到时空关联特征图；

依据所述时空关联特征图进行池化操作，得到作为所述时间维度特征的视频时空特征向量。

6.根据权利要求1所述的视频处理方法，其特征在于，还包括：

通过所述视频级特征提取模型，对获取到的抽样视频库中每个视频进行特征提取，得到所述抽样视频库对应的视频特征集；

依据所述抽样视频库对应的视频特征集，构建视频对相似度快速检索库；

依据所述视频对相似度快速检索库，确定所述抽样视频库中每个视频与相邻视频之间的相似度；

依据所述抽样视频库中每个视频与相邻视频之间的相似度，确定所述抽样视频库对应的视频对列表；

依据相似视频对库中的存储信息确定所述视频对列表的准确率；

依据所述视频对列表的准确率确定所述抽样视频库的相似度阈值；

依据所述抽样视频库的相似度阈值，确定所述视频级特征提取模型的相似度阈值。

7.根据权利要求6所述的视频处理方法，其特征在于，依据所述视频对列表的准确率确定所述抽样视频库的相似度阈值包括：

基于所述视频对列表的准确率，确定校验视频库的召回率；

针对抽样视频库，依据所述召回率和所述准确率，确定相似度阈值。

8.根据权利要求6所述的视频处理方法，其特征在于，依据所述抽样视频库中每个视频与相邻视频之间的相似度，确定所述抽样视频库对应的视频对列表，包括：

基于所述抽样视频库中每个视频与相邻视频之间的相似度，生成所述抽样视频库对应的初始视频对列表；

依据相似视频对库对所述初始视频对列表中的相似视频对进行过滤，得到所述抽样视频库对应的视频对列表。

9.根据权利要求8所述的视频处理方法，其特征在于，在得到所述抽样视频库对应的视频对列表之后，还包括：

依据所述抽样视频库对应的视频对列表，对所述相似视频对库进行更新。

10.根据权利要求1所述的视频处理方法，其特征在于，还包括：

依据训练数据集中的相似视频组进行模型训练，得到深度卷积神经网络模型；

去除所述深度卷积神经网络模型中的全连接层和损失计算层，得到所述视频级特征提取模型。

11.根据权利要求1至10任一所述的视频处理方法，其特征在于，依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，包括：

通过所述视频级特征提取模型提取所述候选视频的视频级特征；

将所述目标视频的视频级特征与候选视频的视频级特征进行比较；

依据比较结果确定所述目标视频与候选视频之间的相似度。

12.根据权利要求11所述的视频处理方法，其特征在于，依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果，包括：

当所述目标视频与候选视频之间的相似度大于所述相似度阈值时，将所述目标视频和所述候选视频确定为相似视频对，并将所述相似视频对存储到相似视频对库中；

基于所述相似视频对库中存储的相似视频对进行视频消重处理，得到所述消重处理结果。

13.根据权利要求12所述的视频处理方法，其特征在于，所述业务需求包含审核业务需求；

在确定所述目标视频与候选视频之间的相似度之前，还包括：依据审核业务需求获取用户提交的视频列表，所述视频列表包含目标视频对应的视频信息和所述候选视频对应的视频信息；

在将所述目标视频和所述候选视频确定为相似视频对之后，还包括：基于所述相似视频对确定待审核视频对，并接收针对所述待审核视频对提交的审核操作；

其中，将所述相似视频存储到相似视频对库中包括：在所述审核操作为确认操作时，将所述相似视频对的标识信息存储至所述相似视频对库；

基于所述相似视频对库中存储的相似视频对进行视频消重处理，包括：基于所述相似视频库中存储的相似视频对的标识信息，对所述视频列表中的目标视频和候选视频进行消重。

14.根据权利要求12所述的视频处理方法，其特征在于，所述业务需求包含相似视频检索业务需求；

在确定所述目标视频与候选视频之间的相似度之前，还包括：确定相似视频检索业务需求对应的目标视频和视频查找范围，并将所述视频查找范围内的视频确定为候选视频；

在将所述目标视频和所述候选视频确定为相似视频对之后，还包括：依据所述相似视频对，确定所述目标视频的相似视频检索结果。

15.一种视频处理装置，其特征在于，包括：

目标视频输入模块，用于将获取到的目标视频输入到视频级特征提取模型；

视频级特征提取模块，用于通过所述视频级特征提取模型提取所述目标视频的视频级特征；

相似度确定模块，用于依据所述视频级特征，确定所述目标视频与候选视频之间的相似度，所述候选视频为依据业务需求获取到的需要进行重复性检测的视频；

视频消重处理模块，用于依据所述相似度和所述视频级特征提取模型的相似度阈值进行视频消重处理，得到所述目标视频对应的消重处理结果。

16.一种设备，其特征在于，包括：处理器和存储器；

所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如权利要求1至14任一所述的视频处理方法。

17.一种计算机可读存储介质，其特征在于，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如权利要求1至14任一所述的视频处理方法。