CN113255625B

CN113255625B - 一种视频检测方法、装置、电子设备和存储介质

Info

Publication number: CN113255625B
Application number: CN202110792857.1A
Authority: CN
Inventors: 束俊辉; 刘振华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-05
Anticipated expiration: 2041-07-14
Also published as: CN113255625A

Abstract

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频检测方法、装置、电子设备和存储介质，用以提高视频检测的准确性。其中，方法包括：获取待检测视频的深度语义特征；基于深度语义特征，将待检测视频与各候选视频进行匹配，获得待检测视频对应的至少两个候选视频，至少两个候选视频各自与待检测视频的初始相似度；基于获得的各初始相似度，确定待检测视频对应的相似度参考值，并采用相似度参考值，分别对各初始相似度进行偏差调整，获得相应的目标相似度；基于获得的各个目标相似度，从至少两个候选视频中筛选出待检测视频的重复视频。本申请通过对初始相似度进行调整，基于调整后的目标相似度来检测重复视频，有效提高准确性。

Description

一种视频检测方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频检测方法、装置、电子设备和存储介质。

背景技术

相关技术中，视频检测方法大量基于固定阈值判定，如将两个视频进行特征匹配，获得特征匹配量或是相似度，进行将该特征匹配量或是相似度和特定值进行比较，特征匹配量不小于特定值，相似度不小于特定值等；固定阈值通常通过人工经验或者统计特征，实际上发现由于视频编辑，加花边等人工反拷贝检测策略，导致固定阈值策略十分容易失效。因而，如何提高视频检测的准确性是亟待解决的。

发明内容

本申请实施例提供一种视频检测方法、装置、电子设备和存储介质，用以提高视频检测的准确性。

本申请实施例提供的一种视频检测方法，包括：

获取待检测视频的深度语义特征，所述深度语义特征表征所述待检测视频中图像的内容信息；

基于所述深度语义特征，将所述待检测视频与各个候选视频进行匹配，获得所述待检测视频对应的至少两个候选视频，以及所述至少两个候选视频各自与所述待检测视频的初始相似度；

基于获得的各个初始相似度，确定所述待检测视频对应的相似度参考值，并采用所述相似度参考值，分别对所述各个初始相似度进行偏差调整，获得相应的目标相似度；

基于获得的各个目标相似度，从所述至少两个候选视频中筛选出所述待检测视频的重复视频。

本申请实施例提供的一种视频检测装置，包括：

获取单元，用于获取待检测视频的深度语义特征，所述深度语义特征表征所述待检测视频中图像的内容信息；

匹配单元，用于基于所述深度语义特征，将所述待检测视频与各个候选视频进行匹配，获得所述待检测视频对应的至少两个候选视频，以及所述至少两个候选视频各自与所述待检测视频的初始相似度；

调整单元，用于基于获得的各个初始相似度，确定所述待检测视频对应的相似度参考值，并采用所述相似度参考值，分别对所述各个初始相似度进行偏差调整，获得相应的目标相似度；

筛选单元，用于基于获得的各个目标相似度，从所述至少两个候选视频中筛选出所述待检测视频的重复视频。

可选的，所述调整单元具体用于：

分别将所述至少两个候选视频各自对应的初始相似度与所述相似度参考值的差值，作为相应的候选视频对应的目标相似度。

可选的，所述筛选单元具体用于：

将所述至少两个候选视频中对应的目标相似度大于第二预设阈值的候选视频，作为所述待检测视频的重复视频，所述第二预设阈值是基于所述待检测视频的场景确定的。

可选的，所述获取单元具体用于：

对所述待检测视频进行抽帧处理，获得至少两个目标视频帧；

分别对所述至少两个目标视频帧进行特征提取，获取所述至少两个目标视频帧各自对应的帧图像特征；

对获得的各个帧图像特征进行特征聚合，获得所述待检测视频的深度语义特征。

可选的，所述获取单元具体用于：

将所述至少两个目标帧输入已训练的多任务模型中的深度图像子网络；

基于所述深度图像子网络对所述至少两个目标视频帧进行特征提取，获取所述至少两个目标视频帧各自对应的帧图像特征；

将所述各个帧图像特征输入所述多任务模型中的图像特征聚合子网络；

基于所述图像特征聚合子网络，对所述各个帧图像特征进行特征聚合，获得所述深度语义特征；

其中，所述多任务模型是基于训练样本数据集训练得到的，所述多任务模型对应的多任务至少包括视频分类任务和视频标签提取任务；所述训练样本数据集包括多个训练样本，每个训练样本包括一个样本视频，以及所述样本视频对应的真实类别和标签。

可选的，所述装置还包括：

推荐单元，用于在所述调整单元获得相应的目标相似度之后，基于获得的各个目标相似度，对所述至少两个候选视频进行排序，获得所述待检测视频对应的候选视频序列；

按照所述候选视频序列中的所述至少两个候选视频之间的顺序，分别确定所述至少两个候选视频各自对应的推荐权重；

按照获得的各个推荐权重，对应相应的候选视频进行推荐。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种视频检测方法的步骤。

本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意一种视频检测方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行上述任意一种视频检测方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频检测方法、装置、电子设备和存储介质。由于本申请实施例在基于视频的深度语义特征获取视频之间的初始相似度之后，筛选出至少两个候选视频之后，基于各个候选视频各自对应的初始相似度，进一步确定出了待检测视频对应的相似度参考值，并基于该参考值，对初始相似度进一步调整后，基于调整得到的目标相似度来对候选视频重新排序，获得最终的检测结果。由于本申请实施例并非是直接将这些候选视频作为检测结果，而是基于目标相似度来对候选视频重新排序，获得最终的检测结果。由于各个候选视频对应的目标相似度是通过对相应的候选视频对应的初始相似度进行偏差调整后得到的，对于视频编辑具有一定的容忍能力，因而可以获取更加准确的检测结果。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的第一种视频画面的示意图；

图2A为本申请实施例中的第二种视频画面的示意图；

图2B为本申请实施例中的第三种视频画面的示意图；

图3为本申请实施例中的一种应用场景的一个可选的示意图；

图4为本申请实施例中的一种视频检测方法的流程示意图；

图5A为本申请实施例中的第一种重复视频的示意图；

图5B为本申请实施例中的第二种重复视频的示意图；

图5C为本申请实施例中的第三种重复视频的示意图；

图5D为本申请实施例中的第四种重复视频的示意图；

图6为本申请实施例中的一种获取深度语义特征的方法示意图；

图7为本申请实施例中的一种视频拷贝检测系统的框图；

图8为本申请实施例中的一种多任务模型的结构示意图；

图9为本申请实施例中的一种相似视频召回结果示意图；

图10为本申请实施例中的一种归一化后相似视频召回结果示意图；

图11为本申请实施例中的一个视频重复检测和视频推荐的总流程示意图；

图12为本申请实施例中的一种视频检测装置的组成结构示意图；

图13为本申请实施例中的第一种电子设备的组成结构示意图；

图14为本申请实施例中的第二种电子设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

信息流：指在空间和时间上向同一方向运动过程中的一组信息，它们有共同的信息源和信息的接收者，即由一个信息源向另一个单位传递的全部信息的集合。在本申请实施例中，信息流是指按照特定规格样式的上下排布的一种内容组织形态。从展示排序角度而言，常见的有时间顺序、热度、算法排序。

深度语义特征：表征所述待检测视频中图像的内容信息。在本申请实施例中，深度语义特征可以是对应设定维度的深度语义向量，可以利用深度学习方法，将复杂多样的视频信息转换为低维度向量表征（例如1024个float（浮点数）向量）。

离群点检测：离群点是指显著不同于其它数据的对象，比如一个时间序列中，远离序列的一般水平的极端大值和极端小值。离群点检测主要是用于检测在同类数据集合中，显著有差异的数据点。

尺度不变特征变换（Scale-invariant feature transform，SIFT）：是用于图像处理领域的一种描述。这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子。

方向梯度直方图（histogram of oriented gradients，HOG）特征：是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。

下一个局部聚集描述符向量（NeXt Vector of Local Aggregated Descriptors，NeXtVLAD）：本申请实施例中的一种图像特征聚合模型，该模型是把帧级别的特征降维成视频级别的特征，然后可以对视频级别的特征进行分类。NeXtVLAD的做法是先把高维的特征分解成一组低维的特征，分解思路来源于ResNeXt，然后加入注意力机制，再进行特征的编解码，最终达到降维的效果。其中，ResNeXt是深度残差网络（ResNet）和Inception模型的结合体。

归一化：就是要把需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。在本申请实施例中，对初始相似度进行偏差调整时刻采用归一化方法，即可以对各个候选视频的初始相似度进行归一化调整。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

本申请实施例提供的方案涉及人工智能的深度学习技术。在本申请实施例中提出的多任务模型主要应用于对视频进行分类，标签提取等，其中多任务模型的训练和使用方法可分为两部分，包括训练部分和应用部分；其中，训练部分就涉及到深度学习这一技术领域，在训练部分中，通过深度学习这一技术训练多任务模型，使得训练样本集中的样本视频通过多任务模型后，进行视频分类和视频标签提取，通过优化算法不断调整模型参数，得到已训练的多任务模型；应用部分用于通过使用在训练部分训练得到的多任务模型，对待检测视频进行深度语义特征提取。

下面对本申请实施例的设计思想进行简要介绍：

由于视频资料易编辑，通过剪裁，加静态花边、动态花边，增加或更改字幕，旋转，镜像，模糊，改变色差等方法均容易拷贝视频，但是这些情况下却很难追踪和识别。

在相关技术中，大量拷贝检测技术依赖距离阈值，例如视频A和视频B重复特征量大于50%；图片A和图片B向量余弦相似度大于90%等等，而视频编辑非常容易导致这种距离特征失效。例如图1所示，其为本申请实施例中所列举的一种视频画面的示意图。在图1所示的画面（a）、画面（b）属于视频重复但花边不同导致图像距离较远的情况。同时，一些特定的视频类型，例如游戏、动漫、电影、电视剧、网红视频，由于其剧情和画面高度重复，非常容易获得相似但并非重复的结果，如图2A和图2B所示。图2A和图2B分别为本申请实施例中所列举的又一种视频画面的示意图。这两个示意图属于视频不重复但游戏画面相似导致图像距离很近的情况。因此，基于固定阈值的解决方案通常需要繁琐而复杂的数据预处理流程，这些流程不仅仅消耗大量资源而且还可能导致方案抗干扰能力差。

有鉴于此，本申请实施例提出了一种视频检测方法、装置、电子设备和存储介质。由于本申请实施例在基于视频的深度语义特征获取视频之间的初始相似度之后，筛选出至少两个候选视频之后，基于各个候选视频各自对应的初始相似度，进一步确定出了待检测视频对应的相似度参考值，并基于该参考值，对初始相似度进一步调整后，基于调整得到的目标相似度来对候选视频重新排序，获得最终的检测结果。由于本申请实施例并非是直接将这些候选视频作为检测结果，而是基于目标相似度来对候选视频重新排序，获得最终的检测结果。由于各个候选视频对应的目标相似度是通过对相应的候选视频对应的初始相似度进行偏差调整后得到的，因而可以获取更加准确的检测结果。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图3所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备310和一个服务器320。本申请实施例中的终端设备310上可以安装有视频客户端。服务器320可以包括视频服务器。视频服务器，用于为视频客户端提供视频，例如本申请实施例中的视频检索库即可位于视频服务器侧，存储有多个候选视频。或者，视频检索库也可位于视频客户端本地。另外，本申请实施例中的视频服务器和视频客户端都可以用于视频检测，在此不做具体限定。

本申请实施例涉及的客户端可以是软件，也可以是网页、小程序等，服务器320则是与软件或是网页、小程序等相对应的后台服务器，不限制客户端的具体类型。

需要说明的是，本申请实施例中的视频检测方法可以由服务器或终端设备单独执行，也可以由服务器和终端设备共同执行。例如，由服务器来获取待检测视频的深度语义特征，并基于该深度语义特征，将待检测视频与各个候选视频进行匹配，获得待检测视频对应的至少两个候选视频，以及至少两个候选视频各自与待检测视频的初始相似度，并返回给终端设备，由终端设备基于获得的各个初始相似度，确定待检测视频对应的相似度参考值，并采用相似度参考值，分别对各个初始相似度进行偏差调整，获得相应的目标相似度；基于获得的各个目标相似度，对至少两个候选视频进行排序，获得待检测视频对应的候选视频序列，并展示该候选视频序列等。

在一种可选的实施方式中，终端设备310与服务器320之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

在本申请实施例中，终端设备310为用户使用的计算机设备，该计算机设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、车载终端等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备310通过无线网络与服务器320连接，服务器320是一台服务器或若干台服务器组成的服务器集群或云计算中心，或者是一个虚拟化平台。

需要说明的是，本申请所公开的视频检测方法或装置，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。此外，上述所列举的深度语义特征、初始相似度、目标相似度等，这些数据可保存于区块链上。

需要说明的是，图3所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的视频检测方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图4所示，为本申请实施例提供的一种视频检测方法的实施流程图，这里以使服务器为执行主体为例进行举例说明的，该方法的具体实施流程如下：

S41：服务器获取待检测视频的深度语义特征，深度语义特征表征待检测视频中图像的内容信息；

S42：服务器基于深度语义特征，将待检测视频与各个候选视频进行匹配，获得待检测视频对应的至少两个候选视频，以及至少两个候选视频各自与待检测视频的初始相似度；

在本申请实施例中，深度语义特征可以是对应设定维度的深度语义向量，例如n维向量，n为正整数，比如1024。

需要说明的是，本申请实施例中的深度语义向量的维度可以根据存储和性能需求进行压缩；例如可以使用更大的2048维或更小的128维，通常实验表明视频的深度语义向量维度越大，存储信息越多，召回效果越好。此外，获取向量的存储格式，可以使用float，也可以对float进行离散化等，在此不做具体限定。

而在相关技术中，主要依赖重复图像识别的方法，利用SIFT，HOG等图像特征，进行图像级别的匹配；这些图像特征都是基于图像中梯度的方向直方图的特征提取方法，主要问题是特征量非常的大；一张图像就能产生成千上万的特征，而单一视频也包含大量的视频帧图像。特征量大导致存储巨大，数据冗余，检索复杂度高；且传统图像特征抗编辑能力差，对视频的轻微编辑则导致相关检索方案失效。

相比于相关技术，本申请实施例中采用低维的深度语义向量不仅可以大幅降低视频存储成本，而且还能够有效存储视频内容信息，用于大规模相似数据检索。

在一种可选的实施方式中，可通过计算待检测视频的深度语义向量与视频检索库中的各个候选视频的深度语义向量之间的距离，确定各个候选视频各自与待检测视频的初始相似度。该距离可以是余弦距离，或是欧式距离等，本申请中主要是以余弦距离为例进行举例说明的。

在计算得到各个候选视频对应的初始相似度后，即可选取对应的初始相似度满足预设关联关系的至少两个候选视频。其中，预设关联关系包括但不限于下述任意一种：

预设关联关系一、初始相似度次序符合预设排序位置，其中初始相似度次序是基于各个候选视频各自对应的初始相似度，对各个候选视频进行排序后确定的。

即，将各个候选视频按照初始相似度大小进行排序，比如按照从大到小排序，选取前N个候选视频，即TOP N的候选视频，N为正整数。

预设关联关系二、初始相似度超过第一预设阈值。

这里的第一预设阈值即相关技术中的固定阈值，一般可设置为90%（0.9），可根据实际情况进行调节，在此不做具体限定。

S43：服务器基于获得的各个初始相似度，确定待检测视频对应的相似度参考值，并采用相似度参考值，分别对各个初始相似度进行归一化调整，获得相应的目标相似度；

在一种可选的实施方式中，可以将各个初始相似度的平均值（即均值）、中值（即中位数）、方差中的至少一种，作为相似度参考值。

以待检测视频A为例，将对于该视频召回的TOP N个视频作为候选视频，这些候选视频与待检测视频A的初始相似度分别为{s1，s2，…，sn}，这些召回结果的统计均值（basescore：基本分数）S_b=average(s1，s2，…，sn)，S_b即为相似度参考值。

在一种可选的实施方式中，可基于如下方式对各个候选视频对应的初始相似度进一步调整，具体实现方式为：

分别将至少两个候选视频各自对应的初始相似度与相似度参考值的差值，作为相应的候选视频对应的目标相似度。

仍以上述所列举的待检测视频A为例，通过S_b归一化初始相似度，获得各个候选视频对应的目标相似度，则归一化后的目标相似度为{s1-S_b，s2–S_b，…，sn-S_b}。

需要说明的是，本申请采用了召回均值的方案归一化初始相似度，但实际操作中可以根据数据特点，采用其它方案。例如使用中位数替代均值；利用初始相似度的方差进行进一步归一化等。

除此之外，还可以采用中位数、均值、方差中的任意两个或多个结合的方式。以中位数和均值相结合为例，可以基于中位数对初始相似度进行一次归一化，得到各个候选视频对应的目标相似度1，基于均值对初始相似度进行一次归一化，得到各个候选视频对应的目标相似度2，再将各个候选视频各自对应的目标相似度1和目标相似度2之和（或是均值），作为最终各自对应的目标相似度，等等。此外，也可结合初始相似度和归一化结果后使用更复杂的判定规则等。在本文中，主要以使均值为例进行举例说明的。当对于其他的可选方式也是类似的道理，在此不再重复限定。

S44：服务器基于获得的各个目标相似度，从至少两个候选视频中筛选出待检测视频的重复视频。

在一种可选的实施方式中，筛选出该待检测视频的重复视频的具体方法为：

将候选视频序列中对应的目标相似度大于第二预设阈值的候选视频，作为待检测视频的重复视频，第二预设阈值是基于待检测视频的场景确定的。

例如，待检测视频为游戏类型时，对应的第二预设阈值为y1，待检测视频为教育类型时，对应的第二预设阈值为y2，待检测视频为电影类型时，对应的第二预设阈值为y3等等。

本申请考虑到对于一些特定的视频类型，例如游戏、动漫、电影、电视剧、网红视频，由于其剧情和画面高度重复，非常容易获得相似但并非重复的结果。因而，可以预先设置对应不同场景的第二预设阈值，这样针对不同的场景，采用动态阈值进行视频检测，可有效提高检测准确性。

参阅图5A至图5D所示，其为本申请实施例中所列举的几种基于深度语义向量视频检测系统高效准确召回样例。

具体地，图5A为本申请实施例中的第一种重复视频示意图，其中，图5A所示表示的是裁剪特效样例，即图5A中的左右两个视频画面是通过视频裁剪得到的；图5B为本申请实施例中的第二种重复视频示意图，其中，图5B所示表示的是镜面特效样例，即图5B中的左右两个视频画面成镜像关系；图5C为本申请实施例中的第三种重复视频示意图，其中，图5C所示表示的是短视频交叉包含的样例，即图5C中的左右两个视频为两个包含部分重叠的短视频；图5D为本申请实施例中的第二种重复视频示意图，其中，图5D所示表示的是长视频交叉包含的样例，即图5D中的左右两个视频为两个包含部分重叠的长视频。

由上述结果可知，深度语义向量的特征向量规模小、识别准确率高，能够有效的解决在相关字幕、裁剪、包含关系等干扰下的漏匹配的视频比较问题。在实际生产系统对于以上产品推荐场景下都能够实现高效准确的召回。

下面对步骤S41的实施过程进行详细介绍：

一种可选的实施方式为，可以按照如图6所示的流程图实施S41。图6为本申请实施例中的一种获取深度语义特征的方法示意图，包括以下步骤：

S61：服务器对待检测视频进行抽帧处理，获得至少两个目标视频帧；

具体的抽帧方式为：按照设定的时间间隔，对待检测视频进行抽帧。比如，每隔t时间抽取一帧视频帧。

该步骤可以基于多任务模型实现，将待检测视频输入该多任务模型，基于该多任务模型对该待检测视频进行抽帧，假设获取了三个视频帧，则可将这三个视频帧作为目标视频帧。

S62：服务器分别对至少两个目标视频帧进行特征提取，获取至少两个目标视频帧各自对应的帧图像特征；

该步骤也可以基于前述的多任务模型来实现，本申请实施例中的多任务模型具体可以包括：深度图像子网络（例如图8中的深度图像模型Deep Image Model）。

比如将上述步骤抽取得到的三个目标视频帧分别输入该多任务模型中的深度图像子网络；基于深度图像子网络对至少两个目标视频帧进行特征提取，获取至少两个目标视频帧各自对应的帧图像特征。

S63：服务器对获得的各个帧图像特征进行特征聚合，获得待检测视频的深度语义特征。

同样地，该步骤也可基于多任务模型来实现，本申请实施例中的多任务模型还可以包括：图像特征聚合子网络（例如图8中的NeXtVLAD）。

具体地，将上述步骤获取的三个帧图像特征输入多任务模型中的图像特征聚合子网络；基于图像特征聚合子网络，对者三个帧图像特征进行特征聚合，获得该待检测视频的深度语义特征。

其中，多任务模型是基于训练样本数据集训练得到的，多任务模型对应的多任务至少包括视频分类任务和视频标签提取任务；训练样本数据集包括多个训练样本，每个训练样本包括一个样本视频，以及样本视频对应的真实类别和标签。

通过上述实施方式，来对待检测视频进行深度语义特征的提取，不需要进行关键帧提取和关键帧匹配，只需抽帧即可，并且，最终提取的深度语义特征是视频级别的特征，该特征的维度较低且固定，可以有效降低存储成本和存储空间，且利用深度学习的方式来提取，鲁棒性更高。

在本申请实施例中，可采用图7所示的视频拷贝检测系统来检测两个视频是否重复。如图7所示，其为本申请实施例中的一种视频拷贝检测系统的框图，该视频拷贝检测系统主要分为四大技术模块：深度语义向量生成模块，深度语义向量检索模块，深度语义向量离群点检测模块，视频重复集合聚合模块。模块间关系见图7。

下面将对各个模块分别进行详细介绍：

一、深度语义向量生成模块。

本申请中的深度语义向量生成模块用于将视频文件转换为视频Embedding，即深度语义向量。该模块可基于多任务模型实现，如图8所示，其为本申请实施例中的一种多任务模型的结构示意图。

基于多任务模型提取深度语义向量时，主要包括以下几个处理过程：

1、对视频进行抽帧；

即，首先将待检测视频输入图8所示的多任务模型进行抽帧，具体抽帧方式可参见上述实施例，重复之处不再赘述。

2、通过Deep Image Model（即深度图像子网络）获取帧图像特征；

首先，Deep Image Model可以是传统的深度图像模型，如移动网络（mobileNet），残差网络（RestNet），视觉几何体组（Visual Geometry Group，VGG），深度网络（DenseNet），高效网络（EfficientNet）等，本申请并不限定深度图像模型的使用。

3、通过NeXtVLAD算法使帧特征聚合；

如图8所示，该步骤可以基于图像特征聚合子网络NeXtVLAD实现的，NeXtVLAD是一种图像特征聚合模型，主要用于将视频帧粒度特征（即上一步骤获取到的帧图像特征）聚合为特定维度的视频特征（即深度语义特征），该子网络可以根据实际需求进行替换。

4、多任务模型输出任务目标。

其中，在多任务模型的训练过程中，以视频分类，视频标签等多任务为目标。另外，为了能够更好的聚合图像特征，本申请采用了视频分类和视频标签作为监督，在实际操作中可以替换为其它监督学习策略或自监督学习策略。

通过上述步骤，最终获取模型分类前的隐藏层1024维float向量，这个向量就是视频的深度语义向量。

二、深度语义向量检索模块。

通过深度语义向量对向量库进行检索，向量检索可以有很多种方式和方法，本申请主要使用Faiss检索系统（一款稠密向量检索工具）。本申请基于Faiss检索系统进行改造，添加了大小索引的机制，大索引只接收读请求，小索引接收读写请求，有效解决了整体查询以及写的速度，保障整个系统的高效、低延时运行。深度语义向量通过相似距离（余弦距离）在视频检索库中进行检索，检索出相似的TOP N的候选视频，其中N的数值结合业务定制，在此不做具体限定。

三、深度语义向量离群点检测模块。

在获取检索完毕后的TOP N的候选视频之后，如何选取其中真正重复的视频的方法很多种类，本申请通过Embedding离群点进行检测。完美的视频Embedding（即深度语义向量）可以通过单一阈值区分重复视频和非重复视频，但现实方案由于不同分类的视频多样性却难以实现。因此，本申请实施例采用离群点检测方法来确定动态阈值，用来自适应各种编辑和类别导致的视频Embedding相似度变化。

具体地，对于任意两个视频A、B，这两个视频的L2归一化后的Embedding分别Xa= {a₁,a₂,…,a_n},Xb={b₁,b₂,…,b_n}；其中n为视频的维度，为正整数（如1024）。这两个视频的距离（初始相似度）为：

。因此，对于一个实际的Embedding，本申请在相应的视频检索库中，可以进行TOP N视频召回。

如图9所示，其为本申请实施例中的一种相似视频召回结果示意图。该图表示对示例视频1~4，在视频检索库中进行TOP N召回的结果，该图横轴为召回的TOP N的候选视频的初始相似度；可以发现，视频3和视频4相似召回离群点十分明显。而通过线下人工检查发现，视频3和视频4召回的视频中离群点对应的视频均为重复视频。可以发现，如果使用单一余弦相似度>0.9阈值判定是否重复，则会导致重复视频大量误召回和召回不足。因此，本申请基于召回结果设计一个动态阈值，以实现有效召回。

具体的，本申请采用均值衡量的异常值检测方法。对以待检测视频A，召回的TOP N个视频各自对应的初始相似度分别为{s1,s2,…,sn}，计算这些召回结果的统计均值S_b =average(s1, s2,…, sn)；通过S_b归一化初始相似度，则归一化后的目标相似度为{s1 -S_b,s2 - S_b,…,sn - S_b}，归一化结果如图10所示。

参阅图10所示，其为本申请实施例中的一种归一化后相似视频召回结果示意图。比如，设置第二预设阈值为0.1，则由图10可知，视频3和视频4召回的视频中离群点对应的视频均为重复视频。通过简单的自适应相似度，本申请能够实现将重复视频和非重复视频迅速分离。

四、视频重合集合聚合模块。

结合Embedding离群点的过滤模块实时产生的离群点动态阈值baseScore S_b，根据上述归一化后的目标相似度为{s1 - S_b,s2 - S_b,…,sn - S_b}，重新排序后，输出本申请经重新排序的视频拷贝检测关系链。例如：假设对于待检测视频A，基于初始相似度检索出的相似关系集合

，经过离群点计算修正后排序后，得到重新排序的视频集合结果，也称离群点视频集合

，即本申请实施例中的候选视频序列。最终本申请得到的结果即为相似的视频关系，进行拷贝检测的关系链输出。

在本申请实施例中，视频拷贝检测系统的原则是判定两个视频是否重复，是保护号主生产的视频版权和视频推荐流量权重分配的重要方式。基于短视频的视频产品日益增多，视频拷贝的快速检测显得特别的重要和备受用户关注。号主每日的千亿资源视频检索库规模之巨大，如何快速的在海量数据准确检测，是视频拷贝检测核心。基于此，本申请实施例中提出的基于离群点的深度语义向量的自适应视频拷贝检测系统，由于其基于深度学习模型训练的特征向量规模小、识别准确率高，能够有效的解决在相关字幕、裁剪、包含关系等干扰下的漏匹配的视频比较问题。本产品在实际生产系统对于以下产品推荐场景下都能够实现高效准确的召回。

在一种可选的实施方式中，通过基于目标相似度排序获得的候选视频序列之后，除了可以从中筛选出待检测视频的重复视频，还可基于该序列进行视频推荐，具体方法为：

按照候选视频序列中的至少两个候选视频之间的顺序，分别确定至少两个候选视频各自对应的推荐权重；按照获得的各个推荐权重，对应相应的候选视频进行推荐。

例如，排序越靠前，表明该候选视频和待检测视频越相似，对应的推荐权重越小，反之，推荐权重越高。或者，排序越靠前，对应的推荐权重越大，反之，推荐权重越小，等等，在此不做具体限定。

基于上述实施方式进行视频推荐时，也可有效保护号主生产的视频版权，以减少或规避重复视频的推荐。

在本申请实施例中通过对视频，有效、科学的进行视频的相似比对，减少用户、号主等负面反馈，保护信息流的业务的版权。并且，通过实验发现，某应用线上视频在使用该系统后，相对原有识别系统基础上新增相似召回10%，该系统识别评测准确率在95%以上。很显然，本申请实施例中的视频检测方法的准确性更高。

参阅图11所示，其为本申请实施例中的一种视频重复检测和视频推荐的总流程示意图。该方法的具体实施流程如下：

步骤S1101：服务器对待检测视频A进行抽帧处理，获得多个目标视频帧；

步骤S1102：服务器分别对多个目标视频帧进行特征提取，获取多个目标视频帧各自对应的帧图像特征；

步骤S1103：服务器对获得的各个帧图像特征进行特征聚合，获得待检测视频A的深度语义特征；

步骤S1104：服务器基于深度语义特征，将待检测视频A与各个候选视频进行匹配，获得待检测视频A对应的4个候选视频，以及这4个候选视频各自与待检测视频A的初始相似度；

步骤S1105：服务器将获得的各个初始相似度的平均值，作为该待检测视频A对应的相似度参考值；

步骤S1106：服务器采用相似度参考值，分别对各个初始相似度进行归一化调整，获得相应的目标相似度；

步骤S1107：服务器基于获得的各个目标相似度，对多个候选视频进行排序，获得待检测视频A对应的候选视频序列；

步骤S1108：服务器将候选视频序列中对应的目标相似度大于设定阈值的候选视频，作为待检测视频的重复视频；

步骤S1109：服务器按照候选视频序列中的多个候选视频之间的顺序，分别确定多个候选视频各自对应的推荐权重；

步骤S1110：服务器按照获得的各个推荐权重，对应相应的候选视频进行推荐。

需要说明的是，步骤S1108和步骤S1109之间的执行顺序不做具体限定，图11只是举例说明，另外，步骤S1107也可省略，在省略步骤S1107的情况下，步骤S1108即为：将候选视频中对应的目标相似度大于设定阈值的候选视频，作为待检测视频的重复视频，步骤S1109即为：按照各个候选视频序列对应的目标相似度的大小，分别确定多个候选视频各自对应的推荐权重。在此不做具体限定。

基于相同的发明构思，本申请实施例还提供一种视频检测装置。如图12所示，其为本申请实施例中的一种视频检测装置1200的结构示意图，可以包括：

获取单元1201，用于获取待检测视频的深度语义特征，深度语义特征表征待检测视频中图像的内容信息；

匹配单元1202，用于基于深度语义特征，将待检测视频与各个候选视频进行匹配，获得待检测视频对应的至少两个候选视频，以及至少两个候选视频各自与待检测视频的初始相似度；

调整单元1203，用于基于获得的各个初始相似度，确定待检测视频对应的相似度参考值，并采用相似度参考值，分别对各个初始相似度进行偏差调整，获得相应的目标相似度；

筛选单元1204，用于基于获得的各个目标相似度，从至少两个候选视频中筛选出待检测视频的重复视频。

可选的，深度语义特征为对应设定维度的深度语义向量；匹配单元1202具体用于：

分别基于待检测视频的深度语义向量，与各个候选视频的深度语义向量之间的距离，确定相应的候选视频与待检测视频的初始相似度；

选取对应的初始相似度满足预设关联关系的至少两个候选视频。

可选的，预设关联关系包括：

初始相似度次序符合预设排序位置，其中初始相似度次序是基于各个候选视频各自对应的初始相似度，对各个候选视频进行排序后确定的；

或者，初始相似度超过第一预设阈值。

可选的，调整单元1203具体用于：

将各个初始相似度的平均值、中值、方差中的至少一种，作为相似度参考值。

可选的，调整单元1203具体用于：

可选的，筛选单元1204具体用于：

将至少两个候选视频中对应的目标相似度大于第二预设阈值的候选视频，作为待检测视频的重复视频，第二预设阈值是基于待检测视频的场景确定的。

可选的，获取单元1201具体用于：

对待检测视频进行抽帧处理，获得至少两个目标视频帧；

分别对至少两个目标视频帧进行特征提取，获取至少两个目标视频帧各自对应的帧图像特征；

对获得的各个帧图像特征进行特征聚合，获得待检测视频的深度语义特征。

可选的，获取单元1201具体用于：

将至少两个目标帧输入已训练的多任务模型中的深度图像子网络；

基于深度图像子网络对至少两个目标视频帧进行特征提取，获取至少两个目标视频帧各自对应的帧图像特征；

将各个帧图像特征输入多任务模型中的图像特征聚合子网络；

基于图像特征聚合子网络，对各个帧图像特征进行特征聚合，获得深度语义特征；

可选的，装置还包括：

推荐单元1205，用于在调整单元1203获得相应的目标相似度之后，基于获得的各个目标相似度，对至少两个候选视频进行排序，获得待检测视频对应的候选视频序列；

按照候选视频序列中的至少两个候选视频之间的顺序，分别确定至少两个候选视频各自对应的推荐权重；

按照获得的各个推荐权重，对应相应的候选视频进行推荐。

在上述实施方式中，在基于视频的深度语义特征获取视频之间的初始相似度之后，筛选出至少两个候选视频之后，基于各个候选视频各自对应的初始相似度，进一步确定出了待检测视频对应的相似度参考值，并基于该参考值，对初始相似度进一步调整后，基于调整得到的目标相似度来对候选视频重新排序，获得最终的检测结果。由于本申请实施例并非是直接将这些候选视频作为检测结果，而是基于目标相似度来对候选视频重新排序，获得最终的检测结果。由于各个候选视频对应的目标相似度是通过对相应的候选视频对应的初始相似度进行偏差调整后得到的，因而可以获取更加准确的检测结果。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

在一些可选的实施方式中，根据本申请的视频检测装置可以至少包括处理器和存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书中描述的根据本申请各种示例性实施方式的视频检测方法中的步骤。例如，处理器可以执行如图4中所示的步骤。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图3所示的服务器320。在该实施例中，电子设备的结构可以如图13所示，包括存储器1301，通讯模块1303以及一个或多个处理器1302。

存储器1301，用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1301可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1301也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1301可以是上述存储器的组合。

处理器1302，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器1302，用于调用存储器1301中存储的计算机程序时实现上述视频检测方法。

通讯模块1303用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1301、通讯模块1303和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1304连接，总线1304在图13中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1304可以分为地址总线、数据总线、控制总线等。为便于描述，图13中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1301中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的视频检测方法。处理器1302用于执行上述的视频检测方法，如图4所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图3所示的终端设备310。在该实施例中，电子设备的结构可以如图14所示，包括：通信组件1410、存储器1420、显示单元1430、摄像头1440、传感器1450、音频电路1460、蓝牙模块1470、处理器1480等部件。

通信组件1410用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1420可用于存储软件程序及数据。处理器1480通过运行存储在存储器1420的软件程序或数据，从而执行终端设备310的各种功能以及数据处理。存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1420存储有使得终端设备310能运行的操作系统。本申请中存储器1420可以存储操作系统及各种应用程序，还可以存储执行本申请实施例视频检测方法的代码。

显示单元1430还可用于显示由用户输入的信息或提供给用户的信息以及终端设备310的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元1430可以包括设置在终端设备310正面的显示屏1432。其中，显示屏1432可以采用液晶显示器、发光二极管等形式来配置。显示单元1430可以用于显示本申请实施例中的视频相关界面等。

显示单元1430还可用于接收输入的数字或字符信息，产生与终端设备310的用户设置以及功能控制有关的信号输入，具体地，显示单元1430可以包括设置在终端设备310正面的触摸屏1431，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1431可以覆盖在显示屏1432之上，也可以将触摸屏1431与显示屏1432集成而实现终端设备310的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1430可以显示应用程序以及对应的操作步骤。

摄像头1440可用于捕获静态图像，用户可以将摄像头1440拍摄的图像通过应用发布评论。摄像头1440可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1480转换成数字图像信号。

终端设备还可以包括至少一种传感器1450，比如加速度传感器1451、距离传感器1452、指纹传感器1453、温度传感器1454。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1460、扬声器1461、传声器1462可提供用户与终端设备310之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出。终端设备310还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出至通信组件1410以发送给比如另一终端设备310，或者将音频数据输出至存储器1420以便进一步处理。

蓝牙模块1470用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1470与同样具备蓝牙模块的可穿戴电子设备（例如智能手表）建立蓝牙连接，从而进行数据交互。

处理器1480是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1420内的软件程序，以及调用存储在存储器1420内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1480可包括一个或多个处理单元；处理器1480还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1480中。本申请中处理器1480可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的视频检测方法。另外，处理器1480与显示单元1430耦接。

在一些可选的实施方式中，本申请提供的视频检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频检测方法中的步骤，例如，电子设备可以执行如图4中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网（LAN）或广域网（WAN）连接到用户计算装置，或者，可以连接到外部计算装置（例如利用因特网服务提供商来通过因特网连接）。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频检测方法，其特征在于，该方法包括：

基于获得的各个初始相似度，确定所述待检测视频对应的相似度参考值，并分别将所述至少两个候选视频各自对应的初始相似度与所述相似度参考值的差值，作为相应的候选视频对应的目标相似度；

基于获得的各个目标相似度，将所述至少两个候选视频中对应的目标相似度大于第二预设阈值的候选视频，作为所述待检测视频的重复视频，所述第二预设阈值是基于预设关系确定的与所述待检测视频的场景对应的阈值；以及，

基于所述各个目标相似度，对所述至少两个候选视频进行排序，获得所述待检测视频对应的候选视频序列；按照所述候选视频序列中的所述至少两个候选视频之间的顺序，分别确定所述至少两个候选视频各自对应的推荐权重；按照获得的各个推荐权重，对相应的候选视频进行推荐。

2.如权利要求1所述的方法，其特征在于，所述深度语义特征为对应设定维度的深度语义向量；所述基于所述深度语义特征，将所述待检测视频与各个候选视频进行匹配，获得所述待检测视频对应的至少两个候选视频，包括：

分别基于所述待检测视频的深度语义向量，与所述各个候选视频的深度语义向量之间的距离，确定相应的候选视频与所述待检测视频的初始相似度；

3.如权利要求2所述的方法，其特征在于，所述预设关联关系包括：

初始相似度次序符合预设排序位置，其中所述初始相似度次序是基于所述各个候选视频各自对应的初始相似度，对所述各个候选视频进行排序后确定的；

或者，

初始相似度超过第一预设阈值。

4.如权利要求1所述的方法，其特征在于，所述基于获得的各个初始相似度，确定所述待检测视频对应的相似度参考值，包括：

将所述各个初始相似度的平均值、中值、方差中的至少一种，作为所述相似度参考值。

5.如权利要求1所述的方法，其特征在于，所述获取待检测视频的深度语义特征，包括：

6.如权利要求5所述的方法，其特征在于，所述分别对所述至少两个目标视频帧进行特征提取，获取所述至少两个目标视频帧各自对应的帧图像特征，包括：

将所述至少两个目标视频帧输入已训练的多任务模型中的深度图像子网络；

所述对获得的各个帧图像特征进行特征聚合，获得所述待检测视频的深度语义特征，包括：

7.一种视频检测装置，其特征在于，包括：

调整单元，用于基于获得的各个初始相似度，确定所述待检测视频对应的相似度参考值，并分别将所述至少两个候选视频各自对应的初始相似度与所述相似度参考值的差值，作为相应的候选视频对应的目标相似度；

筛选单元，用于基于获得的各个目标相似度，将所述至少两个候选视频中对应的目标相似度大于第二预设阈值的候选视频，作为所述待检测视频的重复视频，所述第二预设阈值是基于预设关系确定的与所述待检测视频的场景对应的阈值；以及，

8.如权利要求7所述的装置，其特征在于，所述深度语义特征为对应设定维度的深度语义向量；所述匹配单元具体用于：

9.如权利要求8所述的装置，其特征在于，所述预设关联关系包括：

或者，

初始相似度超过第一预设阈值。

10.如权利要求7所述的装置，其特征在于，所述调整单元具体用于：

11.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1~6中任一所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其包括程序代码，当程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1~6中任一所述方法的步骤。