CN113761282B

CN113761282B - 视频查重方法、装置、电子设备以及存储介质

Info

Publication number: CN113761282B
Application number: CN202110512890.4A
Authority: CN
Inventors: 谭维; 李松南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2023-07-25
Anticipated expiration: 2041-05-11
Also published as: CN113761282A

Abstract

提供了一种视频查重方法、装置、电子设备以及存储介质，涉及网络媒体的视频处理领域，该方法包括：获取待处理视频；提取该待处理视频的多个模态特征；针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合；基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度；基于该最终相似度确定该待处理视频是否通过查重检测。本申请提供的方法能够在保证查重效率的基础上，从多个模态特征的角度分析待处理视频是否通过查重检测，增强视频查重工具的鲁棒性的同时，提高了视频查重的准确性。

Description

视频查重方法、装置、电子设备以及存储介质

技术领域

本申请实施例涉及网络媒体的视频处理领域，并且更具体地，涉及视频查重方法、装置、电子设备以及存储介质。

背景技术

随着网络视频平台的快速发展，视频的数量急剧增加，为了确保用户的视频体验，需对视频平台的视频进行查重检测。

截止目前，在视频查重的方法中，人工查重需要耗费大量的人力，且人的记忆力有限，在大规模视频集查重中容易出现错漏，所以需引入自动化的查重工具；但是，由于制作重复视频的方法较多，例如画中画、添加字幕、马赛克、添加边框、变速播放、黑白变色、空间裁剪、时间裁剪、插入黑屏等，目前的自动查重工具都是提取个别帧进行图像特征对比，方案鲁棒性较差。

发明内容

本申请实施例提供了一种视频查重方法、装置、电子设备以及存储介质，能够在保证查重效率的基础上，从多个模态特征的角度进行分析待处理视频是否通过查重检测，增强了视频查重系统的鲁棒性，进而提高了视频查重的准确性。

一方面，本申请提供了一种视频查重方法，包括：

获取待处理视频；

提取该待处理视频的多个模态特征；

针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合；

基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度；

基于该最终相似度确定该待处理视频是否通过查重检测。

另一方面，本申请提供了一种视频查重装置，包括：

获取单元，用于获取待处理视频；

提取单元，用于提取该待处理视频的多个模态特征；

计算单元，用于针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合；

第一确定单元，用于基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度；

第二确定单元，用于基于该最终相似度确定该待处理视频是否通过查重检测。

另一方面，本申请实施例提供了一种电子设备，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被该处理器执行时，实现上述数据上报方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述数据上报方法。

基于以上方案，通过提取待处理视频的多个模态特征，针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合，相当于，从多个模态特征的角度对待处理视频进行相似度分析，通过计算多个模态特征分别对应的多个相似度集合，即确定出待处理视频在每一个模态特征下的相似视频的相似度集合；基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度，并基于该最终相似度确定该待处理视频是否通过查重检测，相当于，基于多个模态特征分别对应的多个最相似视频的相似度，确定最终相似度，并基于最终相似度确定待处理视频是否通过查重检测，提高视频查重的准确性。即，本申请提供的视频查重方法，通过从多个模态特征的角度分别确定出多个最相似视频的相似度，并基于多个最相似视频的相似度综合评估待处理视频是否通过查重检测，该方法从不同的模态特征角度自动分析待处理视频，一方面，不仅降低了视频查重平台的查重成本和存储成本，而且提高了视频查重的准确度，提升用户的视频观看体验；另一方面，规避了目前制作重复视频的黑产技术侵入，从而更好的保护视频平台的资源。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频查重方法的场景示意图。

图2是本申请实施例提供的系统框架的示例。

图3是本申请实施例提供的是视频查重方法的示意性流程图。

图4是本申请实施例提供的用于提取待处理视频的图像特征的系统框架的示例。

图5是本申请实施例提供的用于提取待处理视频的时序特征的系统框架的示例。

图6是本申请实施例提供的用于提取待处理视频的声音特征的系统框架的示例。

图7是本申请实施例提供的视频查重装置的示意性框图。

图8是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的方案可涉及人工智能技术。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision,CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案还涉及网络媒体领域中的视频处理技术。网络媒体与传统的音视频设备采用的工作方式不同，网络媒体依赖信息技术(IT)设备开发商们提供的技术和设备来传输、存储和处理音视频信号。传统的串型数字(SDI)传输方式缺乏真正意义上的网络交换特性。需要做大量的工作才可能利用SDI创建类似以太网和因特网协议(IP)所提供的部分网络功能。因此，视频行业中的网络媒体技术就应运而生。进一步的，网络媒体的视频处理技术可以包括音视频信号的传输、存储和处理过程。其中，语音识别技术ASR(Automatic Speech Recognition)是一种将人的语音转换为文本的技术，其最大优势在于使得人机用户界面更加自然和容易使用。

更具体的，本申请涉及一种视频查重方法，该视频查重方法可通过视频查重装置实现。需要说明的是，该视频查重装置可以集成在服务器中，服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图1是本申请实施例提供的场景100的示意图。

如图1所示，该视频查重装置集成在服务器中，上传者可向网络视频平台上传了一段新视频，用户可通过该网络视频平台的接口进入到该网络视频平台。在视频查重过程中，首先，服务器提取该上传者上传的新视频的多个模态特征；然后，针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合；最后，基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度，并基于该最终相似度确定该新视频是否为重复视频。若不是重复视频，则将该新视频的多个模态特征添加到模态特征对应的特征库中；若为重复视频，则不入库。

通过该视频装置对用户新上传的视频进行查重检测，一方面，无需人工查重，避免耗费大量的人力，节约查重成本，而且人的记忆力有限，在大规模视频集中查重中容易出现错漏，通过该查重装置提高了查重的准确性；另一方面，相对于目前的自动查重方案都是提取个别帧进行图像特征对比，方案的鲁棒性增强，查重的准确性提高。

换言之，本申请通过提取待查重视频的多个模态特征，从多个模态特征的角度对待处理视频进行相似度分析，即对比不同的模态特征下新视频和已有视频的特征相似度，确定多个模态特征下每一个模态特征的相似视频的相似度集合，并基于多个相似度集合中的最高相似度综合评估该新视频是否重复，不仅增强了方案的鲁棒性，而且能够更加精确的识别待处理视频是否为重复视频，提高了视频查重的准确度，进而提升用户的视频观看体验。

图2是本申请实施例提供的系统框架200的示例。

需要说明的是，本申请实施例提供的系统框架200可以集成在服务器中，服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不作具体限制。例如，图1所示的服务器。

需要说明的是，可以通过多种形式实现本申请提供的视频查重方法。以web接口为例，可通过web接口向服务器上传视频，以便服务器对上传的视频执行本申请提供的视频查重方法。此外，实际应用中，一个视频可以从不同的角度进行描述，例如视频标题的文字描述、表达视频主要内容的标题图、描述视频详细内容的多个图像帧、刻画视频表达的音频等。所使用的描述角度越丰富，对该视频的表示就越准确。示例性的，本申请实施例提供的系统框架以提取待处理视频中的图像特征、时序特征和声音特征为例进行阐述，当然，在其他可替代实施例中，也可以提权待处理视频的其他模态特征，本申请对此不作具体限制。

下边将以提取待处理视频中的图像特征、时序特征和声音特征为例对本申请提供的系统框架进行详细阐述。

如图2所示，该系统框架200可包括：图像特征提取器201、时序特征提取器210、声音特征提取器220、图像特征库202、时序特征库211、声音特征库221以及最终相速度确定模块230。其中，图像特征提取器201可用于提取待处理视频的图像特征，时序特征提取器210可用于提取待处理视频的时序特征，声音特征提取器220可用于提取待处理视频的声音特征。图像特征库202可用于将图像特征提取器201提取的图像特征与库中的特征进行对比并输出图像特征的最高相似度，时序特征库211可用于将时序特征提取器220提取的时序特征和库中的特征对比并输出时序特征的最高相似度，声音特征库221可用于将声音特征提取器230提取的声音特征和库中的特征对比并输出声音特征的最高相似度。最终相速度确定模块230可基于图像特征的最高相似度、时序特征的最高相似度以及声音特征的最高相似度，确定该待处理视频的最终相似度。

下边将对本申请实施例提供的技术方案的操作步骤进行说明。

步骤1：

网络媒体平台获取用户上传的待处理视频，并将该待处理视频发送至系统框架200，以便利用该系统框架200的3个分支对待处理视频进行处理，具体可包括步骤2、步骤3、步骤4。

步骤2：

通过已训练好的深度学习模型(图像特征提取器201)提取待处理视频的图像特征，将图像特征与图像特征库202(用户已有视频的图像特征)中的特征分别进行相似度计算，得到图像特征相似度集合，进而得到图像特征相似度集合中的图像特征的最高相似度。

步骤3：

通过已训练好的深度学习模型(图像特征提取器210)提取待处理视频的时序特征，将时序特征与时序特征库211(用户已有视频的时序特征)中的特征分别进行相似度计算，得到时序特征相似度集合，进而得到时序特征相似度集合中的时序特征的最高相似度。

步骤4：

通过声音特征提取器220提取待处理视频的声音特征，将声音特征与声音特征库221(用户已有视频的声音特征)中的特征分别进行相似度计算，得到声音特征相似度集合，进而得到声音特征相似度集合中的声音特征的最高相似度。

通过最终相似度确定模块230对步骤2、步骤3、步骤4中分别得到的图像特征的最高相似度、时序特征的最高相似度、声音特征的最高相似度进行计算，得到待处理视频的最终相似度，从而判断输入视频与已有视频是否重复。

示例性的，可以按照第一规则对多个模态特征分别对应的最高相似度进行计算，该第一规则可以是通过对多个模态特征分别对应的最高相似度进行加权求和，再将求和结果进行平均运算，得到最终相似度。可选的，每个模态特征的权重可根据视频的内容确定，也可以根据视频的标题确定，本申请对此不作具体限制；当然，也可直接对模态特征的最高相似度进行求和平均得到最终相似度，本申请对此不作具体限制。

需要说明的是，本申请涉及的深度学习模型可以是预先构建好的卷积神经网络模型，通过该模型可提取模态特征。具体的，该模型可基于已有的视频类别标注，通过使用已有视频的多个模态特征训练原始的卷积网络训练模型，使模型具备提取视频多个模态特征的能力；另外，多个模态特征与对应模态特征库中的特征分别进行相似度计算的方法可包括：欧氏距离、汉明距离、编辑距离或者余弦相似度中的任一项，本申请对此不作具体限制。

由上可知，通过提取待处理视频的多个模态特征，并行对多个模态特征和对应模态特征库中的已有视频的特征进行相似度计算，得到多个模态特征分别对应的多个相似度集合，并基于多个相似度集合中的多个最高相似度确定出最终相似度，并基于最终相似度确定待处理视频是否通过查重检测，即通过多个模态特征的角度对待处理视频的相似度进行分析，不仅增强了方案的鲁棒性，而且提高了视频查重的准确度，进而降低平台存储重复视频的空间代价、也提升用户的视频观看体验。

为便于理解，下面对卷积神经网络中的相关术语进行说明。

卷积神经网络结构可包括：卷积层，池化层，全链接层。

卷积层(convolutional layer)：

卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，类似于一个前馈神经网络的神经元(neuron)。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小，其中，卷积层的参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸，是卷积神经网络的超参数。其中卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂，卷积步长即卷积核相邻两次扫过特征图时位置的距离；填充即由于随着卷积层的堆叠，特征图的尺寸会逐步减小，填充是在特征图通过卷积核之前人为增大其尺寸以抵消计算中尺寸收缩影响的方法。常见的填充方法为按0填充和重复边界值填充(replication padding)，总之，通过卷积运算，可以使原信号特征增强，并且降低噪音。

池化层(Pooling Layer)：

当特征图的尺寸不同时，密集块的内部无法通过密集连接的方式实现。密度卷积网络将网络分成了多层密集连接的密集块，密集块之间需要进行下采样操作，由于网络中每层都接受前面所有层的特征作为输入，为了避免随着网络层数的增加，后面层的特征维度增长过快，在每个阶段之后进行下采样的时候，首先通过一个卷积层将特征维度压缩至当前输入的一半，然后再进行下采样操作。具体地，通过转换层中的池化层进行下采样操作。采样是使用池化(pooling)的相关技术来实现的，用于在降低特征的维度并保留有效信息的基础上，一定程度上避免过拟合。此外，还用于保持旋转、平移、伸缩不变形等。采样包括最大值采样，平均值采样，求和区域采样和随机区域采样等。类似的，池化也可分为最大值池化，平均值池化，随机池化以及求和区域池化等。

全连接层(fully-connected layer)：

卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号全连接层的作用则是对提取的特征进行非线性组合以得到输出，即全连接层本身不被期望具有特征提取能力，而是试图利用现有的高阶特征完成学习目标。在一些卷积神经网络中，全连接层的功能可由全局均值池化取代，全局均值池化会将特征图每个通道的所有值取平均。

图3是本申请实施例提供的是视频查重方法300的示意性流程图。

需要说明的是，本申请实施例提供的方案可通过任何具有数据处理能力的电子设备执行。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制；例如，图1所示的服务器。

如图3所示，该方法300可包括以下中的部分或全部内容：

S301，获取待处理视频；

S302，提取该待处理视频的多个模态特征；

S303，针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合；

S304，基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度；

S305，基于该最终相似度确定该待处理视频是否通过查重检测。

作为示例，服务器获取待处理视频，提取待处理视频的多个模态特征，针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合，基于多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度，并基于最终相似度确定该待处理视频是否通过查重检测。可选的，该多个模态特征可以是图像特征、时序特征、声音特征；当然也可以是其他的视频特征，例如，视频标题的文字描述、表达视频主要内容的标题图等，即本申请对多个模态特征的具体类型不作具体限制。通常情况下，多个模态特征的类型越多，对待处理视频的评估就越精确。

通过提取待处理视频的多个模态特征，针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合，相当于，从多个模态特征的角度对待处理视频进行相似度分析，通过计算多个模态特征分别对应的多个相似度集合，即确定出待处理视频在每一个模态特征下的相似视频的相似度集合；基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度，并基于该最终相似度确定该待处理视频是否通过查重检测，相当于，基于多个模态特征分别对应的多个相似视频的相似度集合中的最高相似度，确定最终相似度，并基于最终相似度确定待处理视频是否通过查重检测，不仅增强了方案的鲁棒性，而且能够更加精确的识别待处理视频是否为重复视频，提高了视频查重的准确度，进而提升用户的视频观看体验。即，本申请提供的视频查重方法，通过从多个模态特征的角度分别确定出多个最相似视频的相似度，并基于多个最相似视频的相似度综合评估待处理视频是否通过查重检测，该方法从不同的模态特征角度自动分析待处理视频，一方面，不仅降低了视频查重平台的查重成本和存储成本，而且提高了视频查重的准确度，提升用户的视频观看体验；另一方面，规避了目前制作重复视频的黑产技术侵入，从而更好的保护视频平台的资源。

在一些实施例中，该多个模态特征包括图像特征；该S302可包括：

按固定时间间隔对待处理视频进行抽帧；针对抽取的多个图像帧中的每一个图像帧，利用卷积神经网络，以该图像帧为输入，得到该多个图像帧分别对应的多个特征图；对该多个图像帧分别对应的多个特征图进行归一化及平均处理，得到该待处理视频的特征图；对该待处理视频的特征图进行降维处理，得到该图像特征。

在一种实现方式中，针对抽取的多个图像帧中的每一个图像帧，利用卷积神经网络，以该图像帧为输入，获取该图像帧在该卷积神经网络中多个卷积层分别输出的多个特征图；针对该每一个图像帧，对该多个卷积层分别输出的多个特征图进行融合，得到该多个图像帧分别对应的多个融合后的特征图；将该多个图像帧分别对应的多个融合后的特征图，作为该多个图像帧分别对应的多个特征图。

在一种实现方式中，该多个卷积层分别为该卷积神经网络中多个卷积块中的每一个卷积块中的最后一个卷积层。

下面结合图4所示的系统框架对提取待处理视频的图像特征的具体实现方式进行说明。

图4是本申请实施例提供的用于提取待处理视频的图像特征的系统框架400的示例。

需要说明的是，本申请实施例提供的系统框架400可通过任何具有提取视频多个模态特征的能力的电子设备实现。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。例如，该系统框架400可集成至图1所示的服务器。

如图4所示，该系统框架400可包括抽帧模块401、卷积网络402、特征融合模块403、特征图处理模块404以及编码网络405。

其中，抽帧模块401可用于对待处理视频进行抽帧，得到多个图像帧。

作为示例，抽帧模块401可用于对待处理视频进行固定时间间隔采样抽帧。具体的，抽取的图像帧的频率是可以预设的，例如，可以从待处理视频中每秒抽取1个图像帧，也可以从待处理视频中每秒抽取2个图像帧，只要抽帧的时间间隔相同即可，本申请对多久时间间隔抽取1个图像帧不作具体限制，当然抽取的图像帧的数量越多，图像特征的检测就越精确。

针对抽取的多个图像帧中的每一个图像帧，以该图像帧为输入，利用卷积网络402可得到该多个图像帧分别对应的多个特征图。

换言之，抽帧模块401可用于将将图像帧输入到卷积网络402中，以便卷积网络402提取该图像帧分别对应的多个特征图。可选的，可以将多个图像帧逐一输入到卷积网络402中，并将卷积网络402最终输出的多个特征图，确定为多个图像帧分别对应的多个特征图；可选的，也可以针对抽取的多个图像帧中的每一个图像帧，利用卷积网络402，以该图像帧为输入，获取该图像帧在卷积网络402中多个卷积层分别输出的多个特征图；对该多个特征图进行融合，将该多个图像帧分别对应的多个融合后的特征图，作为该多个图像帧分别对应的多个特征图。

特征融合模块403可用于对卷积网络402中多个卷积层分别输出的多个特征图进行融合，得到融合后的特征图。即该多个图像帧分别对应的多个融合后的特征图，可作为该多个图像帧分别对应的多个特征图。

本实施例中，将该多个图像帧分别对应的多个融合后的特征图，作为该多个图像帧分别对应的多个特征图，即考虑到融合卷积网络402的每一阶段的输出得到一个高维加低维的融合特征；低维特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高维特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差，将二者融合可提升检测和分割的性能；具体的，特征融合可通过特征拼接，也可通过特征组合的方式，本申请对此不作具体限制。此外，本申请对获取图像帧在卷积网络402中多个卷积层分别输出的多个特征图的具体方式不作限定。示例性的，该多个卷积层可以是卷积网络402中多个卷积块中的每一个卷积块中的最后一层卷积层，当然也可以为多个卷积块中的每一个卷积块中的任意一层卷积层，本申请对此不作具体限制。

需要说明的是，该卷积网络402可以是使用开源的分类数据集进行训练，再使用已有视频的特征数据进行分场景再次训练得到的；其中，已有视频根据视频时长可包括：长视频、短视频；根据视频内容可包括：综艺、喜剧、武侠等。

特征图处理模块404可用于对该多个特征图进行归一化及平均处理，得到该待处理视频的特征图。换言之，特征图处理模块404可用于将得到的多个图像帧分别对应的多个特征图进行归一化和平均操作，得到待处理视频的一个固定维度的特征图。

通过对多个特征图进行归一化处理，将特征数据统一映射到[0,1]区间上，降低特征值域范围，使各个特征对结果做出的贡献相同，提升模型的收敛速度，降低特征之间距离的计算量。另外，由于特征图的尺寸主要与卷积核的大小、步长、输入图像帧的尺寸与填充量有关，所以多个图像帧分别对应的多个特征图的尺寸有可能不同，通过对多个特征图进行填充求和，再进行平均操作，可以得到待处理视频对应的固定维度的特征图。

编码网络405可用于对该待处理视频的特征图进行降维处理，得到该图像特征。换言之，将得到的待处理视频的特征图输入到编码网络405后，编码网络405可用于将输入的特征图进行降维处理为一维特征，即得到待处理视频的图像特征。

需要说明的，可选的，该编码网络405可由线性变换组成，使用三元组损失tripletloss进行训练，训练的最终目的是使相似视频的特征距离小，无关视频的特征距离大；可选的，也可利用卷积神经网络进行卷积降维，最终得到一维特征，本申请对降维的方式不作具体限制。需要说明的是，Triplet Loss是深度学习中的一种损失函数，用于训练差异性较小的样本，Triplet Loss的核心是锚示例、正示例、负示例共享模型，通过模型，将锚示例与正示例聚类，远离负示例，即通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本的相似性计算。

在一些实施例中，该多个模态特征包括时序特征；该S302可包括：

按预设数目对待处理视频进行抽帧；针对抽取的多个图像帧中的每一个图像帧，利用卷积神经网络，以该图像帧为输入，获取该图像帧在该卷积神经网络中多个卷积层分别输出的多个特征图；针对该每一个图像帧，对该多个卷积层分别输出的多个特征图进行融合，得到该多个图像帧分别对应的多个融合后的特征图；通过拼接时间维度下该多个图像帧分别对应的多个融合后的特征图，得到该待处理视频的二维特征向量；将该二维特征向量进行降维处理，得到该时序特征。

在一种实现方式中，通过拼接时间维度下和空间维度下的该多个图像帧分别对应的多个融合后的特征图，得到该待处理视频的二维特征向量。

下面结合图5所示的系统框架对提取待处理视频的时序特征的具体实现方式进行说明。

图5是本申请实施例提供的用于提取待处理视频的时序特征的系统框架500的示例。

需要说明的是，本申请实施例提供的系统框架500可通过任何具有提取视频多个模态特征的能力的电子设备实现。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。例如，系统框架500可集成至图1所示的服务器。

如图5所示，该系统框架500可包括抽帧模块501、卷积网络502、特征融合模块503、拼接模块504以及一维卷积网络505。

其中，抽帧模块501可用于对待处理视频进行抽帧。

作为示例，抽帧模块501可用于对待处理视频进行固定的预设数目进行抽帧。具体的，抽取的图像帧的数目可以是提前预设的，针对不同的视频抽帧数目相同；例如，针对不同的视频均抽取128帧。

针对抽取的多个图像帧中的每一个图像帧，以该图像帧为输入，利用卷积网络502可获取该图像帧在该卷积神经网络中多个卷积层分别输出的多个特征图。

换言之，将多个图像帧中的每一个图像帧逐一输入到卷积网络502中，提取每一个图像帧在卷积网络502中多个卷积层分别输出的特征图。示例性的，该多个卷积层可以是卷积神经网络中多个卷积块中的每一个卷积块的最后一层卷积层，当然也可以为多个卷积块中的每一个卷积块的任意一层卷积层，本申请对此不作具体限制。

特征融合模块503可用于对该多个特征图进行融合，得到融合后的特征图。换言之，针对多个图像帧中的每一个图像帧，特征融合模块503可用于将获取的多个卷积层分别输出的多个特征图进行融合，得到融合后的特征图，并将多个图像帧分别对应的多个融合后的特征图，作为该多个图像帧分别对应的多个特征图。

本实施例中，将该多个图像帧分别对应的多个融合后的特征图，作为该多个图像帧分别对应的多个特征图，即考虑到融合卷积网络502每一阶段的输出得到一个高维加低维的融合特征；低维特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高维特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差，将二者融合可提升检测和分割的性能；具体的，特征融合可通过特征拼接或特征组合的方式，本申请对此不作具体限制。

拼接模块504可用于通过拼接时间维度下该多个图像帧分别对应的多个融合后的特征图，得到该待处理视频的二维特征向量。

示例性的，拼接模块504可用于将多个图像帧分别对应的多个融合后的特征图在时间维度下进行拼接，得到待理视频的二维特征向量；即得到待处理视频时间维度下的固定维度的特征图。另一示例性的，拼接模块504可用于拼接时间维度下和空间维度下的该多个图像帧分别对应的多个融合后的特征图，得到该待处理视频的二维特征向量。

本实施例中，通过将多个图像帧分别对应的多个融合后的特征图在时间维度和空间维度进行拼接，即考虑到将待处理视频多个图像帧分别对应的多个特征图处理为有时间顺序的固定维度的特征。

一维卷积网络505可用于对该二维特征向量进行降维处理，得到该时序特征。示例性的，该一维卷积网络505可用于对该二维特征向量进行滑窗卷积，得到该二维特征向量对应的一维特征。可选的，该滑窗卷积可以使用大卷积核进行卷积并得到一维特征。可选的，该滑窗卷积也可经过多层卷积，得到一维特征。本申请对降维处理的方式不作具体限定。例如，在其他可替代实施例中，该一维卷积网络505可替换为线性变换网络，该线性变换网络用于对该二维特征向量进行线性变换并得到该二维特征向量对应的一维特征。

需要说明的是，本实施例中，对待处理视频进行固定的预设数目进行抽帧，针对不同时长的视频(例如长视频和短视频)，将多个图像帧分别对应的多个融合后的特征图在时间维度(或时间维度和空间维度)进行拼接后，能够得到大小相同的二维特征向量，由此，可以降低一维卷积网络505的设计复杂度。

还需要说明的，一维卷积网络可通过使用三元组损失triplet loss进行训练，训练的最终目的是使相似视频的特征距离小，无关视频的特征距离大。

在一些实施例中，该多个模态特征包括声音特征，该声音特征包括声音文本、音频特征；该S302可包括：

分离该待处理视频中的音频，利用自动语音识别ASR技术，获取该音频中的声音文本；提取该音频中的梅尔倒频谱；利用卷积神经网络，以该梅尔倒频谱为输入，得到该音频特征。

下面结合图6对用于提取待处理视频的时序特征的系统框架进行说明。

图6是本申请实施例提供的用于提取待处理视频的声音特征的系统框架600的示例。

其中，该声音特征可包括声音文本、音频特征。

需要说明的是，本申请实施例提供的系统框架600可通过任何具有提取视频多个模态特征的能力的电子设备实现。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。例如，该系统框架600可集成至图1所示的服务器。

如图5所示，该系统框架600可包括分离音频模块601，用于分离该待处理视频中的音频。该系统框架600还可包括ASR模块602，用于利用自动语音识别ASR技术，获取该音频中的声音文本。该系统框架600还可包括梅尔倒频谱提取模块603和卷积网络604，其中，梅尔倒频谱提取模块603用于提取该音频中的梅尔倒频谱；卷积网络604用于以该梅尔倒频谱为输入，得到该音频特征。

换言之，通过卷积网络604对该梅尔倒频谱对应的特征向量进行卷积、降维，得到该音频特征。

需要说明的是，该卷积网络604可以使用开源框架，例如，VGGish，在VGGish的基础上可以使用开源的分类数据集进行训练，再使用已有视频的特征数据进行分场景再次训练得到的；其中，VGGish模型可将音频输入特征转化为128维特征向量，而该128维特征向量可以作为下游模型的输入；此外，已有视频可根据视频内容可包括：综艺、喜剧、武侠等。

在本申请的一些实施例中，该S303可包括：

按照欧式距离、汉明距离、余弦相似度、编辑距离中的至少一项，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合。

需要说明的是，欧式距离也称为欧几里得度量，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)；汉明距离即对两个字符串进行异或运算，并统计结果为1的个数，将1的个数作为两个字符串之间的汉明距离；余弦相似度即余弦相似性，通过测量两个向量的夹角的余弦值来度量它们之间的相似性；编辑距离即针对两个字符串(例如英文字)看至少需要多少次的处理才能将一个字符串变成另一个字符串，将处理的次数确定为两个字符串之间的编辑距离。

在本申请的一些实施例中，该S304可包括：

确定该待处理视频中每一个模态特征的权重；针对该多个模态特征中的每一个模态特征，将该模态特征的权重与该模态特征对应的相似度集合中的最高相似度相乘，得到该多个模态特征分别对应的多个第一相似度；将该多个第一相似度的平均值确定为该最终相似度。

示例性的，可根据待处理视频的类型确定每一个模态特征的权重，可选的，可根据待处理视频的标题或图像帧的内容确定待处理视频的类型，当然也可以通过其他方式确认待处理视频的类型，本申请对此不作具体限制。需要说明的，如果待处理视频为语言类视频，则多个模态特征中的音频特征的权重高于其他模态特征的权重；另一示例性的，如果待处理视频为武侠类视频，则多个模态特征中图像特征的权重高于其他模态特征的权重。

通过将该模态特征的权重与该模态特征对应的相似度集合中的最高相似度相乘，一方面，从多个特征库中分别筛选出与待处理视频最相似的视频的多个模态特征，相当于，从多个模态特征的角度分析待处理视频是否为重复视频，增强了方案的鲁棒性，提高了查重检测的准确性；另一方面，考虑到待处理视频每一个模态特征的权重，将每一个模态特征的权重与该模态特征对应的相似度集合中的最高相似度相乘，使最终相似度的结果更加靠近待处理视频的业务场景，进一步使查重检测的结果更加精确。

在一些实现方式中，基于该待处理视频的业务场景，确定该待处理视频中每一个模态特征的权重。

换言之，针对不同业务场景下的待处理视频，不同模态特征的权重有可能不同。例如，针对舞蹈场景和脱口秀场景，舞蹈场景下图像特征的权重可以大于脱口秀场景下的图像特征的权重，舞蹈场景下声音特征的权重可以小于脱口秀场景下的图像特征的权重。

在本申请的一些实施例中，该S305可包括：

在该最终相似度大于或等于预设阈值的情况下，确定该待处理视频未通过查重检测；在该最终相似度小于预设阈值的情况下，确定该待处理视频通过查重检测。

需要说明的是，该预设阈值可由模型验证时的经验所得，也可以是用户设置的阈值，本申请对此不作具体限制。

在本申请的一些实施例中，该方法300还可包括：

确定该待处理视频通过查重检测之后，将该待处理视频中的多个模态特征中的每一个模态特征分别更新至该模态特征对应的特征库中。换言之，多待处理视频通过查重检测，则将提取的待处理视频的多个模态的特征更新至与该多个模态特征分别对应的特征库中。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的装置进行说明。

图7是本申请实施例提供的视频查重装置700的示意性框图。

如图7所示，该视频查重装置700包括：

获取单元710，用于获取待处理视频；

提取单元720，用于提取该待处理视频的多个模态特征；

计算单元730，用于针对该多个模态特征中的每一个模态特征，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合；

第一确定单元740，用于基于该多个相似度集合中每一个相似度集合中的最高相似度，得到该多个模态特征对应的最终相似度；

第二确定单元750，用于基于该最终相似度确定该待处理视频是否通过查重检测。

在本申请的一些实施例中，提取单元720具体用于：

提取该待处理视频的图像特征；

按固定时间间隔对待处理视频进行抽帧；

针对抽取的多个图像帧中的每一个图像帧，利用卷积神经网络，以该图像帧为输入，得到该多个图像帧分别对应的多个特征图；

对该多个图像帧分别对应的多个特征图进行归一化及平均处理，得到该待处理视频的特征图；

对该待处理视频的特征图进行降维处理，得到该图像特征。

在本申请的一些实施例中，提取单元720具体用于：

提取该待处理视频的图像特征；

针对抽取的多个图像帧中的每一个图像帧，利用卷积神经网络，以该图像帧为输入，获取该图像帧在该卷积神经网络中多个卷积层分别输出的多个特征图；

针对该每一个图像帧，对该多个卷积层分别输出的多个特征图进行融合，得到该多个图像帧分别对应的融合后的特征图；

将该多个图像帧分别对应的多个融合后的特征图，作为该多个图像帧分别对应的多个特征图。

在本申请的一些实施例中，提取单元720具体用于：

提取该待处理视频的时序特征；

按预设数目对待处理视频进行抽帧；

通过拼接时间维度下该多个图像帧分别对应的多个融合后的特征图，得到该待处理视频的二维特征向量；

将该二维特征向量进行降维处理，得到该时序特征。

在本申请的一些实施例中，提取单元720具体用于：

通过拼接时间维度下和空间维度下的该多个图像帧分别对应的多个融合后的特征图，得到该待处理视频的二维特征向量。

在本申请的一些实施例中，该多个卷积层分别为该卷积神经网络中多个卷积块中的每一个卷积块中的最后一个卷积层。

在本申请的一些实施例中，提取单元720具体用于：

提取该待处理视频的声音特征，该声音特征包括声音文本、音频特征；

分离该待处理视频中的音频，利用自动语音识别ASR技术，获取该音频中的声音文本；

提取该音频中的梅尔倒频谱；

利用卷积神经网络，以该梅尔倒频谱为输入，得到该音频特征。

在本申请的一些实施例中，计算单元730具体用于：

按照以下方式中的至少一项，计算该模态特征与该模态特征对应的特征库中的特征的相似度，得到该多个模态特征分别对应的多个相似度集合：

欧式距离、汉明距离、余弦相似度、编辑距离。

在本申请的一些实施例中，第一确定单元740具体用于：

确定该待处理视频中每一个模态特征的权重；

针对该多个模态特征中的每一个模态特征，将该模态特征的权重与该模态特征对应的相似度集合中的最高相似度相乘，得到该多个模态特征分别对应的多个第一相似度；

将该多个第一相似度的平均值确定为该最终相似度。

在本申请的一些实施例中，第一确定单元740具体用于：

在本申请的一些实施例中，第二确定单元750具体用于：

基于该待处理视频的业务场景，确定该待处理视频中每一个模态特征的权重。

在该最终相似度大于或等于预设阈值的情况下，确定该待处理视频未通过查重检测；

在该最终相似度小于预设阈值的情况下，确定该待处理视频通过查重检测。

在本申请的一些实施例中，获取单元710具体用于：

确定该待处理视频通过查重检测之后，还包括：

将该待处理视频中的多个模态特征中的每一个模态特征分别更新至该模态特征对应的特征库中。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。例如，该装置700可以对应于执行本申请实施例的方法300的相应主体，并且该装置700中的各个单元分别为了实现方法300中的相应流程，再如，该装置700可对应系统框架200、系统框架400至系统框架600中的相应模块或器件。为了简洁，在此不再赘述。

还应当理解，本申请实施例涉及的该装置700中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该该装置700也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造本申请实施例涉及的该装置700，以及来实现本申请实施例的视频查重的方法。其中，计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本申请实施例的相应方法。

换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图8是本申请实施例提供的电子设备800的示意结构图。

如图8所示，该电子设备800至少包括处理器810以及计算机可读存储介质820。其中，处理器810以及计算机可读存储介质820可通过总线或者其它方式连接。计算机可读存储介质820用于存储计算机程序821，计算机程序821包括计算机指令，处理器810用于执行计算机可读存储介质820存储的计算机指令。处理器810是电子设备800的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

作为示例，处理器810也可称为中央处理器(CentralProcessingUnit，CPU)。处理器810可以包括但不限于：通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

作为示例，计算机可读存储介质820可以是高速RAM存储器，也可以是非不稳定的存储器(Non-VolatileMemory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器810的计算机可读存储介质。具体而言，计算机可读存储介质820包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在一种实现方式中，该电子设备800可以是图7所示的用于视频查重的装置700；该计算机可读存储介质820中存储有计算机指令；由处理器810加载并执行计算机可读存储介质820中存放的计算机指令，以实现图3所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质820中的计算机指令由处理器810加载并执行相应步骤，为避免重复，此处不再赘述。

根据本申请的另一方面，本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是电子设备800中的记忆设备，用于存放程序和数据。例如，计算机可读存储介质820。可以理解的是，此处的计算机可读存储介质820既可以包括电子设备800中的内置存储介质，当然也可以包括电子设备800所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备800的操作系统。并且，在该存储空间中还存放了适于被处理器810加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序821(包括程序代码)。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，计算机程序821。此时，电子设备800可以是计算机，处理器810从计算机可读存储介质820读取该计算机指令，处理器810执行该计算机指令，使得该计算机执行上述各种可选方式中提供的视频查重的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后需要说明的是，以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频查重方法，其特征在于，包括：

获取待处理视频；

提取所述待处理视频的多个模态特征；所述多个模态特征包括：图像特征、时序特征和声音特征；

针对所述多个模态特征中的每一个模态特征，计算所述模态特征与所述模态特征对应的特征库中的特征的相似度，得到所述多个模态特征分别对应的多个相似度集合；

基于所述多个相似度集合中每一个相似度集合中的最高相似度，得到所述多个模态特征对应的最终相似度；

基于所述最终相似度确定所述待处理视频是否通过查重检测；

所述提取所述待处理视频的多个模态特征，包括：

按预设数目对待处理视频进行抽帧；

针对抽取的多个第一图像帧中的每一个图像帧，利用卷积神经网络，以所述第一图像帧为输入，获取所述第一图像帧在所述卷积神经网络中多个卷积层分别输出的多个特征图；

针对所述每一个第一图像帧，对所述多个卷积层分别输出的多个特征图进行融合，得到所述多个第一图像帧分别对应的多个融合后的特征图；

通过拼接时间维度下所述多个第一图像帧分别对应的多个融合后的特征图，得到所述待处理视频的二维特征向量；

将所述二维特征向量进行降维处理，得到所述时序特征；

所述基于所述多个相似度集合中每一个相似度集合中的最高相似度，得到所述多个模态特征对应的最终相似度，包括：

确定所述待处理视频中每一个模态特征的权重；

针对所述多个模态特征中的每一个模态特征，将所述模态特征的权重与所述模态特征对应的相似度集合中的最高相似度相乘，得到所述多个模态特征分别对应的多个第一相似度；

将所述多个第一相似度的平均值确定为所述最终相似度。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待处理视频的多个模态特征，包括：

按固定时间间隔对待处理视频进行抽帧；

针对抽取的多个第二图像帧中的每一个第二图像帧，利用所述卷积神经网络，以所述第二图像帧为输入，得到所述多个第二图像帧分别对应的多个特征图；

对所述多个第二图像帧分别对应的多个特征图进行归一化及平均处理，得到所述待处理视频的特征图；

对所述待处理视频的特征图进行降维处理，得到所述图像特征。

3.根据权利要求2所述的方法，其特征在于，所述针对抽取的多个第二图像帧中的每一个第二图像帧，利用所述卷积神经网络，以所述第二图像帧为输入，得到所述多个第二图像帧分别对应的多个特征图，包括：

针对抽取的多个第二图像帧中的每一个第二图像帧，利用所述卷积神经网络，以所述第二图像帧为输入，获取所述第二图像帧在所述卷积神经网络中多个卷积层分别输出的多个特征图；

针对所述每一个第二图像帧，对所述多个卷积层分别输出的多个特征图进行融合，得到所述多个第二图像帧分别对应的多个融合后的特征图；

将所述多个第二图像帧分别对应的多个融合后的特征图，作为所述多个第二图像帧分别对应的多个特征图。

4.根据权利要求1所述的方法，其特征在于，所述通过拼接时间维度下所述多个第一图像帧分别对应的多个融合后的特征图，得到所述待处理视频的二维特征向量，包括：

通过拼接时间维度下和空间维度下的所述多个第一图像帧分别对应的多个融合后的特征图，得到所述待处理视频的二维特征向量。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述多个卷积层分别为所述卷积神经网络中多个卷积块中的每一个卷积块中的最后一个卷积层。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述声音特征包括声音文本、音频特征；

其中，所述提取所述待处理视频的多个模态特征，包括：

分离所述待处理视频中的音频，利用自动语音识别ASR技术，获取所述音频中的声音文本；

提取所述音频中的梅尔倒频谱；

利用所述卷积神经网络，以所述梅尔倒频谱为输入，得到所述音频特征。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述计算所述模态特征与所述模态特征对应的特征库中的特征的相似度，得到所述多个模态特征分别对应的多个相似度集合，包括：

按照以下方式中的至少一项，计算所述模态特征与所述模态特征对应的特征库中的特征的相似度，得到所述多个模态特征分别对应的多个相似度集合：

欧式距离、汉明距离、余弦相似度、编辑距离。

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述待处理视频中每一个模态特征的权重，包括：

基于所述待处理视频的业务场景，确定所述待处理视频中每一个模态特征的权重。

9.根据权利要求1至4中任一项所述的方法，其特征在于，所述基于所述最终相似度，确定所述待处理视频是否通过查重检测，包括：

在所述最终相似度大于或等于预设阈值的情况下，确定所述待处理视频未通过查重检测；

在所述最终相似度小于预设阈值的情况下，确定所述待处理视频通过查重检测。

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

将所述待处理视频中的多个模态特征中的每一个模态特征分别更新至所述模态特征对应的特征库中。

11.一种视频查重装置，其特征在于，包括：

获取单元，用于获取待处理视频；

提取单元，用于提取所述待处理视频的多个模态特征；所述多个模态特征包括：图像特征、时序特征和声音特征；

计算单元，用于针对所述多个模态特征中的每一个模态特征，计算所述模态特征与所述模态特征对应的特征库中的特征的相似度，得到所述多个模态特征分别对应的多个相似度集合；

第一确定单元，用于基于所述多个相似度集合中每一个相似度集合中的最高相似度，得到所述多个模态特征对应的最终相似度；

第二确定单元，用于基于所述最终相似度确定所述待处理视频是否通过查重检测；

所述提取单元具体用于：

按预设数目对待处理视频进行抽帧；

将所述二维特征向量进行降维处理，得到所述时序特征；

所述第一确定单元具体用于：

确定所述待处理视频中每一个模态特征的权重；

将所述多个第一相似度的平均值确定为所述最终相似度。

12.一种电子设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至10中任一项所述的视频查重方法。

13.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至10中任一项所述的视频查重方法。