CN113052096A

CN113052096A - 一种视频检测方法、装置、设备及存储介质

Info

Publication number: CN113052096A
Application number: CN202110347470.5A
Authority: CN
Inventors: 方正; 殷国君; 邵婧
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-29
Anticipated expiration: 2041-03-31
Also published as: WO2022205651A1; CN113052096B

Abstract

本公开提供了一种视频检测方法、装置、设备及存储介质，通过获取待检测视频的颜色特征序列和高频特征序列，以确定出待检测视频的融合共性特征序列，从而检测视频的真伪，不仅可以将高频特征和颜色特征进行融合，实现多域特征有效融合，以使频域信息中包含的特征信息和色域信息中的特征信息起到补充作用，从而辅助对视频的检测，而且通过共性特征序列进行视频检测，可以具有更好的鲁棒性，有效提高预测结果的鲁棒性，提高视频检测的帧间一致性。

Description

一种视频检测方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种视频检测方法、装置、设备及存储介质。

背景技术

深度伪造篡改技术源自人工智能深度学习的伪造技术，可以实现用另一张人脸图片替换掉原始人像，其大多基于GAN算法的博弈优化原理或图形学方法等，最终生成逼真度极高的伪造数据，目前已可以做到以假乱真，深度伪造篡改技术的持续进步给深度伪造检测方法带来了极大的挑战。

针对基于深度伪造篡改技术的伪造视频，真伪检测存在很大的不稳定性，经常出现来源于同一视频的不同帧检测结果完全相反的问题，给视频的真伪检测带来极大难度，如何提高伪造视频检测的准确性是当前亟需解决的问题。

发明内容

本公开实施例至少提供一种视频检测方法、装置、设备及存储介质。

第一方面，本公开实施例提供了一种视频检测方法，所述方法包括：

获取待检测视频的颜色特征序列和高频特征序列；

基于所述颜色特征序列和所述高频特征序列，得到针对所述待检测视频的融合共性特征序列；

基于所述融合共性特征序列，确定所述待检测视频的真伪检测结果。

这样，通过待检测视频的颜色特征序列和高频特征序列得到的待检测视频的融合共性特征序列，对视频的多帧图像进行检测来确定视频的真伪，不仅可以将高频特征和颜色特征进行融合，实现多域特征有效融合，以使用频域信息中包含的特征信息对色域信息中的特征信息起到补充作用，从而辅助色域信息对视频进行检测，而且通过多帧图像的共性特征序列进行视频检测，可以具有更好的鲁棒性，有效提高预测结果的鲁棒性，提高视频检测中的各帧图像的帧间一致性。

一种可选的实施方式中，所述获取待检测视频的颜色特征序列和高频特征序列，包括：

从所述待检测视频中获取多帧采样图像，并基于所述多帧采样图像得到第一图像序列；

基于所述第一图像序列中每帧采样图像对应的高频图像，得到第二图像序列；

对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列。

这样，通过直接从视频中截图采样图像，通过采样图像得到高频图像，再分别提取到颜色特征序列和高频特征序列，可以有效保持高频图像和采样图像之间的同步性，进而提高高频特征序列和颜色特征序列之间的一致性，有利于后续的特征处理和特征之间的融合，有助于视频真伪的监测。

一种可选的实施方式中，所述确定每帧采样图像对应的高频图像，包括：

针对每帧采样图像，确定该采样图像的频谱图；

将所述频谱图中低于预设频率阈值的信号删除后，得到所述高频图像。

一种可选的方式中，所述基于所述颜色特征序列和所述高频特征序列，得到针对所述待检测视频的融合共性特征序列，包括：

将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，所述目标特征序列包括所述高频特征序列和所述颜色特征序列；其中，在所述目标特征序列为所述高频特征序列的情况下，所述目标特征为高频特征，所述目标共性特征为高频共性特征，在所述目标特征序列为所述颜色特征序列的情况下，所述目标特征为颜色特征，所述目标共性特征为颜色共性特征；

对所述高频共性特征和所述颜色共性特征进行特征融合处理，确定针对所述待检测视频的融合共性特征；

基于所述融合共性特征，或者基于所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，确定针对所述待检测视频的融合共性特征序列。

这样，通过颜色特征序列和高频特征序列中各自特征的融合，得到高频共性特征和颜色共性特征，可以将颜色特征序列和高频特征序列中各自的共性特征进行提取，增强特征序列中共有特征部份的表达，并通过高频共性特征和颜色共性特的融合，得到融合共性特征，进而可以通过融合共性特征来得到待检测视频的融合共性特征序列，可以实现多域特征有效融合，以使频域信息中包含的特征信息和色域信息中的特征信息起到补充作用，还可以减少特征融合过程中的噪声信息，有效降低多帧图像之间的差异性，抑制只存在于少部分特征中的不鲁棒的噪声特征。

一种可选的实施方式中，所述将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，包括：

对所述目标特征序列进行特征降维处理；

将进行特征降维处理后的所述目标特征序列中的各特征元素进行相加，得到所述目标共性特征。

这样，通过降维处理后进行目标特征累加，以确定出目标共性特征，并进一步得到目标共性特征序列，，可以增强目标特征序列中共有特征部份的表达，有效降低多帧图像之间的差异性，抑制只存在于少部分特征中的不鲁棒的噪声特征。

一种可选的实施方式中，所述基于所述融合共性特征，或者基于所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，确定针对所述待检测视频的融合共性特征序列，包括：

对目标共性特征进行切分处理，得到目标共性特征序列，所述目标共性特征包括所述融合共性特征、所述颜色共性特征和所述高频共性特征，其中，在所述目标共性特征为所述融合共性特征的情况下，所述目标共性特征序列为中间共性特征序列，在所述目标共性特征为所述颜色共性特征的情况下，所述目标共性特征序列为颜色共性特征序列，在所述目标共性特征为所述高频共性特征的情况下，所述目标共性特征序列为高频共性特征序列；

将所述中间共性特征序列确定为针对所述待检测视频的融合共性特征序列；或者，将根据所述颜色共性特征序列和所述高频共性特征序列中的至少一者与所述中间共性特征序列融合得到的特征序列，确定为针对所述待检测视频的融合共性特征序列。

这样，通过切分处理得到相应的共性特征序列，并以融合共性特征序列为基础，通过不同的特征序列的结合得到融合共性特征序列，可以有效实现多域特征有效融合，减少单一特征或者特征序列中的噪声信息，有效降低多帧图像之间的差异性，抑制只存在于少部分特征中的不鲁棒的噪声特征。

一种可选的实施方式中，所述对所述目标共性特征进行切分处理，得到目标共性特征序列，包括：

对所述目标共性特征进行全局池化处理，得到目标中间特征；

对所述目标中间特征和所述目标共性特征进行特征融合，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列；

对所述目标中间共性特征序列进行升维处理；

基于升维处理后的所述目标中间共性特征序列和所述目标特征序列，生成经注意力特征激活后的、所述目标特征序列的目标共性特征序列。

这样，通过池化得到的目标中间特征和目标共性特征件的融合，以及升维后的目标中间共性特征序列和目标特征序列之间的融合，可以逐步增加提取出的共性特征的影响，降低特征序列中的噪声特征，增加特征序列中特征间的相关性，以及图像帧之间的一致性。

一种可选的实施方式中，所述对所述目标中间特征和所述目标共性特征进行特征融合，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列，包括：

对所述目标中间特征进行切分处理，得到多个子特征，其中，每个子特征的特征维度与所述目标共性特征的特征维度相同，所述多个子特征的数量与所述目标特征序列中特征元素的数量相同；

确定每个所述子特征的通道维度注意力特征；

将所述目标共性特征分别与确定出的每个通道维度注意力特征进行特征相加，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列。

这样，通过特征切分和注意力机制，可以从共性特征中提取针对每一帧图像的共性特征，有效减少不同帧图像特征间的差异性。

一种可选的实施方式中，所述对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列，包括：

将所述第一图像序列和所述第二图像序列输入至训练好的图像检测神经网络；

获取所述图像检测神经网络中目标层神经网络基于所述第一图像序列得到的所述颜色特征序列，以及基于所述第二图像序列得到的所述高频特征序列。

这样，从图像检测神经网络中的目标层神经网络处获取需要的特征序列，可以实现与图像检测神经网络之间的配合，并且可以不限定插入图像检测神经网络中的位置与数量，在图像检测神经网络中可以输出特征序列的目标层神经网络后均可以介入此特征处理方式，可以在网络的不同阶段均可以辅助对特征进行处理，灵活高效，还可以将图像处理分摊至图像检测神经网络，不仅可以减少处理过程中的数据处理量，还可以帮助图像检测神经网络提高对视频真伪检测结果的准确率。

第二方面，本公开实施例还提供一种视频检测装置，所述装置包括：

特征序列获取模块，用于获取待检测视频的颜色特征序列和高频特征序列；

特征序列处理模块，用于基于所述颜色特征序列和所述高频特征序列，得到针对所述待检测视频的融合共性特征序列；

真伪检测模块，用于基于所述融合共性特征序列，确定所述待检测视频的真伪检测结果。

一种可选的实施方式中，所述特征序列获取模块具体用于：

一种可选的实施方式中，所述特征序列获取模块在用于确定每帧采样图像对应的高频图像时，具体用于：

针对每帧采样图像，确定该采样图像的频谱图；

一种可选的实施方式中，所述特征序列处理模块具体用于：

一种可选的实施方式中，所述特征序列处理模块在用于将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征时，具体用于：

对所述目标特征序列进行特征降维处理；

一种可选的实施方式中，所述特征序列处理模块在用于基于所述融合共性特征，或者基于所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，确定针对所述待检测视频的融合共性特征序列，包括：

一种可选的实施方式中，所述特征序列处理模块在用于对目标共性特征进行切分处理，得到目标共性特征序列时，具体用于：

对所述目标中间共性特征序列进行升维处理；

一种可选的实施方式中，所述特征序列处理模块在用于对所述目标中间特征和所述目标共性特征进行特征融合，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列时，具体用于：

确定每个所述子特征的通道维度注意力特征；

一种可选的实施方式中，所述特征序列获取模块在用于对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列时，具体用于：

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述的视频检测方法的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的视频检测方法的步骤。

本公开实施例提供的视频检测方法、装置、设备及存储介质，通过获取待检测视频的颜色特征序列和高频特征序列，以确定出待检测视频的融合共性特征序列，从而检测视频的真伪，不仅可以将高频特征和颜色特征进行融合，实现多域特征有效融合，以使频域信息中包含的特征信息和色域信息中的特征信息起到补充作用，从而辅助对视频的检测，而且通过共性特征序列进行视频检测，可以具有更好的鲁棒性，有效提高预测结果的鲁棒性，提高视频检测的帧间一致性。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例提供的一种视频检测方法的流程图；

图2为本公开实施例提供的视频检测方法中使用的神经网络的示意图；

图3为本公开实施例提供的视频检测方法中得到融合共性特征序列的流程图；

图4为图2中所示双域内部一致性网络的结构示意图；

图5为本公开实施例提供的视频检测方法中生成目标共性特征序列的流程图；

图6为本公开实施例提供的一种视频检测装置的示意图；

图7示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，基于人工智能深度学习的伪造技术，可以生成逼真度极高的伪造数据，实现用另一张人脸图片替换掉原始人像，以达到深度伪造篡改。针对基于深度伪造篡改技术的伪造视频，真伪检测存在很大的不稳定性，经常出现来源于同一视频的不同帧检测结果完全相反的问题，给视频的真伪检测带来极大难度，因此，如何提高伪造视频检测的准确性是当前亟需解决的问题。

基于上述研究，本公开提供了一种视频检测方法，通过获取待检测视频的颜色特征序列和高频特征序列，以确定出待检测视频的融合共性特征序列，从而检测视频的真伪，不仅可以将高频特征和颜色特征进行融合，实现多域特征有效融合，以使频域信息中包含的特征信息和色域信息中的特征信息起到补充作用，从而辅助对视频的检测，而且通过共性特征序列进行视频检测，可以具有更好的鲁棒性，有效提高预测结果的鲁棒性，提高视频检测的帧间一致性。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频检测方法进行详细介绍，本公开实施例所提供的视频检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该视频检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图1，图1为本公开实施例提供的一种视频检测方法的流程图。如图1中所示，本公开实施例提供的视频检测方法包括：

S101：获取待检测视频的颜色特征序列和高频特征序列。

该步骤中，在需要检测待检测视频的真伪性的时候，针对待检测视频，可以获取从所述待检测视频中提取出的颜色特征序列和高频特征序列。

其中，对于从所述待检测视频中提取出的颜色特征序列和高频特征序列，可以是通过本公开实施例的执行主体，如终端设备通过神经网络等方式从所述待检测视频中提取出特征序列，还可以是通过第三方主体对所述待检测视频进行特征提取，然后从第三方主体处获取提取出的特征序列。

其中，所述颜色特征序列包括所述待检测视频的多帧采样图像中每帧采样图像的色彩特征，所述高频特征序列包括所述每帧采样图像的高频特征。

相应的，在一些可能的实施方式中，所述获取待检测视频的颜色特征序列和高频特征序列，包括：

从所述待检测视频中获取多帧采样图像，并基于所述多帧采样图像得到第一图像序列；基于所述第一图像序列中每帧采样图像对应的高频图像，得到第二图像序列；对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列。

在该实施方式中，在获取到所述待检测视频后，可以通过对所述待检测视频进行裁帧、截取等方式，以从所述待检测视频中获取到多帧图像，然后对获取的所述多帧图像进行采样，以获取到多帧采样图像，从而得到包括所述多帧采样图像的第一图像序列。

其中，从所述待检测视频中获取多帧图像，可以是对所述待检测视频的画面内容连续进行裁帧、截取等，例如从所述待检测视频的开始至结尾，对连续帧画面进行裁帧、截取，也可以是根据所述待检测视频中的内容，针对相应需要检测的内容，将于需要检测的内容相关的部分进行裁帧、截取，对此并不限定，这样，可以裁帧、截取到完整的包含待检测内容的图像，以便后续采样过程中，可以采样平衡，有助于后续视频真伪的辨别。

对获取到多帧图像进行采样，可以按照检测需求，例如检测精度等因素，从获取的多帧图像中进行采样，可以是进行连续采样，即以特定数量的、连续的多帧图像为采样单位进行采样，也可以是进行间隔采样等，对此并不做限定。

接着，在获取到所述第一图像序列之后，可以针对所述第一图像序列中的每帧采样图像进行图像转换，从而确定出每帧采样图像对应的高频图像，以得到包括多帧高频图像的第二图像序列，然后，可以对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，即对获取到的多帧采样图像和转换后得到的多帧高频图像分别进行特征提取，从而得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列。

具体的，在一些可能的实施例中，确定每帧采样图像对应的高频图像，可以包括以下步骤：

针对每帧采样图像，确定该采样图像的频谱图；将所述频谱图中低于预设频率阈值的信号删除后，得到所述高频图像。

该步骤中，在得到多帧采样图像之后，针对每帧采样图像，可以通过对图像变换等，例如对图像进行离散余弦变换(DCT)等方式，从而获取每帧采样图像的频谱图，然后，可以将频谱图中低于预设频率阈值的信号删除，例如可以将频谱图左上角部分区域的数值置为0，从而抹去低频信号，保留高频信号，然后通过与上述图像变换的反变换等，例如反离散余弦变换(IDCT)等方式，对处理后的频谱图进行相应的处理，从而得到采样图像对应的高频图像。

其中，对图像进行变换以得到高频图像的方式，并不局限于上述示例中的离散余弦变换(DCT)，在其他实施方式中，还可以使用傅里叶变换等方式，相应的将频谱图中相应位置处的低频信号删除即可。

在一些可能的实时方式中，从图像中提取特征序列的部分，可以是由单独设置的图像检测神经网络来完成，相应的，前述的对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列，可以包括：

将所述第一图像序列和所述第二图像序列输入至训练好的图像检测神经网络；获取所述图像检测神经网络中目标层神经网络基于所述第一图像序列得到的所述颜色特征序列，以及基于所述第二图像序列得到的所述高频特征序列。

该步骤中，在得到所述第一图像序列和所述第二图像序列后，可以将得到的图像序列输入至训练好的图像检测神经网络中，以得到所述图像检测神经网络中目标层神经网络从所述第一图像序列中提取出的所述颜色特征序列，以及从所述第二图像序列中提取出的所述高频特征序列。

具体的，请同时参阅图2，图2为本公开实施例提供的视频检测方法中使用的神经网络的示意图，如图2中所示，本公开实施例提供一种双域内部一致性网络DICM200，所述双域内部一致性网络200可以与训练好的图像检测神经网络300配合使用，也可以单独使用，以对所述待检测视频进行真伪检测。

其中，所述图像检测神经网络300可以是训练好的神经网络，用于对视频的真伪进行检测，所述图像检测神经网络300中包含多层神经网络，例如卷积神经网络层、全连接神经网络层、注意力机制神经网络层等等，对此并不做任何限定。

在所述双域内部一致性网络200与所述图像检测神经网络300搭配使用时，所述双域内部一致性网络200可以插入在所述图像检测神经网络300中，并且可以插入在所述图像检测神经网络300中用于对所述待检测视频的图像进行特征提取的所述目标层神经网络(如卷积神经网络层)之后，或者是插入在所述图像检测神经网络300中用于对从所述待检测视频的图像中提取出的特征进行处理的所述目标层神经网络之后，以在所述目标层神经网络提取到特征序列或者对提取的特征进行处理后输出特征序列之后，获取到特征序列，以对特征序列进一步进行双域内部一致性处理，以便于通过双域内部一致性处理后的特征对所述待检测视频的真伪进行检测。

其中，所述目标层神经网络可以是所述图像检测神经网络中的任一层、用于进行特征提取或者处理以输出特征序列的网络，所述目标层神经网络可以为一层，也可以为多层。

相应的，所述图像检测神经网络300中可以插入有一个或者多个双域内部一致性网络200，图2中以插入2个双域内部一致性网络200为例进行说明，但并不局限于此，此外，双域内部一致性网络200可以插入在图像检测神经网络300中的任何位置，如图2中示例出的卷积神经网络CNN，只要能接收到前面网络输出的特征序列即可。

在实际应用场景中，以在所述双域内部一致性网络200与所述图像检测神经网络300搭配使用为例，在获取到所述待检测视频的所述第一图像序列和所述第二图像序列后，可以将所述第一图像序列和所述第二图像序列输入至所述图像检测神经网络300中，所述图像检测神经网络300中的所述目标层神经网络可以分别提取到所述颜色特征序列和所述高频特征序列，所述双域内部一致性网络200可以获取到所述图像检测神经网络300中的所述目标层神经网络输出的所述高频特征序列和所述颜色特征序列，以对所述高频特征序列和所述颜色特征序列进行后续处理，从而的到高频共性特征序列和颜色共性特征序列。

S102：基于所述颜色特征序列和所述高频特征序列，得到针对所述待检测视频的融合共性特征序列。

该步骤中，在得到所述颜色特征序列和所述高频特征序列后，可以对所述颜色特征序列和所述高频特征序列进行结合，例如可以对两个特征序列进行融合，以得到针对所述待检测视频的融合共性特征序列。

S103：基于所述融合共性特征序列，确定所述待检测视频的真伪检测结果。

该步骤中，在得到所述融合共性特征序列后，可以通过所述融合共性特征序列对所述待检测视频的真伪进行鉴别，从而得到真伪检测结果。

在实际应用场景中，结合图2中所示内容，确定所述待检测视频的真伪检测结果，可以是通过所述双域内部一致性网络200使用对各特征序列处理后得到的所述融合共性特征序列对所述待检测视频进行真伪检测，或者是将所述融合共性特征序列输出给所述图像检测神经网络300中对应的神经网络层，以对所述待检测视频进行真伪检测。示例性的，所述双域内部一致性网络200既可以与所述图像检测神经网络300搭配使用进行视频的真伪检测，也可以在所述双域内部一致性网络200中设置分类网络或者在所述双域内部一致性网络200后连接分类网络，以通过所述双域内部一致性网络200单独实现视频的真伪检测。

下面结合具体实施例对本公开实施例提供的视频检测方法进行进一步阐述。

请参阅图3，图3为本公开实施例提供的视频检测方法中得到融合共性特征序列的流程图。如图3中所示，在一些可选的实施例中，步骤S102包括：

S1021：将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，所述目标特征序列包括所述高频特征序列和所述颜色特征序列；其中，在所述目标特征序列为所述高频特征序列的情况下，所述目标特征为高频特征，所述目标共性特征为高频共性特征，在所述目标特征序列为所述颜色特征序列的情况下，所述目标特征为颜色特征，所述目标共性特征为颜色共性特征。

该步骤中，为便于描述，在特征融合的过程中，将所述高频特征序列和所述颜色特征序列作为所述目标特征序列进行统一阐述，即所述目标特征序列包括所述高频特征序列和所述颜色特征序列，在对特征序列处理时，可以将所述目标特征序列中所包括的不同帧采样图像的特征进行融合处理，从得到针对所述待检测视频的目标共性特征。

其中，在所述目标特征序列为所述高频特征序列的情况下，所述目标特征为高频特征，所述目标共性特征为高频共性特征。

具体的，在所述目标特征序列为所述高频特征序列的情况下，将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，即是将所述高频特征序列中不同帧采样图像的高频特征进行融合处理，得到所述待检测视频的高频共性特征序列。

相应的，在所述目标特征序列为所述颜色特征序列的情况下，所述目标特征为颜色特征，所述目标共性特征为颜色共性特征。

具体的，在所述目标特征序列为所述颜色特征序列的情况下，将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，即是将所述颜色特征序列中不同帧采样图像的颜色特征进行融合处理，得到所述待检测视频的颜色共性特征序列。

在一些可能的实施例中，将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，可以包括：

对所述目标特征序列进行特征降维处理；

该步骤中，在融合时，需要对所述目标特征序列进行特征降维处理，即对所述目标特征序列中的各目标特征进行特征降维，然后将所述目标特征序列中的各特征元素进行相加，得到所述目标共性特征。

相应的，在所述目标特征序列为所述高频特征序列的情况下，即是对所述高频特征序列进行特征降维处理，如对所述高频特征序列中的高频特征进行特征降维，然后将进行特征降维处理后的所述高频特征序列中的各特征元素进行相加，得到所述高频特征序列对应的高频共性特征。

而在所述目标特征序列为所述颜色特征序列的情况下，即是对所述颜色特征序列进行特征降维处理，如对所述颜色特征序列中的颜色特征进行特征降维，然后将进行特征降维处理后的所述颜色特征序列中的各特征元素进行相加，得到所述颜色特征序列对应的中间共性特征。

示例性的，请同时参阅图4，图4为图2中所示双域内部一致性网络的结构示意图。本公开实施例提供的所述双域内部一致性网络200包括第一特征处理网络和第二特征处理网络，所述第一特征处理网络210至少包括卷积神经网络层

全局池化层和全连接层GAPFC、注意力机制层SoftMax和卷积神经网络层

所述第二特征处理网络至少包括卷积神经网络层

全局池化层全局池化层和全连接层GAPFC、注意力机制层SoftMax和卷积神经网络层

具体的，在得到所述待检测视频的高频特征序列

后，可以将高频特征序列

输入到至第一特征处理网络中，对于高频特征序列

中的每个特征，可以使用卷积神经网络

对特征进行降维，从而实现对所述高频特征序列

进行降维处理，再将高频特征序列

中的所有特征进行逐元素相加，得到高频共性特征S^H。

相应的，在得到所述待检测视频的颜色特征序列

后，可以将颜色特征序列{F₁，F₂…F_n}输入至第二特征处理网络中，对于颜色特征序列{F₁，F₂…F_n}中的每个特征，可以使用卷积神经网络

对特征进行降维，从而实现对颜色特征序列{F₁，F₂…F_n}进行降维处理，再将颜色特征序列{F₁，F₂…F_n}中的所有特征进行逐元素相加，得到颜色共性特征S^C(图未示)。

S1022：对所述高频共性特征和所述颜色共性特征进行特征融合处理，确定针对所述待检测视频的融合共性特征。

该步骤中，在得到所述颜色共性特征和所述高频共性特征后，针对所述颜色共性特征和所述高频共性特征，可以进行融合处理，以通过实现多域特征的融合，来借助高频特征实现对颜色特征的辅助，从而根据综合融合的特征以得到所述待检测视频的融合共性特征。

示例性的，如图4中所示，在得到所述高频共性特征S^H和所述颜色共性特征S^C后，可以将所述颜色共性特征S^C和所述高频共性特征S^H进行特征融合，例如将所述高频共性特征S^H输入至所述第二特征处理网络中，以将所述颜色共性特征S^C和所述高频共性特征S^H进行特征相加，最终得到特征充分融合后的融合共性特征S。

上述示例中，是以将所述高频共性特征S^H输入至所述第二特征处理网络中为例进行说明的，但并不局限于此，在其他试试方式中，也可以是将所述颜色共性特征S^C输入至所述第一特征处理网络中得到融合共性特征S，例如在最终需要使用融合共性特征S对应的中间共性特征序列和颜色共性特征序列确定融合共性特征序列，或者最终需要使用融合共性特征S对应的中间共性特征序列来确定融合共性特征序列，即可将所述颜色共性特征S^C输入至所述第一特征处理网络中得到融合共性特征S。

S1023：基于所述融合共性特征，或者基于所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，确定针对所述待检测视频的融合共性特征序列。

该步骤中，可以根据数据处理量、数据处理时间、图像采集环境或者设备等影响因素，来确定通过所述融合共性特征，或者是通过所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，来确定针对所述待检测视频的融合共性特征序列。

具体的，为便于描述，在融合共性特征序列确定的过程中，此处将所述融合共性特征、所述颜色共性特征和所述高频共性特征均分别作为目标共性特征进行统一描述，即所述目标共性特征包括所述融合共性特征、所述颜色共性特征和所述高频共性特征。

确定针对所述待检测视频的融合共性特征序列的过程，可以包括以下步骤：

首先，对目标共性特征进行切分处理，得到目标共性特征序列。

该步骤中，需要对目标共性特征进行切分处理，以得到多个子特征，从而得到目标共性特征序列。

其中，在所述目标共性特征为所述融合共性特征的情况下，所述目标共性特征序列为中间共性特征序列，在所述目标共性特征为所述颜色共性特征的情况下，所述目标共性特征序列为颜色共性特征序列，在所述目标共性特征为所述高频共性特征的情况下，所述目标共性特征序列为高频共性特征序列，这样，即可得到对所述融合共性特征、所述颜色共性特征和所述高频共性特征进行切分处理的结果。

然后，将所述中间共性特征序列确定为针对所述待检测视频的融合共性特征序列；或者，将根据所述颜色共性特征序列和所述高频共性特征序列中的至少一者与所述中间共性特征序列融合得到的特征序列，确定为针对所述待检测视频的融合共性特征序列。

该步骤中，可以根据处理需求，来选择得到融合共性特征序列的组成因素，即可以直接将中间共性特征序列确定为所述融合共性特征序列，也可以将所述颜色共性特征序列和所述高频共性特征序列中的至少一者与所述中间共性特征序列进行融合，将得到的特征序列确定为所述融合共性特征序列。

示例性的，针对所述高频共性特征S^H的特征切分，可以将高频共性特征S^H输入后续的网络层中，实现对高频共性特征S^H的切分处理，并且在切

性特征S^C的切分处理(图未示)，与所述高频共性特征S^H的切分处理相似，在此不再赘述。

相应的，针对所述融合共性特征S，可以将所述颜色共性特征S输入后续的网络层中，实现对所述色共性特征S的切分处理，并且在切分的过程中，可以结合所述颜色特征序列{F₁，F₂…F_n}和所述融合共性特征S，从而生成中间共性特征序列

其中，本示例中，是以将所述高频共性特征S^H输入至所述第二特征处理网络中得到融合共性特征S，因此在后续切分处理中结合所述颜色特征序列{F₁，F₂…F_n}和所述融合共性特征S为例进行说明的，但并不局限于此，在其他实施方式中，例如是将所述颜色共性特征S^C输入至所述第一特征处理网络中得到融合共性特征S时，可以是在后续切分处理中，结合所述高频特征序列和

和所述融合共性特征S，从而生成中间共性特征序列

此外，还可以是在后续切分处理中，结合所述高频特征序列和

所述颜色特征序列{F₁，F₂…F_n}和所述融合共性特征S，来生成中间共性特征序列

此外，图4所示的示例中，是以两个特征处理网络，以及通过所述高频共性特征序列与所述融合共性特征对应的中间共性特征序列进行融合得到的特征序列，作为融合共性特征序列为例进行说明的，即将得到的高频共性特征输入第二特征处理网络，与颜色共性特征进行融合得到融合共性特征，并通过两个特征处理网络对高频共性特征和融合共性特征进行后续的切分等处理，最终的得到融合共性特征序列，但在其他实施方式中，还可以是通过所述颜色共性特征序列与所述融合共性特征对应的中间共性特征序列进行融合得到的特征序列，作为融合共性特征序列，或者是通过所述颜色共性特征序列、所述高频共性特征序列与所述融合共性特征对应的中间共性特征序列进行融合得到的特征序列，作为融合共性特征序列，此时，只需相应调整所述双域内部一致性网络200的结构即可，例如增加一个第三特征处理网络，或者增加部分第三特征处理网络即可。

这样，通过特征融合，以及将高频特征和颜色特征的融合，分别得到高频共性特征和颜色共性特征，共性特征增强了特征序列中共有特征部分的表达，从而抑制不鲁棒的噪声信号，实现多域特征的有效融合，有效弥补单一域特征中的信息不完整。

通过图4中所示内容可知，在分别得到所述高频共性特征、所述颜色共性特征和所述融合共性特征之后，对特征进行切分处理过程大致相同，因此，接下来将两者的处理方式放在一起阐述。

请参阅图5，图5为本公开实施例提供的视频检测方法中生成目标共性特征序列的流程图。如图5中所示，在一些可选的实施例中，所述对目标共性特征进行切分处理，得到目标共性特征序列，包括：

S501：对所述目标共性特征进行全局池化处理，得到目标中间特征。

S502：对所述目标中间特征和所述目标共性特征进行特征融合，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列。

S503：对所述目标中间共性特征序列进行升维处理。

S504：基于升维处理后的所述目标中间共性特征序列和所述目标特征序列，生成经注意力特征激活后的、所述目标特征序列的目标共性特征序列。

具体的，针对所述目标共性特征，可以将所述目标共性特征输入至全局池化层和全连接层，以对所述目标共性特征进行全局池化处理，得到对应的目标中间特征(例如颜色特征的中间特征M^C(图未示)、高频特征的中间特征M^H和融合特征的中间特征M)，其中，所述目标中间特征的特征维度是所述目标共性特征的特征维度的n倍，n为所述高频特征序列或者所述颜色特征序列中特征的数量；接着对所述目标中间特征和所述目标共性特征(例如颜色共性特征S^C、高频共性特征S^H和融合共性特征S)进行特征融合，例如进行特征矩阵之间的相乘，将所述目标中间特征与所述目标共性特征相乘，从而得到目标中间共性特征序列，所述目标中间共性特征序列包括所述目标特征序列中各特征元素的共性特征；然后通过卷积神经网络(例如卷积神经网络层

)，对所述目标中间共性特征序列进行升维处理，升维处理后的所述目标中间共性特征序列的特征维度与输入的所述目标特征序列的特征维度相同，均为n，然后将升维处理后的所述目标中间共性特征序列与所述目标特征序列进行融合，例如进行特征相加，然后将相加之后的特征序列作为可以输出的，经注意力特征激活后的、所述目标特征序列的目标共性特征序列。

其中，将升维处理后的所述目标中间共性特征序列与所述目标特征序列进行融合时，所述目标特征序列可以为所述高频特征序列，也可以为所述颜色特征序列，例如在将高频共性特征输入第二特征处理网络中，与颜色共性特征融合得到融合共性特征时，为便于神经网络数据的传输等，所述目标特征序列即可以为颜色特征序列，而在将颜色共性特征输入第一特征处理网络中，与高频共性特征融合得到融合共性特征时，为便于神经网络数据的传输等，所述目标特征序列即可以为高频特征序列。

进一步的，在一些可能的实施例中，S502包括：

对所述目标中间特征进行切分处理，得到多个子特征，其中，每个子特征的特征维度与所述目标共性特征的特征维度相同，所述多个子特征的数量与所述目标特征序列中特征元素的数量相同；确定每个所述子特征的通道维度注意力特征；将所述目标共性特征分别与确定出的每个通道维度注意力特征进行特征相加，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列。

具体的，得到所述目标中间特征之后，可以对所述目标中间特征进行切分能处理，例如切分得到n等分，得到多个子特征(例如高频特征对应的高频子特征A^H和融合共性特征对应的融合子特征A)，其中，每个子特征的特征维度与目标共性特征的特征维度相同，所述多个子特征的数量与所述目标特征序列中特征元素的数量相同，例如均为n；然后将得到的多个子特征输入至注意力机制层SoftMax(例如注意力机制层214和注意力机制层224)，以对子特征的通道维度做SoftMax操作，提取子特征的通道维度注意力特征(例如高频特征对应的通道维度注意力特征

和融合共性特征对应的融合子特征

)，然后将所述目标共性特征与得到的多个通道维度注意力特征相加，以进行特征融合，从而可以得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列(例如高频特征对应的高频中间共性特征序列

和融合共性特征对应的中间共性特征序列

本公开实施例提供的视频检测方法，通过获取待检测视频中多帧采样图像的颜色特征序列和高频特征序列，以确定出待检测视频的融合共性特征序列，从而检测视频的真伪，不仅可以将高频特征和颜色特征进行融合，实现多域特征有效融合，以使频域信息中包含的特征信息和色域信息中的特征信息起到补充作用，从而辅助对视频的检测，而且通过共性特征序列进行视频检测，可以具有更好的鲁棒性，有效提高预测结果的鲁棒性，提高视频检测中的各帧图像的帧间一致性。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与视频检测方法对应的视频检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图6，图6为本公开实施例提供的一种视频检测装置的示意图。如图6中所示，本公开实施例提供的视频检测装置600包括：

特征序列获取模块610，用于获取待检测视频的颜色特征序列和高频特征序列；

特征序列处理模块620，用于基于所述颜色特征序列和所述高频特征序列，得到针对所述待检测视频的融合共性特征序列；

真伪检测模块630，用于基于所述融合共性特征序列，确定所述待检测视频的真伪检测结果。

一种可选的实施方式中，所述特征序列获取模块610具体用于：

一种可选的实施方式中，所述特征序列获取模块610在用于确定每帧采样图像对应的高频图像时，具体用于：

针对每帧采样图像，确定该采样图像的频谱图；

一种可选的实施方式中，所述特征序列处理模块620具体用于：

一种可选的实施方式中，所述特征序列处理模块720在用于将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征时，具体用于：

对所述目标特征序列进行特征降维处理；

一种可选的实施方式中，所述特征序列处理模块620在用于基于所述融合共性特征，或者基于所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，确定针对所述待检测视频的融合共性特征序列，包括：

一种可选的实施方式中，所述特征序列处理模块620在用于对目标共性特征进行切分处理，得到目标共性特征序列时，具体用于：

对所述目标中间共性特征序列进行升维处理；

一种可选的实施方式中，所述特征序列处理模块620在用于对所述目标中间特征和所述目标共性特征进行特征融合，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列时，具体用于：

确定每个所述子特征的通道维度注意力特征；

一种可选的实施方式中，所述特征序列获取模块610在用于对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列时，具体用于：

本公开实施例提供的视频检测装置，通过获取待检测视频中多帧采样图像的颜色特征序列和高频特征序列，以确定出待检测视频的融合共性特征序列，从而检测视频的真伪，不仅可以将高频特征和颜色特征进行融合，实现多域特征有效融合，以使频域信息中包含的特征信息和色域信息中的特征信息起到补充作用，从而辅助对视频的检测，而且通过共性特征序列进行视频检测，可以具有更好的鲁棒性，有效提高预测结果的鲁棒性，提高视频检测中的各帧图像的帧间一致性。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于上述的视频检测方法，本公开实施例还提供了一种电子设备700，如图7所示，为本公开实施例提供的电子设备700结构示意图，包括：

处理器710、存储器720、和总线730；存储器720用于存储执行指令，包括内存721和外部存储器722；这里的内存721也称内存储器，用于暂时存放处理器710中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器710通过内存721与外部存储器722进行数据交换，当所述电子设备700运行时，所述处理器710与所述存储器720之间通过总线730通信，使得所述处理器710执行指令时可以执行上述方法实施例中所述的视频检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

获取待检测视频的颜色特征序列和高频特征序列；

2.根据权利要求1所述的方法，其特征在于，所述获取待检测视频的颜色特征序列和高频特征序列，包括：

3.根据权利要求2所述的方法，其特征在于，确定每帧采样图像对应的高频图像，包括：

针对每帧采样图像，确定该采样图像的频谱图；

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述基于所述颜色特征序列和所述高频特征序列，得到针对所述待检测视频的融合共性特征序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述将目标特征序列中不同帧采样图像的目标特征进行融合处理，得到所述待检测视频的目标共性特征，包括：

对所述目标特征序列进行特征降维处理；

6.根据权利要求4或5所述的方法，其特征在于，所述基于所述融合共性特征，或者基于所述颜色共性特征和所述高频共性特征中的至少一者以及所述融合共性特征，确定针对所述待检测视频的融合共性特征序列，包括：

7.根据权利要求6所述的方法，其特征在于，所述对目标共性特征进行切分处理，得到目标共性特征序列，包括：

对所述目标中间共性特征序列进行升维处理；

8.根据权利要求7所述的方法，其特征在于，所述对所述目标中间特征和所述目标共性特征进行特征融合，得到包括所述目标特征序列中各特征元素的共性特征的目标中间共性特征序列，包括：

确定每个所述子特征的通道维度注意力特征；

9.根据权利要求2所述的方法，其特征在于，所述对所述第一图像序列和所述第二图像序列中的每帧图像分别进行特征提取，得到与所述第一图像序列对应的所述颜色特征序列，以及与所述第二图像序列对应的所述高频特征序列，包括：

10.一种视频检测装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9中任一项所述的视频检测方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9中任一项所述的视频检测方法的步骤。