CN114898432A

CN114898432A - 基于多特征融合的伪造人脸视频检测方法及系统

Info

Publication number: CN114898432A
Application number: CN202210534263.5A
Authority: CN
Inventors: 刘熙尧; 邹晓强; 张健; 贺建飚; 张伟; 方辉
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-12

Abstract

本发明涉及一种基于多特征融合的伪造人脸视频检测方法及系统，涉及目标检测技术领域，方法包括：对待检测人脸视频进行帧分解，以得到多张连续待检测人脸图像；将待检测人脸图像输入至空间特征提取网络，以得到融合特征图；将多张融合特征图输入至时序注意力网络，以确定人脸视频类型。空间特征提取网络包括第一伪造特征支路、第二伪造特征支路、跨模态交互模块和特征融合模块；跨模态交互模块用于提取所述第一伪造特征支路与所述第二伪造特征支路之间的图像特征互补信息，并将所述图像特征互补信息对应输入至所述第一伪造特征支路和所述第二伪造特征支路。本发明提高了伪造人脸视频检测的准确性。

Description

基于多特征融合的伪造人脸视频检测方法及系统

技术领域

本发明涉及目标检测技术领域，特别是涉及一种基于多特征融合的伪造人脸视频检测方法及系统。

背景技术

随着深度学习为代表的人工智能技术的发展，深度伪造人脸技术得到了突破，篡改或生成高度逼真且难以甄别的伪造人脸成为可能。一方面深度伪造人脸技术在教育、文创、娱乐等领域具有其积极价值，另一方面深度伪造人脸技术的滥用可能给国防安全以及民生安全等多方面带来全新的挑战。

现阶段，对于人脸伪造视频的防御，大多从被动式检测的视角出发，从人脸视频自身获取信息或提取特征，对伪造人脸视频进行鉴别。若将伪造视频检测任务转换成一个二分类任务，根据伪造机理的不同，可以概括为以下五类：1)基于纹理级的检测方法，这类方法侧重于对伪造人脸噪声的差异进行检测。2)基于属性级的检测方法，这类方法在人脸空域上进行检测，侧重于人脸的细节。3)基于对象级的检测方法，此类方法专注提取局部-全局多尺度伪造特征。4)基于结构级的检测方法，此类方法主要提取帧内跨尺度一致性特征。5)基于视频帧级的检测，此类方法利用了伪造视频帧间的不一致特征。

虽然现有基于深度学习技术的伪造人脸检测技术相比基于人工设计的检测技术具有更好的检测性能和应用潜力，但是其仍然存在以下不足：1)对伪造人脸视频帧高频信号和内容细节的预处理过于简单，对伪造人脸视频帧内高频细节缺乏有效地增强。考虑到深度视频伪造算法更多是对图像中低频信号的合成，难以兼顾视频内容细节的模拟，和基于相机成像物理原理的真实视频噪声分布。2)绝大多数检测方法都只利用帧内或帧间的不一致性，没有很好地将这两类重要的伪造特征结合起来。

发明内容

本发明的目的是提供一种基于多特征融合的伪造人脸视频检测方法及系统，提高伪造人脸视频检测的准确性。

为实现上述目的，本发明提供了如下方案：

本发明提供的一种基于多特征融合的伪造人脸视频检测方法，包括：

对待检测人脸视频进行帧分解，以得到多张连续待检测人脸图像；

将所述待检测人脸图像输入至空间特征提取网络，以得到融合特征图；

将多张所述融合特征图输入至时序注意力网络，以确定人脸视频类型；所述人脸视频类型包括正常人脸视频和伪造人脸视频；

其中，所述空间特征提取网络包括第一伪造特征支路、第二伪造特征支路、跨模态交互模块和特征融合模块；所述第一伪造特征支路用于对所述待检测人脸图像进行特征提取，以得到第一特征图；所述第二伪造特征支路用于对所述待检测人脸图像依次进行高通预处理和特征提取，以得到第二特征图；

所述跨模态交互模块设置在所述第一伪造特征支路与所述第二伪造特征支路之间，所述跨模态交互模块用于提取所述第一伪造特征支路与所述第二伪造特征支路之间的图像特征互补信息，并将所述图像特征互补信息对应输入至所述第一伪造特征支路和所述第二伪造特征支路；

所述特征融合模块的输入端分别与所述第一伪造特征支路的输出端、所述第二伪造特征支路的输出端连接，所述特征融合模块用于将所述第一特征图和所述第二特征图进行特征融合，以得到融合特征图。

可选地，所述第一伪造特征支路包括依次连接的第一特征提取模块和第三特征提取模块；所述第二伪造特征支路包括依次连接的高通预处理模块、第二特征提取模块和第四特征提取模块；

所述第一特征提取模块用于对所述待检测人脸图像进行RGB域空间特征提取，以得到第一子特征图；所述高通预处理模块用于对所述待检测人脸图像进行高频噪声提取，以得到第一噪声图；所述第二特征提取模块用于对所述第一噪声图进行特征提取，以得到第二子特征图；

所述第一特征提取模块的输出端还与所述跨模态交互模块的第一输入端连接；所述第二特征提取模块的输出端还与所述跨模态交互模块的第二输入端连接；

所述跨模态交互模块的第一输出端与所述第三特征提取模块的输入端连接；所述跨模态交互模块的第二输出端与所述第四特征提取模块的输入端连接；所述跨模态交互模块用于对所述第一子特征图和所述第二子特征图进行交互，提取第一互补信息和第二互补信息，然后将所述第一互补信息输入至所述第三特征提取模块，将所述第二互补信息发送至所述第四特征提取模块；所述第一互补信息为所述第二子特征图相对于所述第一子特征图的区别特征信息；所述第二互补信息为所述第一子特征图相对于所述第二子特征图的区别特征信息；

所述第三特征提取模块用于根据所述第一子特征图和所述第一互补信息，确定第一特征图；所述第四特征提取模块用于根据所述第二子特征图和所述第二互补信息确定第二特征图；

所述第三特征提取模块的输出端和所述第四特征提取模块的输出端均与所述特征融合模块的输入端连接。

可选地，所述跨模态交互模块包括第一拼接子模块、卷积子模块、最大池化子模块、平均池化子模块、第二拼接子模块和卷积激活子模块；

所述第一拼接子模块的第一输入端与所述第一特征提取模块的输出端连接，所述第一拼接模块的第二输入端与所述第二特征提取模块的输出端连接；

所述第一拼接子模块的输出端与所述卷积子模块的输入端连接；所述卷积子模块的第一输出端与所述最大池化子模块的输入端连接，所述卷积子模块的第二输出端与所述平均池化子模块的输入端连接；

所述最大池化子模块的输出端与所述第二拼接子模块的第一输入端连接，所述平均池化子模块的输出端与所述第二拼接子模块的第二输入端连接；所述第二拼接子模块的输出端与所述卷积激活子模块的输入端连接；

所述卷积激活子模块的第一输出端与所述第三特征提取模块的输入端连接，所述卷积激活子模块的第二输出端与所述第四特征提取模块的输入端连接。

可选地，所述空间特征提取网络的训练过程，具体包括：

根据训练集和损失函数，对标定深度卷积网络进行训练，以得到空间特征提取网络；所述训练集包括初始人脸图像和所述初始人脸图像对应的标签信息；所述标签信息为所述初始人脸图像中的人脸面部特征；所述标定深度卷积网络包括第一标定伪造特征支路、第二标定伪造特征支路、标定跨模态交互模块、标定特征融合模块和标定分类模块；

所述第一标定伪造特征支路的输入端用于输入所述初始人脸图像；所述第一标定伪造特征支路的输出端与所述标定特征融合模块的第一输入端连接；

所述第二标定伪造特征支路的输入端用于输入所述初始人脸图像；所述第二标定伪造特征支路的输出端与所述标定特征融合模块的第二输入端连接；

所述标定跨模态交互模块设置在所述第一标定伪造特征支路与所述第二标定伪造特征支路之间；

所述标定融合模块的输出端与所述标定分类模块的输入端连接；所述标定分类模块的输出端用于输出所述初始人脸图像的面部特征。

可选地，所述跨模态交互模块包括第一交互子模块、第二交互子模块和第三交互子模块；所述第一伪造特征支路还包括第一特征提取子模块和第三特征提取子模块；所述第二伪造特征支路还包括第二特征提取子模块和第四特征提取子模块；

所述第一交互子模块的第一输入端与所述第一特征提取模块的输出端连接，所述第一交互子模块的第一输出端与所述第一特征提取子模块的输入端连接；

所述第一交互子模块的第二输入端与所述第二特征提取模块的输出端连接；所述第一交互子模块的第二输出端与所述第二特征提取子模块的输入端连接；

所述第二交互子模块的第一输入端与所述第一特征提取子模块的输出端连接，所述第二交互子模块的第一输出端与第三特征提取子模块的输入端连接；

所述第二交互子模块的第二输入端与所述第二特征提取子模块的输出端连接；所述第二交互子模块的第二输出端与第四特征提取子模块的输入端连接；

所述第三交互子模块的第一输入端与所述第三特征提取子模块的输出端连接，所述第三交互子模块的第一输出端与所述第三特征提取模块的输入端连接；

所述第三交互子模块的第二输入端与所述第四特征提取子模块的输出端连接；所述第三交互子模块的第二输出端与所述第四特征提取模块的输入端连接。

可选地，所述时序注意力网络包括依次连接的注意力Transformer模块和基于多层感知机的分类模块。

为达上述目的，本发明还提供了如下技术方案：

一种基于多特征融合的伪造人脸视频检测系统，包括：

视频分解单元，用于对待检测人脸视频进行帧分解，以得到多张连续待检测人脸图像；

特征融合单元，用于将所述待检测人脸图像输入至空间特征提取网络，以得到融合特征图；

视频类型确定单元，用于将多张所述融合特征图输入至时序注意力网络，以确定人脸视频类型；所述人脸视频类型包括正常人脸视频和伪造人脸视频；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于多特征融合的伪造人脸视频检测方法及系统，对待检测人脸视频进行帧分解得到多张连续待检测人脸图像，通过空间特征提取网络对待检测人脸图像进行人脸伪造特征提取。其中，空间特征提取网络中包括并行的第一伪造特征支路和第二伪造特征支路，同时提取待检测人脸图像的低频纹理伪造特征和高频伪造特征；以及在第一伪造特征支路和第二伪造特征支路之间设置的跨模态交互模块，以提取伪造人脸视频的帧间不一致性特征，并相应添加至第一伪造特征支路和第二伪造特征支路，以完善两个支路提取出的图像空间特征，最后得到融合特征图，然后将多张融合特征图输入时序注意力网络，判断待检测人脸视频是否为伪造。本发明串行地提取伪造人脸视频的帧内特征和帧间特征，提高了伪造人脸视频检测的准确度和泛化性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多特征融合的伪造人脸视频检测方法的流程示意图；

图2为本发明基于多特征融合的伪造人脸视频检测方法的算法框架图；

图3为本发明基于多特征融合的伪造人脸视频检测方法的跨模态交互模块的结构示意图；

图4为本发明基于多特征融合的伪造人脸视频检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于多特征融合的伪造人脸视频检测方法及系统，设计双流卷积神经网络框架提取基于空域和频域的帧内特征，使用时序注意力Transformer网络提取帧间特征，把深度伪造人脸视频检测任务作为二分类任务来训练检测网络，提高了伪造人脸视频检测的准确度和泛化性。

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本实施例提供一种基于多特征融合的伪造人脸视频检测方法，包括：

步骤100，对待检测人脸视频进行帧分解，以得到多张连续待检测人脸图像。

步骤200，将所述待检测人脸图像输入至空间特征提取网络，以得到融合特征图；

步骤300，将多张所述融合特征图输入至时序注意力网络，以确定人脸视频类型；所述人脸视频类型包括正常人脸视频和伪造人脸视频。

其中，所述空间特征提取网络包括第一伪造特征支路、第二伪造特征支路、跨模态交互模块和特征融合模块；所述第一伪造特征支路用于对所述待检测人脸图像进行特征提取，以得到第一特征图；所述第二伪造特征支路用于对所述待检测人脸图像依次进行高通预处理和特征提取，以得到第二特征图。

所述跨模态交互模块设置在所述第一伪造特征支路与所述第二伪造特征支路之间，所述跨模态交互模块用于提取所述第一伪造特征支路与所述第二伪造特征支路之间的图像特征互补信息，并将所述图像特征互补信息对应输入至所述第一伪造特征支路和所述第二伪造特征支路。

具体地，如图2所示，空间特征提取网络中，所述第一伪造特征支路包括依次连接的第一特征提取模块和第三特征提取模块；所述第二伪造特征支路包括依次连接的高通预处理模块、第二特征提取模块和第四特征提取模块。通过第一伪造特征支路和第二伪造特征支路构建出双流架构。

所述第一特征提取模块用于对所述待检测人脸图像进行RGB域空间特征提取，以得到第一子特征图(空域特征图)；所述高通预处理模块用于对所述待检测人脸图像进行高频噪声提取，以得到第一噪声图；所述第二特征提取模块用于对所述第一噪声图进行特征提取，以得到第二子特征图(频域特征图)；所述第一特征提取模块的输出端还与所述跨模态交互模块的第一输入端连接；所述第二特征提取模块的输出端还与所述跨模态交互模块的第二输入端连接。

由于空域特征图和频域特征图之间存在某些互补的信息以及相互作用，在双流之间插入跨模态交互模块提取互补信息，完善提取的空间特征。

所述跨模态交互模块的第一输出端与所述第三特征提取模块的输入端连接；所述跨模态交互模块的第二输出端与所述第四特征提取模块的输入端连接；所述跨模态交互模块用于对所述第一子特征图和所述第二子特征图进行交互，提取第一互补信息和第二互补信息，然后将所述第一互补信息输入至所述第三特征提取模块，将所述第二互补信息发送至所述第四特征提取模块；所述第一互补信息为所述第二子特征图相对于所述第一子特征图的区别特征信息；所述第二互补信息为所述第一子特征图相对于所述第二子特征图的区别特征信息。

所述第三特征提取模块用于根据所述第一子特征图和所述第一互补信息，确定第一特征图；所述第四特征提取模块用于根据所述第二子特征图和所述第二互补信息确定第二特征图。所述第三特征提取模块的输出端和所述第四特征提取模块的输出端均与所述特征融合模块的输入端连接。进一步地，特征融合模块由深度为1的Transformer构成。将提取到的RGB域特征(第一特征图)和频域特征(第二特征图)在通道层面拼接，然后通过Transformer网络得到融合的2048维向量。

优选地，如图3所示，所述跨模态交互模块包括第一拼接子模块、卷积子模块、最大池化子模块、平均池化子模块、第二拼接子模块和卷积激活子模块。

所述第一拼接子模块的第一输入端与所述第一特征提取模块的输出端连接，所述第一拼接模块的第二输入端与所述第二特征提取模块的输出端连接。所述第一拼接模块用于将两个输入的特征图在通道上拼接。

所述第一拼接子模块的输出端与所述卷积子模块的输入端连接；所述卷积子模块的第一输出端与所述最大池化子模块的输入端连接，所述卷积子模块的第二输出端与所述平均池化子模块的输入端连接。所述卷积子模块依次包括1x1的二维卷积、BN层、ReLU激活函数，以将特征图的通道数压缩一半。

所述最大池化子模块的输出端与所述第二拼接子模块的第一输入端连接，所述平均池化子模块的输出端与所述第二拼接子模块的第二输入端连接；所述第二拼接子模块的输出端与所述卷积激活子模块的输入端连接。所述卷积激活子模块的第一输出端与所述第三特征提取模块的输入端连接，所述卷积激活子模块的第二输出端与所述第四特征提取模块的输入端连接。最大池化子模块和平均池化子模块对特征图分别做最大池化和平均池化，得到两个单通道的特征图，再将其拼接得到两通道的特征图。所述卷积激活模块包括依次连接的3x3的二维卷积、Sigmoid激活函数，以将第二拼接子模块拼接得到的特征图分割成两个单通道的特征图分别传递到主提取网络上。

上述空间特征提取网络的训练过程具体包括：

根据训练集和损失函数，对标定深度卷积网络进行训练，以得到空间特征提取网络；所述训练集包括初始人脸图像和所述初始人脸图像对应的标签信息；所述标签信息为所述初始人脸图像中的人脸面部特征；所述标定深度卷积网络包括第一标定伪造特征支路、第二标定伪造特征支路、标定跨模态交互模块、标定特征融合模块和标定分类模块。

第一标定伪造特征支路、第二标定伪造特征支路、标定跨模态交互模块、标定特征融合模块的连接方式与上文对应的第一伪造特征支路、第二伪造特征支路、跨模态交互模块、特征融合模块的连接方式相同，且所述标定融合模块的输出端与所述标定分类模块的输入端连接；所述标定分类模块的输出端用于输出所述初始人脸图像的面部特征。

其中，将交叉熵函数作为损失函数进行训练，交叉熵损失函数为：

其中，L表示根据损失函数计算得到的交叉熵损失值，N表示训练集中的初始人脸图像的数量，y_i表示第i个初始人脸图像对应的标签信息，当第i个初始人脸图像对应的标签信息为正类时，y_i＝1；当第i个初始人脸图像对应的标签信息为负类时，y_i＝0；p_i表示第i个初始人脸图像的标签信息为正类的概率。

上述网络训练完成之后，丢弃其中的标定分类模块，得到可用的空间特征提取网络。然后基于上述空间特征提取网络，依次连接注意力Transformer模块和基于多层感知机的分类模块，依旧采用交叉熵函数作为损失函数，训练基于时序特征的鉴别网络。此时训练集的单个样本为按时间顺序编号排列的同一视频中的多帧图像。

当空间特征提取网络和时序注意力网络均训练完成之后，基于多特征融合的伪造人脸检测网络的测试流程如下：

1)将待测视频进行帧分解，得到伪造/真实图像。

2)将伪造/真实图像作为RGB域空间特征提取网络流的输入，得到第一子特征图。

3)同时，使用高通滤波器富隐写分析模型(SRM，Steganalysis Rich Model)获取伪造/真实图像的高频噪声，得到第一噪声图，并将其作为第二特征提取模块的输入，得到第二子特征图。

4)将双流的第一阶段特征(第一子特征图和第二子特征图)同时喂入跨模态交互模块，使RGB域特征和高频特征充分交互、提取它们之间互补的特征。将互补特征重新加入到之前各自输入的特征中，再分别通过各自的特征提取子网络，反复使用三次跨模态交互子模块充分提取空域和频域中互补的特征，最终得到第一特征图和第二特征图。

5)将提取到的RGB域特征(第一特征图)和频域空间特征(第二特征图)通过特征融合模块得到融合特征。

6)将各个有序视频帧样本同时通过上述步骤1)-5)的空间特征提取网络获得空间特征序列。

7)将空间特征序列通过时序注意力Transformer网络，编码时序的伪造特征，获得时空不一致伪造特征，将其中的伪造特征通过分类层进行二分类，以此判断人脸视频是否伪造。

具体地，上文步骤4)中，在反复使用三次跨模态交互子模块充分提取空域和频域中互补的特征方面，所述跨模态交互模块具体包括第一交互子模块、第二交互子模块和第三交互子模块；所述第一伪造特征支路还包括第一特征提取子模块和第三特征提取子模块；所述第二伪造特征支路还包括第二特征提取子模块和第四特征提取子模块。

所述第一交互子模块的第一输入端与所述第一特征提取模块的输出端连接，所述第一交互子模块的第一输出端与所述第一特征提取子模块的输入端连接。所述第一交互子模块的第二输入端与所述第二特征提取模块的输出端连接；所述第一交互子模块的第二输出端与所述第二特征提取子模块的输入端连接。

所述第二交互子模块的第一输入端与所述第一特征提取子模块的输出端连接，所述第二交互子模块的第一输出端与第三特征提取子模块的输入端连接。所述第二交互子模块的第二输入端与所述第二特征提取子模块的输出端连接；所述第二交互子模块的第二输出端与第四特征提取子模块的输入端连接。

所述第三交互子模块的第一输入端与所述第三特征提取子模块的输出端连接，所述第三交互子模块的第一输出端与所述第三特征提取模块的输入端连接。所述第三交互子模块的第二输入端与所述第四特征提取子模块的输出端连接；所述第三交互子模块的第二输出端与所述第四特征提取模块的输入端连接。

下面对上述图像检测模型进行验证：

采用公开的伪造人脸图像数据集FF++训练、测试模型。FF++包括Deepfakes、Face2Face、FaceSwap、NeuralTextures四个人脸伪造方法，每个伪造方法对应有1000个伪造视频。使用其中的720个视频用于训练，其中140个视频用于验证，其中140个视频用于测试。FF++有三个压缩版本，分别是原始视频raw、轻度压缩视频c23、重度压缩视频c40。

帧内特征提取框架采用Xception作为骨干网络，Xception和Transformer都使用在ImageNet上预训练好的模型参数初始化。使用DLIB库用于人脸提取和对齐，然后将对齐的人脸图像放缩到256x256。然后，使用一张3090GPU进行模型的训练。优化方法选用Adam方法，学习率初始时设置为0.0002，权重衰减设置为5e-4，批量大小设置为32，总训练轮次为50个周期。

根据以上训练方法训练模型，然后对模型进行测试，得到的结果如下表1和表2所示：

表1 FF++上的检测性能表

表2 FF++上的泛化能力表

从表1可知，采用本发明提供的上述方法进行伪造人脸视频检测时，在FF++上的准确度达到了当前业界先进的水平，这是由于本发明使用网络串行地提取了帧内特征和帧间特征。

从表2可知，采用本发明提供的上述方法，对于在训练期间未见过的伪造视频上的检测性能也达到了业界先进的水平，这是由于本发明同时提取了空域和频域的特征，并使用基于自注意力机制的融合模块融合了两种帧内特征。进一步，使用基于空间注意力的跨模态交互模块提取了空域和频域互补的特征，而上述几种机制的结合大大提高了模型的泛化能力。

实施例二

如图4所示，本实施例提供一种基于多特征融合的伪造人脸视频检测系统，包括：

视频分解单元101，用于对待检测人脸视频进行帧分解，以得到多张连续待检测人脸图像。

特征融合单元201，用于将所述待检测人脸图像输入至空间特征提取网络，以得到融合特征图。

视频类型确定单元301，用于将多张所述融合特征图依次输入至时序注意力网络，以确定人脸视频类型；所述人脸视频类型包括正常人脸视频和伪造人脸视频。

所述第一伪造特征支路包括依次连接的第一特征提取模块和第三特征提取模块；所述第二伪造特征支路包括依次连接的高通预处理模块、第二特征提取模块和第四特征提取模块；所述第一特征提取模块用于对所述待检测人脸图像进行RGB域空间特征提取，以得到第一子特征图；所述高通预处理模块用于对所述待检测人脸图像进行高频噪声提取，以得到第一噪声图；所述第二特征提取模块用于对所述第一噪声图进行特征提取，以得到第二子特征图。

所述第一特征提取模块的输出端还与所述跨模态交互模块的第一输入端连接；所述第二特征提取模块的输出端还与所述跨模态交互模块的第二输入端连接。所述跨模态交互模块的第一输出端与所述第三特征提取模块的输入端连接；所述跨模态交互模块的第二输出端与所述第四特征提取模块的输入端连接；所述跨模态交互模块用于对所述第一子特征图和所述第二子特征图进行交互，提取第一互补信息和第二互补信息，然后将所述第一互补信息输入至所述第三特征提取模块，将所述第二互补信息发送至所述第四特征提取模块；所述第一互补信息为所述第二子特征图相对于所述第一子特征图的区别特征信息；所述第二互补信息为所述第一子特征图相对于所述第二子特征图的区别特征信息。

所述第三特征提取模块用于根据所述第一子特征图和所述第一互补信息，确定第一特征图；所述第四特征提取模块用于根据所述第二子特征图和所述第二互补信息确定第二特征图。所述第三特征提取模块的输出端和所述第四特征提取模块的输出端均与所述特征融合模块的输入端连接。

具体地，所述跨模态交互模块包括第一拼接子模块、卷积子模块、最大池化子模块、平均池化子模块、第二拼接子模块和卷积激活子模块。

所述第一拼接子模块的第一输入端与所述第一特征提取模块的输出端连接，所述第一拼接模块的第二输入端与所述第二特征提取模块的输出端连接。第一拼接子模块的输出端与所述卷积子模块的输入端连接；所述卷积子模块的第一输出端与所述最大池化子模块的输入端连接，所述卷积子模块的第二输出端与所述平均池化子模块的输入端连接。

所述最大池化子模块的输出端与所述第二拼接子模块的第一输入端连接，所述平均池化子模块的输出端与所述第二拼接子模块的第二输入端连接；所述第二拼接子模块的输出端与所述卷积激活子模块的输入端连接。所述卷积激活子模块的第一输出端与所述第三特征提取模块的输入端连接，所述卷积激活子模块的第二输出端与所述第四特征提取模块的输入端连接。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多特征融合的伪造人脸视频检测方法，其特征在于，所述伪造人脸视频检测方法包括：

2.根据权利要求1所述的基于多特征融合的伪造人脸视频检测方法，其特征在于，所述第一伪造特征支路包括依次连接的第一特征提取模块和第三特征提取模块；所述第二伪造特征支路包括依次连接的高通预处理模块、第二特征提取模块和第四特征提取模块；

3.根据权利要求2所述的基于多特征融合的伪造人脸视频检测方法，其特征在于，所述跨模态交互模块包括第一拼接子模块、卷积子模块、最大池化子模块、平均池化子模块、第二拼接子模块和卷积激活子模块；

4.根据权利要求1所述的基于多特征融合的伪造人脸视频检测方法，其特征在于，所述空间特征提取网络的训练过程，具体包括：

5.根据权利要求2所述的基于多特征融合的伪造人脸视频检测方法，其特征在于，所述跨模态交互模块包括第一交互子模块、第二交互子模块和第三交互子模块；所述第一伪造特征支路还包括第一特征提取子模块和第三特征提取子模块；所述第二伪造特征支路还包括第二特征提取子模块和第四特征提取子模块；

6.根据权利要求1所述的基于多特征融合的伪造人脸视频检测方法，其特征在于，所述时序注意力网络包括依次连接的注意力Transformer模块和基于多层感知机的分类模块。

7.一种基于多特征融合的伪造人脸视频检测系统，其特征在于，所述伪造人脸视频检测系统包括：

8.根据权利要求7所述的基于多特征融合的伪造人脸视频检测系统，其特征在于，所述第一伪造特征支路包括依次连接的第一特征提取模块和第三特征提取模块；所述第二伪造特征支路包括依次连接的高通预处理模块、第二特征提取模块和第四特征提取模块；

9.根据权利要求8所述的基于多特征融合的伪造人脸视频检测系统，其特征在于，所述跨模态交互模块包括第一拼接子模块、卷积子模块、最大池化子模块、平均池化子模块、第二拼接子模块和卷积激活子模块；