CN115984917A

CN115984917A - 一种基于多模态伪影的人脸深度伪造检测方法及系统

Info

Publication number: CN115984917A
Application number: CN202211159396.5A
Authority: CN
Inventors: 赵奕; 姚绍文; 金鑫; 江倩; 高嵩; 武丽雯; 吴峰; 莫鸿
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-04-18

Abstract

本发明涉及一种基于多模态伪影的人脸深度伪造检测方法及系统。该方法包括基于人脸深度伪造视频逐帧提取视频帧，从提取到的视频帧中获得人脸区域图像；利用双流特征提取网络提取所述人脸区域图像的多尺度纹理差异特征、多级噪声特征以及深层语义特征；将多尺度纹理差异特征、深层语义特征以及多级噪声特征串联起来，进行多模态特征融合，确定融合特征；基于协作监督策略进行融合特征的监督对比学习和分类；所述协作监督策略为对融合特征进行监督对比学习确定人脸深度伪造检测特征；根据人脸深度伪造检测特征以及融合特征向量进行分类。本发明能够有效的提取具有泛化性能的深度伪造检测特征，在提高数据集类内检测精度的同时，提高跨库的泛化检测精度。

Description

一种基于多模态伪影的人脸深度伪造检测方法及系统

技术领域

本发明涉及多媒体信息取证技术领域，特别是涉及一种基于多模态伪影的人脸深度伪造检测方法及系统。

背景技术

随着计算机图形学，特别是深度生成式模型的快速发展，出现了DeepFake、FaceSwap、Face2Face、NeuralTexture等开源的人脸深度伪造技术。一方面，人脸深度伪造技术的发展促进了艺术创作领域和电影制造工业的发展。另一方面，在互联网社交媒体中传播恶意篡改的人脸图像或视频对多媒体信息安全产生了巨大的威胁，造成了侵犯个人隐私、伪造法律证据等严重的危害。

现有的人脸深度伪造检测方法大致可分为两类：一类利用手工设计特征提取真实人脸和篡改人脸的差异。例如:X.Yang等2019年在《IEEE International ConferenceonAcoustics,Speech and Signal Processing》发表的论文“Exposing deep fakes usinginconsistentheadposes”中，基于人脸特征点手工设计特征提取头部姿势不一致性伪影作为检测特征。这类方法提取的特征目的清晰，可解释性强，但利用手工设计的特征引入了专家的先验知识，并且随着篡改人脸质量的不断提升，基于手工设计特征的检测方法不能泛化到改进的人脸深度伪造方法。另一类通过设计和改进神经网络的结构作为人脸深度伪造的判别器。例如：H.Zhao等2021年在《IEEE Conference on Computer Vision and PatternRecognition》发表的论文“Multi-attentional deepfake detection”中在EfficientNetB4网络的基础上引入多头注意力机制提取细粒度差异特征在类内场景检测中取得了良好的性能。此类方法依赖神经网络强大的数据拟合能力可以学习到丰富的伪造检测特征，但是容易过拟合于训练数据集的数据分布，很难泛化到未知的人脸深度伪造方法。

为解决当前人脸深度伪造检测方法跨库检测泛化性能差的问题，亟需提供一种新的人脸深度伪造检测方法或系统，能够有效的提取具有泛化性能的深度伪造检测特征，在提高数据集类内检测精度的同时，提高跨库的泛化检测精度。

发明内容

本发明的目的是提供一种基于多模态伪影的人脸深度伪造检测方法及系统，能够有效的提取具有泛化性能的深度伪造检测特征，在提高数据集类内检测精度的同时，提高跨库的泛化检测精度。

为实现上述目的，本发明提供了如下方案：

一种基于多模态伪影的人脸深度伪造检测方法，包括：

基于人脸深度伪造视频逐帧提取视频帧，从提取到的视频帧中获得人脸区域图像；

利用双流特征提取网络提取所述人脸区域图像的多尺度纹理差异特征、多级噪声特征以及深层语义特征；所述双流特征提取网络采用RGB支流和SRM噪声支流分别对输入的人脸区域图像进行特征提取；所述双流特征提取网络包括：纹理差异特征提取模块和多级自适应噪声特征提取模块；所述纹理差异特征提取模块基于RGB支流不同的浅层特征图提取多尺度纹理差异特征；所述多级自适应噪声特征提取模块利用RGB支流的深层语义特征图与SRM噪声支流中浅层噪声特征图交互并增强SRM噪声支流浅层噪声特征图中的噪声特征提取深层语义特征和多级噪声特征；

将多尺度纹理差异特征、深层语义特征以及多级噪声特征串联起来，进行多模态特征融合，确定融合特征；

基于协作监督策略进行融合特征的监督对比学习和分类；所述协作监督策略为对融合特征进行监督对比学习确定人脸深度伪造检测特征；根据确定的人脸深度伪造检测特征进行分类。

可选地，在ImageNet上进行预训练的EfficientNetB4作为所述RGB支流和所述SRM噪声支流的骨干网络；

EfficientNetB4包括：依次连接的头卷积Conv1、7个层级以及一个尾卷积；所述RGB支流和所述SRM噪声支流，流内网络共享参数，流间网络参数独立。

可选地，所述纹理差异特征提取模块包括：不同的中心差分卷积层。

可选地，SRM噪声支流的入口包含一个自适应SRM滤波层。

可选地，所述多级噪声特征提取模块包括：RGB下采样路径、SRM下采样路径、跨模态上采样交互增强路径和横向连接路径。

可选地，所述协作监督策略的损失函数为：

L_total＝α*L_ce+β*L_sc；

其中，L_total为协作监督策略的损失函数，L_sc为监督对比学习的损失函数

L_ce为分类的损失函数，

α和β均为平衡权重，z为标准化后的融合特征，N为训练过程中一个批次数据大小，|N_p|为批次数据中正例样本集大小，N_a为批次数据中的负例样本集，z_i为锚样本，z_p为正例样本，z_a为负例样本，τ∈R⁺是温度系数，p_j和y_j分别为模型预测为真实的概率和输入样本j的标签。

一种基于多模态伪影的人脸深度伪造检测系统，包括：

人脸区域图像获取模块，用于基于人脸深度伪造视频逐帧提取视频帧，从提取到的视频帧中获得人脸区域图像；

特征提取模块，用于利用双流特征提取网络提取所述人脸区域图像的多尺度纹理差异特征、多级噪声特征以及深层语义特征；所述双流特征提取网络采用RGB支流和SRM噪声支流分别对输入的人脸区域图像进行特征提取；所述双流特征提取网络包括：纹理差异特征提取模块和多级自适应噪声特征提取模块；所述纹理差异特征提取模块基于RGB支流不同的浅层特征图提取多尺度纹理差异特征；所述多级自适应噪声特征提取模块利用RGB支流的深层语义特征图与SRM噪声支流中浅层噪声特征图交互并增强SRM噪声支流浅层噪声特征图中的噪声特征提取深层语义特征和多级噪声特征；

多模态特征融合模块，用于将多尺度纹理差异特征、深层语义特征以及多级噪声特征串联起来，进行多模态特征融合，确定融合特征；

监督对比学习和分类模块，用于基于协作监督策略进行融合特征的监督对比学习和分类；所述协作监督策略为对融合特征进行监督对比学习确定人脸深度伪造检测特征；根据确定的人脸深度伪造检测特征进行分类。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种基于多模态伪影的人脸深度伪造检测方法及系统，逐帧提取数据集中待检测视频，从视频帧中提取人脸区域图像，然后将人脸区域图像分别输入双流特征提取网络中提取多尺度纹理差异特征、深层语义特征和多级噪声特征，最后基于协作监督策略对多模态融合特征进行监督对比学习和分类。双流特征提取网络包含纹理差异特征提取模块和多级噪声提取模块并能够有效的提取具有泛化性能的深度伪造检测特征。同时引入协作监督策略增强了多模态融合特征空间中类间可分离性和类内压缩性。在提高现有的人脸深度伪造检测方法数据集类内检测精度的同时，提高跨库的泛化检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于多模态伪影的人脸深度伪造检测方法流程示意图；

图2为典型的人脸深度伪造流程示意图；

图3为本发明所提供的一种基于多模态伪影的人脸深度伪造检测方法框架图；

图4为纹理差异特征提取模块示意图；

图5为多级噪声特征提取模块示意图；

图6为本发明所提供的一种基于多模态伪影的人脸深度伪造检测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图2所示，典型的人脸深度伪造流程中包含三个处理阶段，在第一阶段中，通过人脸检测模型例如MTCNN或者Dlib检测并识别人脸深度伪造视频帧中的人脸区域，并根据人脸特征点提取人脸区域。在第二阶段，深度伪造人脸区域图像通过基于计算机图形学的3D参数模型渲染或者通过深度生成式模型生成，在这一阶段中，不同的人脸篡改算法会产生与原始人脸图像不同的纹理模式。在第三阶段，通过第二阶段生成的深度伪造人脸区域图像通过一系列的后处理步骤例如：颜色矫正、仿射变换之后与原始图像中的背景区域融合得到最终的人脸深度伪造视频帧，在这一阶段的融合处理步骤将暴露人脸区域和背景区域不一致的噪声特征。综上所述，纹理差异和区域噪声不一致性为典型的人脸深度伪造流程中固有的互补伪造痕迹。

图1为本发明所提供的一种基于多模态伪影的人脸深度伪造检测方法流程示意图，图3为本发明所提供的一种基于多模态伪影的人脸深度伪造检测方法框架图，如图1和图3所示，本发明所提供的一种基于多模态伪影的人脸深度伪造检测方法，包括：

S101，基于人脸深度伪造视频逐帧提取视频帧，从提取到的视频帧中获得人脸区域图像。

目前开源的人脸深度伪造数据集大都是视频数据集，首先需要将视频数据集逐帧提取人脸深度伪造图像，随后，对于所有的真伪图像，采用人脸检测模型Dlib检测并提取人脸区域。为进一步使暴露区域噪声不一致性，将人脸区域沿宽度和高度向外扩展1.3倍，最后将裁剪后的人脸大小统一调整为256*256。

S102，利用双流特征提取网络提取所述人脸区域图像的多尺度纹理差异特征、多级噪声特征以及深层语义特征；所述双流特征提取网络采用RGB支流和SRM噪声支流分别对输入的人脸区域图像进行特征提取；所述双流特征提取网络包括：纹理差异特征提取模块和多级自适应噪声特征提取模块；所述纹理差异特征提取模块基于RGB支流不同的浅层特征图提取多尺度纹理差异特征；所述多级自适应噪声特征提取模块利用RGB支流的深层语义特征图与SRM噪声支流中浅层噪声特征图交互并增强SRM噪声支流浅层噪声特征图中的噪声特征提取深层语义特征和多级噪声特征。

在ImageNet上进行预训练的EfficientNetB4作为所述RGB支流和所述SRM噪声支流的骨干网络。

EfficientNetB4包括：依次连接的头卷积Conv1、7个层级Layer1-Layer7以及一个尾卷积Conv2；所述RGB支流和所述SRM噪声支流，流内网络共享参数，流间网络参数独立。

所述纹理差异特征提取模块包括：不同的中心差分卷积层。纹理差异特征提取模块基于RGB支流不同的浅层特征图提取多尺度纹理差异特征。具体地，如图4所示，输入的RGB支流的特征图依次经过两个不同的中心差分卷积层得到纹理特征图，其中，中心差分卷积层结合像素强度信息和梯度信息学习特征图中的纹理信息，表示为：

上式中，p_c表示目前在感受野输入和输出特征图F_o和F_i中的位置，p_n枚举了目前局部感受野范围N内像素，θ为像素强度和像素梯度信息的平衡参数，本实施例中设置为θ＝0.7。中心差分卷积中K表示卷积核数，S表示步长，G表示输入通道与输出通道数进行的分组数，本实施例中设置M＝16。随后纹理特征图经过Gram矩阵编码的并进行向量展平操作后得到纹理特征TDF，Gram矩阵计算表达式为：

上式中

为向量化后的纹理特征图i＝1，2…M。所述纹理差异特征提取模块运用于RGB支流中Conv1、Layer1、Layer2输出的浅层特征图得到多尺度的纹理差异特征TDF₁，TDF₂，TDF₃。

SRM噪声支流的入口包含一个自适应SRM滤波层。自适应SRM滤波层克服了传统固定核参数滤波器有限的噪声表征能力通过网络学习的方式自适应的学习SRM核参数。自适应SRM滤波层的计算表达式为：

其中W(0,0)表示自适应SRM滤波核中心的参数，W(m,n)表示自适应SRM滤波核中心以外的核参数，R表示输入图像X与自适应SRM滤波器进行卷积运算⊙后得到的残差图。可学习SRM滤波层包含3个5*5的可学习SRM卷积核，并以经典SRM算法中的3个滤波器作为初始化参数。随后在第二维度上扩展为3*3*5*5的SRM卷积核以同步输入和输出分辨率3×256×256。

如图4所示，所述多级噪声特征提取模块包括：RGB下采样路径、SRM下采样路径、跨模态上采样交互增强路径和横向连接路径。骨干网络中生成相同分辨率的特征映射的层级被定义为一个阶段，每个阶段的最后一层的输出特征映射被定义为一个层次结构。骨干网络EfficientNetB4中Layer1、Layer2、Layer3、Layer5、Layer7输出为5个主要的层次特征图。横向链接路径中1×1的卷积层用于调整并统一每个尺度特征的通道数。3×3的卷积核用于消除上采样过程中的混叠效应。由于RGB支流中深层的特征图包含了丰富的语义特征，SRM噪声支流中细微的噪声特征容易在下采样过程中消失，因此，利用RGB支流Layer5、Layer7输出的深层语义特征图与SRM支流中Layer1、Layer2、Layer3输出的浅层噪声特征交互增强进一步提取得到深层语义特征T₅、T₄和多级噪声特征T₃、T₂、T₁；

S103，将多尺度纹理差异特征、深层语义特征以及多级噪声特征串联起来，进行多模态特征融合，确定融合特征F_G＝concat(TDF₁,TDF₂,TDF₃,T₁,···T₅)。

S104，基于协作监督策略进行融合特征的监督对比学习和分类；所述协作监督策略为对融合特征进行监督对比学习确定具有泛化性能的人脸深度伪造检测特征；监督对比学习将鼓励网络增强真伪人脸相同类内特征的进一步聚合以及类间特征的进一步分离，进而学习更具泛化能力的特征表达。根据确定的人脸深度伪造检测特征进行分类，采用交叉熵损失函数作为监督。

所述协作监督策略的损失函数为：

L_total＝α*L_ce+β*L_sc；

L_ce为分类的损失函数，

α和β均为平衡权重，z为标准化后的融合特征，N为训练过程中一个批次数据大小，|N_p|为批次数据中正例样本集大小，N_a为批次数据中的负例样本集，z_i为锚样本，z_p为正例样本，z_a为负例样本，τ∈R⁺是温度系数，p_j和y_j分别为模型预测为真实的概率和输入样本j的标签。具体的，α＝1，β＝0.5，τ＝0.1。

在本实施例中，训练数据集为大型人脸深度伪造检测数据集FaceForensic++，跨库泛检测数据集采用Celeb-DF、DFDC。其中，FaceForensic++分别在无压缩C0、低压缩C23、高压缩C40场景中包含真实视频1000个，4种伪造方法DeepFake、FaceSwap、Face2Face、NeuralTexture视频4000个。Celeb-DF包含真实视频408个，伪造视频795个。DFDC包括真实视频100000个，伪造视频19154个。

在FaceForensic++人脸深度伪造数据集的类内检测中，测试结果如表1所示，为模拟真实场景中人脸深度伪造的检测，测试数据集选用低压缩C23和高压缩C40设置，所选评价指标ACC代表准确率，AUC代表曲线下面积，以上两个评价指标能够充分评估神经网络分类器的分类能力，通过表1可以看出，相较先进的分类网络Xception、EfficientNetB4，以及先进的人脸伪造检测方法SPSL以及DFFD，利用本发明实施例所提出的方法可提升对不同压缩率的深度伪造人脸检测的能力。

表1

在人脸深度伪造检测的跨库泛化性能检测中，本发明实施例在FaceForensic++上进行训练，并在Celeb-DF和DFDC数据集中测试泛化性能。测试结果如表2所示，在Celeb-DF和DFDC数据集上都获得了先进的泛化检测性能。

表2

图6为本发明所提供的一种基于多模态伪影的人脸深度伪造检测系统结构示意图，如图6所示，本发明所提供的一种基于多模态伪影的人脸深度伪造检测系统，包括：

人脸区域图像获取模块601，用于基于人脸深度伪造视频逐帧提取视频帧，从提取到的视频帧中获得人脸区域图像。

特征提取模块602，用于利用双流特征提取网络提取所述人脸区域图像的多尺度纹理差异特征、多级噪声特征以及深层语义特征；所述双流特征提取网络采用RGB支流和SRM噪声支流分别对输入的人脸区域图像进行特征提取；所述双流特征提取网络包括：纹理差异特征提取模块和多级自适应噪声特征提取模块；所述纹理差异特征提取模块基于RGB支流不同的浅层特征图提取多尺度纹理差异特征；所述多级自适应噪声特征提取模块利用RGB支流的深层语义特征图与SRM噪声支流中浅层噪声特征图交互并增强SRM噪声支流浅层噪声特征图中的噪声特征提取深层语义特征和多级噪声特征。

多模态特征融合模块603，用于将多尺度纹理差异特征、深层语义特征以及多级噪声特征串联起来，进行多模态特征融合，确定融合特征。

监督对比学习和分类模块604，用于基于协作监督策略进行融合特征的监督对比学习和分类；所述协作监督策略为对融合特征进行监督对比学习确定人脸深度伪造检测特征；根据确定的人脸深度伪造检测特征进行分类。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多模态伪影的人脸深度伪造检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多模态伪影的人脸深度伪造检测方法，其特征在于，在ImageNet上进行预训练的EfficientNetB4作为所述RGB支流和所述SRM噪声支流的骨干网络；

3.根据权利要求2所述的一种基于多模态伪影的人脸深度伪造检测方法，其特征在于，所述纹理差异特征提取模块包括：不同的中心差分卷积层。

4.根据权利要求1所述的一种基于多模态伪影的人脸深度伪造检测方法，其特征在于，SRM噪声支流的入口包含一个自适应SRM滤波层。

5.根据权利要求2所述的一种基于多模态伪影的人脸深度伪造检测方法，其特征在于，所述多级噪声特征提取模块包括：RGB下采样路径、SRM下采样路径、跨模态上采样交互增强路径和横向连接路径。

6.根据权利要求1所述的一种基于多模态伪影的人脸深度伪造检测方法，其特征在于，所述协作监督策略的损失函数为：

L_total＝α*L_ce+β*L_sc；

L_ce为分类的损失函数，

7.一种基于多模态伪影的人脸深度伪造检测系统，其特征在于，包括：

8.根据权利要求7所述的一种基于多模态伪影的人脸深度伪造检测系统，其特征在于，在ImageNet上进行预训练的EfficientNetB4作为所述RGB支流和所述SRM噪声支流的骨干网络；