CN115880749A

CN115880749A - 基于多模态特征融合的人脸深伪检测方法

Info

Publication number: CN115880749A
Application number: CN202211389220.9A
Authority: CN
Inventors: 龚健; 何覃; 吕永标
Original assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Current assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-31

Abstract

本发明涉及一种基于多模态特征融合的人脸深伪检测方法。本发明的目的是提供一种基于多模态特征融合的人脸深伪检测方法。本发明的技术方案为：该检测方法其特征在于：获取待检测图像；将待检测图像输入经训练的人脸深伪检测模型，得到检测判断结果；所述人脸深伪检测模型，包括RGB纹理特征提取模块、SRM高频噪声特征提取模块、DCT频域感知特征提取模块、低维度多尺度特征交互模块、跨模态特征融合模块和分类模块。本发明适用于深度伪造检测领域。

Description

基于多模态特征融合的人脸深伪检测方法

技术领域

本发明涉及一种基于多模态特征融合的人脸深伪检测方法。适用于深度伪造检测领域。

背景技术

随机互联网的快速发展，数字媒体信息在其中的传播也越来越迅速和广泛，伴随着深度学习以及神经网络的发展，出现了神经网络驱动生成的虚假图像和视频人脸，这些图像和视频甚至人眼无法区分。这类方法对影视行业以及艺术创作等等提供了新的思路和方法，但恶意传播深度伪造数字媒体会导致社会出现安全问题甚至信任危机，因此如何鉴别互联网中传播的数字媒体的真实性，开发有效的人脸深度伪造检测方法成为亟待解决的问题。

一系列早期的人脸深度伪造检测方法依赖于手工制作的特征，例如局部模式分析、噪声方差评估、隐写分析特征等，来发现伪造模式并放大真实和伪造图像之间的微弱差异，具有比较强的可解释性，但目前没有一种传统方法能够应对所有的图像深度伪造技术，通常只能针对某种特定的伪造方法进行检测，适用条件比较有限。

深度学习引入了另一种途径来应对这一挑战，最近基于学习的深度伪造检测方法尝试使用RGB作为输入，利用卷积神经网络(CNN)挖掘特征空间中的伪造模式，在公共数据集上取得了显着进展，但目前最先进的人脸深度伪造算法，已经能够隐藏伪造的伪影，使其变得非常难以识别。更糟糕的是，如果伪造人脸的视觉质量大幅下降，例如压缩比大的JPEG或H264压缩，伪造伪影将被压缩污染，有时无法在RGB域中捕获，伪造检测模型泛化性差，从而限制了更广泛的应用。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种基于多模态特征融合的人脸深伪检测方法。

本发明所采用的技术方案是：一种基于多模态特征融合的人脸深伪检测方法，其特征在于：

获取待检测图像；

将待检测图像输入经训练的人脸深伪检测模型，得到检测判断结果；

所述人脸深伪检测模型，包括：

RGB纹理特征提取模块，用于提取待检测图像的RGB纹理特征；

SRM高频噪声特征提取模块，用于提取待检测图像的SRM高频噪声特征；

DCT频域感知特征提取模块，用于提取待检测图像的DCT频域感知特征；

低维度多尺度特征交互模块，用于对各提取模块提取的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征在空间维度和通道维度上进行注意力加权交互；

跨模态特征融合模块，用于融合所述低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征，得到融合特征；

分类模块，用于基于所述跨模态特征融合模块输出的融合特征进行分类判断，输出检测判断结果。

所述在空间维度上进行注意力加权交互，包括：

将提取的图像特征分别与对应空间Attention特征图ATT_s做乘法，再将对应通道相加得到空间维度注意力加权后的空间交互特征图X_s；

ATT_s＝σ(conv^7×7(AVGPool(X')))

其中，AVGPool为平均池化操作；conv^7×7为7x7卷积；σ为sigmoid函数；X'为输入特征；ATT_s为空间Attention特征图。

所述在通道维度上进行注意力加权交互，包括：

对空间交互特征图X_s求取通道权重ATT_c；

ATT_c＝conv(σ(AVGPool(conv(X_s))))

其中，conv为卷积操作；AVGPool为平均池化操作；σ为sigmoid函数；

空间交互特征图X_s与通道权重相乘得到，得到经空间维度和通道维度注意力加权的交互特征图X_sc。

所述融合所述低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征，包括：

先将加权的RGB纹理特征和SRM高频噪声特征进行第一次融合，再将第一次融合后的融合结果与经加权的DCT频域感知特征进行第二次融合，得到融合特征。

所述人脸深伪检测模型训练时引入带监督的对比损失并结合二进制交叉熵损失共同优化，总的损失为：

L＝L_bce+λL_sup

其中，L_bce为二进制交叉熵损失；L_sup为有监督对比损失；λ为平衡loss超参；

其中，N为样本数；i、j、k分别为具体样本；

为label；z_i为模型预测结果，τ为温度系数。

一种基于多模态特征融合的人脸深伪检测装置，其特征在于，包括：

图像获取模块，用于获取待检测图像；

模型预测模块，用于将待检测图像输入经训练的人脸深伪检测模型，得到检测判断结果；

所述人脸深伪检测模型，包括：

RGB纹理特征提取模块，用于提取待检测图像的RGB纹理特征；

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述基于多模态特征融合的人脸深伪检测方法的步骤。

一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述基于多模态特征融合的人脸深伪检测方法的步骤。

本发明的有益效果是：本发明通过提取样本的RGB纹理特征捕捉篡改媒体的纹理信息，提取SRM高频噪声特征暴露篡改区域和真实区域之间的统计差异，提取DCT频域感知特征来捕获被污染的伪造伪影，不同的特征对不同的篡改手段都有各自更加关注的区域，三种特征相互弥补，提高了特征的适用条件。

浅层网络提取的特征包含样本更多的几何信息，具有更高的高分辨率，且不同尺度的特征所包含的信息也有所差异，所以本发明创新地使用注意力机制，在浅层网络将不同的尺度特征进行交互。本发明分别将RGB和SRM，以及RGB和DCT特征分别从空间和通道维度上进行加权交互，交互后的特征不仅更加关注篡改区域，还能挖掘篡改区域的隐藏信息，同时具有多种篡改类型的信息，提升了算法的泛化性。

深层网络提取的特征包含媒体更多的语义信息，具有更大的感受野，提出的跨模态注意力特征融合模块，利用三种互补模态之间的相关性来促进彼此的特征融合学习。本发明将RGB和SRM模态特征融合，然后再将融合后的特征与DCT融合，得到鲁棒的多模态语义信息，提升了算法的鲁棒性。

神经网络和生成模型的发展，深度伪造方法越来越多样化，伪造手段也千奇百怪，但相对伪造媒体，真实媒体种类和类型都是不变的，所以在设计网络损失函数时，本发明引入有监督的对比损失，并仅对真实样本进行拉近聚类，再结合二进制交叉熵组成最终的损失，共同优化检测模型，提升了模型在未见样本中的泛化性。

本发明多个模块的相互协同，解决了当前人脸深伪检测模型仅能针对特定算法、特定数据集，且对污染数据检出率低的问题，本发明充分挖掘融合伪造样本的更本质信息，相比现有的深度伪造检测技术而言具有更高的准确率、泛化性和普适性，提升了深度伪造图像检测技术的性能。

附图说明

图1为实施例中人脸深伪检测模型的检测流程图。

具体实施方式

本实施例为一种基于多模态特征融合的人脸深伪检测方法，具体包括以下步骤：获取待检测RGB图像；将待检测图像输入经训练的人脸深伪检测模型，得到检测判断结果。

本例中人脸深伪检测模型包括多模态特征提取、低维度多尺度特征交互模块、跨模态特征融合模块和分类模块，其中多模态特征提取包括RGB纹理特征提取模块、SRM高频噪声特征提取模块和DCT频域感知特征提取模块。

本实施例中RGB纹理特征提取模块以待检测RGB图像X作为输入，X大小为H×W×3，H、W均为320，提取伪造图像的RGB纹理特征。

本例中SRM高频噪声特征提取模块用于提取待检测图像的SRM高频噪声特征。

噪声是一些捕获亮度或颜色信息的随机变化的高频信号，图像噪声的分布受数字相机的图像传感器或电路的影响，因此由不同设备处理或来自不同源的图像具有不同的噪声模式。噪声可以被视为图像的固有特性，并且可以在所有数字图像领域中以各种形式出现。在对图像内容进行伪造的时候，伪造者可能会对RGB域的伪造痕迹进行精密的掩藏，而图像噪声域的局部噪声分布异常可能就是潜在的伪造痕迹。

SRM噪声是通过像素值与仅通过内插相邻像素的值产生的像素值的估计之间的残差来建模，使用3个滤波核，以及滤波后邻近输出的最大最小等非线性操作，量化并截断这些过滤器的输出和提取邻近的共现信息作为最后的特征。3个滤波核如下：

分别用3个滤波核对RGB图像进行滤波，得到噪声SRM特征图：X_srm＝f_srm(X,k₃,k₂,k1)，其中f_srm为滤波操作。

本实施例中DCT频域感知特征提取模块用于提取待检测图像的DCT频域感知特征。

网络上传播的深伪图像大多数都经过压缩处理，压缩后的伪造图像视觉质量大幅下降，在RGB域大量伪造痕迹丢失，而频域中较高频率的分解成分中还存在细微伪造伪影；另一方面现有的面部操纵方法大多数基于GAN，其中上采样操作导致伪造面部的频率统计特性异常，为此，本实施例引入频率信息来帮助网络挖掘真实区域和伪造区域之间的本质差异。

对于频域特征的提取本例采用DCT，频域特征图的低频对应图像的亮度或者灰度值变化缓慢的区域，其响应位于左上角，高频对应着图像变化剧烈的部分，也就是图像的边缘(轮廓)或者噪声以及细节部分，其响应位于右下角，高频信息中存在一些细微伪造伪影。

DCT频域感知特征提取详细流程如下：

1)、将待检测RGB图像经过二维DCT变换到频域，得到频域特征图

X_d＝D(X)

其中，D为DCT变换。

2)、低频信息滤除

X_f＝F(X_d,α)

其中，F为高通滤波器，α控制低频滤除范围，即频率图左上角的长度，本实施例中α＝0.3；

3)、将过滤掉低频信息的特征图IDCT逆变换到RGB域

X_dct＝D^-1(X_f)

其中，D^-1为DCT逆变换。

本实施例中低维度多尺度特征交互模块分别将RGB纹理特征和SRM高频噪声特征，以及RGB纹理特征和DCT频域感知特征在多个尺度上交互，交互方式采用空间维度和通道维度的注意力加权，以丰富高频特征。

A、空间维度注意力加权

ATT_s＝σ(conv^7×7(AVGPool(X')))

其中，AVGPool为平均池化操作，conv^7×7为7x7卷积，σ为sigmoid函数，X'为输入特征，大小为C×H'×W'，ATT_s为空间Attention特征图，大小为1×H'×W’。

如，SRM高频噪声特征的空间交互特征图X_s为SRM高频噪声特征与以RGB纹理特征为输入特征X'的空间Attention特征图ATT_s做乘法后得到。

B、通道维度注意力加权

对空间交互特征图X_s求取通道权重ATT_c：

ATT_s＝conv(σ(AVGPool(conv(X_s))))

空间交互特征图X_s与相应的通道权重ATT_c相乘得到，得到最终交互特征图X_sc，大小为C×H'×W'，再将交互特征图送入网络进行下一步推理。

本实施例中跨模态特征融合模块用于融合低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征，得到融合特征。

假设，RGB流、SRM流和DCT流输入跨模态特征融合模块的特征分别为F_RGB、F_SRM和F_DCT，首先对RGB流和SRM流做融合，融合结果F_RGB-SRM＝f_CMA(F_RGB,F_SRM)，再将融合后的结果与DCT流特征进行融合F_RGB-SRM-DCT＝f_CMA(F_RGB-SRM,F_DCT)，最后将融合后特征图送入下一层网络进行分类。

本实施例中在人脸深伪检测模型训练时，为了提高模型在未见数据上的泛化性，引入带监督的对比损失，并结合二进制交叉熵损失，共同优化。总的损失为：

L＝L_bce+λL_sup

其中L_bce为二进制交叉熵损失，L_sup为有监督对比损失，λ＝0.05为平衡loss超参，定义为：

其中N为样本数，i、j、k分别为具体样本，

为label，z_i为模型预测结果，τ为温度系数为0.07，/>

表示仅对label为0(即real样本)计算损失。/>

本实施例还提供一种基于多模态特征融合的人脸深伪检测装置，包括图像获取模块和模型预测模块，其中图像获取模块用于获取待检测图像；模型预测模块用于将待检测图像输入经训练的人脸深伪检测模型，得到检测判断结果。

本例中模型预测模块内的人脸深伪检测模型，包括RGB纹理特征提取模块、SRM高频噪声特征提取模块、DCT频域感知特征提取模块、低维度多尺度特征交互模块、跨模态特征融合模块和分类模块。

本例中RGB纹理特征提取模块用于提取待检测图像的RGB纹理特征；SRM高频噪声特征提取模块用于提取待检测图像的SRM高频噪声特征；DCT频域感知特征提取模块用于提取待检测图像的DCT频域感知特征；低维度多尺度特征交互模块用于对各提取模块提取的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征在空间维度和通道维度上进行注意力加权交互；跨模态特征融合模块用于融合所述维度度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征，得到融合特征；分类模块用于基于所述跨模态特征融合模块输出的融合特征进行分类判断，输出检测判断结果。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于多模态特征融合的人脸深伪检测方法的步骤。

本实施例还提供一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于多模态特征融合的人脸深伪检测方法的步骤。

Claims

1.一种基于多模态特征融合的人脸深伪检测方法，其特征在于：

获取待检测图像；

所述人脸深伪检测模型，包括：

RGB纹理特征提取模块，用于提取待检测图像的RGB纹理特征；

2.根据权利要求1所述的基于多模态特征融合的人脸深伪检测方法，其特征在于，所述在空间维度上进行注意力加权交互，包括：

ATT_s＝σ(conv^7×7(AVGPool(X')))

3.根据权利要求2所述的基于多模态特征融合的人脸深伪检测方法，其特征在于，所述在通道维度上进行注意力加权交互，包括：

对空间交互特征图X_s求取通道权重ATT_c；

ATT_c＝conv(σ(AVGPool(conv(X_s))))

4.根据权利要求1所述的基于多模态特征融合的人脸深伪检测方法，其特征在于，所述融合所述低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征，包括：

5.根据权利要求1所述的基于多模态特征融合的人脸深伪检测方法，其特征在于，所述人脸深伪检测模型训练时引入带监督的对比损失并结合二进制交叉熵损失共同优化，总的损失为：

L＝L_bce+λL_sup

其中，N为样本数；i、j、k分别为具体样本；

为label；z_i为模型预测结果，τ为温度系数。

6.一种基于多模态特征融合的人脸深伪检测装置，其特征在于，包括：

图像获取模块，用于获取待检测图像；

所述人脸深伪检测模型，包括：

RGB纹理特征提取模块，用于提取待检测图像的RGB纹理特征；

7.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～5任意一项所述基于多模态特征融合的人脸深伪检测方法的步骤。

8.一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～5任意一项所述基于多模态特征融合的人脸深伪检测方法的步骤。