CN117292442A

CN117292442A - 一种跨模态跨域通用人脸伪造定位方法

Info

Publication number: CN117292442A
Application number: CN202311323582.2A
Authority: CN
Inventors: 王浩宇
Original assignee: Institute of Advanced Technology University of Science and Technology of China
Current assignee: Institute of Advanced Technology University of Science and Technology of China
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-12-26
Anticipated expiration: 2043-10-13
Also published as: CN117292442B

Abstract

本发明公开了一种跨模态跨域通用人脸伪造定位网络。本发明步骤如下:1、实验数据的预处理；2、构建人脸伪造定位网络ForgeryNet；3、训练ForgeryNet网络模型；4、使用训练好的ForgeryNet网络模型在多个伪造定位数据集上进行应用，并对定位结果进行评估。本发明所设计的一种跨模态跨域通用人脸伪造定位网络利用深度学习技术和跨模态跨域特征提取，可以准确地定位人脸伪造区域，具有很高的实际应用价值。

Description

一种跨模态跨域通用人脸伪造定位方法

技术领域

本发明属于人工智能技术领域，具体涉及一种跨模态跨域通用人脸伪造定位方法。

背景技术

随着深度学习技术的进步，互联网上出现了大量的人脸伪造图像和视频。人脸伪造技术对政治和社会稳定构成潜在威胁。人脸伪造技术还可能对个人声誉和隐私构成威胁。

随着深度学习技术的发展，许多研究者利用卷积神经网络来检测伪造图像。他们利用对抗神经网络在生成伪造照片时产生的特殊伪影对伪造人脸图像进行分类，将人脸伪造检测任务视为一个二分类问题。然而，在实际应用中，如刑事调查和多媒体取证，相比于确定一张照片是否是伪造的，更重要的是定位伪造区域。此外，虽然特殊伪影能够有效区分伪造图像，但它的普适性有限。随着扩散模型的发展，对抗神经网络生成的特定伪影可能不适用于检测扩散模型生成的伪造图像。因此，有必要探索一种新的稳定、通用的人脸伪造检测网络。

为了解决这些问题，本发明提出了一种新的跨模态跨域通用人脸伪造定位方法。具体而言，该网络利用深度学习技术和跨模态跨域特征提取，可以准确地定位人脸伪造区域。首先，本发明引入了多粒度频率感知模块，以提取与卷积神经网络兼容且具有平移不变性和局部不变性的多粒度频率信息。此外，本发明还设计了跨域特征交互模块，以促进空间和频率域特征之间的交互。这有助于学习更具代表性的特征，并提高伪造定位的准确性。最后，本发明提出了动态亲和图特征融合模块，通过建模不同模态样本和域样本之间的相关性，实现了三种特征的更紧密融合，从而进一步提高伪造定位的准确性。

发明内容

为克服现有技术不足，本发明提出一种跨模态跨域通用人脸伪造定位方法。实现了人脸伪造区域的定位。具体的步骤如下：

步骤1、实验数据的预处理；

步骤2、构建人脸伪造定位网络ForgeryNet；

步骤3、训练ForgeryNet网络模型；

步骤4、使用训练好的ForgeryNet网络模型在多个伪造定位数据集上进行应用，并对定位结果进行评估。

所述步骤1具体包括以下步骤：

步骤1.1对人脸伪造图像进行裁剪，大小为256×256；

步骤1.2对裁剪后的图像进行数据增强，具体通过随机旋转和随机缩放；

步骤1.3划分训练集、验证集和测试集。

所述步骤2包括以下步骤：

步骤2.1构建多粒度频率感知模块，从人脸RGB图像中提取多粒度频域信息；

对于输入的RGB图像(H为输入图像的高，W为输入图像的宽)，经过多粒图频率感知模块(由多尺度频率细节感知器和粗糙频率感知器组成)，可以得到多粒度频率特征X_frequency。多粒图频率感知模块的具体结构如下：

首先，我们设置了一个可适配于卷积神经网络的多尺度频率细节感知器。该频率感知器可以将输入的RGB图像解耦为多个方向的高频和低频信息，通过滑动窗口机制，得到适配卷积神经网络的频域特征。我们将输入的RGB图像X转换为灰度图。然后我们将灰度图拆分为N个大小为P×P的矩阵，记为然后我们对N个矩阵应用小波变换，得到不同方向的高频特征和低频特征。具体公式如下：

DWT(P_i)＝[P_{i_LL},P_{i_LH},P_{i_HL},P_{i_HH}]

其中，DWT代表小波变换，P_{i_LL}代表原始图像的近似部分，而P_{i_LH}、P_{i_HL}和P_{i_HH}分别代表水平、垂直和对角方向上的高频信息。

进一步的，在提取了不同方向上的高频和低频数据之后，我们使用离散余弦变换将这些特征映射到频域。离散余弦变换被广泛应用于图像压缩中，对于捕捉压缩图像中的伪影非常有效。对于这四个分支，其表达式如下：

其中是离散余弦变换函数，其log₁₀用于平衡每个分支的振幅。

进一步的，然后我们对频域特征进行变形。对于每个patch的不同频率特征，我们将其拼接到不同的通道上，然后同一频率幅度的不同位置patch仍然按照原来的几何分布排列，得到细粒度频域特征

进一步的，为了在频域处理过程中保留图像的空间结构和细节信息。我们设计了一个可学习的粗糙频率滤波器。对于输入的图像我们首先经过离散余弦变换，得到频域特征对于经过离散余弦变换的频域特征/>其低频特征位于左上角，高频特征位于右下角。我们设计了N_f个二进制滤波器(滤波器的像素值由0和1组成)记为/>提取不同频带的特征。我们希望我们的滤波器是可学习的滤波器，因此我们还设计了另一组N_f个可学习的滤波器/>最终使用的N_f个滤波器由/>和/>相加得到，然后将/>送入这N_f个滤波器可以得到N_f组频域特征，再将N_f组频域特征经过逆离散余弦变换转换到空域。具体公式如下：

其中是逆离散余弦变换，D是离散余弦变换，⊙是Hadamard乘积，X是输入的RGB图像，/>是二进制滤波器，/>是可学习的滤波器。

我们将N_f个特征在通道维度进行拼接得到X_{frequency_coarse}，然后与上采样后的X_{frequency_fine}进行拼接(这里的上采样使用双线性插值完成)，得到最终输出的频率特征X_frequency。

步骤2.2构建编码器，从人脸RGB图像中提取语义特征信息，从人脸深度图像中提取深度特征信息，从人脸频域信息中提取频域特征；

我们首先利用三个ResNet18作为三个编码器(ResNet18具有五层结构，本发明中我们只使用前四层)，将输入的RGB图像X、深度图X_depth和频域信息X_frequency分别送入三个编码器提取三种特征信息。我们将三个ResNet18编码器第i层的输出特征分别记为X_{i_RGB}、X_{i_depth}和X_{i_frequency}。

进一步的，X_{1_RGB}和X_{1_frequency}会经过跨域特征交互模块，X_{2_RGB}和X_{2_frequency}会经过跨域特征交互模块，X_{3_RGB}和X_{3_frequency}会经过跨域特征交互模块。一方面为了让空域和频域特征在编码的过程中产生交互。因为频域中的体素代表了整张图片的全局信息，处理频域空间能够捕捉到频率中的全局表示。相比之下，在空域的卷积侧重于学习空间域中的局部表示。通过两种信息的交互，可以让网络学习到更多代表性的特征。同时，也可以让双方补充对方域里没有的特征，实现更好的多域特征提取与交互。跨域特征交互模块结构如下：

首先，对于第i层的RGB特征和频域特征/> 首先我们利用逆离散余弦变换将频域特征X_{i_frequency}转换到空域中。然后X_{i_RGB}分别经过一层全局最大池化层和全局平均池化层，得到空域的通道权重。X_{i_frequency}经过一层全局最大池化和全局平均池化，得到频域的通道权重，将空域通道权重和频域通道进行拼接得到/>然后将W_channel送入一层MLP和sigmoid激活函数，最后按照通道维度将W_channel分离为/> 和/>具体公式如下：

其中为通道分离函数，/>为MLP层，σ为sigmoid激活函数，/>是新的空域通道权重，/>是新的频域通道权重。

进一步的，交互后的通道特征计算如下：

其中代表了通道维度的矩阵乘法，/>是新的空域通道权重，/>是新的频域通道权重，X_{i_frequency}是第i层的频域特征，X_{i_RGB}是第i层的空域特征。

进一步的，然后X_{i_RGB}分别经过一层最大池化和平均池化，得到空域的空间权重。X_{i_frequency}分别经过一层最大池化和平均池化，得到频域的空间权重，将两个权重进行拼接得到然后将W_spatial送入一层point-wise卷积层和sigmoid激活函数，最后按照H和W维度将W_spatial分离为/>和/>具体公式如下：

其中是point-wise卷积操作，/>为HW维度分离函数，σ为sigmoid激活函数，/>是全新的空域空间权重，/>是全新的频域空间权重。

进一步的，交互后的空间特征计算如下：

其中⊙代表了Hadamard乘法，是全新的空域空间权重，/>是全新的频域空间权重，X_{i_frequency}是第i层的频域特征，X_{i_RGB}是第i层的空域特征。

进一步的，因此频率分支和RGB分支的输出为：

其中和/>是可学习的权重参数，X_{i_frequency}是第i层的频域特征，X_{i_RGB}是第i层的空域特征，/>是经过跨域通道交互的频域特征，/>是经过跨域空间交互的频域特征，/>是经过跨域通道交互的空域特征，/>是经过跨域空间交互的空域特征。

步骤2.3提取共享模态特征空间下的RGB特征和深度图特征/>提取共享域特征空间下的空域特征/>和频域特征/>

对于RGB特征编码器、深度模态编码器和频域特征编码器的最后一层特征和/>我们首先将/>和/>进行通道维度的拼接，然后送入特征分离模块，得到/>和/>其次将/>和/>进行通道维度的拼接，然后送入特征分离模块，得到/>和/>特征分离模块由一层3×3卷积层、批标准化层、ReLU激活函数和一层3×3卷积层组成。

步骤2.4构建动态亲和图特征融合模块，将送入动态亲和图特征融合模块1得到输出Z_modal，将/>送入动态亲和图特征融合模块2得到输出Z_domain，Z_modal和Z_domain进行通道维度的拼接得到融合特征Z。动态亲和图特征融合模块具体结构如下：

我们以四组模态特征的融合为例说明，对于四组特征/>我们将其变形为/>然后我们构建了模态图用于RGB模态和深度模态的跨模态特征融合。模态图表示如下：

其中是图中所有结点的集合。/>是图中所有结点的特征的集合，并且/> 是对应的邻接矩阵。

进一步的，对于模态图而言，共有两种类型的结点，分别是RGB模态结点和深度模态结点。对于RGB模态结点共有三种特征，分别是RGB模态、共享特征空间下RGB专属特征和深度模态特征。对于深度模态结点共有三种特征，分别是RGB模态特征、共享特征空间下深度模态专属特征和深度模态特征。由于深度模态结点缺失RGB模态特征，RGB模态结点缺失深度模态特征，因此我们用零矩阵填充。结点特征矩阵表示如下：

其中是模态图中所有的结点特征矩阵，/>是模态图中所有的RGB结点特征矩阵，/>是模态图中所有的深度模态结点矩阵。

进一步的，为了计算结点之间的亲和矩阵，我们使用向量内积作为计算非局部亲和度的方法。RGB模态节点之间的亲和矩阵由两个部分组成：RGB模态特征之间的相似度以及在共享特征空间中的RGB独有特征的相似度。深度模态节点之间的非局部亲和矩阵也由两个部分组成：深度模态特征之间的相似度以及在共享特征空间中的深度独有特征的相似度。RGB节点和深度节点之间的亲和矩阵由两种类型节点之间在共享特征空间中独有特征的相似度组成。亲和力矩阵表示如下：

其中T_R-R是RGB模态节点之间的亲和矩阵，T_D-D是深度模态节点之间的亲和矩阵，T_R-D和T_D-R是RGB节点和深度节点之间的亲和矩阵，和/>是可学习的权重参数。

进一步的，我们将这些亲和力矩阵拼接为跨模态亲和力矩阵，T_R-R位于矩阵左上角，T_R-D位于矩阵右上角，T_D-R位于矩阵左下角，T_D-D位于矩阵右下角。与传统的图卷积神经网络的固定拓扑关系不同，我们的网络会动态的学习图结构。它的图是动态稀疏图，对于第l层的每一个结点其邻居结点为：

其中kANN代表选择跨模态亲和力矩阵中每一行的Top k元素，是RGB模态结点，/>是深度模态结点。

进一步的，节点特征可以通过消息传递更新，使用以下公式:

其中是第l层图的邻接矩阵，/>是第l层图的特征矩阵，D^(l)是第l层图的度矩阵，W^(l)是可学习的权重矩阵，σ是ReLU激活函数。

步骤2.5构建预测头，将经过动态亲和图特征融合模块的特征进行解码，输出人脸伪造定位结果；

对于经过动态亲和图特征融合模块后得到的特征Z首先进行变形，然后经过预测头得到人脸伪造定位的结果Y。预测头由一层3×3的卷积层和Sigmoid激活函数组成。

所述步骤3包括以下步骤：

步骤3.1计算人脸伪造标签。

本发明根据真实人脸照片和伪造后的人脸照片获取标签。

其中Y_true是人脸伪造标签，代表图像灰度化，X_true是真实人脸照片，X_false是伪造后的人脸照片。

步骤3.2计算ForgeryNet的损失函数，ForgeryNet的损失函数由人脸伪装定位损失组成。

我们使用MSE Loss作为损失函数。

其中Y是ForgeryNet预测的定位结果，Y_true是真实的定位标签，代表了MSE损失函数。

步骤3.3在训练过程中使用随机梯度下降优化算法SGD；

步骤3.4在训练过程中采用poly学习率策略，学习率更新公式为：

其中，learnrate为当前epoch的学习率，initial_rate为初始学习率。iter为当前epoch数目，total_iter为总的epoch数目。

所述步骤4包括以下步骤：

步骤4.1使用像素级二分类准确率(PBCA)和骰子系数(Dice)来评价人脸伪造定位的效果。

与现有技术相比，本发明的有益结果使：

本发明通过建立ForgeryNet的深度学习模型，实现了一种跨模态跨域通用人脸伪造定位方法。该网络利用深度学习技术和跨模态跨域特征提取，可以准确地定位人脸伪造区域。

附图说明

图1为ForgeryNet的网络结构图。

图2为ForgeryNet的实际应用效果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

为了解决人脸伪造定位上的问题，我们提出了一种新的跨模态跨域通用人脸伪造定位方法。具体而言，该网络利用深度学习技术和跨模态跨域特征提取，可以准确地定位人脸伪造区域。首先，我们引入了多粒度频率感知模块，以提取与卷积神经网络兼容且具有平移不变性和局部不变性的多粒度频率信息。此外，我们还设计了跨域特征交互模块，以促进空间和频率域特征之间的交互。这有助于学习更具代表性的特征，并提高伪造定位的准确性。最后，我们提出了动态亲和图特征融合模块，通过建模不同模态样本和域样本之间的相关性，实现了三种特征的更紧密融合，从而进一步提高伪造定位的准确性。

实施例1实验数据的预处理。

(1)对图片进行裁剪为大小256×256。

(2)对裁剪后的图像进行数据增强，进行随机旋转和随机缩放。

(3)划分数据集为训练集、验证集和测试集。

实施例2构建ForgeryNet网络模型。

(1)构建多粒度频率感知模块，从人脸RGB图像中提取多粒度频域信息。

(2)构建编码器，从人脸RGB图像中提取语义特征信息，从人脸深度图像中提取深度特征信息，从人脸频域信息中提取频域特征。

(3)提取共享模态特征空间下的RGB特征和深度图特征/>提取共享域特征空间下的空域特征/>和深度图特征/>

(4)构建动态亲和图特征融合模块，通过建模不同模态样本和域样本之间的相关性，实现了三种特征的更紧密融合。

(5)构建预测头，将经过动态亲和图特征融合模块的特征进行解码，输出人脸伪造定位结果。

实施例3训练ForgeryNet网络模型。

(1)计算人脸伪造标签。

(2)计算ForgeryNet的损失函数，ForgeryNet的损失函数由人脸伪装定位损失组成。

(3)采用SGD优化方式作为优化方法。

(4)采用Poly学习率调整策略

实施例4采用训练好的ForgeryNet网络模型在公开人脸伪造检测数据集FaceForensics++和DFFD上进行实验，并对实验效果进行评估。

(1)下表1为ForgeryNet与其他人脸伪造定位网络在FaceForensics数据上的效果对比。

模型	PBCA	Dice
			基准模型1	26.94	0.0811
基准模型2	6.1429	0.0219
			基准模型3	6.717	0.0689
ForgeryNet	37.45	0.4971

表1在FaceForensics++上的对比实验结果(2)下表2为ForgeryNet在DFFD数据上的效果对比

模型	PBCA	Dice
			基准模型1	23.11	0.0974
基准模型2	6.7772	0.2050
			基准模型3	0.7197	0.0779
ForgeryNet	23.21	0.2782

表2在DFFD上的对比实验结果。

Claims

1.一种跨模态跨域通用人脸伪造定位方法，其特征在于包括如下步骤：

步骤1、实验数据的预处理；

步骤2、构建人脸伪造定位网络ForgeryNet；

步骤3、训练ForgeryNet网络模型；

2.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于所述步骤2包括以下步骤：

步骤2.4构建动态亲和图特征融合模块，通过建模不同模态样本和域样本之间的相关性，实现三种特征的紧密融合；

步骤2.5构建预测头，将经过动态亲和图特征融合模块的特征进行解码，输出人脸伪造定位结果。

3.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于步骤2.1具体实现如下：

DWT(P_i)＝[P_{i_LL},P_{i_LH},P_{i_HL},P_{i_HH}]

4.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于步骤2.2具体实现如下：

首先，对于第i层的RGB特征和频域特征/> 首先我们利用逆离散余弦变换将频域特征X_{i_frequency}转换到空域中。然后X_{i_RGB}分别经过一层全局最大池化层和全局平均池化层，得到空域的通道权重。X_{i_frequency}经过一层全局最大池化和全局平均池化，得到频域的通道权重，将空域通道权重和频域通道进行拼接得到然后将W_channel送入一层MLP和sigmoid激活函数，最后按照通道维度将W_channel分离为/> 和/>具体公式如下：

进一步的，交互后的通道特征计算如下：

进一步的，交互后的空间特征计算如下：

进一步的，因此频率分支和RGB分支的输出为：

其中和/>是可学习的权重参数，X_{i_frequency}是第i层的频域特征，X_{i_RGB}是第i层的空域特征，/>是经过跨域通道交互的频域特征，/>是经过跨域空间交互的频域特征，是经过跨域通道交互的空域特征，/>是经过跨域空间交互的空域特征。

5.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于步骤2.3具体实现如下：

对于RGB特征编码器、深度模态编码器和频域特征编码器的最后一层特征和我们首先将/>和/>进行通道维度的拼接，然后送入特征分离模块，得到/>和/>其次将/>和/>进行通道维度的拼接，然后送入特征分离模块，得到/>和/>特征分离模块由一层3×3卷积层、批标准化层、ReLU激活函数和一层3×3卷积层组成。

6.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于步骤2.4具体实现如下：

将送入动态亲和图特征融合模块1得到输出Z_modal，将/>送入动态亲和图特征融合模块2得到输出Z_domain，Z_modal和Z_domain进行通道维度的拼接得到融合特征Z。动态亲和图特征融合模块具体结构如下：

其中kANN代表选择跨模态亲和力矩阵中每一行的Top k元素，是RGB模态结点，是深度模态结点。

进一步的，节点特征可以通过消息传递更新，即可得到第l层的输出特征，使用以下公式:

7.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于所述步骤2.5包括以下步骤

8.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法，其特征在于所述步骤3包括以下步骤：

步骤3.1计算人脸伪造标签。

本发明根据真实人脸照片和伪造后的人脸照片获取标签。

我们使用MSE Loss作为损失函数。

步骤3.3在训练过程中使用随机梯度下降优化算法SGD；