CN117095471B

CN117095471B - 基于多尺度特征的人脸伪造溯源方法

Info

Publication number: CN117095471B
Application number: CN202311356967.9A
Authority: CN
Inventors: 王玲; 吕重仪; 练智超
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-02-27
Anticipated expiration: 2043-10-19
Also published as: CN117095471A

Abstract

本发明公开一种基于多尺度特征的人脸伪造溯源方法，属于人工智能安全技术领域。首先利用三分支网络获得输入样本的多尺度特征；然后通过自适应特征融合方法，将三分支特征进行融合；最后利用具有整体相关性的胶囊网络进行分类，关注样本的重要区域，得到收敛速度更快的模型，获得最终的溯源结果。本发明利用三分支网络来提取伪造人脸的多尺度特征，获得了更细微、范围更精确的伪造人脸特征，实现了人脸伪造的溯源，加快了模型的收敛速度，提高了模型的检测性能，相比于其他人脸伪造检测方法，提取到了更细微的人脸伪造痕迹，在保证检测效果的同时，节约了时间资源。

Description

基于多尺度特征的人脸伪造溯源方法

技术领域

本发明属于人工智能安全技术领域，具体涉及基于多尺度特征的人脸伪造溯源方法。

背景技术

随着深度学习的快速发展，当前的人脸伪造检测方法在识别人脸真伪的场景下已经实现了高精度。然而，真正对于人脸伪造溯源的研究还不够，大部分方法仅仅在实验最后检测多伪造方法的识别准确度。研究伪造方法溯源技术不仅可以提高真伪人脸识别的精度，还能提高人脸伪造检测的泛化性。可以通过检测出来的伪造生成技术来判断伪造人脸的源头。例如，一旦确定人脸伪造方法是换脸，就可以进一步确定该伪造人脸涉及两个人脸信息。近年来，人们开始对人脸伪造方法溯源技术进行研究，旨在提取不同伪造方法的特征，提高模型的检测泛化能力。

人脸伪造检测可以分为三大类。第一类是基于传统图像取证的方法，就是采用传统的信号处理方法，利用频域特征和统计特征进行分析，如设备指纹、篡改痕迹、图像噪声等；基于生理特征的方法，如眨眼、心脏跳动、头部姿态变化等；基于深度学习的方法，使用深度学习模型学习真实人脸和伪造后的人脸之间的差异。虽然深度学习的方法取得了较高的检测准确率，但大部分方法都是将人脸伪造检测看做二元分类问题来考虑，忽略了不同的伪造方法。因此，需要结合不同伪造方法的个性特征，设计出具有更好检测能力的人脸伪造方法溯源网络。

发明内容

本发明解决的技术问题：提供一种结合RGB特征和频率特征、全局特征和局部特征，针对多尺度特征更精确的人脸伪造溯源方法。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

基于多尺度特征的人脸伪造溯源方法，主要包括以下步骤：

步骤1：利用三分支网络获得输入样本的多尺度特征；

步骤2：通过自适应特征融合方法，将三分支特征进行融合；

步骤3：利用胶囊网络进行分类，关注样本的重要区域，得到收敛速度更快的模型，获得最终的溯源结果。

作为优选，步骤1中，利用三分支网络获得输入样本的多尺度特征的方法如下：

步骤1.1：在残差引导的多尺度空间注意力模块中，使用空间注意力机制以及高频滤波器生成的残差图来指导生成注意力图，最后利用注意力机制来融合多尺度特征；

步骤1.2：在多尺度视网膜图像特征提取模块中，将RGB图像转化为MSR图像；

步骤1.3：在多尺度通道注意力引导的局部频率统计模块中，使用多尺度通道注意力机制模块，通过压缩输入张量的通道维度从每个通道特征图中提取不同尺度的空间信息，得到多尺度特征融合图；

提取多尺度特征图的通道注意权重；通过权重来构建跨维度交互，组成新的具有多尺度通道注意力的特征；

提取图像局部之间的关系，计算局部频率统计；将频率统计重新组合回多通道空间图，获得局部图像块之间的关系特征。

作为优选，步骤1.1中，注意力图为：

，

其中，Map是注意力图，是高频残差图像，是原始特征映射。

作为优选，步骤1.2中，MSR图像为：

，

其中，表示图像的像素坐标，表示每个尺度的权重，表示一共有k个尺度，表示原图像，表示多尺度环绕函数，符号*表示卷积运算。

作为优选，步骤1.3中，多尺度特征融合图为：

，

其中，

；

其中，表示第i个尺度的卷积，表示第i个尺度的图像。

作为优选，步骤1.3中，多尺度特征图的通道注意权重为：

，

其中，

，

其中，表示多尺度通道注意力向量，SEWeight模块由平均池化层、全连接层和激活函数组成。

作为优选，步骤1.3中，多尺度通道注意力的特征为：

。

作为优选，步骤1.3中，局部频率统计为：

，

其中，用于平衡每个频带的幅度，是滑动DCT变换，是基础滤波器，是可学习的滤波器，表示方差。

作为优选，步骤2中，通过自适应特征融合方法，将三分支特征进行融合，方法如下：

进行特征缩放和自适应融合，将同一位置上三个分支的特征向量映射到同一尺度上，进行特征的加权融合，得到融合特征：

，

其中，Scale表示设定的固定分辨率；、和分别表示三个分支的空间重要性权重，、和分别表示在(i，j)位置将1、2、3三种尺度的特征向量映射到同一尺度Scale上。

作为优选，步骤3中，利用胶囊网络进行分类，关注样本的重要区域，得到收敛速度更快的模型，获得最终的溯源结果，方法如下：

将胶囊网络中的输出胶囊个数设置为溯源任务数量值，将每层中激活值最大的输出胶囊的对应的部分主体胶囊信息传递给下一层的主体胶囊中，实现低级分类胶囊与高级主体胶囊相结合，训练模型得到输出概率：

，

其中，v表示输出胶囊，T表示对输出胶囊矩阵进行转置，m表示输出胶囊的维度。

有益效果：与现有技术相比，本发明具有以下优点：

1）本发明提出了结合多尺度特征和胶囊网络的人脸伪造溯源方法，在提取输入样本的多尺度特征时，使用了注意力机制、MSR图像转换等方法，在融合多尺度特征时，使用了自适应的特征融合方法，在进行伪造方法溯源时，提出了具有信息传递的胶囊网络，加快了模型的收敛速度，提高了模型的检测性能。

2）本发明融合了图像的RGB特征和频率特征、全局特征和局部特征，来充分捕捉伪造痕迹。RGB图像中的特征容易受到光照的影响，但是它包含了详细的纹理信息。为了补充RGB特征，使用多尺度视网膜图像，虽然该图像丢失了轻微的面部纹理，但是它包含了图像的高频信息。全局特征能够提供对图像整体的描述和分析，具有较强的鲁棒性和稳定性，对图像的干扰和变化较为不敏感。但是无法捕捉到图像中的细节和局部结构信息，无法精确定位，对于遮挡、光照变化等因素的影响较大。为了补充全局特征，使用局部特征，虽然不能捕捉到全局信息，但是能够捕捉到图像中的细节和局部结构信息，对于遮挡、光照变化等因素的影响较小。RGB特征和频率特征、全局特征和局部特征都是互补特征，充分展示了整个图像的特征。

3）本发明相比于其他人脸伪造检测方法，提取到了更细微的人脸伪造痕迹，在保证检测效果的同时，节约了时间资源。

附图说明

图1是本发明基于多尺度特征的人脸伪造溯源方法的模型框架图；

图2 FF++向FakeAVCeleb数据集的泛化性曲线图；

图3 FakeAVCeleb向FF++数据集的泛化性曲线图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的基于多尺度特征的人脸伪造溯源方法，首先利用三分支网络获得输入样本的多尺度特征；然后通过自适应特征融合方法，将三分支特征进行融合；最后利用具有整体相关性的胶囊网络进行分类，关注样本的重要区域，得到收敛速度更快的模型，获得最终的溯源结果。具体包括如下步骤1-步骤3共三大步骤：

步骤1：利用三分支网络获得输入样本的多尺度特征，具体方式如下：

步骤1.1：在残差引导的多尺度空间注意力模块中，使用空间注意力机制以及高频滤波器生成的残差图来指导生成注意力图：

，

其中Map是注意力图，是高频残差图像，是原始特征映射，最后利用注意力机制来融合多尺度特征。

步骤1.2：在多尺度视网膜图像特征提取模块中，将RGB图像转化为MSR图像：

，

其中，表示图像的像素坐标，表示每个尺度的权重，表示一共有k个尺度，取值为3，表示原图像，表示多尺度环绕函数，符号*表示卷积运算，该图像对光照不敏感，并且包含高频信息。

步骤1.3：在多尺度通道注意力引导的局部频率统计模块中，使用多尺度通道注意力机制模块MCAM，通过压缩输入张量的通道维度从每个通道特征图中提取不同尺度的空间信息，得到多尺度特征融合图：

，

其中，

；

其中，表示第i个尺度的卷积，表示第i个尺度的图像。

然后提取多尺度特征图的通道注意权重：

，

其中，

，

为多尺度通道注意力向量；SEWeight模块由平均池化层、全连接层和激活函数组成，权重用来构建跨维度交互，组成新的具有多尺度通道注意力的特征：

；

提取图像局部之间的关系，计算局部频率统计：

，

其中，用于平衡每个频带的幅度，是滑动DCT变换，是基础滤波器，是可学习的滤波器；表示方差。将频率统计重新组合回多通道空间图，获得局部图像块之间的关系特征。

步骤2：通过自适应特征融合方法，将三分支特征进行融合，具体方式如下：

，

其中Scale表示设定的固定分辨率；、和分别表示在(i，j) 位置将1、2、3三种尺度的特征向量映射到同一尺度Scale上；、和分别表示三个分支的空间重要性权重。

步骤3：利用具有整体相关性的胶囊网络进行分类，关注样本的重要区域，得到收敛速度更快的模型，获得最终的溯源结果，具体方式如下：

，

通过以下实验验证本发明方法的有效性和效率：

评估指标为对伪造方法的分类准确率和模型收敛的迭代轮数。

首先选择数据集，本发明选择了FaceForensics++、DeepfakeDetection和FakeAVCeleb数据集。

1、FaceForensics++数据集

FaceForensics++数据集，由1000个原始视频序列组成，这些视频序列已使用四种自动面部处理方法进行了处理：Deepfakes、Face2Face、FaceSwap和NeuralTextures。

2、 DeepfakeDetection数据集

DeepfakeDetection数据集，共有119196个视频，真假视频比例约为1:5。原始视频均由演员拍摄，视频长度约为10s；视频分辨率跨度很大，视频场景涵盖了多种复杂场景，如背景、侧脸、走动、强光、多人等。

3、 FakeAVCeleb数据集

FakeAVCeleb数据集，是一个音视频Deepfake数据集，同时包含伪造视频和相应的合成克隆音频；该数据集包含从VoxCeleb2数据集选择的500个平均时长为7.8秒的视频。

其次，本发明选择了Xception模型和胶囊网络模型作为主干网络。

1、 Xception模型

Xception是google继Inception后提出的对InceptionV3的另一种改进，主要是采用深度可分离卷积来替换原来InceptionV3中的卷积操作；在基本不增加网络复杂度的前提下提高了模型的效果；但网络复杂度没有大幅降低，原因是加宽了网络，使得参数数量和Inception v3差不多，因此Xception主要目的不在于模型压缩，而是提高性能。

2、胶囊网络模型

胶囊网络是一种新型神经网络架构，旨在更好地捕获物体的姿态和层次结构，与传统的神经网络不同，胶囊网络使用“胶囊”代表实体或部件，并且可以存储多个属性或特征向量，这些属性描述了实体或部件的不同方面，胶囊之间可以互相联系，形成更高层次的特征表示，同时保留不同实体或部件之间的关系。

在本次实验中，包含了DeepFake、FaceSwap、FaceShifter、Face2Face和NeuralTextures五种人脸伪造方法产生的伪造视频，对视频进行处理，得到合适的图片数据集。接着本发明选择初始的胶囊网络方法、F3Net方法和利用高频特征的GFF方法作为对比方法，5种伪造方法的分类效果如表1所示，加入信息传递模块前后的收敛速度比较结果如表2所示。

表1本发明对不同伪造方法的检测成功率

表2本发明模型收敛速度提高效果

表1和表2的结果表示，本发明的方法与其他检测方法相比，具有更好的检测率，在保证检测效果的同时，加快了模型的收敛速度。从图2、图3中可以看出模型的泛化能力比较好。总体而言，本发明提出了结合多尺度特征和胶囊网络的人脸伪造溯源方法；在提取输入样本的多尺度特征时，使用了注意力机制、MSR图像转换等方法；在融合多尺度特征时，使用了自适应的特征融合方法；在进行伪造方法溯源时，提出了具有信息传递的胶囊网络，加快了模型的收敛速度，提高了模型的检测性能。

本发明融合了图像的RGB特征和频率特征、全局特征和局部特征，来充分捕捉伪造痕迹；相较于其他人脸伪造检测方法，提取到了更细微的人脸伪造痕迹，在保证检测效果的同时，节约了时间资源。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于多尺度特征的人脸伪造溯源方法，其特征在于：主要包括以下步骤：

步骤1：利用三分支网络获得输入样本的多尺度特征，具体为：

提取图像局部之间的关系，计算局部频率统计；将频率统计重新组合回多通道空间图，获得局部图像块之间的关系特征；

步骤2：通过自适应特征融合方法，将三分支特征进行融合；

2.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤1.1中，注意力图为：

Map＝f_atten(X_srm)，

其中，Map是注意力图，X_srm是高频残差图像，f_atten是原始特征映射。

3.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤1.2中，MSR图像为：

其中，(x,y)表示图像的像素坐标，w_i表示每个尺度的权重，k表示一共有k个尺度，S(x,y)表示原图像，G_i(x,y)表示多尺度环绕函数，符号*表示卷积运算。

4.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤1.3中，多尺度特征融合图为：

F＝Cat([F₀,F₁,…,F_S-1])，

其中，

F_i＝Conv(K_i,K_i)X_i；

其中，K_i表示第i个尺度的卷积，X_i表示第i个尺度的图像。

5.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤1.3中，多尺度特征图的通道注意权重为：

其中，

V_i＝SEWeight(F_i)，

其中，V_i表示多尺度通道注意力向量，SEWeight模块由平均池化层、全连接层和激活函数组成。

6.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤1.3中，多尺度通道注意力的特征为：

Y_i＝F_i⊙atten_i。

7.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤1.3中，局部频率统计为：

其中，log₁₀用于平衡每个频带的幅度，是滑动DCT变换，/>是基础滤波器，/>是可学习的滤波器，σ表示方差。

8.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤2中，通过自适应特征融合方法，将三分支特征进行融合，方法如下：

其中，Scale表示设定的固定分辨率；α_ij、β_ij和γ_ij分别表示三个分支的空间重要性权重，和/>分别表示在(i，j)位置将1、2、3三种尺度的特征向量映射到同一尺度Scale上。

9.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法，其特征在于，步骤3中，利用胶囊网络进行分类，关注样本的重要区域，得到收敛速度更快的模型，获得最终的溯源结果，方法如下：