CN113435292B

CN113435292B - 一种基于固有特征挖掘的ai伪造人脸检测方法

Info

Publication number: CN113435292B
Application number: CN202110694135.2A
Authority: CN
Inventors: 倪蓉蓉; 于洋; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-09-19
Anticipated expiration: 2041-06-22
Also published as: CN113435292A

Abstract

本发明提供了一种基于固有特征挖掘的AI伪造人脸检测方法。该方法包括：对待取证的人脸图像和视频分别从相机成像角度和制造AI伪造视频不可缺少的步骤两个方面进行固有痕迹挖掘；通过特征提取得到RGB通道残差流特征和频谱流特征；使用基于注意力机制的特征融合模块自适应地加权融合RGB通道残差流特征和频谱流特征，得到固有特征；根据不同的AI伪造技术采用对齐模块消除固有特征的分布偏差，得到有效特征；将有效特征输入到分类器中，分类器输出待取证的人脸图像和视频是否为AI伪造的检测结果。本发明提成了提出面向未知伪造技术具有良好泛化能力的AI伪造人脸取证算法，聚焦挖掘AI伪造人脸的固有和泛化特征，有效提升了AI伪造人脸检测的泛化能力。

Description

一种基于固有特征挖掘的AI伪造人脸检测方法

技术领域

本发明涉及数字图像检测技术领域，尤其涉及一种基于固有特征挖掘的AI伪造人脸检测方法。

背景技术

随着数字成像设备和互联网的迅速发展，数字图像的采集、发布和共享成为现代社会网络中流行的信息传输和交换手段。同时，数字图像编辑软件也变得更加强大并且易于操作。近年来，数字图像的安全问题引起了人们的广泛关注，特别是在司法和刑事侦查领域。因此，数字图像取证技术作为一种多媒体安全技术，可以用来验证数字图像的原始性、真实性和可靠性，这对司法公正和社会秩序具有重要意义。

人脸图像属于数字图像中的一种，包含个人信息，在日常生活中发挥重要作用，如交流，访问控制和日常支付。随着AI(Artificial Intelligence，人工智能)技术的快速发展，人脸伪造技术变得更加简单，如图1展示了使用不同的AI伪造技术生成的四种类型的伪造人脸，包括(a)人脸整体生成；(b)面部表情伪造；(c)面部属性伪造；(d)身份伪造。与简单的人脸伪造技术不同，AI伪造人脸技术可以更加容易地制造更加逼真的伪造人脸图像，因此，AI伪造人脸取证技术是迫切需要的。

AI伪造人脸取证技术的研究问题在于如何有效区分人脸是相机拍摄的，还是AI技术制造的。针对AI伪造人脸取证的研究，国内外学者已提出一系列方案。目前，现有技术中的AI伪造人脸检测方法可以分为两类：基于人工设计特征的方法和基于深度学习的方法。

基于人工设计特征的方法试图突出伪造人脸处理过程中的特定缺陷来检测深度伪造的人脸图像和视频。Matern等人基于视觉伪影来检测DeepFake和Face2Face视频，如眼睛颜色变化、不令人信服的镜面反射、牙齿区域细节缺失。Li等人发现伪造人脸视频没有很好的捕捉到人体固有的生理信号—眨眼，利用检测眨眼来检测伪造视频。Ciftci等人通过检测心跳在面部产生的细微差别来区分视频的真假。但是这些特征主要取决于伪造过程中的特定缺陷，因此，上述基于人工设计特征的方法的主要缺点是随着深度伪造技术的发展，它们可能很快失效。

基于深度学习的取证方法主要包括一些基于CNN(Convolutional NeuralNetworks,卷积神经网络)的简单方法。Afchar等人通过两个网络(Meso-4和MesoInception-4)检测到DeepFake和Face2Face视频，其中网络的层数较少，它们专注于图像的介观特性。Rossler等人构建了面部伪造数据集FaceForensics++，并利用Xception提高了强压缩条件下伪造检测的准确性。Qian等人提出了基于两种不同但互补的频率感知线索的F3-Net来检测伪造人脸视频。为了进一步考虑所有伪造类型伪造人脸的检测，Wang等人基于监视神经元行为提出了FakeSpotter来鉴别深度伪造人脸视频和图像。然而，AI人脸伪造技术层出不穷，上述基于深度学习的取证方法的缺点是仅限于他们接受过训练的篡改技术，这些检测方法在新型的篡改技术上表现不佳。

为了提升取证技术在新型篡改技术上的泛化性能，Li等人发现大多数现有的深度伪造视频技术都有一个通用的人脸混合操作，因此提出了Face-X-ray来关注伪造人脸的边界，而不是关注伪造技术的类型。Zhang等人提出了一种模拟器来模拟常见的生成图像伪影，通过模拟器来概括所有的伪造技术，以提升泛化性。Wang等人使用ProGAN做为训练数据，并且对这些图像进行数据增强，以此设计通用的检测器来检测深度伪造的视频和图像。然而，这些方法无法捕获内在的固有特征而且假设性过强，因此在最先进的深度伪造技术上检测性能仍然不佳。

基于AI伪造人脸取证的研究现状可以发现，AI伪造技术已取得了显著进步，而且伪造技术不仅在数量上正快速增长，在高分辨率高画质的图像和视频的伪造任务中也取得了突破性的进展。相比之下，现有技术中已有的深度伪造取证技术能够解决特定场景下的深度伪造图像和视频检测问题，但仍然存在诸多亟待解决的问题，包括：

1)现有取证算法设计检测特征时依赖于伪造过程中的特定缺陷，没有深入挖掘AI伪造人脸图像和视频的固有特征，导致这些检测特征随着深度伪造技术的发展很快失效。

2)现有取证算法没有充分考虑伪造技术之间差异的影响，当测试样本是未知伪造技术时，这些取证技术的检测性能明显下降，泛化能力较差。因此，聚焦挖掘AI伪造人脸的固有和泛化特征，提出面向未知伪造技术具有良好泛化能力的AI伪造人脸取证算法。

发明内容

本发明的实施例提供了一种基于固有特征挖掘的AI伪造人脸检测方法，以实现有效地对AI伪造人脸进行检测和识别。

为了实现上述目的，本发明采取了如下技术方案。

一种基于固有特征挖掘的AI伪造人脸检测方法，其特征在于，包括：

对待取证的人脸图像和视频分别从相机成像角度和制造AI伪造视频不可缺少的步骤两个方面进行固有痕迹挖掘；

通过RGB通道残差流对从相机成像角度挖掘的固有痕迹进行特征提取，得到RGB通道残差流特征，通过频谱流对从制造AI伪造视频不可缺少的步骤挖掘的固有痕迹进行特征提取，得到频谱流特征；

使用基于注意力机制的特征融合模块自适应地加权融合所述RGB通道残差流特征和频谱流特征，得到所述待取证的人脸图像和视频的固有特征；

根据不同的AI伪造技术采用对齐模块消除所述待取证的人脸图像和视频的固有特征的分布偏差，得到所述待取证的人脸图像和视频的有效特征；

将所述待取证的人脸图像和视频的有效特征输入到分类器中，所述分类器输出所述待取证的人脸图像和视频是否为AI伪造的检测结果。

优选地，所述的对待取证的人脸图像和视频分别从相机成像角度和制造AI伪造视频不可缺少的步骤两个方面进行固有痕迹挖掘，包括：

对待取证的人脸图像和视频从相机成像角度进行固有痕迹挖掘，提取待取证的人脸图像和视频的RGB通道残差图像，分析RGB通道残差图像中包含的高频成分的数量，以及不同颜色通道的高频分量是否相关，得到待取证的人脸图像和视频的RGB通道残差固有痕迹；

对待取证的人脸图像和视频从制造AI伪造视频不可缺少的步骤方面进行固有痕迹挖掘，提取待取证的人脸图像和视频的频谱图像，检测频谱图像中是否存在重复的方格状伪影，得到待取证的人脸图像和视频的频谱固有痕迹。

优选地，所述的通过RGB通道残差流对从相机成像角度挖掘的固有痕迹进行特征提取，得到RGB通道残差流特征，通过频谱流对从制造AI伪造视频不可缺少的步骤挖掘的固有痕迹进行特征提取，得到频谱流特征，包括：

构建用于深度特征提取及融合的双支流网络，该双支流网络包括RGB通道残差流网络和频谱流网络，将所述待取证的人脸图像和视频的RGB通道残差固有痕迹输入到所述RGB通道残差流网络中，将所述待取证的人脸图像和视频的频谱固有痕迹输入到所述频谱流网络中，采用相同的基于八度卷积的ResNet-34分别从所述RGB通道残差流网络和所述频谱流网络中学习出RGB通道残差流特征和频谱流特征。

优选地，所述的使用基于注意力机制的特征融合模块自适应地加权融合所述RGB通道残差流特征和频谱流特征，得到所述待取证的人脸图像和视频的固有特征，包括：

构建基于注意力机制的特征融合模块，该基于注意力机制的特征融合模块包括一个具有和V_CDI和V_SI相同维度的内核q，通过滤波器生成向量D_CDI和D_SI，向量D_CDI表示V_CDI特征的重要性，向量D_SI表示V_SI特征的重要性，表示为：

其中T为注意力机制中的矩阵转置操作；

将D_CDI给softmax函数，通过softmax函数获得D_CDI的权重W_CDI，将D_SI传递给softmax函数，通过softmax函数获得D_SI的权重W_SI；

所述使用基于注意力机制的特征融合模块的自适应地加权融合操作表示如下：

其中，V_CDI和V_SI分别为经过基于八度卷积的ResNet-34神经网络提取到的RGB通道残差流特征和频谱流特征，W_CDI和W_SI分别为经过注意力机制两路特征得到的自适应权重，为是元素乘法，/>为级联操作，V_F为待取证的人脸图像和视频的固有特征。

优选地，所述的根据不同的AI伪造技术采用对齐模块消除所述待取证的人脸图像和视频的固有特征的分布偏差，得到所述待取证的人脸图像和视频的有效特征，包括：

根据不同的AI伪造技术将待取证的人脸图像和视频划分为不同的域，表示训练用的具有K个域的人脸样本为：

其中域d∈{1，...，K}，n_d是d域样本的数量，相应的标签表示为：

其中有两个类别(伪造/真实)；

挖掘出所述待取证的人脸图像和视频的固有特征后，第m层全连层的输入特征描述为：

利用最大均值差异MMD距离来表示不同AI伪造技术的距离，通过对齐模块将不同伪造技术特征之间的MMD距离d()缩小，对齐模块的损失函数为：

其中，d()为不同伪造技术特征之间的MMD距离。

优选地，所述的将所述待取证的人脸图像和视频的有效特征输入到分类器中，所述分类器输出所述待取证的人脸图像和视频是否为AI伪造的检测结果，包括：

分类器包含一个全连接层和一个softmax层，分类器的损失函数包括分类的交叉熵损失函数和对齐模块的损失函数，分类器的网络参数表示为：

其中，为交叉熵损失函数，/>为对齐模块的损失函数，λ为对齐模块损失函数的权重，在分类器的训练过程中，使用交叉熵损失训练检测框架，对最后一个卷积层和全连接层的交叉熵损失函数和对齐模块损失函数进行微调，最小化所述分类器的损失函数；

将所述待取证的人脸图像和视频的有效特征输入到分类器中，分类器根据所述待取证的人脸图像和视频的有效特征将所述待取证的人脸图像和视频剪切成多个128×128部分，每个128×128部分将被独立判断，如果其中一个128×128部分被认为是伪造的，则判断所述待取证的人脸图像和视频是AI伪造的，如果所有128×128部分被认为是真实的，则判断所述待取证的人脸图像和视频是真实的。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提成了提出面向未知伪造技术具有良好泛化能力的AI伪造人脸取证算法，聚焦挖掘AI伪造人脸的固有和泛化特征，有效提升了AI伪造人脸检测的泛化能力。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的一种使用不同的AI伪造技术生成的四种类型的伪造人脸示意图；

图2为本发明实施例提供的一种基于固有特征挖掘的AI伪造人脸检测方法的实现原理图；

图3为本发明实施例提供的一种基于固有特征挖掘的AI伪造人脸检测方法的处理流程图；

图4为本发明实施例提供的一种四类伪造人脸和相应真实人脸的RGB通道残差图像示意图；

图5为本发明实施例提供的一种四类伪造人脸和相应真实人脸的平均频谱示意图；

图6为本发明实施例提供的一种基于注意力机制的特征融合模块的实现原理图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种基于固有特征挖掘的AI伪造人脸取证算法。不同于已有的算法，本发明实施例从两个方面提升检测算法的泛化能力。首先，从两个不同但固有的角度，即相机成像过程和AI伪造人脸过程中不可缺少的步骤来挖掘AI伪造人脸的固有痕迹，并且进一步采用八度卷积和基于注意力的融合模块来有效地挖掘AI伪造人脸的固有特征；其次，设计了一个对齐模块，通过最小化不同伪造技术之间的特征分布差异来减少偏差，进一步提高我们的取证算法的泛化能力。

本发明实施例提供的一种基于固有特征挖掘的AI伪造人脸检测方法的实现原理图如图2所示，具体处理流程如图3所示，包括如下处理步骤：

步骤S10、对待取证的人脸图像和视频从相机成像角度和制造AI伪造视频不可缺少的步骤两个方面进行固有痕迹挖掘。

首选对待取证的人脸图像和视频进行固有痕迹挖掘，该固有痕迹挖掘包括：一方面从相机成像角度挖掘AI伪造人脸的固有痕迹，另一方面从制造AI伪造视频不可缺少的步骤上挖掘AI伪造视频的固有痕迹。从相机成像角度，在自然图像中，由于相机成像过程中的CFA(Bayer Color Filter Array，拜耳色彩滤波阵列)插值算法，不同颜色通道的高频分量高度相关，近似相等。然而，对于AI伪造人脸，伪造过程中没有CFA插值算法或者彩色通道中高频分量的相关性被破坏。因此，与真实人脸不同的是，AI伪造人脸中不同颜色通道的高频分量并没有高度相互关联。

我们分别计算了真实人脸和四类伪造人脸的RGB(Red红色，Green绿色，Blue蓝色)通道的CDI(Channel Difference Image，残差图像)，并将canny算子用于CDI上，以更好地展示高频差异。图4为本发明实施例提供的一种四类伪造人脸和相应真实人脸的RGB通道残差图像示意图，如图4所示，对于四类AI伪造人脸，真实人脸的RGB通道残差图像包含更多的高频成分，因此我们使用RGB通道残差图像作为输入。因此，本发明实施例提取待取证的人脸图像和视频的RGB通道残差图像，分析RGB通道残差图像中包含的高频成分的数量，以及不同颜色通道的高频分量是否相关，得到待取证的人脸图像和视频的RGB通道残差固有痕迹。

另一方面，AI伪造人脸过程中必须经历上采样步骤，因此考虑从这个步骤挖掘固有痕迹，相比于自然图像，AI伪造视频过程中的上采样步骤会在频谱留下十字格形状的伪影，原因是上采样模块实际上在频谱中将低分辨率人脸图像的多个副本复制到最终伪造生成的人脸中。图5为本发明实施例提供的一种四类伪造人脸和相应真实人脸的平均频谱示意图，如图5所示，伪造人脸中有重复的方格状伪影，因此，本发明实施例提取待取证的人脸图像和视频的频谱图像，检测频谱图像中是否存在重复的方格状伪影，得到待取证的人脸图像和视频的频谱固有痕迹。

步骤S20、通过RGB通道残差流对从相机成像角度挖掘的固有痕迹进行特征提取，得到RGB通道残差流特征，通过频谱流对从制造AI伪造视频不可缺少的步骤挖掘的固有痕迹进行特征提取，得到频谱流特征。

构建用于深度特征提取及融合的双支流网络，该双支流网络包括RGB通道残差流网络和频谱流网络。双流网络从不同角度挖掘固有痕迹并起到互补作用。如上分析，两种固有线索都与频域信息相关，因此我们特别采用相同的基于八度卷积的ResNet-34从RGB通道残差流和频谱流学习特征。

将所述待取证的人脸图像和视频的RGB通道残差固有痕迹输入到所述RGB通道残差流网络中，将所述待取证的人脸图像和视频的频谱固有痕迹输入到所述频谱流网络中，采用相同的基于八度卷积的ResNet-34分别从所述RGB通道残差流网络和所述频谱流网络中学习出RGB通道残差流特征V_CDI和频谱流特征V_SI。

在学习了双流信息后，我们可以获得V_CDI和V_SI两路特征。

步骤S30、使用基于注意力机制的特征融合模块自适应地加权融合所述RGB通道残差流特征和频谱流特征，得到所述待取证的人脸图像和视频的固有特征。

我们使用基于注意力机制的特征融合模块自适应地加权融合两路特征，提取上述待取证的人脸图像和视频的固有特征。首先构造基于注意力机制的特征融合模块，图6为本发明实施例提供的一种基于注意力机制的特征融合模块的实现原理图。如图6所示，首先学习一个具有V_CDI和V_SI相同维度的内核q。然后通过滤波器生成向量D_CDI和D_SI，向量D_CDI表示V_CDI特征的重要性，向量D_SI表示V_SI特征的重要性，可以表示为：

其中T为注意力机制中的矩阵转置操作。

将D_CDI给softmax函数，通过softmax函数获得D_CDI的权重W_CDI，将D_SI传递给softmax函数，通过softmax函数获得D_SI的权重W_SI。

最后，所述使用基于注意力机制的特征融合模块的自适应地加权融合操作表示如下：

步骤S30、在特征融合之后，根据不同的AI伪造技术采用对齐模块消除上述待取证的人脸图像和视频的固有特征的分布偏差，得到上述待取证的人脸图像和视频的有效特征。

特征分布偏差消除部分采用对齐模块，根据不同的AI伪造技术将待取证的人脸图像和视频划分为不同的域，具体地说，表示训练用的具有K个域的人脸样本为：

其中域d∈{1，..，K}，n_d是d域样本的数量。相应的标签表示为：

其中有两个类别(伪造/真实)。挖掘固有特征后，第m层全连层的输入特征描述为：

本发明利用MMD(Maximum mean discrepancy，最大均值差异)距离来表示不同AI伪造技术的距离，为了消除偏差，不同域之间的距离需要最小化，因此，对齐模块的损失函数为：

其中，d()为不同伪造技术特征之间的MMD距离。

为了消除分布偏差，在对齐模块中，我们将不同伪造技术特征之间的MMD距离d()缩小，从而得到了更集中、更鲁棒的特征，以此提升检测AI伪造人脸的泛化能力。

步骤S40、将上述待取证的人脸图像和视频的有效特征输入到分类器中，分类器输出上述待取证的人脸图像和视频是否为AI伪造的检测结果。

分类器包含一个全连接层和一个softmax层，因此，我们的损失函数包括分类的交叉熵损失函数和对齐模块的损失函数，分类器的网络参数可以为：

其中，为交叉熵损失函数，/>为对齐模块的损失函数，λ为对齐模块损失函数的权重，我们需要最小化两个损失函数。

将上述待取证的人脸图像和视频的有效特征输入到分类器中，分类器可以输出上述待取证的人脸图像和视频是否为AI伪造的检测结果。在训练过程中，我们首先使用交叉熵损失训练检测框架，然后对最后一个卷积层和全连接层的交叉熵损失函数和对齐模块损失函数进行微调。对于学习参数的设置，我们在网络初始化步骤中使用Adam优化器，在微调步骤中mini-batch为10，每个域的大小为100。动量值设置为β₁＝0.9和β₂＝0.999，初始学习率设置为1e-3和1e-4以进行微调。此外，如果5次迭代后验证精度不提高0.1％，学习率会降低10％，并且我们以学习率1e-7终止训练。权重λ在{0.001、0.01、0.1、1、10}的范围内选择。在测试过程中，首先将待检测人脸剪切成几个128×128部分，我们可以从中恢复整个人脸图像。然后，这些裁剪的128×128部分将被独立判断，如果其中一个裁剪的部分被认为是假的，该人脸图像就被判定为伪造的。

实验数据由四类AI伪造人脸组成：人脸整体合成、面部表情伪造、面部属性伪造和身份伪造，数据集包含10种最先进的和流行的AI伪造技术，实验数据集列表如表1所示。

表1四类伪造人脸实验数据集

对于人脸整体合成数据集，从FFHQ收集12000个真实人脸图像，并且从StyleGAN和StyleGAN2的公开数据集分别收集6000个伪造人脸(大小为1024×1024)。对于面部表情伪造数据集，从Oulu-CASIA收集了5000个真实人脸，由ExperGAN生成的5000个伪造人脸。从CelebA收集了10000个真实人脸，以及分别由GANimation和HomoInterpGAN生成的5000个伪造人脸(大小为128×128)。对于人脸属性伪造数据集，从LFW收集5000个真实人脸，并由AttGAN生成相应的5000个伪造人脸。从CelebA收集了10000个真实人脸，由StarGAN和STGAN分别生成了相应的5000个伪造人脸(大小为128×128)。

在本发明中，各种用于伪造技术的真实图像没有重复。对于身份伪造数据集，本发明使用了FaceForensics++数据集中的FaceSwap数据集和DFDC数据集中的DeepFake数据集。对于FaceSwap数据集，我们收集了1500个具有不同压缩系数c0、c23和c40的伪造视频及同等数量的真实视频。对于DFDC数据集，我们收集了3000个伪造视频和同等数量的真实视频。之后，我们从每个视频中提取10帧，并进一步使用人脸检测器MTCNN来获取人脸区域的图像。如果在帧中检测到多个面，则只提取最大的面。因此，产生15000个具有FaceSwap的伪造人脸图像、30000个具有DeepFake的伪造人脸图像和同等数量的真实人脸图像(大小为256×256)。

用于本发明的GPU是NVIDIAGTX2080Ti，框架由Pytorch库实现。输入大小为128×128，我们将每个图像裁剪成几个不重叠的128×128图像。为了有效说明本发明的性能，下面利用附图和表格数据对实验结果进行展示和分析，以此证明本发明具有优良的性能。

本发明将所提方法与最新检测AI伪造人脸的方法进行了比较。首先，我们展示了本发明在所有四个数据集中检测可见伪造人脸技术方面的性能，即，测试集中的伪造技术也存在于训练集中。在这里，为了符合实际应用，我们混合了四类伪造人脸数据集一起训练我们的检测器，然后测试某种类型的伪造人脸，而不是用某种类型的伪造人脸来训练探测器，然后再测试这种类型的伪造人脸。训练、验证和测试集随机选择，且训练集、验证集和测试集中人脸图像的比例设置为6：2：2。性能比较结果如表2所示。

表2四类数据集上的伪造人脸检测性能

我们应用准确率(Acc)和假阳性率(FPR)作为评估指标。从结果来看，本发明所提算法的所有性能都高于98％，并且在所有情况下都优于最先进的方法。我们进一步评估了我们的框架在每种伪造技术上的性能，并将其结果与最先进的方法进行了比较，如表3所示。

表3不同伪造技术上的伪造人脸检测性能

实验结果表明，我们的方法有良好的性能，与最先进的方法相比也有了显著的改进。特别是在最新的DFDC和StyleGAN2数据集中，我们也实现了相对较高的性能。

为了更好地展示本发明在检测AI伪造人脸泛化能力，我们进一步展示本发明在检测不可见的伪造人脸技术方面的性能。我们首先通过使用由多种伪造技术产生的伪造人脸和相应的真实人脸来训练一个框架。然后，我们用另一种不在训练集中的伪造人脸伪造技术来测试检测器，我们随机创建了12个不同的交叉伪造技术方案，来以此来评估本发明的泛化性能，如表4。

表4交叉伪造技术实验方案

在这里，为了符合实际应用，我们的训练集都包括四种类型的伪造人脸和相应的真实人脸，我们进一步测试了具有更多源域的泛化能力(方案N5-N8)，以及不可见的真实人脸数据集的泛化能力(方案N9-N12)。训练集和验证集的样本来自相同一套伪造技术，而用于测试的样本来自另一种伪造技术。性能比较结果如表5所示。

表5不可见伪造技术的伪造人脸检测性能

同样应用准确率(Acc)和假阳性率(FPR)作为评估指标。实验结果表明，虽然检测不可见伪造技术的性能比检测可见伪造技术的性能略有降低，但是检测结果都超过了96％。此外，与方案N1-N4的结果相比，更多的源域(方案N5-N8)的泛化性能更好，因为我们的框架可以从更多的源域获得更多的信息，而域对齐模块可以更有效地工作。而检测不可见真实人脸数据集的性能(方案N9-N12)泛化性能略有下降。此外，从研究结果中可以看出，我们提出的框架在所有情况下都优于最先进的方法，这证明了我们的框架具有更好的泛化能力。

我们进行了消融研究来验证框架中每一部分对算法的贡献度，我们为消融研究创建了另一个小的数据集，其中包括整体合成(真实人脸来自FFHQ数据集)和面部表情伪造两种类型(真实人脸来自CelebA数据集)，如表6。

表6消融实验数据集

Fake Faces	Training Set	Validation Set	Test Set	Real Faces
					StyleGAN	6000	2000	0	FFHQ
StyleGAN2	0	0	2000	FFHQ
					ExperGAN	6000	2000	0	CelebA
GANimation	6000	2000	0	CelebA
					HomoInterpGAN	0	0	2000	CelebA

我们以RGB图像，RGB通道残差图像和频谱图像单独作为输入来检测伪造人脸，验证RGB通道残差图像和频谱图像包含更多的固有伪造线索。此外，我们测试了有无八度卷积和有无对齐模块的算法性能，实验结果如表7。

表7 RGB特征、RGB通道残差特征(CDI)、频谱特征(SI)、八度卷积和对齐模块的消融研究结果

实验结果证明提出的基于固有特征挖掘的AI伪造人脸检测方法中的八度卷积、基于注意力机制的融合模块和对齐模块的有效性。

综上所述，本发明通过从相机成像角度和制造伪造视频不可缺少的步骤上挖掘AI伪造人脸的固有伪造痕迹，而不是依赖于AI伪造人脸制作过程中的失败。并且利用基于注意力的融合模块自适应地加权特征，指导融合特征的有效融合。最后通过设计一个对齐模块，以消除不同伪造方案之间的分布偏差，得到一个更泛化的取证框架，有效提升了AI伪造人脸检测的泛化能力。

对比最新检测AI伪造人脸的方法，本发明实施例提成了提出面向未知伪造技术具有良好泛化能力的AI伪造人脸取证算法，聚焦挖掘AI伪造人脸的固有和泛化特征，检测性能和泛化性能有所提升。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于固有特征挖掘的AI伪造人脸检测方法，其特征在于，包括：

将所述待取证的人脸图像和视频的有效特征输入到分类器中，所述分类器输出所述待取证的人脸图像和视频是否为AI伪造的检测结果；

所述的对待取证的人脸图像和视频分别从相机成像角度和制造AI伪造视频不可缺少的步骤两个方面进行固有痕迹挖掘，包括：

对待取证的人脸图像和视频从制造AI伪造视频不可缺少的步骤方面进行固有痕迹挖掘，提取待取证的人脸图像和视频的频谱图像，检测频谱图像中是否存在重复的方格状伪影，得到待取证的人脸图像和视频的频谱固有痕迹；

所述的通过RGB通道残差流对从相机成像角度挖掘的固有痕迹进行特征提取，得到RGB通道残差流特征，通过频谱流对从制造AI伪造视频不可缺少的步骤挖掘的固有痕迹进行特征提取，得到频谱流特征，包括：

构建用于深度特征提取及融合的双支流网络，该双支流网络包括RGB通道残差流网络和频谱流网络，将所述待取证的人脸图像和视频的RGB通道残差固有痕迹输入到所述RGB通道残差流网络中，将所述待取证的人脸图像和视频的频谱固有痕迹输入到所述频谱流网络中，采用相同的基于八度卷积的ResNet-34分别从所述RGB通道残差流网络和所述频谱流网络中学习出RGB通道残差流特征和频谱流特征；

所述的使用基于注意力机制的特征融合模块自适应地加权融合所述RGB通道残差流特征和频谱流特征，得到所述待取证的人脸图像和视频的固有特征，包括：

D_CDI＝q^TV_CDI

D_SI＝q^TV_SI (1)

其中T为注意力机制中的矩阵转置操作；

其中，V_CDI和V_SI分别为经过基于八度卷积的ResNet-34神经网络提取到的RGB通道残差流特征和频谱流特征，W_CDI和W_SI分别为经过注意力机制两路特征得到的自适应权重，为是元素乘法，/>为级联操作，V_F为待取证的人脸图像和视频的固有特征；

所述的根据不同的AI伪造技术采用对齐模块消除所述待取证的人脸图像和视频的固有特征的分布偏差，得到所述待取证的人脸图像和视频的有效特征，包括：

其中有伪造和真实两个类别；

其中，d()为不同伪造技术特征之间的MMD距离。

2.根据权利要求1所述的方法，其特征在于，所述的将所述待取证的人脸图像和视频的有效特征输入到分类器中，所述分类器输出所述待取证的人脸图像和视频是否为AI伪造的检测结果，包括：