CN115588226A

CN115588226A - 一种高鲁棒性的深度伪造人脸检测方法

Info

Publication number: CN115588226A
Application number: CN202211354009.3A
Authority: CN
Inventors: 刘红; 张法伟; 肖云鹏; 李暾; 贾朝龙; 唐飞; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-01-10

Abstract

本发明属于人工智能安全领域，涉及一种高鲁棒性的深度伪造人脸检测方法；本发明主要包括4个部分：首先获取原始数据集并进行筛选得到训练样本；对伪造人脸检测器进行扰动攻击，从而干扰伪造人脸检测器的分类准确率并得到扰动样本；采用卷积神经网络消除扰动样本中的对抗性扰动，得到重构图像分类器；将重构图像分类器和受到扰动攻击后的伪造人脸检测器进行集成，最终得到深度伪造人脸检测模型；本发明提高了模型鲁棒性，同时提升了模型检测准确率。

Description

一种高鲁棒性的深度伪造人脸检测方法

技术领域

本发明属于人工智能安全领域，涉及一种高鲁棒性的深度伪造人脸检测方法。

背景技术

随着深度学习的出现和大数据集的可用性，伪造人脸检测技术收获了令人印象深刻的结果，最先进的伪造人脸检测技术已经广泛应用于众多领域。但仍然存在针对伪造人脸检测技术的攻击者群体，他们花费时间和精力去操纵面部，并尝试各种方法试图骗过伪造人检检测器。

传统的深度伪造检测技术一般是通过图像级别的取证，基于传统的信号处理，依赖于特定的篡改依据，利用图像的频域特征和统计特征进行区分。这种方法受限于图像的质量，一旦伪造人脸图像的质量提高，相应的识别效果就会降低。尽管有大量研究集中于防御合成对抗性攻击工作，但是这些方法无法更好的适应当下形式多变的攻击技术，在面对不同敌对扰动攻击时无法做出正确的判断，从而导致模型检测鲁棒性依然较差。为解决检测准确性，许多研究人员对深度伪造检测付出了巨大的研究努力，并取得了相当不错的成果，但仍存在一些挑战：

1.伪造人脸检测模型缺乏对抗性。现有的伪造人脸检测模型大多是采用深度神经网络技术，而神经网络本身存在对抗样本攻击，缺乏对抗性，所以很容易遭受到对抗攻击的影响，从而使得人脸检测模型不能正确预测对抗人脸图像和原始图像是否是相同。

2.过度依赖训练数据集。真实的环境扰动攻击无法预知的，适应于大量训练集的训练模型去除扰动攻击并不可靠。

3.鲁棒性与准确性的动态平衡。一味的追求提高模型检测鲁棒性从而降低了模型检测准确性，如何动态平衡两者之间的关系显然是当下研究提高鲁棒性方向又一个需要面对的问题。

发明内容

为解决上述问题，本发明提供了一种高鲁棒性的深度伪造人脸检测方法，其特征在于，包括以下步骤：

S1.获取深度伪造人脸图像数据集并进行预处理，得到训练图像集；

S2.将训练图像集作为伪造人脸分类器的输入，分别采用FGSM和CW2对伪造人脸分类器同时进行敌对攻击训练，得到扰动图像集；

S3.通过Deep Image Prior方法采用卷积神经网络学习扰动图像，获取图像噪声高阻抗性，实现在扰动图像中消除敌对扰动；

S4.基于S3中发现的图像噪声高阻抗性，通过S3中的卷积神经网络对扰动图像集中所有扰动图像进行重构训练，得到重构图像集；

S5.对卷积神经网络进行改进，通过重构图像集训练改进后的卷积神经网络得到重构图像分类器，并采用二进制交叉熵损失函数计算分类损失；

S6.将伪造人脸分类器与训练好的重构图像分类器集成得到深度伪造人脸检测模型，并进行集成训练，采用分类集成损失函数计算损失；

S7.将待检测图像输入S6训练好的深度伪造人脸检测模型中，得到检测结果。

进一步的，步骤S1获取训练图像集的过程包括：

S11.在公开数据集下载深度伪造人脸图像集，或通过伪造人脸生成技术伪造得到深度伪造人脸图像集；

S12.采用伪造人脸分类器检测深度伪造人脸图像集中的所有图像，收集检测结果为伪造的图像组成训练图像集。

进一步的，步骤S3使用Deep Image Prior方法获取图像噪声高阻抗性，目的是在初始化的卷积神经网络学习特定生成器网络结构参数前，该卷积神经网络在单张扰动图像上反复迭代获取先验信息，进而完成扰动图像的修复；基于此目的构建的目标函数表示为：

其中，x*表示最终目的图像，x′表示扰动图像，

表示卷积神经网络的生成图像，

是一个任务依赖的数据项，表示扰动图像x′与生成图像

间的最小化交叉熵；

表示捕获生成图像先验信息的正则化项；

进一步将

解释为扰动图像x′与生成图像

间的域相关距离损失或域相关相似性损失，并引入满射函数f:

得到改进的目标函数：

进一步的，在步骤S3消除扰动图像中的敌对扰动时，通过图像逐像素计算均方误差作为相似性度量，对目标函数继续进行优化，表示为：

min{MSE(y(χ,z),x′)}

其中，MSE()表示均方误差，y()表示映射模型，应用于图像生成计算相似性度量，χ表示可调节参数，z表示随机化向量种子。

进一步的，重构图像分类器中采用改进的ResNet-50网络进行图像分类，改进的ResNet-50网络是在现有ResNet-50网络结构基础上删除了所有BN层；采用二进制交叉熵损失函数计算重构图像分类器的分类损失，表示为：

其中，

表示取平均值操作，x′表示扰动图像，

表示重构图像，D()表示重构图像分类器。

进一步的，分类集成损失函数表示为：

其中，α,β,γ分别表示可调节参数,

表示重构图像分类器的损失，

表示伪造人脸分类器的损失。

进一步的，伪造人脸分类器的损失表示为：

其中，

表示重构图像分类器输出的目标图像

与扰动图像x′之间的最小化交叉熵损失，

表示正则化L₂重建损失，ω∈R^C×H×W为编码张量,C,H,W表示图像高度、宽度以及通道数，μ表示网络超参数。

本发明的有益效果：

基于DIP框架改进迭代过程的终止条件，合理终止学习图像的过程，筛选出目的自然图像，本发明适用于没有数据集训练模型的情况，即在真实的环境当中完成去除对抗性扰动的目的，以此提高伪造人脸检测器检测模型的鲁棒性，并且通过集成分类器与检测器的分类损失，平衡正确性与鲁棒性之间的关系，在提高伪造人脸检测模型检测鲁棒性的同时保持原有的检测正确率不会降低。

针对对抗性伪造人脸图像的主流防御方案过度倾向于适应大量数据集中的干扰，却对真实环境中看不见的对抗性攻击无法正确做出决策，最新研究发现在深度伪造人脸图像中添加对抗噪声能够影响深度伪造人脸检测器的检测准确率。为了解决这个问题，本发明提出一种适用于真实环境中有效且高效的解决方案。我们通过改进DIP，提出一种可以去除深度伪造人脸图像中对抗性扰动噪声的方法，即通过无监督方式迭代优化生成的卷积神经网络来消除对抗性扰动。为了提高重构图像的质量，改进ResNet网络，通过引入残差密集块(RRDB)去除残差块中不必要的BN层，使用有效的残差密集块，在扩大模型尺寸的同时，探索了具有通道注意的更深层次的网络，并且通过PSNR进行图像质量评估，提高了感知质量。为了提高模型鲁棒性的同时不降低模型检测准确率，引入集成学习，集成若干个分类器，增强最终伪造人脸检测分类网络，从而提高整体的预测鲁棒性。

附图说明

图1为本发明的深度伪造人脸检测方法流程图；

图2为本发明的深度伪造人脸检测系统模型图；

图3为本发明的消除对抗攻击示意图；

图4为本发明的重构图像分类器网络结构图；

图5为本发明实施例的DIP学习示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种高鲁棒性的深度伪造人脸检测方法，能够在对抗扰动攻击的同时提高伪造人脸检测鲁棒性，提升伪造人脸检测的准确率。本发明主要包括4个部分：首先获取原始数据集并进行筛选得到训练样本；对伪造人脸检测器进行扰动攻击，从而干扰伪造人脸检测器的分类准确率并得到扰动样本；采用卷积神经网络消除扰动样本中的对抗性扰动，得到重构图像分类器；将重构图像分类器和受到扰动攻击后的伪造人脸检测器进行集成，最终得到深度伪造人脸检测模型。

在一实施例中，如图1所示，一种高鲁棒性的深度伪造人脸检测方法包括以下步骤：

具体地，获取训练图像集的过程包括：

S12.采用现有的深度伪造检测器检测深度伪造人脸图像集中的所有图像，收集检测结果为伪造的图像组成训练图像集。

在一实施例中，本发明提出的深度伪造人脸检测方法的系统架构如图2所示，训练过程包括：

STEP1.下载thispersondoesntexists网站产生的10K张伪造人脸图像作为深度伪造人脸图像集；将深度伪造人脸图像集中的所有图像输入现有的伪造人脸分类器中，伪造人脸分类器会对图像进行判断，输出该图像是伪造图像还是真实图像的检测结果，收集所有检测结果为伪造的图像组成训练图像集。

STEP2.然后对上面采用的伪造人脸分类器进行扰动攻击去干扰它的判断，即向训练图像集中的所有图像添加对抗性扰动，添加扰动后的训练图像输入伪造人脸分类器后，其检测结果就变为真实了，从而得到扰动干扰伪造人脸分类器和扰动图像集。

STEP3.采用Deep Image Prior方法提出的DIP框架从卷积神经网络本身出发，开始从无到有的学习单张含噪图像(本实施例中也指扰动图像)，获取图像噪声高阻抗性，图像噪声高阻抗性通俗来说就是卷积神经网络在学习含噪图像的过程中，会先学习到不含噪图像的特征，再学习含噪图像中的噪声；基于图像噪声高阻抗性，采用卷积神经网络去除扰动图像中的对抗干扰，得到重构图像，如图3所示。

STEP4.在卷积神经网络中引入改进的ResNet-50网络，构建重构图像分类器，如图4所示。该改进的ResNet-50网络是在现有ResNet-50网络结构基础上删除了所有BN层；本来BN层是在ResNet-50网络的训练期间使用一批样本中的均值和方差来归一化特征，并且在测试期间使用整个训练数据集的均值和方差。但当训练数据集和测试数据集的统计差异较大时，BN层就会引入令人不快的噪声，在图像的去模糊任务中，去除BN层被证明可以提高性能并降低计算复杂度。

STEP5.大多数伪造人脸检测会因为生成图像的千差万别而泛化失败，这是由于数据集的不均衡或者是网络架构、损失函数和图像预处理的方式不同，导致一个模型对某些数据集识别效果良好时在另外的数据集未能达到预期的效果。为了训练一个鲁棒性和准确性都不错的模型，本发明采用集成学习的方法，通过集成若干弱分类器达到增强决策的效果，具体来说，将扰动干扰伪造人脸分类器与重构图像分类器集成得到深度伪造人脸检测模型，整体如图2所示。

优选地，尽管当下伪造人脸检测技术的准确率不断提高，但是依然容易受到对抗样本的影响，导致伪造人脸检测模型的鲁棒性较差，使得伪造人脸检测模型错误分类。这是因为大多数研究都集中在评估其方法在有限数量的已知Deepfake伪造人脸生成网络或简单数据集上的有效性。但是由于生成网络极快的发展速度，可以在以前的生成网络中适用的检测技术可能被删除或者被破坏。在真实的情景中，Deepfake会遭受各种不容易被察觉的扰动的对抗性噪声攻击，这也成为开发一个强鲁棒性的Deepfake检测模型的最大障碍。故本实施例在STEP2中考虑实施敌对扰动攻击。

在敌对扰动攻击中，白盒攻击假设对手完全可以访问被攻击模型，包括模型架构和参数。黑盒攻击假设对手对被攻击模型的信息有限或几乎没有。黑盒攻击可能涉及对被攻击模型的不同程度的访问，例如对预测概率、预测类别甚至训练数据的访问。在本实施中基于白盒环境和黑盒环境采用Fast Gradient Sign Method(FGSM)和Carlini and WagnerL2 attack(CW2)范数攻击创建伪造人脸分类器，使得伪造人脸分类器的准确率大幅度降低。

具体地，FGSM是一种基于梯度生成对抗样本的算法，属于对抗攻击中的无目标攻击(即不要求对抗样本经过model预测指定的类别，只要与原样本预测的不一样即可)，本实施例采用FGSM进行干扰，生成导致伪造人脸分类器误判的扰动图像，表示为：

其中，x′表示扰动图像，x表示训练图像，y表示训练图像x的真实类别，θ表示伪造人脸分类器的权重参数，J()表示损失函数，

表示对训练图像x求偏导，sign()表示符号函数，ε表示一个超参数，用于控制每个像素的扰动大小，通过保留最小ε，就可以限制干扰的大小。

具体地，CW2作为一种缓慢但是更强的攻击，只考虑攻击对图像的干扰，即敌对攻击的目标是操控图像本身，敌对攻击目标是将添加扰动的图像错误归类。在CW2生成对抗样本的过程中攻击目标有两个，第一个目标是最小化扰动图像x′和训练图像x的L2范数，表示为：

第二个目标是试图使扰动引起错误分类，表示如下：

y_C＝min(max{|C_s(x)-C_s(x′_i)|},-κ) (4)

其中，y(x′)表示有效导致错误分类的输出，C_s(x)表示伪造人脸分类器针对训练图像x的分类概率，C_s(x′_i)表示伪造人脸分类器针对第i次生成的扰动图像x′_i的分类概率，x′_i表示针对训练图像x进行CW2敌对干扰过程中第i次生成的扰动图像，κ表示一个定义阈值的参数，通过调整该阈值使得在逻辑上不正确预测类超过真实目标类。进一步的：

为了确保扰动图像x′可以介于区间[0,1]之内，将公式(2)、(3)、(4)、(5)整合得到：

其中，

表示CW2敌对干扰过程的扰动因子，tanh()(-1≤tanh()≤1)表示使得生成的扰动图像始终落在区间[0,1]内，λ表示控制两个目标的强度参数，

表示将如何平衡两个目标的非线性问题转化后的线性问题。

优选地，在真实情景下，我们得到的图像往往是敌对攻击添加了扰动之后的图像，所以我们没有足够的数据集学习正常的深度伪造人脸图像与添加扰动后的图像的区别。在STEP3中为了消除对抗攻击对伪造人脸分类器的影响，本实施例将消除对抗攻击定义为图像去噪问题，即图像重建问题。基于Deep Image Prior提出的理论，通过卷积神经网络的学习能力学习输入的扰动图像，即主要目的是在初始化的卷积神经网络学习特定生成器网络结构参数前，该卷积神经网络在单张扰动图像上反复迭代获取先验信息，进而完成扰动图像的修复；基于此目的构建的目标函数表示为：

其中，x*表示基于神经网络重塑的多张生成图像，最小化扰动图像和生成图像之间的依赖于域的距离或者不相似性所得到的最终目的图像，x′表示扰动图像，

表示卷积神经网络的生成图像，

是一个任务依赖的数据项，表示扰动图像x′与生成图像

间的最小化交叉熵；

表示捕获生成图像

先验信息的正则化项；

具体地，从真实情景出发，使用DIP中发现的图像噪声高阻抗性，以无监督的方式使卷积神经网络自然地从含有扰动攻击的图像当中消除敌对扰动，不需要训练集就可以完成图像恢复。重构原本的深度伪造图像，从扰动图像x′中恢复训练图像x，但这通常是一个不能确定的问题，故正则化至关重要。通过结合DIP的关键思想，将公式(7)中

解释为扰动图像x′与生成图像

得到改进的目标函数：

一般来说，先验知识有利于自然图像而不是受损图像，良好的重建图像可以在优化轨迹中被成功分类得到，故不得不考虑优化项来获得更好的重建图像。使用上述描述的图像恢复框架来从对抗样本(扰动图像)中移除对抗性干扰，通过在图像上逐像素计算均方误差(MSE)来作为相似性度量，为了能够表示消除对抗性干扰的结果，继续对公式(8)进行优化：

min{MSE(y(χ,z),x′)} (9)

其中，MSE()表示均方误差，y()表示映射模型，应用于图像生成计算相似性度量，χ表示可调节参数，z表示随机化向量种子从而代替g(χ)。

具体地，卷积神经网络本身起到先验的作用，通过卷积层，卷积神经网络从扰动图像当中得到不含有对抗性噪声图像的内部结构和自相似性。本实施例提出了一种主动防御策略，即主动去除含有对抗性噪声图像中的噪声，在卷积神经网络从0到1学习噪声图像的过程当中，假设未受干扰的图像和含有对抗性噪声的图像在全部迭代优化过程中具有不同的行为，并且含有对抗性噪声的图像在整个的迭代过程中，去噪后的图像通常会出现在迭代曲线倾角优化轨迹的某个位置如图5所示；因此，只需要在中间迭代中将此时的生成图像送到现有分类器中；然后分类器进行筛选获得恰当的图像，并作为最终的去噪后的自然图像的结果。

具体地，卷积神经网络的结构如图3所示，其使用非线性激活函数的下采样和上采样的全卷积结构，其中下采样基于卷积调整stride实现，并且基于lanzeos插值和进行平均和最大池化，上采样采用最邻近上采样放大还原图像原本的大小。

优选地，STEP4建立的重构图像分类器如图4所示，与流行的对抗性检测分类器类似，都应该学习真实图像与对抗性图像之间的决策边界。但是本文所提出的重构图像分类器不是利用已知攻击预先计算的对抗性图像进行训练，而是以主动监督学习的方式区别真实图像和对抗性图像。提出的方法不需要大量预先计算的对抗性图像数据集来训练，使用二进制卷积神经网路来区分扰动图像x′与重构图像

并用二进制交叉熵损失进行训练：

其中，

表示取平均值操作，D()表示ResNet分类器(也就是重构图像分类器)。

具体地，使用改进的ResNet-50网络在DIP图像去噪过程中计算倾角，针对训练时数据集上的多个时期训练分类器。简单地说，根据DIP方法采用卷积神经网络从无到有的去学习一个含噪图像(扰动图像)，卷积神经网络会在学习过程的不同时期(不同位置)生成一张图像，如图5所示，而干净不含噪的图像必定是在某一个或几个位置上出现的，本实施例要做的就是从这几个位置中选择一个恰当的位置，在图5的loss图中存在明显的转折点(倾角)，将这个转折点作为恰当的位置。给定一个目标神经网络，将扰动图像和目标神经网络在某一个位置生成的图像进行损失计算，并将该损失函数定义为其差的L1范数：

其中，

代指目标神经网络在某一个位置生成的图像，y_l()表示第l层的模型真实值y_l(x′)与预测值

的值。

具体地，通过不同时期的分类器使用真实的损失来度量去除对抗性攻击的结果：

其中，

表示度量去除对抗性攻击的效果评估损失，L_x′表示对x′的不同时期产生的重构图像

取平均值操作，D()表示ResNet分类器对产生的重构图像的分类，

表示不同时期j产生的重构图像。

优选地，在STEP5中使用集成学习分类器而不是单个分类器可以提高模型的泛化能力，通过组合获得的增益更多的受呈现给组合分类器的内容选择的影响，而不是受到实际选择的组合分类器方法的影响。具体来说，将扰动干扰伪造人脸分类器D与重构图像分类器C集成得到深度伪造人脸检测模型，将训练图像x作为深度伪造人脸检测模型的输入，最小化扰动干扰伪造人脸分类器D与重构图像分类器C的检测误差，在提高D检测鲁棒性的同时不会降低准确性，对重构图像进行图像质量评估得到峰值检测干净的重构图像。

具体地，在集成模型学习过程中，损失函数主要是用于平衡伪造人脸分类器D与重构图像分类器C之间的关系，表示为伪造人脸分类器D划分数据集时伪造人脸分类器D判定为假的图像与经过DIP重构(重构图像分类器C)得到的图像这两者的交叉熵损失。用H(·,·)表示交叉熵损失，第一部分为最小化重构图像分类器输出的目标图像和扰动图像x′间的损失，第二部分为最小化DIP学习扰动图像过程中产生生成图像的交叉熵损失，第三部分为将重构图像分类器筛选得到的目标图像经过伪造人脸分类器D检测得到的最小化交叉熵，总损失

为所有单个损失的加权和，具体如下：

其中，

表示重构图像分类器输出的目标图像

与扰动图像x′之间的最小化交叉熵损失，

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种高鲁棒性的深度伪造人脸检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种高鲁棒性的深度伪造人脸检测方法，其特征在于，步骤S1获取训练图像集的过程包括：

3.根据权利要求1所述的一种高鲁棒性的深度伪造人脸检测方法，其特征在于，步骤S3使用Deep Image Prior方法获取图像噪声高阻抗性，目的是在初始化的卷积神经网络学习特定生成器网络结构参数前，采用该卷积神经网络在单张扰动图像上反复迭代获取先验信息，进而完成扰动图像的修复；基于此目的构建的目标函数表示为：