CN116978096A

CN116978096A - 一种基于生成对抗网络的人脸对抗攻击方法

Info

Publication number: CN116978096A
Application number: CN202310900537.2A
Authority: CN
Inventors: 凌贺飞; 夏紫薇; 李平; 刘辉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-31

Abstract

本发明公开了一种基于生成对抗网络的人脸对抗攻击方法，属于对抗攻击领域，该方法通过设计归一化注意力生成器和图像重建生成器，以及真假验证鉴别器和身份信息鉴别器，使得对抗样本能达到较高攻击成功率的同时有较好的视觉质量；同时，加入了传统攻击方法作为一个融合攻击模块以进行对抗训练，加强模型中鉴别器D1的鲁棒性，从而促进生成器的稳定收敛，获得具有更自然的视觉质量的对抗样本；采用集成了不同类型的人脸识别模型作为身份鉴别器，并且对生成器生成的对抗样本进行尺寸放缩以及高斯模糊等变换以增强样本多样性，促进模型学习到多种人脸识别模型关注的共性区域，使得对抗样本具有良好的可迁移性，从而提升攻击性能。

Description

一种基于生成对抗网络的人脸对抗攻击方法

技术领域

本发明属于对抗攻击领域，更具体地，涉及一种基于生成对抗网络的人脸对抗攻击方法。

背景技术

随着计算机技术的发展，深度学习模型渐渐应用于人们的生活与社会生产的各个方面，比如人脸识别、自然语言处理与金融风控等领域。目前人脸识别模型用来作为身份验证的工具，还可以用来保护重要的网络资源和隐私数据。然而，对抗攻击的出现使得一些恶意攻击者得以对人脸识别模型进行不当的访问以谋求不正当的利益。目前的深度神经网络，包括一些人脸识别系统，已被证明容易受到数字和物理对抗样本的影响。对抗样本是通过向原始的输入样本添加细微扰动而生成的，对人类视觉系统来说，对抗样本看起来与原始的输入样本并没有太大的差别。所以，难以察觉的对抗样本具备使最先进的人脸识别系统形成错误判断的能力。

针对深度学习模型的对抗攻击有许多分类角度。例如，根据实施对抗攻击的场景进行分类，可以被分为白盒攻击或黑盒攻击，黑盒攻击通常比白盒攻击更具挑战性。根据攻击的应用场景分类，对抗性攻击也可以分为物理攻击或数字攻击。最后，根据攻击是否具有特定目标，对抗性攻击可以被分类为有针对性的攻击或非针对性的攻击。有针对性的攻击期望目标模型将对抗样本错误分类为某指定类别，如果目标模型将其分类为其他类别则攻击失败。非针对性的攻击不明确目标类别，只要目标模型将对抗样本分类错误即为攻击成功。这在人脸对抗攻击领域中通常分别被称为模仿攻击或躲避攻击。躲避攻击旨在使输入的人脸图像被识别为人脸数据库中的任何其他个人，而模仿攻击旨在使输入的人脸图像被识别为数据库中的特定攻击目标。

目前针对人脸识别模型设计的对抗攻击方法已有大量研究成果，研究热点集中在更具现实应用意义的黑盒攻击方向上。当前针对人脸识别任务的对抗样本生成方法存在一些局限，基于梯度的攻击方法难以实现对抗样本攻击强度和视觉感知变化之间的理想平衡。对抗补丁攻击方法生成的对抗扰动图案都比较明显从而容易引人关注，并且也容易被目前的对抗样本检测方法识别，应用场景比较局限。并且鉴于大部分的人脸识别系统对模型的访问次数限制，基于查询的攻击方法难以应用于现实场景。现有基于生成对抗网络的攻击方法也存在一些待改进的空间，如在黑盒场景下的对抗攻击的攻击成功率仍有提升空间，而且基于妆容迁移的对抗样本有较为明显的异常图案等等。

由于攻防两者紧密相关并且相互促进，所以关于人脸识别对抗攻击方法的研究也能使研究者去发掘人脸识别模型的潜在漏洞，从而改进人脸识别模型，使其具有抵抗对抗攻击的能力，这对于人脸识别模型安全性以及鲁棒性的提升有积极意义。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于生成对抗网络的人脸对抗攻击方法，由此解决目前的人脸识别对抗攻击方法存在着可迁移性弱、攻击性能不佳和视觉质量不理想从而导致攻击性能较差的问题。

为实现上述目的，按照本发明的第一方面，提供了一种基于生成对抗网络的人脸对抗攻击方法，包括：

训练阶段：

S1，将目标人脸图像y的潜在编码z与原始人脸图像x共同输入至对抗样本生成器G1合成第一对抗样本G₁(x,z)；将G₁(x,z)输入至图像重建生成器G₂得到重构的原始人脸图像(G₂(G₁(x,z))；将y及x共同输入至攻击者模块生成第二对抗样本Att(x,y)；

S2，将x、G₁(x,z)和Att(x,y)分别输入至真假验证鉴别器D₁，获取D₁对G₁(x,z)和Att(x,y)的真假判定结果之间的差异d₁、对x和G₁(x,z)的真假判定结果之间的差异d₂；将G₁(x,z)与y共同输入至身份信息鉴别器D₂，获取G₁(x,z)的特征向量与y的特征向量之间的余弦距离d₃；

S3，以最小化G₂(G₁(x,z))与x之间的差异及d₁、d₂、d₃为目标，训练G1、G2、D1、D2；

应用阶段：

将待攻击的人脸图像及z共同输入至训练好的G1得到对应的对抗样本g；将g与y共同输入至人脸识别模型，若人脸识别模型计算得到的g的特征向量与y的特征向量之间的余弦距离大于阈值，则攻击失败，否则攻击成功。

按照本发明的第二方面，提供了一种基于生成对抗网络的人脸对抗攻击方法系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如第一方面所述的方法。

按照本发明的第三方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如第一方面所述的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明提供的方法，通过设计归一化注意力生成器和图像重建生成器，以及真假验证鉴别器和身份信息鉴别器，使得对抗样本能达到较高攻击成功率的同时有较好的视觉质量；同时，加入了传统攻击方法作为一个融合攻击模块以进行对抗训练，加强模型中鉴别器D1的鲁棒性，从而促进生成器的稳定收敛，获得具有更自然的视觉质量的对抗样本

2、本发明提供的方法，基于集成学习和数据增强的思想提出迁移性增强模块(即身份鉴别器D2)，该模块集成了不同类型的人脸识别模型，并且对生成器生成的对抗样本进行尺寸放缩以及高斯模糊等变换以增强样本多样性，促进模型学习到多种人脸识别模型关注的共性区域，使得对抗样本具有良好的可迁移性，从而提升攻击性能。

综上，本发明提供的方法，既能用于黑盒人脸对抗攻击任务，也能用于白盒人脸攻击任务，攻击性能好并且具有良好迁移性，能够在保证一定攻击成功率前提下，同时保持良好的视觉质量。

附图说明

图1为本发明实施例提供的基于生成对抗网络的人脸对抗攻击方法流程示意图；

图2为本发明实施例提供的对抗样本生成器的结构示意图；

图3为本发明实施例提供的真假验证鉴别器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供一种基于生成对抗网络的人脸对抗攻击方法，包括：

训练阶段：

S1，将目标人脸图像y的潜在编码z与原始人脸图像x共同输入至对抗样本生成器G1合成第一对抗样本G₁(x,z)；将G₁(x,z)输入至图像重建生成器G₂得到重构的原始人脸图像G₂(G₁(x,z))；将y及x共同输入至攻击者模块生成第二对抗样本Att(x,y)；

S3，以最小化G₂(G₁(x,z))与x之间的差异及d₁、d₂、d₃为目标，对G1、G2、D1、D2进行联合训练；

应用阶段：

优选地，所述训练阶段的总损失函数

其中，L_att＝E_x[D₁(G₁(x))]-E_x,y[D₁(Att(x,y))]，/>F(y)、F(G₁(x,z))分别为y、G₁(x,z)的特征向量。

优选地，所述对抗样本生成器G1包括编码器及解码器，所述编码器包括归一化注意力模块。

优选地，所述真假验证鉴别器D₁为基于卷积层结构的马尔可夫判别器；所述身份信息鉴别器D₂为集成的多个预训练好的人脸识别模型。

优选地，所述攻击者模块基于梯度攻击方法生成第二对抗样本。

具体地，本发明实施例提供的基于生成对抗网络的人脸识别对抗攻击方法(Adversarial Attacked Face GAN，AAF-GAN)，如图1所示，包括：对抗样本预生成阶段以及身份信息和真假双重鉴别阶段；

所述对抗样本预生成阶段包括：

一个预训练好的VAE编码器去探索目标人脸图像的潜在空间，把目标人脸图像映射到低维的潜在空间中，得到对应的潜在编码，潜在编码保留个性化的人脸身份信息，再将输入图像的特征图和目标人脸图像的潜在编码结合，促使对抗样本生成器可生成一个具有特定目标身份的人脸图像；

结合规一化注意力的对抗样本生成器G₁取源图像特征图和目标图像的潜在特征作为输入以合成对抗样本；

图像重建生成器G₂在训练时负责保证生成的对抗样本的内容信息和大部分特征表示与输入图像具有一致性；

一个基于梯度优化的攻击者模块，攻击模块具体选择的攻击方法为一种迭代攻击方法PGD，利用GAN学习攻击模块生成的对抗样本的数据分布，然后对所学分布进行对抗性训练，从而得到一个更鲁棒的鉴别器D1；

所述身份信息和真假双重鉴别阶段包括：

真假验证鉴别器D1使用基于卷积层结构的马尔可夫判别器的结构，负责判定生成器G1生成的图像是否属于真实分布的图像，即是否为真实图像。

身份信息鉴别器D2使用多个预训练好的人脸识别模型进行集成,负责最小化对抗样本与目标人脸图像的特征向量的余弦距离。

可以理解的是，在应用阶段用到的人脸识别模型，可以为身份信息鉴别器D2中的任意一种人脸识别模型(如图1所示)，也可以是其它种类的人脸识别模型，例如VGG-Face、OpenFace等。

优选地，所述结合规一化注意力的对抗样本生成器G₁的结构分为编码器和解码器，编码器接受图像输入后，使用ReflectionPad2d即一种图像增强方式，对称扩展图像边缘以增加图像的分辨率，图2中CIL包含卷积操作、IN正则化、Leaky ReLU激活函数。编码器和解码器之间的是残差块，一共是9个重复的模块，用于将数据进行恢复增强。图2中解码器的CTIR包含反卷积、IN标准化、ReLU激活函数，负责恢复图像的大小，再次使用ReflectionPad2d增加图像分辨率，最终通过卷积操作将图像恢复到原始大小，有效解决了对象边缘信息的问题。

也即，G1的编码器包括归一化注意力模块；归一化注意力模块包括通道注意力子模块及空间注意力子模块。

进一步地，对生成器G1生成的对抗样本进行尺寸放缩以及高斯模糊等变换，以增强样本多样性，促进模型学习到多种人脸识别模型关注的共性区域，使得对抗样本具有良好的可迁移性，从而提升攻击性能。

优选地，为了让生成器关注于人脸图像的重要特征，抑制背景等不重要的特征，本发明将基于归一化的注意力模块(Normalization-basedAttention Module，NAM)添加在对抗样本生成器G₁中，作为人脸关键区域特征增强机制。NAM使模型聚焦于重要的特征信息，抑制背景等等参考价值低的特征，有助于引导生成器生成更高质量的对抗样本。

优选地，真假验证鉴别器被用来区分生成器生成的假图像和真实图像的分布。其使用基于卷积层结构的马尔可夫判别器的结构。马尔可夫判别器是一种判别模型，它与大部分基于卷积神经网络的分类模型不同，大多数模型的最末层是全连接层，负责输出判断。而它完全由卷积层构成，并且最后输出一个n*n的矩阵，通过取输出矩阵的均值来产生输出。这种结构不仅可以使鉴别器关注图像细节从而提高生成图像的质量，而且还可以提高网络训练的稳定性。

优选地，在本发明中，基于梯度攻击方法的对抗样本在鲁棒训练过程中被使用，给生成器提供了更多关于对抗样本数据分布的信息，可以得到一个更加鲁棒的判别器，从而能够更好地泛化到未见过的数据上。鲁棒鉴别器的另一个好处是它有助于稳定和加速整个训练过程。具体的，使用L_att＝E_x[D₁(x)]-E_x,y[D₁(Att(x,y))]计算对抗攻击训练的损失。

优选地，在本发明中，采用加权平均的模型集成策略对多种人脸识别模型进行集成.由于对抗样本对于特定模型架构的过度拟合，常常会在不同人脸识别模型之间表现出较差的可迁移性。鉴于这些模型有着不同的训练数据、损失函数、模型架构以及训练策略，所以在进行人脸识别过程时，关注的区域各有侧重。那么将集成后的模型作为身份信息鉴别器时，能够达到攻击成功的要求的对抗样本就有着更强的可迁移能力，未来可以对未曾参与过训练的其他识别模型也能获得良好的攻击性能。

如图1所示，AAF-GAN由对抗样本生成器G₁和图像重建生成器G₂、真假验证鉴别器D₁和身份信息鉴别器D₂以及一个攻击者模块和一个预训练好的VAE的编码器组成。训练过程中，生成器G1生成假图像并将其提供给真假验证鉴别器D₁和身份信息鉴别器D₂；同时，从训练数据采样的原始图像及其由攻击者模块生成的对抗样本被提供给真假验证鉴别器D₁。身份信息鉴别器D₂由多个预训练的人脸识别模型集成得到。给定目标人脸图像，使用编码器学习目标人脸图像的潜在特征，生成器G₁取源图像特征图和目标图像的潜在特征作为输入以合成对抗样本，生成器G₂负责保证生成的对抗样本的内容信息和大部分特征表示与输入图像(源图像)具有一致性。真假验证鉴别器D₁负责判定生成器G₁合成图像是否属于真实分布的图像。为了使生成的图像与真实图像无法区分，AAF-GAN采用了对抗损失对生成器和鉴别器进行训练。

在图1所示的方法中包括两个阶段，即对抗样本预生成阶段以及身份信息和真假双重鉴别阶段，下面对这两个阶段进行具体说明。

(A)对抗样本预生成阶段包括：

为得到可被识别为目标人脸身份的对抗样本，以避免随机抽样的潜在编码z，本发明利用一个编码器把目标人脸图像映射成低维的潜在编码z，潜在编码保留个性化的目标人脸身份信息，将z注入原始人脸图像特征图中，促使对抗样本生成器可生成一个具有特定目标身份的人脸图像。编码器在训练过程中的损失函数如式所示。

为了获得一个接近先验分布且能够描述输入人脸图像的某些特征的潜在编码，编码器提取的潜在编码的分布需要拟合随机高斯分布。在式(1)中，采用KL散度来衡量两个概率分布之间的相似性并用来计算损失，其中y指目标人脸图像，其中是随机高斯分布，E(y)是需要用/>匹配的真实分布。

初始训练阶段，生成器G₁暂时没有得到较好的训练，生成图像样本的质量不佳，会被判别器D1以高置信度的概率拒绝，这样会造成训练期间无法提供足够的梯度来更新生成器。因此选用最大化E_x,z[D₁(G₁(x,z))]替代最小化E_x,z(1-D₁(G₁(x,z)))以更新G₁的参数。对抗损失定义如所示，其中，E(·)指求期望值。

在对抗样本生成器G₁中的注意力机制下，通道注意力子模块的M_c＝sigmoid(W_γ(BN(F₁)))表示输出特征。γ是每个通道的比例因子，权值为对应的空间注意力子模块输出特征记为M_s＝sigmoid(W_λ(BN_s(F₂)))，λ为比例因子，权值为/>通过整合NAM强化了模型关注人脸面容重点区域的能力，提升了生成器生成的对抗样本图像质量。目标人脸图像的潜在编码与输入人脸图像是在通道维度上结合后参与生成器后续训练过程，NAM中通道注意力子模块能够更好的记忆潜在编码信息，防止生成器与鉴别去进行对抗训练的过程中丢失潜在编码信息。得益于NAM中空间注意力子模块，生成器关注人脸五官的重要特征与空间相对位置的依赖性，加强了生成图像的质量。

生成器G₂将生成器G₁生成的图像作为输入来重构原始输入图像x，此处损失采用L₁范数计算。通过对这两个映射进行反向传播，可以计算出两个映射之间的循环一致性损失。使用重建损失可以确保生成的对抗样本在图像内容表示方面与原始输入图像更加接近。x是原始图像，G₁(x,z)是生成器G1生成的样本图像，G₂(G₁(x,z))是将G₁(x,z)输入至G2后得到的图像

基于梯度攻击方法的对抗样本在鲁棒训练过程中被使用，给生成器提供了更多关于对抗样本数据分布的信息，因此可以得到一个更加鲁棒的判别器，从而能够更好地泛化到未见过的数据上。同时，鲁棒鉴别器的另一个好处是它有助于稳定和加速整个训练过程。使用L_att＝E_x[D₁(x)]-E_x,y[D₁(Att(x,y))]计算对抗攻击训练的损失。其中Att(x,y)表示由PGD攻击算法得到的有目标的对抗样本，D₁是真假验证鉴别器。

(B)身份信息和真假双重鉴别阶段包括：

身份信息鉴别器使用多个预训练好的人脸识别模型进行集成，如IRSE50、IR152、Facenet以及Mobileface，本发明采用加权平均的模型集成方式。如图1右侧迁移性增强模块所示，然后将多个模型的计算结果进行加权平均以获得集成模型的最终输出结果。所以，应用模型集成策略后，余弦损失如式所示。其中k指替代模型的数量，F_k指集成的替代模型，在此余弦距离被选作人脸图像特征向量的距离度量方式，对k个不同模型计算出的余弦距离加权平均。本发明采用最小化向量之间余弦距离的方法，并通过对抗训练来使得对抗样本的特征向量和目标图片的特征向量距离最小化。

真假验证鉴别器是用来判断生成样本是真实的还是生成的，它的损失采用计算。其中，/>为对抗样本生成器G1的对抗损失。如图3所示，c指输出通道数量，s指步长，每个卷积核的大小均为4×4。鉴别器D1最后输出是特征图，其中每个值等同于被鉴别图像的对应区域的分数，最后对这些分数求得平均值作为被鉴别图像的真假分类分数。

本发明实施例提供一种基于生成对抗网络的人脸对抗攻击方法系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如上述任一实施例所述的方法。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如上述任一实施例所述的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的人脸对抗攻击方法，其特征在于，包括：

训练阶段：

应用阶段：

2.如权利要求1所述的方法，其特征在于，所述训练阶段的总损失函数

3.如权利要求1所述的方法，其特征在于，所述对抗样本生成器G1包括编码器及解码器，所述编码器包括归一化注意力模块。

4.如权利要求1或2所述的方法，其特征在于，所述真假验证鉴别器D₁为基于卷积层结构的马尔可夫判别器；所述身份信息鉴别器D₂为集成的多个预训练好的人脸识别模型。

5.如权利要求1所述的方法，其特征在于，所述攻击者模块基于梯度攻击方法生成第二对抗样本。

6.一种基于生成对抗网络的人脸对抗攻击方法系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如权利要求1-6任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如权利要求1-6任一项所述的方法。