CN112883874B - 针对深度人脸篡改的主动防御方法 - Google Patents

针对深度人脸篡改的主动防御方法 Download PDF

Info

Publication number
CN112883874B
CN112883874B CN202110198508.7A CN202110198508A CN112883874B CN 112883874 B CN112883874 B CN 112883874B CN 202110198508 A CN202110198508 A CN 202110198508A CN 112883874 B CN112883874 B CN 112883874B
Authority
CN
China
Prior art keywords
face
face data
model
data
tampering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110198508.7A
Other languages
English (en)
Other versions
CN112883874A (zh
Inventor
周文柏
张卫明
俞能海
黄启栋
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110198508.7A priority Critical patent/CN112883874B/zh
Publication of CN112883874A publication Critical patent/CN112883874A/zh
Application granted granted Critical
Publication of CN112883874B publication Critical patent/CN112883874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种针对深度人脸篡改的主动防御方法,包括:训练扰动生成网络,将扰动生成网络生成的扰动叠加至原始人脸数据x,得到被感染的人脸数据x’;训练目标为:被感染的人脸数据x’与原始人脸数据x在视觉上的一致性;以及,最大化被感染的人脸数据x’生成的伪造人脸数据y’与直接通过原始人脸数据x生成的伪造人脸数据y的差异;训练完毕后,将生成的扰动叠加至待发布的人脸数据,得到被感染的人脸数据,从而实现针对深度人脸篡改的主动防御。该方法能够生成具有主动防御效果的被感染的人脸数据,不管伪造者将这些数据作为输入抑或是训练数据,人脸篡改模型的性能和表现都将会大打折扣,因此,能够抵抗伪造者在不同环境下的人脸伪造篡改。

Description

针对深度人脸篡改的主动防御方法
技术领域
本发明涉及人脸伪造的主动防御技术领域,尤其涉及一种针对深度人脸篡改的主动防御方法。
背景技术
近年来随着生成模型在深度学习领域大放异彩,深度人脸伪造(face forgery)逐渐成为人工智能界的一大热门研究方向,同时许多相关的研究如雨后春笋般出现。许多先进的人脸篡改模型也因此能够自由地操控和改变目标人脸特定的面部特征和属性,例如发型、年龄或者表情等等,经典的方法有StarGAN、GANimation、Face2Face等。然而,这些篡改后的人脸越来越逼真,因此这方面的技术很容易被恶意地利用,以致于使用户的个人隐私受到侵犯,甚至可能在政治层面对公众产生误导。具体来说,借助各项先进的深度人脸伪造技术,不法分子很有可能在未经他人允许的情况下对其肖像照片进行恶意篡改。抑或是操控一些政治性视频中领导人物的表情神态(例如唇型),从而利用生成的虚假视频来误导公众舆论。
为了缓解这种恶意利用深度人脸伪造及篡改技术所带来的风险,研究者们提出了许多优秀的应对策略,但其中绝大多数都是基于事后检测的伪造取证方法,例如MesoNet、XceptionNet以及Face X-ray。尽管这些方法在辨别伪造的人脸图像或视频时具有较高的准确率,但由于伪造检测这一应对思路过于被动,以致于难以消除人脸恶意篡改和伪造已然造成的影响和危害。也就是说,在使用检测手段之前,很有可能这些伪造人脸数据的生成和广泛传播已经不可否认地成为了既成事实。
因此,寻找一个新的对策来主动地预防和遏制这些伪造人脸带来的威胁,成为了一个重要但仍处于研究中的问题。直到最近,Ruiz等人就提出了基于梯度(gradient-based)来击溃人脸篡改模型的方法,但其框架中的白盒假设(white-box setting)在实际中是欠缺面对不同结构模型的适用性的,因为这个方法需要得到目标模型(target model)的内部信息。此外,这一方法并未考虑其他类型的人脸篡改任务,例如实时人脸再现(FaceReenactment)。
发明内容
本发明的目的是提供一种针对深度人脸篡改的主动防御方法,能够对于原始的人脸数据加以人眼不可见的、不影响其视觉效果的防护。
本发明的目的是通过以下技术方案实现的:
一种针对深度人脸篡改的主动防御方法,包括:
训练一个扰动生成网络,将扰动生成网络生成的扰动叠加至原始人脸数据x,得到被感染的人脸数据x’;训练目标为:被感染的人脸数据x’与原始人脸数据x在视觉上的一致性;以及,最大化被感染的人脸数据x’生成的伪造人脸数据y’与直接通过原始人脸数据x生成的伪造人脸数据y的差异;
训练完毕后,将训练后的扰动生成网络生成的扰动叠加至待发布的人脸数据,得到被感染的人脸数据,从而实现针对深度人脸篡改的主动防御。
由上述本发明提供的技术方案可以看出,能够生成具有主动防御效果的被感染的人脸数据,并且扰动的存在,不管伪造者将这些数据作为输入抑或是训练数据,人脸篡改模型的性能和表现都将会大打折扣,因此,能够抵抗伪造者在不同环境下的人脸伪造篡改,包括在黑盒对抗场景下仍具有一定有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种针对深度人脸篡改的主动防御方法的框架图;
图2为本发明实施例提供的针对人脸重现任务的主动防御训练框架;
图3为本发明实施例提供的针对属性编辑任务的防御可视化结果;
图4为本发明实施例提供的与Ruiz等人的基线方法的数值对比结果;
图5为本发明实施例提供的与Ruiz等人的基线方法的可视化对比结果;
图6为本发明实施例提供的针对人脸重现任务的主动防御可视化结果;
图7为本发明实施例提供的关于交替训练和防御增强措施的消融实验结果;
图8为本发明实施例提供的针对特殊场景的主动防御结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
得益于生成对抗网络(GAN)的发展,面部篡改与操纵最近在学术界和工业界均取得了重大进展。它不仅推动了相关媒体娱乐的发展,而且还对个人隐私甚至政治安全造成了严重威胁。为了减轻这种风险,业界已经提出了许多对策。但是,绝大多数方法是以被动的思路设计的,即检测面部图像或视频在广泛传播之后是否被篡改。这些基于检测的方法具有致命的局限性,即它们仅适用于事后取证,而不能阻止恶意行为的产生。
为了克服传统方案中针对人脸篡改伪造检测的被动性这一缺点,本发明实施例提供一种针对深度人脸篡改的主动防御方法,以降低恶意用户控制的面部篡改模型的性能,该方法适用于不同的深度人脸篡改任务和对抗环境。本发明实施例提供的主动防御方法旨在对于原始人脸数据加以人眼不可见的、不影响其视觉效果的防护,例如当用户在社交平台分享自己的自拍或者短视频时进行主动性保护,使得伪造者即使拿到这些数据进行深度人脸篡改,也难以得到良好的换脸结果,亦即伪造出来的结果视觉质量极差。因此,为了更高效地对人脸数据进行防御处理,训练一个扰动生成网络(perturbation generator,PG)来产生人眼难以察觉的扰动,将扰动生成网络生成的扰动叠加至原始人脸数据x,得到被感染的人脸数据x’(infected data);训练目标为:被感染的人脸数据x’与原始人脸数据x在视觉上的一致性;以及,最大化被感染的人脸数据x’生成的伪造人脸数据y’与直接通过原始人脸数据x生成的伪造人脸数据y的差异;训练完毕后,将训练后的扰动生成网络生成的扰动叠加至待发布的人脸数据,得到被感染的人脸数据,从而实现针对深度人脸篡改的主动防御。基于上述方案的操作后,即便人脸数据公布出去。伪造者只能接触到这些被感染人脸数据x’,并且这些扰动的存在,不管伪造者将这些数据作为输入抑或是训练数据,人脸篡改模型的性能和表现都将会大打折扣。也就是说,这些被感染的人脸数据需要尽可能地去满足这两条终极目标:(1)与相对应的干净人脸数据在视觉上是一致的(visual-consistency)(2)能够显著地破坏目标人脸篡改模型的性能与表现(performancedegradation)。
本发明实施例中,设计了一种分为两个训练阶段的主动防御框架,适用于不同的深度人脸篡改任务和不同的对抗环境。同时需要指出的是,背景技术中Ruiz等人提出的方法作为基线方法可以看作主动防御框架下的一个特例。这里以如何防御人脸属性编辑(face attribute editing)为例简要地对主动防御框架加以介绍。如图1所示,在阶段A中,会训练一个替代模型(surrogate model,SM)来模仿目标篡改模型的行为,目标则是在阶段B中相对应地得到扰动生成器PG。在实践中,想要用一个预先训练完备的SM放在阶段A中去训练PG效果并不理想,这主要是因为在训练开始阶段,对于这个固定的SM来说,PG所生成的“被感染的人脸数据”很容易就能在上述的目标(2)中做得较好,从而使整个训练过程陷入由于深度神经网络的非凸性导致的某个局部最优解(local optimum)。为此,提出使用一种交替训练(alternating training)的策略去一步一步渐进式地训练SM和PG。不同于当下非常流行的对抗训练,在主动防御框架中,只有扰动生成器PG的更新会被替代模型SM的表现所影响,而SM则不受PG影响单独地进行它常规的训练更新。针对差异较大的不同人脸篡改任务,进一步采用了一些针对特定任务的训练技巧来增强我们的主动防御效果。此外,针对两个典型的深度人脸篡改任务进行了实验:人脸属性编辑与面部重现。各项实验都表明主动防御框架的有效性以及在不同黑盒对抗环境(black-box setting)下的鲁棒性。并且在一些消融实验中也证实了这一框架设计的合理性。
为了便于理解本发明,下面从目标问题的归纳、框架原理、以及实验结果三个方面进行介绍。
一、目标问题的归纳。
首先,将所要解决的问题进行归纳。对于不同的人脸篡改任务,大致的将其分为两类:基于模型的(model-based)和基于数据的(data-based)。相对应的任务比如面部属性编辑和人脸面部重现。给定原始人脸数据x(图像或视频),第一种篡改任务使用一个训练好的篡改模型
Figure BDA0002947105270000041
来将x伪造成y;而第二种则需要利用给定的人脸数据x来新训练一个篡改模型
Figure BDA0002947105270000042
再通过将一些伪造者想要的指导信息z(例如人脸特征坐标)作为模型的输入来生成伪造人脸y。因此人脸篡改任务可归结为
Figure BDA0002947105270000043
在伪造者接触到人脸数据x之前,对数据进行加性扰动来获得被感染的数据x′,亦即
x′=x+∈·δx,||δx||≤τ. (2)
这里δx指代叠加在x的扰动,∈则为这个扰动的可调节强度,而τ则为扰动限制的阈值。本发明的目标之一是保证x和x′在视觉上的一致性。在将x′公开后,当伪造者利用x′生成出伪造数据y′时,另一个目标就是破坏伪造的生成。定义
Figure BDA0002947105270000051
为某个距离衡量函数,希望最大化原始的伪造人脸数据y和被感染后的伪造人脸数据y′之间的距离,即
Figure BDA0002947105270000052
二、框架原理。
对于Ruiz等人提出的基线方法,其中能够完全得到目标篡改模型的信息这一假设在实际中往往是不适用的。为此,本发明实施例中选取替代模型SM(可以通过常规的神经网络模型实现)来替代目标人脸篡改模型M,由模型类型的明确性和训练过程的具体流程来看这是可行的。此外,还设计一个扰动生成网络PG来生成扰动δx=PG(x),相比于Ruiz等人对单个数据单独求解的依赖于梯度的算法,这个操作能大大降低使用时的计算复杂度。通过替代模型来配合扰动生成网络的训练,直觉上看来,尝试固定一个预训练好的SM去指导PG的训练,但其效果并不理想,因为在训练初期式(3)所描述的目标值就已经足够大,容易使之陷入局部最优解。所以,因此,提出交替训练的策略来轮流从头开始更新SM和PG。
每一次迭代中包含阶段A与阶段B两个阶段,阶段A中,采用原始人脸数据x来训练替代模型,基于式(1)生成干净环境下的伪造人脸数据y;阶段B中,针对扰动生成网络进行训练,利用上一次迭代得到的扰动生成网络生成扰动,从而得到被感染的人脸数据x’,进而通过本次迭代的替代模型基于式(1)来生成伪造人脸数据y’;
阶段A与阶段B中还各自设有一个判别模型,阶段A的判别模型DA的输入为原始人脸数据x、伪造人脸数据y′与y;阶段B的判别模型DB的输入为原始人脸数据x与被感染的人脸数据x′。判别模型DA在数据x和y上进行训练,在推断时能够较好地判断输入的数据的真伪以及所伪造的属性域(如果是伪造的);判别模型DB在数据x和x′上进行训练,在推断时能够较好地判断输入人脸是否被感染,在生成对抗架构中进一步保证扰动生成网络所生成的扰动的不可见性。
扰动生成网络的训练目标包括如下两类损失:对抗损失,使产生的扰动对人眼不可见,以此保证被感染的人脸数据x’与原始人脸数据x的视觉一致性;人脸篡改任务的影响损失,用来反馈阶段A到阶段B的影响,使伪造人脸数据y’与y的差异最大化。
主要的训练过程大致如下:
1)从干净数据集D中取一小批次的原始人脸数据x。
2)利用x对SM进行一步常规的更新训练(通过现有方式实现)。
3)根据式(1)得到干净的伪造结果y。
4)根据式(2)利用当前的PG得到x’。
5)根据式(1)得到x’对应的伪造结果y’。
6)构建针对特定篡改任务的影响损失
Figure BDA0002947105270000061
并最大化y和y’的差异。
7)由常规的训练损失
Figure BDA0002947105270000062
和影响损失
Figure BDA0002947105270000063
来更新训练PG。
8)若达到式(3)所描述的当前最优目标值,记录该值与本轮所得PG。
9)回到步骤2),直到达到预设的最大迭代次数。
如之前所述,本发明实施例中人脸篡改任务主要包括:基于模型与基于数据的人脸篡改任务;给定原始人脸数据x,基于模型的人脸篡改任务是将原始人脸数据x输入至替代模型,生成伪造人脸数据y;基于数据的人脸篡改任务是利用给定原始人脸数据x来新训练一个替代模型,再结合伪造者输入的指导信息,来生成伪造人脸数据y。下面针对不同的人脸篡改任务对训练中的损失做详细的介绍。
1、防御基于模型的人脸篡改方法
如图1所示,以面部属性编辑为例来详细阐述在二阶段训练框架中所采用的模型结构和损失函数设计。分别以形似Auto-Encoder并带有6个残差块结构的网络“Res6”和“UNet-128”作为替代模型SM和扰动生成网络PG的默认骨架网络,并在两个阶段分别引入了由7个卷积模块和1个全连接模块组成的判别网络DA和DB。对于SM,应用StarGAN的训练思路在阶段A对其进行常规地迭代更新,对应于常规损失
Figure BDA0002947105270000064
扰动生成网络训练时的损失表示为:
Figure BDA0002947105270000065
其中,
Figure BDA0002947105270000066
为对抗损失,
Figure BDA0002947105270000067
为人脸篡改任务的影响损失,λ是用以平衡两项损失的可调超参数。
对抗损失
Figure BDA0002947105270000068
表示为:
Figure BDA0002947105270000069
其中,
Figure BDA00029471052700000610
Figure BDA00029471052700000611
代表目标函数在x和x’上的统计均值,DB(.)表示判别模型DB对于输入数据产生的输出,
Figure BDA00029471052700000612
代表判别模型DB的输出对与输入
Figure BDA00029471052700000613
所求的梯度,
Figure BDA00029471052700000614
是指沿一对人脸数据x与被感染的人脸数据x′之间的直线均匀采样。最后一项采用Wasserstein距离作为惩罚项,借鉴于WGAN-GP的思想来稳定训练效果,λ1则为可调节的权重超参数。
人脸篡改任务的影响损失
Figure BDA0002947105270000071
的目标则是最大化原始生成效果y和被感染后的生成效果y′之间的距离,由三项损失函数加权组成,表示为:
Figure BDA0002947105270000072
其中,λ2、λ3与λ4均为可调节的权重超参数;前两项旨在降低y′相较于y的在不同目标域上的视觉质量,最后一项则希望混淆判别网络DA从而将y′分类为假样本和与原始y所处的域最远的特征域。具体来说:
基本损失
Figure BDA0002947105270000073
用于最大化伪造人脸数据y′和y之间在像素级上的差异,表示为:
Figure BDA0002947105270000074
其中,
Figure BDA0002947105270000075
代表目标函数在变量x,x′,c上的统计均值,SM(x,cj)和SM(x′,cj)代表替代模型在特征属性域cj上分别输入x,x′所能得到的伪造人脸,cj表示一系列由原始人脸数据x的原始属性特征域c计算出的与其不同的目标属性特征域,||·||1为L1范数距离;μj为权重,用来平衡不同目标特征域转换时在像素级上对伪造人脸数据y′期望损毁规模的影响程度差异,表示为:
Figure BDA0002947105270000076
循环一致性损失在许多无监督学习的任务中非常常用,因此使用负方向循环损失
Figure BDA0002947105270000077
来扰乱这种一致性,可以描述为:
Figure BDA0002947105270000078
其中,
Figure BDA0002947105270000079
代表目标函数在x′,c上的统计均值,SM(SM(x′,cj),c)代表x′属性特征域先往cj上伪造,再伪造回到原始属性特征域c的伪造结果。
为了最大化y′与y之间在高维层面的差异,对每个目标特征域cj计算相反的域crj作为距离目标域最远的域,同时最小化在DA看来y′被分类为真样本的置信度,最大化被分类到crj的置信度。因此,定义特征域损失
Figure BDA00029471052700000710
为:
Figure BDA00029471052700000711
其中,
Figure BDA00029471052700000712
代表目标函数在cj上的统计均值,DA(crj|SM(x′,cj))代表在输入被感染的伪造人脸数据y′时判别模型DA分类其伪造属性域为crj的条件概率;而DA(SM(x′,cj))代表判别模型DA将y′分类为真实人脸样本的置信度。因此该损失希望被感染后的伪造人脸在高位层面上更虚假,即容易被辨认出。
2、防御基于数据的人脸篡改方法
人脸面部重现是基于数据的人脸伪造中最具代表性的类型之一,这里以防御Face2Face为例进行展开。类似地,一个代替模型SM会被安排在阶段A进行常规的更新,这也可以视为一个图像翻译网络。在阶段B中,扰动生成网络训练时的损失表示为:
Figure BDA0002947105270000081
与前面一致的是仍然使用对抗损失
Figure BDA0002947105270000082
作为
Figure BDA0002947105270000083
不同的是,人脸篡改任务的影响损失
Figure BDA0002947105270000084
为:相较于替代模型,最弱化由被感染人脸数据训练得来的被感染模型M’,表示为:
Figure BDA0002947105270000085
其中,
Figure BDA0002947105270000086
表示目标函数在x,z上的统计均值,SMx(z)代表由干净数据x训练一步(即,在深度学习中模型参数训练时的一次迭代更新)得到的替代模型所伪造的人脸数据,M′x′(z)代表由被感染的人脸数据x′训练一步得到的被感染模型M’所伪造的人脸数据。直接地采用||(SMx(z)-x)||1来表征图像翻译模型SMx的重建能力。直觉上看来,这相当于用来进一步降低M′x′的性能表现的一个惩罚项。
本领域技术人员可以理解,文中符号
Figure BDA00029471052700000811
的介绍中所涉及的目标函数是指符号“[]”内的表达式,即符号
Figure BDA0002947105270000087
表示数学中对相应表达式的期望运算。例如,对于
Figure BDA0002947105270000088
而言,目标函数为DB(x)。
本发明实施例中,被感染模型M’与替代模型的训练数据不同。在前面针对模型的人脸篡改任务中,因为目标模型不需要利用人脸数据进行训练,因此只需要考虑是用干净数据(即人脸数据x)训练的“替代模型”,既可以作为干净伪造结果形成对照,又可以作为模拟的“目标模型”;而在基于数据的人脸篡改中,目标模型需要利用用户公开的人脸数据进行模型训练,因此不仅需要干净数据训练的“替代模型”来作为一个干净的对照,以便实时衡量优化过程中的效果,还需要使用被感染数据训练的“被感染模型M’”来作为“目标模型”。
另外,如图2所示,引入了一个临时暂存模型(temporary model,TM)来维持从影响损失
Figure BDA0002947105270000089
到扰动生成网络的梯度反向传播,即将临时暂存模型存储的参数赋予给被感染模型M’来进行影响损失
Figure BDA00029471052700000810
的计算。为了简化框架,假定加在数据上的扰动并不影响人脸坐标的提取,在这个问题中这也许是个更严格的假设。
3、对特定类型任务的防御增强措施
为了进一步提高主动防御的效果,也在针对特定类型的训练中利用了一些技巧。
1)对于基于模型的人脸篡改任务(例如,域面部篡改任务),为了保证更新后的PG不仅对当前迭代的SM有效,且仍然对之前的SM有效,将由当前的扰动生成网络和上一次迭代的替代模型计算得到的一个额外的影响损失
Figure BDA0002947105270000091
整合到扰动生成网络损失函数的计算中,即:
Figure BDA0002947105270000092
这样能够吸取来源于阶段A的更广的知识面并稳定训练。其中,
Figure BDA0002947105270000093
与(6)式一致,区别在于替代模型使用的是上一次迭代中的替代模型。
2)对于基于数据的人脸篡改任务(例如,Face2Face这类任务),采用一种注意力引导的方法,添加关于原始人脸数据x的掩膜m(x)到式(11)影响损失
Figure BDA0002947105270000094
的计算当中,表示为:
Figure BDA0002947105270000095
这一掩膜可以由BiSeNet引导的面部区域分割方法得到;示例性的,其面部区域设为1.0,其余区域为0.01,旨在促使整个优化过程更关注于损毁被感染模型生成的伪造人脸数据的面部区域。
三、实验结果。
为了证明本发明方法的有效性和鲁棒性,首先展示了新引入的主动防御框架可以在保证预处理人脸数据的视觉质量的同时极大地破坏恶意操纵模型。然后,验证了所提出的方法在不同对抗环境下的鲁棒性。最后,提供了一些消融研究以证明所利用的训练策略的动机,并证明了扩展到组合操纵方案的可行性。
1、人脸主动防御框架的有效性。
对于人脸属性编辑任务,本发明方法可以极大地破坏恶意操纵模型,同时保证感染数据的视觉质量。另外,考虑了对不同扰动强度∈的控制实验。图3中显示了一些视觉示例,可以观察到随着∈的增加,人脸伪造上的损坏比例会变大,这意味着防御效果会更好。即使将阈值∈设置为0.01,形成非常小的扰动,伪造者也无法将感染面部操纵到他/她所需的域。此外,将本发明的方法与最近Ruiz等人提出的基于梯度的方法进行了比较,该方法以白盒方式分别优化了每个人脸图像。如图4和图5所示,图4在不同扰动强度下进行了对比:(a)部分表示被感染伪造人脸与干净伪造人脸之间的L2范数距离(即三角形“▲”节点所示的两条曲线,其中上方的曲线对应于Ours,下方的曲线对应于Ruiz et al),以及扰动后数据的PSNR(即符号“X”节点所示的两条曲线,其中上方的曲线对应于Ruiz et al,下方的曲线对应于Ours);(b)部分表示被感染伪造人脸与干净伪造人脸之间LPIPS距离和感知损失Perceptual距离,其中,LPIPS距离为三角形“▲”节点所示的两条曲线,Perceptual距离为符号“X”节点所示的两条曲线,上方的LPIPS距离与Perceptual距离曲线对应于Ours,下方的LPIPS距离与Perceptual距离曲线对应于Ruiz et al;(c)部分则是防御成功率DSR的对比,上方的曲线对应于Ours,下方的曲线对应于Ruiz et al。图5后两列为Ruiz等人提出的基于梯度的方法以及本发明的方法得到的感染人脸对应的伪造人脸。可见本发明方法可以在保持非常可比的视觉质量的同时,实现更出色的防御性能。
对于人脸重现任务,将针对Face2Face的防御实验作为基础实验,通过训练干净的视频和被感染的视频数据来获得目标操纵模型M和被感染模型M',然后在相同的人脸指导信息输入上对其进行评估。如图6所示,四列图像分别为干净人脸、被感染的人脸、干净伪造人脸、被感染后的伪造人脸。从图6可以看出,数据被感染后,视觉质量和纹理特征的输出均被严重破坏,因此伪造者无法成功操纵受特定PG保护的受感染视频。需要指出的是,Ruiz等人的基线方法并不适用于这些基于数据的人脸篡改任务,据我们所知,我们所提出的方法是对于这种对抗性场景下的首次尝试。
2、在不同对抗环境下的鲁棒性。
在本实验中,除灰盒设置外,还考虑了更多不同的对抗设置。具体来说,此处使用四种类型的网络体系结构来训练目标操纵模型(即需要抵御的目标模型):普通卷积网络(“CNet”),两个类自动编码器结构的网络,分别具有9和16个残差块(“Res6”,“Res9”),以及UNet-128网络(“UNet128”)。对于面部属性编辑任务,还利用两种类型的属性域来训练SM,即与训练目标模型M相同的域“SD”(即有无戴眼镜)或不同的域“DD”(即有无金发))。除了上述灰盒设置外,将所有其他设置都称为黑盒设置。
表1与表2分别展示了不同对抗环境下针对属性编辑任务的防御数值结果、不同对抗环境下针对人脸重现任务的防御数值结果,其中*表示SM所用结构。
Figure BDA0002947105270000111
表1 不同对抗环境下针对属性编辑任务的防御数值结果
Figure BDA0002947105270000112
表2不同对抗环境下针对人脸重现任务的防御数值结果
从表1和表2中可以看出,在不同的对抗条件下主动防御在这两项任务的性能都表现得十分优越。对于面部属性编辑任务,Ruiz等人的基线方法的防御成功率(DSR)在大多数黑盒设置中会严重降低,甚至在灰盒设置中,DSR也仅为35%。另一方面,本发明的方法在所有情况下的DSR都超过93%,即使在有一些属性域在PG的训练阶段是从未见过的,图3中也展示了一些直观示例。对于面部重现任务,仍然可以在上述所有对抗设置中实现鲁棒性,如表2所示。值得注意的是,UNet通过多尺度跳跃连接(skip-connections)在人脸重现任务方面表现特别出色。相比之下,在面部重现任务中采用的其他网络结构(例如“CNet”,“Res6”和“Res9”),他们本身的伪造效果就不佳。因此在实验中,还将那些本质上较差的操纵结果亦视为成功的防御。因此,即使没有交替训练策略,在这些环境中的防御成功率(DSR)均为100%。
3、消融实验。
为了研究交替训练策略(alternating training strategy,ATS)的重要性,对其进行了消融实验。交替训练策略(ATS)的目标是避免陷入不希望的局部最优状态。根据表1和表2所示的定量结果,交替训练策略可以大大提高防守效率。视觉上实验结果如图7所示。
为了研究特定于任务的防御增强(TDE)的重要性,对其进行了消融实验。如图7所示,四列图像依次为干净伪造人脸、被感染后的伪造人脸、没有ATS、没有TDE,训练过程和基于注意力的掩膜指导中获得的影响信息越多,对于执行相应的任务以增强防御能力是有利的。如果没有这些信息,则在两种防御情况下,伪造图像上出现的失真可能会小得多。
4、针对特殊场景的有效性。
考虑到伪造者可能会从被主动防御防护的视频(针对基于数据的篡改任务)中提取一帧或多帧进行属性编辑(基于模型的篡改),因此利用前者场景中训练得到的PG来预先处理每一帧视频,然后继续使用后者场景中的PG(针对基于数据的篡改任务,泛化能力强)处理这些已经感染的面孔。依靠这样的扰动叠加,也可以成功抵御这种特殊场景,虽然以这种组合方式牺牲一些视觉质量,其结果如图8所示,图8中四列图像依次为干净人脸、被感染人脸、干净伪造人脸、被感染后的伪造人脸。
本发明的主要贡献有以下三点:
1)引入了对抗深度人脸篡改的主动防御这一概念,这是一个崭新的角度来研究针对人脸伪造篡改的对策。并希望本发明工作能够激发更多的研究者在这个方向上做出贡献。
2)提出了一种分为两个阶段的训练框架,对于不同类型的人脸篡改任务都能适用。此外,利用交替训练策略来达成设计的目标,以及一些特定任务的策略来提升防御性能。
3)大量实验表明,该框架能够抵抗伪造者在不同环境下的人脸伪造篡改,包括在黑盒对抗场景下仍具有一定有效性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种针对深度人脸篡改的主动防御方法,其特征在于,包括:
训练一个扰动生成网络,将扰动生成网络生成的扰动叠加至原始人脸数据x,得到被感染的人脸数据x’;训练目标为:被感染的人脸数据x’与原始人脸数据x在视觉上的一致性;以及,最大化被感染的人脸数据x’生成的伪造人脸数据y’与直接通过原始人脸数据x生成的伪造人脸数据y的差异;
训练完毕后,将训练后的扰动生成网络生成的扰动叠加至待发布的人脸数据,得到被感染的人脸数据,从而实现针对深度人脸篡改的主动防御;
设置一个替代模型来配合扰动生成网络的训练;每一次迭代中包含阶段A与阶段B两个阶段,阶段A中,采用原始人脸数据x来训练替代模型,生成伪造人脸数据y;阶段B中,针对扰动生成网络进行训练,利用上一次迭代得到的扰动生成网络生成扰动,从而得到被感染的人脸数据x’,进而通过本次迭代的替代模型来生成伪造人脸数据y’;阶段A与阶段B中还各自设有一个判别模型,阶段A的判别模型DA的输入为原始人脸数据x、伪造人脸数据y’与y;阶段B的判别模型DB的输入为原始人脸数据x与被感染的人脸数据x’;扰动生成网络的训练目标包括如下两类损失:对抗损失,保证被感染的人脸数据x’与原始人脸数据x的视觉一致性;人脸篡改任务的影响损失,用来反馈阶段A到阶段B的影响,使伪造人脸数据y’与y的差异最大化;
所述人脸篡改任务包括:基于模型与基于数据的人脸篡改任务;给定原始人脸数据x,基于模型的人脸篡改任务是将原始人脸数据x输入至替代模型,生成伪造人脸数据y;基于数据的人脸篡改任务是利用给定原始人脸数据x来新训练一个替代模型,再结合伪造者输入的指导信息,来生成伪造人脸数据y;
对于基于模型的人脸篡改任务,扰动生成网络训练时的损失表示为:
Figure FDA0003697847620000011
其中,
Figure FDA0003697847620000012
为对抗损失,
Figure FDA0003697847620000013
为人脸篡改任务的影响损失,λ是用以平衡两项损失的可调超参数;
对抗损失
Figure FDA0003697847620000014
表示为:
Figure FDA0003697847620000015
其中,
Figure FDA0003697847620000016
Figure FDA0003697847620000017
代表目标函数在x和x’上的统计均值,DB(.)表示判别模型DB对于输入数据产生的输出,
Figure FDA0003697847620000018
代表判别模型DB的输出对与输入
Figure FDA0003697847620000019
所求的梯度,沿一对人脸数据x与被感染的人脸数据x′之间的直线均匀采样获得输入
Figure FDA0003697847620000021
λ1为可调节的权重超参数;
人脸篡改任务的影响损失
Figure FDA0003697847620000022
表示为:
Figure FDA0003697847620000023
其中,λ2、λ3与λ4均为可调节的权重超参数;
基本损失
Figure FDA0003697847620000024
用于最大化伪造人脸数据y′和y之间在像素级上的差异,表示为:
Figure FDA0003697847620000025
其中,cj表示一系列由原始人脸数据x的原始属性特征域c计算出的与其不同的目标属性特征域,
Figure FDA0003697847620000026
代表目标函数在变量x,x′,c上的统计均值,SM(x,cj)和SM(x′,cj)代表替代模型在cj上分别输入x,x′所能得到的伪造人脸,‖·‖1为L1范数距离;μj为权重,用来平衡不同目标特征域转换时在像素级上对伪造样本期望损毁规模的影响程度差异,表示为:
Figure FDA0003697847620000027
负方向循环一致性损失
Figure FDA0003697847620000028
表示为:
Figure FDA0003697847620000029
其中,
Figure FDA00036978476200000210
代表目标函数在x′,c上的统计均值,SM(SM(x′,cj),c)代表x′属性特征域先往cj上伪造,再伪造回到原始属性特征域c的伪造结果;
特征域损失
Figure FDA00036978476200000211
表示为:
Figure FDA00036978476200000212
其中,crj为与目标特征域cj相反的特征域,
Figure FDA00036978476200000213
代表目标函数在cj上的统计均值,DA(crj|SM(x′,cj))代表在输入被感染的伪造人脸数据y′时判别模型DA分类其伪造属性域为crj的条件概率;DA(SM(x′,cj))代表判别模型DA将y′分类为真实人脸样本的置信度;
上述的目标函数均为所属式子中符号[]内的表达式。
2.根据权利要求1所述的一种针对深度人脸篡改的主动防御方法,其特征在于,对于基于模型的人脸篡改任务,将由当前的扰动生成网络和上一次迭代的替代模型计算得到的一个额外的影响损失
Figure FDA00036978476200000214
整合到扰动生成网络损失函数的计算中,即:
Figure FDA0003697847620000031
3.根据权利要求1所述的一种针对深度人脸篡改的主动防御方法,其特征在于,对于基于数据的人脸篡改任务,扰动生成网络训练时的损失表示为:
Figure FDA0003697847620000032
其中,
Figure FDA0003697847620000033
为对抗损失,
Figure FDA0003697847620000034
为人脸篡改任务的影响损失,λ是用以平衡两项损失的可调超参数;
对抗损失
Figure FDA0003697847620000035
表示为:
Figure FDA0003697847620000036
其中,λ1则为可调节的权重超参数;
人脸篡改任务的影响损失
Figure FDA0003697847620000037
为:相较于替代模型,最弱化由被感染人脸数据训练得来的被感染模型M’,表示为:
Figure FDA0003697847620000038
其中,
Figure FDA0003697847620000039
表示目标函数在x,z上的统计均值,目标函数为符号[]内的表达式,SMx(z)代表由人脸数据x训练一步得到的替代模型所伪造的人脸数据,M′x′(z)代表由被感染的人脸数据x′训练一步得到的被感染模型M’所伪造的人脸数据。
4.根据权利要求3所述的一种针对深度人脸篡改的主动防御方法,其特征在于,引入了一个临时暂存模型来维持从影响损失
Figure FDA00036978476200000310
到扰动生成网络的梯度反向传播,即将临时暂存模型存储的参数赋予给被感染模型M’来进行影响损失
Figure FDA00036978476200000311
的计算。
5.根据权利要求3或4所述的一种针对深度人脸篡改的主动防御方法,其特征在于,对于基于数据的人脸篡改任务,采用一种注意力引导的方法,添加关于原始人脸数据x的掩膜m(x)到影响损失
Figure FDA00036978476200000312
的计算当中,表示为:
Figure FDA00036978476200000313
CN202110198508.7A 2021-02-22 2021-02-22 针对深度人脸篡改的主动防御方法 Active CN112883874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110198508.7A CN112883874B (zh) 2021-02-22 2021-02-22 针对深度人脸篡改的主动防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110198508.7A CN112883874B (zh) 2021-02-22 2021-02-22 针对深度人脸篡改的主动防御方法

Publications (2)

Publication Number Publication Date
CN112883874A CN112883874A (zh) 2021-06-01
CN112883874B true CN112883874B (zh) 2022-09-06

Family

ID=76056891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110198508.7A Active CN112883874B (zh) 2021-02-22 2021-02-22 针对深度人脸篡改的主动防御方法

Country Status (1)

Country Link
CN (1) CN112883874B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005170B (zh) * 2022-01-05 2022-03-25 中国科学院自动化研究所 基于视觉对抗重构的DeepFake防御方法和系统
CN114842524B (zh) * 2022-03-16 2023-03-10 电子科技大学 一种基于不规则显著性像素簇的人脸鉴伪方法
CN115631085B (zh) * 2022-12-19 2023-04-11 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN116309031B (zh) * 2023-05-16 2023-08-29 中国科学技术大学 人脸伪造主动干扰方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130070432A (ko) * 2011-12-19 2013-06-27 손귀식 방범용 계산대
CN109344709A (zh) * 2018-08-29 2019-02-15 中国科学院信息工程研究所 一种人脸生成伪造图像的检测方法
CN110991299A (zh) * 2019-11-27 2020-04-10 中新国际联合研究院 一种物理域上针对人脸识别系统的对抗样本生成方法
KR20200080424A (ko) * 2018-12-19 2020-07-07 네이버 주식회사 딥 네트워크에 대한 적대적 공격을 방어하기 위한 시스템 및 방법
CN111461226A (zh) * 2020-04-01 2020-07-28 深圳前海微众银行股份有限公司 对抗样本生成方法、装置、终端及可读存储介质
CN111476727A (zh) * 2020-03-26 2020-07-31 南京信息工程大学 一种面向换脸视频检测的视频运动增强方法
CN111639589A (zh) * 2020-05-28 2020-09-08 西北工业大学 基于对抗学习和类颜色空间的视频虚假人脸检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130070432A (ko) * 2011-12-19 2013-06-27 손귀식 방범용 계산대
CN109344709A (zh) * 2018-08-29 2019-02-15 中国科学院信息工程研究所 一种人脸生成伪造图像的检测方法
KR20200080424A (ko) * 2018-12-19 2020-07-07 네이버 주식회사 딥 네트워크에 대한 적대적 공격을 방어하기 위한 시스템 및 방법
CN110991299A (zh) * 2019-11-27 2020-04-10 中新国际联合研究院 一种物理域上针对人脸识别系统的对抗样本生成方法
CN111476727A (zh) * 2020-03-26 2020-07-31 南京信息工程大学 一种面向换脸视频检测的视频运动增强方法
CN111461226A (zh) * 2020-04-01 2020-07-28 深圳前海微众银行股份有限公司 对抗样本生成方法、装置、终端及可读存储介质
CN111639589A (zh) * 2020-05-28 2020-09-08 西北工业大学 基于对抗学习和类颜色空间的视频虚假人脸检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Disrupting Deepfakes: Adversarial Attacks Against Conditional Image Translation Networks and Facial Manipulation Systems;Nataniel Ruiz 等;《arXiv:2003.01279v3》;20200427;全文 *
intriguing properties of neural networks;SZEGEDY C 等;《arXiv》;20131231;全文 *
Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey;Naveed Akhtar 等;《IEEE Access 》;20180219;全文 *
融合全局时序和局部空间特征的伪造人脸视频检测方法;陈鹏等;《信息安全学报》;20200315(第02期);全文 *

Also Published As

Publication number Publication date
CN112883874A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112883874B (zh) 针对深度人脸篡改的主动防御方法
Trivedi et al. An efficient credit card fraud detection model based on machine learning methods
Neekhara et al. Adversarial threats to deepfake detection: A practical perspective
Zhang et al. Defense against adversarial attacks by reconstructing images
Wang et al. SmsNet: A new deep convolutional neural network model for adversarial example detection
Ye et al. Detection defense against adversarial attacks with saliency map
Gong et al. Deepfake forensics, an ai-synthesized detection with deep convolutional generative adversarial networks
Duan et al. Mask-guided noise restriction adversarial attacks for image classification
Xue et al. Use the spear as a shield: An adversarial example based privacy-preserving technique against membership inference attacks
CN114049537B (zh) 一种基于卷积神经网络的对抗样本防御方法
Laykaviriyakul et al. Collaborative Defense-GAN for protecting adversarial attacks on classification system
Guo et al. A White-Box False Positive Adversarial Attack Method on Contrastive Loss Based Offline Handwritten Signature Verification Models
Li et al. Defending deepfakes by saliency-aware attack
CN113033747B (zh) 一种用于人机识别的图形识别码生成方法
Wang et al. Generating semantic adversarial examples via feature manipulation in latent space
CN113344814A (zh) 一种基于生成机制的高分辨率对抗样本的合成方法
Sun et al. ApaNet: adversarial perturbations alleviation network for face verification
Liu et al. Advcloak: Customized adversarial cloak for privacy protection
Yu et al. Two strategies to optimize the decisions in signature verification with the presence of spoofing attacks
Huang et al. Focus-Shifting Attack: An Adversarial Attack That Retains Saliency Map Information and Manipulates Model Explanations
Liu et al. SPFL: A Self-purified Federated Learning Method Against Poisoning Attacks
Traboulsi Deepfakes: Analysis of threats and countermeasures
Shen et al. CSSBA: A Clean Label Sample-Specific Backdoor Attack
Xu et al. Defense against adversarial attacks with an induced class
Zhang et al. Hiding in Plain Sight: Adversarial Attack via Style Transfer on Image Borders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant