CN115936958A - 一种基于对抗学习的数据隐私保护方法 - Google Patents

一种基于对抗学习的数据隐私保护方法 Download PDF

Info

Publication number
CN115936958A
CN115936958A CN202210372873.XA CN202210372873A CN115936958A CN 115936958 A CN115936958 A CN 115936958A CN 202210372873 A CN202210372873 A CN 202210372873A CN 115936958 A CN115936958 A CN 115936958A
Authority
CN
China
Prior art keywords
image
model
face
semantic
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210372873.XA
Other languages
English (en)
Inventor
范彧
迟宇翔
俞扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210372873.XA priority Critical patent/CN115936958A/zh
Publication of CN115936958A publication Critical patent/CN115936958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于对抗学习的数据隐私保护方法,将基于深度生成对抗网络的换脸模型作为被攻击模型,提出一种能控制攻击效果的对抗攻击方法,从人脸图像的语义表示层面出发,实现攻击后生成可控制的具有语义特征的图片的方法;利用图像的语义可分解性,通过串联被攻击模型与语义判别器,修改语义标签来同时达成原始待保护图像的微量修改与生成图像的语义层面上的改变;在给定的人脸图像上添加扰动以使换脸模型作用于该人脸图像时所生成的换脸图像发生语义层面上的人脸外观属性明显改变,导致换脸失败。

Description

一种基于对抗学习的数据隐私保护方法
技术领域
本发明涉及一种基于对抗学习的数据隐私保护方法,具体是一种基于对抗攻击GAN的人脸隐私保护方法,涉及计算机视觉技术领域,尤其涉及人脸图像编辑和对抗攻击技术领域。
背景技术
深度生成对抗网络的出现使得计算机视觉、自然语言处理、半监督学习等多个领域有了极大发展,但也使得伪造合成、篡改图像或视频变得可能,例如基于自编码器和生成对抗网络的DeepFake技术可将视频中的人脸换成其他人,而人类以肉眼无法分辨真假。尤其是基于深度生成对抗网络的人脸编辑和换脸技术效果最逼真和便捷。如果利用这些换脸技术把人脸替换到不合适的背景中,会对名人、政客和女性的个人形象有较大的隐私安全威胁。此外,人脸图像的合成也给身份验证系统带来极大的安全隐患,也将带来越来越多的社会问题。尽管目前已经存在一些成功的DeepFake伪造检测技术,但这些技术均从伪造图像的检测角度出发,并未从预防的角度出发,从而防止图像的合成伪造。当伪造的图片被检测出来时,人脸信息的泄露与被利用已既成事实。综上所述,为保护人脸隐私安全,阻止基于深度生成对抗网络的伪造图像的有效合成,也即破坏换脸技术,成为一个新颖的研究领域。
在破坏换脸的技术中,其中一个重要的方向就是对抗学习领域的对抗攻击。传统对抗攻击方法主要针对基于深度学习的分类模型攻击,通过在原始图片上添加肉眼不可见的少量噪声扰动使得分类器输出错误的类别。生成不可见噪声的过程就是对抗攻击的过程,一般是通过多次累加对抗攻击损失回传到原图的截断之后的梯度生成。在原图上加上生成的对抗噪声的图片被称为对抗样本,对抗样本会使得被攻击的深度网络模型作用失效。此外,也出现了一些针对生成对抗网络的攻击方法,但已经公开的攻击方法局限性较大,只能使得输出图像上出现一些不是很明显的无意义噪声,攻击效果很不稳定,且生成的对抗样本在攻击其他模型时表现出的迁移性较差。综上,已知的对深度生成对抗网络的攻击方法尚不能成熟地用于防止人脸被替换,进而保护人脸隐私。
发明内容
发明目的:针对现有技术中存在的问题与不足,增加对深度生成对抗网络的攻击的稳定性和可控性,同时设法使得被攻击模型所生成的图像出现可辨识特征,本发明提供了一种基于对抗学习的数据隐私保护方法,基于对抗攻击GAN实现对人脸隐私保护,提出了一种针对生成对抗网络模型进行可控制的语义攻击的框架。通过串联已经训练好的语义判别器,使用改进后的对抗攻击方法,生成微小扰动的对抗噪声,在需要保护的人脸图像上添加该对抗噪声后会使得被攻击模型所生成的伪造图像换脸失败,如图像真实度不够、出现局部损坏等。同时本发明可以人为控制使得在生成的伪造图片中出现具有特定语义信息的特征块,如出现性别反转、衰老、红叉logo等,进而使得审核者更容易发现虚假图片。此外,本发明生成的对抗样本在对其他类似模型做对抗攻击时,具有一定的迁移性。
通过对抗攻击技术,为所需要保护的人脸图片生成人眼不可见的微小保护噪声,给原图加上保护噪声后不会影响其清晰度。加上噪声保护后的人脸图片会破坏基于生成对抗网络的换脸过程,使得经过生成对抗网络之后换脸失败,伪造图片出现破损和失真,从而实现保护人脸隐私的目的。此外,本发明可以使得被攻击后的深度生成对抗网络合成的伪造图片中出现一些可人为控制的语义块,这些语义块除了掩盖人的隐私信息,还能帮助识别其虚假性,同时这种可控性攻击比普通攻击也更加有效、稳定。
技术方案:一种基于对抗学习的数据隐私保护方法,是一种针对基于深度生成对抗网络的换脸模型的能控制攻击效果的对抗攻击方案,该方法从图像的语义表示层面出发,在传统的对抗攻击方法基础上提出了一种能够实现攻击后生成可控制的具有语义特征的图片的方法。利用图像的语义可分解性,通过串联被攻击模型与语义判别器,修改语义标签来同时达成原始待保护图像的微量修改与生成图像的语义层面上的改变。该方案最终所能实现的目标是在给定的人脸图像上添加人眼不可见的微小扰动以使换脸模型作用于该人脸图像时所生成的换脸图像发生语义层面上的人脸外观属性明显改变,导致换脸失败,进而起到保护人脸隐私的作用。此外,本发明还提出了定向区域攻击法、集成攻击法。
方法的实现包括语义判别器训练和对抗攻击。
所述的换脸模型训练只是介绍本发明实验验证过可进行对其有效攻击的一种换脸算法,而且该算法也是已知公开的基于深度生成对抗网络技术的最便捷、逼真的换脸模型,被称为FaceShifter。本发明所述攻击框架在真实应用时可以进行攻击不同的基于深度生成对抗网络的换脸模型。对于所希望在生成图片上出现的语义特征类型,提前训练对应的语义判别器即可。所述换脸模型使用两张人脸图像作为输入,分别称为源图像Xs与目标图像Xt,最终输出换脸结果的合成图片中会包含源图像的身份特征和目标图像的面部属性特征和背景特征,实现在目标图像脸部以外区域不变的情况下将源图像身份转移嵌入到目标图像的效果。
所述换脸模型训练需使用以人脸为中心、大小归一化的人脸图像数据集,构建该数据集需使用人脸检测模型对原始数据集进行人脸标注并裁剪为同一大小,所述人脸检测模型可基于MTCNN(多任务级联卷积网络)实现,所述多任务级联卷积网络模型用于在一张包含人脸的图片中检出人脸位置并标注面部特征点,通过级联P-网络、R-网络、O-网络在包含人脸的图像中检测并框取一个或多个人脸,每个检测出的人脸均包含一个权重表示该人脸的显著程度,同时对每个人脸的面部特征点进行标注。
本发明所述方法中,所使用的对抗攻击方法是基于投影梯度下降法(PGD,projectgradient descent),这是一种简单有效的白盒攻击方法,被认为是实现对抗鲁棒性最有效的一阶攻击方法之一,即在对抗攻击过程中只利用相对输出结果的损失函数的梯度,只包含模型局部的一阶信息,同时试图找到在特定输入上最大化模型损失的扰动,并保持扰动的大小小于指定阈值。算法从样本点附近的一个随机扰动点出发,通过多次迭代的方式,每次迭代沿梯度下降一步,并投影回Lp(p范数)球内,直到算法收敛。在本发明中投影梯度下降法针对含标签的分类模型,其下降方向是使得输入图像的输出标签沿目标标签方向变化,即其损失是图像输出标签与目标标签的距离。
所述换脸模型的构建与训练步骤如下:
步骤101:准备用于编码源图像身份的编码器模型arcface;
步骤102:准备用于编码目标图像面部属性特征的多级编码器模型MAE;
步骤103:构造结合源图像身份特征与目标图像面部属性特征并生成多级放大图像的生成器模型G1;
步骤104:数据集预处理,将人脸数据集图像(约十万张)依次使用多任务级联卷积网络MTCNN模型标注人脸位置;
步骤105:若步骤104中未检测到人脸,跳过该图像;
步骤106:若步骤104中检测到人脸,选择权重最大的人脸,将框取部分人脸拉伸至256×256大小并储存至新数据集;
步骤107:使用预训练的arcface模型作为换脸模型的身份编码器;
步骤107所述arcface模型是一种现有人脸识别算法,其核心添加了arcfaceloss。Arcface loss是Additive Angular Margin Loss(加性角度间隔损失函数),即对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。几何上有恒定的线性角度margen。ArcFace中是直接在角度空间θ中最大化分类界限,而CosFace是在余弦空间cos(θ)中最大化分类界限。该算法是目前人脸识别领域的最优秀的算法之一,训练效率高,性能高。
步骤108:将输入大小为256x256的源图像Xs截取中心216x216区域,并降采样至112x112大小,作为步骤107中arcface模型的输入,得到身份编码向量z_id;
步骤109:将目标图像Xt输入多级属性编码器,其中多级属性编码器由8层全连接卷积层构成,每层卷积层使用4x4的卷积核,其维度分别为32z128x128、64x64x64、128x32x32、256x16x16、512x8x8、1024x4x4、1024x2x2,每层均输出一个属性向量,共得到8个属性向量z_att;
步骤110:将步骤108与步骤109中所得到的身份编码向量z_id与属性向量z_att输入至多层生成器G1中,得到生成图像Y;
步骤111:将生成图像Y输入判别器D,得到判别结果;
步骤112:分别计算对抗损失、身份损失、属性损失、重构损失,并加权累加得到生成器训练损失,反向传播优化生成器网络参数;
步骤113:计算判别器损失,反向传播优化判别器网络参数;
步骤114:重复步骤108至114,直至生成器模型G1和判别器D模型收敛;
步骤115:换脸模型训练结束。
本发明所述方法中,所述语义判别器模型使用的是基于深度生成对抗网络的图像领域编辑模型中的语义判别器模型,其中语义判别器模型输出分为两部分:对图像的真伪判断,以及图像的领域类别编码。其训练过程中,生成器模型G2以真实图像和目标领域标签同时作为输入,根据原始图像重新生成基于目标领域标签的伪造图像,并尽可能在优化的损失函数中使得语义判别器无法将其和真实图像区分开,同时对图像的领域分类结果符合所给目标领域标签。语义判别器的输入是真实图像或者生成器模型G2生成的伪造图像,经过六层卷积层提取图像特征,将所得特征分别接入两个全连接层,两个全连接层分别输出真伪分类结果以及领域分类向量。语义判别器的目标是判别出输入图像的真伪度,和领域标签。训练过程中,一般每更新N步判别器,再更新一次生成器模型G2。生成器模型G2中首先将领域信息根据图像大小作重复排列,和输入图像进行拼接后输入卷积网络,网络包括一层卷积层、两层作降采样的卷积层、六层残差层、两层作向上采样的逆卷积层以及一层卷积层。
所述语义判别器模型的训练步骤如下:
步骤201:准备包含领域类别标签的人脸数据集,其中领域类别标签包括年龄、性别、发色等人脸外观语义属性特征。
步骤202:训练语义判别器,语义判别器将真实图片和生成器模型G2所生成的伪造图片区分真伪,真实图片对其所属领域进行分类,计算分类损失并优化语义判别器网络参数;
步骤203:训练生成器模型G2,生成器模型G2使用真实图片和目标领域标签作为输入生成伪造图片;
步骤204:生成器模型G2使用步骤203中的伪造图片和真实图片领域标签作为输入生成重构图片,并计算重构图片和原真实图片的差异作为重构损失;
步骤205:将步骤203中生成器模型G2所生成的伪造图片输入语义判别器中,对图片进行真假判别,计算对抗损失并结合步骤204中的重构损失优化生成器网络G2参数;
步骤206:重复步骤202至步骤205,直至生成器模型G2和语义判别器模型收敛;
步骤207:训练得到语义判别器,训练结束。
所述可控语义的对抗攻击方法是把训练完成的语义判别器串联在所要攻击的深度生成对抗网络模型后面,即通过将换脸模型所得换脸图像再次输入至语义判别器模型,得到换脸图像的语义特征,将该实际语义特征和我们希望控制实现的语义特征(如性别翻转,出现红叉水印)计算损失函数(如使用交叉熵损失),使用该损失对包含换脸模型和语义判别器模型在内的整个串联模型使用投影梯度下降法作迭代攻击,在原图上生成对抗噪声,进而得到对抗样本,即添加保护噪声后的图片。该方法也能实现对不同深度生成对抗网络模型的基于添加噪声的隐式编辑。所述对抗攻击方法具体步骤如下:
步骤301:记待保护的源图像为Xs,从数据集中选取一张人脸图像作为目标图像Xt,将两张图像裁剪为中心218×218区域;
步骤302:Xs经过编码器模型arcface得到包含源图像身份特征的编码向量vec_s,Xt经过多任务级联卷积网络MTCNN得到包含目标图像外观特征的编码向量vec_t,将两个向量输入给待攻击的生成对抗网络模型中的生成器G1,所述生成对抗网络模型为换脸模型;
步骤303:生成器输出换脸后的合成图片Y,Y输入给预训练完成的语义判别器,语义判别器输出语义特征标签和真实度;
经过以上步骤,输入身份原图和背景目标图,经过多个基于深度神经网络的的模型后可以输出换脸后的合成图片的语义特征标签和真实度,编码器模型arcface、生成器模型G1、语义判别器形成了一个可以进行梯度反向传播的端到端模型;
步骤304:根据人脸隐私保护需要,从语义判别器语义类别中选取一个或多个目标语义(如性别,衰老与年轻,是否出现红叉等)作为需要控制生成的人脸属性;
步骤305:使用投影梯度下降法对上述端到端模型进行迭代,首先设定投影梯度下降法所需要的超参数,包括图像扰动上界eps、迭代轮数n_iter、每轮迭代扰动步长eps_iter、损失函数loss_fun();
步骤306:迭代开始,创建临时攻击图片变量Xtmp,将源图Xs赋值给Xtmp,初始扰动p=0;
步骤307:每一步迭代,将临时攻击图片Xtmp和Xt输入给上述端到端架构,得到输出的图片真实度和实际语义标签向量;
步骤308:将该实际语义标签向量与步骤304所选取的欲控制生成的目标领域标签根据损失函数计算损失;
步骤309:基于最后端的损失值,通过上述串联的各级神经网络回传梯度,损失首先传到语义判别器模型生成梯度,梯度继续进行反传依次经过换脸生成模型、arcface编码网络再传到源图Xs上,在Xs每一个像素点存在一些经过反向传播计算出的梯度g;
步骤310:用sign函数作用于步骤309生成的在原图的梯度g得到sign(g),sg再乘以扰动步长eps_iter得到当前扰动ptmp
步骤310所述sign函数是指,如果输入是0输出是0;如果输入大于0,则输出1;如果输出小于0,则输出-1;如果输入是多维向量则对向量的每一个元素进行同样作用;
步骤311:将临时攻击图片Xtmp加上当前扰动得到最新图片Xn=Xs+ptmp,经过扰动上界的阶段后得到实际扰动ptmp=clip(Xn,-eps,eps)-Xtmp。
步骤312:将实际扰动ptmp赋值给扰动p;
步骤313:重复迭代步骤306-312,直至到达设定的迭代轮数;
步骤314:经过多步梯度下降攻击后将生成的对抗噪声p加在原图上,即得到添加保护噪声的图像,将该图像替代原图中心部分得到最终攻击图像版本;
步骤315:对换脸模型的对抗攻击结束。
此时生成的最终攻击图片在经过上述攻击的基于深度生成对抗网络的换脸模型后会导致换脸失败,并且合成的图片会存在一些预先设计的语义特征,如红叉、性别反转、其他水印等,进而帮助人们更容易地发现虚假图片。
本发明中所述的可控语义特征除了基本的人脸属性如衰老年轻,性别,红发白发,也可以是一种水印标志如红叉,红色区域,黑色区域等。此外,如果将图片真实度标签加入到目标标签,可以直接实现非语义的破坏攻击。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于对抗学习的数据隐私保护方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于对抗学习的数据隐私保护方法的计算机程序。
有益效果:与现有技术相比,本发明可以通过在待保护的人脸图片上添加人眼不可见的噪声,实现对预训练完成的生成对抗模型的可控制的语义性攻击,在不影响原图质量的情况下,破坏被攻击模型合成伪造图片的过程。本发明可以在语义层面上控制在合成图上出现如性别反转、衰老、头发颜色等面部特征改变,或者出现红叉、水印、标识等其他信息,使得伪造图片能够不经检测即可肉眼辨识,并且换脸失败,从而防患于未然,避免个人形象受到损害。结合集成、定向攻击,本发明可以使用已训练好的语义判别器对同一类型的多种对抗生成网络模型进行攻击,在保护人脸隐私安全应用时具有较好的迁移性和稳定性。
附图说明
图1为本发明实施例的换脸与攻击后的换脸示意图;
图2为本发明实施例的语义判别器模型架构示意图;
图3为本发明实施例的可控语义攻击流程图;
图4为本发明实施例的可控语义攻击效果图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于对抗学习的数据隐私保护方法,是一种能控制攻击效果的针对基于深度生成对抗网络的换脸模型的攻击方案,在给定的人脸图像上添加微小扰动以使换脸模型作用于该人脸图像时所生成的换脸图像发生语义层面上的改变,导致换脸失败,且其改变的人脸外观属性能人为设定,属于一种可控制的攻击方式。同时该扰动极其微小,人眼不可发现,因此可以起到隐形地保护人脸隐私的作用。此外,由于其可控制在合成图片上出现语义特征的改变,使得该保护方法更加有效、稳定和可迁移。换脸与攻击之后的换脸过程和效果如图1所示,Xs是待保护的提供身份特征的源图,Xt是背景图,Xμ是添加保护噪声后的图片。可以发现,添加保护噪声前后的换脸结果有非常明显的差异,换脸失败。
此外,本发明提出的方案也是一种新的对深度生成对抗网络的编辑方式,相比于之前的对深度生成对抗网络的编辑方式一般是在隐空间进行操作,本发明可以直接在原图通过添加极其微小的噪声对生成结果进行语义编辑。
在本发明中,首先需要训练基于深度生成对抗网络的换脸模型,得到一个可实际对两张人脸图像进行换脸的深度网络模型,再训练一个语义判别器,该语义判别器需要具有对输入给定人脸图像,输出图片真实度和外观属性的语义特征,例如年龄、性别、发色等特征。最后借鉴对抗攻击技术,通过使用投影梯度下降法对换脸模型进行攻击,生成对抗噪声,添加在需要保护的图片上,最终得到添加扰动的人脸图片。该图片会使得深度生成对抗网络的作用过程失效,无法实现成功换脸,并且在合成的伪造图片上出现一些可人为控制的语义特征块,帮助人们更容易发现其虚假性,进而实现对给定人脸图片进行保护。由于该噪声极其微小,人眼无法识别,因此也不会影响图片质量。
此处的换脸模型使用了已公开的一种便捷、逼真的算法——Faceshifter。注意,本发明的可控语义攻击方法不只是可以攻击该换脸算法,本发明也适用于其他基于深度对抗网络的换脸或者人脸编辑模型。换脸模型分为三个部分:对源图像提取身份特征的身份编码器、对目标图像提取外观属性特征的多级属性编码器和结合上述两个特征生成换脸图片的多层生成器。其中身份编码器用于提取代表源图像人脸身份的特征;多级属性编码器用于提取代表目标图像外观属性的特征,其中编码器每一层均输出一个属性特征向量;多层生成器采用逐层增加生成图像分辨率的形式,结合上述源图像的身份特征与目标图像外观属性特征生成同时具有两者特征的换脸图片。身份编码器一般使用已公开的arcface网络模型,下面为训练该模型的完整步骤:
步骤401:数据集预处理,由于人脸数据集图像大小不统一,因此使用预训练MTCNN(多任务级联卷积网络)模型标注出每张图中所包含的人脸位置;
步骤402:在步骤401中若无人脸,则结束流程。若存在人脸,在得到的所有人脸标注框中选取权重最大的一个人脸;
步骤403:将步骤402所得人脸标注框部分缩放为256×256大小,得到大小归一化的人脸,同时记录MTCNN所输出的面部特征点的位置;
步骤404:训练目标攻击模型(人脸模型)。该模型是指用于合成人脸的生成对抗网络,包括使用源图人脸特征及目标图人脸背景合成换脸后的伪造图像的生成器G1与识别图像真伪的判别器D。目标攻击模型的内部结构非唯一。每一轮迭代将经过以下步骤训练:
步骤405:从数据集中随机选取源图像Xs与目标图像Xt各一张;
步骤406:裁剪源图像Xs中心区域218×218大小;
步骤407:使用双线性插值法将步骤406所得裁剪区域图像降采样至112×112大小;
步骤408:使用arcface预训练模型对降采样后的图提取源图像身份特征zid(Xs);
步骤409:将目标图像Xt输入多级属性编码器提取目标图像多级属性特征zatt(Xt);
步骤410:将步骤408与步骤409所得源图像身份特征zid(Xs)与目标图像多级属性特征zatt(Xt)输入多层生成器G1中,得到生成图像Y;
步骤411:将步骤410所得生成图像Y输入arcface模型提取生成图像身份特征zid(Y);
步骤412:计算身份损失Lid为源图像身份特征与生成图像身份特征的余弦相似度:
Lid=1-cos(zid(Y),zid(Xs))
步骤413:将Xt和步骤410所得生成图像Y输入多级属性编码器得到对应图像的属性特征zatt(Xt),zatt(Y);
步骤414:计算属性损失Latt,属性损失为源图像属性特征与生成图像属性特征的均方差,其中
Figure BDA0003589247510000091
是指编码向量的某一维:
Figure BDA0003589247510000092
步骤415:若源图像与目标图像为同一人时,根据
生成图像与源图像的差异计算重构损失Lrec,否则重构损失为0:
Figure BDA0003589247510000093
步骤416:根据判别器D的输出结果计算对抗损失Ladv,其中对抗损失使用铰链损失函数fhinge,对抗损失越小意味着图片Y越真实:
Ladv=fhinge(D(Y),1)
步骤416所述铰链损失函数fhinge是指:
fhinge(y,y′)=max(0,1-y*y′)
步骤417:将步骤414-步骤416计算所得损失加权求和得到生成器G1的总损失函数:
LG=Ladv+10Latt+5Lid+10Lrec
步骤418:使用Adam优化器根据损失优化生成器G,其中优化器参数beta分别为0、0.999;
步骤419:分别使用真实图像Yreal与生成器G的生成图像Yfake作为判别器D的输入,其优化目标为使得判别器正确将伪造图片识别为假图片,真实图片识别为真实图片。fhinge表示步骤416所述的铰链损失函数,D的判别损失LD计算如下:
Figure BDA0003589247510000094
步骤420:使用Adam优化器根据D的判别损失优化判别器,其中优化器参数beta分别为0、0.999;
步骤421:重复步骤405至步骤420,直至模型收敛;
步骤422:过程结束。
在使用上述方法训练得到换脸模型中的生成模型后,需要继续训练一个语义判别器模型,其神经网络结构如图3所示,该模型的主要作用为从图像中提取具有高区分性、可辨识、可描述的特征,作为后续针对图像生成特征进行可控制攻击的基础。本发明中所使用的语义判别器模型以人脸图像作为输入,输出结果为图片真实度和对给定面部外观属性特征,例如年龄、性别、发色等属性的0/1编码,表示人脸是否存在该属性特征。此外在经过特定的训练,该语义判别器模型也可以判别是否存在红叉、红眼、特定标志等其他语义信息,用于攻击后识别。语义判别器模型训练过程如下:
步骤501:准备人脸数据集,其中人脸图像标注了人脸语义标签,例如年龄、性别、发色、大小鼻子、薄厚嘴唇、是否出现眼镜、是否出现红叉等外观属性;准备类似StarGan中的生成器G2和上文所述的语义判别器。
步骤502:训练过程的每一步,从数据集中获取一批次(如32张)图像与图像所对应的类别标签,同时在所设定的图像分类领域空间中随机生成一组外观属性向量c;
步骤503:使用生成器G2根据步骤502中的图像x与随机外观属性c生成一组伪造图片G(x,c);
步骤504:使用真实图片与步骤503中所生成的假图片输入语义判别器,语义判别器将真实图片x和生成器所生成的伪造图片G(x,c)区分真伪得到Dsrc(x)、Dsrc(G(x,c)),将真实图片所属领域进行分类得到Dcls(x);
步骤505:将真实图片与伪造图片进行插值,将插值图片输入语义判别器,并求得其判别结果对插值图片的梯度,得到梯度惩罚GP;
步骤506:根据真实图片判别结果Dsrc(x)、Dcls(x)伪造图片判别结果Dsrc(G(x,c))以及步骤505所得梯度惩罚GP计算对抗损失
Figure BDA0003589247510000101
分类损失
Figure BDA0003589247510000102
和总损失LD,并优化语义判别器网络参数:
Figure BDA0003589247510000103
Figure BDA0003589247510000104
Figure BDA0003589247510000105
其中x为输入图片,c为输入领域标签,c'为输入图片所属领域标签,H为二元交叉熵函数,E符号表示求期望,λgp=10是梯度惩罚系数,λcls=1是分类惩罚系数,。
步骤507:重复步骤502至步骤506;每重复5轮,执行以下步骤以训练生成器G2;
步骤508:使用步骤502中的真实图片x与随机外观属性c使用生成器G2生成伪造图片G(x,c),使用所生成的伪造图片与真实图片标签c'再次经过生成器G2生成重构图片G(G(x,c),c');
步骤509:使用步骤508中重构图片与真实图片x的差异使用L1范数计算重构损失:
Figure BDA0003589247510000111
步骤510:将伪造图片G(x,c)输入语义判别器,根据判别结果计算对抗损失:
Figure BDA0003589247510000112
步骤511:利用语义判别器对真实图片x所生成领域类别标签Dcls(x)与生成伪造图片所使用的随机外观属性标签c计算差异得到分类损失:
Figure BDA0003589247510000113
步骤512:将上述重构损失
Figure BDA0003589247510000114
对抗损失
Figure BDA0003589247510000115
分类损失
Figure BDA0003589247510000116
加权求和得到生成器G2总损失LG,其中λcls=1、λrec=10为加权参数,优化生成器G2网络参数:
Figure BDA0003589247510000117
步骤513:重复步骤502至步骤513,直至语义判别器收敛;
步骤514:过程结束。
可控语义攻击主要包含三个部分:生成换脸伪造图片Y;使用语义判别器输出换脸伪造图片的语义类别class;使用投影梯度下降法进行攻击。选定需要控制在伪造图片上出现的目标语义类别class_target,计算与实际换脸伪造图片的语义类别class的损失loss,使用投影梯度攻击生成对抗噪声μ,在待保护的源图Xs上加上对抗噪声就得到了被保护的图片,也被称为对抗样本(adversary example)。
可控语义攻击首先需要构造投影梯度下降法所需要攻击的模型,将先前所述训练完成的换脸模型和语义判别器串联在一起作为端到端模型,即以两张人脸图像作为模型输入,分别称为源图像与目标图像,首先将源图像通过换脸模型中的身份编码器得到身份特征,再将目标图像通过多级属性编码器得到目标图像的多级属性特征,将所得身份特征与多级属性特征输入至生成器得到换脸图像,将换脸图像经过语义判别器得到换脸图像的语义层面外观特征作为被攻击的整体模型的输出。每一轮迭代将在原始图像上添加微小噪声,经过若干次迭代后该图像经过生成网络生成的伪造图像将选择性地出现标签中被改动部分的语义信息。
图3是对换脸模型的可控语义攻击流程图,具体说明如下:
步骤601:准备前述训练好的待攻击的换脸模型中的生成器模型G1和能输出目标语义标签的判别模型D。
步骤602:记待保护的源图像为Xs,从数据集中随机选取一张人脸图像作为目标图像Xt,将两张图像裁剪为中心218×218区域;
步骤603:对各个模型行连接,Xs经过编码器模型arcface得到编码向量vec_s,Xt经过多任务级联卷积网络MTCNN得到编码向量vec_t;
步骤604:两个编码向量vec_s、vec_t输入给待攻击的换脸模型中的生成器G1;
步骤605:生成器G1输出换脸后的合成图片Y,Y输入给预训练完成的语义判别器,语义判别器输出语义特征标签和真实度;
经过以上步骤,输入待保护的身份原图和背景目标图,经过多个基于深度神经网络的的模型后可以输出换脸后的合成图片的语义特征标签和真实度,形成了一个可以进行梯度反向传播的端到端通道架构;
步骤606:根据人脸隐私保护需要,从语义判别器语义类别中选取一个或多个目标语义组成的目标标签c_t,例如性别,衰老与年轻,头发颜色,鼻子大小等,作为需要控制生成的人脸属性;
本示例中设输出的原语义标签为金发、女性、小鼻子、未戴眼镜,攻击时将其反转或者更换得到目标语义标签黑发、男性、大鼻子、戴眼镜;
步骤607:使用投影梯度下降法对上述端到端模型进行迭代,首先设定投影梯度下降法所需要的超参数,包括图像扰动上界eps=1、迭代轮数n_iter=100、每轮迭代扰动步长eps_iter=7*10e-6、损失函数lossfun()为交叉熵损失函数,即
Figure BDA0003589247510000121
步骤608:迭代开始,创建临时攻击图片变量Xtmp,将源图Xs赋值给Xtmp,初始扰动p=0;
步骤609:每一步迭代,将临时攻击图片Xtmp和Xt输入给上述端到端架构;
步骤610:神经网络前向传播,从最后的语义判别器输出图片真实度tr和语义标签c;
步骤611:将该实际语义标签向量c与步骤606选取的欲控制生成的目标领域标签c_t根据损失函数计算损失,得到loss=lossfun(c,ct);
在步骤611中是完全的进行可控语义攻击,此外直接将–tr作为loss也能直接破坏生成图片的真实度,-tr和步骤611中的loss也可以结合使用。
步骤612:基于最后端的损失值loss,通过上述串联的各级神经网络回传梯度,损失首先传到语义判别器模型生成梯度,梯度继续进行反传依次经过换脸生成模型、arcface编码网络再传到源图Xs上,在Xs每一个像素点存在一些经过反向传播计算出的梯度g;
步骤613:用sign函数作用于步骤612成的在原图的梯度后得到sign(g),再乘以每步的扰动步长得到当前扰动ptmp=eps_iter*sign(g);
步骤613所述sign函数是指,如果输入是0输出是0;如果输入大于0,则输出1;如果输出小于0,则输出-1;如果输入是多维向量,则对向量每一个元素进行同样作用。
步骤614:将临时攻击图片Xtmp加上当前扰动得到最新图片Xn=Xs+ptmp,经过扰动上界的阶段后得到实际扰动ptmp=clip(Xn,-eps,eps)-Xtmp
步骤615:将实际扰动ptmp赋值给扰动p;
步骤616:重复迭代步骤609-615,直至到达设定的迭代轮数;
步骤617:经过多步梯度下降攻击后将生成的对抗噪声p加在原图上,即得到添加保护噪声的图像,将该图像替代原图中心部分得到最终攻击图像版本;
步骤618:模型攻击结束。
图4是对换脸算法Faceshifter的可控语义攻击效果图。其中第一列分别是源图和背景图,第二列是正常换脸之后的图,之后的列的第一二排分别是添加保护噪声后的源图和对该图片进行换脸之后的合成伪造图。可以很明显地发现,添加保护噪声后的源图和源图几乎一模一样,人眼看不出差别,这样就不会影响图片质量。但是,当保护后的源图再被所攻击的深度对抗生成模型进行换脸时,生成的伪造图出现了一些我们预先控制的语义特征,如衰老,大鼻子,戴眼镜,黑皮肤,性别反转等,这样就使得换脸失败,而且这些生成的语义特征更容易被人工智能算法识别。此外,如果将该语义特征设计为红叉,或者在特定部位进行攻击,也能帮助人眼更容易识别其虚假性。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于对抗攻击GAN的人脸隐私保护方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于对抗学习的数据隐私保护方法,其特征在于,将基于深度生成对抗网络的换脸模型作为被攻击模型,提出一种能控制攻击效果的对抗攻击方法,从人脸图像的语义表示层面出发,实现攻击后生成可控制的具有语义特征的图片的方法;利用图像的语义可分解性,通过串联被攻击模型与语义判别器,修改语义标签来同时达成原始待保护图像的微量修改与生成图像的语义层面上的改变;在给定的人脸图像上添加扰动以使换脸模型作用于该人脸图像时所生成的换脸图像发生语义层面上的人脸外观属性明显改变,导致换脸失败;
方法的实现包括语义判别器训练和对抗攻击,对于所希望在生成图片上出现的语义特征类型,提前训练对应的语义判别器;换脸模型使用两张人脸图像作为输入,分别称为源图像Xs与目标图像Xt,最终输出换脸结果的合成图片中会包含源图像的身份特征和目标图像的面部属性特征和背景特征,实现在目标图像脸部以外区域不变的情况下将源图像身份转移嵌入到目标图像的效果;
所述对抗攻击是基于投影梯度下降法,针对含标签的分类模型,下降方向是使得输入图像的输出标签沿目标标签方向变化,即基于投影梯度下降法的损失是图像输出标签与目标标签的距离。
2.根据权利要求1所述的基于对抗学习的数据隐私保护方法,其特征在于,所述换脸模型的构建与训练步骤如下:
步骤101:准备用于编码源图像身份的编码器模型arcface;
步骤102:准备用于编码目标图像面部属性特征的多级编码器模型MAE;
步骤103:构造结合源图像身份特征与目标图像面部属性特征并生成多级放大图像的生成器模型G1;
步骤104:数据集预处理,将人脸数据集图像依次使用多任务级联卷积网络MTCNN模型标注人脸位置;
步骤105:若步骤104中未检测到人脸,跳过该图像;
步骤106:若步骤104中检测到人脸,选择权重最大的人脸,将框取部分人脸拉伸至设定大小并储存至新数据集;
步骤107:使用编码器模型arcface作为换脸模型的身份编码器;
步骤108:将新数据集中的源图像Xs截取中心区域,并降采样至设定大小,作为步骤107中编码器模型arcface的输入,得到身份编码向量zid
步骤109:将目标图像Xt输入多级属性编码器,共得到多个属性向量zatt
步骤110:将步骤108与步骤109中所得到的身份编码向量zid与属性向量zatt输入至多层生成器模型G1中,得到生成图像Y;
步骤111:将生成图像Y输入判别器D,得到判别结果;
步骤112:分别计算对抗损失、身份损失、属性损失、重构损失,并加权累加得到生成器训练损失,反向传播优化生成器模型G1网络参数;
步骤113:计算判别器D损失,反向传播优化判别器D网络参数;
步骤114:重复步骤108至114,直至生成器模型G1和判别器D模型收敛;
步骤115:换脸模型训练结束。
3.根据权利要求1所述的基于对抗学习的数据隐私保护方法,其特征在于,所述语义判别器模型使用的是基于深度生成对抗网络的图像领域编辑模型中的判别器模型,语义判别器模型输出分为两部分:对图像的真伪判断,以及图像的领域类别编码;语义判别器模型训练过程中,生成器模型G2以原始图像和图像的目标领域标签同时作为输入,根据原始图像重新生成基于目标领域标签的伪造图像,并在优化的损失函数中使得语义判别器无法将伪造图像和真实图像区分开,同时对图像的领域分类结果符合所给目标领域标签;语义判别器的输入是原图像或者生成器模型G2生成的伪造图像,经过六层卷积层提取图像特征,将所得特征分别接入两个全连接层,两个全连接层分别输出真伪分类结果以及领域分类向量;语义判别器的目标是判别出输入图像的真伪度和领域标签;训练过程中,每更新N步语义判别器,再更新一次生成器模型G2;生成器模型G2首先将领域信息根据图像大小作重复排列,和输入图像进行拼接后输入卷积网络,网络包括一层卷积层、两层作降采样的卷积层、六层残差层、两层作向上采样的逆卷积层以及一层卷积层。
4.根据权利要求1所述的基于对抗学习的数据隐私保护方法,其特征在于,所述语义判别器模型的训练步骤如下:
步骤201:准备包含领域类别标签的人脸数据集,其中领域类别标签为人脸外观语义属性特征;准备图像编辑生成器模型G2和语义判别器;
步骤202:训练语义判别器,语义判别器将真实图片和生成器模型G2所生成的伪造图片区分真伪,真实图片对其所属领域进行分类,计算分类损失并优化语义判别器网络参数;
步骤203:训练生成器模型G2,生成器模型G2使用真实图片和目标领域标签作为输入生成伪造图片;
步骤204:使用步骤203中生成器模型G2所生成的伪造图片和真实图片领域标签作为输入生成重构图片,并计算重构图片和原真实图片的差异作为重构损失;
步骤205:将步骤203中生成器模型G2所生成的伪造图片输入语义判别器中,对图片进行真假判别,计算对抗损失并结合步骤204中的重构损失优化生成器模型G2网络参数;
步骤206:重复步骤202至步骤205,直至生成器模型G2和语义判别器模型收敛;
步骤207:训练得到语义判别器,训练结束。
5.根据权利要求1所述的基于对抗学习的数据隐私保护方法,其特征在于,所述对抗攻击方法是把训练完成的语义判别器串联在所要攻击的深度生成对抗网络模型后面,即通过将换脸模型所得换脸图像再次输入至语义判别器模型,得到换脸图像的语义特征,将该实际语义特征和希望控制实现的语义特征计算损失函数,使用计算的损失对包含换脸模型和语义判别器模型在内的整个串联模型使用投影梯度下降法作迭代攻击,在原图上生成对抗噪声,进而得到对抗样本,即添加保护噪声后的图片。
6.根据权利要求1所述的基于对抗学习的数据隐私保护方法,其特征在于,对抗攻击方法包括步骤如下:
步骤301:记待保护的源图像为Xs,从数据集中选取一张人脸图像作为目标图像Xt,分别裁剪两张图像设定的中心区域,将裁剪后的源图像为Xs和目标图像Xt用于步骤302;
步骤302:Xs经过编码器模型arcface得到包含源图像身份特征的编码向量vec_s,Xt经过多任务级联卷积网络MTCNN得到包含目标图像外观特征的编码向量vec_t,将两个向量输入给待攻击的生成对抗网络模型中的生成器模型G1,所述生成对抗网络模型为换脸模型;
步骤303:生成器输出换脸后的合成图片Y,Y输入给训练完成的语义判别器,语义判别器输出语义特征标签和真实度;
经过以上步骤,输入身份原图和背景目标图,经过多个基于深度神经网络的模型后可以输出换脸后的合成图片的语义特征标签和真实度,编码器模型arcface、生成器模型G1、语义判别器形成了一个可以进行梯度反向传播的端到端模型
步骤304:根据人脸隐私保护需要,从语义判别器语义类别中选取一个或多个目标语义作为需要控制生成的人脸属性,即欲控制生成的目标领域标签;
步骤305:使用投影梯度下降法对上述端到端模型进行迭代,首先设定投影梯度下降法所需要的超参数,包括图像扰动上界eps、迭代轮数n_iter、每轮迭代扰动步长eps_iter、损失函数loss_fun();
步骤306:迭代开始,创建临时攻击图片变量Xtmp,将源图Xs赋值给Xtmp,初始扰动p=0;
步骤307:每一步迭代,将临时攻击图片Xtmp和Xt输入给上述端到端模型得到输出的图片真实度和实际语义标签向量;
步骤308:将该实际语义标签向量与步骤304所选取的欲控制生成的目标领域标签根据损失函数计算损失;
步骤309:基于损失值,通过上述端到端模型中串联的各级神经网络回传梯度信息,损失值首先传到语义判别器模型生成梯度,梯度继续进行反传依次经过换脸模型中的生成器模型G1、编码器模型arcface再传到源图Xs上,在Xs每一个像素点存在一些经过反向传播计算出的梯度g;
步骤310:用sign函数作用于步骤309生成的在原图的梯度g得到sign(g),sg再乘以扰动步长eps_iter得到当前扰动ptmp
步骤310所述sign函数是指,如果输入是0输出是0;如果输入大于0,则输出1;如果输出小于0,则输出-1;如果输入是多维向量则对向量的每一个元素进行同样作用;
步骤311:将临时攻击图片Xtmp加上当前扰动得到最新图片Xn=Xs+ptmp,经过扰动上界的阶段后得到实际扰动ptmp=clip(Xn,-eps,eps)-Xtmp
步骤312:将实际扰动ptmp赋值给扰动p;
步骤313:重复迭代步骤306-312,直至到达设定的迭代轮数;
步骤314:经过多步梯度下降攻击后将生成的对抗噪声p加在原图上,即得到添加保护噪声的图像,将该图像替代原图中心部分得到最终攻击图像版本;
步骤315:对换脸模型的对抗攻击结束。
7.根据权利要求6所述的基于对抗学习的数据隐私保护方法,其特征在于,所述目标语义是人脸属性或则水印标志;所述人脸属性包括:衰老年轻,性别,发色;所述水印标志包括红叉,红色区域,黑色区域。
8.根据权利要求6所述的基于对抗学习的数据隐私保护方法,其特征在于,将图片真实度标签加入到目标标签,用于直接实现非语义的破坏攻击。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于对抗学习的数据隐私保护方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于对抗学习的数据隐私保护方法的计算机程序。
CN202210372873.XA 2022-04-11 2022-04-11 一种基于对抗学习的数据隐私保护方法 Pending CN115936958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210372873.XA CN115936958A (zh) 2022-04-11 2022-04-11 一种基于对抗学习的数据隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210372873.XA CN115936958A (zh) 2022-04-11 2022-04-11 一种基于对抗学习的数据隐私保护方法

Publications (1)

Publication Number Publication Date
CN115936958A true CN115936958A (zh) 2023-04-07

Family

ID=86556347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210372873.XA Pending CN115936958A (zh) 2022-04-11 2022-04-11 一种基于对抗学习的数据隐私保护方法

Country Status (1)

Country Link
CN (1) CN115936958A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402916A (zh) * 2023-06-08 2023-07-07 北京瑞莱智慧科技有限公司 人脸图像的还原方法、装置、计算机设备及存储介质
CN117113418A (zh) * 2023-10-18 2023-11-24 武汉大学 基于迭代优化的抗图像增强数据脱敏方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402916A (zh) * 2023-06-08 2023-07-07 北京瑞莱智慧科技有限公司 人脸图像的还原方法、装置、计算机设备及存储介质
CN116402916B (zh) * 2023-06-08 2023-09-05 北京瑞莱智慧科技有限公司 人脸图像的还原方法、装置、计算机设备及存储介质
CN117113418A (zh) * 2023-10-18 2023-11-24 武汉大学 基于迭代优化的抗图像增强数据脱敏方法及系统
CN117113418B (zh) * 2023-10-18 2024-01-16 武汉大学 基于迭代优化的抗图像增强数据脱敏方法及系统

Similar Documents

Publication Publication Date Title
Li et al. Anonymousnet: Natural face de-identification with measurable privacy
Quiring et al. Backdooring and poisoning neural networks with image-scaling attacks
CN115936958A (zh) 一种基于对抗学习的数据隐私保护方法
US12008471B2 (en) Robustness assessment for face recognition
JP2021528728A (ja) 疑似画像を使用した顔画像認識
CN112836798A (zh) 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN112883874B (zh) 针对深度人脸篡改的主动防御方法
Mejia et al. Robust or private? adversarial training makes models more vulnerable to privacy attacks
CN114169002A (zh) 一种关键点差分隐私驱动的人脸图像隐私保护方法
CN113627543A (zh) 一种对抗攻击检测方法
Ge et al. Contributions of shape, texture, and color in visual recognition
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
He et al. Type-I generative adversarial attack
Zhang et al. CNN-based anomaly detection for face presentation attack detection with multi-channel images
CN114036553A (zh) 一种结合k匿名的行人身份隐私保护方法
CN111860266B (zh) 基于深度特征的伪装人脸识别方法
CN116824695B (zh) 一种基于特征去噪的行人再识别非局部防御方法
CN114299327A (zh) 一种基于内容特征的对抗补丁伪装生成方法
Liu et al. First Steps in Pixel Privacy: Exploring Deep Learning-based Image Enhancement against Large-Scale Image Inference.
CN112668401A (zh) 一种基于特征解耦合的人脸隐私保护方法和装置
CN113723560A (zh) 一种面向ar应用的基于生成对抗网络的对抗样本生成方法
Traboulsi Deepfakes: Analysis of threats and countermeasures
Kodandaram et al. Face recognition using truncated transform domain feature extraction.
Lee et al. Adversarial spatial frequency domain critic learning for age and gender classification
Kelly et al. Exploring Face De-Identification using Latent Spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination