CN113033511B

CN113033511B - 一种基于操控解耦身份表示的人脸匿名方法

Info

Publication number: CN113033511B
Application number: CN202110556372.2A
Authority: CN
Inventors: 王伟; 董晶; 彭勃; 李东泽; 马天翔
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-10
Anticipated expiration: 2041-05-21
Also published as: CN113033511A

Abstract

本发明提供一种基于操控解耦身份表示的人脸匿名方法，包括：训练数据准备处理阶段，具有身份解耦能力的生成模型的训练阶段；人脸信息的操纵阶段；测试阶段；利用生成模型的去耦能力，以已有的人脸特征提取网络所提取的特征作为监督信号，将人脸图片的属性信息以及身份信息分别解耦。在顺利的解耦出人脸的属性信息以及身份信息之后，该方法保持属性信息不变，同时对身份信息进行操纵，以达到对人脸图片进行匿名化的目的。该方法主要包括以下阶段；本方法可以将图片和视频帧中已有的人脸进行匿名化处理，匿名化后的人脸图片或者视频帧在保持与原图高度相似的同时，不能够被已有的人脸识别系统检测为原身份，从而有效保护原人脸图片持有者的隐私。

Description

一种基于操控解耦身份表示的人脸匿名方法

技术领域

本发明涉及人脸匿名图像、计算机视觉与隐私保护领域，尤其涉及一种基于操控解耦身份表示的人脸匿名方法。

背景技术

近年来，随着深度学习在图像分类，目标检测，度量学习等领域的蓬勃发展，人脸的检测，比对，识别等技术也展现出了快速的进展。与此同时，人脸的隐私保护问题也越发严重。人脸包含着个人的身份信息，可以用于个人的支付，出行，检索，亦可以作为模型的训练数据。人脸数据对于个人，企业，乃至国家都有着重要的价值，每个人的人脸都是独一无二的，它不像数字密码那样可以随意更换，也不像指纹识别那样可以任意使用其中一根手指，每个人的“人脸密码”都是不可替代的，然而，人脸数据往往通过日益发达的社交媒体上传至云端，让数据泄露成为许多人的困扰，不法分子可能通过利用某一用户的人脸信息，欺骗人脸识别系统，非法入侵其银行账户，或用于其他不法用途，进而造成安全，财产损失。同时，大量企业在未经用户允许的情况下爬取用户的人脸数据用于商业用途，对个人的隐私，乃至社会的稳定造成了不利的影响。所以，如何对图像以及视频中的人脸进行匿名化处理，使得处理后的人脸不影响下游任务的同时，不包含个人的身份信息，是计算机视觉以及人脸识别领域的一个重要的研究课题。

现阶段已经有较多的人脸匿名的方法被提出。人脸匿名可以归结为传统方法和基于深度学习的方法。传统方法包括对人脸的进行模糊，涂抹，遮挡等处理，这些方法能够有效的去除人脸的身份信息，但是处理后的人脸往往遭到了极大的破坏，丧失了可用性。目前的基于深度学习的人脸匿名方法大多数基于生成模型，即利用GAN，autoencoder等生成模型生成一张新的匿名的人脸来替换原图片或者视频中的人脸。传统的人脸匿名方法，可以参考文献：Elaine M Newton, Latanya Sweeney, and Bradley Malin. Pre- servingprivacy by de-identifying face images. Ralph Gross, Latanya Sweeney, FernandoDe la Torre, and Si- mon Baker, “Model-based face de-identification,” in IEEEWorkshop on Privacy Research in Vision (PRV), 2006. Ralph Gross,EdoardoAiroldi, Bradley Malin, and Latanya Sweeney, “Integrating utility intoface de-identification,” in International Workshop on Privacy EnhancingTechnologies, 2005. 以及参考文献Ralph Gross, Latanya Sweeney, Fernando De LaTorre, and Si- mon Baker, “Semi-supervised learning of multi-factor modelsfor face de-identification,” in CVPR, 2008.对于基于生成模型的人脸匿名方法，可参考文献：Karla Brkic, Ivan Sikiric, Tomislav Hrkac, and Zoran Kalafatic, “Iknow that person: Generative full body and face de-identification of peoplein images,” in CVPR Workshops, 2017. Qianru Sun, Liqian Ma, Seong Joon Oh,Luc Van Gool, Bernt Schiele, and Mario Fritz, “Natural and effectiveobfuscation by head inpainting,” in CVPR, 2018.以及参考文献：Oran Gafni, LiorWolf, and Yaniv Taigman. Live face de- identification in video. In IEEEInternational Conference on Computer Vision, ICCV 2019, Seoul, South Korea,October 27 - November 2, 2019, 2019. 以及参考文献：Maxim Maximov, IsmailElezi, and Laura Leal-Taix´e. Ciagan:Conditional identity anonymizationgenerative adversarial networks. Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition, pages 5447–5456, 2020.

专利申请号CN111242837A提供一种基于生成对抗网络的人脸匿名隐私保护方法。本发明专利申请首先对人脸图像数据预处理；然后构建生成对抗网络结构；再建立人脸区域匿名的目标函数；然后建立场景内容区域保留的目标函数；随后进行人脸匿名与场景保留的目标函数的结合；最后采用公开数据集进行训练及测试，输出最终结果。本方法对图像中人脸区域进行合成脸的替换而达到人脸匿名的效果，相对以往的马赛克遮挡的方法更高效并且在视觉上更友好。本发明专利申请方法具有高效性与实用性，对人物图像的隐私保护更高效和美观。

专利申请号CN112668401A公开一种基于特征解耦合的人脸隐私保护方法和装置。该方法包括：1)数据预处理，预先训练身份特征提取器EI和外貌特征提取器EA。2)训练人脸伪装生成模型执行相同人脸生成任务。3)训练人脸伪装生成模型执行不同人脸生成任务。4)完成模型训练后，采用已训练的EI、EA和G网络对输入人脸图像进行伪装人脸图像生成。其中步骤1)使用分类损失对EI和EA进行预训练。步骤2)使用人脸重建损失进行模型训练。步骤3)分别设计了外貌特征和身份特征的L2范数损失函数，以约束模型特征提取的准确性以及生成结果的可控性。本发明专利申请能够实现保持人脸身份匹配的同时显著改变人脸的外观特征，并通过实验数据证明了隐私保护的有效性。

已有的基于生成模型的方法，虽然能够较好的保证人脸的匿名成功率以及生成人脸的质量，但存在如下几个问题：1：目前方法生成的匿名人脸虽然可以摆脱人脸识别网络的检测，但往往与原图的相似度较低。 2：目前方法生成的人脸图片中，身份信息与属性信息高度耦合，修改身份信息时候容易对我们希望保持的源图像的属性也造成影响。3：目前方法生成的人脸的匿名程度不可控，并且一些已有的匿名方法直接将其他身份的脸换到当前图片上，容易造成不必要的损失。4：目前方法生成的匿名人脸缺乏多样性，不同身份匿名后的人脸可能趋向于类似的相貌。因此，我们提出了一种基于去耦生成模型的人脸匿名方法来解决以上问题。我们的方法将人脸图片的身份信息以及属性信息解耦，以一种可以操控的方式修改人脸并且使其匿名化，并且通过随机采样的方式提高生成人脸的多样性。

发明内容

有鉴于此，本发明提供基于操控解耦身份表示的人脸匿名方法。

具体地，本发明是通过如下技术方案实现的：

本发明提供的一种基于操控解耦身份表示的人脸匿名方法，包括：

S1：数据处理阶段：构造人脸图像数据集，构造每个人物n张图像， k个人物，总图像数目N张的数据集，并且划分为训练集Dtrain和测试集Dtest；将训练集Dtrain和测试集Dtest输入已有的、训练好的人脸特征提取网络，提取人脸的身份信息特征；

S2：生成模型的训练阶段：生成模型包括：编码器和解码器，编码器的输入为图像I，输出为身份信息特征Id和属性信息特征Att；解码器的输入为属性信息特征Att和身份信息特征Id，输出图像Iout；属性信息特征Att为：姿势、光照、表情和图像背景；身份信息特征Id为：五官大小和形状；

在训练集Dtrain中，分别以相同身份和不同身份的图像对的形式输入编码器，每个所述图像对的第一张图记为I₁，第二张图记为I₂，编码器以特征向量的形式分别输出图片I₁和I₂的身份信息特征和属性信息特征，分别记为Att1，Id1和Att2，Id2；

将第一张图I₁的身份信息特征Id1和第二张图I₂的属性信息特征Att2作为一组，第一张图I₁的属性信息特征Att1和第二张图I₂的身份信息特征作Id2为一组，即Att2，Id1和Att1，Id2，输入解码器，生成图像Iout₁₂和Iout₂₁；

所述生成模型的训练采用的损失函数包括条件多尺度重建损失，具体构建方法为：当图像对中的两张图像的身份信息特征相同，属性信息特征不同时，生成图像Iout₁₂的身份信息特征和属性信息特征与图像I₁的身份信息特征和属性信息特征相同，定义为：生成的图像和I₁重建损失；当图像对中的两张图像的身份信息特征不同，属性信息特征不同时，生成图像Iout₁₂的属性信息特征与图像I₁的属性信息特征相同；生成图像Iout₁₂的身份信息特征与图像I₂的身份信息特征相同，定义为：生成的图像与I₁和I₂局部相似度损失；

S3：操纵阶段：在测试集Dtest中，将需要进行匿名化的图像输入训练好的生成模型的编码器，得到测试身份信息特征Id_t和测试属性信息特征Att_t；将所述测试身份信息特征Id_t旋转参考值的角度，得到旋转后的身份特征Id_rot；应用测试身份信息特征Id_t和旋转后的身份特征Id_rot进行插值，得到身份信息插值特征Id_new；

将测试属性信息特征Att_t和身份信息插值特征Id_new输入训练好的生成模型的解码器，得到匿名图像；

S4：测试阶段：计算所述匿名图像的身份信息特征与所述需要进行匿名化的图像的身份信息特征的距离，如果所述距离小于一定阈值，则匿名成功，所述距离为余弦相似度；

如果匿名未成功，减小所述身份信息插值特征Id_new与旋转后的身份特征Id_rot的距离直到所述匿名图像的身份信息特征与所述需要进行匿名化的图像的身份信息特征的距离小于一定阈值。

优选地，n>5,所述k>1200,所述N>200000。

优选地，条件多尺度重建损失的具体损失函数为：

其中，

：生成的图像和I₁重建损失；

：生成的图像与I₁和I₂局部相似度损失；

λ：控制两项损失的比例，训练时设置为1；

c：超参数，c∈{0,1}。

优选地，生成的图像和I₁重建损失的具体公式为：

，

其中，

E _I1,I2：期望；

G(Att ₁,Id ₂)：身份信息特征相同条件下的生成图像，也就是Iout₁₂。

优选地，生成的图像与I₁和I₂局部相似度损失的具体公式为：

，

其中，

：为大小按照输入大小的1/8，1/16，1/32选取的Iout₁₂的局部图像块；

：为大小按照输入大小的1/8，1/16，1/32选取的I₁的局部图像块；

：为判别器，其输入为一组图像块，所述一组图像块为2个图像块，输出为两图像块属于同一图像的分数。

优选地，损失函数还包括，身份向量约束损失：

其中，

f(·)：已有的、训练好的人脸特征提取网络；

cossim(·)：余弦相似度。

优选地，损失函数还包括，引入了生成对抗网络的生成-对抗机制，对抗损失公式为：

其中，

D(·)：生成对抗网络的分类器；

I：编码器的输入图像；

E _I(·)：期望。

优选地，损失函数＝所述条件多尺度重建损失+所述身份向量约束损失+所述对抗损失。

优选地，将所述测试身份信息特征Id_t旋转参考值的角度的具体公式为：

所述参考值大于arccos0.28。

优选地，应用测试身份信息特征Id_t和旋转后的身份特征Id_rot进行插值的具体公式为：

Id_new=Id_t*(1-i)+Id_rot*i

其中，0≤i≤1，测试时令i=1；

所述减小所述身份信息插值特征Id_new与旋转后的身份特征Id_rot的距离的方法为：增加i的取值。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例提供的该方法，可以将图片和视频帧中已有的人脸进行匿名化处理，匿名化后的人脸图片或者视频帧在保持与原图高度相似的同时，不能够被已有的人脸识别系统检测为原身份，从而有效保护原人脸图片持有者的隐私。

附图说明

图1为本发明实施例提供的基于操控解耦身份表示的人脸匿名方法训练阶段流程图；

图2为本发明实施例提供的基于操控解耦身份表示的人脸匿名方法操纵阶段流程图；

图3为本发明实施例提供的基于操控解耦身份表示的人脸匿名方法测试阶段流程图；

图4为本发明实施例提供的基于操控解耦身份表示的人脸匿名方法模型结构图；

图5为本发明实施例提供的精准的操控输入人脸的身份特征效果图；

图6为本发明实施例提供的固定身份向量方向而改夹角θ的大小的示意图；

图7为本发明实施例提供的最终的测试效果图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1、图2和图3所示，本发明实施例提供的基于操控解耦身份表示的人脸匿名方法，包括：

S1：数据处理阶段：构造人脸图像数据集，构造每个人物n张图像， k个人物，总图像数目N张的数据集，并且划分为训练集Dtrain和测试集Dtest；将所述训练集Dtrain和测试集Dtest输入已有的、训练好的人脸特征提取网络，提取人脸的身份信息特征；所述n>5,所述k>1200,所述N>200000；使用了CelebA，VGGFace2的训练集训练模型，CelebA，VGGFace2的测试集，以及FFHQ的视频帧作为测试集以评估模型性能；

S2：利用已有的人脸特征提取网络，提取人脸的身份信息特征，该人人脸特征提取网络采用在人脸数据集上面预训练好的分类模型作为特征提取网络，输入为一个batch的人脸图片，输出为一个[batchsize,512]维度的向量，对应batch中各个图片的身份信息特征，该身份特征的维度与编码器的身份信息特征输出维度相同；

如图4所示，生成模型的训练阶段：所述生成模型包括：编码器和解码器，所述编码器的输入为图像I，输出为身份信息特征Id和属性信息特征Att；所述解码器的输入为属性信息特征Att和身份信息特征Id，输出图像Iout；所述属性信息特征Att为：姿势、光照、表情和图像背景；所述身份信息特征Id为：五官大小和形状；

在训练集Dtrain中，分别以相同身份和不同身份的图像对的形式输入所述编码器，每个所述图像对的第一张图记为I₁，第二张图记为I₂，编码器以特征向量的形式分别输出图片I₁和I₂的身份信息特征和属性信息特征，分别记为Att1，Id1和Att2，Id2；

所述生成模型的训练采用条件多尺度重建损失，具体构建方法包括：当图像对中的两张图像的身份信息特征相同，属性信息特征不同时，生成图像Iout₁₂的身份信息特征和属性信息特征与图像I₁的身份信息特征和属性信息特征相同，定义为：生成的图像和I₁重建损失；当图像对中的两张图像的身份信息特征不同，属性信息特征不同时，生成图像Iout₁₂的属性信息特征与图像I₁的属性信息特征相同；生成图像Iout₁₂的身份信息特征与图像I₂的身份信息特征相同，定义为：生成的图像与I₁和I₂局部相似度损失；

所述条件多尺度重建损失的具体损失函数为：

其中，

：生成的图像和I₁重建损失；

：生成的图像与I₁和I₂局部相似度损失；

λ：控制两项损失的比例，训练时设置为1；

c：超参数,c∈{0,1}，根据图像对中图像是否是同一身份取值0或者1，当输入的图像对中的两张图像为相同身份时，c=1，为不同身份时，c=0；

所述生成的图像和I₁重建损失的具体公式为：

，

其中，

E _I1,I2：期望；

G(Att ₁,Id ₂)：身份信息特征相同条件下的生成图像，也就是Iout₁₂；

所述生成图像与I₁和I₂局部相似度损失的具体公式为：通过最大化Iout₁₂和I₁的图像块属于同一图像的分数来保证Iout₁₂和I₁的属性信息尽可能一致，

，

其中，

：为判别器，其输入为一组图像块，所述一组图像块为2个图像块，输出为两图像块属于同一图像的分数；

所述损失函数还包括，身份向量约束损失：期望编码器能够较好的提取人脸图像的身份信息特征，编码器所输出的身份向量能够与既有的人脸识别网络所输出的特征向量相接近。因此，我们试图拉近：生成图像I与身份提供图像在预训练好的人脸识别网络所提取的特征之间的距离，以及编码器输出的身份信息特征Id与预训练好人脸识别网络所提取的特征之间的余弦相似度距离，

其中，

f(·)：已有的、训练好的人脸特征提取网络；

cossim(·)：余弦相似度；

该损失目的为最大化编码器输出的身份特征向量和人脸特征提取网络提取的身份提供图像的特征向量之间的余弦相似度，以及输出图像和身份提供图像的特征向量之间的余弦相似度。

所述损失函数还包括，引入了生成对抗网络的生成-对抗机制，以便拟合数据分布，从而使得生成的人脸与真实的人脸保持接近，对抗损失公式为：

其中，

D(·)：生成对抗网络的分类器；

I：编码器的输入图像；

E _I(·)：期望；

模型结构：具体参考了StyleGAN的分类器的网络结构，人脸特征提取网络为在CASIA-webface数据集上预训练好的FaceNet模型，在模型的训练过程中该网络固定。

训练过程：所有网络的训练都使用Adam优化器，学习率为0.002，一二阶动量参数数为0.5和0.99，学习率权重衰减参数0.9,迭代40000次。

所述损失函数为，所述条件多尺度重建损失+身份向量约束损失+对抗损失；

S3：操纵阶段：

选择需要进行匿名化的对象，若对图像进行匿名，则需检测并裁剪处图像中的人脸。若是视频，则需要将视频的进行检测并裁剪处理，在将处理后的图像拼接回原视频并进行渲染等操作以保证视频的连续性，人脸的检测，对齐裁剪可以通过MTCNN，SSH等方法实现。

在测试集Dtest中，将需要进行匿名化的图像输入训练好的生成模型的编码器，得到测试身份信息特征Id_t和测试属性信息特征Att_t；将所述测试身份信息特征Id_t旋转参考值的角度，得到旋转后的身份特征Id_rot；应用测试身份信息特征Id_t和旋转后的身份特征Id_rot进行插值，得到身份信息插值特征Id_new；

如图6所示，所述将所述测试身份信息特征Id_t旋转参考值的角度的具体公式为：

所述参考值大于arccos0.28；

由于Idsrc与Idrot（可以认为是修改前后的身份信息）的余弦相似度距离始终小于某一定值，输出图像与原图像在人脸识别网络中的特征空间的余弦相似度距离也会小于某一定值，而l2距离会大于某一定值。从而达到匿名的目的；

S4：测试阶段：计算所述匿名图像的身份信息特征与所述需要进行匿名化的图像的身份信息特征的距离，如果所述距离小于一定阈值，距离采用余弦相似度时该阈值设为0.28，则匿名成功，所述距离为余弦相似度；

如果匿名未成功，减小所述身份信息插值特征Id_new与旋转后的身份特征Id_rot的距离直到所述匿名图像的身份信息特征与所述需要进行匿名化的图像的身份信息特征的距离小于一定阈值；

所述应用测试身份信息特征Id_t和旋转后的身份特征Id_rot进行插值的具体公式为：

Id_new=Id_t*(1-i)+Id_rot*i

其中，0≤i≤1；

S5：采用DeepfaceLab将生成的匿名人脸图像拼接，渲染回原包含人脸的图像，人脸图像是从图像或视频帧中经过检测，对齐，裁剪等步骤获得，经过匿名化处理后的人脸图像如果直接拼接回原图像或视频帧，会导致图像的视觉效果下降以及视频的抖动。因此需要经过渲染以保证生成图像的视觉质量并防止生成的视频抖动。

实施例1

所述条件多尺度重建损失的具体损失函数为：

其中，

：生成的图像和I₁重建损失；

：生成的图像与I₁和I₂局部相似度损失；

λ：控制两项损失的比例，训练时该值设置为1；

c：超参数，c∈{0,1}，根据图像对中图像是否是同一身份取值0或者1，当输入的图像对中的两张图像为相同身份时，c=1，为不同身份时，c=0；

所述生成的图像和I₁重建损失的具体公式为：

，

其中，

E _I1,I2：期望；

，

其中，

其中，

f(·)：已有的、训练好的人脸特征提取网络；

cossim(·)：余弦相似度；

其中，

D(·)：生成对抗网络的分类器；

I：编码器的输入图像；

E _I(·)：期望；

S3：操纵阶段：

所述参考值大于arccos0.28；

S4：测试阶段：计算所述匿名图像的身份信息特征与所述需要进行匿名化的图像的身份信息特征的距离，如果所述距离小于一定阈值，距离采用余弦相似度时该阈值为0.28，则匿名成功，所述距离为余弦相似度；

Id_new=Id_t*(1-i)+Id_rot*i

其中，0≤i≤1，在测试时通常取i=1；

所述减小所述身份信息插值特征Id_new与旋转后的身份特征Id_rot的距离的方法为：增加i的取值。图5展示的是操纵解耦的人脸身份表示向量所生成的人脸图像结果。

图7 展示了本发明的测试实验效果。第一列为输入的待匿名人脸图像，之后各列为多种人脸匿名结果图，它们通过操控输入图像的解耦身份表示向量来生成。

与其他方法的对比结果表格如表1和表2所示。表1展示的是人脸验证网络模型（FaceNet网络分别在VGGFace2和CASIA数据集上训练的模型）对于不同人脸匿名方法的验证准确率指标（数字越小代表人脸匿名效果越好，粗体为该项最好结果）。表2展示的是不同人脸匿名方法在各项定量评价指标下的对比结果（粗体为该项最好结果）。

表 1

表 2

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。