CN113642409A

CN113642409A - 一种人脸匿名化系统及方法、终端

Info

Publication number: CN113642409A
Application number: CN202110802113.3A
Authority: CN
Inventors: 宋利; 温云倩; 解蓉
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-12

Abstract

本发明提供了一种人脸匿名化系统及方法、终端，方法包括：训练人脸匿名化网络，人脸匿名化网络包括身份编码器、编解码器和特征融合网络，身份编码器、编解码器分别获取原始人脸图像的高级身份特征代表、多级属性特征代表；特征融合网络将高级身份特征代表与多级属性特征代表进行特征融合，得到原始人脸图像的恢复图像；特征融合经过训练，能实现高级身份特征代表与多级属性特征代表的良好解纠缠；设计差分隐私机制，生成待处理人脸图像的被混淆的身份特征代表；将待处理人脸图像的被混淆的身份特征代表与身份特征代表输入训练好的特征融合网络，生成匿名化的人脸。本发明能实现高质量的人脸匿名化。

Description

一种人脸匿名化系统及方法、终端

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种人脸匿名化系统及方法、终端。

背景技术

人脸匿名化是计算机视觉领域极具挑战性的一项任务，其目标是对给定人脸图像的身份信息进行保护，同时保持原图像的外表，表情与背景等信息不变。这项技术具备相当广泛的应用，能够有效降低随着智能手机的广泛应用、多媒体网络技术的迅猛发展、人脸图像的易于获得以及先进的视觉技术的发展而导致的个人隐私泄露的风险。尽管近年来生成对抗网络已经在诸如人脸属性转换、妆容转换等域迁移任务中取得了相当出色的表现，但是在人物匿名化任务上仍有很大的提升空间。

匿名化任务的挑战性首先体现在任务自身的高难度，其核心问题在于两方面：其一，输入的人脸图片在实际中不存在匿名化的图像，这就导致匿名化模型在训练过程中没有真实匹配图像，不利于训练好模型与生成良好的图像。其二，人脸匿名化需要做好隐私性与实用性的平衡，希望获得视觉上几乎相似但实际身份已经被隐藏，即生成假身份的图像，人眼对于人脸的图像非常敏感，因此需要对隐私性和实用性都进行考虑的生成方法才能实现高质量的匿名化。

其次，现有方法难以满足高质量的人脸匿名化。传统的基于混淆的匿名化方法通常采取简单的混淆手段，如模糊、马赛克、涂黑等方式，处理人脸区域，极大损伤了图像的可用性，却仍然可以被先进的人脸验证技术识别。现有方法大致可分为两类，其中基于对抗性扰动的匿名化方法可以产生肉眼几乎无法分别的匿名化图像，却依赖于对目标系统内部参数的可获得性，因此泛化性能往往不佳。而基于生成对抗网络的方法多需要预先的数据标注作为输入条件，所以在人脸匿名化上的能力十分有限，无法满足高质量的匿名化要求。

因此，急需研究一种满足高质量匿名化要求的人脸匿名化技术。

发明内容

本发明针对现有技术中存在的上述技术问题，提出了一种人脸匿名化系统及方法、终端。

根据本发明的一个方面，提供了一种人脸匿名化方法，包括：

训练人脸匿名化网络，所述人脸匿名化网络包括身份编码器、编解码器和特征融合网络，其中，所述身份编码器获取原始人脸图像的高级身份特征代表，所述编解码器获取原始人脸图像的多级属性特征代表；所述特征融合网络将所述高级身份特征代表与所述多级属性特征代表进行特征融合，得到原始人脸图像的恢复图像；所述特征融合网络经过训练，能实现所述高级身份特征代表与所述多级属性特征代表的良好解纠缠；

对待处理人脸图像，根据用户的隐私预算设计差分隐私机制，生成该待处理人脸图像的被混淆的身份特征代表；

将所述待处理人脸图像的被混淆的身份特征代表与所述待处理人脸图像的身份特征代表一起输入训练好的所述特征融合网络，生成最终的匿名化的人脸。

优选地，所述特征融合网络包括：与编解码器中解码器的层数相同个数的自适应注意力去归一化模块，其中：

已有的高级身份特征代表是经过身份编码器后得到的高级特征图r_id(X)，已有的多级属性特征代表则是一组来自编解码器中解码器的各层输出的多级特征图

这里

代表解码器的第k层特征图，k表示解码器的层标号,k∈n,从1到n特征图尺寸逐渐变大；

第k个自适应注意力去归一化模块输出的特征图与r_id(X)和

一起作为输入，通过第k+1个自适应注意力去归一化模块，自适应地调整身份嵌入和属性嵌入的有效区域，使它们能够参与人脸不同部位的大小合成，得到第k+1张特征图，最终恢复得到原始人脸图像。

根据本发明的第三个方面，提供一种人脸匿名化系统，包括：

身份编码器：根据输入的原人脸图像，编码得到代表该人身份信息的高级身份特征代表；

编解码器：根据输入的原人脸图像，进行先编码再解码的操作，对应的相同尺寸的特征图之间从编码器到解码器的跨越连接，将解码器的各层特征图的集合，作为代表原人脸的各种属性信息的多级属性特征代表；

特征融合网络：将已有的高级身份特征代表和多级属性特征代表进行特征融合，恢复得到原人脸图像，并且经过训练实现身份特征代表与属性特征代表的良好解纠缠；训练好的融合网络在固定参数后，根据多级属性特征代表能生成匿名化的人脸；

隐私机制模块：根据实际的隐私预算，设计扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表，与原人脸图像的多级属性特征代表一起送入所述特征融合网络，实现匿名化人脸的生成。

可选地，所述特征融合网络包括：与编解码器中解码器的层数相同个数的自适应注意力去归一化模块，其中：

这里

第k个自适应注意力去归一化模块输出的特征图与r_id(X)和

优选地，所述融合网络还包含一个生成图像判别器，通过判断生成图像是否符合原始数据集的分布作为训练网络的对抗性损失。特别地，采用瓦瑟斯坦距离作为对抗损失，对图像分块处理下的不同块做判别，最后求取平均值作为真实度，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像。

优选地，所述身份编码器采用余弦相似度作为身份保留损失，是计算生成图像与输入图的高级身份代表的余弦相似度，然后与完全相同图像的余弦相似度求差值作为身份信息变化程度。

优选地，所述编解码器采用l2距离作为属性保留损失，是计算生成图像与输入图的各级属性代表的l2距离，求和后减半作为属性信息的保留程度。

所述特征融合网络经过训练，能实现身份特征代表与属性特征代表的良好解纠缠，包括：

利用生成图像判别器，通过判断生成图像是否符合原始数据集的分布作为训练网络的对抗性损失；

计算原始的人脸图像和原始人脸图像的恢复图像分别经过身份编码器得到的高级身份特征代表之间的余弦相似度，作为身份保留损失；

计算原始的人脸图像和原始人脸图像的恢复图像分别经过编解码器得到的各级属性代表的L2距离，求和后减半作为属性保留损失；

计算原始的人脸图像和原始人脸图像的恢复图像的逐像素L2距离作为加强视觉相似度的重建损失；

所有以上损失的加权和作为总损失函数训练身份编码器、编解码器和特征融合网络组成的所述人脸匿名化网络的损失函数，并对其进行训练，得到给定一张人脸图像，能够良好解纠缠其身份特征代表和属性特征代表并恢复出原人脸图像的网络。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

相较于现有技术，本发明实施例具有以下至少一种优点：

(1)本发明提供的人脸匿名化系统及方法、终端，通过人脸高级身份特征代表概括了输入人脸图像的身份信息，使得关于隐私保护的操作可以有针对性地在其上进行，而不会扰动其他无关信息，从而有效地保证了隐私性与实用性的平衡；人脸多级属性特征代表则包含了各种尺度的属性特征信息，能够有效地保证匿名化人脸与原人脸的视觉相似度；进一步的，自适应注意力去归一化模块将高级身份特征代表与多尺度属性特征代表的各个尺寸的特征图融合，最终恢复得到原始人脸图像；

(2)本发明提供的人脸匿名化系统及方法、终端，将人脸高级身份特征代表与人脸多级属性特征代表通过自适应注意力去归一化模块构成的融合网络进行融合，而不是直接在输入时结合两者；身份特征代表应相对侧重于合成对识别身份最具鉴别性的面部部位，如眼睛、嘴和面部轮廓，而属性特征则涵盖多尺度信息，在图像的从高级到低级特征空间中逐步地进行两者的结合，有利于模型更好地学习到特征表达；本发明通过在网络的中间阶段结合身份和属性特征代表，可以避免直接结合两者所造成的问题；

(3)本发明提供的人脸匿名化系统及方法、终端，通过让生成图像判别器为是否符合原始数据集的分布作为训练网络的对抗性损失。特别地，采用瓦瑟斯坦距离作为对抗损失，对图像分块处理下的不同块做判别，最后求取平均值作为真实度，将分块处理的思想结合到合成网络判别器中，不仅提高了合成网络判别器的鲁棒性，还对图像的纹理和细节等局部信息产生了非常有效的判别式指导；

(4)本发明提供的人脸匿名化系统及方法、终端，通过身份保留损失、属性保留损失、重建损失组成的共同约束来训练由身份编码器、U-Net结构的编解码器和融合网络构成的总体网络解纠缠人脸图像身份信息和属性信息，再由两类解纠缠信息恢复出原人脸的功能；

(5)本发明提供的人脸匿名化系统及方法、终端，使用对所述生成图像判别器进行梯度惩罚，从而达到稳定总体网络的训练目标。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的人脸匿名化方法的流程图；

图2为本发明一较优实施例的人脸匿名化方法的流程图；

图3为本发明一实施例的人脸匿名化系统结构示意图；

图4为本发明一实施例的融合网络的结构示意图；

图5为本发明一实施例的多隐私预算生成结果效果图；

图6为本发明一实施例中生成结果与现有不同方法的生成结果比较图；

图7为本发明一实施例中挑战性的光照条件下的生成结果效果图；

图8为本发明一实施例中艺术肖像的生成结果效果图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例的人脸匿名化方法的流程图。参照图1所示，本实施例中人脸匿名化方法包括如下步骤：

S100，训练人脸匿名化网络，人脸匿名化网络包括身份编码器、编解码器和特征融合网络，其中，身份编码器获取原始人脸图像的高级身份特征代表，编解码器获取原始人脸图像的多级属性特征代表；特征融合网络将高级身份特征代表与多级属性特征代表进行特征融合，得到原始人脸图像的恢复图像；特征融合网络经过训练，能实现高级身份特征代表与多级属性特征代表的良好解纠缠；

人脸高级身份特征代表概括了输入人脸图像的身份信息，使得关于隐私保护的操作可以有针对性地在其上进行，而不会扰动其他无关信息，从而有效地保证了隐私性与实用性的平衡；人脸多级属性特征代表则包含了各种尺度的属性特征信息，能够有效地保证匿名化人脸与原人脸的视觉相似度。

S200，对待处理人脸图像，根据用户的隐私预算设计差分隐私机制，生成该待处理人脸图像的被混淆的身份特征代表；

S300，将待处理人脸图像的被混淆的身份特征代表与待处理人脸图像的身份特征代表一起输入训练好的特征融合网络，生成最终的匿名化的人脸。

本实施例中，训练得到能够将人脸图像在特征空间解纠缠为高级身份特征代表和多级属性特征代表的由身份编码器、编解码器和特征融合网络组合成的整体网络(人脸匿名化网络)，这个网络可以将输入人脸图像在特征空间解纠缠为代表身份与属性两类特征。本实施例中，原始人脸图像、待处理人脸图像都是指整体网络(人脸匿名化网络)的输入人脸图像，其中原始人脸图像是用于特征融合网络的训练。

本实施例中，人脸高级身份特征代表与人脸多级属性特征代表，是针对特征空间而言的，输入图像经过多层卷积会得到一系列特征图，这里将经过身份编码器的最深层卷积得到的特征图成为“高级”；而经过编解码器的解码器的全部卷积层，每层之后的特征图一起组成多级属性特征代表，被称为“多级”。

本发明上述实施例将人脸高级身份特征代表与人脸多级属性特征代表通过特征融合网络进行融合，而不是直接在输入时结合两者，身份特征代表应相对侧重于合成对识别身份最具鉴别性的面部部位，如眼睛、嘴和面部轮廓，而属性特征则涵盖多尺度信息，在图像的从高级到低级特征空间中逐步地进行两者的结合，有利于整体网络更好地学习到特征表达；通过在网络的中间阶段结合身份和属性特征代表，可以避免直接结合两者所造成的问题。

在本发明另一优选实施例中，图2为本发明一较优实施例的人脸匿名化方法的流程图。具体的，本优选实施例所提供的人脸匿名化方法，包括如下步骤：

S11，利用身份编码器，计算输入的原人脸图像的高级身份特征代表；

S12，利用U-Net结构的编解码器，根据输入的原人脸图像，将解码器的各层特征图的集合，计算输入的原人脸图像的多级属性特征代表；

S13，将相同人脸图像的高级身份代表和多级属性代表作为输入条件，一起送入特征融合网络，恢复得到原人脸图像，并且特征融合网络经过训练实现人脸高级身份特征代表与人脸多级属性特征代表的良好解纠缠；此外，训练好的特征融合网络可以在固定参数后，根据处理后的身份特征代表生成匿名化的人脸；

S14，利用根据实际情况制定的拉普拉斯差分隐私机制，设计合适的扰动添加方式以获得被混淆的身份特征代表，从而对能够与原人脸的属性特征一起，合成匿名化的人脸。

本发明上述优选实施例，融合了数据驱动的生成对抗网络与拉普拉斯差分隐私机制，实现了隐私性与实用性平衡的高质量人脸匿名化。

作为一优选实施例，利用身份编码器，计算输入图像的高级身份特征代表的方法，包括：

r_id(X)＝f(X)

其中，X代表身份编码器的输入图像，函数f代表身份编码器的编码过程，r_id(X)代表针对输入图像提取出的高级身份特征代表。

作为一优选实施例，利用U-Net结构的编解码器，根据输入的原人脸图像，将解码器的各层特征图的集合，计算输入图像的多级属性特征代表的方法，包括：

其中，X代表U-Net结构的编解码器的输入图像，函数g代表将输入图像先编码再解码的过程，得到不同尺寸的解码特征图

k表示解码器的层标号，k∈n，从1到n特征图尺寸逐层增大；

将编码器第k层的编码特征与第k-1层的解码特征级联，然后依次通过反卷积层、归一化层和激活层，得到第k个属性特征

作为一优选实施例，为了实现人脸的匿名化，利用根据实际情况制定的拉普拉斯差分隐私机制，设计合适的扰动添加方式以获得被混淆的身份特征代表的方法，可以用以下方式实现：

其中，

为被混淆的身份特征代表,ε为根据实际情况设定的隐私预算，Δf为敏感度：

利用噪声生成器根据设定的隐私预算和所用数据集的敏感度，生成与高级身份特征代表相同尺寸的拉普拉斯噪声，然后将该噪声直接与原始高级身份代表相加，得到被混淆的高级身份特征代表。

作为一优选实施例，将图像的高级身份代表和多级属性代表作为输入条件，一起送入特征融合网络，恢复得到原人脸，可以用以下方式实现：

其中，

代表恢复出的原人脸，r_id(X)代表高级身份特征代表，r_att(X)代表多级属性特征代表，函数h代表包含n个自适应注意力去归一化模块的特征融合网络；

这里经过训练，特征融合网络可以实现身份特征代表与属性特征代表的良好解纠缠；此外，训练好的特征融合网络可以在固定参数后，根据处理后的身份特征代表生成匿名化的人脸。

本优选实施例中融合了人脸高级身份特征代表、人脸多级属性特征代表、自适应注意力去归一化模块，能实现了高质量的人脸匿名化。

作为一优选实施例，特征融合网络经过训练实现身份特征代表与属性特征代表的良好解纠缠，可以包括：

S201,利用生成图像判别器，通过判断生成图像是否符合原始数据集的分布作为训练网络的对抗性损失；

S202,计算原图和生成图分别经过身份编码器得到的高级身份特征代表之间的余弦相似度，作为身份保留损失；

S203,计算原图和生成图分别经过U-Net结构的编解码器得到的各级属性代表的l2距离，求和后减半作为属性保留损失；

S204,计算生成图像与原图的逐像素l2距离作为加强视觉相似度的重建损失；

S205,所有以上损失的加权和作为总损失函数训练身份编码器、U-Net结构的编解码器和特征融合网络组成的整体网络的损失函数，并对其进行训练，得到给定一张人脸，能够良好解纠缠其身份特征代表和属性特征代表并恢复出原人脸的网络。

作为一优选实施例，训练好的特征融合网络可以在固定参数后，合成匿名化的人脸，具体过程为：计算出混淆后的高级身份特征代表后，与原人脸的多级属性特征代表一起，送入固定全部网络参数的融合网络，得到匿名化的人脸。通过该方式，实现最终的匿名化后的人脸图像。

作为一优选实施例，编解码器与特征融合网络的构建过程中，激活函数采用LeakyReLU激活函数。LeakyReLU激活函数为：f(x)＝max(0.01x,x)。该激活函数为深度卷积神经网络添加非线性。

参照以上的优选措施，在本发明另一优选实施例中，人脸匿名化方法可以按照以下步骤进行：

S111，获得特征融合网络所需要的身份特征条件输入：利用身份编码器，以目标人脸作为输入，计算输入图像的高级身份特征代表r_id(X)；

S112，获得特征融合网络所需要的属性特征条件输入：利用U-Net结构的编解码器，根据输入的目标人脸图像，将解码器的各层特征图的集合，计算输入图像的多级属性特征代表

k表示解码器的层标号，k∈n，从1到n特征代表尺寸逐渐变大。

基于以上条件输入，特征融合网络包含与U-Net结构的编解码器中解码器的层数相同个数的自适应注意力去归一化模块和一个生成图像判别器，具体进行以下操作：

利用基于深度学习的生成对抗网络处理身份特征代表与属性特征代表解纠缠，再由解纠缠特征恢复出原目标人脸的问题：将S111得到的高级身份特征代表和S112得到的高级身份特征代表作为输入条件，与原目标人脸图像一起送入特征融合网络；其中，第k个自适应注意力去归一化模块输出的特征图与r_id(X)和

一起作为输入，通过第k+1个自适应注意力去归一化模块，自适应地调整身份嵌入和属性嵌入的有效区域，使它们能够参与人脸不同部位的大小合成，得到第k+1张特征图，这样最终恢复得到原始人脸，通过训练，得到具有良好解纠缠能力与重建能力的生成对抗网络；

对待处理的目标人脸，拉普拉斯差分隐私机制根据实际的隐私预算，设计合适的扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表；

将S113得到的训练好的生成对抗网络的全部参数固定，以得到的混淆的身份特征代表和原目标人脸的多级属性特征代表作为输入，生成匿名化的人脸。

基于上述相同构思，本发明实施例还提供一种人脸匿名化系统，采用生成对抗网络。

具体的，如图3所示，为本发明一优选实施例所提供的人脸匿名化系统结构示意图，该系统包括：

身份编码器，根据输入的原人脸图像，编码得到代表该人身份信息的高级身份特征代表；

U-Net结构的编解码器，根据输入的原人脸图像，进行先编码再解码的操作，对应的相同尺寸的特征图之间有从编码器到解码器的跨越连接，将解码器的各层特征图的集合，作为代表原人脸的各种属性信息的多级属性特征代表；

特征融合网络，用于将已有的身份特征代表和属性特征代表自适应地组合在一起恢复得到原人脸，并且经过训练实现身份特征代表与属性特征代表的良好解纠缠；此外，训练好的融合网络可以在固定参数后，根据处理后的身份特征代表生成匿名化的人脸；

隐私模块，拉普拉斯差分隐私机制根据实际的隐私预算，设计合适的扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表，从而对能够与原人脸的属性特征一起输入特征融合网络，完成匿名化人脸的生成。

作为一优选实施例，特征融合网络包括：与U-Net结构的编解码器中解码器的层数相同个数的自适应注意力去归一化模块；其中：

已有的人脸身份特征代表是经过身份编码器后得到的高级特征图r_id(X)，已有的人脸属性特征代表则是一组来自U-Net结构的编解码器中解码器的各层输出的多级特征图

这里

代表解码器的第k层特征图，k表示解码器的层标号,k∈n,从1到n特征图尺寸逐渐变大。第k个自适应注意力去归一化模块输出的特征图与r_id(X)和

一起作为输入，通过第k+1个自适应注意力去归一化模块，自适应地调整身份嵌入和属性嵌入的有效区域，使它们能够参与人脸不同部位的大小合成，得到第k+1张特征图，这样最终恢复得到原始人脸。这样，训练好的整体网络具有良好的面部特征代表解纠缠能力，且能够根据高级身份特征代表和多级属性特征代表恢复出原人脸。

作为一优选实施例，特征融合网络还包含一个生成图像判别器，通过判断生成图像是否符合原始数据集的分布作为训练网络的对抗性损失。更好地，使用对生成图像判别进行梯度惩罚的稳定训练策略来稳定生成图像判别的训练过程，以避免模式崩溃问题的发生。

作为一优选实施例，身份编码器采用余弦相似度作为身份保留损失，是计算生成图像与输入图的高级身份代表的余弦相似度，然后与完全相同图像的余弦相似度求差值作为身份信息变化程度。

作为一优选实施例，U-Net结构的编解码器采用l2距离作为属性保留损失，是计算生成图像与输入图的各级属性代表的l2距离，求和后减半作为属性信息的保留程度。以上两优选实施例在训练过程中一起作用，以优化人脸匿名化网络的将高级身份特征代表与多级属性特征代表解纠缠的能力。

如图3所示，在部分实施例中，采用拉普拉斯差分隐私机制，根据实际的隐私预算，设计合适的扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表，然后与原人脸的属性特征一起，参与匿名化人脸的生成时，网络不进行任何参数更新，而是固定全部参数只充当重建网络的功能。

在本发明部分实施例中：身份编码器、U-Net结构的编解码器提供条件输入，与融合网络一起构成一生成对抗网络，用来完成人脸图像身份特征与属性特征的解纠缠以及基于这些解纠缠的特征对原人脸进行恢复：根据实际的隐私预算，拉普拉斯差分隐私机制设计合适的扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表，然后与原人脸的属性特征一起通过训练好的融合网络，完成人脸匿名化。身份编码器、U-Net结构的编解码器与融合网络，用于处理训练与推理问题：将目标人脸图像送入身份编码器得到高级特征图作为人脸身份信息的代表、送入U-Net结构的编解码器得到多级特征图作为人脸属性信息的代表、连同原输入图像一起训练融合网络学习从原输入图像到解纠缠的身份特征与属性特征代表的映射，以及从解纠缠特征恢复原人脸图像的映射，再通过拉普拉斯差分隐私机制，完成人脸匿名化。

可见，本发明上述优选实施例中，特征融合网络融合了：采用身份编码器得到代表图像中人物身份信息的高级编码特征；采用U-Net结构的编解码器得到代表原人脸的各种属性信息的多级属性特征代表；采用与U-Net结构的编解码器中解码器的层数相同个数的自适应注意力去归一化模块，逐层融合来自身份编码器的高级身份特征代表、对应层的属性特征代表以及上一分辨率下的自适应注意力去归一化模块的输出作为三个共同输入，从而更好地捕获人脸的身份信息和属性信息，并生成更合理逼真的面部细节。

下面结合具体实例对上述各个步骤中详细技术操作进行说明。

(1)计算人脸高级身份特征代表。

比起直接将目标人脸的身份替换为其他已知公开数据集中的人物身份，使用数据驱动的生成对抗网络解纠缠出代表人脸身份的特征代表、再针对高级身份特征代表进行隐私保护操作具有诸多优势。这是因为人脸匿名化的目的是保护人脸图像的提供者隐私，使其身份信息不会被未受信任的使用者窃取；而如果只是将待处理目标人脸的身份替换为另一人的身份，那么这样的操作很可能会损害被使用身份者的隐私安全，这对保护隐私的人脸匿名化任务是不合适的。

如果使用数据驱动的生成对抗网络解纠缠出代表人脸身份的特征代表，那么当需要匿名化对应的人脸的时候，只需按照实际的隐私预算，由拉普拉斯差分隐私机制设计合适的扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表，这样就得到了实际并不存在的假身份，在完成人脸匿名化的任务的同时，利用可接受的隐私预算达到隐私性与实用性的平衡，且不会侵犯其他人的隐私信息。

由于当前先进的人脸识别与人脸验证技术都是在寻找最佳的能够减小同一人不同图像间的差异同时扩大不同人图像间的区别的特征空间代表，也由此发展出了不同的深度神经网络以实现多种多样的从人脸图像到特征空间的映射，因此人脸匿名化也可被视为一个保护目标人脸的身份特征代表不被正确分类的任务。如图3所示，S111包括使用在大型人脸数据集上预训练的人脸识别模型作为身份编码器，得到待处理人脸的高级身份特征代表的方法，包括：

r_id(X)＝f(X)

(2)计算人脸多级属性特征代表

人脸属性特征代表决定了包括人脸姿态、表情、背景、照明等诸多要素，因此直觉上会比人脸身份特征代表包含更多的空间信息。经验指出，通常地，在大型图像数据集上训练的深度神经网络中低层的特征倾向于保留图像的内容信息和全局的空间结构信息，而高层的特征则倾向于保存图像的颜色、纹理和精细的形状等信息。为了在人脸匿名化任务中尽量保留除身份信息外不同级别的细节信息，在融合网络前采用了U-Net结构的编解码器，其中对应的相同尺寸的特征图之间有从编码器到解码器的跨越连接。如图3所示，S112包括将解码器的各层特征图的集合，作为输入图像的多级属性特征代表的方法，包括：

k表示解码器的层标号，k∈n，从1到n特征图尺寸逐层增大；

(3)特征融合网络

如图3所示，使用目标待处理人脸图像作为输入，通过身份编码器将输入人脸图像映射为高级身份特征代表，通过有跨越连接的U-Net结构的编解码器，获得代表原人脸的各种属性信息的多级属性特征代表。此时，各级属性特征代表分别拥有不同的分辨率，为了与身份特征代表经过融合再恢复出原输入人脸，融合网络包括：与U-Net结构的编解码器中解码器的层数相同个数的自适应注意力去归一化模块以及一个生成图像判别器；

如图4所示，其中S11包括：已有的人脸身份特征代表是经过身份编码器后得到的高级特征图r_id(X)，已有的人脸属性特征代表则是一组来自U-Net结构的编解码器中解码器的各层输出的多级特征图

这里

一起作为输入，通过第k+1个自适应注意力去归一化模块，自适应地调整身份嵌入和属性嵌入的有效区域，使它们能够参与人脸不同部位的大小合成，得到第k+1张特征图，这样最终恢复得到原始人脸。这样，训练好的整体网络具有良好的面部特征代表解纠缠能力，且能够根据高级身份特征代表和多级属性特征代表恢复出原人脸。而生成图像判别器，通过判断生成图像是否符合原始数据集的分布作为训练网络的对抗性损失。特别地，采用瓦瑟斯坦距离作为对抗损失，对图像分块处理下的不同块做判别，最后求取平均值作为真实度，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像。

(4)拉普拉斯差分隐私机制

当前已拥有目标人脸的高级身份特征代表与多级属性特征代表，以及一个训练好的具有良好解纠缠能力与图像重建能力的融合网络。为了生成匿名化的目标人脸，需将身份特征代表进行混淆，再与目标人脸图像的属性特征代表一起，得到匿名化人脸，这样就能够在根据实际需求混淆图像真实身份的同时，尽量地保持人脸外观的相似程度和生成图像的质量。

如图3所示，S12进一步包括，根据实际情况制定的拉普拉斯差分隐私机制，设计合适的扰动添加方式以获得被混淆的身份特征代表的方法，包括：

其中，

S13进一步包括，计算出混淆后的高级身份特征代表后，与原人脸的多级属性特征代表一起，送入固定全部网络参数的融合网络，得到匿名化的人脸。

较佳实施例中，身份编码器、U-Net结构的编解码器提供条件输入，与融合网络一起构成一生成对抗网络，用来完成人脸图像身份特征与属性特征的解纠缠以及基于这些解纠缠的特征对原人脸进行恢复：根据实际的隐私预算，拉普拉斯差分隐私机制设计合适的扰动加入待处理的人脸图像的高级身份特征代表，以获得被混淆的身份特征代表，然后与原人脸的属性特征一起通过训练好的融合网络，完成人脸匿名化。

较佳实施例中，通过让判别器用于对图像分块处理下的不同块做判别，最后求取平均值作为真实度，将分块处理的思想结合到判别器中，不仅提高了网络的鲁棒性，还对图像的纹理和细节等局部信息产生了非常有效的判别式指导。

较佳实施例中，通过计算原图和生成图分别经过身份编码器得到的高级身份特征代表之间的余弦相似度，作为身份保留损失来保证身份编码器能够准确地提取出人脸图像的高级身份特征代表。通过计算原图和生成图分别经过U-Net结构的编解码器得到的各级属性代表的l2距离，求和后减半作为属性保留损失，来保证U-Net结构的编解码器能够有效提取人脸图像的各级属性特征代表。同时融合网络采用重建损失来保证生成图像与目标图像的视觉相似度。

一具体实例中，代码实现由Pytorch完成。在训练阶段，将生成对抗网络的学习率设为0.0004，并采用Adam优化器，其中动量参数β₁设为0，β₁设为0，训练的批量大小设为8个样本。网络训练好后，构造噪声生成器根据实际隐私预算决定的拉普拉斯差分隐私机制生成合适的高级身份特征扰动，添加到目标人脸的高级身份特征代表中。然后固定训练好的生成对抗网络的参数，以被混淆的身份特征代表与原人脸的属性特征代表为条件生成匿名化的目标人脸。

下面对上述实施例的人脸匿名化方法的结果进行评估，选择CelebA-HQ作为训练数据集，CelebA-HQ和CelebA作为测试数据集，使用目前最先进的方法：AnonymousNet，DeepPrivacy，CIAGAN与Fawkes，和本发明上述实施例方法进行定量和定性比较。其中，本实施例方法与AnonymousNet和CIAGAN在CelebA数据集上比较，与DeepPrivacy和Fawkes在CelebA-HQ数据集上比较。

关于质量评估指标，采用隐私性评价指标与实用性评价指标结合的方式。隐私性评价指标包括身份距离(ID_DIS)，身份距离(ID_DIS)的计算方式为计算人脸图像在匿名化处理前与处理后的身份距离。这个距离越大，说明人脸匿名化越成功，具体实现为通过在CASIA-Webface和VGGFace2这两个公共数据集上预训练的身份识别模型FaceNet，对测试集中人脸图像计算匿名化前后的身份距离并取平均值。

进一步地，隐私性评价指标还包括保护成功率(PSR)。因为除了在学术中评估该方法的性能，人脸匿名化方法在面对日常生活中大众能接触到的人脸验证服务时的表现也很关键，且更符合实际需求。保护成功率的计算方式为计算匿名化处理前后的人脸图像通过第三方人脸验证API，判断为不同人的图像占全部测试图像的比例。这个比例越高，说明人脸匿名化越成功。最终定量比较结果如表1和表2所示。本发明方法的生成样本在两个模型下计算得到的身份距离都明显大于其他方法，保护成功率与最先进的方法可比较，这说明本发明方法在人脸匿名化的身份保护上取得了更先进的成果。

表1本发明实施例与AnonymousNet方法及CIAGAN方法的隐私性指标对比(在CelebA数据集上)

表2本发明实施例与DeepPrivacy方法和Fawkes方法的隐私性指标对比(在CelebA-HQ数据集上)

本实施例方法的实用性评价指标包括峰值信噪比(PSNR)与结构相似性(SSIM)。这是两个被广泛使用的图像质量评价指标。越高的PSNR和SSIM值，说明人脸匿名化图像与原始图像越相似，即生成图像的实用性越好。

进一步地，实用性评价指标还包括人脸检测率(FDR)。因为通过本实施例方法处理得到的匿名化图像仍然被希望能够被用于与身份敏感信息无关的计算机视觉任务，比如：检测，跟踪等等，这些任务的基础是能够在图像中检测到人脸。人脸检测率的计算方式为计算匿名化处理后的人脸图像通过HOG检测器，能够被检测到的人的图像占全部测试图像的比例。这个比例越高，说明匿名化人脸的实用性越好。

最终定量结果如表3和表4所示。本发明展示的结果比几种最先进的方法更好。

表3本发明实施例与AnonymousNet方法及CIAGAN方法的实用性指标对比(在CelebA数据集上)

模型	峰值信噪比	结构相似性	人脸检测率
				AnonymousNet方法	18.892	0.7192	0.892
CIAGAN方法	21.863	0.7401	0.958
				本实施例的方法(ε＝6)	23.353	0.8188	0.986

表4本发明实施例与DeepPrivacy方法和Fawkes方法的实用性指标对比(在CelebA-HQ数据集上)

模型	峰值信噪比	结构相似性	人脸检测率
				DeepPrivacy方法	21.012	0.7808	0.989
Fawkes方法	35.898	0.9487	0.985
				本实施例的方法(ε＝6)	24.640	0.8606	0.997

为了展示本实施例方法在人脸匿名化时可根据实际需求的灵活性，本实施例测试了在不同隐私预算下的匿名化效果，结果如图5所示，隐私预算从1.1增加到800。可以看到，隐私预算越小，就愈能保护人脸的身份信息，同时生成图像与原图像的差别愈大，本方法可以实现根据实际需求进行隐私性与实用性权衡的人脸匿名化。

为了定性比较生成质量，选择相同的待处理人脸图像作为输入，来观察本方法与其他先进方法的生成结果。从图6的观察中，可以发现本发明实施例中的方法可以根据实际隐私预算决定隐私性与实用性的权衡，通过混淆人脸的高级身份特征代表而成功地匿名化人脸图像，并且通过保持人脸各级属性特征代表不变而保持了与原图像的极高视觉相似度。具体而言，根据图6左上部分，由于变换了多种人脸属性，AnonymousNet方法生成的匿名化人脸与原图像差别往往较大，而本方法却能够在匿名化的同时保持与原图高度相似。对比CIAGAN方法，图6的右上部分，本方法可产生逼真程度与之相媲美的生成图，且在视觉相似性上更胜一筹，但值得注意的是，CIAGAN方法在训练时需要先对人脸图像进行landmark标注，这让处理变得麻烦且无法被检测的人脸不能被处理；此外，CIAGAN方法需要借助其他人的身份来替换带处理的人脸身份，这会导致被借助者的身份遭到泄露。本方法却不会面临这些难题。DeepPrivacy方法需要一个预先指定隐私敏感区域的方框和稀疏的7关键点姿态估计作为标注，根据原始人脸的姿态和背景生成匿名化的人脸，因此对人脸的姿态保持较好，在图6的左下部分，可以明显看出本发明实施例所提供的方法能够生成更自然更真实的人脸图片，同时具备非常一致的颜色和精致的纹理细节。基于对抗性样例的匿名化方法因为其生成效果绝佳而一直备受关注，Fawkes方法就是这类方法最新的代表，在图6的右下部分显示了本方法与Fawkes方法的对比，可以看到除了偶然出现的一些噪点，Fawkes方法可以生成与原人脸图像视觉上几乎完全一致的匿名化图像，而本发明实施例所提供的方法仅能提供可比较的效果，但是通过前面的定量指标评估可知，Fawkes方法在面对不能预先接触训练的身份验证模型或系统时，隐私性指标全面劣于本方法。因此，综合来看，本发明实施例所提供的方法在生成匿名化图像的真实自然程度，以及隐私性和实用性评估中最优。

在图6和图7中，评估本发明实施例中的方法并讨论在处理极端情况时的模型性能，这些极端情况包括挑战性的照明条件下的匿名化和对艺术肖像的匿名化。其中，图6第一排图像为在NIST人脸识别挑战中被标记为有挑战性或非常有挑战性的人脸图像，第二排为本发明实施例的方法所生成的对应匿名化图像，可以看到，匿名化的图像真实自然，与原图像高度相似。图7的第一行和第三行均为艺术肖像，第二行和第四行为对应的艺术肖像的匿名化结果，可以看到，匿名化的艺术肖像很好地保持了原艺术肖像中的姿态、配饰和背景，本发明实施例的方法在实现匿名化的同时保持了与对应原图像的高度视觉相似性。

本发明上述优选实施例中提供的人脸匿名化系统及方法，融合了：高级身份特征代表、多级属性特征代表、融合网络、拉普拉斯差分隐私机制；通过高级身份特征代表提取了人脸图像中与身份相关的隐私信息，从而有效地促进了匿名化的实施；通过多级属性特征代表提取了人脸图像中与身份无关的其他属性信息，包括光照、姿态、背景、配饰等等，从而有效地保证了生成图像与原图像的高视觉相似性；融合网络弥补了传统卷积网络的局部性，能够有效地将高级身份特征代表与多级属性特征代表融合为对应的人脸；拉普拉斯差分隐私机制则能够根据实际隐私预算，混淆原图像中真实的身份特征代表，获得假的身份特征代表。

本发明提供的人脸匿名化系统及方法，将高级人脸身份特征代表与U-Net结构编解码器的解码器各层输出的多级属性特征代表送往融合网络生成人脸图像，而不是直接在输入时结合两者；人脸身份特征代表本是高级语义描述，人脸属性特征代表则是多级的语义描述，而图像空间属于低层级图像特征，将身份特征代表与最高级属性特征代表开始由高级至低级逐层结合，有利于模型更好地学习到特征表达；本发明通过在网络的中间阶段结合属性特征与身份信息，可以避免直接结合两者所造成的问题。

本发明实施例中还提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，处理器执行计算机程序时能够用于执行上述实施例中任一项的人脸匿名化方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。