CN111666846A

CN111666846A - 一种人脸属性识别方法和装置

Info

Publication number: CN111666846A
Application number: CN202010458644.0A
Authority: CN
Inventors: 严严; 毛龙彪; 朱浩; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-15
Anticipated expiration: 2040-05-27
Also published as: CN111666846B

Abstract

一种人脸属性识别方法和装置，所述方法包括：准备训练集和测试集；使用训练集中的图片数据训练一个自监督网络，该自监督网络能够识别人脸图片的旋转角度；将自监督网络的结构进行微调使之适用于人脸属性识别任务，并把人脸属性识别网络模型的参数初始化为自监督网络的参数；使用训练集中的图片数据训练一个带有注意力机制的生成式对抗网络，该生成式对抗网络能生成具有目标属性标签的人脸图片；使用训练集中真实的人脸图片和生成式对抗网络生成的人脸图片来微调人脸属性识别网络模型，得到优化后的人脸属性识别网络模型；把测试集中的图片输入至训练好的人脸属性识别网络模型中得到对应的人脸属性识别结果。

Description

一种人脸属性识别方法和装置

技术领域

本发明涉及计算机视觉技术，具体涉及一种基于自监督学习和生成式对抗网络的人脸属性识别方法和装置。

背景技术

深度学习的快速发展得益于计算机硬件技术和大数据技术的发展。目前主流的端到端的人脸属性识别算法几乎都是基于深度学习。为了保证网络泛化性能好，有监督的深度学习需要大量有标签的训练数据去学习鲁棒的特征。然而，人工标注一些人脸属性，尤其是一些主观属性，往往困难、耗时且成本昂贵。比如，姿态和表情的标注往往难有统一的标准，从而导致标注效果不理想。此外，由于源域和目标域的区别，数据存在偏差(DataBias)。在一些大数据集上训练的模型，其性能虽然在原数据集上很高，却很难泛化到其他数据集。

在人脸属性识别算法中可以使用自监督学习的方法，减少对标签数据的依赖。基于有监督学习的卷积网络学习到的特征很容易被迁移到其他任务，比如目标识别、语义分割、图片描述。为了解决监督学习需要的大量标签问题，自监督学习不需要人工标定数据，其可以通过提供一个易获得的替代监督信息来训练网络。自监督学习方法并不需要人工标注的标签，而直接使用图片数据作为监督来学习好的特征表达。即使没有标注，大量的数据也能够学习到可迁移特征。如何通过自监督框架，在有限监督数据情况下，学习到包含姿态变化，关键点，表情等属性的特征值得深入研究。

当标签缺失时，一方面，在人脸属性识别算法中，可以使用上述的自监督学习减少对标签数据的依赖，另一方面还可以使用生成式对抗网络生成更多标签数据。生成式对抗网络经常被应用于人脸属性识别领域。例如使用语义分割可以给人脸属性定位，从而增加人脸属性识别率。此外，生成式对抗网络还可以用来生成大量所需标签的样本，起到数据增强的作用，以缓解监督学习标签数据不足的问题。生成式对抗网络一般由生成器和判别器构成，通过两个网络的博弈对抗学习，生成器能够生成符合训练集分布的样本，判别器负责判断输入样本的真假。在使用GAN生成人脸图片时候有两种选择，一是生成固定分布的非监督人脸图片，第二是加入条件生成相应标签的人脸图片。最近，基于GAN的人脸合成的研究得到迅速发展。使用生成样本增强人脸数据进行属性识别，不仅需要接近真实分布的高质量的生成样本，而且需要保证目标属性标签之间不互相影响。这些都是需要解决的问题。

技术术语及技术文献：

ResNet50残差网络：K.He,X.Zhang,S.Ren,J.Sun.Deep residual learning forimage recognition[C].Proceedings ofthe IEEE Conference on Computer Vision andPattern Recognition,2016,770–778。

GAN：生成式对抗网络。

发明内容

本发明提出了一种基于自监督学习和生成式对抗网络的人脸属性识别方法，包括三个阶段的训练过程：首先，使用基于旋转的自监督学习得到一个预训练模型；然后使用生成式对抗网络生成具有目标标签的人脸属性数据；最后，使用合成的标签数据和少量真实标签数据微调自监督预训练模型，得到人脸属性识别网络模型。

具体技术方案如下：

一种人脸属性识别方法，包括以下步骤：

步骤A.准备训练集和测试集

N为训练样本数，attr_q为人脸属性的总类别数，N、attr_q为自然数，

表示训练集的一个样本图片，

表示attr_q个人脸属性的标签：

步骤B.使用训练集中的图片数据训练一个自监督网络，该自监督网络能够识别人脸图片的旋转角度；

步骤C.将自监督网络的结构进行微调使之适用于人脸属性识别任务，并把人脸属性识别网络模型的参数初始化为自监督网络的参数；

步骤D.使用训练集中的图片数据训练一个带有注意力机制的生成式对抗网络，该生成式对抗网络能生成具有目标属性标签的人脸图片；

步骤E.使用训练集中真实的人脸图片和生成式对抗网络生成的人脸图片来微调人脸属性识别网络模型，得到优化后的人脸属性识别网络模型；

步骤F.把测试集中的图片输入至训练好的人脸属性识别网络模型中得到对应的人脸属性识别结果。

进一步的，所述步骤B中使用人脸图片训练一个自监督网络进一步包括以下步骤：

步骤B1.使用ResNet50残差网络作为自监督学习的基础模型，将原始图片与旋转图片在通道维度拼接，将生成的6通道的数据输入到自监督网络；

步骤B2.在最后一层全局平局池化层后加入4个结点的全连接层，分别判断旋转0，90，180和270角度的旋转图片；

步骤B3.在一个批中，每张输入图片被旋转4个角度；最后残差网络使用Softmax分类层得到最高的旋转角度得分；

假设S为自监督网络，x(θ)为原图片旋转了θ角的值；则自监督网络S的输出y为：

y＝S(x(0),x(θ))

自监督网络的输出值在经过Softmax层后，使用交叉熵损失，所述交叉熵损失函数如下：

其中，y代表真实标签即原图片旋转角度类型，

代表旋转角度的真实类型上的预测得分；

步骤B4.使用SGD梯度下降算法进行训练，所述SGD梯度下降算法的设置参数包括：动量、权重衰减、批大小和学习率。

进一步的，所述步骤C中将自监督网络进行微调网络结构使之适用于人脸属性识别任务进一步包括以下子步骤：

步骤C1.将自监督网络最后4个分类结点替换为训练集和测试集中人脸属性的总类别数的分类结点；

步骤C2.属性分类网络的特征最后一层全连接层之前的所有层的参数初始化为自监督网络的参数；

步骤C3.对有标签数据的使用进行微调，人脸属性识别网络的损失函数如下

其中，

和

分別表示对于第i个样本第j个属性的预测值和真实标签。

进一步的，所述步骤D中的使用训练集的图片数据训练一个带有注意力机制的生成式对抗网络具体包括以下子步骤：

步骤D1.生成式对抗网络的生成器分为编码阶段和解码阶段，首先编码器通过一系列卷积得到编码特征；接着把目标属性按照编码特征的维度进行扩充，使之与编码特征在批、宽度和高度维度上保持一致；然后将编码器特征与目标属性在通道维度融合作为解码器的输入；最后由编码器生成具有目标属性的人脸图片；

步骤D2.在生成器和判别器部分都加入注意力机制；

步骤D3.重构损失约束：当使用原标签拼接生成的特征时，生成器的图片需要与原图片属性一致，重构损失函数为：

其中，x^a表示原属性图片，

表示生成属性图片；G表示生成器；

步骤D4.使用交叉熵进行人脸属性分类误差衡量，分类损失函数为：

其中，x^b,b分别代表目标属性图片和目标标签向量；F_i为第i个属性的分类网络；

步骤D5.通过成式对抗网络的对抗学习使生成器生成更接近真实分布的样本，并提高判别器辨别真假样本的能力；

判别器的对抗损失函数为：

其中D表示判别器；

生成器的对抗损失函数为：

步骤D6.生成器的联合损失函数为：

判别器的属性分类损失函数为：

其中λ₁，λ₂，λ₃为权重参数；

步骤D7.选择分类属性，并设置所述编码器，解码器和判别器的网络层数、学习率、批大小和epochs数。

进一步的，所述步骤D6中，所述λ₁，λ₂，λ₃分别设置为100，10，1。

进一步的，所述步骤D7中，所述分类属性包括“秃头”，“刘海”，“黑发”，“金发”，“棕发”，“浓眉”，“眼镜”，“性别”，“张嘴”，“八字胡”，“络腮胡”，“白皮肤”和“年轻”。

本发明还提出了一种计算装置，包括一个或多个处理器、存储器，所述存储器存储有一段计算机程序，所述计算机程序被处理器执行时实现如上所述的人脸属性识别方法。

技术效果：

本发明提出一种基于自监督学习和生成式对抗网络的人脸属性识别方法，该生成式对抗网络加入了注意力机制，该生成式对抗网络的生成器部分能根据所给的属性向量生成相应标签的人脸数据，判别器部分可以分辨输入图片的真假并能对输入图片的部分属性进行预测，同时该生成式对抗网络能生成具有目标属性的人脸数据来缓解训练样本不足的问题。自监督学习网络的输入为不需要标签的原人脸数据和旋转后的人脸数据在通道维度的拼接，输出为相应的旋转分类。通过自监督网络的学习，即使缺乏人脸属性标签，依然能获得一个适用于人脸属性识别任务预训练模型。最后把人脸合成、自监督学习和人脸属性识别统一到一个框架。使用自监督网络学习到基础模型，然后使用生成式网络扩充相应标签的人脸数据。最后使用少量合成的标签数据和真实数据微调得到人脸属性识别网络。在这一框架下，仅需要少量标签数据就可以得到相对良好的人脸属性识别网络。

附图说明

图1为本发明实施例的整体框架图。

图2为本发明人脸合成网络示意图。

图3为本发明自监督网络和人脸属性识别网络示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

参见图1，本发明实施例公开了一种基于自监督学习和生成式对抗网络的人脸属性识别方法，其包括自监督网络,人脸合成网络和人脸属性识别网络三个部分。训练步骤如下：

步骤A.准备训练集和测试集

表示训练集的一个样本图片，

表示attr_q个人脸属性的标签

步骤B.使用人脸图片训练一个自监督网络(如图2所示)，该网络可以识别作用在人脸图片上的相对旋转角度。使用识别旋转类型的自监督网络来得到初始模型。

使用ResNet50作为自监督学习的基础模型。将原始图片与旋转图片在通道维度拼接，将生成的6通道的数据输入到自监督网络。在ResNet50网络中，相应地将输入替换成6通道。这样，原始图片不再需要对齐操作。原始图片和旋转图片的信息都将被保留在输入数据中，网络学习转换成学习相对旋转变化。在最后一层全局平局池化层后加入4个结点的全连接层，分别判断旋转0，90，180和270角度的旋转图片。在一个批中，每张输入图片被旋转4个角度。最后网络使用Softmax分类层得到最高的旋转角度得分。

步骤C.将自监督网络的结构进行微调使之适用于人脸属性识别任务，并把人脸属性识别网络模型的参数初始化为自监督网络的参数。

将自监督网络最后4个分类结点替换为包含40个结点的属性分类(如图3所示)。

属性分类网络的特征最后一层全连接层之前的所有层的参数初始化为自监督网络的参数。

人脸属性识别网络的损失如下

其中，

和

分別表示对于第i个样本第j个属性的预测值和真实标签。

步骤D.使用训练集中的图片数据训练一个带有注意力机制的生成式对抗网络(如图3所示)，该生成式对抗网络能生成具有目标标签的人脸属性图片。生成式对抗网络的生成器分为编码阶段和解码阶段。首先编码器通过一系列卷积得到编码特征；接着把目标属性按照编码特征的维度进行扩充，使之与编码特征在批、宽度和高度维度上保持一致；然后将编码器特征与目标属性在通道维度融合作为解码器的输入；最后由编码器生成具有目标属性的人脸图片。

重构损失约束：当使用原标签拼接生成的特征时，生成器的图片需要与原图片属性一致，重构损失限制了生成图片必须保留输入图片的大部分内容而只改变目标区域。重构损失函数为：

其中，x^a表示原属性图片，

表示生成属性图片；G表示生成器；

使用交叉熵进行人脸属性分类误差衡量，分类损失函数为：

通过生成式对抗网络的对抗学习，使生成器生成更接近真实分布的样本，并提高判别器辨别真假样本的能力。根据Wasserstein GAN，判别器的对抗损失函数为：

其中D表示判别器；

生成器的对抗损失函数为：

生成器的联合损失函数为：

判别器和属性分类损失函数为：

其中λ₁,λ₂,λ₃为权重参数，在实验中分别设置为100,10,1。

在40个人脸相关属性中选择了“秃头”，“刘海”，“黑发”，“金发”，“棕发”，“浓眉”，“眼镜”，“性别”，“张嘴”，“八字胡”，“络腮胡”，“白皮肤”和“年轻”13个属性。选择这些属性的原因是它们在视觉上比较直观，在人为判断上相对客观，属性之间相关的区域很少有相互干扰。编码器、解码器和判别器的网络层都设置为5层，学习率(learning rate)设置为0.0002，批大小(batchsize)设置为64。在TitanX上训练了40个epochs(1个epoch等于使用训练集中的全部样本训练一次)。模型的大小大约为170M。具体的，本领域技术人员各根据训练需求调整网络层、学习率、批大小和epochs的数量或大小，以获得相应的人脸属性识别网络模型。

步骤E.使用训练集中真实的人脸图片和生成式对抗网络生成的人脸图片来微调人脸属性识别网络模型，得到优化后的人脸属性识别网络模型。

步骤F.把测试数据集中的图片输入至训练好的人脸属性识别网络模型中得到对应的人脸属性识别结果。通过对算法分析可知，相对于常规的人脸属性识别算法，本发明可以提高标签不足时人脸属性识别的精度，算法对比见表1、表2、表3和表4。

实施例二：

基于与前述实施例一中的一种基于自监督学习和生成式对抗网络的人脸属性识别方法同样的发明构思，本发明还提供一种计算装置，包括一个或多个处理器、存储器，所述存储器上存储有计算机程序，该程序被处理器执行时实现前文所述的一种人脸属性识别方法的任一方法的步骤。

在本实施例的计算装置可以是通用计算机、专用计算机、服务器或云计算，这些都是本领域所公知的。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

附表：

表1为在不同比例的训练集上使用自监督和不使用自监督学习的性能对比。

表2为在CelebA数据集上，本发明提出的方法与其他变种方法结果对比，其中ATT为不使用自监督学习和人脸合成，SELF_ATT为只使用自监督学习，MANI_ATT为只使用人脸合成。(表3和表4对比设置相同)

表3为在LFWA数据集上，本发明提出的方法与其他变种方法结果对比。

表4为在UMDUED数据集上，本发明提出的方法与其他变种方法结果对比。

表1

表2

表3

表4

技术术语和技术文献：

Wasserstein GAN(M.Arjovsky,S.Chintala,L.Bottou.Wasserstein gan[J].arXiv preprint arXiv:1701.07875,2017.)。