CN105404877A

CN105404877A - 基于深度学习和多任务学习的人脸属性预测方法及装置

Info

Publication number: CN105404877A
Application number: CN201510900079.8A
Authority: CN
Inventors: 张伟; 旷章辉
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-03-16

Abstract

本发明公开了一种基于深度学习和多任务学习的人脸属性预测方法及装置，该方法主要包括：收集人脸图片并标注对应多个属性的类别，形成一个训练数据集合；检测人脸，以及人脸关键点，并通过多个关键点对齐人脸；对类别中具有顺序的属性进行编码；构造一个深度神经网络；利用训练数据集合，训练深度神经网络，并部署训练得到的神经网络模型，最后利用神经网络模型，预测图片中的人脸属性。本发明通过对多个属性联合训练，只用一个深度网络可以同时预测多个属性，预测效果提高明显。

Description

基于深度学习和多任务学习的人脸属性预测方法及装置

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度学习和多任务学习的人脸属性预测方法及装置。

背景技术

目前，根据人脸图像预测人脸属性越来越受到关注。人脸属性包括表情，动作单元，性别，年龄，人种，嘴巴大小，鼻梁高低，是否戴眼镜，是否戴墨镜，眼睛大小，眼睛睁开或者闭着，嘴巴张开或者闭着，头发长短或者发型类别，颜值，正面或侧面等。人脸属性预测技术现广泛应用于人机交互，用户建模等领域。

现有的人脸属性预测主要基于传统的机器学习框架，首先提取人工设计的特征，然后对特征降维，以得到紧凑的特征，最后使用分类或者回归模型预测人脸属性。近来也出现以深度学习来预测人脸属性的技术。

基于传统的机器学习框架存在以下几个问题：1)传统的机器学习方法很难有效的利用越来越多的训练数据，要么训练过程复杂，所需时间长，硬件资源多，要么随着训练数据增加效果提高不明显；2)传统的机器方法依赖人工设计的特征，需要开发者对问题本身有深入的了解；3)在传统的机器学习方法中，特征提取，属性预测是两个独立的模块，没有联合优化，因此只能得到次优的结果。

现有基于深度学习的方法存在以下几个问题：1)简单把属性识别当作分类或者回归问题，使用现有的softmax或者crossentropy损耗层来训练深度网络，对有些具有顺序性且离散的属性类别，如年龄，不能取得很好的训练效果；2)现有的技术针对每个属性独立训练一个深度网络，从而导致模型的大小随着属性的个数增加而线性增加，限制了人脸属性在实际场景中应用。

发明专利申请CN104036151A公开了一种人脸属性值计算方法和系统，该方法通过对收集到的人脸图片的属性值生成特征向量，进而转化为基准向量，通过基准向量和特征值建立计算模型，最后利用该模型计算目标人脸图片的属性值。该方法存在的缺点是，1)特征向量是人工设计，不是自动学习产生，对人脸属性的表达能力不强；2)该方法提出的计算模型是基于基准向量和特征值的简单拟合模型，不能拟合很复杂的非线性关系；3)该方法预测属性时，需要计算目标人脸的特征与已经收集的图片库的特征的距离最小值，时间复杂度高；4)该方法的特征提取与计算模型的建立是两个独立的过程，最终得到的属性预测模型不能联合优化，从而只能得到次优的结果。

发明专利申请CN104143079A公开了一种人脸属性识别方法和系统。该方法通过将图像样本中人脸的有效区域图像，抽取纹理特征，依次根据种族分类器、性别分类器和年龄分类器对该纹理特征进行种族、性别和年龄的分类，进而得到人脸的种族属性、性别属性以及年龄属性，从而实现人脸属性的识别。该方法存在的缺点是，1)基于人工设计的生物启发特征BIM，需要调试不同的参数才能使得特征的表达能力较强；2)该方法只识别人脸种族，性别，年龄三种属性，不具有普适性，不容易拓展到其它属性；3)该方法采用多级分类的方法，如果在初始分类错误，会导致最终分类严重错误。

发明专利申请CN103294998A公开了一种基于属性空间的人脸可视化特征表征方法。该方法通过对64种人脸全部或局部属性进行数据模拟、预处理和数据评估，得到数据底层特征，利用高斯混合模型对属性数据分布进行估计，形成人脸属性空间；将输入人脸数据投影至属性空间中，获得量化的人脸可视化特征；通过Z-score方法对可视化特征进行标准化，从而对输入数据进行识别。该方法存在的缺点是，1)该方法中的属性识别基于人工设计的局部特征SIFT和简单的分类器SVM，其局部特征不一定适合每种属性的分类；2)每种特征提取和分类是两个独立的过程，没有联合优化，因此，只能得到次优的结果。

发明内容

为了解决现有技术中人脸属性预测方法结果不够优，计算过程复杂，属性值表达能力不强的问题，本发明提出了一种基于深度学习和多任务学习的人脸属性预测方法。该方法的流程如下：

步骤S1：收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合；

步骤S2：检测人脸，以及人脸关键点，通过多个关键点对齐人脸；

步骤S3：对类别中具有顺序的属性进行编码；

步骤S4：构造一个深度神经网络；

步骤S5：利用步骤S1形成的训练数据集合，训练步骤S4中的深度神经网络，并部署训练得到的神经网络模型。

步骤S6，利用步骤S5中的神经网络模型，预测图片中的人脸属性。

此外，本发明还提出了一种基于深度学习和多任务学习的人脸属性预测装置，该装置包括以下单元：

收集标注单元，用于收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合；

检测对齐单元，用于检测人脸，以及人脸关键点，通过多个关键点对齐人脸；

编码单元，用于对类别中具有顺序的属性进行编码；

神经网络构造单元，用于构造一个深度神经网络；

神经网络训练单元，用于利用收集标注单元中形成的训练数据集合，训练神经网络构造单元中的深度神经网络，并部署训练得到的神经网络模型；

人脸属性预测单元，用于利用神经网络训练单元中的神经网络模型，预测图片中的人脸属性。

本发明具有以下显著特点：1)通过多个属性联合训练，一个深度神经网络可以同时预测多个属性；2)针对一些属性，首先对其编码，然后使用编码作为监督信息训练深度神经网络；通过联合训练，不但一个网络可以同时预测多个属性，而且每种属性的训练可以相互帮助，预测效果提高明显。

附图说明

图1是基于深度学习和多任务学习的人脸属性预测方法流程图；

图2是深度神经网络结构示意图；

图3是基于深度学习和多任务学习的人脸属性预测装置结构示意图。

具体实施方式

结合附图1对本发明提出的基于深度学习和多任务学习的人脸属性预测方法作详细说明。

如附图1所示，该基于深度学习和多任务学习的人脸属性预测方法，包括以下步骤：

步骤S1：收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合。

人脸属性的类别由局部属性和全局属性组成。局部属性包括但不限于头发颜色，头发长短，眉毛长短，眉毛浓密或者稀疏，眼睛大小，眼睛睁开或者闭着，鼻梁高低，嘴巴大小，嘴巴张开或者闭着，是否佩戴眼镜，是否佩戴墨镜，是否戴口罩等。全局属性包括但不限于人种，性别，年龄，颜值，表情等。

针对收集的人脸图片，人工标注其对应的属性，并根据属性对应的类别形成一个训练数据集合。

步骤S2：检测人脸，以及人脸关键点，通过多个关键点对齐人脸。

利用AdaBoost分类器(自适应增强分类器)或者深度学习的人脸检测算法检测人脸。

其中利用AdaBoost分类器检测人脸的算法为现有技术，具体可以参见CN102254183B公开的算法。

利用深度学习算法检测人脸的方法也为现有技术，具体可以参见CN103778414A和/或CN104866810A公开的算法。

本发明的重点并不在于人脸检测算法，因此，采用任何一现有的AdaBoost分类器或深度学习算法实现人脸及人脸关键点的检测即可。

由于不同的人脸照片，可能具有不同的姿态。为了达到更好的预测效果，因此，每张图片除了检测人脸外，还需检测其关键点，根据其关键点，计算一个该人脸到标准人脸的仿射或者相似变换，把该人脸与标准人脸对齐。所述人脸关键点包括眼角、眉毛的末端、嘴角、鼻尖等位置信息。

步骤S3：对类别中具有顺序性的属性进行编码。

以年龄属性为例。对于年龄a，其编码可以为以下几种形式之一或者其组合。

(1)编码为X₁X₂…X_i…，其中X_i为二值的数值，0或者1。如果i小于等于a，则X_i为1，如果i大于a，则X_i为0。

(2)编码为X₁X₂…X_i…，其中X_i为二值的数值，0或者1。如果i等于a除以k，则X_i为1，否则，X_i为0。其中k可以为任何正整数，可以人工定义或者随机选取。

该编码方式可用于任何一属性，以具有顺序性的属性为佳。

步骤S4：构造一个深度神经网络。该网络的前端可以是任何多个卷积层(convolutionallayer)，池化层(poolinglayer)和非线性层(non-linearlayer)的组合，其后端是softmax，和/或crossentropy等损耗层。

该深度神经网络的结构如附图2所示，其中，

A为输入层，该层用于读入人脸图片，属性类别及属性编码。该层可以对人脸图片进行预处理操作，输出对齐的人脸图片，属性类别或者编码。输入层A将经过预处理的人脸图片输出到卷积层B。同时输入层A将经过预处理的属性类别和/或编码输入到G层损耗层。

B层为卷积层，其输入是经过预处理的人脸图片或者图片的图像特征，通过一线性变换输出得到新特征。其输出的新特征为C层非线性层的输入。

C层为非线性层，其通过非线性函数，对卷积层B输入的特征进行非线性的变换，使得其输出的特征有较强的表达能力。非线性层C的输出特征为池化层D的输入。

D为池化层(Poolinglayer)，池化层可以将多个数值映射到一个数值。该层不但可以进一步加强学习到的特征的非线性，而且可以使得输出的特征的空间大小(spatialsize)变小，而从增强学习的特征的平移不变性，即人脸平移，提取的特征保持不变。池化层D的输出特征可以再次作为为卷积层B的输入或者全连接层E的输入。

如附图2所示，卷积层B，非线性层C和池化层D外面的大框表示B，C，D层可以重复一次或者多次，即卷积层B，非线性层C和池化层D组合可以重复一次或多次，每一次池化层的输出可以作为卷积层B的再次输入。B，C，D三层的多次组合，可以更好的处理输入的图片，使其特征具有最佳的表达能力。

E层为全连接层，它对池化层D的输入做一个线性变换，把学习得到的特征投影到一个更好的子空间以利于属性预测。全连接层E的输出特征作为非线性层F的输入。

F层为非线性层，与非线性层C的功能一样，对全连接层E的输入特征进行非线性变换。其输出特征可以作为损耗层G的输入或者再次作为全连接层E的输入。

如附图2所示，全连接层E和非线性层F外面的大框，表示E层和F层可以重复一次或者多次。

G层为一个或者多个损耗层，可以是softmax，和/或crossentropy等。其主要负责计算预测的属性类别和/或编码与输入的属性类别和/或编码的误差。

总体而言，输入层A负责简单处理输入。卷积层B，非线性层C和池化层D的组合负责图片的特征提取。全连接层E和非线性层F是特征到属性类别和/或编码的映射。损耗层G负责计算预测误差。通过上述深度神经网络的多层设计保证提取的特征具有丰富的表达能力，而从更好的预测属性。同时，多个属性类别和编码同时连接损耗层G，确保多个任务同时学习，共享深度网络学到的特征。

步骤S5：利用步骤S1形成的训练数据集合，训练步骤S4中设计的深度神经网络，并部署训练得到的神经网络模型。

通过向后传递的梯度下降算法，训练得到步骤S4中深度神经网络的网络参数。替换输入层A使得其只输入图片；替换损耗层G，使得其只输入特征，从而部署得到一个输入人脸图片，同时输出人脸多个属性的深度神经网络模型。

步骤S6，利用步骤S5中的深度神经网络模型，预测图片中的人脸属性。

此外，本发明还涉及一种基于深度学习和多任务学习的人脸属性预测装置。现结合附图3对该装置作详细说明。

如图3所示，该基于深度学习和多任务学习的人脸属性预测装置，包括以下单元：

收集标注单元，用于收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合。

检测对齐单元，用于检测人脸，以及人脸关键点，通过多个关键点对齐人脸。

编码单元，用于对类别中具有顺序性的属性进行编码。

(1)编码为X₁X₂…X_i…，其中X_i为二值的数值，0或者1。如果i小于等于a，则X_i为1，如果i大于a，则xi为0。

该编码方式可用于任何一属性，以具有顺序性的属性为佳。

神经网络构造单元，用于构造一个深度神经网络。该网络的前端可以是任何多个卷积层(convolutionallayer)，池化层(poolinglayer)和非线性层(non-linearlayer)的组合，其后端是softmax，和/或crossentropy等损耗层。

该深度神经网络的结构如附图2所示，其中，

神经网络训练单元，用于通过收集标注单元中形成的训练数据集合，训练神经网络构造单元中的深度神经网络，并部署训练得到的神经网络模型。

人脸属性预测单元，用于通过神经网络训练单元中的神经网络模型，预测图片中的人脸属性。

以上对本公开进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种基于深度学习和多任务学习的人脸属性预测方法，其特征在于，该方法包括以下步骤：

S1：收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合；

S2：检测人脸，以及人脸关键点，通过多个关键点对齐人脸；

S3：对类别中具有顺序性的属性进行编码；

S4：构造一个深度神经网络；

S5：利用步骤S1形成的训练数据集合，训练步骤S4中的深度神经网络，并部署训练得到的神经网络模型；

S6：利用步骤S5中的神经网络模型，预测图片中的人脸属性。

2.根据权利要求1所述的方法，其特征在于，优选的，步骤S4的深度神经网络依次包括：

输入层，卷积层，非线性层，池化层，全连接层，非线性层，损耗层。

3.根据权利要求2所述的方法，其特征在于，卷积层、非线性层和池化层可以重复一次或者多次，在多次情况下，池化层的输出连接下一次的卷积层的输入。

4.根据权利要求2所述的方法，其特征在于，全连接层和非线性层可以重复一次或者多次，在多次情况下，非线性层输出连接下一次的全连接层的输入。

5.根据权利要求2所述的方法，其特征在于，损耗层可以为一个或者多个。

6.根据权利要求2至5任一权利要求所述的方法，其特征在于，所述输入层读入人脸图片，属性类别及属性编码，对人脸图片进行预处理，输出对齐的人脸图片，属性类别和/或属性编码，将经过预处理的人脸图片输出到第一个卷积层，并将经过预处理的属性类别和/或编码输入到损耗层。

7.根据权利要求6所述的方法，其特征在于，所述卷积层，非线性层和池化层的组合对预处理过的图片进行特征提取。

8.根据权利要求7所述的方法，其特征在于，全连接层和非线性层将提取的图片特征映射到属性类别和/或属性编码。

9.根据权利要求2至5任一权利要求所述的方法，其特征在于，损耗层负责计算预测误差。

10.一种基于深度学习和多任务学习的人脸属性预测装置，其特征在于，该装置包括以下单元：

编码单元，用于对类别中具有顺序性的属性进行编码；

神经网络构造单元，用于构造一个深度神经网络；

11.根据权利要求10所述的装置，其特征在于，神经网络构造单元的深度神经网络依次包括：

12.根据权利要求11所述的装置，其特征在于，卷积层、非线性层和池化层可以重复一次或者多次，在多次情况下，池化层的输出连接下一次的卷积层的输入。

13.根据权利要求11所述的装置，其特征在于，全连接层和非线性层可以重复一次或者多次，多次情况下，非线性层输出连接下一次的全连接层的输入。

14.根据权利要求11所述的装置，其特征在于，损耗层可以为一个或者多个。

15.根据权利要求11至14任一权利要求所述的装置，其特征在于，所述输入层读入人脸图片，属性类别及属性编码，对人脸图片进行预处理，输出对齐的人脸图片，属性类别和/或属性编码，将经过预处理的人脸图片输出到第一个卷积层，并将经过预处理的属性类别和/或编码输入到损耗层。

16.根据权利要求15所述的装置，其特征在于，所述卷积层，非线性层和池化层的组合对预处理过的图片进行特征提取。

17.根据权利要求16所述的装置，其特征在于，全连接层和非线性层将提取的图片特征映射到属性类别和/或属性编码。

18.根据权利要求11至14任一权利要求所述的装置，其特征在于，损耗层负责计算预测误差。