CN108564029B

CN108564029B - 基于级联多任务学习深度神经网络的人脸属性识别方法

Info

Publication number: CN108564029B
Application number: CN201810323645.7A
Authority: CN
Inventors: 严严; 庄妮; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2020-12-01
Anticipated expiration: 2038-04-12
Also published as: CN108564029A

Abstract

基于级联多任务学习深度神经网络的人脸属性识别方法，涉及计算机视觉技术。首先设计级联的深度卷积神经网络，然后在级联的深度卷积神经网络里，对于每一个级联的子网络，采用多任务学习，同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务，接着在基于级联多任务学习的深度卷积神经网络里，采用一种动态损失权重机制，来计算人脸属性的损失权重，最终根据训练好的网络模型，将级联的最后一个子网络的人脸属性识别结果作为最终的人脸属性识别结果。使用级联的方法联合训练了三个不同的子网络，达到了端到端的训练，优化了人脸属性识别的结果，不同于在损失函数里使用固定的损失权重，本发明考虑到不同人脸属性间的差异性。

Description

基于级联多任务学习深度神经网络的人脸属性识别方法

技术领域

本发明涉及计算机视觉技术，具体是涉及一种基于级联多任务学习深度神经网络的人脸属性识别方法。

背景技术

在过去几年，人脸属性识别吸引了越来越多计算机视觉及模式识别领域的专家学者的关注。人脸属性识别的目标在于，对于给定的人脸图片，能预测出其所包含的人脸属性，包括微笑、性别、吸引力等。人脸属性识别有着广泛而实际的应用，包括人脸验证、图片查找以及图片检索等。然而由于人脸视角、光照、表情等人脸表观的变化，进行人脸属性识别仍然是一个极大的挑战。

当前，由于卷积神经网络的突出表现，很多人脸属性识别的工作采用卷积神经网络来预测人脸属性。通常来说，基于卷积神经网络的人脸属性识别方法可以大致分为两类：基于单标签学习的方法和基于多标签学习的方法。

基于单标签学习的方法，首先通过卷积神经网络提取人脸图片的特征，接着采用支持向量机来对每个人脸属性分别进行预测。相反地，基于多标签学习的方法能同时预测多个人脸属性。Liu等人(Z.Liu,P.Luo,X.Wang and X.Tang,“Deep learning faceattributes in the wild”,IEEE International Conference on Computer Vision,2015,pp.3730-3738.) 提出了一种基于深度学习的人脸属性识别方法，其为单标签的学习方法。

而Rudd等人(E.M.Rudd,M.Günther,T.E.Boult,“Moon:A mixed objectiveoptimization network for the recognition of facial attributes”,in Proceedingsof the European Conference on Computer Vision,2016,pp.19-35.)提出了一种混合目标优化网络的方法用于人脸属性识别，其为多标签的学习方法。一般来说，上面这些方法通常首先对输入的图像进行预处理(即进行人脸检测及人脸对齐)，接着再进行人脸属性分析。换句话说，人脸分类、边框回归、人脸关键点检测、人脸属性识别这四个任务分别被独立地进行训练。所以，这四个任务间隐含的关联性被忽略了。进一步来说，对于这些方法中的损失函数，各个人脸属性所对应的损失权重是固定且相等的。因此，由于人脸属性间的差异性没有被有效地利用，人脸属性识别的效果不能被优化。

发明内容

本发明的目的在于提供一种基于级联多任务学习深度神经网络的人脸属性识别方法。

本发明包括以下步骤：

1)准备训练样本集：

N为训练样本数，box_k为人脸标注框的坐标向量长度，landmark_p为人脸关键点的坐标向量长度，attr_q为人脸属性的总类别数，N、box_k、landmark_p、attr_q 为自然数；

表示训练样本对应的固定大小的图像；

表示训练样本

是否属于人脸的类别：

表示训练样本

的人脸标注框的坐标；

表示训练样本

的人脸关键点的坐标；

表示训练样本

的人脸属性的类别：

2)对于训练样本集中每幅输入图像，采用均值池化(average pooling)的方式将输入图像调整到三个不同的尺度，作为三个级联子网络的输入，构造一个图像金字塔作为级联的深度卷积神经网络的输入；

3)设计级联的深度卷积神经网络结构；

4)在级联的深度卷积神经网络内，对于每一个级联的子网络，采用多任务学习，同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务；

5)在级联的深度卷积神经网络内采用一种动态损失权重机制，用于计算人脸属性的损失权重；

6)将训练样本集中的所有图像放进基于级联多任务学习的深度卷积神经网络内利用反向传播算法进行端到端的训练，得到训练好的模型；

7)利用模型进行人脸属性识别，其中级联网络里的最后一个级联子网络得到的人脸属性分析结果为最终的识别结果。

在步骤1)中，所述准备训练样本集需要整合多个人脸任务标签，包括以下子步骤：

(1)分别获取人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注；

(2)将人脸分类、边框回归、人脸关键点检测、人脸属性识别的标注整合到一起组成训练样本集

N为训练样本数，box_k为人脸标注框的坐标向量长度，landmark_p为人脸关键点的坐标向量长度，attr_q为人脸属性的总类别数，N、box_k、landmark_p、attr_q为自然数；

表示训练样本对应的固定大小的图像；

表示训练样本

的人脸类别；

表示训练样本

的人脸标注框的坐标，

为实数，总共四个；

表示训练样本

的人脸关键点的坐标，

为实数；

表示训练样本

的人脸属性的类别。

在步骤3)中，所述设计级联的深度卷积神经网络结构包括以下子步骤：

(1)级联的第一个子网络为小型全卷积网络，小型全卷积网络输入图像的大小为输入的图像重新调整大小到56×56，用于提取输入的图像的粗粒度特征；对于小型全卷积网络的前几层，采用VGG-16(K.Simonyan,A.Zisserman,“Very deep convolutionalnetworks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第三阶段 ('conv1_1'-'conv3_3')的网络结构，小型全卷积网络最后一层共享卷积层的大小为 1×256×1×1；

(2)级联的第二个子网络为中型网络，中型网络输入图像的大小为输入的图像重新调整大小到112×112，用于提取输入图像的中等粒度特征；对于中型网络的前几层，采用VGG-16 (K.Simonyan,A.Zisserman,“Very deep convolutional networks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第四阶段('conv1_1'-'conv4_3') 的网络结构，中型网络先输出一个1024维的全连接层，接着连接上由小型全卷积网络平铺得到的一个256维的全连接层，中型网络最后一层共享全连接层的大小为1×1028；

(3)级联的第三个子网络为大型网络，大型网络输入图像的大小为输入的图像固定好的大小，即224×224，用于提取输入的图像的细粒度特征；对于大型网络的前几层，采用VGG-16 (K.Simonyan,A.Zisserman,“Very deep convolutional networks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第五阶段('conv1_1'-'conv5_3') 的网络结构，大型网络先输出一个1024维的全连接层，接着连接上中型网络最后一层大小为 1×1028的共享全连接层，大型网络最后一层共享全连接层的大小为1×2052。

在步骤4)中，所述在级联的深度卷积神经网络内，对于每一个级联的子网络，采用多任务学习，包括以下子步骤：

(1)对于人脸分类任务，用于对给定的图片判断是否包含人脸，对于每一个训练样本

计算人脸分类任务的损失，采用交叉熵损失函数：

L_i ^cls＝-(y_i ^clslog(p_i)+(1-y_i ^cls)(1-log(p_i))) (1)

p_i表示网络计算得到的表明训练样本

是否为人脸的概率；

为标签；

(2)对于边框回归任务，视为回归问题，其目标在于预测人脸候选框的坐标；对于每一个训练样本

计算边框回归任务的损失，采用欧式损失函数：

其中，

表示从网络中得到的回归人脸候选框的坐标向量，所述坐标向量包括左边、上边、高度和宽度；

表示标注的人脸候选框的坐标向量；

(3)对于人脸关键点检测任务，类似于边框回归任务，也是一个回归问题，对于每一个训练样本

计算人脸关键点检测任务的损失，采用欧式损失函数：

其中，

表示从网络中得到的人脸关键点的坐标向量，总共采用5个人脸关键点；

表示标注的人脸关键点的坐标向量；

(4)对于人脸属性分析任务，类似于人脸分类任务，可视为二分类问题，对于每一个训练样本

计算人脸属性分析任务的损失，采用带有动态损失权重机制的交叉熵损失函数：

其中，μ_ω∈R^d(参照公式(6))表示对应于d个人脸属性的动态权重向量；

表示对于每一个训练样本

所对应的d个人脸属性的交叉熵损失向量；

(5)三个级联子网络的损失构成一个联合损失，所述三个级联子网络为小型全卷积网络、中型网络、大型网络；

其中，N表示训练样本的数量，j表示三个子网络的索引，整个网络通过反向传播算法进行优化。

在步骤5)中，所述在级联的深度卷积神经网络内采用一种动态损失权重机制，为了学习动态权重，对每一个子网络的最后的共享特征x增加一层网络层和一层softmax层，所述网络层，在小型全卷积网络里为卷积层，在中型网络以及大型网络里为全连接层；

定义ω_w∈R^D×d和ε_ω∈R^d分别为卷积层或者全连接层中的权重矩阵和偏差向量，softmax 层的输出为：

其中，

其中，μ_ω＝[μ₁,μ₂,…,μ_d]^T表示d维的动态权重向量，且μ₁+μ₂+…+μ_d＝1.0； α＝[α₁,α₂,…,α_d]^T表示一个d维的向量，softmax函数将d个动态权重转换成正实数值，且其和为1.0。

本发明首先设计级联的深度卷积神经网络，然后在级联的深度卷积神经网络里，对于每一个级联的子网络，采用多任务学习，同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务，接着在基于级联多任务学习的深度卷积神经网络里，采用一种动态损失权重机制，来计算人脸属性的损失权重，最终根据训练好的网络模型，将级联的最后一个子网络的人脸属性识别结果作为最终的人脸属性识别结果。

本发明使用多任务学习来同时训练四个相关的人脸任务，同时预测多个人脸属性。通过利用不同任务间的内在依赖，本发明使得人脸属性识别的结果能被有效地提高。本发明使用级联的方法联合训练了三个不同的子网络，达到了端到端的训练，优化了人脸属性识别的结果。不同于在损失函数里使用固定的损失权重，本发明考虑到不同人脸属性间的差异性，提出了一种动态损失权重机制来自动并动态地计算人脸属性的损失权重。

附图说明

图1为本发明实施例的框架图。

图2为在CelebA数据集上，本发明提出的方法中多任务学习级联不同的任务的结果对比图。在图2中，标记A为本发明提出的方法，T1为人脸关键点检测，T2为人脸检测，T3为人脸属性识别。

具体实施方式

以下实施例将结合附图对本发明作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例包括以下步骤：

1.设计级联的深度卷积神经网络。对于输入的图像，采用均值池化(ave-pooling)的方式将图像调整到三个不同的尺度，作为三个级联子网络的输入，构造一个图像金字塔。

A1.级联的第一个子网络为小型全卷积网络，其输入图像的大小为输入的图像重新调整大小到56×56，用于提取输入的图像的粗粒度特征。对于小型全卷积网络的前几层，采用 VGG-16(K.Simonyan,A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第三阶段('conv1_1'-'conv3_3')的网络结构。小型全卷积网络最后一层共享卷积层的大小为 1×256×1×1。

A2.级联的第二个子网络为中型网络，其输入图像的大小为输入的图像重新调整大小到 112×112，用于提取输入图像的中等粒度特征。对于中型网络的前几层，采用VGG-16(K. Simonyan,A.Zisserman,“Very deep convolutional networks for large-scaleimage recognition”,arXiv:1409.1556,2014.)中的第一阶段到第四阶段('conv1_1'-'conv4_3') 的网络结构。中型网络先输出一个1024维的全连接层，接着连接上由小型全卷积网络平铺得到的一个256维的全连接层，因此中型网络最后一层共享全连接层的大小为1×1028。

A3.级联的第三个子网络为大型网络，其输入图像的大小为输入的图像固定好的大小(即 224×224)，用于提取输入的图像的细粒度特征。对于大型网络的前几层，采用VGG-16(K. Simonyan,A.Zisserman,“Very deep convolutional networks for large-scale image recognition”,arXiv:1409.1556,2014.)中的第一阶段到第五阶段('conv1_1'-'conv5_3') 的网络结构。大型网络先输出一个1024维的全连接层，接着连接上中型网络最后一层大小为 1×1028的共享全连接层。因此，大型网络最后一层共享全连接层的大小为1×2052。

2.在级联的深度卷积神经网络里，对于每一个级联的子网络，采用多任务学习，同时学习人脸分类、边框回归、人脸关键点检测、人脸属性分析四个任务。

B1.对于人脸分类任务，用于对给定的图片判断是否包含人脸，对于每一个训练样本

计算人脸分类任务的损失，采用交叉熵损失函数：

L_i ^cls＝-(y_i ^clslog(p_i)+(1-y_i ^cls)(1-log(p_i)))， (1)

p_i表示网络计算得到的表明训练样本

是否为人脸的概率；

为标签。

B2.对于边框回归任务，可视为回归问题，其目标在于预测人脸候选框的坐标，对于每一个训练样本

计算边框回归任务的损失，采用欧式损失函数：

其中，

表示从网络中得到的回归人脸候选框的坐标向量(包括，左边、上边、高度和宽度)；

表示标注的人脸候选框的坐标向量。

B3.对于人脸关键点检测任务，类似于边框回归任务，也是一个回归问题。对于每一个训练样本

计算人脸关键点检测任务的损失，采用欧式损失函数：

其中，

表示从网络中得到的人脸关键点的坐标向量，总共采用五个人脸关键点；

表示标注的人脸关键点的坐标向量。

B4.对于人脸属性分析任务，类似于人脸分类任务，可视为二分类问题，对于每一个训练样本

表示对于每一个训练样本

所对应的d个人脸属性的交叉熵损失向量。

B5.三个级联子网络(即小型全卷积网络、中型网络、大型网络)的损失构成一个联合损失：

其中，N表示训练样本的数量，j表示三个子网络的索引。整个网络通过反向传播算法进行优化。

3.为了学习动态损失权重，对每一个子网络的最后的共享特征x增加一层网络层(即在小型全卷积网络里为卷积层和在中型以及大型网络里为全连接层)和一层softmax层。定义 ω_w∈R^D×d和ε_ω∈R^d分别为卷积层或者全连接层中的权重矩阵和偏差向量，因此softmax层的输出为：

其中，

其中，μ_ω＝[μ₁,μ₂,…,μ_d]^T表示d维的动态权重向量，且μ₁+μ₂+…+μ_d＝1.0； α＝[α₁,α₂,…,α_d]^T表示一个d维的向量。softmax函数将d个动态权重转换成正实数值，且其和为1.0。

表1为在CelebA和LFWA数据集上本发明提出的方法与其他方法的人脸属性分析结果对比。

表1

其中，FaceTracer对应N.Kumar等人提出的方法(N.Kumar,P.Belhumeur,S.Nayar,“Facetracer:A search engine for large collections of images with faces”,inProceedings of the European Conference on Computer Vision,2008,pp.340-353.)；

PANDA-w和PANDA-l对应N.Zhang等人提出的方法(N.Zhang,M.Paluri,M.Ranzato,T.Darrel,“Panda:Pose aligned networks for deep attribute modeling”,inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2014, pp.1637-1644.)；

ANet对应J.Li等人提出的方法(J.Li,Y.Zhang,“Learning surf cascade forfast and accurate object detection”,in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2013,pp.3468-3475.)；

LNets+ANet(w/o)和LNets+ANet对应Z.Liu等人提出的方法(Z.Liu,P.Luo,X.Wang, X.Tang,“Deep learning face attributes in the wild”,in Proceedings ofthe IEEE International Conference on Computer Vision,2015,pp.3730-3738.)；

MT-RBM(PCA)对应M.Ehrlich等人提出的方法(M.Ehrlich,T.J.Shields,T.Almaev,M. R.Amer,“Facial attributes classification using multi-taskrepresentation learning”,in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2016,pp.47-55.)。

在CelebA数据集上，本发明提出的方法中多任务学习级联不同的任务的结果对比图,参见图2。

Claims

1.基于级联多任务学习深度神经网络的人脸属性识别方法，其特征在于包括以下步骤：

1)准备训练样本集：

i＝1,…,N，N为训练样本数，box_k为人脸标注框的坐标向量长度，landmark_p为人脸关键点的坐标向量长度，attr_q为人脸属性的总类别数，N、box_k、landmark_p、attr_q为自然数；

表示训练样本对应的固定大小的图像；

表示训练样本

是否属于人脸的类别：

表示训练样本

的人脸标注框的坐标；

表示训练样本

的人脸关键点的坐标；

表示训练样本

的人脸属性的类别：

所述准备训练样本集需要整合多个人脸任务标签，包括以下子步骤：

2)对于训练样本集中每幅输入图像，采用均值池化的方式将输入图像调整到三个不同的尺度，作为三个级联子网络的输入，构造一个图像金字塔作为级联的深度卷积神经网络的输入；

3)设计级联的深度卷积神经网络结构，包括以下子步骤：

(1)级联的第一个子网络为小型全卷积网络，用于提取输入的图像的粗粒度特征，小型全卷积网络输入图像的大小为56×56；对于小型全卷积网络的前几层，采用VGG-16中的第一阶段到第三阶段'conv1_1'～'conv3_3'的网络结构，小型全卷积网络最后一层共享卷积层的大小为1×256×1×1；

(2)级联的第二个子网络为中型全卷积网络，用于提取输入图像的中等粒度特征，中型全卷积网络输入图像的大小为112×112；对于中型网络的前几层，采用VGG-16中的第一阶段到第四阶段'conv1_1'～'conv4_3'的网络结构，中型网络先输出一个1024维的全连接层，接着连接上由小型全卷积网络平铺得到的一个256维的全连接层，中型网络最后一层共享全连接层的大小为1×1028；

(3)级联的第三个子网络为大型全卷积网络，用于提取输入的图像的细粒度特征，大型全卷积网络输入图像的大小为224×224；对于大型网络的前几层，采用VGG-16中的第一阶段到第五阶段'conv1_1'～'conv5_3'的网络结构，大型网络先输出一个1024维的全连接层，接着连接上中型网络最后一层大小为1×1028的共享全连接层，大型网络最后一层共享全连接层的大小为1×2052；

所述在级联的深度卷积神经网络内，对于每一个级联的子网络，采用多任务学习，包括以下子步骤：