CN109815826B

CN109815826B - 人脸属性模型的生成方法及装置

Info

Publication number: CN109815826B
Application number: CN201811619509.9A
Authority: CN
Inventors: 王心莹; 刘小扬; 何学智
Original assignee: Newland Digital Technology Co ltd
Current assignee: Newland Digital Technology Co ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2022-11-08
Anticipated expiration: 2038-12-28
Also published as: CN109815826A

Abstract

本发明公开了人脸属性模型的生成方法及装置，对两个数据集的图像进行人脸检测，构建多任务的卷积神经网络模型，将大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；将小型精确数据集的加入至初始模型中，将计算输出的高置信度的人脸属性标注为小型精确数据集的人脸属性；将初始模型进行初始化，将小型精确数据集加入至初始化后的模型中，利用反向传播算法进行端到端的训练，得到新的初始模型；迭代直至初始模型通过预设的验证数据集的测试，输出成品网络模型。本训练方法得出的模型具有泛化能力好、速度快、结构简洁的优点。

Description

人脸属性模型的生成方法及装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种人脸属性模型的生成方法及装置。

背景技术

在深度学习的迅速发展和硬件计算能力的提升中，人脸图像分析技术也得到了飞速的发展，其中，人脸属性识别技术就是智能地分析这些数据的一个技术途径。人脸属性识别即为根据给定的人脸图像，利用模式识别技术来判断该人脸的属性，具体为：1.根据人的面部特征得到的一个人的特定内在属性，人脸所固有的生理特征具有良好的稳定性，例如人的性别，年龄，种族，脸型，眉形，鼻形，嘴形等等。2.根据该人脸当前状态得到的外在属性，例如当前所呈现的表情，是否佩戴眼镜、墨镜，是否佩戴口罩，当前人脸姿态等。

传统的人脸属性识别技术主要是先用人工设计的特征提取器提取人脸特征然后训练人脸属性分类器。这类方法普适性较差，而且特征设计都是由专家指定，非常依赖于专家经验。在多任务识别中，数据量大且数据复杂，传统方法手工提取的特征难以对各种任务均有效，在后续的分类中往往得不到较为精确的预测结果。而基于单标签学习的方法只能关注单个任务，需要训练多个深度网络，非常耗时且忽略了各个属性之间的联系，属性识别的效果不佳。

发明内容

本发明要解决的技术问题是如何提供一种可提高模型的泛化能力、可应对复杂场景的人脸属性模型的生成方法及装置。

为了解决上述技术问题，本发明的技术方案为：

一种人脸属性模型的生成方法，包括步骤：

S10：获取大型公开数据集及小型精确数据集；

S20：对两个数据集的图像进行人脸检测及像素值归一化处理；

S30：构建多任务的卷积神经网络模型，将大型公开数据集加入所述卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

S40：将小型精确数据集的加入至所述初始模型中，将计算输出的人脸属性标注为小型精确数据集的人脸属性；

S50：将所述初始模型进行初始化，将小型精确数据集加入至初始化后的模型中，利用反向传播算法进行端到端的训练，得到新的初始模型；

S60：重复步骤S40、S50直至所述初始模型通过预设的验证数据集的测试，输出成品网络模型。

优选地，步骤S30包括：

S31：通过MobileFaceNet的神经网络结构来构建多任务的卷积神经网络模型，构建多个任务输出；

S32：设置卷积神经网络模型的参数，所述参数包括初始学习率、各任务权重初始值；

S33：大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型。

优选地，构建的任务输出数量为7个，任务输出分别对应年龄、性别分类、绕y轴方向的人脸角度、绕x轴方向的人脸角度、表情分类、眼镜分类及口罩分类；其中性别分类、表情分类、眼镜分类和口罩分类都采用softmax损失函数作为目标函数；年龄、y轴方向的人脸角度和x轴方向的人脸角度则采用Euclidean损失函数做为目标函数。

优选地，多个任务进行共同学习时其损失函数为：

L_multi-tasks＝a*L_gender+b*L_age+c*L_yaw+d*L_pitch+e*L_emotion+f*L_glasses+g*L_mask

其中L_multi-tasks为多任务的总目标优函数，a,b,c,d,e,f,g分别为各预设的任务权重；

L_gender、L_age、L_yaw、L_pitch、L_emotion、L_glasses、L_mask分别为各个任务的损失；

计算Softmax损失：x_i＝x_i ^-max(x)、

L＝-log(p_i),其中p_i为每一个属性类计算出的归一化后的概率；

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

优选地，步骤S60之后还包括：

通过剪枝技术去除卷积核的值低于预设值的卷积核；

将小型精确数据集加入剪枝后的成品网络模型中，利用反向传播算法进行端到端的训练，将成品网络模型的精确度微调至预设要求；

将bn层及scale层合并至卷积层中。

优选地，步骤S40中，初始模型计算输出的人脸属性中，当人脸属性的置信度低于预设值时，滤除该条人脸属性数据。

本发明还提出了一种人脸属性模型的生成装置，包括：

数据获取模块：获取大型公开数据集及小型精确数据集；

预处理模块：对两个数据集的图像进行人脸检测及像素值归一化处理；

初始构建模块：构建多任务的卷积神经网络模型，将大型公开数据集加入所述卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

标注模块：将小型精确数据集的加入至所述初始模型中，将计算输出的人脸属性标注为小型精确数据集的人脸属性；

初始化模块：将所述初始模型进行初始化，将小型精确数据集加入至初始化后的模型中，利用反向传播算法进行端到端的训练，得到新的初始模型；

循环输出模块：重复步骤S40、S50直至所述初始模型通过预设的验证数据集的测试，输出成品网络模型。

优选地，所述初始构建模块包括：

模型构建模块：通过MobileFaceNet的神经网络结构来构建多任务的卷积神经网络模型，构建多个任务输出；

参数设置模块：设置卷积神经网络模型的参数，所述参数包括初始学习率、各任务权重初始值；

初始模型模块：大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

其中，构建的任务输出数量为7个，任务输出分别对应年龄、性别分类、绕y轴方向的人脸角度、绕x轴方向的人脸角度、表情分类、眼镜分类及口罩分类；其中性别分类、表情分类、眼镜分类和口罩分类都采用softmax损失函数作为目标函数；年龄、y轴方向的人脸角度和x轴方向的人脸角度则采用Euclidean损失函数做为目标函数。

多个任务进行共同学习时其损失函数为：

其中L_multi-tasks为多任务的总目标优函数，a,b,c,d,e,f,g分别为预设的任务权重；

计算Softmax损失：x_i＝x_i-max(x)、

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

优选地，人脸属性模型的生成装置还包括：

剪枝模块：通过剪枝技术去除卷积核的值低于预设值的卷积核；

恢复模块：将小型精确数据集加入剪枝后的成品网络模型中，利用反向传播算法进行端到端的训练，将成品网络模型的精确度微调至预设要求；

合并模块：将bn层及scale层合并至卷积层中。

优选地，所述标注模块中，初始模型计算输出的人脸属性中，当人脸属性的置信度低于预设值时，滤除该条人脸属性数据。

采用上述技术方案，构建了一个多任务的卷积神经网络模型，通过一个大型的公开数据集对模型进行预先初步设置，再通过一个属性标签标注较多、错误标签较少的小型精确数据集对模型进行反复的训练，以得到精确度较高的成品网络模型。本技术方案具有以下的优点：

1.本技术方案使用基于多标签学习的方法，可以混合多个人脸属性，发掘属性之间的关联性，提高模型的泛化能力；2.本算法能够在复杂的现实场景下准确地进行识别各类属性。3.使用本方法训练得出的模型具有速度快的优点。4.本方案仅包含一个网络进行端到端的输出，相比用多个单属性网络来达到目标，本发明在时间和空间上都非常高效，且相对于用多个子网络级联来达到目标，本发明在结构上更加简洁。

附图说明

图1为本发明人脸属性模型的生成方法一实施例的流程图；

图2为图1中步骤S30的流程图；

图3为本发明人脸属性模型的生成装置一实施例的模块原理图。

图中，10-数据获取模块，20-预处理模块，30-初始构建模块，40-标注模块，50-初始化模块，60-循环输出模块，70-剪枝模块，80-恢复模块，90-合并模块。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

参照图1，本发明技术方案提出了一种人脸属性模型的生成方法，包括步骤：

S10：获取大型公开数据集及小型精确数据集；

需要说明的是，大型公开数据集主要组成为多个大型公开数据集，属性标签较为稀疏(各个公开数据集都仅含有部分属性)且含有较多噪声(错误标签)；小型精确数据集的主要组成为多个小型亚州人脸数据库以及自己的数据库，更加适用于现实场景。

S30：构建多任务的卷积神经网络模型，将大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

参照图2，具体的步骤S30包括：

S32：设置卷积神经网络模型的参数，参数包括初始学习率、各任务权重初始值；

构建的任务输出数量为7个，任务输出分别对应年龄、性别分类、绕y轴方向的人脸角度、绕x轴方向的人脸角度、表情分类、眼镜分类及口罩分类；其中性别分类、表情分类、眼镜分类和口罩分类都采用softmax损失函数作为目标函数；年龄、y轴方向的人脸角度和x轴方向的人脸角度则采用Euclidean损失函数做为目标函数。

具体地，多个任务进行共同学习时其损失函数为：

计算Softmax损失：x_i＝x_i-max(x)、

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

训练时，为了使Euclidean损失和Softmax损失能够均衡，Euclidean损失采用较小的任务权重。

S40：将小型精确数据集的加入至初始模型中，初始模型计算输出的人脸属性中，当人脸属性的置信度低于预设值时，滤除该条人脸属性数据。将计算输出的高置信度的人脸属性标注为小型精确数据集的人脸属性；

S50：将初始模型进行初始化，将小型精确数据集加入至初始化后的模型中，利用反向传播算法进行端到端的训练，得到新的初始模型；

S60：重复步骤S40、S50直至初始模型通过预设的验证数据集的测试，输出成品网络模型。

S70:通过剪枝技术去除卷积核的值低于预设值的卷积核；

S80：将小型精确数据集加入剪枝后的成品网络模型中，利用反向传播算法进行端到端的训练，将成品网络模型的精确度微调至预设要求；

S90：将bn层及scale层合并至卷积层中。

传统的人脸属性识别技术主要是先用人工设计的特征提取器提取人脸特征然后训练人脸属性分类器。这类方法普适性较差，而且特征设计都是由专家指定，非常依赖于专家经验。在多任务识别中，数据量大且数据复杂，传统方法手工提取的特征难以对各种任务均有效，在后续的分类中往往得不到较为精确的预测结果。

当前，深度学习的出现将特征提取和分类器训练结合起来，让网络自己学习如何提取关键特征和学习分类器，克服了人工设计特征的问题，且避免了特征提取器和任务分类器之间的不适配。相对于支持向量机，朴素贝叶斯等传统分类器的浅层结构，多层神经网络构成的深度神经网络模型能表征一些复杂的模式，且能应对较为复杂的场景。

基于单标签学习的方法只能关注单个任务，需要训练多个深度网络，非常耗时且忽略了各个属性之间的联系。相反的，基于多标签学习的方法可以混合多个人脸属性，发掘属性之间的关联性，提高模型的泛化能力。

多任务的人脸属性识别网络可以与人脸识别网络融合，也可以相互独立。前者采用联合学习的方式同时学习身份特征和人脸属性特征，在进行人脸识别的同时还可以预测人脸的属性特征；这种方法适合预测局部，更加细微的人脸属性，例如鹅蛋脸/国字脸/尖脸，柳叶眉/剑眉/平眉，高鼻子/塌鼻子，厚嘴唇/薄嘴唇等等人脸生物特征。后者则采取级联的方式来增益人脸识别；这种方法可预测的人脸属性范围更大，且应用范围更广。

本发明的另一实施例中，本人脸属性模型的生成方法通过以下步骤实现：

一、数据集的准备和预处理

准备包含人脸的图像数据集以及对应的人脸属性标签；其中数据集主要包括2个部分，大型公开数据集的主要组成为多个大型公开数据集，属性标签较为稀疏(各个公开数据集都仅含有部分属性)且含有较多噪声(错误标签)。小型精确数据集的主要组成为多个小型亚州人脸数据库以及自己的数据库，更加适用于现实场景。

对数据集中的图像用常用人脸检测算法(本发明中采用的是MTCNN人脸检测算法)进行人脸检测。若检测不包含人脸，则放弃该图片；若包含人脸，将检测完的人脸框以中心坐标为中心，以最大边为基准往外扩大10％，截取出一个正方形的人脸区域。之后将人脸区域缩放成112*112的图像大小并截取112*96的图像大小。

设定平均图像的RGB值为[127.5,127.5,127.5]，缩放值为1/127.5。即人脸图像数据集中的每幅人脸图像减去平均图像并乘以缩放值，把图像像素值归一化到[-1,1]之间。若是图像本身为RGB图，则每个通道的像素值都减去127.5然后乘以1/127.5；若是图像本身为灰度图，则复制单通道至三通道，且每个通道的像素值都减去127.5，然后乘以1/127.5。

二、网络的构建

用MobileFaceNet的神经网络结构来构建多任务卷积神经网络，构建7个任务输出，分别对应年龄、性别分类、绕y轴方向的人脸角度、绕x轴方向的人脸角度，表情分类，眼镜分类，口罩分类。其中性别分类、表情分类、眼镜分类和口罩分类都采用softmax损失函数作为目标函数；年龄、y轴方向的人脸角度和x轴方向的人脸角度则采用Euclidean损失函数做为目标函数。

网络训练的目标函数为多个Softmax损失函数和Euclidean损失函数的组合。多个任务进行共同学习时其损失函数定义如下：

其中L_multi-tasks为多任务的总目标优函数；

a,b,c,d,e,f,g分别为预设的任务权重，根据损失函数的不同和各个任务的收敛难易程度来设置不同的任务权重；

L_gender、L_age、L_yaw、L_pitch、L_emotion、L_glasses、L_mask分别为对应性别、年龄、绕y轴方向的人脸角度、绕x轴方向的人脸角度、表情分类、眼镜分类及口罩分类的损失。

计算Softmax损失：x_i＝x_i-max(x)、

L＝-log(p_i),其中p_i为每一个属性类计算出的归一化后的概率。

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

设置训练卷积神经网络的初始学习率、权重初始值等超参数。

三、用数据集一训练出来的模型对数据集二进行标注补充

将大型公开数据集放到构建好的卷积神经网络模型中利用反向传播算法进行端到端的训练，得到初始模型。

将小型精确数据集送入网络模型进行前向计算，将得到年龄估计值，性别识别结果，在x轴方向上的人脸角度，输出在y轴方向上的人脸角度，表情识别结果，眼镜识别结果，口罩识别结果。除了已拥有的人工标注的部分属性，该网络模型的计算结果将作为协助来补充人脸属性标注，以减少小型精确数据集的稀疏性。其中，除了年龄估计值不可补充作为标注外，其它高置信度结果的属性将作为小型精确数据集的数据的标注。例如，一张人脸图的性别识别结果为95％为女，该置信度较高，则作为标注；若性别识别结果为70％为女，该置信度较低，则不作为标注，将该图的性别标注空置。

用上一个网络模型进行初始化，将小型精确数据集的数据放到构建好的卷积神经网络模型中利用反向传播算法进行端到端的训练，得到小型精确数据集的网络模型。

重复以上两个步骤来多次对小型精确数据集进行标注补充。

需要说明的是，最后小型精确数据集的少量未标注数据用人工校验来完整。

四、用标注完的数据集二训练，得到目标模型。

再训练得到小型精确数据集的数据的网络模型。对于训练好的网络模型，根据其在验证数据集上的性能，判断是否停止训练。

五、模型优化。

提取出训练好的网络模型参数，分析网络模型参数。在可视化训练好的模型的权重中发现一些的卷积核的值很小，几乎为0，这些卷积核对整个模型没有贡献，所以通过剪枝技术去除这些卷积核。

剪枝时需要先设定较小的稀疏度，例如,计算卷积核的L1范数的绝对值，当以0.01作为阀值剪枝后直接在验证集上进行测试，发现精度不变，说明这些卷积滤波器对该模型毫无影响。当以0.02作为阀值，去除这些卷积核后得到一个剪枝后的网络，该网络的第一个卷积层的大小将从3*3*3*64缩减为3*3*3*31，前三层卷积层的大小都会缩减为大约原来的一半，该网络在验证集上的精度会略微下降。

将小型精确数据集的数据放入剪枝后的网络模型中利用反向传播算法进行端到端的训练，目的是为了恢复精度。

根据其在验证数据上的性能，判断精度是否恢复。精度恢复后再重复上一步骤，精度无法恢复的话则尝试更小些的稀疏度，多次反复微调。

卷积层跟着的batch-norm层和scale层在训练时能起到加速的作用，但在前向计算时影响了整体的计算速度并占用了更多的内存,所以模型训练完成后，将bn层和scale层合并进卷积层，能起到加速的作用。

参照图3，本发明还提出了一种人脸属性模型的生成装置，包括：

数据获取模,10：获取大型公开数据集及小型精确数据集；

预处理模块20：对两个数据集的图像进行人脸检测及像素值归一化处理；

初始构建模块30：构建多任务的卷积神经网络模型，将大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

标注模块40：将小型精确数据集的加入至初始模型中，将计算输出的高置信度的人脸属性标注为小型精确数据集的人脸属性；

初始化模块50：将初始模型进行初始化，将小型精确数据集加入至初始化后的模型中，利用反向传播算法进行端到端的训练，得到新的初始模型；

循环输出模块60：重复步骤S40、S50直至初始模型通过预设的验证数据集的测试，输出成品网络模型。

具体地，初始构建模块30包括：

模型构建模块31：通过MobileFaceNet的神经网络结构来构建多任务的卷积神经网络模型，构建多个任务输出；

参数设置模块32：设置卷积神经网络模型的参数，参数包括初始学习率、各任务权重初始值；

初始模型模块33：大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

多个任务进行共同学习时其损失函数为：

计算Softmax损失：x_i＝x_i ^-max(x)、

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

具体地，人脸属性模型的生成装置还包括：

剪枝模块70：通过剪枝技术去除卷积核的值低于预设值的卷积核；

恢复模块80：将小型精确数据集加入剪枝后的成品网络模型中，利用反向传播算法进行端到端的训练，将成品网络模型的精确度微调至预设要求；

合并模块90：将bn层及scale层合并至卷积层中。

具体地，标注模块40中，初始模型计算输出的人脸属性中，当人脸属性的置信度低于预设值时，滤除该条人脸属性数据。

采用上述技术方案，构建了一个多任务的卷积神经网络模型，通过一个大型的公开数据集对模型进行预先初步设置，再通过一个属性标签标注较多、错误标签较少的小型精确数据集对模型进行反复的训练，以得到精确度较高的成品网络模型。本技术方案具有以下的优点：1.本技术方案使用基于多标签学习的方法，可以混合多个人脸属性，发掘属性之间的关联性，提高模型的泛化能力；2.本算法能够在复杂的现实场景下准确地进行识别各类属性。3.使用本方法训练得出的模型具有速度快的优点。4.本方案仅包含一个网络进行端到端的输出，相比用多个单属性网络来达到目标，本发明在时间和空间上都非常高效，且相对于用多个子网络级联来达到目标，本发明在结构上更加简洁。5.与现有技术相比，本发明发掘属性之间的关联性，提高模型的泛化能力,减少了平摊在单个任务中的识别时间。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种人脸属性模型的生成方法，其特征在于，包括步骤：

S10：获取大型公开数据集及小型精确数据集；

S60：重复步骤S40、S50直至所述初始模型通过预设的验证数据集的测试，输出成品网络模型；

所述大型公开数据集组成为多个大型公开数据集，属性标签稀疏且含有较多噪声；小型精确数据集的组成为多个小型亚州人脸数据库以及自有数据库；

其中，步骤S30包括：

S33：大型公开数据集加入卷积神经网络模型中，利用反向传播算法进行端到端的训练，以获得初始模型；

其中，所述构建的任务输出数量为7个，任务输出分别对应年龄、性别分类、绕y轴方向的人脸角度、绕x轴方向的人脸角度、表情分类、眼镜分类及口罩分类；其中性别分类、表情分类、眼镜分类和口罩分类都采用softmax损失函数作为目标函数；年龄、y轴方向的人脸角度和x轴方向的人脸角度则采用Euclidean损失函数做为目标函数；

其中，多个任务进行共同学习时其损失函数为：

计算Softmax损失：x_i＝x_i-max(x)、

L＝-log(p_i),其中p_i为每一个属性类计算出的归一化后的概率；X_i指第i个分类的特征值，x_i＝x_i-max(x)是为了防止计算p时分母溢出；n表示每个任务的分类数；

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值，N表示当前batch中的总图片量。

2.根据权利要求1任一项所述的人脸属性模型的生成方法，其特征在于，步骤S60之后还包括：

通过剪枝技术去除卷积核的值低于预设值的卷积核；

将bn层及scale层合并至卷积层中。

3.根据权利要求1至2任一项所述的人脸属性模型的生成方法，其特征在于，步骤S40中，初始模型计算输出的人脸属性中，当人脸属性的置信度低于预设值时，滤除该条人脸属性数据。

4.一种人脸属性模型的生成装置，其特征在于，包括：

数据获取模块：获取大型公开数据集及小型精确数据集；

标注模块：将小型精确数据集的加入至所述初始模型中，将计算输出的高置信度的人脸属性标注为小型精确数据集的人脸属性；

循环输出模块：重复步骤S40、S50直至所述初始模型通过预设的验证数据集的测试，输出成品网络模型；

所述初始构建模块包括：

其中，构建的任务输出数量为7个，任务输出分别对应年龄、性别分类、绕y轴方向的人脸角度、绕x轴方向的人脸角度、表情分类、眼镜分类及口罩分类；其中性别分类、表情分类、眼镜分类和口罩分类都采用softmax损失函数作为目标函数；年龄、y轴方向的人脸角度和x轴方向的人脸角度则采用Euclidean损失函数做为目标函数；

多个任务进行共同学习时其损失函数为：

计算Softmax损失：x_i＝x_i-max(x)、

计算Euclidean损失：

其中y_n为真实的标签值，

为回归器的预测值。

5.根据权利要求4所述的人脸属性模型的生成装置，其特征在于，还包括：

合并模块：将bn层及scale层合并至卷积层中。

6.根据权利要求5所述的人脸属性模型的生成装置，其特征在于，所述标注模块中，初始模型计算输出的人脸属性中，当人脸属性的置信度低于预设值时，滤除该条人脸属性数据。