CN112149449A

CN112149449A - 一种基于深度学习的人脸属性识别方法及系统

Info

Publication number: CN112149449A
Application number: CN201910560193.9A
Authority: CN
Inventors: 王洋; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2020-12-29

Abstract

本发明公开了一种基于深度学习的人脸属性识别方法及系统，属于人脸识别领域，该方法将性别、表情、戴眼镜与否等辨识度较大的属性按一般的分类方式进行处理。在对待年龄这种有按序列连续变化性质的属性采用概率分布的方式进行优化，并将每一年龄的标准差信息融入神经网络中进行自适应性学习，不仅提升了人脸属性特别是年龄识别的精度和稳定性，同时减少了整个系统的运行时间。

Description

一种基于深度学习的人脸属性识别方法及系统

技术领域

本发明属于人脸识别领域，尤其涉及一种基于深度学习的人脸属性识别方法及系统。

背景技术

随着生物识别技术的发展，人脸识别相关的技术被应用到越来越多的场景。人脸属性识别是通过检测人脸图像，获取该人脸图像的年龄、性别、种族等属性信息，在人机交互、社交网络及广告推送等领域具有很大的应用前景。在过去十几年中，人脸属性识别技术引来越来越多的研究人员关注。

人脸属性识别和其他生物特征识别技术一样，主要分为两步：1.特征提取；2.特征识别。早期的研究人员主要采用机器学习的相关算法获取人脸属性信息，特征提取方面主要使用 LBP、SIFT等传统手工设计特征算子及Gabor滤波器等，识别方面则采用特征分类或回归的方式。

专利[CN 104143079A]提出一种人脸属性识别方法，先利用gabor滤波器提取人脸有效图像区域纹理特征，并使用PCA对特征信息降维处理得到人脸特征，特征识别方面则按分类的方式使用SVM算法利用人脸特征训练多个属性分类器。不同于专利[CN104143079A]，B.Xiao 等人(Metric learning for regression problems and human ageestimation)提出了一种按回归的方式评估年龄的方法，利用图像数据和标签通过优化算法学习一种度量方式。与分类方式不同，回归方式直接输出人脸的年龄估计值。

卷积神经网络在计算机视觉领域表现出的卓越性能使得其在近几年被越来越多的被应用于人脸属性识别研究领域。专利[CN 103824054 A]提出了一种基于级联深度神经网络的人脸属性识别方法。构建由多个独立的卷积神经网络组成的级联神经网络，以前一级的输出作为下一级的输入，从而得到一个由粗到精的神经网络结构，每一级独立的卷积神经网络包含多个卷积、池化、全连接等层，最后用softmaxWithLoss(一种优化目标函数)。在训练阶段，采用大量的带标签的人脸图像数据对各级网络模型参数进行迭代更新，从而得到最优迭代解。

Zhenxing Niu等人(Ordinal Regression with Multiple Output CNN for AgeEstimation)采用深度学习的方法针对年龄属性按回归的思路提出了新的解决方案。该方案将年龄回归问题转化为一系列有序的多个分类的子问题，每个子问题只对是否比某个年龄大进行判断，该方案的整体网络结构如图1-1所示。

专利[CN 107247947 A]提出了一种基于深度残差网络的人脸属性识别方法。先采用深度残差网络对预处理后的人脸图像进行特征提取，然后采用CrossentropyWithLoss和softmaxWithLoss分别对年龄、性别、微笑等属性迭代优化，网络流程图见图1-2。

早期基于SIFT、LBP等手工特征算子的方法达到的精度并不高，且受环境光照、姿态、表情变化等因素的影响，根本不能满足实际应用场景下的需求。基于Gabor滤波器的方法能获取与人脸生物作用相仿的特征，但达到的识别精度提升不大。

专利[CN 103824054 A]提出了一种基于级联深度神经网络的人脸属性识别方法。该发明将所有的属性都按分类的思路对待，先用级联网络提出人脸图像特征，然后采用softmax对特征进行分类。这种分类思路在性别、种族等辨识度大的属性方面具有不错的效果，但在年龄属性方面并不能得到精确的估计值，而只能得到一个大概的年龄段划分。

Zhenxing Niu等人针对年龄属性的特殊性质提出了一种回归模型，将年龄问题划分为K 个子任务，每个子任务对是否大于某个年龄进行判断。每个子任务共享前面网络层，然后采用cross-entropy作为优化函数对该子任务进行迭代优化。该方案利用年龄的序列变化属性，相比直接进行年龄分类或回归的方法效果稍微有点提升，但当K的数量较大时会大大增加模型所占用存储空间的大小，同时减缓系统运行速度。

专利[CN 107247947A]中同样采用深度学习的方式提出人脸属性特征，与专利[CN103824054A]不同的是在针对年龄这一特殊属性时采用CrossentropyWithLoss对年龄概率分布进行优化。从该发明的描述可知，在生成年龄标签过程中对不同年龄的样本都需要事先计算一个不同的年龄标准差σ_age，然后根据公式(1)生成1～80岁的分布。识别阶段则在每个年龄图像集中挑选N张图像作为标准年龄图像，并生成与年龄对应的80维年龄特征作为标准年龄特征基；对待识别图像先同样提取80维年龄特征f，然后利用公式(2)计算f与标准年龄特征基之间的权重ε_i，i为标准特征基序号。将ε_i与标准基i对应的年龄标签相乘作为标准基i对于年龄预测的贡献值，将标准年龄特征基中每一维度对应贡献值累加得到一个80维向量即为最终预测结果，其中最大值对应维度记为预测年龄。

专利[CN 107247947 A]中的发明有三个明显的不足之处：1.年龄标准差σ_age的设置需要根据经验或统计规则，根据经验设置的方式合不合理暂且不谈，就算根据统计方式设置，也没有足够的统计样本；2.该模型要求输入的年龄标签为1～80上的离散概率分布，而几乎所有的标注数据都是单标签方式，需要进行二次加工；3.在年龄识别阶段要先在每个年龄图像集中挑选N张图像并计算标准年龄基作为先验信息，在计算最终预测年龄过程中需要大量的运算，必然会导致整个识别系统的耗时大大增加。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提出一种基于深度学习的人脸属性识别方法，该方法将性别、表情、戴眼镜与否等辨识度较大的属性按一般的分类方式进行处理。在对待年龄这种有按序列连续变化性质的属性采用概率分布的方式进行优化，并将每一年龄的标准差信息融入神经网络中进行自适应性学习，不仅提升了人脸属性特别是年龄识别的精度和稳定性，同时减少了整个系统的运行时间。

本发明为解决上述技术问题采用以下技术方案

一种基于深度学习的人脸属性识别方法，具体包含训练阶段和测试阶段，其中，训练阶段具体包含如下步骤：

步骤1，对人脸图像数据集进行数据预处理，并生成对应的标签；

步骤2，对预处理后的人脸图像数据集进行增强操作，包括旋转、缩放、随机裁剪以及亮度、色度变换；

步骤3，将增强操作后的数据集进行训练/验证/测试集的划分；

步骤4，构建网络结构，导入训练集、验证集及其对应的标签进行训练；

测试阶段具体包含如下步骤：

步骤5，对人脸图像数据集进行数据预处理；

步骤6，将预处理后的人脸图像数据集输入步骤4构建的网络结构，加载网络结构对应的模型参数进行前向传播；

步骤7，取出网络结构的输出结果，根据标签生成规则得到预测标签；

步骤8，根据每类标签的含义将所述预测标签转化即得到最终的预测结果。

作为本发明一种基于深度学习的人脸属性识别方法的进一步优选方案，在步骤1中，数据集包含三部分：CelebA数据集、MegaAge-Asian数据集和自采数据集。

作为本发明一种基于深度学习的人脸属性识别方法的进一步优选方案，步骤1和步骤5 中所述数据预处理包括进行人脸检测、关键点定位及归一化处理。

作为本发明一种基于深度学习的人脸属性识别方法的进一步优选方案，在步骤4中，对于属性标签包含表情、性别、戴眼镜采用SoftmaxWithLoss作为目标函数进行分类优化，针对年龄属性标签则先将年龄特征向量输入softmax函数进行归一化处理，接着采用JointMeanVarianceLoss目标函数利用F'_a和输入的年龄标签L_a对年龄任务进行迭代优化；其中， F'_a为一矢量，是图像A在年龄0～n上的预测分布。

作为本发明一种基于深度学习的人脸属性识别方法的进一步优选方案，根据所述图像A 在年龄0～n上的预测分布得到的预测年龄期望值为E_a，方差为V_a，具体公式如下：

其中，Loss_a为模型对于图像A的预测年龄值与输入标签L_a之间的误差；

E_a为模型预测年龄期望值，L_a为模型预测年龄真实值。

作为本发明一种基于深度学习的人脸属性识别方法的进一步优选方案，softmax函数的数学形式具体如下：

其中，v_i为归一化前的特征值，v'_i则为归一化后的特征值；

设训练集中图像A的年龄特征向量F_a可用F_a＝{f₀,f₁,…,f_n-1}表示，则归一化处理后的特征向量F'_a，F'_a＝{f'₀,f'₁,…,f'_n-1},0＜＝f'_i＜1；

其中，n表示特征向量的维度，n＝100。

一种基于深度学习的人脸属性识别系统，包含：

数据采集模块，用于采集人脸图像形成人脸图像数据集；

数据预处理模块，用于对采集的人脸图像进行预处理；

预测标签生成模块，用于将预处理后的人脸图像数据集输入训练阶段构建的网络结构，加载网络结构对应的模型参数进行前向传播；取出网络结构的输出结果，根据标签生成规则得到预测标签；

数据识别模块，用于根据每类标签的含义将所述预测标签转化即得到最终的预测结果。

作为本发明一种基于深度学习的人脸属性识别系统的进一步优选方案，其特征在于：所述系统还包括：

数据增强操作模块，用于对预处理后的人脸图像进行增强操作，包括旋转、缩放、随机裁剪以及亮度、色度变换；

数据划分模块，用于将所述数据增强操作模块输出的数据集划分为训练集、验证集和测试集；

数据处理模块，用于构建网络结构，导入所述训练集、所述验证集及其对应的标签进行训练。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明将性别、表情、戴眼镜与否等辨识度较大的属性按一般的分类方式进行处理，在对待年龄这种有按序列连续变化性质的属性也采用概率分布的方式进行优化，同时将每一年龄的标准差信息融入神经网络中进行自适应性学习，不仅提升了人脸属性特别是年龄识别的精度和稳定性，同时减少了整个系统的运行时间和标注成本。

附图说明

图1-1是通过Ordinal Regression的方法利用年龄的连续序列信息生成多个子判别器；

图1-2是一种基于多任务的深度学习人脸属性识别方法；

图1-3是本发明训练阶段整个网络的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

步骤1，对人脸图像数据集进行数据预处理：进行人脸检测、关键点定位及归一化处理，并生成对应的标签；

步骤2，对预处理后的数据集进行增强操作，包括旋转、缩放、随机裁剪以及亮度、色度变换；

步骤3，将数据集进行训练/验证/测试集的划分；

步骤4，构建网络结构，导入预处理后的人脸图像数据和步骤1生成的标签进行训练；例如，图1-2中的人脸，其对应的年龄标签为32，性别标签为1(0表示女，1表示男)，表情标签为1(0表示中性表情，1表示微笑，2表示难过...)等。

测试阶段具体包含如下步骤：

步骤5，对输入人脸图像数据集进行预处理，进行人脸检测、关键点定位及归一化处理；

步骤6，将预处理后的人脸图像输入步骤4构建的网络结构，加载网络结构对应的模型参数进行前向传播；

步骤7，取出网络结构的输出结果，生成规则得到预测标签；从图1-3可知，年龄预测输出为一个100维向量V1＝{p0,p1,…p99}，其和为1，表示在年龄段[0,99]上的概率分布。那么此时需要将其转变为更直观的结果，也就是具体年龄值age。age＝0*p0+1*p1+2*p2+…99*p99；性别预测值为一个2维向量V2＝{p0,p1},表示男女的概率大小。p0>p1则预测结果为0(女)，反之为1(男)。其他预测结果计算方法类推；

步骤8，根据每类标签的含义转化预测标签，获取预测结果。

在步骤1中，数据集包含三部分：CelebA数据集、MegaAge-Asian数据集和自采数据集。

在步骤1中，CelebA数据集包含20W张来自互联网的明星图像，每张图像有40个属性标签，包括年龄、性别、表情、眼镜；

MegaAge-Asian数据集，包含近4w张亚洲人脸图像，每张图像对应年龄标签，其余标签则进行手工标注；

自采数据集，收集了0-100岁间每个年龄约1000张亚洲人脸图像，并采用手工标注的方式添加了属性标签，包含性别、年龄、表情、眼镜；

其中，性别和眼镜属性标签则采用0，1进行标注；表情属性标签则采用0，1，…，N-1进行标注，N为表情的种类数量；年龄属性标签则为其真实年龄值。

在步骤4中，对于属性标签包含表情、性别、戴眼镜采用常用的SoftmaxWithLoss作为目标函数进行分类优化，针对年龄属性标签则先将年龄特征向量输入softmax函数进行归一化处理，接着采用JointMeanVarianceLoss利用得到的F'_a和输入的年龄标签L_a对年龄任务进行迭代优化，其中，F'_a为一矢量，是图像A在年龄0～n上的预测分布，得到的预测年龄期望为 E_a，方差为V_a，具体公式如下：

E_a为模型预测年龄期望值，L_a为模型预测年龄真实值；

其中，当E_a与L_a越接近，则表示模型预测年龄期望值与真实值越接近，即Loss_a的值越小；当

和V_a同时取最小值，Loss_a取得最小值，则模型的预测分布和所得的期望值才最真实准确。

优选的，softmax函数的数学形式具体如下：

其中，v_i为归一化前的特征值，v'_i则为归一化后的特征值；

其中，n表示特征向量的维度，n＝100。

一种基于深度学习的人脸属性识别系统，包含：

数据采集模块，用于采集人脸图像形成人脸图像数据集；

数据预处理模块，用于对采集的人脸图像进行预处理；

本发明提出了一种基于深度学习的人脸属性识别方法，该方法将性别、表情、戴眼镜与否等辨识度较大的属性按一般的分类方式进行处理。在对待年龄这种有按序列连续变化性质的属性也采用概率分布的方式进行优化，但设计的网络在年龄属性方面只需输入单标签格式，而将每一年龄的标准差信息融入神经网络中进行自适应性学习，消除了专利[CN107247947A] 中的经验误差(根据经验对相关参数进行设置所带来的误差)或局部统计误差(因数据量不足导致统计值不能代表样本真实值带来的误差)。同时本发明采用端到端模式的网络设计方式，不仅提升了人脸属性特别是年龄识别的精度和稳定性，同时减少了整个系统的运行时间。

基于深度学习的方法大体分为训练阶段和测试阶段，本发明训练阶段整个网络的结构示意图见1-3所示。网络训练和测试所需的数据集由三部分组成，一部分来源于CelebA(CelebFaces Attributes Dataset)数据集，其中包含20W张来自互联网的明星图像，每张图像有40个属性标签，包括年龄、性别、表情、眼镜等；一部分来源于MegaAge-Asian数据集，包含近4w张亚洲人脸图像，每张图像对应年龄标签，其余标签则进行手工标注；还有一部分为自采数据集。考虑到CelebA中可以几乎没有0-20、60-100岁左右的样本，而MegaAge-Asian总数量偏少，自采数据集则收集了0-100岁间每个年龄约1000张亚洲人脸图像，并采用手工标注的方式添加了性别、年龄、表情、眼镜等属性标签。性别、眼镜等二分类判断属性则采用0，1进行标注；表情等多分类判断的属性则采用0，1，…，N-1进行标注， N为表情的种类数量；年龄标注则为其真实年龄值。

为了兼顾模型的性能和速度，主干网络采用MobileNet网络结构，得到一个128维的特征向量后，分别输入不同的任务分支采用不同的目标函数进行迭代优化。对于表情、性别、戴眼镜等属性采用常用的SoftmaxWithLoss作为目标函数进行分类优化，针对年龄属性则先将年龄特征向量输入softmax函数进行归一化处理，softmax函数的数学形式见式(1)，其中v_i为归一化前的特征值，v'_i则为归一化后的特征值。假设训练集中图像A的年龄特征向量 F_a可用式(2)表示，则归一化处理后的特征向量F'_a见式(3)。

F_a＝{f₀,f₁,…,f_n-1} (1)

F'_a＝{f'₀,f'₁,…,f'_n-1},0＜＝f'_i＜1 (3)

式(2)和(3)中n表示特征向量的维度，这里n＝100。接着采用JointMeanVarianceLoss 利用得到的F'_a和输入的年龄标签L_a对年龄任务进行迭代优化。F'_a为一矢量，是图像A在年龄 0～n上的预测分布，得到的预测年龄期望为E_a见式(4)，方差为V_a见式(5)。

JointMeanVarianceLoss目标函数是均值方差的结合形式，对于图像A其具体的数学表示形式见式(6)。

式(6)中Loss_a为模型对于图像A的预测年龄值与输入标签L_a之间的误差。当E_a与L_a越接近，也就表示模型预测年龄期望值与真实值越接近，式(6)中前一部分的值越小；另一方面，就算模型预测年龄期望值E_a与真实值L_a很相近，但模型预测的年龄分布方差V_a较大，则Loss_a也不会取得最小值，同时这种分布也不符合年龄的真实概率分布。只有当

和 V_a同时取最小值，Loss_a才能取得最小值，此时模型的预测分布和所得的期望值才最真实准确。

为了克服模型受光照等因素的影响，在训练过程中对输入图像做了大量的预处理工作，包括旋转、缩放、白平衡及翻转等常用的数据增强方式。最终所得的人脸属性识别模型在真实环境下的测试结果精度很好。

本发明可以基于其他的主干网络如Resnet或Densenet等提出另一种基于深度学习的人脸属性识别的解决方案，但无论是哪种基于深度学习的方法都包括数据采集、标注，网络的构建，模型的训练及测试部署等环节；

本发明在训练过程中还可以添加一些其他的数据增强方式以加强模型的稳定性。

Claims

1.一种基于深度学习的人脸属性识别方法，其特征在于：具体包含训练阶段和测试阶段，其中，训练阶段具体包含如下步骤：

测试阶段具体包含如下步骤：

步骤5，对人脸图像数据集进行数据预处理；

2.根据权利要求1所述的一种基于深度学习的人脸属性识别方法，其特征在于：在步骤1中，数据集包含三部分：CelebA数据集、MegaAge-Asian数据集和自采数据集。

3.根据权利要求1所述的一种基于深度学习的人脸属性识别方法，其特征在于：步骤1和步骤5中所述数据预处理包括进行人脸检测、关键点定位及归一化处理。

4.根据权利要求1所述的一种基于深度学习的人脸属性识别方法，其特征在于：在步骤4中，对于属性标签包含表情、性别、戴眼镜采用SoftmaxWithLoss作为目标函数进行分类优化，针对年龄属性标签则先将年龄特征向量输入softmax函数进行归一化处理，接着采用JointMeanVarianceLoss目标函数利用F’_a和输入的年龄标签L_a对年龄任务进行迭代优化；其中，F’_a为一矢量，是图像A在年龄0～n上的预测分布。

5.根据权利要求4所述的一种基于深度学习的人脸属性识别方法，其特征在于：根据所述图像A在年龄0～n上的预测分布得到的预测年龄期望值为E_a，方差为V_a，具体公式如下：

E_a为模型预测年龄期望值，L_a为模型预测年龄真实值。

6.根据权利要求4所述的一种基于深度学习的人脸属性识别方法，其特征在于：softmax函数的数学形式具体如下：

其中，v_i为归一化前的特征值，v’_i则为归一化后的特征值；

设训练集中图像A的年龄特征向量F_a可用F_a＝{f₀,f₁,…,f_n-1}表示，则归一化处理后的特征向量F_a'，F’_a＝{f’₀,f₁',…,f’_n-1},0＜＝f_i'＜1；

其中，n表示特征向量的维度，n＝100。

7.一种基于深度学习的人脸属性识别系统，其特征在于：包含：

数据采集模块，用于采集人脸图像形成人脸图像数据集；

数据预处理模块，用于对采集的人脸图像进行预处理；

8.根据权利要求7所述的一种基于深度学习的人脸属性识别系统，其特征在于：所述系统还包括：