CN108520213A

CN108520213A - 一种基于多尺度深度的人脸美丽预测方法

Info

Publication number: CN108520213A
Application number: CN201810261657.1A
Authority: CN
Inventors: 甘俊英; 谭海英; 姜开永; 何国辉; 翟懿奎
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-09-11
Anticipated expiration: 2038-03-28
Also published as: CN108520213B

Abstract

本发明提供一种基于多尺度深度的人脸美丽预测方法，包括以下步骤：构建多尺度的CNN模型，将经过预处理的人脸图像输入到CNN模型中进行预训练，得到预训练的人脸美丽预测CNN模型，将处理后的人脸美丽图像输入到预训练的人脸美丽预测CNN模型中进行再训练，提取人脸图像的统一深层次特征表达，得到训练好的最终人脸美丽预测CNN模型，将测试人脸图像输入最终训练好的人脸美丽预测CNN模型中，进行人脸美丽预测；本发明采用构建的多尺度CNN模型来提取人脸美丽特征，能够从数据中学习到有层次感的美丽特征表达，通过人脸图像对模型进行预训练，再利用人脸美丽图像进行微调，通过将人脸图像剪裁为多个尺度进行特征学习，从而提高人脸美丽预测的精度。

Description

一种基于多尺度深度的人脸美丽预测方法

技术领域

本发明涉及一种计算机视觉与图像处理领域，尤其是一种基于多尺度深度的人脸美丽预测方法。

背景技术

美丽一直为人们津津乐道的话题，然而如何评价一张人脸图像的美丽程度是一个抽象的问题。评价人脸的美丽程度很有可能受到主观因素的影响，不同人，不同种族都有不同的评价标准，现有人研究通过计算机对人脸美丽进行较为客观的评价，人脸美丽评价可以广泛地应用在日常生活中，如在社交网络中让计算机为好友进行美丽评价并分享，基于几何特征的人脸美丽预测方法是人脸美丽研究的热点，研究者在人脸图像上提取许多有意义的特征点，计算感兴趣特征点之间的几何距离以及由这些距离所构成的比率矢量，然后将几何距离和比率矢量作为特征进行机器学习，然而人脸平面图像单纯用几何特征进行描述会丢失诸如肌肉的起伏、五官部位的结构转折等表征人脸美丽的特征信息，而且人脸特征点的检测在训练阶段需由人工标注训练样本，但过多主观因素介入容易导致所获结果没有普适性，当待标注图像数目庞大时，标注工作量较大。

发明内容

针对现有技术的不足，本发明提供一种基于多尺度深度的人脸美丽预测方法，通过利用深度学习来提取人脸图像更具结构性和层次性的美学特征，提高对人脸美丽度预测的准确性。

本发明的技术方案为：一种基于多尺度深度的人脸美丽预测方法，包括以下步骤：

S1)、获取人脸图像、以及人脸美丽图像作为训练图像；

S2)、对训练图像中的人脸图像、以及人脸美丽图像进行相同的预处理，得到预设大小的图像；

S3)、构建多尺度的CNN模型，该所述的多尺度的CNN模型包括第一输入层、第二输入层、第三输入层，以及多个BMC单元、多个池化层、下采样层、多个全连接层，其中，每个BMC由单元BN层、MFM激活层以及卷积层构成，

第一输入层与第二输入层的输出端依次与BMC3、BMC4、池化层P2串联连接；

第三输入层与池化层P2的输出端依次与BMC5、BMC6、池化层P3、BMC7、BMC8、 BMC9、BMC10、池化层P4、全连接层Fc1、下采样层、全连接层Fc2串联连接，将第一输入层得到美丽特征与第二输入层得到美丽特征结合来，经过堆积的BMC3、BMC4、池化层P2与第三输入层提取的美丽特征结合起来，并经过多个BMC单元提取到更深层次的多尺度特征；

S4)、将步骤S2)中预处理的人脸图像输入到CNN模型中进行预训练，提取人脸图像的深层泛化特征，得到预训练的人脸美丽预测CNN模型；

S5)、然后将步骤S2)中处理后的人脸美丽图像输入到预训练的人脸美丽预测CNN模型中进行再训练，提取人脸图像的统一深层次特征表达，并计算人脸美丽预测的正确率，多次迭代直至正确率不再增加且在最大正确值附近波动时，减少学习速率继续训练，并且将训练图像通过模型，用全连接层参数计算损失误差，将计算得到的损失误差反向传播更新模型参数，得到训练好的最终人脸美丽预测CNN模型；

S6)、将测试人脸图像输入最终训练好的人脸美丽预测CNN模型中，进行人脸美丽预测，并输出预测结果。

进一步，上述技术方案中，步骤S2)中，所述的图像预处理的步骤如下：

利用Haar人脸检测器对训练图像进行快速人脸检测，得到人脸区域图像，然后利用基于 SDM的关键点检测技术检测人脸区域图像中的人脸关键点，并找出代表眉毛、眼睛、嘴巴位置的关键点，通过关键点估算出人脸图像的Roll角度，再旋转图像来纠正Roll角度，其中， Roll角度θ为眉毛间斜角θ_b、眼睛间斜角θ_e和嘴巴斜角θ_m的平均值，即θ＝mean(θ_b,θ_e,θ_m)，通过Roll角度θ对图像进行仿射变换处理，得到人脸对齐图像，对经人脸对齐后的图像进行裁剪和缩放，将人脸对齐图像裁剪为一定大小。

进一步，上述技术方案中，步骤S3)中，第一输入层由依次串联连接卷积层C0、BMC1、 BMC2、池化层P1组成，其中卷积层C0为卷积核大小为5×5，滑动步长为1，填充为2，并且第一输入层输入的训练图像大小为128x128；

第二输入层由卷积层C1_1以及该卷积层C1_1输出端串联的激活层MFM构成，其中，卷积层C1_1为卷积核大小为1×1，滑动步长为1，并且第二输入层输入的图像大小为64x64；

第三输入层由卷积层C1_2以及该卷积层C1_2输出端串联的激活层MFM构成，其中，卷积层C1_2为卷积核大小为1×1，滑动步长为1，并且第三输入层输入的图像大小为32x32；

并且卷积层C0、卷积层C1_1、卷积层C1_2的输出端串联有Batch Normalization(BN) 操作，从而提高网络的收敛速度以及网络的泛化能力。通过第一输入层、第二输入层、第三输入层提取到人脸美丽的多尺度特征。

进一步地，上述技术方案中，步骤S3)中，全连接层Fc1的输出端依次串联有BatchNormalization(BN)操作与MFM激励操作。

进一步地，上述技术方案中，步骤S3)中，下采样层的随机采样概率取0.75。

上述技术方案中，步骤S5)中，每迭代一次则更新一次权重参数，使用随机梯度下降法计算权重参数，其中，动力为0.9、权重衰减为0.0005，其权重参数更新规则为：

ω_i+1:＝ω_i+v_i+1，

其中，ω_i为第i次迭代的权重，v_i为第i次迭代的动力变量，ε为学习率，为目标对于ω_i求值的导数在第i批样例D_i上的平均值，卷积滤波器的初始权重使用xavier进行初始化，偏置固定为0.1，初始学习率设置为0.0005。

进一步地，步骤S5)中，损失函数的表达式：

其中，将人脸美丽度划分为5类，1表示极不具有吸引力，2表示不具有吸引力，3表示一般，4表示较有吸引力，5表示极有吸引力，是第i类美丽度的预测概率，p_i是第i类美丽度的真实概率(0或1)。

进一步地，MFM激活函数的表达式为：对其进行梯度计算得到

其中，X表示卷积层输出的特征层，2n表示卷积层输出的特征层的数量，表示第k 个特征层的第i行，第j列的像素值，从中可以得到，激活层MFM有一半的梯度为0，进而得到稀疏的梯度，从而实现特征选择和降维的效果。

本发明的有益效果为：

1、采用构建的多尺度CNN卷积神经网络模型来提取人脸美丽特征，能够从数据中学习到有层次感的美丽特征表达，并且通过人脸图像对模型进行预训练，再利用人脸美丽图像进行微调，从而提高人脸美丽预测的精度；

2、与用传统方法提取人脸几何特征相比，能够提取到更多的表观特征，得到更准确的人脸美丽特征表达，从而获得比传统人脸几何特征更好的预测效果；

3、通过将人脸图像剪裁为多个尺度进行特征学习，通过不同的尺度反映不同的空间信息，从多个尺度提取人脸美丽特征，能够包含更丰富的人脸美丽分类特征，从而提高预测的精度；

4、创建多个堆积的BN-MFM-Cnov(BMC)单元，反复堆积加大网络的深度，并且通过使用Max-Feature-Map(MFM)激活函数代替整流线性单元(Relu)激活函数，从而引入竞争机制，提取更紧凑的特征，并减少网络的参数。

附图说明

图1为本发明CNN模型的架构图，

图2为本发明BMC单元的框架图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

一种基于多尺度深度的人脸美丽预测方法，包括以下步骤：

S1)、通过CASIA-WebFace获取人脸图像、以及通过人脸美丽数据库获取人脸美丽图像作为训练图像；其中，CASIA-WebFace是一个包含40多万张人脸图像的人脸识别数据库，并且人脸美丽数据库中的每张人脸美丽图像均具有相应的美丽度评分；

S2)、对训练图像中的人脸图像、以及人脸美丽图像进行相同的图像预处理，得到预设大小的图像，具体为：

利用Haar人脸检测器对训练图像进行快速人脸检测，得到人脸区域图像，然后利用基于 SDM的关键点检测技术检测人脸区域图像中的人脸关键点，并找出代表眉毛、眼睛、嘴巴位置的共15个关键点，其中，左右眉毛各3个关键点(眉毛两端各1个关键点，眉毛中心位置 1个关键点)，左右眼睛各2个关键点(眼睛两角各1个关键点)，嘴巴4个关键点(嘴角各1 个关键点，上唇中心位置1个关键点、下唇中心位置1个关键点)，通过关键点估算出人脸图像的Roll角度，再旋转图像来纠正Roll角度，其中，Roll角度θ为眉毛间斜角θ_b、眼睛间斜角θ_e和嘴巴斜角θ_m的平均值，即θ＝mean(θ_b,θ_e,θ_m)，通过关键点位置对图像进行仿射变换处理，得到人脸对齐图像，对经人脸对齐后的图像进行裁剪和缩放，如得到144x144像素的人脸图像；

S3)、构建CNN模型，该所述的CNN模型包括相互并联连接的第一输入层、第二输入层、第三输入层，以及相互串联连接的多个BMC单元、多个池化层、下采样层、多个全连接层，第一输入层与第二输入层并联连接后依次与BMC3、BMC4、池化层P2串联连接，第三输出层与池化层P2的输出端依次与BMC5、BMC6、池化层P3、BMC7、BMC8、BMC9、 BMC10、池化层P4、全连接层Fc1、下采样层、全连接层Fc2串联连接；

如图2所示，每个BMC由单元BN层、MFM激活层以及卷积层构成，第一输入层由依次串联连接卷积层C0、BMC1、BMC2、池化层P1组成，其中卷积层C0为卷积核大小为5 ×5，滑动步长为1，填充为2，通过第一输入层将训练图像裁切成大小为128x128的图像，并提取相应尺度图像的美丽特征；

第二输入层由卷积层C1_1以及该卷积层C1_1输出端串联的激活层MFM构成，其中，卷积层C1_1为卷积核大小为1×1，滑动步长为1，通过第二输入层将训练图像裁切成大小为64x64的图像，并提取相应尺度图像的美丽特征；

第三输入层由卷积层C1_2以及该卷积层C1_2输出端串联的激活层MFM构成，其中，卷积层C2为卷积核大小为1×1，滑动步长为1，通过第三输入层将训练图像裁切成大小为32x32的图像，并提取相应尺度图像的美丽特征；

并且卷积层C0、卷积层C1_1、卷积层C1_2的输出端串联有Batch Normalization(BN) 操作；

全连接层Fc1的输出端依次串联有Batch Normalization(BN)操作与MFM激励操作，如图1所示，其中，MFM激励操作的MFM激活函数的表达式为：对其进行梯度计算得到

其中，X表示卷积层输出的特征层，2n表示卷积层输出的特征层的数量，表示第k 个特征层的第i行，第j列的像素点，从中可以得到，激活层MFM有一半的梯度为0，得到稀疏的梯度，从而实现特征选择和降维的效果；

下采样层的随机采样概率取0.75，防止过拟合；

S5)、然后将步骤S2)中处理的人脸美丽图像输入到预训练的人脸美丽预测CNN模型中通过Fine-tune迁移学习法和改变训练集法对模型进行微调，提取人脸图像的统一深层次特征表达，其中，通过使用随机梯度下降法、动力为0.9、权重衰减为0.0005来更新模型每次迭代的权重参数，其更新规则为：

ω_i+1：＝ω_i+v_i+1，

其中，ω_i为第i次迭代的权重，v_i为第i次迭代的动力变量，ε为学习率，为目标对于_i求值的导数在第i批样例D_i上的平均值，卷积滤波器的初始权重使用xavier进行初始化，偏置固定为0.1，初始学习率设置为0.0005；当人脸美丽预测的正确率不再增加且在最大正确值附近波动时，减少学习速率继续训练，并且将训练图像通过模型，用全连接层参数计算损失误差，将计算得到的损失误差反向传播更新模型参数，得到最终训练好的人脸美丽预测CNN模型；

其中，损失函数的表达式：其中，将人脸美丽度划分为5类，1表示极不具有吸引力，2表示不具有吸引力，3表示一般，4表示较有吸引力，5表示极有吸引力，是第i类美丽度的预测概率，p_i是第i类美丽度的真实概率(0或1)；

S6)、将测试人脸图像输入最终的训练好的人脸美丽预测CNN模型中，进行人脸美丽预测，并输出预测结果。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于多尺度深度的人脸美丽预测方法，其特征在于，包括以下步骤：

S1)、获取人脸图像、以及人脸美丽图像作为训练图像；

S3)、构建多尺度的CNN模型，该所述的多尺度CNN模型包括第一输入层、第二输入层、第三输入层，以及多个BMC单元、多个池化层、下采样层、多个全连接层，其中，每个BMC由单元BN层、MFM激活层以及卷积层构成，

第三输入层与池化层P2的输出端依次与BMC5、BMC6、池化层P3、BMC7、BMC8、BMC9、BMC10、池化层P4、全连接层Fc1、下采样层、全连接层Fc2串联连接，将第一输入层得到的美丽特征与第二输入层得到的美丽特征结合来，经过堆积的BMC3、BMC4、池化层P2与第三输入层提取的美丽特征结合起来，并经过多个BMC单元提取到更深层次的多尺度特征；

S5)、然后将步骤S2)中处理的人脸美丽图像输入到预训练的人脸美丽预测CNN模型中进行再训练，提取人脸图像的统一深层次特征表达，并计算人脸美丽预测的正确率，多次迭代直至正确率不再增加且在最大正确值附近波动时，减少学习速率继续训练，并且将训练图像通过模型，用全连接层参数计算损失误差，将计算得到的损失误差反向传播更新模型参数，得到训练好的最终人脸美丽预测CNN模型；

S6)、将测试人脸图像输入到最终训练好的人脸美丽预测CNN模型中，进行人脸美丽预测，并输出预测结果。

2.根据权利要求1所述的一种基于多尺度深度的人脸美丽预测方法，其特征在于：步骤S2)中，所述的图像预处理的步骤如下：

利用Haar人脸检测器对训练图像进行快速人脸检测，得到人脸区域图像，然后利用基于SDM的关键点检测技术检测人脸区域图像中的人脸关键点，并找出代表眉毛、眼睛、嘴巴位置的关键点，通过关键点估算出人脸图像的Roll角度，再旋转图像来纠正Roll角度，其中，Roll角度θ为眉毛间斜角θ_b、眼睛间斜角θ_e和嘴巴斜角θ_m的平均值，即θ＝mean(θ_b,θ_e,θ_m)，通过Roll角度θ对图像进行仿射变换处理，得到人脸对齐图像，对经人脸对齐后的图像进行裁剪和缩放，将人脸对齐图像裁剪为一定大小。

3.根据权利要求1所述的一种基于多尺度深度的人脸美丽预测方法，其特征在于：步骤S3)中，第一输入层由依次串联连接卷积层C0、BMC1、BMC2、池化层P1组成，其中卷积层C0为卷积核大小为5×5，滑动步长为1，填充为2，并且第一输入层输入的训练图像大小为128x128；

并且卷积层C0、卷积层C1_1、卷积层C1_2的输出端串联有Batch Normalization(BN)操作，从而提高网络的收敛速度以及网络的泛化能力，通过第一输入层、第二输入层、第三输入层提取到人脸美丽的多尺度特征。

4.根据权利要求1所述的一种基于多尺度深度的人脸美丽预测方法，其特征在于：步骤S3)中，全连接层Fc1的输出端依次串联有Batch Normalization(BN)操作与MFM激励操作。

5.根据权利要求1所述的一种基于多尺度深度的人脸美丽预测方法，其特征在于：步骤S5)中，每迭代一次则更新一次权重参数，使用随机梯度下降法计算权重参数，其中，动力为0.9、权重衰减为0.0005，其权重参数更新规则为：

ω_i+1:＝ω_i+v_i+1；

6.根据权利要求1所述的一种基于多尺度深度的人脸美丽预测方法，其特征在于：步骤S5)中，损失函数的表达式：

7.根据权利要求3或4所述的一种基于多尺度深度的人脸美丽预测方法，其特征在于：MFM激活函数的表达式为：对其进行梯度计算得到

其中，X表示卷积层输出的特征层，2n表示卷积层输出的特征层的数量，表示第k个特征层的第i行、第j列的像素值，从中可以得到，激活层MFM有一半的梯度为0，得到稀疏的梯度，从而实现特征选择和降维的效果。