CN109214298B

CN109214298B - 一种基于深度卷积网络的亚洲女性颜值评分模型方法

Info

Publication number: CN109214298B
Application number: CN201810901608.XA
Authority: CN
Inventors: 符小波; 韦虎
Original assignee: Yingying Hangzhou Network Technology Co ltd
Current assignee: Hangzhou Manya Network Technology Co.,Ltd.
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2021-06-08
Anticipated expiration: 2038-08-09
Also published as: CN109214298A

Abstract

本发明公开了一种基于深度卷积网络的亚洲女性颜值评分模型方法，包括如下四个阶段步骤：样本数据采集步骤；构建卷积网络模型步骤；构建随机森林模型步骤：基于人脸识别库技术标记人脸关键点位置，提取人脸关键点位置坐标，遍历循环生成由部分人脸关键点组成的组计算点，构建并优化随机森林模型；基于booster trees算法融合卷积网络模型和随机森林模型，完成最终颜值评分的融合模型阶段步骤。可同时融合亚洲女性特有的脸型、五官比例、肤色等具有很强区分能力关键点信息，集合卷积网络和随机森林模型各自的优势，提升了颜值评分预测的准确度，模型效果显著，均值都更接近真实值。

Description

一种基于深度卷积网络的亚洲女性颜值评分模型方法

技术领域

本发明涉及一种深度卷积网络，尤其是涉及一种基于深度卷积网络的亚洲女性颜值评分模型方法。

背景技术

随着社会经济的快速发展和时代的进步，人们的生活水平也在不断的提高，更多的女性对自身容貌也有了更高的要求。由此各类颜值评价软件也应运而生，很多女性希望能通过一定技术手段客观和定量评价自身容貌的美丽程度。而现有的颜值评分技术手段主要有两类：基于大众投票类的颜值评分和基于机器学习算法类的颜值评分，前者更多的是人工主观打分，加部分统计手段如剔除异常、取均值或众数等，存在多种人工因素的干扰，准确度波动较大；后者主要利用机器学习或深度学习模型来预测颜值，但都有一定缺陷。传统机器学习算法主要问题：需要提取图像特征，提取过程复杂，计算量大，同时提取的特征反应的只是五官分布、比例、脸型结构，对于肤色信息无法提取；深度卷积网络在图像识别上有很多优势，目前也有很多人应用卷积网络在颜值评分上，然而这类识别评价方法目前也存在几个问题：1、卷积网络超参众多，很多人会直接在前人已经训练好的模型基础上做学习，但网上这类模型主要应用于图像分类，具体迁移到颜值评分上效果并不是很好；2、卷积网络的核心就是卷积核提取低高阶特征的能力，颜值评分只提取人脸特征，与图像分类比特征少很多，训练过程很容易过拟合，基于上面原因目前在颜值评分各种方法最后的精度都不是特别理想。

发明内容

本发明为解决现有亚洲女性颜值评价存在着颜值评分效果不够好，只提取人脸特征，与图像分类比特征少很多，评估精度不够理想等现状而提供的一种可同时融合亚洲女性特有的脸型、五官比例、肤色等具有很强区分能力的基于深度卷积网络的亚洲女性颜值评分模型方法。

本发明为解决上述技术问题所采用的具体技术方案为：一种基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：包括如下四个阶段步骤

a样本数据采集步骤：对抓取的样本照片进行样本数据处理，为后面阶段步骤提供有用样本数据；

b构建卷积网络模型步骤：采用多层卷积层和一层全连接层的颜值评分卷积网络结构，进行训练和优化卷积网络模型，利用优化得到的最终卷积网络模型对全部照片预测打分，将得到的分数作为后续融合模型的其中一项输入特征；

c构建随机森林模型步骤：基于人脸识别库技术标记人脸关键点位置，提取人脸关键点位置坐标，遍历循环生成由部分人脸关键点组成的组计算点，构建并优化随机森林模型；

d基于booster trees算法融合卷积网络模型和随机森林模型，完成最终颜值评分的融合模型阶段步骤；

所述的融合模型阶段步骤包括如下步骤

5.1利用卷积网络模型得到的颜值预测值(scorel)和随机森林模型得到的颜值预测值(score2)作为输入特征，图片真实评分作为目标特征；

5.2采用GBDT算法融合卷积网络模和随机森林模型这2个模型结果，GBDT是一种boost trees集成学习算法，每一轮学习都以前一轮训练样本的残差作为训练样本，遍历搜索得到融合模型主要的最优参数。

可同时融合亚洲女性特有的脸型、五官比例、肤色等具有很强区分能力关键点信息，集合卷积网络和随机森林模型各自的优势，利用融合模型有效提升了颜值评分预测的准确度，和单一模型比，模型效果显著。从各个分段预测均值看，最后融合模型单一模型比较，均值都更接近真实值。提高融合模型模型的融合计算评分精准有效性。

作为优选，样本数据采集步骤包括如下步骤

2.1爬取互联网匿名公开的女性照片，总计3000张；

2.2利用人脸识别库截取女性照片的头像，剔除头像无法识别、脸部遮挡严重、修图明显的样本，最终剩余样本1500张，并做图像尺寸转换，最后保证图像大小都是128*128像素；

2.3构建在线人工颜值打分模块，为保证样本数据的客观性，每个打分者会随机分配5-8张图片，为每张图片手工评分，分数为1-10分，分数越高代表颜值越高，每张图片最多被抽中10次；

2.4样本数据处理，对每张图片的评分按照从高到低排序，剔去最低评分和最高评分，对剩余的评分取均值作为该张图片的最后得分。

提高样本数据采集的采集可靠有效性。

作为优选，构建卷积网络模型步骤包括如下步骤

3.1采用五层卷积层和一层全连接层的颜值评分卷积网络结构；

3.2训练卷积网络模型：采用均方根误差RMSE作为损失函数，RMSE计算公式如下

公式参数说明为：N-表示每批次训练的图片样本数量，observed-表示输入图片真实分，predicted-表示输入图片模型预测分；

3.3优化卷积网络模型，采用自适应时刻估计方法的Adam算法优化卷积网络；

3.4卷积网络模型预测颜值：利用优化得到的最终模型对全部照片预测打分，得到的分数作为后续融合模型的其中一项输入特征。

提高卷积网络的钩建计算预测精准有效性。

作为优选，所述的构建随机森林模型步骤包括如下步骤

4.1基于人脸识别库，标记人脸关键点位置，目前人脸识别技术已经非常成熟，关键点标记采用流行的68个点位组合；

4.2顺序提取19个关键点位置坐标，这19个关键点包括五官轮廓、眉毛、眼镜、鼻梁、鼻孔、上下嘴唇关键点坐标，以4个点为一组遍历循环生成11627组计算点，并对11627组数组计算两点距离间的比值，最后生成的11627个

比率作为特征信息；

4.3采用主成分分析技术将11627维度压缩到20维，主成分就是一种投影技巧，在保留样本信息的前提下，把高维空间的数据投影到低纬空间，这种投影方式用矩阵表示：

X_n*m＝y_n*m*W_m*d

将原来m维的数据转换成d维的数据(一般m＞＞d)，应用方差最大来确定w矩阵最后压缩的20维特征包含了98.9％原始特征的方差信息；

4.4构建并优化随机森林模型，随机森林是一种bagging方式的集成学习算法，通过对样本和特征列采样可很好的防止过拟合，通过组合多个弱分类器得到强分类器，项目最后通过遍历搜索得到最优的随机森林参数。

提高随机森林模型的钩建计算预测精准有效性。

作为优选，所述的融合模型主要的最优参数范围如下：learning_rate(学习率)：[0.01～0.09]

n_estimators(迭代轮数)：[50～500]

max_depth(最大树深)：[2～5]

min_samples_split(最小分裂样本数)：[5～50]。

作为优选，所述的19个关键点位置坐标分别为18、22、23、27、37、40、43、46、28、32、34、36、5、9、13、49、55、52和58，生成其中一组点坐标：以[18、22、23、27]生成一个序列，其中18和22表示左眼两个眼角点，23和27表示右眼2个眼角点，用[(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)]表示这4个关键点，获取4个点之前距离的一个比例关系，这就是其中一个维度，表示左右眼睛的宽带是否一致，公式如下：

提高人脸关键点的获取与计算评估精确有效性，提高获得更强区分能力。

作为优选，所述的最优的随机森林参数范围为：

n_estimators(树数目)：[50～500]；

max_depth(数深度)：[7～12]；

min_samples_leaf(最小叶子节点数)：[2～20]；

最后随机森林模型得到的模型训练数据均方根误差和测试数据均方根误差都在1.38-1.52之间。

提高随机森林参数的模型训练数据均方根误差精准有效性。

作为优选，所述的颜值评分卷积网络结构和每层参数如下表

颜值评分卷积网络结构
	Input(1281283RGB)
cov11-96
	maxpool
cov11-256
	maxpool
cov3-384
	cov3-384
cov3--256
	maxpool
FC-512
	Output

上表中参数说明为：conv11-96表示该卷积层采用11*11大小的卷积核，卷积核数量为96个，每层卷积层采用ReLu激活函数，maxpool表示池化层，FC-512表示全连接层512个神经元，output表示输出层。

本发明的有益效果是：本发明基于深度卷积网络，同时融合了对亚洲女性特有的脸型、五官比例、肤色等具有很强区分能力的随机森林机器学习算法，解决了现有单一算法在颜值评分上精度低的问题。

最终融合模型训练和测试均方根误差均不到1.2，本发明通过集合卷积网络和随机森林模型各自的优势，利用融合模型有效提升了颜值评分预测的准确度，和单一模型比，模型效果显著。从各个分段预测均值看，最后融合模型单一模型比较，均值都更接近真实值。

从各个分段预测值与实际值均方根误差看，最后融合模型与单一模型比较，误差都有显著下降，与卷积比提升了32.7％((1.688-1.136)/1.688)，与随机森林比提升了13.9％((1.319-1.136)/1.319)(详细见下图)。

附图说明：

下面结合附图和具体实施方式对本发明做进一步的详细说明。

图1是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的流程图结构示意图。

图2是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的卷积网络结构示意图。

图3是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的卷积网络结构和每层参数结构示意图。

图4是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的卷积层提取的特征结构示意图。

图5是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的人脸关键点结构示意图。

图6是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的融合模型与单一模型评分比对效果对比示意图。

图7是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的融合模型均方根误差与单一模型比对示意图。

图8是本发明一种基于深度卷积网络的亚洲女性颜值评分模型方法的数据效果示意表。

具体实施方式

图1、图2、图3、图4、图5所示的实施例中，一种基于深度卷积网络的亚洲女性颜值评分模型方法，包括如下四个阶段步骤

a样本数据采集步骤01：通过互联网，利用现有爬虫技术爬取匿名亚洲女性照片3000张，对抓取的样本照片进行样本数据处理，为后向阶段步骤提供有用样本数据；

b构建卷积网络模型02步骤：采用多层卷积层和一层全连接层的颜值评分卷积网络结构，进行训练和优化卷积网络模型，利用优化得到的最终卷积网络模型对全部照片预测打分，将得到的分数作为后续融合模型的其中一项输入特征；

c构建随机森林模型03步骤：基于人脸识别库技术标记人脸关键点位置，提取人脸关键点位置坐标，遍历循环生成由部分人脸关键点组成的组计算点，构建并优化随机森林模型；

d基于booster trees算法融合卷积网络模型和随机森林模型，完成最终颜值评分的融合模型04阶段步骤。

样本数据采集步骤包括如下步骤

2.1爬取互联网匿名公开的女性照片，总计3000张；每张图片大小128*128*3像素；

2.2利用人脸识别库截取女性照片的头像，剔除头像无法识别、脸部遮挡严重、修图明显的样本，最终剩余样本1500张，并做图像尺寸转换，最后保证图像大小都是128*128*3像素的多维数据组；

2.4样本数据处理，对每张图片的评分按照从高到低排序，剔除最低分和最高分，对剩余的评分取均值作为该张图片的最后得分。

构建卷积网络模型步骤包括如下步骤

3.1采用五层卷积层和一层全连接32的颜值评分卷积网络结构；

更具体的本项目训练模型时候为保证训练的效率和稳定性每次训练都提供一小批样本，这里每批次样本数设置为100张图片，总共设置500轮的训练，目标函数采用均方根误差RMSE，RMSE计算公式如下：

公式说明：N-表示每批次训练的图片数量，本项目里该值为100，

observed-表示输入图片真实分数

predicted-表示输入图片模型预测分

项目最后训练到350轮的时候训练误差在1.6左右，测试误差在1.5左右，训练结束。

构建随机森林模型步骤包括如下步骤

4.2顺序提取19个关键点位置坐标，这19个关键点包括五官轮廓、眉毛、眼镜、鼻梁、鼻孔、上下嘴唇关键点坐标，以4个点为一组遍历循环生成11627组计算点，并对11627组数组计算两点距离间的比值，最后生成的11627个比率作为特征信息；

更准确的，

X_n*m＝y_n*m*W_m*d

融合模型主要的最优参数如下：获得最优融合参数效果。

learning_rate(学习率)：0.03；

n_estimators(迭代轮数)：100；

max_depth(最大树深)：3；

min_samples_split(最小分裂样本数)：10；

当然融合模型主要的最优参数范围可以为如下范围：

learning_rate(学习率)：[0.01～0.09]；

n_estimators(迭代轮数)：[50～500]；

max_depth(最大树深)：[2～5]；

min_samples_split(最小分裂样本数)：[5～50]。

融合模型阶段步骤包括如下步骤

5.1利用卷积网络模型得到的颜值预测值(score1)和随机森林模型得到的颜值预测值(score2)作为输入特征，图片真实评分作为目标特征；

19个关键点位置坐标分别为18、22、23、27、37、40、43、46、28、32、34、36、5、9、13、49、55、52和58，生成的其中一组点坐标：以[18、22、23、27]生成一个序列，其中18和22表示左眼两个眼角点，23和27表示右眼2个眼角点，4个点为一组遍历循环生成11627组计算点，并对11627组数组计算两点距离间的比值，最后生成的11627个比率作为特征信息。用[(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)]表示这4个关键点，获取4个点之前距离的一个比例关系，这就是其中一个维度，表示左右眼睛的宽带是否一致，公式如下：

最优的随机森林参数为：

n_estimators(树数目)：100；

max_depth(数深度)：10；

min_samples_leaf(最小叶子节点数)：5；

最后随机森林模型得到的模型训练数据均方根误差和测试数据均方根误差都在1.5±0.05。

当然最优的随机森林参数范围可以为如下：

n_estimators(树数目)：[50～500]；

max_depth(数深度)：[7～12]；

min_samples_leaf(最小叶子节点数)：[2～20]；

conv11-96表示该卷积层采用11*11大小的卷积核，卷积核数量为96个，每层卷积层采用ReLu激活函数，maxpool表示池化层，FC-512表示全连接层512个神经元，output表示输出层。五层卷积层包括卷积层1、卷积层2、卷积层3、卷积层4和卷积层5，

颜值评分卷积网络结构和每层参数如下表

颜值评分卷积网络结构
	Input(1281283RGB)
cov11-96
	maxpool
cov11-256
	maxpool
cov3-384
	cov3-384
cov3-256
	maxpool
FC-512
	Output

Adam算法如下：

s＝ρ₁s+(1-ρ₁)g

r＝ρ₂r+(1-ρ_r)gΘg

θ＝θ+Δθ

公式参数说明如下：

θ-参数向量；g-关于θ的梯度；s-一阶矩梯度；r-二阶矩梯度

ρ₁-一阶矩衰减率；ρ2-二阶矩衰减率；

-一阶矩偏差修正；

-二阶矩偏差修正；

在优化卷积网络过程中为防止过拟合在最后全连接层加入了dropout，随机保留70％的像素点。另外利用反卷积技术提高可视化每层卷积提取的特征。(如图5卷积层提取的特征图，第一层卷积只提取了颜色信息，后面逐层提取的信息越来越具象)，利用该技术优化卷积层参数设置。

最终融合模型训练和测试均方根误差均不到1.2，本发明通过集合卷积网络和随机森林模型各自的优势，利用融合模型有效提升了颜值评分预测的准确度，和单一模型比，模型效果显著。从各个分段预测均值看，最后融合模型单一模型比较，均值都更接近真实值；

从各个分段预测值与实际值均方根误差看，最后融合模型与单一模型比较，误差都有显著下降，与卷积比提升了32.7％【(1.688-1.136)/1.688】，与随机森林比提升了13.9％【(1.319-1.136)/1.319】(见图6，图7)。

图7所示说明：30：输入层，图片大小128*128*3；

31：对输入层采用dropout，随机保留85％的像素；

32：对卷积层5输出的特征(16*16*256)拉平，即全连接层维度达到65536个；

33：对全连接层采用dropout，随机保留75％的像素；

34：输出层采用线性函数，输出最终预测值；

对输入层采用dropout，随机保留85％的像素处理后，逐级采用从卷积层1→卷积层5的五层卷积层和一层全连接层32的颜值评分卷积网络结构进行评分；最后对全连接层采用dropout，随机保留75％的像素再输出至输出层。

图4所示为从左到右四个子框图内容表示依次从低阶到高阶获取的特征，包括从颜色信息、局部点线信息到整体五官信息获取。图4是根据模型输出得到的特征还原图。

图5所示为：基于深度卷积网络的亚洲女性颜值评分模型方法的人脸关键点结构包括从颜色信息、局部点线信息到整体五官信息等关键点的评分信息获取。

图6所示说明：图中上部第一横向数据为样本数据，样本数据下方依次为卷积网络平均分和融合模型平均分效果比对图，考虑到8分以上各分段样本量数量稀少，所以将8分以上都归为一类，其中卷积网络平均分图右坐标为随机森林样本评分，从图可见各评分段融合模型的平均预测值相比于单一模型平均预测值与真实值更加接近。

图7所示说明：图中上部为卷积均方根误差与随机样本均方根误差数据图，误差与随机样本为右坐标，图中下部为融合模型均方根误差数据图，从各评分段均方根误差看，融合模型显然比单一模型均方根误差更小，全样本均方根误差融合模型为1.136，随机森林为1.319，卷积网络为1.688，融合模型预测准确度的提升效果明显，详细数据可以见图8数据所示。

反卷积可以理解为卷积操作的逆过程，反卷积可视化以各层得到的特征图作为输入，进行反卷积，得到反卷积结果，用以验证显示各层提取到的特征图，以卷积层Conv5为例：把原本Conv5提取的一张特征图(16*16)通过反池化、反激活、反卷积放大回去，最后得到与原始输入尺寸一致的图片(128*128)。

反池化过程：池化是不可逆的过程，我们通过记录池化过程中，最大激活值得坐标位置，然后在反池化的时候，只把池化过程中最大激活值所在的位置坐标的值激活，其它的值置为0

反激活过程：卷积过程中我们激活函数采用的是Relu函数，Relu函数用来保证每层输出的激活值都是正数，反激活函数还是采用Relu函数

反卷积过程：采用卷积过程转置后的滤波器与反激活过程得到的特征进行卷积运算。

以上内容和结构描述了本发明产品的基本原理、主要特征和本发明的优点，本行业的技术人员应该了解。上述实例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都属于要求保护的本发明范围之内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：包括如下四个阶段步骤

所述的融合模型阶段步骤包括如下步骤

5.2采用GBDT算法融合卷积网络模和随机森林模型这2个模型结果，GBDT是一种boosttrees集成学习算法，每一轮学习都以前一轮训练样本的残差作为训练样本，遍历搜索得到融合模型主要的最优参数。

2.按照权利要求1所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的样本数据采集步骤包括如下步骤

2.1爬取互联网匿名公开的女性照片，总计3000张；

2.2利用人脸识别库截取女性照片的头像，剔除头像无法识别、脸部遮挡严重、修图明显的样本，最终剩余样本1500张，并做图像尺寸转换，最后保证图像大小都是128*128*3像素；

2.4样本数据处理，对每张图片的评分按照从高到低排序，剔除最低评分和最高评分，对剩余的评分取均值作为该张图片的最后得分。

3.按照权利要求1所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的构建卷积网络模型步骤包括如下步骤

4.按照权利要求1所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的构建随机森林模型步骤包括如下步骤

X_n*m＝y_n*m*W_m*d

4.4构建并优化随机森林模型，随机森林是一种bagging方式的集成学习算法，通过对样本和特征列采样可很好的防止过拟合，通过组合多个弱分类器得到强分类器，项目最后通过遍历搜索得到最优的随机森林参数范围。

5.按照权利要求1所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的融合模型主要的最优参数范围如下：

learning_rate(学习率)：[0.01～0.09]；

n_estimators(迭代轮数)：[50～500]；

max_depth(最大树深)：[2～5]；

min_samples_split(最小分裂样本数)：[5～50]。

6.按照权利要求4所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的19个关键点位置坐标分别为18、22、23、27、37、40、43、46、28、32、34、36、5、9、13、49、55、52和58，生成其中一组点坐标：以[18、22、23、27]生成一个序列，其中18和22表示左眼两个眼角点，23和27表示右眼2个眼角点，用[(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)]表示这4个关键点，获取4个点之前距离的一个比例关系，这就是其中一个维度，表示左右眼睛的宽带是否一致，公式如下：

7.按照权利要求4所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的最优的随机森林参数范围为：

n_estimators(树数目)：[50～500]；

max_depth(数深度)：[7～12]；

min_samples_leaf(最小叶子节点数)：[2～20]；

8.按照权利要求3所述的基于深度卷积网络的亚洲女性颜值评分模型方法，其特征在于：所述的颜值评分卷积网络结构和每层参数如下表

颜值评分卷积网络结构 Input(128*128*3 RGB) cov11-96 maxpool cov11-256 maxpool cov3-384 cov3-384 cov3-256 maxpool FC-512 Output