CN114898424B

CN114898424B - 一种基于双重标签分布的轻量化人脸美学预测方法

Info

Publication number: CN114898424B
Application number: CN202210353950.7A
Authority: CN
Inventors: 刘姝; 黄恩泉; 许焱; 王科选
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2024-04-26
Anticipated expiration: 2042-04-01
Also published as: CN114898424A

Abstract

本发明提供了一种基于双重标签分布的轻量化人脸美学预测方法，包括：获取人脸图片，对每张人脸图片进行预处理，将预处理后的人脸图片划分为训练集和测试集；对训练集中的每张人脸图片构建其对应的双重标签分布；所述双重标签分布包括吸引力分布和评分分布；将训练集中的人脸图片和其所对应的吸引力分布输入至轻量化卷积神经网络中，通过联合学习模块进行优化训练，得到优化后的人脸美学预测网络模型；将需要预测的人脸图片输入至优化后的人脸美学预测网络模型中，输出预测的吸引力分布，根据预测的吸引力分布得到预测的人脸图片的美丽分数。该方法提出了双重标签分布，同时进行轻量化设计，使预测性能优越、预测效率和速度都大幅提升。

Description

一种基于双重标签分布的轻量化人脸美学预测方法

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别地，涉及一种基于双重标签分布的轻量化人脸美学预测方法。

背景技术

美丽一直为人们津津乐道的话题，然而如何评价一张人脸图像的美丽程度是一个抽象的问题。评价人脸的美丽程度很有可能受到主观因素的影响，不同人有不同的评价标准，现有人研究通过计算机对人脸美丽进行较为客观的评价，人脸美丽评价可以广泛地应用在日常生活中，如在社交网络中让计算机为好友进行美丽评价并分享。

但是，现有的研究绝大部分采用了规模庞大的神经网络结构，例如：VGG、ResNet、ResNeXt系列等，忽略了轻量化设计。现有方法获得的预测模型虽然预测性能良好，但存在规模庞大、预测效率低下等诸多缺点，导致模型的适用范围十分有限，难以用于手机、嵌入式设备等资源有限的终端，在落地应用方面存在诸多约束与不便。同时，大部分研究将人脸美学预测视作简单分类或回归问题，没有充分利用数据集提供的各类信息。具体而言，在建模过程中，大部分方法只利用了数据集的分数标签作为监督信息，而忽略了分数的标准差和评分分布等信息，造成信息浪费，且预测不够准确，性能存在提升空间。

因此，业内急需用于人脸美学预测的方法的新型技术。

发明内容

针对上述现有技术中存在的技术问题，本发明提供了一种基于双重标签分布的轻量化人脸美学预测方法，该方法提出了双重标签分布，同时进行轻量化设计，使预测性能优越，在主流数据集上达到目前最好的预测性能，同时大幅提升预测效率和速度。

为实现上述目的，本发明提供了一种基于双重标签分布的轻量化人脸美学预测方法，包括以下步骤：

获取人脸图片，对每张人脸图片进行预处理，将预处理后的人脸图片划分为训练集和测试集；

对训练集中的每张人脸图片构建每张人脸图片对应的双重标签分布；所述双重标签分布包括吸引力分布和评分分布；

将训练集中的人脸图片和训练集中人脸图片所对应的吸引力分布输入至轻量化卷积神经网络中，通过联合学习模块进行优化训练，得到优化后的人脸美学预测网络模型；其中，所述联合学习模块包括吸引力分布学习模块、评分分布学习模块以及美丽分数回归学习模块；

将训练集中的人脸图片所对应的吸引力分布输入至所述吸引力分布学习模块，输出预估吸引力分布；通过训练集中人脸图片所对应的吸引力分布与输出的预估吸引力分布，得到吸引力分布损失函数；

将所述预估吸引力分布输入至所述评分分布学习模块，输出预估评分分布，通过训练集中人脸图片所对应的评分分布和预估评分分布，得到评分分布损失函数；

将训练集中的人脸图片所对应的预估吸引力分布输入至美丽分数回归学习模块，输出预测的美丽分数，通过训练集中人脸图片所对应的真实美丽分数与预测的美丽分数，得到美丽分数回归损失函数；

根据所述吸引力分布损失函数、评分分布损失函数和美丽分数回归损失函数构建联合损失函数；通过最小化联合损失函数，得到优化后的人脸美学预测网络模型；

将测试集中需要预测的人脸图片输入至优化后的人脸美学预测网络模型中，输出预测的吸引力分布，根据预测的吸引力分布得到预测的人脸图片的美丽分数。

进一步的，获取人脸图片，对每张人脸图片进行预处理，包括：

先将获取的人脸图片缩放为256×256，然后再中心裁切至224×224，对人脸图片进行RGB通道的归一化，即得预处理后的人脸图片。

进一步的，将训练集中的人脸图片和训练集中人脸图片所对应的吸引力分布输入至轻量化卷积神经网络之前，人脸图片还进行了概率为0.5的随机水平反转的数据增广。

进一步的，所述吸引力分布为每张人脸图片的真实美丽分数在其对应分数区间上的概率值，用向量表示，/>的第j个元素由下式得到

其中，代表人脸图片的真实美丽分数在区间/>上的概率，；/>和/>分别为图片评分等级的最小值和最大值；/>为区间长度，/>与/>的含义相同，均为区间端点，/>为拉普拉斯分布的概率分布函数，/>为函数的自变量，/>和/>分别为拉普拉斯分布的位置参数和尺度参数；人脸图片的均值和标准差分别记作/>和/>，则拉普拉斯分布的参数设置为/>和。

进一步的，所述评分分布为每张人脸图片获得不同评分等级的频数，使用向量表示；并对向量/>进行/>归一化操作，使/>，其中：/>为向量/>元素的下标，表示相应的评分等级。

进一步的，所述吸引力分布损失函数表示为：

其中，表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的吸引力分布和预估吸引力分布。

进一步的，所述评分分布损失函数表示为：

其中，表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的评分分布和预估评分分布。

进一步的，所述美丽分数回归损失函数表示为：

其中，表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的真实美丽分数和预测美丽分数。

进一步的，所述联合损失函数表示为：

其中，、/>和/>分别为吸引力分布损失函数、评分分布损失函数和美丽分数回归损失函数，/>、/>和/>是平衡/>、/>和/>三者的权重。

进一步的，将测试集中的需要预测的人脸图片输入至训练好的人脸美学预测网络模型中，输出预测的吸引力分布，根据预测的吸引力分布/>得到预测的人脸图片的美丽分数/>；

预测的人脸图片的美丽分数表示为：

其中，是区间/>的中点，/>，/>和/>分别为图片评分等级的最小值和最大值，/>为区间长度，/>为预测的吸引力分布/>的第/>个元素。

本发明具有以下有益效果：

1、本发明提供的一种基于双重标签分布的轻量化人脸美学预测方法，提出了双重标签分布，使模型能够全面、充分利用数据集的各种信息，如：图片美丽分数、评分标准差和评分分布等，从而为预测模型提供了更多有效信息，提高了模型的预测性能。具体地，本发明提出的双重标签分布，是对标签分布学习的延伸与扩展，其包含两个相互联系的标签分布学习模块。构造双重标签分布的目的是：一方面，基于标签分布学习的优势，充分利用数据集信息，提高预测精度；另一方面，两个相互关联的标签分布学习模块在联合学习过程中相互引导，进一步提升模型的预测效果。

2、本发明提供的一种基于双重标签分布的轻量化人脸美学预测方法，同时引入了轻量化设计，大幅降低了预测模型的大小、大幅减少了模型的参数量和运算量，同时保持较好的预测性能，使预测模型能够部署在手机和嵌入式设备等资源受限终端，扩展了模型的应用场景和适用范围，使落地应用成为可能。本发明方法中的轻量化设计具体包括：（1）使用了轻量化的卷积神经网络模型：MobileNetV2，有别于使用规模庞大、深度极深的网络模型的方法；（2）使用最基本的随机水平翻转作为数据增广，有别于使用大量复杂的数据增广的方法。因为规模较大的神经网络模型中难免存在冗余信息，而冗余信息的存在会对模型的性能产生负面影响。因此，在表达能力足够的前提下，选择合适的小规模网络模型，不仅可以降低预测模型的大小和参数量、减少训练过程的计算量，而且得益于冗余信息的去除，还可能进一步提高模型的预测性能。具体而言，与使用ResNet-18或ResNeXt-50网络的现有方法对比，本方法的参数量和运算量分别降低了80%或90%。

3、本发明提供的一种基于双重标签分布的轻量化人脸美学预测方法，提出了新的监督人脸美丽分数学习过程的美丽分数回归损失函数，与现有的/>、/>损失函数相比，新的美丽分数回归损失函数对分数预测起到更强的引导和约束作用。因为训练初期，预测结果的误差较大，/>的值远大于/>、/>损失；且由于“指数爆炸”的性质，误差越大，/>比、/>损失大的幅度也越多。更大的/>一方面提高其在联合损失中的占比，使模型侧重于优化美丽分数回归学习模块；另一方面，迫使模型向损失更小的方向进行优化，使模型的预测结果趋于准确。因此，美丽分数回归损失函数对模型训练起到更强的引导与约束作用。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明一种基于双重标签分布的轻量化人脸美学预测方法的流程图；

图2是联合学习阶段示意图；

图3是、/>与/>损失的函数图像对比图；由于参与对比的三个损失函数均包含/>项，为简化绘图，图3的横坐标为预测美丽分数和真实美丽分数间的绝对值误差，即/>；纵坐标为关于/>的损失函数值。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。

参见图1，一种基于双重标签分布的轻量化人脸美学预测方法，包括以下步骤：

步骤S101：获取人脸图片，对每张人脸图片进行预处理，将预处理后的人脸图片划分为训练集和测试集。

SCUT-FBP5500数据集包含5500张分辨率为350×350的人脸图片，图片的来源包括亚洲男性和女性、欧美男性和女性。

由于神经网络的输入图片大小通常为224×224，需要对每张人脸图片进行预处理。预处理过程如下：首先，将图片缩放为256×256，然后再中心裁切至224×224，对图片进行RGB通道的归一化。

步骤S102：对训练集中的每张人脸图片构建每张人脸图片对应的双重标签分布；所述双重标签分布包括吸引力分布和评分分布。

SCUT-FBP5500数据集中的每张人脸图片均包含对应的多个不同的评分等级，以及每张人脸图片评分等级的均值（即真实美丽分数）和标准差。其中：评分等级在1到5之间，5分代表最美丽，1分代表最不美丽。

用于人脸美学预测的双重标签分布包括吸引力分布和评分分布，所述吸引力分布为每张人脸图片的真实美丽分数在其对应分数区间上的概率值，所述评分分布为每张人脸图片获得不同评分等级的频数，具体构造过程如下。

吸引力分布的构造基于拉普拉斯分布。拉普拉斯分布的概率密度函数为

其中，为位置参数，/>为尺度参数。其概率分布函数为

此外，拉普拉斯分布的均值和标准差分别为和/>。

数据集的每张图片都包含均值和标准差/>两个标签。利用图片标签，拉普拉斯分布的参数设置为/>和/>，与其数学定义保持一致。

吸引力分布使用向量表示，/>的第/>个元素由下式得到

其中，代表美丽分数在区间/>上的概率，/>；为区间长度，/>与/>的含义相同，均为区间端点。

评分分布使用向量表示，/>的第/>个元素/>的定义为：图片获得/>分的数量，。然后，对向量/>进行/>归一化操作，使/>。

步骤S103：将训练集中的人脸图片和训练集中人脸图片所对应的吸引力分布输入至轻量化卷积神经网络中，通过联合学习模块进行优化训练，得到优化后的人脸美学预测网络模型。其中，所述联合学习模块包括吸引力分布学习模块、评分分布学习模块以及美丽分数回归学习模块；将训练集中的人脸图片所对应的吸引力分布输入至所述吸引力分布学习模块，输出预估吸引力分布；通过训练集中人脸图片所对应的吸引力分布与输出的预估吸引力分布，得到吸引力分布损失函数；

根据所述吸引力分布损失函数、评分分布损失函数和美丽分数回归损失函数构建联合损失函数；通过最小化联合损失函数，得到优化后的人脸美学预测网络模型。

在输入轻量化卷积神经网络训练前，图片还进行了概率为0.5的随机水平反转的数据增广。人脸美学预测框架采用MobileNetV2网络，分为两个阶段：联合学习阶段和美学预测阶段。此外，为减少输入和输出之间的不一致性，网络的输出也进行了sigmoid和归一化操作，作为网络的最终输出。

如图2所示，联合学习阶段的大致流程为：首先，给定一张图片及其双重标签分布，图片及其吸引力分布被送入网络中；然后，经过联合学习框架，共同优化网络模型。联合学习框架包括三个学习模块：吸引力分布学习模块、评分分布学习模块，以及美丽分数回归学习模块。

第一，吸引力分布学习模块主要用于优化模型输出的吸引力分布。采用欧几里得距离衡量/>与/>的相似程度，并将其作为该模块的损失函数。吸引力分布损失/>为

其中，表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的吸引力分布和预估吸引力分布。评分、分数区间以及/>下标的对应关系如表1所示。

表1 评分、分数区间以及下标的对应关系

第二，评分分布学习模块的作用是优化由导出的预估评分分布/>。与评分分布/>类似，/>的元素/>表示图片评分为/>的预测概率。利用四舍五入的原则，使用网络输出的可以导出/>，具体步骤如下。以评分为2作为例子，/>可以视为/>中/>区间上的概率。如此类推，如表1所示，建立了评分、分数区间以及/>下标的对应关系。根据表1，/>的计算公式如下

借助导出的和真实的/>，学习模块通过引入损失函数优化预估评分分布。与吸引力分布学习模块相同，采用欧几里得距离衡量/>与/>的相似程度。评分分布损失/>为

由于以上两个模块都包含标签分布学习，故合称为双重标签分布学习模块。

第三，美丽分数回归学习模块直接优化美丽分数的预测结果。首先，美学预测阶段借助/>预测人脸美丽分数/>：

其中，是区间/>的中点，/>，/>为预测的吸引力分布/>的第/>个元素。然后，引入美丽分数回归损失/>，直接优化/>。

上式是为优化人脸美丽分数预测提出的新损失函数，其中，表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的真实美丽分数和预测美丽分数。

如图3所示，由于“指数爆炸”的性质，与和/>损失相比，/>对/>和/>之间的差异更加敏感，其对模型训练起到更强的引导与约束的作用。

其中，损失和/>损失是回归问题中常用的两种损失函数。/>损失的表达式为； />损失的表达式为/>；本发明中的/>是为优化人脸美丽分数预测提出的新损失函数，它是/>与/>损失的结合。/>由等价无穷小/>得到启发，将/>损失中的/>替换为/>，得到/>。

由于参与对比的三个损失函数均包含项，为简化绘图，图3的横坐标为预测美丽分数和真实美丽分数间的绝对值误差，即/>；纵坐标为关于/>的损失函数值。

如图3所示，与、/>损失相比，/>存在以下特点：（1）训练初期，预测结果的误差较大（大于0.5），/>的值远大于/>、/>损失。且由于“指数爆炸”的性质，误差越大，比/>、/>损失大的幅度也越多。更大的/>一方面提高其在联合损失中的占比，使模型侧重于优化美丽分数回归学习模块；另一方面，迫使模型向损失更小的方向进行优化，使模型的预测结果趋于准确。因此，/>对模型训练起到更强的引导与约束作用。（2）训练后期，预测结果的误差较小（小于0.25），/>也较小，与/>、/>损失接近。随着误差的降低，最终趋于0。可见，/>满足作为回归问题的损失函数的条件。综上所述，在人脸美丽分数预测这一问题上，与传统的/>、/>损失相比，本发明提出的/>存在诸多优势。

最后，融合以上三个学习模块，提出了联合学习框架。框架的学习目标是借助三个模块的联合学习，最小化联合损失，优化模型的人脸美学预测性能。联合损失将学习模块的损失以加权和的形式进行合并

步骤S104：将测试集中需要预测的人脸图片输入至训练好的人脸美学预测网络模型中，输出预测的吸引力分布，根据预测的吸引力分布/>得到预测的人脸图片的美丽分数。

预测的人脸图片的美丽分数表示为：

其中，是区间/>的中点，/>，/>为预测的吸引力分布/>的第/>个元素。

此外，根据数据集的不同，式中、/>的取值范围和区间长度/>、模型采用的网络结构、表1的对应关系及以上各式的求和范围均可视情况进行改变。

在SCUT-FBP5500数据集上采用本专利方法与现有最先进方法进行性能测试对比。表2为采用本专利方法与现有最先进方法在SCUT-FBP5500数据集上的性能对比结果。较低的参数量和乘加运算量意味着方法的规模小、效率高；较高的PC、较低的MAE和RMSE，意味着方法的性能优越。其中， PC（Pearson correlation）为皮尔逊相关系数， MAE（meanaverage error）为平均绝对误差，RMSE（root mean squared error）为均方根误差。

现有最先进方法如下：

AaNet：提出了一种属性感知的人脸美学动态特征学习的方法，方法将属性信息有效地融入人脸特征表达，实现了更高精度的人脸美学评价。

R3CNN：方法将人脸美学评价重新定义为一个由相对排序引导的人脸美学回归任务，并构建了一个排序引导回归的轻量化卷积神经网络（R3CNN），网络可以同时实现排序与回归任务。

联合注意力学习：提出了联合注意力学习机制，包括：组成注意力和空间注意力，一方面将像素级别的标签掩膜融合在美学预测的过程中，另一方面自动测量各面部部分对人脸美学预测的权重，共同提高人脸美学预测的性能。

表2 本专利方法与最先进方法的对比实验结果

由表2可知，本专利方法存在性能和效率两方面的优越性。第一，性能好。在SCUT-FBP5500数据集上，本项目方法取得了最先进的性能，所有性能指标均超越现有方法；即便与同样使用MobileNetV2的方法对比，本项目方法依然具有优势。第二，效率高。本项目方法的参数量和乘加运算量在对比方法中均最低，与使用ResNet-18或ResNeXt-50网络的现有方法对比，本方法的参数量和运算量分别降低了80%或90%。根据表2，本方法的参数量为2.28M，乘加运算量为0.31G。与使用ResNet-18的AaNet对比，参数量降低了(11.69-2.28)/11.69=0.805，乘加运算量降低了(1.82-0.31)/1.82=0.830，取较小值为80%；与使用ResNeXt-50的R3CNN对比，参数量降低了(25.03-2.28)/25.03=0.909，乘加运算量降低了(4.26-0.31)/4.26=0.927，取较小值为90%。现有方法大都采用较大的模型以获得更好的性能。然而，本项目着重于模型的轻量化设计，扩展预测模型的适用场景。总之，本项目方法在性能和效率上取得了较好的平衡，在获得优秀的预测性能的同时，大幅减少了模型的规模。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，包括以下步骤：

所述吸引力分布为每张人脸图片的真实美丽分数在其对应分数区间上的概率值，用向量表示，/>的第j个元素由下式得到

其中，/>代表人脸图片的真实美丽分数在区间/>上的概率，/>；/>和/>分别为图片评分等级的最小值和最大值；/>为区间长度，/>与/>的含义相同，均为区间端点，/>为拉普拉斯分布的概率分布函数，/>为函数的自变量，/>和/>分别为拉普拉斯分布的位置参数和尺度参数；人脸图片的均值和标准差分别记作/>和/>，则拉普拉斯分布的参数设置为/>和/>；

所述评分分布为每张人脸图片获得不同评分等级的频数，使用向量表示；并对向量/>进行/>归一化操作，使/>，其中：/>为向量/>元素的下标，表示相应的评分等级；

2.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，获取人脸图片，对每张人脸图片进行预处理，包括：

3.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，将训练集中的人脸图片和训练集中人脸图片所对应的吸引力分布输入至轻量化卷积神经网络之前，人脸图片还进行了概率为0.5的随机水平反转的数据增广。

4.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，所述吸引力分布损失函数表示为：

其中，/>表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的吸引力分布和预估吸引力分布。

5.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，所述评分分布损失函数表示为：

其中，/>表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的评分分布和预估评分分布。

6.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，所述美丽分数回归损失函数表示为：

其中，/>表示训练集样本的数量，/>和/>分别为训练集样本中第/>个样本的真实美丽分数和预测美丽分数。

7.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，所述联合损失函数表示为：

其中，/>、/>和/>分别为吸引力分布损失函数、评分分布损失函数和美丽分数回归损失函数，/>、/>和/>是平衡/>、/>和/>三者的权重。

8.根据权利要求1所述的一种基于双重标签分布的轻量化人脸美学预测方法，其特征在于，将测试集中的需要预测的人脸图片输入至训练好的人脸美学预测网络模型中，输出预测的吸引力分布，根据预测的吸引力分布/>得到预测的人脸图片的美丽分数/>；

预测的人脸图片的美丽分数表示为：

其中，/>是区间/>的中点，/>，和/>分别为图片评分等级的最小值和最大值，/>为预测的吸引力分布/>的第/>个元素。