CN113436174A

CN113436174A - 一种人脸质量评估模型的构建方法及应用

Info

Publication number: CN113436174A
Application number: CN202110738536.3A
Authority: CN
Inventors: 韩守东; 马迪; 李英豪; 王法权
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-24

Abstract

本发明公开了一种人脸质量评估模型的构建方法及应用，包括：S1、搭建人脸质量评估模型；S2、将预采集好的训练集输入到人脸质量评估模型中，以最小化各人脸图像属性的预测属性和真实属性之间的差异的加权总和为目标训练人脸质量评估模型。所构建的人脸质量评估模型包括级联的特征提取网络和多任务层，其中，多任务层包括多个并行的任务分支，每一种人脸图像属性均对应一个任务分支，以对多种相关的深度学习任务进行并行学习，在学习的过程中能够考虑到各任务之间的关联性，共享参数，能够取得更好的泛化效果；通过各任务分支来感知图像的不同人脸图像属性，可以得到各人脸图像属性评估指标的细节信息，能够对人脸质量进行综合且准确的评估。

Description

一种人脸质量评估模型的构建方法及应用

技术领域

本发明属于计算机视觉的人脸图像处理领域，更具体地，涉及一种人脸质量评估模型的构建方法及应用。

背景技术

身处大数据时代，信息安全的重要性不言而喻，人脸信息更是关系到个人的生命财产安全。随着深度学习在计算机视觉领域被广泛应用，人脸识别、表情识别、头部姿态估计、眼动追踪等任务随之涌现，以人脸识别为例，尽管不断创新的算法已经对人脸识别的准确度有了大幅提升，但在实际应用中仍然存在局限性，人脸图像质量的高低从根源上决定了人脸识别的准确度。对于自助身份证件照拍摄，机场、火车站等安检场景需要即时拍照进行身份二次验证等场景，人脸质量评估可以实时给出质量评估结果指导拍照者本人，提高工作效率与人脸识别准确率，同时还能防止不法分子通过遮挡面部等行为伪装自己，进一步保障社会安定，提高了安全性。对于处理监控视频中的人脸图像而言，由于拍摄环境复杂，人员流动性大，不可避免的会造成人脸模糊、遮挡、头部姿态过大等问题，为后续的人脸图像处理造成干扰。人脸质量评估可以为基于视频的人脸识别、人脸图像属性检测等人脸图像处理功能提供预处理，自动对每一帧图像依照质量好坏排序，筛选出高质量的有效帧序列，不仅减轻了人工筛选的负担，还提高了视频处理的效率。由此可见，人脸图像质量评估在视频片段中的应用也越来越广泛，且与人们的生活密不可分。

通过设计合适的人脸质量评估指标，并给出质量评估结果，不仅可以有效给出指导性意见来评价图像质量，以此为参考获得质量更佳的图像，同时还可以筛选高质量的图像，作为有必要进行后续处理的有效图像，相当于对图像做预处理，提高数据处理效率的同时节省计算资源。

目前，人脸质量评估算法主要分为两大方向，一个方向是注重质量评估的指标，现有算法一般采用手工或机器学习算法进行特征提取，以获得评估结果。相较于深度学习，机器学习方法虽然直观，且易于理解，但准确度较低，且严重依赖人工特征的选取。另一个方向是基于深度学习的人脸质量评估，适用于包含大量人脸数据的公开数据集。然而，此方法大多只将人脸目标整体作为质量评估对象，对于各人脸图像属性并不感知，评估准确度较低，也无法给出各人脸图像属性评估指标的细节信息，不具备指导性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种人脸质量评估模型的构建方法及应用，用以解决现有技术无法对人脸质量进行综合且准确的评估的技术问题。

为了实现上述目的，本发明提供了一种人脸质量评估模型的构建方法，包括以下步骤：

S1、搭建人脸质量评估模型；人脸质量评估模型包括级联的特征提取网络和多任务层；特征提取网络用于提取输入图像的低级特征；多任务层包括多个并行的任务分支，用于对输入图像的各人脸图像属性进行预测；其中，每一种人脸图像属性均对应一个任务分支；任务分支用于对低级特征进行学习得到对应人脸图像属性的高级特征，并对高级特征进行回归或分类，以对人脸图像属性进行预测；

S2、将预采集好的训练集输入到人脸质量评估模型中，以最小化各人脸图像属性的预测属性和真实属性之间的差异的加权总和为目标训练上述人脸质量评估模型；其中，训练集包括人脸图像及其对应的各人脸图像属性的真实属性标签。

进一步优选地，人脸图像属性包括连续数值属性和离散数值属性；连续数值属性包括：模糊度、光照强度和头部姿态；其中，头部姿态包括偏航角、俯仰角和滚转角；离散数值属性包括：面部表情状态和眼镜佩戴状态；

任务分支的类型包括回归分支和分类分支；回归分支用于对输入图像的连续数值属性进行回归预测，得到连续数值属性的预测值；分类分支用于计算输入图像的离散数值属性属于其所对应的不同属性类别的概率值，并将最大概率值所对应的属性类别作为离散数值属性的预测类别；

上述训练集中，人脸图像属性的真实属性包括人脸图像属性的真实值和真实类别。

进一步优选地，特征提取网络为MobileNet-v2网络中最后一层线性分类器之前的网络。

进一步优选地，人脸质量评估模型的目标函数为：

其中，L_reg(p)为第p个回归分支中输入图像的连续数值属性的预测值和真实值差异之和的平均值；L_cls(q)为第q个回归分支中输入图像的离散数值属性的预测类别和真实类别差异之和的平均值；N_reg为连续数值属性的个数；N_cls为离散数值属性的个数；λ₁和λ₂均为权重系数。

进一步优选地，第p个回归分支中输入图像的连续数值属性的预测值和真实值差异之和的平均值为：

其中，N为输入图像的个数；

和y_i分别为第i个输入图像的第p个连续数值属性的预测值和真实值；δ为超参数。

进一步优选地，第q个回归分支中输入图像的离散数值属性的预测类别和真实类别差异之和的平均值为：

其中，N为输入图像的个数；P_iq为第i个输入图像的第q个离散数值属性的预测类别为真实类别的概率值。

进一步优选地，上述人脸图像为不含背景的人脸图像。

第二方面，本发明提供了一种人脸质量评估方法，包括以下步骤：

将待测图像输入到采用上述人脸质量评估模型的构建方法所构建的人脸质量评估模型中，得到待测图像的各人脸图像属性的预测值或预测类别；

根据所得各人脸图像属性的预测值或预测类别计算得到各人脸图像属性的质量评估结果；

计算各人脸图像属性的质量评估结果的平均值，得到待测图像的质量评估结果。

进一步优选地，人脸图像属性包括连续数值属性和离散数值属性；连续数值属性包括：模糊度、光照强度和头部姿态；头部姿态包括偏航角、俯仰角和滚转角；离散数值属性包括：面部表情状态和眼镜佩戴状态；

模糊度的质量评估结果为：

其中，

为模糊度的预测值；

光照强度的质量评估结果为：

其中，

为光照强度的预测值归一化到[-1,1]区间上的结果；

头部姿态的质量评估结果sore_pose为偏航角的质量评估结果、俯仰角的质量评估结果和滚转角的质量评估结果中的最小值；具体为：

其中，

为偏航角的预测值归一化后的结果；

为俯仰角的预测值归一化到[-1,1]区间上的结果；

为滚转角的预测值归一化到[-1,1]区间上的结果；

面部表情状态的质量评估结果为：sore_emotion＝η₁P_noemotion+η₂P_happy+η₃P_surprise；其中，面部表情状态包括无表情、高兴和惊讶；P_noemotion为面部表情状态的预测类别为无表情的概率值；P_happy为面部表情状态的预测类别为高兴的概率值；P_surprise为面部表情状态的预测类别为惊讶的概率值；η₁、η₂和η₃分别为面部表情状态为无表情、高兴和惊讶所对应的权重值；η₁＞η₂＞η₃；

眼镜佩戴状态的质量评估结果为：sore_glass＝α₁P_noglass+α₂P_normglass+α₃P_sunglass；其中，眼镜佩戴状态包括不戴眼镜、戴普通眼镜和戴太阳眼镜；P_noglass为眼镜佩戴状态的预测类别为不戴眼镜的概率值；P_normglass为眼镜佩戴状态的预测类别为戴普通眼镜的概率值；P_sunglass为眼镜佩戴状态的预测类别为戴太阳眼镜的概率值；α₁、α₂和α₃分别为眼镜佩戴状态为不戴眼镜、戴普通眼镜和戴太阳眼镜所对应的权重值；α₁＞α₂＞α₃。

进一步优选地，对待测图像进行人脸质量评估之前，对待测图像中的人脸区域进行检测，裁剪出不含背景的人脸图像作为新的待测图像输入到人脸质量评估模型中。

第三方面，本发明还提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的任一种人脸质量评估模型的构建方法和/或如上所述的人脸质量评估方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种人脸质量评估模型的构建方法，所构建的人脸质量评估模型包括级联的特征提取网络和多任务层，其中，多任务层包括多个并行的任务分支，每一种人脸图像属性均对应一个任务分支，将复杂问题分解为简单且相互独立的子任务，以对多种相关的深度学习任务进行并行学习，在学习的过程中能够考虑到各任务之间的关联性，共享参数，能够取得更好的泛化效果；通过各任务分支来感知图像的不同人脸图像属性，可以得到各人脸图像属性评估指标的细节信息，进而对人脸图像质量进行综合评价，大大提升了人脸综合质量评估的学习效果，能够对人脸质量进行综合且准确的评估。

2、本发明所提供的人脸质量评估模型的构建方法，利用相关任务在训练过程中包含的特定特征信息改善模型的泛化性能；本发明所提供的模型结构可以从多任务监督信号中学习共享的特征表达，与每个任务都由自己的网络单独解决的单任务学习相比，具有以下几个优点：第一，利用相关或不相关的任务共同学习可以提升特定任务的学习效果；第二，由于具有固定的共享层，大幅减少了内存占用；第三，由于避免了在共享层中重复计算，多个任务仅需一次前向传播，大幅提升推理速度。

3、本发明所提供的人脸质量评估模型的构建方法，在各任务分支之前连接同一个特征提取网络来提取输入图像的低级特征，各任务分支的特征提取网络共享参数，大幅减少了内存占用。另外，由于避免了在共享网络层中重复计算，多个任务仅需一次前向传播，大幅提升了推理速度，取得了较好的泛化效果。

4、本发明所提供的人脸质量评估模型的构建方法所构建的人脸质量评估模型应用深度学习而非机器学习方法对多种人脸质量评估指标(即各人脸图像属性)进行学习，不依赖人工特征的选取，具有较高的预测准确度。

5、本发明提出了一种人脸质量评估方法，将人脸图像作为输入，通过多任务学习策略，共享特征提取网络参数，对不同的多个人脸质量评估指标同时进行学习，经不同的全连接层映射，分别处理不同的任务输出，最后将多任务结果进行融合对人脸综合质量进行学习，相较于各个质量评估指标单独学习，既节省了计算资源，又提升了计算效率，最重要的是，可以提升人脸质量评估的评估精度。

6、本发明所提供的人脸质量评估方法，基于人脸质量评估模型的构建方法所得的人脸质量评估模型得到待测图像的各人脸图像属性的预测值或预测类别，并基于各人脸图像属性的质量评估结果对待测图像的人脸质量进行综合评价，适用于自助身份证件照拍摄、以及机场、火车站等需要即时拍照进行身份二次验证等场景，可以实时给出人脸综合质量评估结果与各质量评估指标的细节信息，以指导拍照者针对低质量照片进行改进。

7、本发明所提供的人脸质量评估方法，可以应用于视频关键帧的提取中，能够筛选高质量人脸图像，达到了实时处理视频帧序列的效果。

8、本发明所提供的人脸质量评估方法，对待测图像进行人脸质量评估之前，对待测图像中的人脸区域进行检测，裁剪出不含背景的人脸图像作为新的待测图像输入到人脸质量评估模型中，可以对非人脸图像或无法检测到的质量极低的人脸图像进行初筛，大大提高了人脸质量评估的效率。

附图说明

图1为本发明实施例1所提供的人脸质量评估模型的构建方法流程图；

图2为本发明实施例1所提供的人脸质量评估模型结构示意图；

图3为本发明实施例1所提供的采用人脸质量评估模型所得的各人脸图像属性的预测值或预测类别结果；其中，(a)为采用人脸质量评估模型所得的模糊度、光照强度、面部表情和佩戴眼睛的预测结果；(b)为采用人脸质量评估模型所得的头部姿态的偏航角、俯仰角和滚转角的预测结果；

图4为本发明实施例2所提供的人脸质量评估方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种人脸质量评估模型的构建方法，如图1所示，包括以下步骤：

S1、搭建人脸质量评估模型；人脸质量评估模型包括级联的特征提取网络和多任务层；特征提取网络用于提取输入图像的低级特征；多任务层包括多个并行的任务分支，用于对输入图像的各人脸图像属性进行预测；其中，每一种人脸图像属性均对应一个任务分支；任务分支用于对低级特征进行学习得到对应人脸图像属性的高级特征，并对高级特征进行回归或分类，以对人脸图像属性进行预测；其中，人脸图像属性包括连续数值属性和离散数值属性；连续数值属性包括：模糊度、光照强度和头部姿态；其中，头部姿态包括偏航角、俯仰角和滚转角；离散数值属性包括：面部表情状态和眼镜佩戴状态；任务分支的类型包括回归分支和分类分支；回归分支用于对输入图像的连续数值属性进行回归预测，得到连续数值属性的预测值；分类分支用于计算输入图像的离散数值属性属于其所对应的不同属性类别的概率值，并将最大概率值所对应的属性类别作为离散数值属性的预测类别；

需要说明的是，由于各子任务之间相互关联，现有的通过单独解决子任务再合并结果的方法忽略了任务之间的关联性，精确度较低。本发明将复杂问题分解为简单且相互独立的子任务，通过将多个具有相关性的任务一起学习，共享参数，取得了更好的泛化效果，旨在利用相关任务在训练过程中包含的特定特征信息改善模型的泛化性能。本发明所提供的网络结构可以从多任务监督信号中学习共享的特征表达，与每个任务都由自己的网络单独解决的单任务学习相比，具有以下几个优点：第一，利用相关或不相关的任务共同学习可以提升特定任务的学习效果；第二，由于具有固定的共享层，大幅减少了内存占用；第三，由于避免了在共享层中重复计算，多个任务仅需一次前向传播，大幅提升推理速度。

优选地，如图2所示，本实施例中的特征提取网络采用轻量级的MobileNet-v2网络中最后一层线性分类器之前的网络，将最后一层线性分类器替换成7个分别由池化层连接的输入特征1280维、5个输出特征为1维和两个输出特征为3维的全连接层，分别对应不同的任务。对于模糊度、光照强度、偏航角、俯仰角、滚转角这5个具有连续数值且范围不同的1维特征，为便于多任务损失函数的计算，分别归一化后使用sigmoid函数回归，映射到0至1的范围，再反归一化恢复为预测数值。使用softmax函数分别对3类面部表情和3种佩戴眼镜的类型进行分类操作，并输出置信度(即输入图像的离散数值属性属于其所对应的不同属性类别的概率值)，置信度最高的类别即为分类预测结果，即得到各评估指标的回归与分类预测结果。本发明所提出的人脸质量评估模型以MobileNet-v2为基础进行特征提取，该轻量级网络采用深度可分离卷积和逆残差网络结构，大幅降低了计算量的同时增强了深层模型的表达能力，在不失准去率的同时实现了轻量级的网络结构。

S2、将预采集好的训练集输入到人脸质量评估模型中，以最小化各人脸图像属性的预测属性和真实属性之间的差异的加权总和为目标训练上述人脸质量评估模型；其中，训练集包括人脸图像及其对应的各人脸图像属性的真实属性标签；人脸图像属性的真实属性包括人脸图像属性的真实值和真实类别。

具体地，针对多任务学习的整体框架，设计一种多任务损失函数，将回归损失与分类损失通过加权求和的方式计算总体损失，为了平衡各损失，认为每种任务的重要性相同，需要设置权重系数将不同种类的损失规整为相同的数量级，具体地，人脸质量评估模型的目标函数为：

其中，L_reg(p)为第p个回归分支中输入图像的连续数值属性的预测值和真实值差异之和的平均值；L_cls(q)为第q个回归分支中输入图像的离散数值属性的预测类别和真实类别差异之和的平均值；N_reg为连续数值属性的个数；N_cls为离散数值属性的个数；λ₁和λ₂均为权重系数。本实施例中，L＝λ₁(L_blur+L_illumination+L_pose)+λ₂(L_emotion+L_glasses)，其中，L_blur为输入图像的模糊度的预测值和真实值差异之和的平均值；L_illumination为输入图像的光照强度的预测值和真实值差异之和的平均值；L_pose为输入图像的头部姿态的预测值和真实值差异之和的平均值；L_emotion为输入图像的面部表情状态的预测类别和真实类别差异之和的平均值；L_glasses为输入图像的眼镜佩戴状态的预测类别和真实类别差异之和的平均值。

具体地，第p个回归分支中输入图像的连续数值属性的预测值和真实值差异之和的平均值为：

针对回归问题，采用Huber loss，其具体表达形式如下式所示：

其中，N为输入图像的个数；

和y_i分别为第i个输入图像的第p个连续数值属性的预测值和真实值；δ为超参数。该损失函数引入了一个超参数δ，通过调整参数，可以改变损失函数的梯度，通常根据具体的网络模型灵活选择拟合效果更好的损失函数。Huber loss针对L1和L2损失做出改进，增强了对离群点的鲁棒性。当预测值与真实值的偏差小于δ时，采用平方误差，当偏差大于δ时，采用线性误差。本发明采用δ为1的Huber loss，也被称为smooth-L1损失，综合了L1损失和L2损失的优点，当预测值与真实值的偏差小于1时，其梯度较小，使损失在收敛的时候趋于稳定，更易收敛至局部最优，当偏差大于1时，梯度为1，梯度变化较小，对异常值不敏感，因此更加稳定。

针对多分类问题，使用softmax函数将特征向量映射为所述类别的概率，将这个概率看作预测类别的概率分布。使用交叉熵损失(Cross Entropy Loss)作为多分类问题的损失函数，通过缩小预测概率分布和真实概率分布的差距，使预测概率分布尽可能拟合真实概率分布。设真实概率分布为p(x_i)，预测概率分布为q(x_i)，其中x为某一个类别，则交叉熵损失函数如下式表示：

由于p(x_i)的值是0或1，因此可以将该损失函数简化为下式：

CrossEntropy＝-lnq_m

其中，m表示真实类别。

基于上述分析，第q个回归分支中输入图像的离散数值属性的预测类别和真实类别差异之和的平均值为：

本实施例中，选择CASIA-Webface人脸数据集作为人脸质量评估模型的训练集，利用百度AI开放平台提供的人脸属性分析接口对头部姿态、面部表情状态、眼镜佩戴状态、模糊度和光照强度五种属性进行检测，将这五种质量评估指标的检测结果存储成json文件并保存。最终生成的标签集包含每张图像的类别ID、图像编号、完整路径以及五种质量评估指标的检测结果。

对这五种字段的描述如表1所示，其中头部姿态包含三个字段，分别是偏航角、俯仰角和滚转角。

表1

人脸质量评估指标	字段	说明
			模糊度	blur	范围[0,1]，0表示清晰，1表示模糊
光照强度	illumination	范围[0,255]，数字越大，光照越强
			头部姿态偏航角	yaw	范围[-90(左),90(右)]
头部姿态俯仰角	pitch	范围[-90(上),90(下)]
			头部姿态滚转角	row	范围[-90(逆时针),90(顺时针)]
面部表情	emotion	9种类别，愤怒、高兴、惊讶、无表情等
			佩戴眼睛	glasses	3种类别，无眼镜、普通眼镜、墨镜

由于百度百度AI开放平台提供的人脸属性分析接口对一些属性的预测结果并不准确，因此需要人工进行更正，并针对不同评估指标采用不同的更正策略。

针对0至1范围内的模糊度的分布情况进行分析，由接口检测生成的模糊度属性基本分布于0至1的两端，没有体现出线性性质。通过观察数据集可以看出，图像样本的模糊程度有高有低，却被标注的过于极端。因此针对人脸的模糊度检测决定采用人眼主观评价的方式进行修正，将模糊度分为0至1内的10个等级，0表示最清晰，1表示最模糊。

针对范围在0至255的光照强度标签，由接口检测的结果服从正太分布，因此不需要大规模修正。额外统计灰度图上像素的均方根值，与标注数据进行对比，若相似则不修改，相差较大则人工判断真实值。

针对面部表情，虽然接口对九种表情进行标注，但本发明选择具有代表性的三种表情重新分类，分别是无表情、高兴、惊讶。

根据最终生成的标签文件，挑选出样本均衡的5126张人脸图像，以约8：2的比例将这些人脸图像分成样本均衡的训练集和测试集，最终得到的训练集包含27个人，4012张图像，测试集包含27个人，1114张图像。

本实施例中，采用PyTorch作为实现算法的深度学习框架。在搭建了人脸质量评估模型后，需要对网络中的若干超参数进行选择与设置，并采取优化措施。设置初始学习率为0.001，batch_size大小为32，使用L2正则项，并设置正则项系数为0.0005。采用带动量Momentum的小批量随机梯度下降法，增加动量以增强不同训练batch之间的相关性，使梯度下降向着更接近局部最小的方向进行，加快学习过程，其数学表达如下式所示：

其中，v_t-1代表历史梯度，γ代表动量，

代表当前batch的梯度α代表学习率，θ代表待更新的动量。设置动量参数值为0.9。

在训练过程中，采用十折交叉验证，将训练数据分为10组，每次取1组数据作为验证集，其余9组数据作为训练集，以减轻过拟合，提升模型的泛化性能。

本实施例中还采用了一些优化策略。训练过程中，当损失不再下降或准确率发生震荡时，适当地调整学习率可以提高准确度。因此，采取了学习率衰减策略，如果使用全部数据训练后的损失没有下降的次数达到8次，则将学习率乘以0.8，如果经过20次都没有进一步提升训练效果，则提前终止训练。此外，在网络反向传播计算梯度时，进行梯度裁剪，防止梯度爆炸，将梯度约束在(-grad_clip,grad_clip)之间，设grad_clip＝5。

优选地，训练集中的人脸图像为不含背景的人脸图像。具体地，采用人脸检测算法对训练集进行预处理，使训练阶段中，网络更关注于人脸特征而非背景信息。

本实施例采用具有鲁棒性的一阶段人脸检测器Retinaface对训练集进行预处理；人脸检测器Retinaface在现有人脸分类与人脸框回归算法的基础上，增加了人脸关键点回归分支进行额外监督，实现了一种多任务学习算法。此外，额外添加了自监督网格解码器分支，用于预测像素级别的三维人脸形状信息。该人脸检测算法对损失函数进行了改进，采用多任务损失函数，对于任何训练样本i，最小化如下式所示多任务损失函数：

其中，L_cls代表二值分类判断人脸与非人脸的softmax损失，L_pts代表人脸关键点回归损失，与人脸框回归损失相似，同样采用了基于样本中心的目标归一化对五个人脸关键点进行回归，L_pixel代表密集回归损失。L_box代表人脸框回归损失，使用FastR-CNN标准化人脸框回归目标，即人脸中心位置、宽度和高度。L_box如下式所示：

其中，R代表Fast R-CNN中定义的smooth-L1损失函数。

具体地，如图3所示为上述人脸质量评估模型所得的各人脸图像属性的预测值或预测类别，其中，(a)为上述人脸质量评估模型所得的模糊度、光照强度、面部表情和佩戴眼睛的预测结果；(b)为上述人脸质量评估模型所得的头部姿态的偏航角、俯仰角和滚转角的预测结果；从图中可以看出，所得结果符合人眼判断标准。

实施例2、

一种人脸质量评估方法，如图4所示，包括以下步骤：

1)、将待测图像输入到采用实施例1所述的人脸质量评估模型的构建方法所构建的人脸质量评估模型中，得到待测图像的各人脸图像属性的预测值或预测类别；其中，人脸图像属性包括连续数值属性和离散数值属性；连续数值属性包括：模糊度、光照强度和头部姿态；头部姿态包括偏航角、俯仰角和滚转角；离散数值属性包括：面部表情状态和眼镜佩戴状态；

2)、根据所得各人脸图像属性的预测值或预测类别计算得到各人脸图像属性的质量评估结果；

需要说明的是，模糊度为在0至1之间的数值，数值大小越接近于0人脸质量越高，越接近于1人脸质量越低。光照强度为0至255之间的数值，数值大小越接近0和255则人脸质量越低，接近于127.5则人脸质量越高。头部姿态包含偏航角、俯仰角、滚转角，这三个角度分别在-90°至90°之间，数值大小越接近-90°和90°则人脸质量越低，接近于0°则人脸质量越高。面部表情状态包含无表情、高兴和惊讶三种类别，眼镜佩戴状态包含不戴眼镜、佩戴普通眼镜、佩戴墨镜三种类别。

基于上述分析，针对模糊度，计算一减模糊度的预测值作为该评估指标的质量分数；具体地，模糊度的质量评估结果为：

其中，

为模糊度的预测值。

针对光照强度与头部姿态，将其预测值分别归一化到[-1,1]区间内，做绝对值运算，得到的数值越接近0质量越高，越接近1质量越低，因此用1减该数值作为质量分数。由于头部姿态包含三个角度，因此选质量分数最低的作为头部姿态的质量分数。具体地，光照强度的质量评估结果为：

其中，

为光照强度的预测值归一化到[-1,1]区间上的结果。头部姿态的质量评估结果sore_pose为偏航角的质量评估结果、俯仰角的质量评估结果和滚转角的质量评估结果中的最小值；具体为：

其中，

为偏航角的预测值归一化后的结果；

为俯仰角的预测值归一化[-1,1]区间上的结果；

为滚转角的预测值归一化到[-1,1]区间上的结果。

针对面部表情状态和眼镜佩戴状态这两种质量评估指标，为每种类别的置信度匹配不同的权重，通过加权求和得到质量分数，使数值在[0,1]区间内。面部表情状态的质量评估结果为：sore_emotion＝η₁P_noemotion+η₂P_happy+η₃P_surprise；其中，面部表情状态包括无表情、高兴和惊讶；P_noemotion为面部表情状态的预测类别为无表情的概率值；P_happy为面部表情状态的预测类别为高兴的概率值；P_surprise为面部表情状态的预测类别为惊讶的概率值；η₁、η₂和η₃分别为面部表情状态为无表情、高兴和惊讶所对应的权重值；η₁＞η₂＞η₃；本实施例中，无表情的权重η₁为1，高兴的权重η₂为0.5，惊讶的权重η₃为0。

眼镜佩戴状态的质量评估结果为：sore_glass＝α₁P_noglass+α₂P_normglass+α₃P_sunglass；其中，眼镜佩戴状态包括不戴眼镜、戴普通眼镜和戴太阳眼镜；P_noglass为眼镜佩戴状态的预测类别为不戴眼镜的概率值；P_normglass为眼镜佩戴状态的预测类别为戴普通眼镜的概率值；P_sunglass为眼镜佩戴状态的预测类别为戴太阳眼镜的概率值；α₁、α₂和α₃分别为眼镜佩戴状态为不戴眼镜、戴普通眼镜和戴太阳眼镜所对应的权重值；α₁＞α₂＞α₃。本实施例中，不戴眼镜的权重α₁为1，戴普通眼镜的权重α₂为0.5，戴太阳镜的权重α₃为0。

通过以上方式将五种人脸图像属性的质量评估结果进行分数转换至[0,1]区间内。

3)、计算各人脸图像属性的质量评估结果的平均值，得到待测图像的质量评估结果。具体地，计算得到的各人脸图像属性的质量评估结果均在[0,1]区间内，用一个全连接层通过计算平均值的方式将这五个人脸图像属性的质量评估结果映射为一个综合质量分数，得到人脸质量的综合分数，即待测图像的质量评估结果，该结果也在[0,1]区间内。

优选地，对待测图像进行人脸质量评估之前，对待测图像中的人脸区域进行检测，若检测不到人脸，则操作结束；若检测到人脸，则裁剪出不含背景的人脸图像作为新的待测图像输入到人脸质量评估模型中，该方法可以对非人脸图像或无法检测到的质量极低的人脸图像进行初筛。具体地，可以采用与实施例1相同的人脸检测算法对待测图像的人脸区域进行检测。

综上所述，本发明实现了对人脸质量的评估，不仅对人脸综合质量进行打分，同时对多种人脸图像属性指标进行学习，给出指导性意见；该方法可以应用于视频关键帧的提取，同样基本符合人眼判断标准，并能够实现实时检测。

进一步地，当特征提取网络采用轻量级的MobileNet-v2网络中最后一层线性分类器之前的网络时，采用本发明所提供的人脸质量评估方法在测试集上进行人脸质量评估，所得的人脸质量评估算性能如表2所示：

表2

特征提取网络	综合质量的RMSE	预测速度	模型大小
				本发明	0.1052	12pics/s	18.3M

从表2可以看出，本发明所提供的人脸质量评估方法的准确度较高，且预测速度较高，基本达到实时的速度，除此之外，模型大小为18.3M，相比于现有的基于ResNet50特征提取网络的方法(模型大小为147.2M)缩小8倍，实现了轻量级网络的要求。

综上所述，由于现有人脸质量评估方法中，基于多任务评估的方法依赖于人工选取特征的机器学习方法，而深度学习方法大多只对人脸整体质量进行评估或某一评估指标如头部姿态进行估计，缺乏指导性，无法给出多种评估指标的细节信息。基于这些不足之处，本发明提供了一种基于多任务学习的轻量级人脸质量评估方法，既利用深度学习方法大幅提升预测准确度，同时能够实时给出评估指标的指导性信息。进一步地，本发明所提出的人脸质量评估方法，将人脸图像作为输入，通过多任务学习策略，共享特征提取网络参数，对不同的多个人脸质量评估指标同时进行学习，经不同的全连接层映射，分别处理不同的任务输出，最后将多任务结果进行融合对人脸综合质量进行学习，相较于各个质量评估指标单独学习，既节省了计算资源，又提升了计算效率，最重要的是，可以提升人脸质量评估的评估精度。

相关技术方案同实施例1，这里不做赘述。

实施例3、

一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如实施例1所述的任一种人脸质量评估模型的构建方法和/或如实施例2所述的人脸质量评估方法。

相关技术方案同实施例1和实施例2，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸质量评估模型的构建方法，其特征在于，包括以下步骤：

S1、搭建人脸质量评估模型；所述人脸质量评估模型包括级联的特征提取网络和多任务层；所述特征提取网络用于提取输入图像的低级特征；所述多任务层包括多个并行的任务分支，用于对所述输入图像的各人脸图像属性进行预测；其中，每一种人脸图像属性均对应一个任务分支；所述任务分支用于对所述低级特征进行学习得到对应人脸图像属性的高级特征，并对所述高级特征进行回归或分类，以对人脸图像属性进行预测；

S2、将预采集好的训练集输入到所述人脸质量评估模型中，以最小化各人脸图像属性的预测属性和真实属性之间的差异的加权总和为目标训练所述人脸质量评估模型；所述训练集包括人脸图像及其对应的各人脸图像属性的真实属性标签。

2.根据权利要求1所述的人脸质量评估模型的构建方法，其特征在于，所述人脸图像属性包括连续数值属性和离散数值属性；所述连续数值属性包括：模糊度、光照强度和头部姿态；其中，所述头部姿态包括偏航角、俯仰角和滚转角；所述离散数值属性包括：面部表情状态和眼镜佩戴状态；

所述任务分支的类型包括回归分支和分类分支；所述回归分支用于对所述输入图像的连续数值属性进行回归预测，得到连续数值属性的预测值；所述分类分支用于计算所述输入图像的离散数值属性属于其所对应的不同属性类别的概率值，并将最大概率值所对应的属性类别作为离散数值属性的预测类别；

所述训练集中，人脸图像属性的真实属性包括人脸图像属性的真实值和真实类别。

3.根据权利要求1所述的人脸质量评估模型的构建方法，其特征在于，所述特征提取网络为MobileNet-v2网络中最后一层线性分类器之前的网络。

4.根据权利要求1-3任意一项所述的人脸质量评估模型的构建方法，其特征在于，所述人脸质量评估模型的目标函数为：

5.根据权利要求4所述的人脸质量评估模型的构建方法，其特征在于，所述第p个回归分支中输入图像的连续数值属性的预测值和真实值差异之和的平均值为：

所述第q个回归分支中输入图像的离散数值属性的预测类别和真实类别差异之和的平均值为：

其中，

和y_i分别为第i个输入图像的第p个连续数值属性的预测值和真实值；δ为超参数；P_iq为第i个输入图像的第q个离散数值属性的预测类别为真实类别的概率值。

6.根据权利要求1-3任意一项所述的人脸质量评估模型的构建方法，其特征在于，上述人脸图像为不含背景的人脸图像。

7.一种人脸质量评估方法，其特征在于，包括以下步骤：

将待测图像输入到采用权利要求1-6任意一项所述人脸质量评估模型的构建方法所构建的人脸质量评估模型中，得到待测图像的各人脸图像属性的预测值或预测类别；

根据所述各人脸图像属性的预测值或预测类别计算得到各人脸图像属性的质量评估结果；

计算所述各人脸图像属性的质量评估结果的平均值，得到待测图像的质量评估结果。

8.根据权利要求7所述的人脸质量评估方法，其特征在于，所述人脸图像属性包括连续数值属性和离散数值属性；所述连续数值属性包括：模糊度、光照强度和头部姿态；所述头部姿态包括偏航角、俯仰角和滚转角；所述离散数值属性包括：面部表情状态和眼镜佩戴状态；

所述模糊度的质量评估结果为：

其中，

为模糊度的预测值；

所述光照强度的质量评估结果为：

其中，

为光照强度的预测值归一化到[-1,1]区间上的结果；

所述头部姿态的质量评估结果sore_pose为偏航角的质量评估结果、俯仰角的质量评估结果和滚转角的质量评估结果中的最小值；具体为：

其中，

为偏航角的预测值归一化后的结果；

为俯仰角的预测值归一化到[-1,1]区间上的结果；

为滚转角的预测值归一化到[-1,1]区间上的结果；

所述面部表情状态的质量评估结果为：sore_emotion＝η₁P_noemotion+η₂P_happy+η₃P_surprise；其中，所述面部表情状态包括无表情、高兴和惊讶；P_noemotion为面部表情状态的预测类别为无表情的概率值；P_happy为面部表情状态的预测类别为高兴的概率值；P_surprise为面部表情状态的预测类别为惊讶的概率值；η₁、η₂和η₃分别为面部表情状态为无表情、高兴和惊讶所对应的权重值；η₁＞η₂＞η₃；

所述眼镜佩戴状态的质量评估结果为：sore_glass＝α₁P_noglass+α₂P_normglass+α₃P_sunglass；其中，所述眼镜佩戴状态包括不戴眼镜、戴普通眼镜和戴太阳眼镜；P_noglass为眼镜佩戴状态的预测类别为不戴眼镜的概率值；P_normglass为眼镜佩戴状态的预测类别为戴普通眼镜的概率值；P_sunglass为眼镜佩戴状态的预测类别为戴太阳眼镜的概率值；α₁、α₂和α₃分别为眼镜佩戴状态为不戴眼镜、戴普通眼镜和戴太阳眼镜所对应的权重值；α₁＞α₂＞α₃。

9.根据权利要求7或8所述的人脸质量评估方法，其特征在于，对待测图像进行人脸质量评估之前，对待测图像中的人脸区域进行检测，裁剪出不含背景的人脸图像作为新的待测图像输入到所述人脸质量评估模型中。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如权利要求1-6任意一项所述的任一种人脸质量评估模型的构建方法和/或如权利要求7-9任意一项所述的人脸质量评估方法。