CN113158860A

CN113158860A - 基于深度学习多维度输出人脸质量评估方法与电子设备

Info

Publication number: CN113158860A
Application number: CN202110389136.6A
Authority: CN
Inventors: 梁奔香; 杜兵; 罗翚
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-23
Anticipated expiration: 2041-04-12
Also published as: CN113158860B

Abstract

本发明公开了一种基于深度学习多维度输出人脸质量评估方法：准备训练数据集，Score训练集、Class训练集、Mask训练集、Pose训练集；训练网络模型，从四个训练集中各随机选取一部分图片合并为一个批次图片，送入到神经网络模型中，通过神经网络前向推理后得到四个分支的输出值，根据输入的图片来自哪个数据集来计算相应的分支的损失值，最后按照不同的权重相加每个分支的损失值得到总损失值，用于网络反向传播，更新网络参数；对待测的人脸图像进行预测，输入一张人脸图像，经过预处理后送入经过训练得到的神经网络模型进行前向推理，输出四个分支的预测值，最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。本发明还提供了相应的电子设备。

Description

基于深度学习多维度输出人脸质量评估方法与电子设备

技术领域

本发明属于图像识别技术领域，更具体地，涉及一种基于深度学习多维度输出人脸质量评估方法与电子设备。

背景技术

在边缘设备人脸抓拍过程中，由于受环境变化和人体运动的影响，抓拍到的人脸图像中存在模糊、遮挡、姿态变化等低质量的人脸图像，这些低质量的人图像会大大降低人脸识别系统的准确率。同时边缘设备的存储空间和传输带宽都是非常有限的，大量的低质量质量人脸图片，并不利于人脸图片的存储和传输。为了能够从大量的人脸图像中挑选出一张或多张高质量的人脸图像，就需要用到人脸质量评估方法。

影响人脸质量的因素有人脸图像的模糊程度、人脸遮挡程度、人脸姿态等，对人脸质量的评估，就是对这些影响因素进行评估。现有的人脸质量评估方法：一是利用深度CNN(Convolution Neural Networks，卷积神经网络)回归人脸质量分数，就是输入人脸图像，经过神经网络，输出一个人脸质量分数，该方法不能够准确反映影响人脸质量的各个因素，如清晰程度、遮挡程度、人脸姿态等，同时，一张人脸图像标注一个综合评价分数，标注难度大，容易引入主观误差。二是分别对人脸姿态、模糊、遮挡、人脸完整性等影响因素建模，计算各个因素的人脸质量分数后分配权重综合评估得到唯一分数作为人脸质量评估，多模型评估增加了耗时和计算资源，不利于边缘设备的实时部署。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的多维度输出的人脸质量评估方法，用以解决多个模型同时运行增加耗时和计算资源的问题，增加人脸质量评估的准确性。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习多维度输出人脸质量评估方法，包括：

步骤1：准备训练数据集，Score训练集、Class训练集、Mask训练集、Pose训练集；

步骤2：训练网络模型，从所述四个训练集中各随机选取一部分图片合并为一个批次图片，送入到神经网络模型中，通过神经网络前向推理后得到四个分支的输出值，根据输入的图片来自哪个数据集来计算相应的分支的损失值，最后按照不同的权重相加每个分支的损失值得到总损失值，用于网络反向传播，更新网络参数；

步骤3：对待测的人脸图像进行预测，输入一张人脸图像，经过预处理后送入经过训练得到的神经网络模型进行前向推理，输出四个分支的预测值，最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。

本发明的一个实施例中，所述步骤2中的四个分支包括：

Score输出分支：图像清晰程度估计分支，该分支回归预测一个关于人脸图像清晰程度的评分估计值，在(0,1)区间，图像清晰程度越高，该值越大，反之图像越模糊，该值越小；

Class输出分支：人脸图像“bad”、“good”二分类分支；“bad”类包括非常极端的人脸、不完整的人脸以及部分非人脸图片；“good”类包括正常人脸的图片；该分支用于对输入的人脸图像进行预测分类，得到一个属于“good”类的概率值，在(0,1)区间；

Mask输出分支：人脸图像“Mask”、“NoMask”二分类分支；“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像；“NoMask”类是正常的无遮挡无口罩的人脸图像；该分支用于预测人脸是否有遮挡和是否戴口罩，输出一个属于“NoMask”类的概率值，概率值越大，表示人脸被遮挡或戴口罩的可能性越小；

Pose输出分支：人脸姿态估计分支，该分支预测人脸的姿态角度，有三个输出值，分别对应人脸的三个欧拉角(Yaw、Pitch、Roll)，这三个角度的取值范围是(-100,100)度，不考虑超出这个范围的人脸。

本发明的一个实施例中，所述步骤2中四个分支的总损失值计算如下：

Loss＝α₁L_score+α₂L_class+α₃L_mask+α₄L_pose

上述中，Loss表示总损失值，L_score、L_class、L_mask、L_pose分别表示四个分支的损失值，α₁、α₂、α₃、α₄是四个分支损失值对应的权重。

本发明的一个实施例中，Score分支损失值为：

Score分支属于回归预测，选用L1-loss函数作为损失值计算函数计算如下：

上式中L_score表示Score分支的损失值，N表示该批次数据中来自Score数据集的数量，y_n表示模型Score分支的输出值，x_n表示输入图片对应的标签值。

本发明的一个实施例中，Class分支和Mask分支损失值为：

这两个分支的任务都属于二分类任务，都是使用交叉熵损失函数计算损失值，计算公式如下：

上式中loss表示对应的损失函数，N表示该批次数据中属于该数据集的数量，y_n表示模型对应分支的输出值，x_n表示输入图片对应的标签值。

本发明的一个实施例中，Pose分支损失值为：

Pose分支属于回归预测，使用smoothL1函数计算损失值，计算公式如下：

上式中，L_pose表示Pose分支的损失值，x表示真实值与预测值间的差值，即预测值与标签值相减。

本发明的一个实施例中，所述步骤3中的预处理为：

对输入的人脸图像数据进行处理，首先将图像通过裁剪或者填充扩充成正方形，然后缩放到大小为48*48，再将图像的像素值归一化到(-1,1)区间。

本发明的一个实施例中，所述步骤2中的神经网络模型包括参数共享和多维度输出两个部分，其中：

所述参数共享属于公共部分，用于提取图像的低层、共同特征，通过参数共享，增加模型参数的复用性，减少模型参数和计算量，该部分包括三个卷积层和三个池化层，对输入大小为48*48*3的图像，经过参数共享模块的卷积层和池化层，输出的feature map大小为6*6*128；

所述多维度输出部分是模型的输出模块，有4个输出分支，分别是Score、Class、Mask、Pose。

本发明的一个实施例中，所述4个训练数据集具体为：

Score训练集：用于学习人脸图像清晰程度估计的训练集，数据集中的每张人脸图片对应一个标签，该标签是关于图像的清晰度评分值；

Class训练集：该数据集包含“bad”、“good”两类人脸图片，“bad”类包括非常极端的人脸、不完整的人脸以及部分非人脸图片；“good”类包括正常人脸的图片，用于训练Class分支对人脸图像“bad”、“good”的分类能力；

Mask训练集：该数据集包含“Mask”、“NoMask”两类人脸图像，“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像；“NoMask”类是正常的无遮挡无口罩的人脸图像，由于训练Mask分支对人脸图像是否有遮挡或是否戴口罩的分类能力；

Pose训练集：回归预测人脸姿态角度的数据集，每一张人脸图片对应的标签是人脸姿态的三个角度值(Pitch、Yaw、Roll)，用于训练Pose分支对人脸姿态角度预测的能力。

本发明的一个实施例中，所述按权相加四个分支的输出值得到最终的人脸质量综合评估分数，具体为：

FQ＝αS+βP₁+γP₂+δS_d

上述公式中，S是Score分支的输出值，表示人脸图像清晰程度的评分，P₁是Class分支输出分类为“good”的概率值，P₂是Mask分支输出分类为“NoMask”的概率值，S_d是Pose分支人脸角度的综合得分，FQ表示人脸质量评估综合分数，最终通过该值来评价人脸质量的好坏，α、β、γ、δ表示四个分支的权重，四个值的和为1。

本发明的一个实施例中，所述Pose分支的人脸角度综合得分S_d的计算公式如下：

其中θ、λ、μ分别表示人脸姿态Pitch、Yaw、Roll的权重，三个值的和为1。

按照本发明的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于深度学习多维度输出人脸质量评估方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)本发明对人脸图像评估的质量分数综合考虑了模糊度、姿态、完整度等信息，更全面地对人脸图像进行评价；

(2)通过多维度输出的深度卷积神经网络模型对输入的人脸图像进行多任务预测，输出人脸图像的清晰程度评估值、人脸分类概率值以及人脸姿态角度估计值，然后按不同的权重综合模型输出值得到人脸质量评分，能够有效过滤不合格人脸图像；

(3)一个模型实现多个不同任务预测，模型参数少、执行效率高、耗时短，能够在边缘设备实时部署。

附图说明

图1为本发明实施例中基于深度学习多维度输出人脸质量评估方法的总体框图；

图2为本发明实施例中神经网络模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了解决现有技术存在的问题，本发明提供了一种基于深度学习多维度输出人脸质量评估方法，首先设计一个多维度输出的神经网络模型，如图1所示，模型有四个输出分支：Score、Class、Mask、Pose，这四个分支分别预测不同的任务。输入一张待测的人脸图片，经过预处理后输入到模型中进行预测，得到四个分支的预测值，最后按不同的权重综合评估得到唯一的人脸质量综合分数作为人脸质量评估。

预处理：对输入的人脸图像数据进行处理，首先将图像通过裁剪或者填充扩充成正方形，然后缩放到大小为48*48，再将图像的像素值归一化到(-1,1)区间。

Model：模型的骨架网络(backbone)，该网络的结构如图2所示，包括参数共享和多维度输出两个部分。图中，“3*3、2*2”表示卷积层或池化层的核大小，“conv”表示卷积操作，后面接的参数表示卷积核的个数，“bn”表示批量归一化(Batch Normalization)，“prelu”表示激活层，“MaxPool”表示最大池化层，“FC”表示全连接层(Fully Connected)，括号内的参数表示输入输出节点个数，“Sigmoid”、“SoftMax”分别表示Sigmoid函数和SoftMax函数。参数共享属于公共部分，用于提取图像的低层、共同特征，通过参数共享，增加模型参数的复用性，减少模型参数和计算量。该部分包括三个卷积层和三个池化层。对输入大小为48*48*3的图像，经过参数共享模块的卷积层和池化层，输出的feature map大小为6*6*128；多维度输出部分是模型的输出模块，有4个输出分支，分别是Score、Class、Mask、Pose。

Score输出分支：图像清晰程度估计分支，该分支回归预测一个关于人脸图像清晰程度的评分估计值，在(0,1)区间，图像清晰程度越高，该值越大，反之图像越模糊，该值越小。

Class输出分支：人脸图像“bad”、“good”二分类分支。“bad”类包括非常极端的人脸(分辨率极低、光照条件差)、不完整的人脸以及部分非人脸图片；“good”类包括正常人脸的图片。该分支主要的作用是对输入的人脸图像进行预测分类，得到一个属于“good”类的概率值，在(0,1)区间。

Mask输出分支：人脸图像“Mask”、“NoMask”二分类分支。“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像；“NoMask”类是正常的无遮挡无口罩的人脸图像。该分支用于预测人脸是否有遮挡和是否戴口罩，输出一个属于“NoMask”类的概率值，概率值越大，表示人脸被遮挡或戴口罩的可能性越小。

按权相加模块：综合模型的四个分支输出值，进行按权相加，得到一个唯一的人脸质量综合分数作为人脸质量评估。计算公式如下：

FQ＝αS+βP₁+γP₂+δS_d

上述公式中，S是Score分支的输出值，表示人脸图像清晰程度的评分，P₁是Class分支输出分类为“good”的概率值，P₂是Mask分支输出分类为“NoMask”的概率值，S_d是Pose分支人脸角度的综合得分。FQ表示人脸质量评估综合分数，最终通过该值来评价人脸质量的好坏。α、β、γ、δ表示四个分支的权重，四个值的和为1。

上述的Pose分支的人脸角度综合得分S_d的计算公式如下：

上述的权重值α、β、γ、δ和θ、λ、μ根据经验或通过实验在一定的范围取值，也可以通过进一步训练得到。

综上，最终以FQ作为评价人脸质量好坏的依据，该值越大，表示人脸质量越好，反之越差。

本发明具体实施步骤如下：

步骤1：准备训练数据集。本发明设计了一个多维度输出模型，输出有四个分支：Score、Class、Mask、Pose，对应有四个训练数据集：Score训练集、Class训练集、Mask训练集、Pose训练集。

Score训练集：用于学习人脸图像清晰程度估计的训练集，数据集中的每张人脸图片对应一个标签，该标签是关于图像的清晰度评分值，取值范围是(0,1)。

Class训练集：该数据集包含“bad”、“good”两类人脸图片。“bad”类包括非常极端的人脸(分辨率极低、光照条件差)、不完整的人脸以及部分非人脸图片；“good”类包括正常人脸的图片。用于训练Class分支对人脸图像“bad”、“good”的分类能力。

Mask训练集：该数据集包含“Mask”、“NoMask”两类人脸图像。“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像；“NoMask”类是正常的无遮挡无口罩的人脸图像。由于训练Mask分支对人脸图像是否有遮挡或是否戴口罩的分类能力。

Pose训练集：回归预测人脸姿态角度的数据集，每一张人脸图片对应的标签是人脸姿态的三个角度值(Pitch、Yaw、Roll)。用于训练Pose分支对人脸姿态角度预测的能力。

步骤2：训练网络模型。通过深度学习框架按图2所示搭建神经网络。训练过程中，从所述四个训练集中各随机选取一部分图片合并为一个批次图片，送入到神经网络模型中，通过神经网络前向推理后得到四个分支的输出值，根据输入的图片来自哪个数据集来计算相应的分支的损失值，最后按照不同的权重相加每个分支的损失值得到总损失值，用于网络反向传播，更新网络参数。

上述步骤2中描述的四个分支的总损失值计算如下：

Loss＝α₁L_score+α₂L_class+α₃L_mask+α₄L_pose

上述中，Loss表示总损失值，L_score、L_class、L_mask、L_pose分别表示四个分支的损失值，α₁、α₂、α₃、α₄是四个分支损失值对应的权重，可根据经验或通过实验在一定的范围取值。

上述描述的四个分支损失值计算方式如下。

Score分支损失值：Score分支属于回归预测，选用L1-loss函数作为损失值计算函数计算如下：

Class分支和Mask分支损失值：这两个分支的任务都属于二分类任务，都是使用交叉熵损失函数计算损失值。计算公式如下：

Pose分支损失值：Pose分支属于回归预测，使用smoothL1函数计算损失值。计算公式如下：

步骤3：对待测的人脸图像进行预测。使用步骤2中训练得到的神经网络模型对待测人脸图像进行质量评估预测。预测流程图如图1所示。输入一张人脸图像，经过预处理模型处理后送入经过训练得到的神经网络模型进行前向推理，输出四个分支的预测值，最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。

预处理模块：对输入的人脸图像数据进行处理，首先将图像通过裁剪或者填充扩充成正方形，然后缩放到大小为48*48，再将图像的像素值归一化到(-1,1)区间。

Model推理模块：模型的骨架网络(backbone)，该网络的结构如图2所示，包括参数共享和多维度输出两个部分。参数共享属于公共部分，用于提取图像的低层、共同特征，通过参数共享，增加模型参数的复用性，减少模型参数和计算量。该部分包括三个卷积层和三个池化层。对输入大小为48*48*3的图像，经过参数共享模块的卷积层和池化层，输出的feature map大小为6*6*128；多维度输出部分是模型的输出模块，有4个输出分支，分别是Score、Class、Mask、Pose。

FQ＝αS+βP₁+γP₂+δS_d

上述公式中，S是Score分支的输出值，表示人脸图像清晰程度的评分，P₁是Class分支输出分类为“good”的概率值，P₂是Mask分支输出分类为“NoMask”的概率值，S_d是Pose分支人脸角度的综合得分。FQ表示人脸质量评估综合分数，最终通过该值来评价人脸质量的好坏。α、β、γ、δ表示四个分支的权重。

上述的Pose分支的人脸角度综合得分S_d的计算公式如下：

其中θ、λ、μ分别表示人脸姿态Pitch、Yaw、Roll的权重。

进一步地，本发明还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。