CN110738160A

CN110738160A - 一种结合人脸检测的人脸质量评估方法

Info

Publication number: CN110738160A
Application number: CN201910966655.7A
Authority: CN
Inventors: 向伟; 沈复民; 孔繁昊; 奚兴; 张艳明
Original assignee: Chengdu Koala Technology Co Ltd
Current assignee: Chengdu Koala Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-01-31

Abstract

本发明公开了一种结合人脸检测的人脸质量评估方法，输入待检测图片并进行特征提取；然后，提取不同尺度的特征进行多尺度特征融合；最后，网络进行多任务训练，分别输出人脸置信度、人脸框坐标、人脸质量，根据人脸置信度筛选出代表人脸的先验框，根据人脸框坐标将先验框回归后得到最后检测得到的人脸框，先验框对应的人脸质量分类即为回归后人脸框的质量分类。本发明将人脸检测和人脸质量评估两个任务在同一个网络中实现，实现了多任务学习；有效节省了GPU显存，同时速度更快。

Description

一种结合人脸检测的人脸质量评估方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种结合人脸检测的人脸质量评估方法。

背景技术

人脸识别模块是智能视频监控系统中的重要组成部分，基于监控视频的人脸识别技术面临许多挑战，例如监控环境中存在光照、背景等不断变化。且视频中的人是自由行动的，因此在监控视频中经过人脸检测采集到的人脸经常会存在因为光照或姿态或表情变化大，甚至由于运动而模糊等原因产生的低质量人脸图像。虽然目前很多方法被提出来以增强人脸识别算法对低质量图像的鲁棒性，但是很明显大多数识别算法在高质量的人脸图像上的，因此在人脸识别前需要进行人脸图像质量评估。

对经过人脸检测后得到的人脸图像进行质量评估即为人脸质量评估方法，常用于人脸识别算法之前对人脸图像进行过滤。人脸质量评估脱胎于图像质量评估方法，而图像质量评估从方法上可分为主观评估和客观评估。主观评估就是从人的主观感知来评价图像的质量，首先给出原始参考图像和失真图像，让标注者给失真图像评分，一般采用平均主观得分（Mean Opinion Score，MOS）或平均主观得分差异（Differential Mean OpinionScore，DMOS）表示。客观评估使用数学模型给出量化值，可以使用图像处理技术生成一批失真图像，操作简单，已经成为IQA研究的重点。与传统的图像质量方法不同的是，人脸质量评估不仅关注图像的分辨率、噪声、锐度等，还关注该人脸图像是否存在大角度的侧脸和比较夸张的表情等。

然而，传统的人脸质量评估方法是将人脸检测和人脸质量评估分为两步进行，当图像中人脸较多时，存在运行速度很慢的问题，同时两个模型的GPU显存占用也很高。另一方面，目前的图像质量评估方法只能够消除一些含有噪声、模糊等情况的人脸图像，而对于人脸识别，在注册人脸时需要是正脸、无表情、清晰、完整无遮挡的人脸图片，在识别时，往往高质量的图片更能提高识别准确度，一些较小侧脸、较小表情、轻微模糊的图像也能用于识别。这些是传统图像质量评估无法做到的。本发明将人脸质量分为9类，在人脸识别时可灵活选择人脸的类别进行注册或识别。

发明内容

本发明的目的在于提供一种结合人脸检测的人脸质量评估方法，本发明将人脸检测和人脸质量评估两个任务在同一个网络中实现，实现了多任务学习；有效节省了GPU显存，同时速度更快。

本发明主要通过以下技术方案实现：一种结合人脸检测的人脸质量评估方法，输入待检测图片并进行特征提取；然后，提取不同尺度的特征进行多尺度特征融合；最后，网络进行多任务训练，分别输出人脸置信度、人脸框坐标、人脸质量，根据人脸置信度筛选出代表人脸的先验框，根据人脸框坐标将先验框回归后得到最后检测得到的人脸框，先验框对应的人脸质量分类即为回归后人脸框的质量分类。

为了更好的实现本发明，进一步的，在输入待检测图片之前设置先验框，根据输入图像的大小生成大小不同的先验框，以实现在原图中有多种大小的感受野以覆盖了常见人脸的大小；在不同的特征图设置不同大小的先验框，以提取多种尺度进行检测；在每一个像素点附近生成均匀分布的若干个先验框。

为了更好的实现本发明，进一步的，将先验框与真实目标进行匹配，匹配成功的先验框负责预测物体是人脸的概率和它的质量分类；首先将生成的所有的先验框与真实目标做IoU计算得出交并比IoU；然后，每一个真实目标分配一个最大IoU的先验框，确保每一个真实目标至少有一个先验框与之匹配；最后，为了解决正负样本不均衡的问题，将交并比IoU大于阈值的也分配给真实目标，增加正样本的数量。所述阈值可以设置为0.4。

为了更好的实现本发明，进一步的，将样本按照起损失值排序并选取最高的70％进行训练，同时保证正样本和负样本的比例最高不超过3:1。

为了更好的实现本发明，进一步的，待检测图片经过特征提取网络后图像尺度大小被减小32倍。

为了更好的实现本发明，进一步的，输入的待检测图片依次经过conv1、pool1、conv2、pool2后进行特征提取；所述conv1的k=7、c=24、s=4，pool1的k=3、s=4，所述conv2的k=5、c=64、s=2，所述pool2的k=3、s=2。

为了更好的实现本发明，进一步的，待检测图片依次经过inception1、inception2、inception3丰富感受野，然后依次进入conv3_1、conv3_2、conv4_1、conv4_2提取不同尺度的特征并进行多尺度特征融合，分别从inception3、Conv3_2和Conv4_2中提取三种不同尺度的特征。

为了更好的实现本发明，进一步的，所述inception3中先验框大小设置为32x32、64x64、128x128；所述Conv3_2中先验框大小设置为256x256；所述Conv4_2中先验框大小设置为512x512；inception3的输出特征图大小为32*32，Conv3_2的输出特征图大小为16*16，Conv4_2输出特征图大小为8*8。

为了更好的实现本发明，进一步的，分别采用一个2分类SoftmaxLoss进行人脸和非人脸分类，一个SoothL1Loss进行人脸框坐标的回归，和一个9分类的SoftmaxLoss进行人脸质量分类；得到三种不同尺度进行特征融合之后，利用卷积层分别为三个任务进行多任务训练，对每一个任务进行权重分配，损失值的比例为2:1:1。

为了更好的实现本发明，进一步的，质量分类一共分为9类，按照质量顺序依次分别为标准人脸、小幅度侧脸、微小表情、轻微模糊、夸张表情、大幅度侧脸、中度模糊、重度模糊、遮挡。

本发明的有益效果：

（1）为了解决在小目标检测时出现的漏检问题，提升网络对小目标的敏感度，本发明提取了多种尺度进行检测。

（2）人脸质量对人脸检测的精度较敏感，因此为了提升质量评估的准确性，本发明使用了先验框密集策略，增加了先验框的个数，进一步提高了的检测效果。

（3）为了进一步平衡正负样本比例和更快更稳定的训练，将样本按照起损失值排序并选取最高的70％进行训练，同时保证正样本和负样本的比例最高不超过3:1。

（4）为了快速减小输入图像的空间尺度大小，在网络前部的特征提取网络中的卷积层和池化层使用了较大的步长，使得图像经过了特征提取网络后图像尺度大小被快速减小了32倍，这样加快了图像的前向传输速度，使得网络耗时更短和gpu显存占用更低。

（5）采用inception的结构主要目的是丰富感受野，使感受野多样化，提升网络检测不同大小人脸的能力。

（6）多尺度融合的优点是对于不同大小的人脸有更好的检测准确度。

（7）本发明将人脸质量分为9类，在人脸识别时可灵活选择人脸的类别进行注册或识别。

（8）在AFW数据集上，人脸检测(MTCNN)+人脸质量评估(ResNet-18)的方式在GPU上平均每一帧消耗31ms，GPU占用约为2.4Gb，本发明方法在GPU上平均每一帧消耗14ms，GPU占用约为0.7Gb。

附图说明

图1为本发明与传统的人脸质量评估方法的对比图；

图2为本发明的网络结构图；

图3为inception结构图；

图4为先验框密集策略原理图；

图5为测试结果图。

具体实施方式

实施例1：

一种结合人脸检测的人脸质量评估方法，如图1（b）所示，输入待检测图片并进行特征提取；然后，提取不同尺度的特征进行多尺度特征融合；最后，网络进行多任务训练，分别输出人脸置信度、人脸框坐标、人脸质量，根据人脸置信度筛选出代表人脸的先验框，根据人脸框坐标将先验框回归后得到最后检测得到的人脸框，先验框对应的人脸质量分类即为回归后人脸框的质量分类。

目前的方法普遍将人脸检测和人脸质量评估分成两个部分，如图1（a）所示，在处理图像中含有多个人脸时，整体速度明显下降。而且因为是两个模型，占用GPU显存也较大。本发明将人脸检测与人脸质量评估模型进行融合，如图1（b）所示，利用基于深度学习的方法进行多任务训练，速度明显优于人脸检测+人脸质量评估的方法，且网络结构轻量，占用GPU显存较小。

假设图像Ｉ中有人脸个数ｎ，相对于传统方法人脸检测模型a＋人脸质量评估模型b，在人脸检测模型ａ中前向传输时间为t_a，1个人脸图像在人脸质量评估模型b中的前向传输时间为t_b，因此一张包含n个人脸的图像，在传统方法中的前向时间为t_a+n*t_b，在本发明的模型中前向传输的时间为t_c，根据实验结果，t_c远远小于t_a+n*t_b的，且模型占用gpu显存更小。

实施例2：

本实施例是在实施例1的基础上进行优化，如图2所示，其中k表示卷积核大小，c表示卷积核个数，s表示卷积核步长。输入的图片依次经过conv1、pool1、conv2、pool2进行特征提取，所述conv1的k=7、c=24、s=4，pool1的k=3、s=4，所述conv2的k=5、c=64、s=2，所述pool2的k=3、s=2。待检测图片经过特征提取网络后图像尺度大小被减小32倍。

然后依次经过inception1、inception2、inception3三个inception块，图3为inception块的结构，以丰富感受野；然后依次进入conv3_1、conv3_2、conv4_1、conv4_2提取不同尺度的特征并进行多尺度特征融合，分别从inception3、Conv3_2和Conv4_2中提取三种不同尺度的特征。所述conv3_1的k=1、c=128、s=1，所述Conv3_2的k=3、c=256、s=2，所述conv4_1的k=1、c=128、s=1，所述Conv4_2的k=3、c=256、s=2。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，得到了三种不同尺度进行特征融合之后，利用卷积层分为三个任务进行多任务训练，分别为人脸2分类任务、人脸框坐标回归任务、人脸质量9分类任务。本发明对每一个任务进行权重分配，损失值的比例为2:1:1。

在预测阶段，网络有三个输出，分别为人脸框坐标、人脸置信度、人脸质量。根据人脸置信度可以筛选出代表人脸的先验框，根据人脸框坐标将先验框回归后能得到最后检测得到的人脸框，先验框对应的人脸质量分类即为回归后人脸框的质量分类。

质量分类一共分为9类，按照质量顺序依次分别为标准人脸、小幅度侧脸、微小表情、轻微模糊、夸张表情、大幅度侧脸、中度模糊、重度模糊、遮挡，详细为：

标准人脸：清晰无表情无遮挡的正脸。

小幅度侧脸：脸部向左右偏向在30度之内。

微小表情：有细微表情的正脸。

轻微模糊：清晰度略微模糊的正脸。

夸张表情：有夸张表情的正脸。

大幅度侧脸：脸部向左右偏向在40度以上。

中度模糊：清晰度中度模糊的正脸。

重度模糊：清晰度严重模糊的正脸。

遮挡：脸部被遮挡的正脸。

数据集分类规则为，向下兼容。例如一张人脸图像可以同时包含微小表情和大幅度侧脸，但他的正确分类应该为大幅度侧脸。人脸质量评估只有第1类标准人脸才能用于人脸注册，后8类不能注册。前4类可以用于人脸识别，后5类不能用于人脸识别。

通过以上过程，我们能得到人脸框和人脸质量，如图5所示，图5中左上标注了该人脸框的质量评估类别，large_e代表夸张表情人脸，good代表标准人脸表情，根据人脸质量决定该人脸框是否能用于人脸注册或人脸识别。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

一种结合人脸检测的人脸质量评估方法，如图2所示，图中以Conv开头的是卷积层，Pool开头是池化层，inception代表inception结构，其具体的网络结构如图3所示。k表示卷积核大小，c表示卷积核个数，s表示卷积核步长。

首先输入待检测图片，经过网络进行特征提取后，提取不同尺度的特征进行多尺度特征融合，最后网络进行多任务训练，分别采用一个2分类SoftmaxLoss进行人脸和非人脸分类，一个SoothL1Loss进行人脸框坐标的回归，和一个9分类的SoftmaxLoss进行人脸质量分类。本发明网络在预测阶段一共有三个输出，分别是人脸框坐标、人脸置信度、人脸质量。本发明主要包括以下步骤：

1、输入待检测图片之前，首先需要设置先验框，设置先验框的目的是确定训练图像中的ground truth（真实目标）与哪个先验框来进行匹配，与ground truth匹配的先验框所对应的边界框将负责预测该物体的是人脸分类和质量分类。本发明为了将人脸检测与人脸质量评估结合，对先验框的设置方法如下：

1）根据输入图像的大小生成一系列不同大小的先验框，目的是在原图中有多种大小的感受野以覆盖了常见人脸的大小。

2）为了解决在小目标检测时出现的漏检问题，提升网络对小目标的敏感度，本发明提取了多种尺度进行检测。因此，为了让先验框适应多尺度的特征，本发明在不同的特征图设置不同大小的先验框。如图2所示，本发明共提取了三种不同尺度的特征，分别从inception3、Conv3_2和Conv4_2中提取，inception3中先验框大小设置为32x32、64x64、128x128，Conv3_2中先验框大小设置为256x256，Conv4_2中先验框大小设置为512x512。

3）人脸质量对人脸检测的精度较敏感，因此为了提升质量评估的准确性，本发明使用了先验框密集策略，增加了先验框的个数，进一步提高了的检测效果。如图4所示，具体为不仅在每一个像素点生成一个对应的先验框，而是在每一个像素点附近生成均匀分布的4个先验框。

2、先验框生成以后，需要与ground truth（真实目标）进行匹配，匹配成功的先验框负责预测该物体是人脸的概率和它的质量分类，因此匹配的策略至关重要，本发明采用以下方法将人脸检测与人脸质量评估进行有效的融合：

1）首先将生成的所有的先验框与ground truth（真实目标）做IoU（Intersection overUnion）计算得出交并比IoU。

2）其次给每一个ground truth（真实目标）分配一个最大IoU的先验框，确保每一个ground truth（真实目标）至少有一个先验框与之匹配。

3）最后，为了解决正负样本不均衡的问题，将交并比IoU大于一定阈值（0.4）的也分配给该ground truth（真实目标），增加了正样本的数量。

为了进一步平衡正负样本比例和更快更稳定的训练，将样本按照起损失值排序并选取最高的70％进行训练，同时保证正样本和负样本的比例最高不超过3:1。

3、先验框设置完成之后，将图像输入网络中时，为了快速减小输入图像的空间尺度大小，在网络前部的特征提取网络中的卷积层和池化层使用了较大的步长，如图2中的ｓ所示，使得图像经过了特征提取网络后图像尺度大小被快速减小了32倍，这样加快了图像的前向传输速度，使得网络耗时更短和gpu显存占用更低。

4、接下来进入三个inception块，inception块的结构如图3所示。采用inception的结构主要目的是丰富感受野，使感受野多样化，提升网络检测不同大小人脸的能力。随后的两个卷积层是为了提取不同尺度的特征进行多尺度特征融合。Inception3的输出特征图大小为32*32，Conv3_2的输出特征图大小为16*16，Conv4_2输出特征图大小为8*8。多尺度融合的优点是对于不同大小的人脸有更好的检测准确度。

5、得到了三种不同尺度进行特征融合之后，利用卷积层分为三个任务进行多任务训练，分别为人脸2分类任务，人脸框坐标回归任务，人脸质量9分类任务。本发明对每一个任务进行权重分配，损失值的比例为2:1:1。

标准人脸：清晰无表情无遮挡的正脸。

小幅度侧脸：脸部向左右偏向在30度之内。

微小表情：有细微表情的正脸。

轻微模糊：清晰度略微模糊的正脸。

夸张表情：有夸张表情的正脸。

大幅度侧脸：脸部向左右偏向在40度以上。

中度模糊：清晰度中度模糊的正脸。

重度模糊：清晰度严重模糊的正脸。

遮挡：脸部被遮挡的正脸。

数据集分类规则为向下兼容。例如一张人脸图像可以同时包含微小表情和大幅度侧脸，但他的正确分类应该为大幅度侧脸。人脸质量评估只有第1类标准人脸才能用于人脸注册，后8类不能注册。前4类可以用于人脸识别，后5类不能用于人脸识别。

通过以上过程，我们能得到人脸框和人脸质量，如图5所示，图中左上标注了该人脸框的质量评估类别，large_e代表夸张表情人脸，good代表标准人脸表情，根据人脸质量决定该人脸框是否能用于人脸注册或人脸识别。

在AFW数据集上，人脸检测(MTCNN)+人脸质量评估(ResNet-18)的方式在GPU上平均每一帧消耗31ms，GPU占用约为2.4Gb，本发明方法在GPU上平均每一帧消耗14ms，GPU占用约为0.7Gb。本发明将人脸检测和人脸质量评估两个任务在同一个网络中实现，实现了多任务学习；有效节省了GPU显存，同时速度更快。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种结合人脸检测的人脸质量评估方法，其特征在于，输入待检测图片并进行特征提取；然后，提取不同尺度的特征进行多尺度特征融合；最后，网络进行多任务训练，分别输出人脸置信度、人脸框坐标、人脸质量，根据人脸置信度筛选出代表人脸的先验框，根据人脸框坐标将先验框回归后得到最后检测得到的人脸框，先验框对应的人脸质量分类即为回归后人脸框的质量分类。

2.根据权利要求1所述的一种结合人脸检测的人脸质量评估方法，其特征在于，在输入待检测图片之前设置先验框，根据输入图像的大小生成大小不同的先验框，以实现在原图中有多种大小的感受野以覆盖了常见人脸的大小；在不同的特征图设置不同大小的先验框，以提取多种尺度进行检测；在每一个像素点附近生成均匀分布的若干个先验框。

3.根据权利要求2所述的一种结合人脸检测的人脸质量评估方法，其特征在于，将先验框与真实目标进行匹配，匹配成功的先验框负责预测物体是人脸的概率和它的质量分类；首先将生成的所有的先验框与真实目标做IoU计算得出交并比IoU；然后，每一个真实目标分配一个最大IoU的先验框，确保每一个真实目标至少有一个先验框与之匹配；最后，为了解决正负样本不均衡的问题，将交并比IoU大于阈值的也分配给真实目标，增加正样本的数量。

4.根据权利要求3所述的一种结合人脸检测的人脸质量评估方法，其特征在于，将样本按照起损失值排序并选取最高的70%进行训练，同时保证正样本和负样本的比例最高不超过3:1。

5.根据权利要求1所述的一种结合人脸检测的人脸质量评估方法，其特征在于，待检测图片经过特征提取网络后图像尺度大小被减小32倍。

6.根据权利要求5所述的一种结合人脸检测的人脸质量评估方法，其特征在于，输入的待检测图片依次经过conv1、pool1、conv2、pool2后进行特征提取；所述conv1的k=7、c=24、s=4，pool1的k=3、s=4，所述conv2的k=5、c=64、s=2，所述pool2的k=3、s=2。

7.根据权利要求1所述的一种结合人脸检测的人脸质量评估方法，其特征在于，待检测图片依次经过inception1、inception2、inception3丰富感受野，然后依次进入conv3_1、conv3_2、conv4_1、conv4_2提取不同尺度的特征并进行多尺度特征融合，分别从inception3、Conv3_2和Conv4_2中提取三种不同尺度的特征。

8.根据权利要求7所述的一种结合人脸检测的人脸质量评估方法，其特征在于，所述inception3中先验框大小设置为32x32、64x64、128x128；所述Conv3_2中先验框大小设置为256x256；所述Conv4_2中先验框大小设置为512x512；inception3的输出特征图大小为32*32，Conv3_2的输出特征图大小为16*16，Conv4_2输出特征图大小为8*8。

9.根据权利要求7所述的一种结合人脸检测的人脸质量评估方法，其特征在于，分别采用一个2分类SoftmaxLoss进行人脸和非人脸分类，一个SoothL1Loss进行人脸框坐标的回归，和一个9分类的SoftmaxLoss进行人脸质量分类；得到三种不同尺度进行特征融合之后，利用卷积层分别为三个任务进行多任务训练，对每一个任务进行权重分配，损失值的比例为2:1:1。

10.根据权利要求1所述的一种结合人脸检测的人脸质量评估方法，其特征在于，质量分类一共分为9类，按照质量顺序依次分别为标准人脸、小幅度侧脸、微小表情、轻微模糊、夸张表情、大幅度侧脸、中度模糊、重度模糊、遮挡。