CN112084992B

CN112084992B - 一种人脸关键点检测模块中人脸框选取方法

Info

Publication number: CN112084992B
Application number: CN202010987766.9A
Authority: CN
Inventors: 李晋军; 瞿洪桂; 孙家乐; 高云丽
Original assignee: Beijing Sinonet Science and Technology Co Ltd
Current assignee: Beijing Sinonet Science and Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-04-13
Anticipated expiration: 2040-09-18
Also published as: CN112084992A

Abstract

本发明涉及人脸关键点检测领域，公开了一种人脸关键点检测模块中人脸框选取方法，包括获取人脸检测模型以及关键点模型；根据人脸检测模型获得的N张图片的人脸框坐标和N张图片的真实人脸框坐标获得人脸框坐标伸缩比例；利用人脸框坐标伸缩比例对已训练好的人脸检测模型输出的测试数据集中每张图片的人脸框坐标进行优化，获得测试数据集中每张图片优化后的人脸框坐标；将优化后的人脸框坐标进行坐标转换，获得新的人脸框坐标，根据新的人脸框坐标从原图片裁剪出人脸框，将裁剪的人脸框输入已训练好的关键点模型，获得关键点坐标。本发明能够有效解决人脸检测和关键点检测模块中因人脸框选取标准不一致而产生的关键点精度下降的问题。

Description

一种人脸关键点检测模块中人脸框选取方法

技术领域

本发明涉及人脸关键点检测领域，具体地涉及一种人脸关键点检测模块中人脸框选取方法。

背景技术

人脸关键点检测是人脸识别和分析领域中的关键一步，是自动人脸识别、表情分析、三维人脸重建及三维动画以及其它人脸相关问题的前提和突破口。而在人脸识别系统中，人脸检测和人脸关键点检测属于级联系统，即人脸关键点检测需要使用人脸检测模块输出的人脸框。在人脸检测模块使用的人脸框一般只包含人脸即可，大部分情况下不能保证人脸脸颊关键点在人脸框中，而在关键点模块中需要保证人脸关键点全部包含在在人脸框内，这样才能够保证关键点检测的准确性。两种人脸框选取策略存在差异，从而造成因人脸框选取标准不一致而产生的关键点精度下降的问题。在现有人脸识别系统中，较少关注由于人脸检测器提供的人脸框和人脸关键点所需人脸框不一致所造成的精度损失，但是其精度会直接影响后续特征提取，表情识别等人脸识别技术的准确性。

发明内容

本发明提供一种人脸关键点检测模块中人脸框选取方法，从而解决现有技术的上述问题。

一种人脸关键点检测模块中人脸框选取方法，包括以下步骤：

S1)获取已训练好的人脸检测模型以及已训练好的关键点模型；

S2)获取人脸关键点训练数据集,所述人脸关键点训练数据集包括训练集和测试数据集，所述训练集包括N张图片，利用已训练好的人脸检测模型获得训练集中N张图片的人脸框坐标，获取训练集中N张图片的真实人脸框坐标，根据所述N张图片的人脸框坐标和所述N张图片的真实人脸框坐标获得人脸框坐标伸缩比例；

S3)将所述测试数据集输入已训练好的人脸检测模型，所述测试数据集包括M张图片，利用人脸框坐标伸缩比例对已训练好的人脸检测模型输出的测试数据集中每张图片的人脸框坐标进行优化，获得测试数据集中每张图片优化后的人脸框坐标；

S4)将测试数据集中第i张图片优化后的人脸框坐标进行坐标转换，获得测试数据集中第i张图片的新的人脸框坐标，根据第i张图片的新的人脸框坐标从第i张图片中裁剪出人脸框，将裁剪的人脸框输入已训练好的关键点模型，获得关键点坐标，i＝1、2、…、M。

进一步的，步骤S2)中，利用已训练好的人脸检测模型获得训练集中N张图片的人脸框坐标，获取训练集中N张图片的真实人脸框坐标，根据所述N张图片的人脸框坐标和所述N张图片的真实人脸框坐标获得人脸框坐标伸缩比例，包括以下步骤：

S21)将N张图片分别输入至所述已训练好的人脸检测模型,所述已训练好的人脸检测模型输出训练集中N张图片的人脸框坐标，第j张图片的人脸框坐标为[det_x1^j，det_y1^j，det_x2^j，det_y2^j]，j＝1、2、…、N；

S22)获取训练集中N张图片的真实人脸框坐标，第j张图片的真实人脸框坐标为[gt_x1^j，gt_y1^j，gt_x2^j，gt_y2^j]；gt_x1^j和gt_x2^j分别取第j张图片的关键点坐标中的最小x坐标值和最大x坐标值，gt_y1^j和gt_y2^j分别取第j张图片的关键点坐标中的最小y坐标值和最大y坐标值；

S23)根据步骤S21)中N张图片的人脸框坐标分别计算N张图片的宽和高，第j张图片的宽w_j＝det_x2^j-det_x1^j，第j张图片的高h_j＝det_y2^j-det_y1^j；

S24)将步骤S23)中N张图片的宽进行求和后除以训练集的总样本数N，获得N张图片的平均宽度

将步骤S23)中N张图片的高进行求和后除以训练集的总样本数N，获得N张图片的平均高度

S25)根据训练集中N张图片的人脸框坐标和真实人脸框坐标获得N张图片的坐标差值，N张图片的坐标差值包括N张图片的第一x坐标差值、N张图片的第一y坐标差值、N张图片的第二x坐标差值、N张图片的第二y坐标差值；第j张图片的第一x坐标差值Δx1^j＝gt_x1^j-det_x1^j,第j张图片的第一y坐标差值Δy1^j＝gt_y1^j-det_y1^j，第j张图片的第二x坐标差值Δx2^j＝gt_x2^j-det_x2^j,第j张图片的第二y坐标差值Δy2^j＝gt_y2^j-det_y2^j；

S26)将N张图片的坐标差值分别求和后除以训练集的总样本数N，获得N张图片的平均坐标差值，N张图片的平均坐标差值包括第一x坐标平均差值

N张图片的第一y坐标平均差值

N张图片的第二x坐标平均差值

N张图片的第二y坐标平均差值

S27)将步骤S26)中N张图片的平均坐标差值分别除以步骤S24)中N张图片的平均宽度meanw和N张图片的平均高度meanh，获得人脸框坐标伸缩比例[px1，py1，px2，py2],第一x坐标伸缩比例

第一y坐标伸缩比例

第二x坐标伸缩比例

第二y坐标伸缩比例

进一步的，步骤S3)中，将所述测试数据集输入已训练好的人脸检测模型，利用人脸框坐标伸缩比例对已训练好的人脸检测模型输出的测试数据集中每张图片的人脸框坐标进行优化，获得测试数据集中每张图片优化后的人脸框坐标，包括以下步骤：

S31)将所述测试数据集输入已训练好的人脸检测模型，已训练好的人脸检测模型输出测试数据集中每张图片的人脸框坐标，第i张图片的人脸框坐标为[x1ⁱ,y1ⁱ,x2ⁱ,y2ⁱ]；

S32)将测试数据集中每张图片的人脸框坐标[x1ⁱ,y1ⁱ,x2ⁱ,y2ⁱ]与人脸框坐标伸缩比例[px1，py1，px2，py2]对应相乘，获得测试数据集中每张图片优化后的人脸框坐标,测试数据集中第i张图片优化后的人脸框坐标为[new_x1ⁱ,new_y1ⁱ,new_x2ⁱ,new_y2ⁱ]，优化后的人脸框第一x坐标值new_x1ⁱ＝x1ⁱ*(1+px1),优化后的人脸框第一y坐标值new_y1ⁱ＝y1ⁱ*(1+py1),优化后的人脸框第二x坐标值new_x2ⁱ＝x2ⁱ*(1+px2)，优化后的人脸框第二y坐标值new_y2ⁱ＝y2ⁱ*(1+py2)。

进一步的，步骤S4)中，将测试数据集中第i张图片优化后的人脸框坐标进行坐标转换，获得测试数据集中第i张图片的新的人脸框坐标，包括以下步骤：

S41)根据测试数据集中第i张图片优化后的人脸框坐标获得第i张图片优化后的人脸框的矩形区域宽W_i和矩形区域高H_i，W_i＝new_x2ⁱ-new_x1ⁱ，H_i＝new_y2ⁱ-new_y1ⁱ；

S42)获得第i张图片优化后的人脸框的矩形区域宽W_i和矩形区域高H_i中的最大值boxsizeⁱ＝max(W_i,H_i),将最大值boxsizeⁱ扩大k倍，获得第i张图片扩大k倍后的人脸框大小face_boxsizeⁱ＝boxsizeⁱ*k；

S43)获得第i张图片的新的人脸框坐标[fx1，fy1，fx2，fy2],第i张图片的新的人脸框第一x坐标值

第i张图片的新的人脸框第一y坐标值

第i张图片的新的人脸框第二x坐标值

第i张图片的新的人脸框第二y坐标值

进一步的，步骤S42)中，将最大值boxsizeⁱ扩大k倍，k＝1.2。

本发明的有益效果是：本发明在人脸关键点训练数据集上计算人脸检测模型输出的人脸框和符合关键点检测标准的人脸框(即真实人脸框)之间的差异，从而计算出人脸框坐标伸缩比例，并根据人脸框坐标伸缩比例计算获得优化后的人脸框坐标，再将优化后的人脸框坐标进行坐标转换后获得合适的新的人脸框坐标，本发明能够有效解决人脸检测和关键点检测模块中因人脸框选取标准不一致而产生的关键点精度下降的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一提供的人脸关键点检测模块中人脸框选取方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一，一种人脸关键点检测模块中人脸框选取方法，如图1所示，包括以下步骤：

步骤S1)之前还包括分别采集人脸检测图像训练集和关键点训练集，建立人脸检测模型和关键点模型，利用人脸检测图像训练集对人脸检测模型进行训练，获得已训练好的人脸检测模型。利用关键点训练集对关键点模型进行训练，获得已训练好的关键点模型。本实施例中，采用MobilenetV2作为主干网络，损失函数采用Wingloss，评测指标为ION，利用关键点训练集对关键点模型进行训练，关键点模型的输出为人脸的关键点。

S2)获取人脸关键点训练数据集,人脸关键点训练数据集采用人脸关键点数据集300WLP和人脸关键点数据集WFLW，人脸关键点训练数据集包括训练集和测试数据集，训练集包括N张图片，利用已训练好的人脸检测模型获得训练集中N张图片的人脸框坐标，获取训练集中N张图片的真实人脸框坐标，根据N张图片的人脸框坐标和N张图片的真实人脸框坐标获得人脸框坐标伸缩比例，包括以下步骤：

S21)将N张图片分别输入至已训练好的人脸检测模型,已训练好的人脸检测模型输出训练集中N张图片的人脸框坐标，第j张图片的人脸框坐标为[det_x1^j，det_y1^j，det_x2^j，det_y2^j]，j＝1、2、…、N；

S22)根据训练集标注信息获取训练集中N张图片的真实人脸框坐标，第j张图片的真实人脸框坐标为[gt_x1^j，gt_y1^j，gt_x2^j，gt_y2^j]；gt_x1^j和gt_x2^j分别取第j张图片的关键点坐标中的最小x坐标值和最大x坐标值，gt_y1^j和gt_y2^j分别取第j张图片的关键点坐标中的最小y坐标值和最大y坐标值；

N张图片的第一y坐标平均差值

N张图片的第二x坐标平均差值

N张图片的第二y坐标平均差值

第一y坐标伸缩比例

第二x坐标伸缩比例

第二y坐标伸缩比例

S3)将测试数据集输入已训练好的人脸检测模型，测试数据集包括M张图片，利用人脸框坐标伸缩比例对已训练好的人脸检测模型输出的测试数据集中每张图片的人脸框坐标进行优化，获得测试数据集中每张图片优化后的人脸框坐标，包括以下步骤：

步骤S4)中，将测试数据集中第i张图片优化后的人脸框坐标进行坐标转换，获得测试数据集中第i张图片的新的人脸框坐标，包括以下步骤：

S42)获得第i张图片优化后的人脸框的矩形区域宽W_i和矩形区域高H_i中的最大值boxsizeⁱ＝max(W_i,H_i),将最大值boxsizeⁱ扩大k倍，k＝1.2，获得第i张图片扩大k倍后的人脸框大小face_boxsizeⁱ＝boxsizeⁱ*k；

第i张图片的新的人脸框第一y坐标值

第i张图片的新的人脸框第二x坐标值

第i张图片的新的人脸框第二y坐标值

本实施例中，以人脸关键点数据集WFLW为例，使用人脸关键点数据集WFLW中的2500张图片作为测试数据集,使用关键点常用精度计算方式ION(Intersection OverUnion)作为评价指标，表一提供了在不同人脸框选取策略下的关键点精度对比效果，不同人脸框选取策略包括使用关键点最大最小值策略作为人脸框、直接使用WFLW标注人脸框、使用本发明计算人脸框。ION是关键点检测中常用的精度计算公式，ION主要描述关键点预测值与实际值之间的距离，ION值越小代表关键点模型精度越高，定位更准确。

表一不同人脸框选取策略下的关键点精度对比效果

表一

人脸框为正方形区域，人脸框的坐标为正方形区域左上角坐标(x1,y1)和右下角坐标(x2,y2)组成。

本实施例中，表一的序号1为关键点最大最小值选取策略：关键点坐标为(x,y)格式，选取x中最小值作为人脸框左上角x1值，y中最小值作为人脸框左上角y1值，x中最大值作为人脸框右下角x2值，y中最大值作为人脸框右下角y2值。则该矩形区域宽为w＝x2-x1，高为h＝y2-y1，取w和h中较大值boxsize＝max(w，h)，将较大值boxsize扩大1.2倍作为人脸框输入至关键点模型，序号1中采用关键点最大最小值选取策略获得的人脸框大小为boxsize*1.2，利用关键点最大最小值选取策略获得的关键点精度为5.589％。

序号2为直接使用人脸关键点数据集WFLW标注人脸框选取策略：人脸关键点数据集WFLW为人脸关键点检测所使用的主要数据集，人脸关键点数据集WFLW提供了人脸框标注信息,即gt_x1、gt_y1、gt_x2、gt_y2。人脸关键点数据集WFLW提供的人脸框标注信息相对于人脸检测器模型输出的人脸框更为准确。计算该矩形区域宽为w1＝gt_x2-gt_x1,高为h1＝gt_y2-gt_y1，取w1和h1中较大值gt_boxsize＝max(w1,h1)，将较大值gt_boxsize作为人脸框输入至关键点模型。序号2中直接使用人脸关键点数据集WFLW标注人脸框选取策略的人脸框大小为gt_boxsize，获得的关键点精度为7.26％。

序号3为本发明提出的人脸框选取策略，通过本发明获得的人脸框大小为boxsize*1.2，获得的关键点精度为6.54％。通过三种不同人脸框选取策略对比能够得出，在人脸检测器和人脸关键点级联系统中和关键点模型确定的情况下(序号1),如果不对人脸框的选取策略做调整(序号2)，关键点的精度将会有至少1.671％(7.26％-5.589％)的损失，因为人脸检测器输出的人脸框肯定不如标注数据准确。而使用本发明提出的方法(序号3)，能够有效解决人脸检测和关键点检测模块中因人脸框选取标准不一致而产生的关键点精度下降的问题，最终精度损失为6.54％-5.589％＝0.951％,相对于1.671％有了0.721％的提升。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明在人脸关键点训练数据集上计算人脸检测模型输出的人脸框和符合关键点检测标准的人脸框(即真实人脸框)之间的差异，从而计算出人脸框坐标伸缩比例，并根据人脸框坐标伸缩比例计算获得优化后的人脸框坐标，再将优化后的人脸框坐标进行坐标转换后获得合适的新的人脸框坐标，本发明能够有效解决人脸检测和关键点检测模块中因人脸框选取标准不一致而产生的关键点精度下降的问题。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种人脸关键点检测模块中人脸框选取方法，其特征在于，包括以下步骤：

S2)获取人脸关键点训练数据集，所述人脸关键点训练数据集包括训练集和测试数据集，所述训练集包括N张图片，利用已训练好的人脸检测模型获得训练集中N张图片的人脸框坐标，获取训练集中N张图片的真实人脸框坐标，根据所述N张图片的人脸框坐标和所述N张图片的真实人脸框坐标获得人脸框坐标伸缩比例，包括以下步骤：

S21)将N张图片分别输入至所述已训练好的人脸检测模型，所述已训练好的人脸检测模型输出训练集中N张图片的人脸框坐标，第j张图片的人脸框坐标为[det_x1^j，det_y1^j，det_x2^j，det_y2^j]，j＝1、2、...、N；

S25)根据训练集中N张图片的人脸框坐标和真实人脸框坐标获得N张图片的坐标差值，N张图片的坐标差值包括N张图片的第一x坐标差值、N张图片的第一y坐标差值、N张图片的第二x坐标差值、N张图片的第二y坐标差值；第j张图片的第一x坐标差值Δx1^j＝gt_x1^j-det_x1^j，第j张图片的第一y坐标差值Δy1^j＝gt_y1^j-det_y1^j，第j张图片的第二x坐标差值Δx2^j＝gt_x2^j-det_x2^j，第j张图片的第二y坐标差值Δy2^j＝gt_y2^j-det_y2^j；

N张图片的第一y坐标平均差值

N张图片的第二x坐标平均差值

N张图片的第二y坐标平均差值

S27)将步骤S26)中N张图片的平均坐标差值分别除以步骤S24)中N张图片的平均宽度meanw和N张图片的平均高度meanh，获得人脸框坐标伸缩比例[px1，py1，px2，py2]，第一x坐标伸缩比例

第一y坐标伸缩比例

第二x坐标伸缩比例

第二y坐标伸缩比例

S4)将测试数据集中第i张图片优化后的人脸框坐标进行坐标转换，获得测试数据集中第i张图片的新的人脸框坐标，根据第i张图片的新的人脸框坐标从第i张图片中裁剪出人脸框，将裁剪的人脸框输入已训练好的关键点模型，获得关键点坐标，i＝1、2、...、M。

2.根据权利要求1所述的人脸关键点检测模块中人脸框选取方法，其特征在于，步骤S3)中，将所述测试数据集输入已训练好的人脸检测模型，利用人脸框坐标伸缩比例对已训练好的人脸检测模型输出的测试数据集中每张图片的人脸框坐标进行优化，获得测试数据集中每张图片优化后的人脸框坐标，包括以下步骤：

S31)将所述测试数据集输入已训练好的人脸检测模型，已训练好的人脸检测模型输出测试数据集中每张图片的人脸框坐标，第i张图片的人脸框坐标为[x1ⁱ，y1ⁱ，x2ⁱ，y2ⁱ]；

S32)将测试数据集中每张图片的人脸框坐标[x1ⁱ，y1ⁱ，x2ⁱ，y2ⁱ]与人脸框坐标伸缩比例[px1，py1，px2，py2]对应相乘，获得测试数据集中每张图片优化后的人脸框坐标，测试数据集中第i张图片优化后的人脸框坐标为[new_x1ⁱ，new_y1ⁱ，new_x2ⁱ，new_y2ⁱ]，优化后的人脸框第一x坐标值new_x1ⁱ＝x1ⁱ*(1+px1)，优化后的人脸框第一y坐标值new_y1ⁱ＝y1ⁱ*(1+py1)，优化后的人脸框第二x坐标值new_x2ⁱ＝x2ⁱ*(1+px2)，优化后的人脸框第二y坐标值new_y2ⁱ＝y2ⁱ*(1+py2)。

3.根据权利要求2所述的人脸关键点检测模块中人脸框选取方法，其特征在于，步骤S4)中，将测试数据集中第i张图片优化后的人脸框坐标进行坐标转换，获得测试数据集中第i张图片的新的人脸框坐标，包括以下步骤：

S42)获得第i张图片优化后的人脸框的矩形区域宽W_i和矩形区域高H_i中的最大值boxsizeⁱ＝max(W_i，H_i)，将最大值boxsizeⁱ扩大k倍，获得第i张图片扩大k倍后的人脸框大小face_boxsizeⁱ＝boxsizeⁱ*k；

S43)获得第i张图片的新的人脸框坐标[fx1，fy1，fx2，fy2]，第i张图片的新的人脸框第一x坐标值

第i张图片的新的人脸框第一y坐标值

第i张图片的新的人脸框第二x坐标值

第i张图片的新的人脸框第二y坐标值

4.根据权利要求3所述的人脸关键点检测模块中人脸框选取方法，其特征在于，步骤S42)中，将最大值boxsizeⁱ扩大k倍，k＝1.2。