CN112633084A

CN112633084A - 人脸框确定方法、装置、终端设备及存储介质

Info

Publication number: CN112633084A
Application number: CN202011419095.2A
Authority: CN
Inventors: 李禹源; 胡文泽
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-04-09

Abstract

本申请适用于图像处理技术领域，提供了人脸框确定方法、装置、终端设备及存储介质，包括：对待测图片进行人脸检测，确定初始的人脸框；根据所述初始的人脸框，确定所述待测图片中的待测人脸区域图像；通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息；其中，所述训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型；根据所述人脸关键点信息，确定所述待测图片中的目标人脸框；所述目标人脸框为所述初始的人脸框对应的矫正后的人脸框。本申请实施例能够准确地确定图片中的人脸框。

Description

人脸框确定方法、装置、终端设备及存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种人脸框确定方法、装置、终端设备及存储介质。

背景技术

在现有的人脸检测技术中，通常是通过人脸检测器定位出图片中的人脸框，之后提取图片中该人脸框包含的图像信息进行人脸识别、活体检测、属性识别等后续操作，从而实现人脸检测的各种应用。

然而，由于现实中复杂场景的影响，现有的人脸检测器定位的人脸框通常不够准确，从而影响了后续人脸检测应用的准确性。

发明内容

有鉴于此，本申请实施例提供了人脸框确定方法、装置、终端设备及存储介质，以解决现有技术中如何准确地确定图片中的人脸框的问题。

本申请实施例的第一方面提供了一种人脸框确定方法，包括：

对待测图片进行人脸检测，确定初始的人脸框；

根据所述初始的人脸框，确定所述待测图片中的待测人脸区域图像；

通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息；其中，所述训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型；

根据所述人脸关键点信息，确定所述待测图片中的目标人脸框；所述目标人脸框为所述初始的人脸框对应的矫正后的人脸框。

本申请实施例的第二方面提供了一种人脸框确定装置，包括：

人脸检测单元，用于对待测图片进行人脸检测，确定初始的人脸框；

待测人脸区域图像确定单元，用于根据所述初始的人脸框，确定所述待测图片中的待测人脸区域图像；

人脸关键点检测单元，用于通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息；其中，所述训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型；

目标人脸框确定单元，用于根据所述人脸关键点信息，确定所述待测图片中的目标人脸框；所述目标人脸框为所述初始的人脸框对应的矫正后的人脸框。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，使得终端设备实现如所述人脸框确定方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得终端设备实现如所述人脸框确定方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行如第一方面中所述的人脸框确定方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例中，在对待测图片进行人脸检测得到初始的人脸框，并确定待测人脸区域图像后，进一步通过训练后的人脸关键点检测模型对该待测人脸区域图像进行处理，确定待测图片的人脸关键点信息，之后再基于该人脸关键点信息确定矫正后的人脸框——即目标人脸框。由于人脸关键点信息受复杂场景的光照影响、清晰度等因素的影响较少，因此在通过人脸检测确定初始的人脸框后进一步根据人脸关键点信息来确定目标人脸框，能够提高人脸框确定的准确性。并且，由于用于确定人脸关键点信息的训练后的人脸关键点检测模型，具体是结合人脸姿态角信息训练得到的神经网络模型，使得对于任意人脸姿态的待测人脸区域图像均能够准确地确定对应的人脸关键点信息，即通过该训练后的人脸关键点检测模型能够准确地确定待测图片的人脸关键点信息，从而进一步提高人脸框确定的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种人脸框确定方法的实现流程示意图；

图2是本申请实施例提供的一种人脸关键点的示意图；

图3是本申请实施例提供的一种人脸框确定装置的示意图；

图4是本申请实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

在现有的人脸检测技术中，人脸检测器通常作为一个基础模块，与后续的活体检测、属性识别、人脸识别模块等共同实现完整的应用功能。通常，人脸检测器的作用是定位出图片中的人脸框，使得后续模块可以根据该人脸框包含的图像信息进行进一步的识别比对操作。因此，人脸框的准确定位是保证人脸检测应用功能执行效果的重要前提。然而，由于复杂场景的影响，现有的人脸检测器检测出的人脸框通常不够准确，从而影响了人脸检测应用的效果。为了解决该技术问题，本申请实施例提供了一种人脸框确定方法、装置、终端设备及存储介质，在对待测图片进行人脸检测得到初始的人脸框，并确定待测人脸区域图像后，进一步通过训练后的人脸关键点检测模型对该待测人脸区域图像进行处理，确定待测图片的人脸关键点信息，之后再基于该人脸关键点信息确定矫正后的人脸框——即目标人脸框。由于人脸关键点信息受复杂场景的光照影响、清晰度等因素的影响较少，因此在通过人脸检测确定初始的人脸框后进一步根据人脸关键点信息来确定目标人脸框，能够提高人脸框确定的准确性。并且，由于用于确定人脸关键点信息的训练后的人脸关键点检测模型，具体是结合人脸姿态角信息训练得到的神经网络模型，使得对于任意人脸姿态的待测人脸区域图像均能够准确地确定对应的人脸关键点信息，即通过该训练后的人脸关键点检测模型能够准确地确定待测图片的人脸关键点信息，从而进一步提高人脸框确定的准确性。

实施例一：

图1示出了本申请实施例提供的一种人脸框确定方法的流程示意图，该人脸框确定方法的执行主体为终端设备，详述如下：

在S101中，对待测图片进行人脸检测，确定初始的人脸框。

本申请实施例中的待测图片可以为从终端设备的存储单元读取的图片，也可以为摄像单元当前拍摄得到的图片，还可以为从视频数据中获取到的视频帧图片。

在获取待测图片后，对待测图片进行人脸检测，得到初始的人脸框。具体地，可以通过任意一种人脸检测器对待测图片进行人脸检测，例如该人脸检测器可以为基于yolov3(You Only Look Once，一种目标检测算法)训练得到的人脸检测器。在人脸检测器对待测图片进行人脸检测后，若检测到待测图片中存在人脸图像，则输出人脸框来定位待测图片中的该人脸图像，为了以示区别，将该人脸框称为初始的人脸框。具体地，人脸检测器输出的可以为初始的人脸框的左上角点坐标(x_min，y_min)及右下角点坐标(x_max，y_max)，通过这两个点的坐标即可以表示初始的人脸框的位置信息。

在S102中，根据所述初始的人脸框，确定所述待测图片中的待测人脸区域图像。

在确定了初始的人脸框之后，将待测图片中位于该初始的人脸框内的图像确定为待测人脸区域图像。进一步地，为了保证待测人脸区域图像完整地包含待测图片中实际的人脸图像，可以将初始的人脸框进行外扩，将外扩后的区域所包含的图像确定为待测人脸区域图像。示例性地，可以将人脸框的宽、高各向外扩大预设长度，该预设长度等于其对应的边长乘以预设比例(例如20％)。

在S103中，通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息；其中，所述训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型。

在确定待测人脸区域图像后，将该待测人脸区域图像输入训练后的人脸关键点检测模型进行处理，提取得到该待测人脸区域图像的人脸关键点信息。示例性地，该人脸关键点信息可以为如图2所示的68个人脸关键点的信息。其中，该训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型，具体为以不同人脸姿态的人脸样本图像作为训练样本训练得到的、用于进行人脸关键点检测的神经网络模型，从而使得该训练后的人脸关键点检测模型可以对任意人脸姿态的人脸图像进行准确地人脸关键点信息检测。

在S104中，根据所述人脸关键点信息，确定所述待测图片中的目标人脸框；所述目标人脸框为所述初始的人脸框对应的矫正后的人脸框。

在确定了人脸关键点信息后，根据该人脸关键点信息来确定待测图片中的目标人脸框。例如可以从人脸关键点信息中确定各个人脸关键点中的最小水平坐标x’_min、最大水平坐标x’_max、最小竖直坐标y’_min、最大数值坐标y’_max，并以点(x’_min，y’_min)为目标人脸框的左上角点，以点(x’_max，y’_max)作为目标人脸框的右下角点，从而定位出待测图片中的目标人脸框。该目标人脸框为基于初始的人脸框确定人脸关键点信息后，进一步确定的能够更准确地框住待测图片中的人脸图像的人脸框，即该目标人脸框为初始的人脸框对应的矫正后的人脸框。

本申请实施例中，在对待测图片进行人脸检测得到初始的人脸框，并确定待测人脸区域图像后，进一步通过训练后的人脸关键点检测模型对该待测人脸区域图像进行处理，确定待测图片的人脸关键点信息，之后再基于该人脸关键点信息确定矫正后的人脸框——即目标人脸框。由于人脸关键点信息受复杂场景的光照影响、清晰度等因素的影响较少，因此在通过人脸检测确定初始的人脸框后进一步根据人脸关键点信息来确定目标人脸框，能够提高人脸框确定的准确性。并且，由于确定人脸关键点信息的训练后的人脸关键点检测模型，具体是结合人脸姿态角信息训练得到的神经网络模型，使得对于任意人脸姿态的待测人脸区域图像均能够准确地确定对应的人脸关键点信息，即通过该训练后的人脸关键点检测模型能够准确地确定待测图片的人脸关键点信息，从而进一步提高人脸框确定的准确性。

可选地，在步骤S103之前，还包括：

A1：获取第一预设数量的人脸样本图像，其中，每个人脸样本图像均携带人脸关键点信息标签，且所述预设数量的人脸样本图像中存在不同人脸姿态的人脸样本图像；

A2：通过预训练的人脸姿态角预测模型分别对各个所述人脸样本图像进行处理，确定各个所述人脸样本图像对应的人脸姿态角信息；

A3：将预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型。

本申请实施例中，人脸关键点检测模型具体是通过上述的步骤A1至步骤A3训练得到的。

在步骤A1中，获取第一预设数量的人脸样本图像，其中每个人脸样本图像都携带了提前标好的人脸关键点信息标签，例如，若人脸关键点检测模型的训练目标为识别出如图2所示的68个关键点，则每个人脸样本图像均提前标注好68个关键点的位置信息作为其人脸关键点信息标签。本申请实施例的人脸样本图像为多个，即为第一预设数量个，该第一预设数量可以根据训练时所需的批次大小所确定。其中，该多个人脸样本图像中，存在着不同人脸姿态的人脸样本图像，即，该第一预设数量的人脸样本图像中存在着正脸图像，侧脸图像，仰脸图像、俯视图像等各种人脸姿态的人脸图像。

在步骤A2中，本申请实施例中，训练人脸关键点检测模型所需的人脸姿态角信息具体是通过预训练的人脸姿态角预测模型来获取的。该预训练的人脸姿态角预测模型为提前训练到的能够准确确定人脸图像的人脸姿态角信息的神经网络模型。进一步地，该预训练的人脸姿态角预测模型具体可以为基于三维可变形人脸模型(3D Morphable models，3DMM)原理，训练得到的三维稠密三维模型(3D Dense Face Alignment，3DDFA)。具体地，3DDFA可以预测人脸的三维信息，将二维人脸图像拟合为三维人脸模型，并基于该三维信息输出人脸的人脸姿态角信息。该人脸姿态角信息可以包括俯视角(pitch)、偏航角(yaw)、翻滚角(roll)这三个角度。将步骤A1中的各个人脸样本图像分别输入该预训练的人脸姿态角预测模型进行处理，即可分别确定各个人脸样本图像对应的人脸姿态角信息。

在步骤A3中，分别将步骤A2确定的人脸姿态角信息标注在对应的已携带了人脸关键点信息标签的人脸样本图像上，即可得到第一预设数量的既携带了人脸关键点信息标签，又携带人脸姿态角信息的人脸样本图像。将该第一预设数量的人脸样本图像输入待训练的人脸关键检测模型进行训练，得到训练后的人脸关键点检测模型。

可选地，本申请实施例中，步骤A1中的人脸样本图像可以为获取样本图片后，通过人脸检测器对样本图片进行人脸检测后确定的初始的人脸框区域内的图像，为了以示区别，将步骤A1及步骤A2中的该人脸样本图像称为第一人脸样本图像。对应地，由于人脸检测器检测出的人脸样本图像未必能完整地包含一整个人脸图像，因此步骤A3中的人脸样本图像具体为将第一人脸样本图像进行外扩后得到的第二人脸样本图像。

本申请实施例中，由于能够通过预训练的人脸姿态角预测模型准确地获取人脸样本图像的人脸姿态角信息，得到携带人脸关键点标签及人脸姿态角信息的人脸样本图像并输入人脸关键点检测模型进行训练，从而能够结合人脸姿态角信息训练出对人脸姿态角度变化更加鲁棒、能够准确检测各种人脸姿态的人脸图像的训练后的人脸关键点检测模型。

可选地，所述将第一预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型，包括：

将第一预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型，并基于预设损失函数对所述待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型；其中，所述预设损失函数的值根据人脸样本图像的关键点预测误差确定，且所述人脸样本图像的关键点预测误差在所述预设损失函数中对应的权值根据所述人脸样本图像的人脸姿态角信息确定。

本申请实施例中，在对待训练的人脸关键点检测模型进行训练时，具体是基于与人脸姿态角信息相关的预设损失函数来进行梯度的反向传播，调整人脸关键点检测模型的网络参数，从而得到待训练的人脸关键点检测模型的。具体地，该预设损失函数的值根据人脸样本图像的关键点预测误差确定，该关键点预测误差指的是预测的人脸关键点信息(即人脸关键点检测模型输出的人脸关键点信息)与真实的人脸关键点信息(即人脸样本图像提前标注的人脸关键点信息标签)之间的误差。并且，每个人脸样本图像对应的关键点预测误差在预设损失函数中对应的权值，即对该预设损失函数的值的影响大小，具体根据该人脸图像的人脸姿态角信息确定。具体地，考虑到通常第一预设数量的人脸样本图像中，样本量较大的为人脸姿态角较小的人脸图像(例如正脸图像)，样本量较小的为人脸姿态角较大的人脸图像，因此，对于各个人脸样本图像来说，若根据该人脸样本图像的姿态角信息确定该人脸样本图像的姿态角较大时，则该人脸样本图像对应的关键点预测误差在预设损失函数中对应的权值较大；若根据该人脸样本图像的姿态角信息确定该人脸样本图像的姿态角较小时，则该人脸样本图像对应的关键点预测误差在预设损失函数中对应的权值越小。通过该预设损失函数的权值设置，使得在人脸关键点检测模型根据预设损失函数进行梯度反向传播，调整网络参数时，属于样本数据量较大的类型(即人脸姿态角较小)的每个人脸样本图像对模型训练的贡献小一些，属于样本数据量较小的类型(即人脸姿态角较大)的每个人脸样本图像对模型训练的贡献大一些，从而能够平衡各种人脸姿态角类型的人脸样本图像对人脸关键点检测模型的训练的影响，使得最终训练出的人脸关键点检测模型能够准确地对任意人脸姿态角的人脸图像进行人脸关键点检测。

示例性地，该预设损失函数的表达式如下：

其中，l表示关键点预测误差，例如可以为预测的人脸关键点信息与真实的人脸关键点信息的平均绝对误差(L1 loss)或者均方误差(L2 loss)。

表示权值，其中，K＝3，当k＝1时，θ_k为人脸俯仰角；当k＝2时，θ_k为人脸翻滚角，当k＝3时，θ_k为人脸偏航角。当人脸姿态角越大，cosθ_k越小，

越大，即权值越大，反之，权值越小。

本申请实施例中，由于预设损失函数中对不同人脸姿态角信息的人脸样本图像设置不同的权值，使得基于该预设损失函数训练得到的人脸关键点检测模型能够更准确地对任意人脸姿态角的人脸图像进行人脸关键点检测。

可选地，上述的步骤S104，包括：

根据所述人脸关键点信息，确定第二预设数量的目标关键点；

根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息。

本申请实施例中，在确定了人脸关键点信息后，例如图2所示的68个人脸关键点后，可以从中确定第二预设数量的目标关键点，并根据这第二预设数量的目标关键点的坐标值，定位待测图片中的目标人脸框的位置信息。可选地，该第二预设数量的目标关键点可以为指定的五官关键点和/或指定的人脸轮廓关键点。

本申请实施例中，由于在确定人脸关键点信息后，无需基于全部的人脸关键点来来确定最终的目标人脸框，而只需根据其中选取的第二预设数量的目标关键点来定位目标人脸框的位置信息，因此能够减少目标人脸框定位的计算量，提高目标人脸框定位效率。

可选地，所述第二预设数量的目标关键点包括第三预设数量的左脸边缘区域关键点以及第四预设数量的右脸边缘区域关键点，所述目标人脸框的位置信息包括所述目标人脸框的水平位置信息，所述根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息，包括：

根据所述第三预设数量的左脸边缘区域关键点的坐标值，定位所述目标人脸框的第一水平坐标；

根据所述第四预设数量的右脸边缘区域关键点的坐标值，定位所述目标人脸框的第二水平坐标；

根据所述第一水平坐标及所述第二水平坐标，定位所述目标人脸框的水平位置信息。

本申请实施例中，上述的目标人脸框的位置信息包括目标人脸框的水平位置信息。上述的第二预设数量的目标关键点可以包括第三预设数量的左脸边缘区域关键点，例如图2所示的1～5号共5个关键点；以及包括第四预设数量的右脸边缘区域关键点，例如图2所示的13～17号共5个关键点。

根据第三预设数量的左脸边缘区域关键点的坐标值，取其中值最小的水平坐标值作为目标人脸框的第一水平坐标，即目标人脸框左边框的水平坐标。

根据第四预设数量的右脸边缘区域关键点的坐标值，取其中值最大的水平坐标值作为目标人脸框的第二水平坐标，即目标人脸框坐标框右边框的水平坐标。

通过上述的第一水平坐标和第二水平坐标，即可定位目标人脸框的左右边缘位置，从而定位目标人脸框的水平位置信息。

本申请实施例中，由于通常来说，人脸水平位置上的左脸边缘区域和右脸边缘区域能够被人脸关键点检测模型检测到，因此能够根据左、右边缘区域关键点准确地定目标人脸框的水平位置信息。

可选地，第二预设数量的目标关键点包括眉毛关键点及眼睛关键点，所述目标人脸框的位置信息包括所述目标人脸框的竖直位置信息，对应地，所述根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息，包括：

根据所述眉毛关键点与所述眼睛关键点的竖直距离，以及所述眉毛关键点的竖直坐标值或者所述眼睛关键点的竖直坐标值，定位所述目标人脸框的竖直位置信息。

通常，在进行人脸关键点检测时，能够识别出人脸左右轮廓上的关键点，即上述的左脸边缘区域关键点、右脸边缘区域关键点，而对于人脸的上下轮廓上的关键点，并不能准确地被识别到。因此，本申请实施例具体通过人脸五官关键点中的眉毛关键点与眼睛关键点来确定目标人脸框的竖直位置信息。

具体地，本申请实施例通过眉毛关键点与眼睛关键点来确定目标人脸框的第一竖直位置信息，即上边框的位置信息。通常，在人脸关键点检测时，检测到的最上方(即竖直坐标值最小)的关键点通常为眉毛关键点。本申请实施例中不直接以眉毛关键点的位置来作为上边框的位置，而是进一步结合眼睛关键点的位置来确定一个能够框住眉毛关键点之上的额头的目标人脸框。具体地，先确定眉毛关键点与眼睛关键点的竖直距离，并将该竖直距离乘以第一预设倍数(例如1或者2)得到第一差值。之后将眉毛关键点的竖直坐标或者眼睛关键点的竖直坐标减去该第一差值后得到的值作为目标人脸框的上边框的竖直坐标，从而得到目标人脸框的第一竖直位置信息。示例性地，当第一预设倍数为1时，具体为将眉毛关键点的数值坐标减去该第一差值得到目标人脸框的上边框的竖直坐标；当第一预设倍数为2时，具体为将眼睛关键点的数值坐标减去该第一差值得到目标人脸框的上边框的竖直坐标。

可选地，通过求取所有眼睛关键点(如图2所示的37～48号关键点)的竖直坐标的平均值(简称为第一竖直坐标平均值)，以及所有眉毛关键点(如图2所示的18～27号关键点)的竖直坐标的平均值(简称为第二竖直坐标平均值)后，将该第一竖直坐标平均值减去该第二竖直坐标平均值得到的值即为上述的眉毛关键点与眼睛关键点的竖直距离。可选地，还可以通过选择眼睛关键点中的任意一个关键点作为目标眼睛关键点，以及选取眉毛关键点中的任意一个关键点作为目标眉毛关键点，将该目标眼睛关键点的竖直坐标减去该目标眉毛关键点的竖直坐标，即可得到上述的眉毛关键点与眼睛关键点的竖直距离。

可选地，还可以将上述的眉毛关键点与眼睛关键点的竖直距离乘以第二预设倍数(例如3、4、5等)得到第二差值，并将眉毛关键点的竖直坐标或者眼睛关键点的竖直坐标加上该第二差值，得到目标人脸框的下边框的竖直坐标，从而得到目标人脸框的第二竖直位置信息。

可选地，上述的根据所述眉毛关键点与所述眼睛关键点的竖直距离，以及所述眉毛关键点的竖直坐标值或者所述眼睛关键点的竖直坐标值，定位所述目标人脸框的竖直位置信息，包括：

获取左眉关键点与左眼关键点的竖直距离作为第一竖直距离；

将左眉关键点的竖直坐标减去第一竖直距离，得到第一待定竖直坐标；

获取右眉关键点与右眼关键点的竖直距离作为第二竖直距离；

将右眉关键点的数值坐标减去第二竖直距离，得到第二待定竖直坐标；

将第一待定竖直坐标及第二待定竖直坐标中的最小值作为目标人脸框的上边框的竖直坐标，定位目标人脸框的第一竖直位置信息。

本申请实施例中考虑到人脸在不同姿态下，成像出的人脸图像中的左眉与左眼的竖直距离、右眉与右眼的竖直距离这两个距离可能不一致，例如，当人脸向人的左肩膀倾斜时，上述的第一竖直距离小于第二竖直距离，当人脸向人的右肩膀倾斜时，上述的第二竖直距离小于第一竖直距离。因此具体根据左眉关键点及左眼关键点来求取第一竖直距离、确定第一待定竖直坐标；以及根据右眉关键点及右眼关键点来求取第二竖直距离、确定第二待定竖直坐标；之后将第一待定竖直坐标及第二待定竖直坐标中的最小值作为目标人脸框的上边框的竖直坐标，从而使得在人脸向左或者向右倾斜的任意姿态下，都能够尽量地让最终的目标人脸框的上边框尽快能足够地框住人脸的额头区域，从而进一步提高人脸框确定的准确性。可选地，上述的左眉关键点的竖直坐标可以为如图2所示的18～22号关键点的竖直坐标的平均值，也可以为18～22号关键点中选定的一个关键点(例如19号关键点)的竖直坐标；上述的左眼关键点的竖直坐标可以为如图2所示的37～42号关键点的竖直坐标的平均值，也可以为37～42号关键点中选定的一个关键点(例如37号关键点)的竖直坐标。同样地，上述的右眉关键点的竖直坐标可以为如图2所示的23～27号关键点的竖直坐标的平均值，也可以为23～27号关键点中选定的一个关键点(例如24号关键点)的竖直坐标；上述的右眼关键点的竖直坐标可以为如图2所示的43～48号关键点的竖直坐标的平均值，也可以为43～48号关键点中选定的一个关键点(例如43号关键点)的竖直坐标。

本申请实施例中，由于考虑到人脸上下边缘轮廓不明显，因此通过眉毛关键点与眼睛关键点的竖直距离，结合眉毛关键点或者眼睛关键点的竖直坐标，能够准确地定位目标人脸框的位置信息，从而提高人脸框确定的准确性。

可选地，所述第二预设数量的目标关键点包括鼻子关键点及嘴巴关键点，所述目标人脸框的位置信息包括所述目标人脸框的竖直位置信息，对应地，所述根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息，包括：

根据所述鼻子关键点与所述嘴巴关键点的竖直距离，以及所述鼻子关键点的竖直坐标值或者所述嘴巴关键点的竖直坐标值，定位所述目标人脸框的竖直位置信息。

本申请实施例中，还可以通过人脸五官关键点中的鼻子关键点与嘴巴关键点来确定目标人脸框的竖直位置信息。

具体地，本申请实施例通过鼻子关键点与嘴巴关键点来确定目标人脸框的第二竖直位置信息，即下边框的位置信息。具体地，先确定鼻子关键点与嘴巴关键点的竖直距离，并将该竖直距离乘以第三预设倍数得到第三差值(例如1、2)。之后将嘴巴关键点的竖直坐标或者鼻子关键点的竖直坐标加上该第三差值后得到的值作为目标人脸框的下边框的竖直坐标，从而得到目标人脸框的第二竖直位置信息。

可选地，通过求取所有嘴巴关键点(如图2所示的49～68号关键点)的竖直坐标的平均值(简称为第三竖直坐标平均值)，以及所有鼻子关键点(如图2所示的28～36号关键点)的竖直坐标的平均值(简称为第四竖直坐标平均值)后，将该第三竖直坐标平均值减去该第四竖直坐标平均值得到的值即为上述的鼻子关键点与嘴巴关键点的竖直距离；对应地，上述的嘴巴关键点的竖直坐标可以为上述的第三竖直坐标平均值，上述的鼻子关键点的竖直坐标可以为上述的第四竖直坐标平均值。可选地，还可以通过选择嘴巴关键点中的任意一个关键点作为目标嘴巴关键点(例如图2中的61号关键点、66号关键点)，以及选取鼻子关键点中的任意一个关键点作为目标鼻子关键点(例如图2中的28号关键点、31号关键点)，将该目标嘴巴关键点的竖直坐标减去该目标鼻子关键点的竖直坐标，即可得到上述的鼻子关键点与嘴巴关键点的竖直距离；对应地，上述的嘴巴关键点的竖直坐标为该目标嘴巴关键点的竖直坐标，上述的鼻子关键点的竖直坐标为目标鼻子关键点的竖直坐标。

可选地，上述的根据所述鼻子关键点与所述嘴巴关键点的竖直距离，以及所述鼻子关键点的竖直坐标值或者所述嘴巴关键点的竖直坐标值，定位所述目标人脸框的竖直位置信息，包括：

获取鼻尖关键点与嘴巴关键点的竖直距离作为第三竖直距离；

将嘴巴关键点的竖直坐标加上第三直距离，得到第三待定竖直坐标；

获取鼻梁关键点与嘴巴关键点的竖直距离作为第四竖直距离；

将嘴巴关键点的竖直坐标加上第四竖直距离，得到第四待定竖直坐标；

将第三待定竖直坐标及第四待定竖直坐标中的最大值作为目标人脸框的下边框的竖直坐标，定位目标人脸框的第二竖直位置信息。

本申请实施例中，考虑到人脸在不同姿态下，成像出的不同的鼻子关键点与嘴巴关键点的距离可能存在变化，例如，当人脸为低头姿态时，鼻尖关键点(例如图2中的30号关键点或者31号关键点)与嘴巴关键点(例如图2中61号关键点)的竖直距离会变短，当人脸为抬头姿态时，鼻梁关键点(例如图中的关键点28)与嘴巴关键点(例如图2中66号关键点)的竖直距离会变短。因此，具体根据鼻尖关键点与嘴巴关键点来求取第三竖直距离、确定第三待定竖直坐标；以及根据鼻梁关键点与嘴巴关键点来求取第四竖直距离，确定第四待定竖直坐标。之后将第三待定竖直坐标及第四待定竖直坐标值中的最大值作为目标人脸框的下边框的竖直坐标，从而使得在人脸低头或者抬头的任意姿态下，都能够尽量地让最终的目标人脸框的下边框尽快能足够地框住人脸图像区域，从而进一步提高人脸框确定的准确性。

本申请实施例中，由于考虑到人脸下边缘轮廓不明显，因此通过鼻子关键点与嘴巴关键点的竖直距离，结合鼻子关键点的竖直坐标或者嘴巴关键点的竖直坐标，能够准确地定位目标人脸框的位置信息，从而提高人脸框确定的准确性。

实施例二：

图3示出了本申请实施例提供的一种人脸框确定装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分：

该人脸框确定装置包括：人脸检测单元31、待测人脸区域图像确定单元32、人脸关键点检测单元33、目标人脸框确定单元34。其中：

人脸检测单元31，用于对待测图片进行人脸检测，确定初始的人脸框。

待测人脸区域图像确定单元32，用于根据所述初始的人脸框，确定所述待测图片中的待测人脸区域图像。

人脸关键点检测单元33，用于通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息；其中，所述训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型。

目标人脸框确定单元34，用于根据所述人脸关键点信息，确定所述待测图片中的目标人脸框；所述目标人脸框为所述初始的人脸框对应的矫正后的人脸框。

可选地，所述人脸框确定装置还包括训练单元，该训练单元包括人脸样本图像获取模块、人脸姿态角信息提取模块及训练模块：

人脸样本图像获取模块，用于获取第一预设数量的人脸样本图像，其中，每个人脸样本图像均携带人脸关键点信息标签，且所述预设数量的人脸样本图像中存在不同人脸姿态的人脸样本图像；

人脸姿态角信息提取模块，用于通过预训练的人脸姿态角预测模型分别对各个所述人脸样本图像进行处理，确定各个所述人脸样本图像对应的人脸姿态角信息；

训练模块，用于将第一预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型。

可选地，所述训练模块，具体用于将第一预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型，并基于预设损失函数对所述待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型；其中，所述预设损失函数的值根据人脸样本图像的关键点预测误差确定，且所述人脸样本图像的关键点预测误差在所述预设损失函数中对应的权值根据所述人脸样本图像的人脸姿态角信息确定。

可选地，所述目标人脸框确定单元34，具体包括目标关键点确定模块及定位模块：

目标关键点确定模块，用于根据所述人脸关键点信息，确定第二预设数量的目标关键点；

定位模块，用于根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息。

可选地，所述第二预设数量的目标关键点包括第三预设数量的左脸边缘区域关键点以及第四预设数量的右脸边缘区域关键点，所述目标人脸框的位置信息包括所述目标人脸框的水平位置信息；

对应地，所述定位模块，具体用于根据所述第三预设数量的左脸边缘区域关键点的坐标值，定位所述目标人脸框的第一水平坐标；根据所述第四预设数量的右脸边缘区域关键点的坐标值，定位所述目标人脸框的第二水平坐标；根据所述第一水平坐标及所述第二水平坐标，定位所述目标人脸框的水平位置信息。

可选地，所述第二预设数量的目标关键点包括眉毛关键点及眼睛关键点，所述目标人脸框的位置信息包括所述目标人脸框的竖直位置信息；

对应地，所述定位模块，具体用于根据所述眉毛关键点与所述眼睛关键点的竖直距离，以及所述眉毛关键点的竖直坐标值或者所述眼睛关键点的竖直坐标值，定位所述目标人脸框的竖直位置信息。

可选地，所述第二预设数量的目标关键点包括鼻子关键点及嘴巴关键点，所述目标人脸框的位置信息包括所述目标人脸框的竖直位置信息；

对应地，所述定位模块，具体用于根据所述鼻子关键点与所述嘴巴关键点的竖直距离，以及所述鼻子关键点的竖直坐标值或者所述嘴巴关键点的竖直坐标值，定位所述目标人脸框的竖直位置信息。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施例三：

图4是本申请一实施例提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42，例如人脸框确定程序。所述处理器40执行所述计算机程序42时实现上述各个人脸框确定方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示单元31至34的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。例如，所述计算机程序42可以被分割成人脸检测单元、待测人脸区域图像确定单元、人脸关键点检测单元、目标人脸框确定单元，各单元具体功能如下：

人脸检测单元，用于对待测图片进行人脸检测，确定初始的人脸框。

待测人脸区域图像确定单元，用于根据所述初始的人脸框，确定所述待测图片中的待测人脸区域图像。

人脸关键点检测单元，用于通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息；其中，所述训练后的人脸关键点检测模型为结合人脸姿态角信息训练得到的神经网络模型。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种人脸框确定方法，其特征在于，包括：

对待测图片进行人脸检测，确定初始的人脸框；

2.如权利要求1所述的人脸框确定方法，其特征在于，在所述通过训练后的人脸关键点检测模型对所述待测人脸区域图像进行处理，得到人脸关键点信息之前，还包括：

获取第一预设数量的人脸样本图像，其中，每个人脸样本图像均携带人脸关键点信息标签，且所述预设数量的人脸样本图像中存在不同人脸姿态的人脸样本图像；

通过预训练的人脸姿态角预测模型分别对各个所述人脸样本图像进行处理，确定各个所述人脸样本图像对应的人脸姿态角信息；

将第一预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型。

3.如权利要求2所述的人脸框确定方法，其特征在于，所述将第一预设数量的携带各自的人脸关键点信息标签及人脸姿态角信息的人脸样本图像输入待训练的人脸关键点检测模型进行训练，得到训练后的人脸关键点检测模型，包括：

4.如权利要求1所述的人脸框确定方法，其特征在于，所述根据所述人脸关键点信息，确定所述待测图片中的目标人脸框，包括：

5.如权利要求4所述的人脸框确定方法，其特征在于，所述第二预设数量的目标关键点包括第三预设数量的左脸边缘区域关键点以及第四预设数量的右脸边缘区域关键点，所述目标人脸框的位置信息包括所述目标人脸框的水平位置信息，所述根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息，包括：

6.如权利要求4所述的人脸框确定方法，其特征在于，所述第二预设数量的目标关键点包括眉毛关键点及眼睛关键点，所述目标人脸框的位置信息包括所述目标人脸框的竖直位置信息，对应地，所述根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息，包括：

7.如权利要求4所述的人脸框确定方法，其特征在于，所述第二预设数量的目标关键点包括鼻子关键点及嘴巴关键点，所述目标人脸框的位置信息包括所述目标人脸框的竖直位置信息，对应地，所述根据所述第二预设数量的目标关键点的坐标值，定位所述待测图片中的目标人脸框的位置信息，包括：

8.一种人脸框确定装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，使得终端设备实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，使得终端设备实现如权利要求1至7任一项所述方法的步骤。