CN111985439A

CN111985439A - 人脸检测方法、装置、设备和存储介质

Info

Publication number: CN111985439A
Application number: CN202010897070.7A
Authority: CN
Inventors: 蔡少雄; 张文静; 浦贵阳
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-24

Abstract

本发明实施例涉及计算机视觉领域，公开了一种人脸检测方法、装置、电子设备和存储介质。人脸检测方法包括：对对输入图片进行预处理，获取预处理后的图片，其中，所述输入图片为标注有边框的图片，所述预处理包括灰度化，裁剪；对所述预处理后的图片进行卷积，获取特征金字塔，其中，所述特征金字塔包括根据所述卷积依次获取的所有特征图；根据所述特征金字塔中的每个特征对所述边框进行回归；根据所述回归结果对预先搭建的检测网络进行训练；根据训练好的检测网络获取测试图片的人脸检测结果。本发明能够对图片中的人脸进行检测，达到减少对资源的消耗的同时提升精度的目的。

Description

人脸检测方法、装置、设备和存储介质

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种人脸检测方法、装置、设备和存储介质。

背景技术

人脸检测中存在两个难点：人脸的内在变化和外在条件的变化。为了解决这两个难点，提出了许多有效的人脸检测网络，这些方法通过设置了大量预定义的锚框，调整锚框的参数来覆盖图像中所有位置所有大小的人脸，然后基于这些锚框来进行计算，获取训练数据，对网络进行训练，利用训练好的网络模型进行人脸检测。

然而，采用大量预定义的锚框，导致计算量大、需要设置的参数多，需要消耗较多资源才能保证较好的精度。

发明内容

本发明实施方式的目的在于提供一种人脸检测方法、装置、设备和存储介质，使得能够减少对资源的消耗的同时提升精度。

为解决上述技术问题，本发明的实施方式提供了一种人脸检测方法，包括以下步骤：对输入图片进行预处理，获取预处理后的图片，其中，所述输入图片为标注有边框的图片，所述预处理包括灰度化，裁剪；对所述预处理后的图片进行卷积，获取特征金字塔，其中，所述特征金字塔包括根据所述卷积依次获取的所有特征图；根据所述特征金字塔中的每个特征对所述边框进行回归；根据所述回归结果对预先搭建的检测网络进行训练；根据训练好的检测网络获取测试图片的人脸检测结果。

本发明的实施方式还提供了一种人脸检测装置，包括：训练模块，用于对输入图片进行预处理，获取预处理后的图片，其中，所述输入图片为标注有边框的图片，所述预处理包括灰度化，裁剪，对所述预处理后的图片进行卷积，获取特征金字塔，其中，所述特征金字塔包括根据所述卷积依次获取的所有特征图，根据所述特征金字塔中的每个特征对所述边框进行回归，根据所述回归结果对预先搭建的检测网络进行训练；检测分析模块，根据训练好的检测网络获取测试图片的人脸检测结果。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的人脸检测方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述的人脸检测方法。

本发明实施方式相对于现有技术而言，对输入图像进行预处理，便于后续步骤的进行，将预处理后的图片进行卷积，卷积的结果依次保留得到特征金字塔，既获取了浅层特征中的细节信息，又获取了深层信息中的语义信息，对特征金字塔中的每个特征进行边框的回归，避免了锚框的使用，避免使用锚框所带来的占用大量的计算及内存资源以及使用人力或其他方法调试模型的参数量，提高了运行速度，便于在嵌入式设备进行扩展，根据回归的结果进行网络训练，获取检测网络模型，利用检测网络模型对测试图片进行人脸检测，在回归、训练的过程中，避免锚框的使用，达到了减少对资源的消耗的同时提升精度的目的。

另外，所述根据所述特征金字塔中的每个特征对所述边框进行回归，包括：将所述特征金字塔中的每个特征的坐标映射回所述输入图片，获取对应的所述输入图片上的原始坐标；根据所述边框获取边框集合，其中，所述边框集合包括所述边框的位置坐标，边框类别，所述边框类别为0时所述边框的内部是背景，所述边框类别为1时所述边框的内部是目标，所述目标包括人脸、人脸关键点；根据所述原始坐标对所述边框进行回归，获取回归结果。对不同层级的特征图中的每个特征进行利用，对浅层特征和深层特征同时利用，获取的信息更加完整，使得处理的结果更加准确。

另外，所述根据所述原始坐标对所述边框进行回归，获取回归结果，包括：判断所述原始坐标是否落在正样本边框中，其中，所述正样本边框是所述边框集合中所述边框类别为1的边框；若落在所述正样本边框中，标记所述原始坐标对应的所述特征金字塔中的特征为正样本，并获取所述原始坐标到目标边框的四条边界的距离，其中，所述目标边框是所述正样本边框中面积最小的边框；获取回归结果，其中，所述回归结果包括所述正样本和所述正样本对应的所述原始坐标到目标边框的四条边界的距离组成的四维向量。在回归过程中充分利用输入图片上的边框，尽可能地利用前景样本，使得获取地结果更加准确。

另外，所述根据所述回归结果对预先搭建的检测网络进行训练，包括：根据所述回归结果获取人脸框的回归结果，人脸关键点的回归结果；根据所述人脸框的回归结果获取人脸中心点的回归结果；根据所述人脸中心点的回归结果，所述人脸的回归结果，所述人脸关键点的回归结果对所述预先搭建的检测网络进行训练，获取所述检测网络模型。不仅利用边框回归结果直接训练，还间接利用边框获取中心点信息，对中心点进行回归，将中心点回归结果用于模型训练，进一步提高检测网络模型的准确性。

另外，所述根据所述网络模型获取测试图片的人脸检测结果，包括：将所述测试图片输入所述网络模型，获取所述网络模型的输出；对所述输出进行非极大抑制处理，获取测试图片的人脸检测结果。由于对图片进行卷积时采用的较大的卷积步长，因此卷积得到的特征图可能会存在较多模糊样本，采用非极大抑制处理大幅度减少了模糊样本的数量。

另外，根据所述特征金字塔对人脸分类网络进行训练；根据人脸分类网络和所述检测网络的输出结果获取损失函数，其中，所述检测网络的输出结果包括预测人脸框，预测人脸关键点；根据所述损失函数进行训练，获取多任务学习模型。构建多任务学习模型，让多个任务相互促进提升，进一步提高人脸检测的效果。

另外，所述根据人脸分类网络和所述检测网络的输出结果获取损失函数，其中，所述检测网络的输出结果包括预测人脸框，预测人脸关键点，包括：根据所述人脸分类网络的输出结果确定人脸分类损失；根据所述预测人脸框，所述预测人脸关键点确定人脸框回归损失，人脸关键点回归损失和人脸预测的像素点损失；对所述人脸分类损失，所述人脸框回归损失，所述人脸关键点回归损失和人脸预测的像素点损失加权求和，获取损失函数。对多个任务产生的损失进行加权求和，便于调整不同任务对结果的影响，达到根据需求和实际情况调整网络的训练效果，获取更合适的检测网络的目的。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的第一实施方式提供的人脸检测方法的流程图；

图2是本发明的第二实施方式提供的人脸检测方法的流程图；

图3是图2所示的本发明的第二实施方式提供的人脸检测方法中步骤203的流程图；

图4是本发明的第三实施方式提供的人脸检测方法的流程图；

图5是本发明的第四实施方式提供的人脸检测方法的流程图；

图6是本发明的第五实施方式提供的人脸检测方法的流程图；

图7是图6所示的本发明的第五实施方式提供的人脸检测方法中步骤602的流程图；

图8是本发明的第六实施方式提供的人脸检测装置的结构示意图；

图9是本发明的第七实施方式提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种人脸检测方法。具体流程如图1所示。

步骤101，对输入图片进行预处理，获取预处理后的图片，其中，输入图片为标注有边框的图片，预处理包括灰度化，裁剪；

在本实施方式中，不对预处理的操作进行限定，在实际的使用的过程中，预处理可以为任意一种或者多种使得所有预处理后的图片是具有统一大小和格式的图片处理方法。

在本实施方式中，边框的内部可以是目标，也可以是背景，不对每张图片上边框的数量进行要求，可以对实际情况进行调整。

步骤102，对预处理后的图片进行卷积，获取特征金字塔，其中，特征金字塔包括根据卷积依次获取的所有特征图。

本实施方式不对特征金字塔中的特征图数量进行限定，在实际的使用过程中，特征金字塔中的特征图数量可以为根据实际情况的调整的任意数值。

步骤103，根据特征金字塔中的每个特征对边框进行回归。

需要说明的是，由于是根据每个特征进行回归，因此，可以看作根据对特征图包括的所有像素点对边框进行逐像素回归，也就是将像素点当作训练样本，而不是锚框。

步骤104，根据回归结果对预先搭建的检测网络进行训练。

需要说明的是，训练后的结果是网络会预测并输出用于描述边框的四维向量，同时得到训练后二分类器。由于目标可以是人脸，也可以是人脸关键点，当然也可以是和人脸检测相关的其他人脸因素，因此二分类器不止一个，这些二分类器还可以进行多任务学习，互相促进学习效果。

步骤105，根据训练好的检测网络获取测试图片的人脸检测结果。

本发明的第二实施方式涉及一种人脸检测方法。第二实施方式与第一实施方式大致相同，主要区别之处在于，如图2所示，步骤103包括：

步骤201，将特征金字塔中的每个特征的坐标映射回输入图片，获取对应的输入图片上的原始坐标。

更具体地说，在本实施方式中，映射到输入图片上坐标可以是

其中，(x,y)是特征图上特征的坐标，该特征位于卷积获取的第i层特征图上，那么s就是这层之前的卷积步长。这样映射到输入图片的坐标大致在(x,y)的感受野中的附近。

步骤202，根据边框获取边框集合，其中，边框集合包括所述边框的位置坐标，边框类别，边框类别为0时边框的内部是背景，边框类别为1时边框的内部是目标，目标包括人脸、人脸关键点。

更具体地说，在本实施方式中，边框的位置信息可以是边框左上角的点的坐标和边框右下角的点的坐标。

步骤203，根据原始坐标对边框进行回归，获取回归结果。

具体地，如图3所示，步骤203可以包括：

步骤301，判断原始坐标是否落在正样本边框中，其中，正样本边框是所述边框集合中所述边框类别为1的边框。

本实施方式不对具体的判断方法进行限定，在实际的使用过程中可以使用任何现有的位置关系判断方法进行操作，此处不做赘述。

步骤302，若落在所述正样本边框中，标记原始坐标对应的特征金字塔中的特征为正样本，并获取原始坐标到目标边框的四条边界的距离，其中，目标边框是正样本边框中面积最小的边框。

在本实施方式中，若落入的正样本边框数量为1，那么目标边框就是落入的正样本边框，直接计算原始坐标到这个目标边框的四条边界的距离。若落入地正样本边框数量大于1，那么原始坐标对应的特征是模糊样本，规定选取面积最小的边框作为目标边框，计算原始坐标到这个目标边框的四条边界的距离。

步骤303，若落在所述正样本边框中，标记原始坐标对应的特征金字塔中的特征为负样本。

需要说明的是，在本实施方式中，不对负样本进行除了样本标记的其他处理。

步骤304，获取回归结果，其中，回归结果包括正样本和正样本对应的原始坐标到目标边框的四条边界的距离组成的四维向量。

本发明实施方式相对于现有技术而言，在实现第一实施方式带来的有益效果基础上，由于对不同层级的特征图中的每个特征进行利用，实现对浅层特征和深层特征同时利用，使得获取的信息更加完整，处理的结果更加准确。

发明的第三实施方式涉及一种人脸检测方法。第三实施方式与第一实施方式大致相同，主要区别之处在于，如图4所示，步骤104包括：

步骤401，根据回归结果获取人脸框的回归结果，人脸关键点的回归结果。

步骤402，根据人脸框的回归结果获取人脸中心点的回归结果。

更具体地说，在本实施方式中，可以根据公式：

其中，(l^*,t^*,r^*,b^*)是人脸框的回归结果，获取中心点的回归结果centerness^*。

步骤403，根据人脸中心点的回归结果，人脸的回归结果，人脸关键点的回归结果对预先搭建的检测网络进行训练，获取检测网络模型。

本发明实施方式相对于现有技术而言，在实现第一实施方式带来的有益效果基础上，间接利用边框获取中心点信息，对中心点进行回归，将中心点回归结果用于模型训练，进一步提高检测网络模型的准确性。

发明的第四实施方式涉及一种人脸检测方法。第四实施方式与第一实施方式大致相同，主要区别之处在于，如图5所示，步骤105包括：

步骤501，将测试图片输入网络模型，获取网络模型的输出。

步骤502，对输出进行非极大抑制处理，获取测试图片的人脸检测结果。

本发明实施方式相对于现有技术而言，在实现第一实施方式带来的有益效果基础上，采用非极大抑制处理大幅度减少了，对图片进行卷积时采用的较大的卷积步长导致卷积得到的特征图可能会存在较多的模糊样本的数量，解决了由于卷积步长较大导致的召回率地的问题，让检测任务达到最好的高度。

发明的第五实施方式涉及一种人脸检测方法。第五实施方式与第一实施方式大致相同，主要区别之处在于，进行多任务学习，如图6所示，包括：

步骤601，根据特征金字塔对人脸分类网络进行训练。

本实施方式不对具体的人脸分类网络进行限定，在实际的使用过程中可以使用任何现有的人脸分类网络进行操作，此处不做赘述。

步骤602，根据人脸分类网络和检测网络的输出结果获取损失函数，其中，检测网络的输出结果包括预测的人脸框，预测的人脸关键点。

具体地，如图7所示，步骤602可以包括：

步骤701，根据人脸分类网络的输出结果确定人脸分类损失。

步骤702，根据预测的人脸框，预测的人脸关键点确定人脸框回归的损失，人脸关键点回归的损失和人脸预测的像素点损失。

在本实施方式中，人脸框回归的损失可以通过公式：L_box(t_i,t_i ^*)＝R(t_i-t_i ^*)获取，其中，R是鲁棒损失函数，t_i＝{l,t,r,b}_i和

分别代表实际人脸框和网络预测人脸框，i表示人脸框所在的特征图在特征金字塔中的层数；人脸预测的像素点损失可以通过公式：

其中，W、H分别表示预测框长边和宽边的像素点个数，R、I分别代表预测前后像素点的颜色特征的值。

步骤703，对人脸分类损失，人脸框回归损失，人脸关键点回归损失和人脸预测的像素点损失加权求和，获取损失函数。

在本实施方式中，获取损失函数的过程可以通过如下的公式：

进行计算，其中，

为人脸分类的损失，

为逐像素回归预测的回归损失，

是人脸五个关键点的回归损失，L_pixel是人脸像素点损失，λ₁、λ₂、λ₃依次取值0.25，0.1，0.01，实验证明这样取值的实验结果最佳。

步骤603，根据损失函数进行训练，获取多任务学习模型。

步骤105，根据多任务学习模型获取测试图片的人脸检测结果。

本发明实施方式相对于现有技术而言，在实现第一实施方式带来的有益效果基础上，对多个任务产生的损失进行加权求和，便于调整不同任务对结果的影响，达到根据需求和实际情况调整网络的训练效果，获取更合适的检测网络的目的。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第六实施方式涉及一种人脸检测装置，如图8所示，包括：

训练模块801，用于对输入图片进行预处理，获取预处理后的图片，其中，所述输入图片为标注有边框的图片，所述预处理包括灰度化，裁剪，对所述预处理后的图片进行卷积，获取特征金字塔，其中，所述特征金字塔包括根据所述卷积依次获取的所有特征图，根据所述特征金字塔中的每个特征对所述边框进行回归，根据所述回归结果对预先搭建的检测网络进行训练。

检测分析模块802，根据训练好的检测网络获取测试图片的人脸检测结果。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第七实施方式涉及一种电子设备，如图9所示，包括：

至少一个处理器901；以及，

与所述至少一个处理器901通信连接的存储器902；其中，

所述存储器902存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器901执行，以使所述至少一个处理器901能够执行本发明第一至第五实施方式所述的人脸检测方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种人脸检测方法，其特征在于，包括：

对输入图片进行预处理，获取预处理后的图片，其中，所述输入图片为标注有边框的图片，所述预处理包括灰度化，裁剪；

对所述预处理后的图片进行卷积，获取特征金字塔，其中，所述特征金字塔包括根据所述卷积依次获取的所有特征图；

根据所述特征金字塔中的每个特征对所述边框进行回归；

根据所述回归结果对预先搭建的检测网络进行训练；

根据训练好的检测网络获取测试图片的人脸检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征金字塔中的每个特征对所述边框进行回归，包括：

将所述特征金字塔中的每个特征的坐标映射回所述输入图片，获取对应的所述输入图片上的原始坐标；

根据所述边框获取边框集合，其中，所述边框集合包括所述边框的位置坐标，边框类别，所述边框类别为0时所述边框的内部是背景，所述边框类别为1时所述边框的内部是目标，所述目标包括人脸、人脸关键点；

根据所述原始坐标对所述边框进行回归，获取回归结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述原始坐标对所述边框进行回归，获取回归结果，包括：

判断所述原始坐标是否落在正样本边框中，其中，所述正样本边框是所述边框集合中所述边框类别为1的边框；

若落在所述正样本边框中，标记所述原始坐标对应的所述特征金字塔中的特征为正样本，并获取所述原始坐标到目标边框的四条边界的距离，其中，所述目标边框是所述正样本边框中面积最小的边框；

获取回归结果，其中，所述回归结果包括所述正样本和所述正样本对应的所述原始坐标到目标边框的四条边界的距离组成的四维向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述回归结果对预先搭建的检测网络进行训练，包括：

根据所述回归结果获取人脸框的回归结果，人脸关键点的回归结果；

根据所述人脸框的回归结果获取人脸中心点的回归结果；

根据所述人脸中心点的回归结果，所述人脸的回归结果，所述人脸关键点的回归结果对所述预先搭建的检测网络进行训练，获取所述检测网络模型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述网络模型获取测试图片的人脸检测结果，包括：

将所述测试图片输入所述网络模型，获取所述网络模型的输出；

对所述输出进行非极大抑制处理，获取测试图片的人脸检测结果。

6.根据权利要求1所述的方法，其特征在于，还包括：

根据所述特征金字塔对人脸分类网络进行训练；

根据人脸分类网络和所述检测网络的输出结果获取损失函数，其中，所述检测网络的输出结果包括预测的人脸框，预测的人脸关键点；

根据所述损失函数进行训练，获取多任务学习模型；

根据所述多任务学习模型获取测试图片的人脸检测结果。

7.根据权利要求6所述的方法，其特征在于，所述根据人脸分类网络和所述检测网络的输出结果获取损失函数，其中，所述检测网络的输出结果包括预测人脸框，预测人脸关键点，包括：

根据所述人脸分类网络的输出结果确定人脸分类损失；

根据所述预测的人脸框，所述预测的人脸关键点确定人脸框回归的损失，人脸关键点回归的损失和人脸预测的像素点损失；

对所述人脸分类损失，所述人脸框回归损失，所述人脸关键点回归损失和所述人脸预测的像素点损失加权求和，获取损失函数。

8.一种人脸检测装置，其特征在于，包括：

训练模块，用于对输入图片进行预处理，获取预处理后的图片，其中，所述输入图片为标注有边框的图片，所述预处理包括灰度化，裁剪，对所述预处理后的图片进行卷积，获取特征金字塔，其中，所述特征金字塔包括根据所述卷积依次获取的所有特征图，根据所述特征金字塔中的每个特征对所述边框进行回归，根据所述回归结果对预先搭建的检测网络进行训练；

检测分析模块，根据训练好的检测网络获取测试图片的人脸检测结果。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的人脸检测方法。