CN112183488A

CN112183488A - 人脸检测模型训练方法、设备及人脸检测方法

Info

Publication number: CN112183488A
Application number: CN202011214836.3A
Authority: CN
Inventors: 赵娅琳; 赵晓辉; 陈斌; 宋晨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-05
Anticipated expiration: 2040-11-03
Also published as: CN112183488B; WO2021208687A1

Abstract

本发明公开了一种人脸检测模型训练方法、设备、计算机可读存储介质及人脸检测方法，该人脸检测模型训练方法包括：从待训练图片中提取特征以获取至少两种分辨率的初始特征图；融合所述初始特征图以得到第一检测特征图和第二检测特征图；通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测；基于目标损失函数训练人脸检测模型。本申请的人脸检测模型训练方法，具有提高各个尺寸人脸检出率的优点。

Description

人脸检测模型训练方法、设备及人脸检测方法

技术领域

本发明涉及人脸检测技术领域，尤其涉及一种人脸检测模型训练方法、设备、计算机可读存储介质及人脸检测方法

背景技术

人脸检测可以视为对象类检测的特定情况。在对象类检测中，任务是查找属于给定类的图像中所有对象的位置和大小。例子包括上躯干、行人和汽车。人脸检测在实际中主要用于人脸识别的预处理，即在图像中准确标定出人脸的位置和大小。

目前，人脸检测在大、中型的人脸上取得了令人瞩目的成果，但对于小脸(例如10×10像素)的检测往往不如人意。小脸检测的主要困难是小脸缺乏足够的详细信息以将它们与类似背景区分开，例如，部分面部或手部的区域。

当前，小脸检测的方法主要是基于深度学习进行的，目前小脸检测的方法主要是通过将包含更多小脸信息的更底层特征和涵盖丰富语义特征的顶层特征层融合，进行级联检测，提高小脸检出率。这种方法虽然能提高小脸检出率，但是降低了高层特征的语义表达，从而导致造成较大脸(大脸和中脸)的检出率降低。

即是说，基于当前的人脸检测方法，要么存在小脸检出率的问题，要么存在大脸检出率低的问题，小脸检出率与大脸检出率难以两全。

发明内容

本申请实施例通过提供一种人脸检测模型训练方法，旨在同时提高小脸与大脸的检出率。

为实现上述目的，本申请实施例提供了一种人脸检测模型训练方法，包括：

从待训练图片中提取特征以获取至少两种分辨率的初始特征图；

融合所述初始特征图以得到第一检测特征图和第二检测特征图，其中，所述第一检测特征图的分辨率大于所述第二检测特征图；

通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测，其中，所述第一尺度不大于20×20像素，且所述第一尺度小于所述第二尺度；

基于检测网络损失与特征选择损失构建目标损失函数，并基于所述目标损失函数训练人脸检测模型。

在其中一个实施例中，所述从待训练图片中提取特征以获取至少两种分辨率的初始特征图，包括：

对待训练图片执行连续递进的至少两次卷积-下采样操作，以获取分辨率依次降低的至少两种分辨率的原始特征图；

基于预设的筛选规则筛选所述原始特征图以获取至少两种分辨率的初始特征图。

在其中一个实施例中，所述融合所述初始特征图以得到第一检测特征图和第二检测特征图，包括：

按照分辨率从小到大的顺序，向分辨率变大的方向融合所述初始特征图，以得到分辨率依次增大的多种分辨率的融合特征图；

按照分辨率从大到小的顺序，将分辨率排序前二的两种融合特征图分别作为所述第一检测特征图和第二检测特征图输出。

在其中一个实施例中，所述按照分辨率从小到大的顺序，向分辨率变大的方向融合所述初始特征图，以得到分辨率依次增大的多种尺寸的融合特征图，包括：

按照分辨率从小到大的顺序对初始特征图进行排序；

对排序后的特征图进行以下循环，直至融合特征图的分辨率与排序最大的初始特征图的分辨率一致，所述循环如下：

判断是否第一次执行循环，

若是，则获取分辨率最小的初始特征图作为第一特征图；

若否，则获取上一次循环得到的融合特征图作为第一特征图；

获取分辨率大于且最接近所述第一特征图的初始特征图作为第二特征图；

对所述第一特征图执行上采样操作，以得到分辨率与所述第二特征图一致的第一中间特征图；

将所述第一中间特征图与所述第二特征图融合，以得到融合特征图；

判断所述融合特征图的分辨率与排序最大的初始特征图的分辨率是否一致。

在其中一个实施例中，对每张融合特征图执行一卷积核大小为1*1，步长为1的加权卷积操作。

在其中一个实施例中，所述通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测，包括：

计算第一检测特征图的感受野；

根据第一预设缩放比缩小所述感受野以获取小脸检测框，根据第二预设缩放比缩小所述感受野获取大脸检测框；

通过所述第一检测器检测第一检测特征图上分辨率不大于所述小脸检测框的人脸，通过所述第二检测器检测第二检测特征图上分辨率不小于大脸检测框的人脸。

在其中一个实施例中，所述第一预设缩放比大于所述第二预设缩放比。

在其中一个实施例中，所述目标损失函数如下：

L＝L_det+λL_feature

其中，L_det是检测网络的损失函数，L_feature是特征选择的损失函数，L_feature的损失权重λ＝0.1。

为实现上述目的，本申请还提出一种人脸检测方法，所述方法包括：

获取与待检测图等比例的图像框；

基于预设比例缩小所述图像框以获取采样框，所述采样框与所述待检测图中最大人脸的分辨率相适配；

在所述待检测图上滑动所述采用框以获取采用子图，其中，所述采样框在所述待检测图长度方向上滑动步长大于0，且小于所述采样框的长度，和/或，所述采样框在所述待检测图宽度方向上滑动步长大于0，且小于所述采样框的宽度；

融合所有的采样子图，以得到强特征输入图；

将所述强特征输入图导入根据上述的人脸模型训练方法训练得到人脸检测模型中进行人脸检测。

为实现上述目的，本申请还提出一种人脸检测模型训练设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的人脸检测模型训练程序，所述处理器执行所述人脸检测模型训练程序时实现如上述的人脸检测模型训练方法。

为实现上述目的，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有人脸检测模型训练程序，所述人脸检测模型训练程序被处理器执行时实现如上述的人脸检测模型训练方法。

本申请的人脸检测模型的训练方法，在训练模型时，先从待检测图片中提取、融合得到不同分辨率的第一检测特征图和第二检测特征图，再通过第一检测器和第二检测器分别在第一检测特征图和第二检测特征图上执行小脸检测和大脸检测，从而避免了模型学习过程中，检测器被大脸主导而忽略小脸特征的问题，进而提高了各个尺寸人脸的检出率。因此，相较于常见的人脸检测模型，本申请的人脸检测模型训练方法，可提高人脸检测模型对各个尺寸人脸的检出率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明人脸检测模型训练设备一实施例的模块结构图；

图2为本发明人脸检测模型训练方法一实施例的流程示意图；

图3为本发明人脸检测模型训练方法另一实施例的流程示意图；

图4为本发明人脸检测模型训练方法中从待训练图片中提取原始特征图的网络结构图；

图5为本发明人脸检测模型训练方法又一实施例的流程示意图；

图6为本发明人脸检测模型训练方法中融合初始特征图得到融合特征图的流程示意图；

图7为本发明人脸检测模型训练方法中融合初始特征图得到融合特征图的网络结构图

图8为本发明人脸检测模型训练方法又一实施例的流程示意图；

图9本发明人脸检测方法一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。文中出现的“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的数量词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。而“第一”、“第二”、以及“第三”等的使用不表示任何顺序，可将这些词解释为名称。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的服务器1(又叫人脸检测模型训练设备)结构示意图。

本发明实施例服务器，如“物联网设备”、带联网功能的智能空调、智能电灯、智能电源，带联网功能的AR/VR设备，智能音箱、自动驾驶汽车、PC，智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的设备。

如图1所示，所述服务器1包括：存储器11、处理器12及网络接口13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是服务器1的内部存储单元，例如该服务器1的硬盘。存储器11在另一些实施例中也可以是服务器1的外部存储设备，例如该服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，存储器11还可以包括服务器1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于服务器1的应用软件及各类数据，例如人脸检测模型训练程序10的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行人脸检测模型训练程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该服务器1与其他电子设备之间建立通信连接。

网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个：传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或其组合。

可选地，该服务器还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在服务器1中处理的信息以及用于显示可视化的用户界面。

图1仅示出了具有组件11-13以及人脸检测模型训练程序10的服务器1，本领域技术人员可以理解的是，图1示出的结构并不构成对服务器1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在本实施例中，处理器12可以用于调用存储器11中存储的人脸检测模型训练程序，并执行以下操作：

在一实施例中，处理器12可以用于调用存储器11中存储的人脸检测模型训练程序，并执行以下操作：

所述从待训练图片中提取特征以获取至少两种分辨率的初始特征图，包括：

所述融合所述初始特征图以得到第一检测特征图和第二检测特征图，包括：

所述按照分辨率从小到大的顺序，向分辨率变大的方向融合所述初始特征图，以得到分辨率依次增大的多种尺寸的融合特征图，包括：

按照分辨率从小到大的顺序对初始特征图进行排序；

判断是否第一次执行循环，

若是，则获取分辨率最小的初始特征图作为第一特征图；

所述通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测，包括：

计算第一检测特征图的感受野；

所述第一预设缩放比大于所述第二预设缩放比。

所述目标损失函数如下：

L＝L_det+λL_feature

基于上述人脸检测模型训练设备的硬件构架，提出本发明人脸检测模型训练方法的实施例。本发明的人脸检测模型训练方法，旨在同时提高小脸与大脸的检出率。

参照图2，图2为本发明人脸检测模型训练方法的一实施例，所述人脸检测模型训练方法包括以下步骤：

S10、从待训练图片中提取特征以获取至少两种分辨率的初始特征图。

具体而言，待训练图片是指从预设的人脸检测训练集中获取的任一图片，该人脸检测训练集中的任一图片(即待训练图片)均包含多张人脸(包括大脸和小脸)的数据信息。

值得说明的是，本申请的人脸检测模型基于全卷积网络获得，其包括输入层、卷积层、采样层及输出层。其中，输入层用于接收输入的待训练图片，输入层通常会定义图片的分辨率，即得到待训练图片的分辨率，分辨率以长*宽的形式表示输入的图片中含有的像素的数量。卷积层设于输入层之后，用于对输入图像进行卷积处理，得到特征图。卷积处理通过卷积核来进行，通过设定合适的卷积核的大小和步长，可将输入层输入的图像转换为特征图。采样层设于卷积层之后，用于对特征图进行缩放。这其中，采样层包括上采样层和下采样层两种，下采样层也叫池化层，用于降低特征图中的特征的维度，并对特征图中的特征进行选择，以过滤冗余的特征，缩小特征图的尺寸。下采样层可以采用均值池化或最大池化，一般而言，最大池化的效果较佳。这其中，并非每个卷积层之后都设置采样层，可以在连续多层卷积层之后设置采样层进行采样。输出层用于输出在待训练图片中检测人脸的结果。

基于上述结构，在步骤S10中，可通过卷积层和/或采样层从待训练图片中提出特征，以得到训练所需的初始特征图。这其中，为从待训练图片中提取充足的特征，从待训练图片中提出至少两种分辨率的初始特征图，每种分辨率的初始特征图可包括多张特征图。具体地，可通过设置不同大小、不同步长的卷积核，可从待训练图片中提取不同分辨率的特征图，而通过设置相同大小、相同步长、不同过滤规则的卷积核，可从待训练图片中提取到相同分辨率的不同特征图。

S20、融合所述初始特征图以得到第一检测特征图和第二检测特征图，其中，所述第一检测特征图的分辨率大于所述第二检测特征图。

具体而言，根据卷积规则的不同，不同的特征图所包含的特征数量及特征语义是不同的。一般而言，随着卷积次数的增加，所是在后得到的特征图，其特征数量越少，但是特征的语义强度越强，反之亦然。由于通过步骤S10得到了至少两种分辨率的初始特征图，那么，融合分辨率不同的多张初始特征图，能够得到同时兼具特征数量和强语义的特征图，即第一检测特征图P1和第二检测特征图P2。这其中，由于第一检测特征图的分辨率大于第二检测特征图，也就是说相对而言，第一检测特征图的数量更多，第二检测特征图的特征语义更强。值得说明的是，由于步骤S10中得到的初始特征图中，同一分辨率的初始特征图可具有多张，因此融合初始特征图后，也可得到同一分辨率的多张第一检测特征图，及同一分辨率的多张第二检测特征图。

S30、通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测，其中，所述第一尺度不大于20×20像素，且所述第一尺度小于所述第二尺度。

具体而言，由于第一尺度不大于(小于或等于)20×20像素，而第二尺度大于第一尺度，因此可认为第一尺度脸型为小脸脸型，而第二尺度脸型为大脸脸型。这其中，对于小脸(第一尺度脸型)而言，由于小脸特征的分辨率低，在卷积与采样的过程中，小脸特征难以与背景或其他对象进行分离，因此越是顶层(强语义)的特征图，所包含的小脸特征越少，也就越难以检测出小脸。但是对于大脸(第二尺度脸型)而言，越是顶层(强语义)的特征，所包含的大脸特征越多，越容易检测出大脸。由于第一检测特征图中的特征数量更多，而第二检测特征图中的特征语义更强，因此，第一检测特征图中含有更多的小脸的特征，而第二检测特征图中含有更明显的大脸的特征。那么，在进行人脸检测模型训练时，同时启用第一检测器和第二检测器，以分别在第一检测特征图上进行小脸检测，在第二检测特征图上进行大脸检测，一方面，能够避免模型学习过程中，检测器被大脸主导而忽略小脸特征的问题，从而有利于提高各个尺寸人脸的检出率，另一方面则有利于降低两个检测器的复杂程度与检测难度，进而降低模型的学习难度。

S40、基于检测网络损失与特征选择损失构建目标损失函数，并基于所述目标损失函数训练人脸检测模型。

具体而言，基于检测网络损失与特征选择损失构建目标损失函数，并基于该目标损失函数训练人脸检测模型，可逐渐提供模型的精度。

可以理解，本申请的人脸检测模型的训练方法，在训练模型时，先从待检测图片中提取、融合得到不同分辨率的第一检测特征图和第二检测特征图，再通过第一检测器和第二检测器分别在第一检测特征图和第二检测特征图上执行小脸检测和大脸检测，从而避免了模型学习过程中，检测器被大脸主导而忽略小脸特征的问题，进而提高了各个尺寸人脸的检出率。因此，相较于常见的人脸检测模型，本申请的人脸检测模型训练方法，可提高人脸检测模型对各个尺寸人脸的检出率。

结合图3与图4所示，在其中一个实施例中，所述从待训练图片中提取特征以获取至少两种分辨率的初始特征图，包括：

S11、对待训练图片执行连续递进的至少两次卷积-下采样操作，以获取分辨率依次降低的至少两种分辨率的原始特征图。

具体而言，在本实施例中，可通过骨干网络(如ResNet、MobileNet系列等)对待训练图片进行5次卷积-下采样操作，该卷积-下采样操作是指每次卷积后均执行一次下采样，而连续递进是指在后的卷积层基于在先的下采样层输出的原始特征图执行卷积操作。如此，便可得到5种分辨率依次缩小的原始特征图。值得说明的是，每个卷积层具有多个同样大小、不同过滤规则的卷积核，如此，同一卷积层可得到多张同分辨率、不同特征的特征图。可以理解，通过在每个卷积层中设置多个同尺寸、不同过滤规则的卷积核，能够从输入图中获取更多的特征，从而有利于模型的训练。记每种原始特征图的编号为C_i，其中i∈[1,5]，i的数值越大，原始特征图的分辨率越小。值得说明的是，于其他实施例中，也可对待训练图片执行3次、4次、6次及更多次的卷积-下采样操作；并且，下采样操作属于可选操作，即在卷积之后，也可不执行下采样操作。

S12、基于预设的筛选规则筛选所述原始特征图以获取至少两种分辨率的初始特征图。

具体而言，基于步骤S11中得到的5种不同尺寸的原始特征图，选择编号大于1的四种原始特征图作为所需的初始特征图。即，将编号最小的原始特征图(即分辨率最大的特征图)删除。将编号最小的原始特征图(即C₁)删除是由于，编号最小的特征图虽然含有最多数量的特征，但是特征的语义太浅，难以表达所需的人脸特征。并且，编号最小的特征图C₁中，包含了较多除了人脸特征外的其他特征，这些其他特征不仅不利于进行人脸检测，反而会干扰模型的训练。当然，于其他实施例中，也可基于其他选取规则从原始特征图中选出初始特征图。

可以理解，通过在待训练图片上执行连续递进的卷积-下采样操作，能够从待训练图片中得到具有足够特征数量，或具有足够语义强度的原始特征图，再筛选原始特征图可得到初始特征图，经过筛选，能够将原始特征图中不利于模型训练的原始特征图剔除，从而有利于模型的训练。

如图5所示，在其中一个实施例中，所述融合所述初始特征图以得到第一检测特征图和第二检测特征图，包括：

S21、按照分辨率从小到大的顺序，向分辨率变大的方向融合所述初始特征图，以得到分辨率依次增大的多种分辨率融合特征图。

具体而言，根据分辨率从小到大的顺序，将初始特征图向上融合(向分辨率变大的方向)融合(即将分辨率小的初始特征图与分辨率大的初始特征图)，从而可分辨率依次增大的多种分辨率的融合特征图。通过融合初始特征图而得到的融合特征图能够同时兼具特征数量和语义强度的优点。

S22、按照分辨率从大到小的顺序，将分辨率排序前二的两种融合特征图分别作为所述第一检测特征图和第二检测特征图输出。

具体而言，由于融合特征图由初始特征图按照分辨率的从小到大的顺序向上融合得到，那么，越是上层(分辨率越大)的融合特征图，所包含的特征越多，也就更易于检测出小脸，因此可将分辨率最大的融合特征图作为第一检测特征图，以进行小脸检测。而由于大脸特征由于更容易检测到，因此可将特征数量较少，但特征语义更强的排序第二的融合特征图作为第二检测特征图，以进行大脸检测。

可以理解，通过向分辨率大的方向融合初始特征图，能够加深特征的强度的同时，逐渐增多特征的数量，从而得到兼具特征数量和语义强度的融合特征图，那么，基于融合特征图所得到第一检测特征图和第二检测特征图有利于提高模型训练的速度，并有利于提高模型的检测精度。

如图6所示，在其中一个实施例中，按照分辨率从小到大的顺序，向分辨率变大的方向融合所述初始特征图，以得到分辨率依次增大的多种尺寸的融合特征图，包括：

按照分辨率从小到大的顺序对初始特征图进行排序；

判断是否第一次执行循环，

若是，则获取分辨率最小的初始特征图作为第一特征图；

对所述第一特征图执行上采样操作，以得到分辨率与所述第二特征图一致的中间特征图；

通过上述循环，可逐步融合初始特征图，而得到所要的融合特征图。这其中，由于融合特征图融合由在先的第一特征图(分辨率最小的初始特征图或上一次循环得到的融合特征图)及第二特征图融合得到，因此包括了在先的第一特征图和第二特征图的所有特征，故而可直接与分辨率更大的初始特征图进行融合，而使新得到融合特征图包含之前的所有初始特征图的所有特征。

在其中一个实施例中，为提高第一特征图和第二特征图的融合度，以得到特征融合程度更高的融合特征图，在得到融合特征图后，对每张融合特征图执行卷积核大小为1*1，步长为1的加权卷积操作。在对融合特征图进行加权卷积操作后，可得到深度融合特征图，再使用该深度融合特征图进行后续融合。

具体地，结合图6与图7所示，基于步骤S12的输出结果，在每种分辨率的初始特征图中取的一张初始特征图对上述融合特征图的过程进行说明：

首先，将初始特征图C₅作为第一特征图执行相同卷积操作，以输出分辨率与C₅一致的特征图C₅₁，再对C₅₁执行上采样操作，以输出分辨率与C₄一致的特征图C₅₂，此时C₅₂为第一中间特征图；

同时，将初始特征图C₄作为第二特征图执行相同卷积操作，以输出分辨率与C₄一致的特征图C₄₁，此时，C₄₂为第二中间特征图；

将第一中间特征图C₅₂与第二中间特征图C₄₁融合，以得到融合特征图C₄₂；对融合特征图C₄₂执行卷积核为1*1，步长为1的加权卷积操作，以得到深度融合特征图C₄₃，由于该深度融合特征图C₄₃的分辨率与初始特征图C₄一致，因此循环继续执行。将深度融合特征图C₄₃作为第一特征图，将初始特征图C₃作为第二特征图继续执行循环。新的循环如下：

对深度融合特征图C₄₃执行上采样操作，以得到分辨率与初始特征图C₃一致的第一中间特征图C₄₄；

同时，对初始特征图C₃执行相同卷积操作，以输出分辨率与C₃一致的第二中间特征图C₃₁；

将第一中间特征图C₄₄与第二中间特征图C₃₁融合，以得到分辨率与C₃一致的融合特征图C₃₂；

对融合特征图C₃₂执行卷积核为1*1，步长为1的加权卷积操作，以得到深度融合特征图C₃₃。由于深度融合特征图C₃₃的分辨率与分辨率排序第二的初始特征图C₃一致，因此将所述深度融合特征图C₃₃作为第二检测特征图输出。同时，由于未得到与分辨率排序第一的初始特征图C₂一致的融合特征图，因此循环继续，将深度融合特征图C₃₃作为第一特征图，将初始特征图C₂作为第二特征图重新执行循环，新的循环如下：

对深度融合特征图C₃₃执行上采样操作，以得到分辨率是与C₂一致的第一中间特征图C₃₄；

同时，对C₂执行相同卷积操作，以输出分辨率与C₂一致的第二中间特征图C₂₁；

将第一中间特征图C₃₄与第二中间特征图C₂₁融合，以得到分辨率与C₂一致的融合特征图C₂₂；

对融合特征图C₂₂执行卷积核为1*1，步长为1的加权卷积操作，以得到深度融合特征图C₂₃；此时，深度融合特征图C₂₃的分辨率是与排序第一的特征图C₂一致，因此将所述深度融合特征图C₂₃作为第一检测特征图输出，并结束循环。

这其中，通过上述循环，可将每次得到融合特征图输出，也可仅输出作为第一检测特征图和第二检测特征图的目标融合特征图，

值得说明的是，由于每种尺寸的初始特征图均具有多张，因此经融合特征后得到的第一检测图与第二检测图也各具有多张。在一实施例中，再对待检测图片执行依次递进的5次卷积-下采样操作时，每个卷积层有5个卷积核，因此每个卷积层可得到5张同尺寸的原始特征图，那么相应的，最终得到的第一检测图和第二检测图也各有5张。这样设置，能够增加提取到的特征数量，而提高模型训练的效率。

如图8所示，在其中一个实施例中，所述通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测，包括：

S31、计算第一检测特征图的感受野。

具体而言，由于第一检测特征图和第二检测特征图均融合了分辨率最小的初始特征图C₅的特征，因此，第一检测特征图和第二检测特征图均具有分辨率最小的初始特征图C₅的感受野。虽然经过多次卷积和采样操作，但第一检测特征图与第二检测特征图的感受野与初始特征图C₅的感受野基本相同，因此，在计算人脸检测框时，只需计算第一检测特征图的感受野即可，从而可节约模型的计算资源。具体地，在本实施例中，第一检测图的感受野以RF₀表示。

S32、根据第一预设缩放比缩小所述感受野以获取小脸检测框，根据第二预设缩放比缩小所述感受野获取大脸检测框。

具体而言，在第一检测特征图的感受野的基础上，基于第一预设缩放比得到小脸检测框RF₁。同理，基于第二预设缩放比得到大脸检测框RF₂。值得说明的是，该第一预设缩放比和第二预设缩放比可根据实际待检测图片的分辨率，及得到感受野的大小进行适应性的调整。

S33、通过所述第一检测器检测第一检测特征图上分辨率不大于所述小脸检测框的人脸，通过所述第二检测器检测第二检测特征图上分辨率不小于大脸检测框的人脸。

具体而言，第一检测器在第一检测特征图上检测不大于小脸检测框的人脸，即检测面积小于或等于小脸检测框的人脸，通过设置第一预设缩放比，可认为人脸面积小于或等于小脸检测框的人脸为小脸。同理，第二检测器在第二检测图上检测不小于大脸检测框的人脸，可认为第二检测特征图上面积大于或等于大脸检测框的人脸为大脸。

可以理解，基于第一检测特征图的感受野所得到的小脸检测框与大脸检测框，以分别在第一检测特征图和第二检测特征图上进行小脸检测和大脸检测，有利于提高第一检测器和第二检测器的关联性，从而有利于提高模型对不同尺寸人脸的检出率。

具体而言，由于第一预设缩放比大于第二预设缩放比，因此，小脸检测框实际上是大于大脸检测框的。那么在实际检测时，第一检测器与第二检测器可能检测到部分相同的特征。这样设置的目的在于：一方面，是为了避免待训练图片中的人脸特征被第一检测器或第二检测器漏检，而影响训练效果；另一方面，是为了增强第一检测器和第二检测器之间的关联性，避免第一检测器与第二检测器孤立工作，而有利于提高人脸检测模型的检出率。值得说明的是，由于第一检测特征图的分辨率大于第二检测特征图的分辨率，但第二检测特征图上的人脸特征更明显，因此，即使相同的人脸特征，在第二检测特征图上的尺寸也会大于在第一检测特征图上的尺寸。也就是说，即使大脸检测框的尺寸小于小脸检测框的尺寸，但是实际检测时，大脸检测框所检测的人脸特征也更接近于大脸的特征。还需要说明的是，为了避免小脸特征和大脸特征相互影响过多，第一预设缩放比与第二预设缩放比之间的差值的绝对值不大于0.3。示例性的，在本实施例中，第一预设缩放比为0.4，第二预设缩放比为0.35，即RF₁＝0.4RF₀；RF₂＝0.35RF₀。当然，在其他实施例中，基于第一特征图感受野的不同，第一预设缩放比可以进行适应性调整，而并非限定为0.4。示例性的，于其他实施例中，预设的第一缩放比例还可以为0.1、0.2、0.3、0.5、0.6、0.7等。同理，在其他实施例中，第二预设缩放比可以为0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45、0.50、0.55、0.60、0.65等。

可以理解，通过将第一预设缩放比设置为大于第二预设缩放比，以获得尺寸大于大脸检测框的小脸检测框，能够在降低大脸特征对小脸特征影响的情况下，减少乃至避免待训练图片中人脸特征的漏检，并增强了第一检测器与第二检测器之间的关联性，避免第一检测器与第二检测器相互孤立，从而有利于提高模型对不同尺寸人脸的检出率。

在其中一个实施例中，所述目标损失函数如下：

L＝L_det+λL_feature

进一步地，L_det具体如下：

L_det＝L_cls+λ_sizeL_size+λ_offL_off

其中，L_cls是目标的损失函数focal loss；L_size是位置回归损失函数GIoU loss,权重λ_size＝1.0；L_off是人脸框的在下采样过程，像素的偏移值，用smooth-L₁，其权重λ_off＝0.1。

进一步地，L_cls具体如下：

进一步地，L_size具体如下：

其中，|A∪B|是预测人脸框与真实人脸框相交的面积，|A∩B|是两者相并的面积，|A_c|是两者的最小闭包的面积。

如图9所示，本申请还提出一种人脸检测方法，所述方法包括：

S110、获取与待检测图等比例的图像框。

具体而言，在得到待检测图时，解析待检测图的分辨率，进而可得到与待检测图等尺寸的图像框，这其中，该图像框与待检测图等比例是指，该图像框在缩放的过程中长宽比保持不变。

S120、基于预设比例缩小所述图像框以获取采样框，所述采样框与所述待检测图中最大人脸的分辨率相适配。

具体而言，基于预设的缩小比，将该图像框缩小为采样框，由于图像框的在缩放过程中需保持长宽比不变，因此采样框的长宽比与图像框的长宽比一致。而采样框与待检测图中最大人脸的尺寸相适配是指采样框恰好能够覆盖待检测图中最大的人脸，或是略大于待检测图中最大的人脸。如此，通过该采样框必然能够采样出待训练图片中所有的人脸特征，并且有利于保持人脸的完整性。由于不同的待检测图的分辨率不同，且待检测图中最大人脸的尺寸各不相同，因此该预设的缩小比可根据实际情况进行适应性的调整。

S130、在所述待检测图上滑动所述采用框以获取采用子图，其中，所述采样框在所述待检测图长度方向上滑动步长大于0，且小于所述采样框的长度，和/或，所述采样框在所述待检测图宽度方向上滑动步长大于0，且小于所述采样框的宽度。

具体而言，在得到确定尺寸的采用框后，可在待检测图上滑动采样框以得到采样子图。这其中，由于采样框在待检测图长度方向上滑动的步长大于0，且小于采样框的长度，因此，在待检测图的长度方向上滑动采样框而得到的相邻两张采样子图存在部分重叠。同理，由于第二预设步长大于0，且小于采样框的宽度。即是说，在待检测图宽度方向上滑动采样框而得到的相邻两张采样子图存在部分重叠。如此，使得在待检测图长度方向上和/或宽度方向上相邻的两张采样子图中存在部分重复的特征。

S140、融合所有的采样子图，以得到强特征输入图。

具体而言，由于待检测图长度方向上和/或宽度方向上相邻的两张采样子图中存在部分重复的特征，因此，融合各个采样子图而得到的强特征输入图相较于待检测图而言，能够强化待检测图中各个原始特征，从而使待检测图中的人脸特征更为明显。即是说，强特征输入图中的人脸特征更为明显。

S150、将所述强特征输入图导入根据上述的人脸模型训练方法训练得到人脸检测模型中进行人脸检测。

具体而言，将步骤S140中得到的该强特征输入图输入上述人脸模型训练服方法训练得到的人脸检测模型中进行人脸检测，由于强特征输入图中的人脸特征更为明显，结合上述训练方法训练得到的人脸检测模型，能够显著地提高对人脸的检出率，尤其是对待检测图片中小脸的检出率。

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括人脸检测模型训练程序10，本发明之计算机可读存储介质的具体实施方式与上述人脸检测模型训练方法以及服务器1的具体实施方式大致相同，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种人脸检测模型训练方法，其特征在于，包括：

2.如权利要求1所述的人脸检测模型训练方法，其特征在于，所述从待训练图片中提取特征以获取至少两种分辨率的初始特征图，包括：

3.如权利要求1所述的人脸检测模型训练方法，其特征在于，所述融合所述初始特征图以得到第一检测特征图和第二检测特征图，包括：

4.如权利要求3所述的人脸检测模型训练方法，其特征在于，所述按照分辨率从小到大的顺序，向分辨率变大的方向融合所述初始特征图，以得到分辨率依次增大的多种尺寸的融合特征图，包括：

按照分辨率从小到大的顺序对初始特征图进行排序；

判断是否第一次执行循环，

若是，则获取分辨率最小的初始特征图作为第一特征图；

5.如权利要求1所述的人脸检测模型训练方法，其特征在于，所述通过第一检测器在所述第一检测特征图上进行第一尺度脸型检测，通过第二检测器在所述第二检测特征图上进行第二尺度脸型检测，包括：

计算第一检测特征图的感受野；

6.如权利要求5所述的人脸检测模型训练方法，其特征在于，所述第一预设缩放比大于所述第二预设缩放比。

7.如权利要求1所述的人脸检测模型训练方法，其特征在于，所述目标损失函数如下：

L＝L_det+λL_feature

8.一种人脸检测方法，其特征在于，所述方法包括：

获取与待检测图等比例的图像框；

融合所有的采样子图，以得到强特征输入图；

将所述强特征输入图导入根据权利要求1至7中任一项所述的人脸模型训练方法训练得到人脸检测模型中进行人脸检测。

9.一种人脸检测模型训练设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的人脸检测模型训练程序，所述处理器执行所述人脸检测模型训练程序时实现如权利要求1-7中任一项所述的人脸检测模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有人脸检测模型训练程序，所述人脸检测模型训练程序被处理器执行时实现如权利要求1-7中任一项所述的人脸检测模型训练方法。