CN112926506A

CN112926506A - 一种基于卷积神经网络的非受控人脸检测方法及系统

Info

Publication number: CN112926506A
Application number: CN202110313634.2A
Authority: CN
Inventors: 钟福金; 王润生; 侯梦军
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shanghai Zhongfei Electronic Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-06-08
Anticipated expiration: 2041-03-24
Also published as: CN112926506B

Abstract

本发明属于人脸检测领域，涉及一种基于卷积神经网络的非受控人脸检测方法及系统；所述方法包括获取人脸图像集合，并对其进行预处理输入到卷积神经网络中进行特征提取；利用特征金字塔将提取到的不同层级的特征图进行融合；从主分支中获取特征图中的特征点以及该特征图的第一回归结果；对特征点按照混合vMF分布建模，从主分支中得到该特征图的第一分类结果；融合第一回归结果的边界特征后，采用与主分支相同的方式得到辅助分支的第二回归结果与第二分类结果，对卷积神经网络进行迭代训练直至收敛；将待测人脸图像输入到训练完成的卷积神经网络中，输出检测结果；本发明能够精准的提取出任意人脸图像中的人脸位置。

Description

一种基于卷积神经网络的非受控人脸检测方法及系统

技术领域

本发明属于人脸检测领域，特别涉及一种基于卷积神经网络的非受控人脸检测方法及系统。

背景技术

人脸作为人最重要的特征之一，其传达了重要的身份信息。而人脸检测是多数面部分析算法的基础，这些算法通常包括人脸对齐、人脸建模、人脸识别、头部姿势跟踪等等。因此，人脸检测在人机交互、图像检索、智能监控等领域有着较为广泛的实际应用意义。相较与受控环境，非受控环境更接近于现实世界中的复杂场景，而人脸检测在非受控环境下受光照、姿势、分辨率、尺度和遮挡等因素的影响，使得人脸检测任务在非受控环境下仍具有挑战性。

现有的人脸检测算法大致可以分为两类，一类是基于手工特征的传统人脸检测方法，这些检测方法的流程通常包括：滑动窗口的选择、特征提取、训练分类器。但由于其手工制作的特征在复杂场景中缺乏灵活性，因此传统的人脸检测方法受限于简单的应用场景中。第二类是基于卷积神经网络的深度学习方法，由于深度卷积神经网络的感受野机制与人类视觉系统契合，因此深度卷积神经网络被大量应用到人脸检测问题中。基于卷积神经网络的深度学习方法可以实现自动提取特征，并且具有强大的学习能力和良好的鲁棒性，同时提供了端到端的解决方案，从而其效果远好于传统人脸检测方法。

现有技术中，基于卷积神经网络的人脸检测器都是基于锚(anchor)的，其在人脸检测领域已经达到了较好的效果，但基于anchor的人脸检测器存在许多超参，如:iou阈值、anchor的尺度、长宽比以及它的基础大小，而这极大的依赖于手工调参过程，限制了模型的自适应能力以及跨域能力；并且基于anchor的人脸检测器，由于anchor的尺度是离散的，但图像中的人脸尺度却是相对连续的，这导致了基于anchor的人脸检测器无法完全覆盖所有人脸。另外，现有的非受控人脸检测方法仍不能覆盖极端环境下的人脸，如遮挡人脸，在非受控环境中，由于遮挡物位置以及类型的多样性，使得有部分遮挡的人脸检测极具挑战性。因此如何解决基于anchor的人脸检测器所带来的问题以及极端场景下的人脸检测问题以使得人脸检测精度提高，是当前亟待解决的问题。

发明内容

为解决上述问题，本发明提出了一种基于卷积神经网络的非受控人脸检测方法及系统。

在本发明的第一方面，本发明提供了一种基于卷积神经网络的非受控人脸检测方法，包括以下步骤：

获取带有人脸位置标签的人脸图像集合，并对其进行预处理；

将预处理后的人脸图像输入到卷积神经网络中进行特征提取；

利用特征金字塔将提取到的不同层级的特征图进行融合；

对所述特征图进行图像增强，从主分支中获取特征图中的特征点以及该特征图的第一回归结果；

对所述特征点按照混合vMF分布建模，所述特征图经过多个混合vMF分布模型后，从主分支中得到该特征图的第一分类结果；

在所述主分支后加入辅助分支，在融合第一回归结果得到的回归预测框的边界特征后，对融合后的特征采用与主分支相同的方式得到第二回归结果与第二分类结果；

联合优化求解主分支与辅助分支的损失函数，对卷积神经网络进行迭代训练直至收敛；

将待测人脸图像输入到训练完成的卷积神经网络中，输出检测结果。

在本发明的第二方面，本发明还提供了一种基于卷积神经网络的非受控人脸检测系统，图像获取模块，用于获取带有人脸位置标签的人脸图像集合以及待测人脸图像；

数据预处理模块，用于对图像获取模块获取的人脸图像进行预处理；

卷积神经网络训练模块，用于对将预处理后的人脸图像输入到卷积神经网络中进行特征提取；利用特征金字塔将提取到的不同层级的特征图进行融合；对所述特征图进行图像增强，从主分支中获取特征图中的特征点以及该特征图的第一回归结果；对所述特征点按照混合vMF分布建模，所述特征图经过多个混合vMF分布模型后，从主分支中得到该特征图的第一分类结果；在所述主分支后加入辅助分支，在融合第一回归结果得到的回归预测框的边界特征后，对融合后的特征采用与主分支相同的方式得到第二回归结果与第二分类结果；联合优化求解主分支与辅助分支的损失函数，对卷积神经网络进行迭代训练直至收敛；

输出模块，用于输出待测人脸图像的检测结果。

本发明的有益技术效果：

(1)本发明具有精度高的效果，能够对任意输入的包含人脸的图像输出图像中人脸的坐标位置以及坐标位置对应图像属于人脸的置信度。

(2)本发明将现有人脸检测器中基于anchor的框架改为anchor free的框架，anchor free的人脸检测方法相较于基于anchor的人脸检测方法大大减少了超参的数量，提升了模型的灵活性；并且，使用特征点落入人脸注释框的方法代替了基于anchor的人脸检测器中计算anchor与人脸注释框IoU的方法来匹配人脸，明显的提升了模型匹配到的人脸的数量。

(3)本发明在主分支的分类分支上，将分类分支输出的特征图中的特征点建模为3个混合vMF分布，分别代表人脸上的遮挡物、背景、人脸，而混合模型的生成特性使它能在物体内定位遮挡物，并随之关注物体的未遮挡部分，这使得模型能够提升对部分遮挡人脸的检测能力；此外由于vMF分布可微，所以可以将其嵌入到网络中代替模型主分支的分类输出；并且vMF能够表示高维有向性数据，所以将其建模高维的图像特征是个较好的选择。

(4)本发明在每层特征图所在的主分支上增加了辅助分支，该辅助分支在主分支的回归结果的基础上融合了预测框边界点的特征，并进行了进一步的分类和回归，融合边界点的特征来表示预测框，相较于用单个点的特征来表示预测框，其携带了更为丰富的特征信息，从而能够更为精确地对人脸进行分类与回归。

(5)本发明提出了一种特征增强模块，该模块基于不同深度的卷积组合来对同一张特征图进行卷积，从而获得多种该特征图的感受野，然后将卷积结果基于通道融合，从而得到了多尺度的特征图。

附图说明

图1为本发明实施例的一种基于卷积神经网络的非受控人脸检测方法的流程图；

图2为本发明实施例的特征增强模块的结构示意图；

图3为本发明实施例的将建模的vMF模型嵌入到分类头部的结构示意图；

图4为本发明实施例的融合了边界特征的辅助分支的结构示意图；

图5为本发明实施例的一种基于卷积神经网络的非受控人脸检测网络的结构示意图；

图6为本发明实施例的训练流程示意图；

图7为本发明实施例的一个应用效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，本申请提供的人脸检测方法可应用于对伪造人脸进行检测的场景，例如，用于人脸核身产品，司法验证工具，图片或视频的鉴真产品。为了提高人脸支付以及身份认证等多项业务的安全性，本申请提供的人脸检测方法有助于公安司法证据验伪，防范犯罪嫌疑人利用人脸伪造技术伪造证据。为了提升多媒体平台上传播媒体的公信力，防止对用户产生误导，本申请提供的人脸检测方法有助于平台进行图像或视频筛查，对检测出来的伪造图像和视频加上显著标记，如“该视频为合成视频”，确保视频内容的可信度，保证社会公信。可选地，本申请提供的人脸检测方法还可以应用于如下场景：

一、政务民生场景；

例如，用户打开养老金领取的公众号、小程序或者应用程序(application，APP)，上传自己的照片至后台，后台调用本申请提供的人脸检测模型，对用户上传的照片进行验证，如果验证通过，则该用户可以预约办理与养老金领取相关的业务。

二、金融行业场景；

例如，用户需要进行远程开户或者大额转账等业务时，为了减少银行的人力投入，并提高用户的便利性，用户将实时拍摄的照片上传至后台，后台调用本申请提供的人脸检测模型，对用户上传的照片进行验证，如果验证通过，则该用户可以相应业务。

三、交通出行场景；

例如，在机场安检时，会出现乘客忘带身份证的情况，出现这类情况是，可在小程序内使用临时乘机证明的服务，后台调用本申请提供的人脸检测模型用户的真实性进行检测，并且验证该用户的实名注册信息，如果验证通过，即可生成一张临时乘机二维码，在登机时，扫描二维码即可完成登记。

为了便于理解，本申请提出了一种基于卷积神经网络的非受控人脸检测方法，如图1所示，包括：

101、获取带有人脸位置标签的人脸图像集合，并对其进行预处理；

具体的，可以采用现有的人脸图像集合进行相应的预处理，在本发明实施例中，以WIDER FACE数据集为例，WIDER FACE数据集是人脸检测的一个benchmark数据集，包含32203图像，以及393703个标注人脸，其中，158989个标注人脸位于训练集，39496个位于验证集。每一个子集都包含3个级别的检测难度：Easy，Medium，Hard。这些人脸在尺度，姿态，光照、表情、遮挡方面都有很大的变化范围，WIDER FACE选择的图像主要来源于公开数据集WIDER，WIDER FACE共分为61个类别，对于每个类别，随机选择40％、10％、50％作为训练、验证、测试集。

在本发明实施例中，对WIDER FACE数据集进行预处理：所述预处理包括：对数据集中的原始图像进行随机剪裁、颜色扰动、随机翻转、缩放至固定尺寸的处理。

具体的，对图像中最短边选取随机比例，并以此长度在图像中随机剪裁一个正方形区域；后对剪裁后得到的图像在(0.5～1.5)的范围内随机调整对比度以及饱和度；随后对图像进行随机翻转；并将处理后的图像同一缩放至640×640大小，方便后续在卷积神经网络进行训练。

102、将预处理后的人脸图像输入到卷积神经网络中进行特征提取；

将预处理后的训练人脸图像样本输入到卷积神经网络中，所述人脸图像样本作为训练样本首先进入由ResNet-50构成的主干网络，经过特征提取后在每组残差后都会得到一个特征图，共4个特征图，大小分别为160×160、80×80、40×40、20×20，记为C2、C3、C4、C5，并在C5的基础上再额外进行两次卷积，卷积核大小为3×3，步长为2，padding为1，得到两个额外的特征图，大小分别为10×10、5×5，记为C6、C7。

在一些实施例中，本发明中将预处理后的图像输入ResNet-50构成的主干网络时，需要首先经过卷积核大小为7×7，步长为2的卷积层，再经过最大池化层，后经过四组不同结构的残差组，各残差模块组依次包含数量为3，4，6，3的残差模块。

103、利用特征金字塔将提取到的不同层级的特征图进行融合；

本实施例中，使用特征金字塔将高层特征图与低层特征图相融合，首先将C5、C4、C3、C2通过1×1的卷积降维至256，随后将C5上采样至与C4大小相同，然后将C5与C4以元素求和的方式融合为一张特征图，后将这张特征图经过一次3×3的卷积，得到的特征图记为P4，然后将上述C5与C4融合后的特征图上采样，以同样的方式与C3融合得到的特征图记为P3，同样的自上而下的方式得到P2，C5、C6、C7则分别进行一次3×3的卷积，得到的特征图分别记为P5、P6、P7。

104、对所述特征图进行图像增强，从主分支中获取特征图中的特征点以及该特征图的第一回归结果；

从低层特征图到高层特征图，P2、P3、P4、P5、P6、P7分别进入一个由深度不同的3×3卷积组合构成的特征增强模块(如图2所示)，后将4条分支的输出基于通道连接到一起，得到特征增强后的特征图，其能够增强特征的原因在于深度不同的各分支对应的感受野也就不同，将其融合到一起，则获得具有多样感受野的特征图。

特征图中包含了大量的特征点，本发明从主分支中获取了特征图中的特征点，同时还利用主分支中的回归分支在特征增强模块后经过4个3×3的卷积后得到第一回归结果。

在一些实施例中，所述特征增强模块包括3×3的卷积核，对通道数为256的特征图，分别进行深度为4、3、2、1的3×3卷积，然后分别得到通道数为64、64、64、64的特征图，再基于通道连接将其到一起得到增强后的通道数为256的特征图。

105、对所述特征点按照混合vMF分布建模，所述特征图经过多个混合vMF分布模型后，从主分支中得到该特征图的第一分类结果；

在本发明实施例中，将主分支中分类分支的输出特征图中的各个特征点建模为三个混合vMF分布；这三个混合vMF分布分别代表人脸图像中的遮挡物、背景以及人脸；当特征经过这三个vMF分布时，即可得当前特征对应的三个分布的概率密度值，三个值取最大，得到的值即为该特征的分类输出。

在本发明中，将VMF概率密度函数中的每一个聚类中心转换为对应的一个卷积层；随机初始化混合VMF分布模型的权重向量，特征点经过vMF概率密度函数后得到的输出与权重向量做内积运算，将该内积运算得到的结果作为该特征图的分类得分，按照元素最大原则从多个混合vMF分布模型的分类得分中输出该特征图的第一分类结果。

将建模的vMF模型嵌入到分类分支的头部，其中vMF分布的概率密度函数如下所示：

其中，f_pi表示特征向量p的第i维的元素值，λ_i表示混合vMF分布中第i个vMF分布的参数，m为常数，μ_i为混合vMF分布中第i个vMF分布的聚类中心，G(m)是一个归一化常数。

可以理解的是，本发明中有多个混合vMF分布，每个混合vMF分布中又包含有多个vMF分布。

如图3所示，以建模的人脸vMF为例，首先将概率密度函数中的聚类中心μ转换为256个1×1×1的卷积层，并对其进行初始化，其中256代表256个聚类中心，对应着分类分支中输出的特征图的通道数，也代表着此混合分布由256个vMF分布混合而成，由于vMF概率密度函数中除f_p表示输入外，剩余参数皆为常数，因此将这部分剩下的计算记为E，随后初始化一个1×1×256的向量记为B1作为混合vMF分布的对应权重，将经过E输出的H×W×256的特征图(其中H、W分别代表特征图的高和宽)与B1做内积计算得到H×W×1的特征图即为特征图经过代表人脸的vMF混合分布的分类得分。以同样的方式可得到另外两个vMF混合分布的分类得分，随后按元素取最大得到最终的分类输出结果，大小为H×W×1。

可以理解的是，本发明中每个vMF分布是独立进行的，例如，关于遮挡物的vMF分布的概率密度值为0.7，关于背景的vMF分布的概率密度值为0.5，关于人脸的vMF分布的概率密度值为0.6，根据上述元素最大原则，本发明将选择遮挡物的vMF分布的概率密度值作为该特征的分类即第一分类结果输出，当出现两个或三个分布的概率密度值相等时，可以任意选择其中一个概率值作为输出。

106、在所述主分支后加入辅助分支，在融合第一回归结果得到的回归预测框的边界特征后，对融合后的特征采用与主分支相同的方式得到第二回归结果与第二分类结果；

在本发明中，主分支和辅助分支最终输出的的卷积是一样的结构，都是由H*W*256大小特征图输出为图上那两个分类和回归的输出；在第一回归结果的回归预测框中的每个边界选取若干特征点，利用最大池化得到代表该边界的特征点；将四个边界的特征点与所述回归预测框对应的特征点相融合。

在每层的主分支上再加入一个辅助分支，由主分支回归得到的预测框记为预测框，辅助分支在预测框的每个边界选取10个点，并利用最大池化得到代表该边界的特征点，并将4个边界的特征点与原本预测框对应的特征点相融合，得到了更为鲁棒的代表该预测框的特征，并使用这个特征做进一步的分类与回归，如图4所示。相较于用单个点的特征来表示预测框，其携带了更为丰富的特征信息，从而能够更为精确地对人脸进行分类与回归。

107、联合优化求解主分支与辅助分支的损失函数，对卷积神经网络进行迭代训练直至收敛；

在所述联合优化求解主分支与辅助分支的损失函数之前还包括将特征点划分为正样本和负样本，利用正样本和负样本分别对主分支与辅助分支中的分类分支即第一分类结果和第二分类结果进行训练，采用正样本分别对主分支与辅助分支中的回归分支即第一回归结果和第二回归结果进行训练。

所述特征点划分为正样本和负样本的方式包括将落入人脸注释框内的特征点记为正样本，将未落入人脸注释框内的特征点记为负样本；若一个特征点同时落入多个人脸注释框，则取面积最小的人脸注释框作为该特征点对应的人脸注释框。

在本发明中，通过划分正负样本的方式免除了基于anchor的框架大量超参数，也就是说划分正负样本的方式是基于anchor的框架与anchor free的框架之间最主要的区别，本发明通过上述anchor free的框架免除了在设计anchor时需要考虑的多个超参数。

所述主分支与辅助分支的损失函数相同，都包括分类损失函数Focal Loss以及回归损失DIoU Loss，其中Focal Loss如下所示：

其中，α为平衡因子，用来平衡正负样本本身的比例不均，γ用来调节简单样本权重降低的速率，y＝1表示正样本，y＝0表示负样本，y′表示该样本所预测的置信度。

回归损失DIoU Loss如下所示：

其中，IoU表示预测框与目标框之间的交并比，b,b^gt分别表示预测框与目标框的中心点，ρ²(b,b^gt)表示预测框与目标框的中心点的欧氏距离的平方，c是包含预测框与目标框的最小矩形的对角线长度。

108、将待测人脸图像输入到训练完成的卷积神经网络中，输出检测结果。

在本发明实施例中，可以从主分支输出第一分类结果和第一回归结果或者从辅助分支输出第二分类结果和第二回归结果，或者输出第一分类结果与第二分类结果的加权得分以及第二回归结果。

综合来看，本发明中可以只使用主分支的输出(辅助分支只用作训练)，也可以直接只使用辅助分支的输出，同时还可以将二者分类得分结合，输出辅助分支的回归结果。

在本发明另一些实施例中，本发明还提供了一种基于卷积神经网络的非受控人脸检测系统，所述系统包括：

图像获取模块，用于获取带有人脸位置标签的人脸图像集合以及待测人脸图像；

输出模块，用于输出待测人脸图像的检测结果。

在一些实施例中，本发明可以使用SGD优化器进行训练调节，经过多轮训练后，神经网络趋于稳定，迭代训练结束，训练过程如图6所示：

获取人脸图像数据集后，对人脸图像进行预处理；

构建出融合边界特征的人脸检测网络模型；

使用数据集训练卷积神经网络，并进行多次迭代；

将卷积神经网络的输出结果与图像人脸注释信息进行损失求解，直至损失趋于稳定；

此时，结束训练并保存训练好的神经网络模型。

训练完成的神经网络模型如图5所示，其中特征增强模块如图2所示，分类分支头部的混合vMF模型如图3所示，辅助分支如图4所示。

在一些实施例中，所述卷积神经网络训练模块包括主干网络模块和后端网络模块，主干网络模块由ResNet-50构成，该主干网络用于特征的提取；后端模块由特征金字塔模块、特征增强模块、头部网络模块构成。

所述特征金字塔模块将低层特征图和高层特征图融合在一起；所述的特征增强模块通过不同深度的卷积获得多尺度的感受野以达到增强特征的目的；所述的头部网络模块，是由主干分支以及辅助分支构成，其中主分支中的分类分支将输出建模为混合vMF分布，并将特征图经过vMF分布所得输出按元素求最大，得到预测的分类得分；辅助分支是基于主分支的回归结果，融合了边界特征后做进一步的分类与回归。

图7是本发明的人脸检测图，输入左侧的原始图像后，对原始图像做随机剪裁、颜色扰动、随即翻转、缩放至固定尺寸的预处理，使输入更为多样，从而增强模型的泛化能力；将处理好的图片输入到基于卷积神经网络的非受控人脸检测网络中进行特征提取及人脸检测，从右侧图像中可以看出最终输出包含图像中人脸的位置以及对应的置信度。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于卷积神经网络的非受控人脸检测方法，其特征在于，包括：

利用特征金字塔将提取到的不同层级的特征图进行融合；

2.根据权利要求1所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，对所述特征点按照混合vMF分布建模包括将主分支中分类分支的输出特征图中的各个特征点建模为混合vMF分布，假设特征点的维度是N维，那么其每一维对应一个vMF分布，每一维的元素值作为一个vMF概率密度函数的随机变量值，则每个特征点对应N个vMF分布，这个N个vMF分布通过和为1的权重混合后，即得最终的混合vMF分布，共建模三个vMF混合分布，这三个混合vMF分布分别代表人脸图像中的遮挡物、背景以及人脸。

3.根据权利要求1所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，所述从主分支中得到该特征图的第一分类结果包括将VMF概率密度函数中的每一个聚类中心转换为对应的一个卷积层；随机初始化混合VMF分布模型的权重向量，特征点经过vMF概率密度函数后得到的输出与所述权重向量做内积运算，将该内积运算得到的结果作为该特征图的分类得分，按照元素最大原则从多个混合vMF分布模型的分类得分中输出该特征图的第一分类结果。

4.根据权利要求3所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，所述VMF概率密度函数的计算方式表示为：

其中，f_ｐｉ表示特征向量p的第i维的元素值，λ_ｉ表示混合vMF分布中第i个vMF分布的参数，m为常数，μ_ｉ为混合vMF分布中第i个vMF分布的聚类中心，G(m)是一个归一化常数。

5.根据权利要求1所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，所述融合第一回归结果得到的回归预测框的边界特征的过程包括在第一回归结果的回归预测框中的每个边界选取若干特征点，利用最大池化得到代表该边界的特征点；将四个边界的特征点与所述回归预测框对应的特征点相融合。

6.根据权利要求1所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，在所述联合优化求解主分支与辅助分支的损失函数之前还包括将特征点划分为正样本和负样本，利用正样本和负样本分别对主分支与辅助分支中的分类分支即第一分类结果和第二分类结果进行训练，采用正样本分别对主分支与辅助分支中的回归分支即第一回归结果和第二回归结果进行训练。

7.根据权利要求6所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，所述特征点划分为正样本和负样本的方式包括将落入人脸注释框内的特征点记为正样本，将未落入人脸注释框内的特征点记为负样本；若一个特征点同时落入多个人脸注释框，则取面积最小的人脸注释框作为该特征点对应的人脸注释框。

8.根据权利要求1所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，所述主分支与辅助分支的损失函数包括：

主分支与辅助分支的分类损失都是采用Focal Loss，表示如下：

其中，α为平衡因子，用来平衡正负样本本身的比例不均，γ用来调节简单样本权重降低的速率，y＝1表示正样本，y＝0表示负样本，y′表示该样本所预测的置信度；

主分支与辅助分支的回归损失都是采用DIoU Loss，表示如下：

其中，IoU表示预测框与目标框之间的交并比，b,b^gt分别表示预测框与目标框的中心点，ρ^２(b,b^gt)表示预测框与目标框的中心点的欧氏距离的平方，c是包含预测框与目标框的最小矩形的对角线长度。

9.根据权利要求1所述的一种基于卷积神经网络的非受控人脸检测方法，其特征在于，所述将待测人脸图像输入到训练完成的卷积神经网络中，输出检测结果包括从主分支输出第一分类结果和第一回归结果或者从辅助分支输出第二分类结果和第二回归结果，或者输出第一分类结果与第二分类结果的加权得分以及第二回归结果。

10.一种基于卷积神经网络的非受控人脸检测系统，其特征在于，所述系统包括：

输出模块，用于输出待测人脸图像的检测结果。