CN111783749A

CN111783749A - 一种人脸检测方法、装置、电子设备及存储介质

Info

Publication number: CN111783749A
Application number: CN202010809618.8A
Authority: CN
Inventors: 谢鹏; 肖贤鹏; 李辰; 李玮; 廖强
Original assignee: Chengdu Jiahua Chain Cloud Technology Co ltd
Current assignee: Chengdu Jiahua Chain Cloud Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-10-16

Abstract

本申请提供一种人脸检测方法、装置、电子设备及存储介质，该方法包括：获得待检测图像；使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征；使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，获得融合特征；使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果。在上述的实现过程中，使用人脸检测模型中的单点无头网络提供全局感受野，并根据全局感受野对融合特征进行预测，这里的融合特征是对待检测图像的多尺度特征进行融合获得的，从而增强了人脸检测模型获得融合特征中的上下文信息或者互文(context)信息的能力，有效地提升了对待检测图像进行检测的检测效果。

Description

一种人脸检测方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能、深度学习和人脸检测的技术领域，具体而言，涉及一种人脸检测方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

深度学习(Deep Learning)，是指学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助；深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据，深度学习包括但不限于使用更深层次的神经网络模型提取文字、图像和声音等数据的特征。

人脸检测(face detection)，是一种在任意数字图像中找到人脸的位置和大小的计算机技术；人脸检测可以检测出面部特征，例如是人脸的位置大小和该人脸分类，这里的人脸分类是指具体从多个人脸区别出的某个人脸的类别，并忽略诸如建筑物、树木和身体等其他任何东西。

目前对人脸进行检测的过程，大部分都是采用区域卷积神经网络(RegionConvolutional Neural Network，RCNN)、fast RCNN或者faster RCNN来对人脸进行检测，这里的RCNN是第一个成功将深度学习应用到目标检测上的算法；RCNN基于卷积神经网络和线性回归等算法，来实现目标检测的目的；在具体的实践过程中发现，在待检测图像中存在不同的明暗、遮挡、模糊、甚至人脸很小的情况下，对人脸进行检测效果不理想的问题。

发明内容

本申请实施例的目的在于提供一种人脸检测方法、装置、电子设备及存储介质，用于改善对人脸进行检测效果不理想的问题。

本申请实施例提供了一种人脸检测方法，包括：获得待检测图像；使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征；使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，获得融合特征；使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果。在上述的实现过程中，使用人脸检测模型中的单点无头网络提供全局感受野，并根据全局感受野对融合特征进行预测，这里的融合特征是对待检测图像的多尺度特征进行融合获得的，从而增强了人脸检测模型获得融合特征中的上下文信息或者互文(context)信息的能力，有效地提升了对待检测图像进行检测的检测效果。

可选地，在本申请实施例中，特征提取网络包括：多个深度可分离卷积层；使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征，包括：使用特征提取网络中的深度可分离卷积层对待检测图像进行特征提取，获得多尺度特征。在上述的实现过程中，通过使用特征提取网络中的深度可分离卷积层对待检测图像进行特征提取，由于使用可分离卷积层替代了普通的卷积层操作，从而极大地减少卷积运算量和网络中的参数量，有效地在保持模型性能的前提下，降低人脸检测模型的尺寸大小并提升人脸检测模型的运算速度。

可选地，在本申请实施例中，特征金字塔网络包括：多个可分离反卷积层；使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，包括：使用特征金字塔网络中的可分离反卷积层对多尺度特征进行上采样，获得上采样特征，并对上采样特征和多尺度特征进行融合。在上述的实现过程中，通过使用特征金字塔网络中的可分离反卷积层对多尺度特征进行上采样，获得上采样特征，并对上采样特征和多尺度特征进行融合；由于使用可分离反卷积层替代了普通的上采样操作，从而极大地减少卷积运算量和网络中的参数量，有效地在保持模型性能的前提下，降低人脸检测模型的尺寸大小并提升人脸检测模型的运算速度。

可选地，在本申请实施例中，人脸检测结果包括：人脸边界框和人脸边界框对应的分类得分；使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果，包括：使用人脸检测模型中的单点无头网络对融合特征进行边界框的分类和回归，获得人脸边界框和人脸边界框对应的分类得分。在上述的实现过程中，通过使用人脸检测模型中的单点无头网络对融合特征进行边界框的分类和回归，这里的单点无头网络提供了待检测图像的全局感受野，增强了人脸检测模型获得融合特征中的上下文信息或者互文(context)信息的能力，从而有效地提升了人脸检测模型对待检测图像进行预测的精度。

可选地，在本申请实施例中，人脸检测结果还包括：人脸边界框对应的关键点；在使用人脸检测模型中的单点无头网络对融合特征进行预测之后，还包括：通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，获得人脸边界框对应的关键点。在上述的实现过程中，通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，也就是说，使用多任务学习策略正增加关键点回归损失，从而为人脸检测模型提供了额外的关键点标注监督信息，使得人脸检测模型能够根据这些额外的监督信息更好地预测待检测图像，有效地提高了预测待检测图像的精度。

可选地，在本申请实施例中，在使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征之前，还包括：获得多个人脸图像和多个标注图像，标注图像是使用边界框对人脸图像中的人脸区域进行标注，以及对人脸区域对应的分类和关键点进行标注获得的，关键点表征人脸区域中的关键特征点；以多个人脸图像为训练数据，以多个标注图像为训练标签，对人脸检测网络进行训练，获得训练后的人脸检测模型。

可选地，在本申请实施例中，获得待检测图像，包括：接收终端设备发送的视频流，并从视频流中获取待检测图像；在获得人脸检测结果之后，还包括：向终端设备发送人脸检测结果。在上述的实现过程中，通过接收终端设备发送的视频流，并从视频流中获取待检测图像；在获得人脸检测结果之后，还向终端设备发送人脸检测结果；使得终端设备无需获知根据视频流处理获得人脸检测结果的细节，从而为终端设备更好地提高人脸检测服务，加快了终端设备获得人脸检测结果的速度。

本申请实施例还提供了一种人脸检测装置，包括：检测图像获得模块，用于获得待检测图像；尺度特征提取模块，用于使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征；融合特征获得模块，用于使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，获得融合特征；检测结果获得模块，用于使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果。

可选地，在本申请实施例中，特征提取网络包括：多个深度可分离卷积层；尺度特征提取模块，包括：检测图像采样模块，用于使用特征提取网络中的深度可分离卷积层对待检测图像进行特征提取，获得多尺度特征。

可选地，在本申请实施例中，特征金字塔网络包括：多个可分离反卷积层；融合特征获得模块，包括：尺度特征融合模块，用于使用特征金字塔网络中的可分离反卷积层对多尺度特征进行上采样，获得上采样特征，并对上采样特征和多尺度特征进行融合。

可选地，在本申请实施例中，人脸检测结果包括：人脸边界框和人脸边界框对应的分类得分；检测结果获得模块，包括：特征分类回归模块，用于使用人脸检测模型中的单点无头网络对融合特征进行边界框的分类和回归，获得人脸边界框和人脸边界框对应的分类得分。

可选地，在本申请实施例中，人脸检测结果还包括：人脸边界框对应的关键点；人脸检测装置，还包括：关键点回归模块，用于通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，获得人脸边界框对应的关键点。

可选地，在本申请实施例中，人脸检测装置，还包括：图像标注获得模块，用于获得多个人脸图像和多个标注图像，标注图像是使用边界框对人脸图像中的人脸区域进行标注，以及对人脸区域对应的分类和关键点进行标注获得的，关键点表征人脸区域中的关键特征点；检测网络训练模块，用于以多个人脸图像为训练数据，以多个标注图像为训练标签，对人脸检测网络进行训练，获得训练后的人脸检测模型。

可选地，在本申请实施例中，人脸检测装置，还包括：检测图像获取模块，用于接收终端设备发送的视频流，并从视频流中获取待检测图像；检测结果发送模块，用于向终端设备发送人脸检测结果。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的人脸检测方法的流程示意图；

图2示出的本申请实施例提供的人脸检测模型的其中一种网络结构示意图；

图3示出的本申请实施例提供的单点无头网络的网络结构示意图；

图4示出的本申请实施例提供的电子设备与终端设备进行交互的流程示意图；

图5示出的本申请实施例提供的人脸检测装置的结构示意图；

图6示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的人脸检测方法之前，先介绍本申请实施例涉及的一些概念：

机器学习(Machine Learning，ML)，是指人工智能领域中研究人类学习行为的一个分支；借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

人脸关键点检测，是一种在任意图像中自动搜索定义好的人脸特征点位置的技术，这里的人脸关键点具体例如：瞳孔、鼻子和嘴角等；人脸关键点检测在计算机视觉和模式识别应用中占有很重要的地位，人脸关键点检测是人脸识别和分析领域中的关键一步，人脸关键点检测是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。

人工神经网络(Artificial Neural Network，ANN)，简称神经网络(NeuralNetwork，NN)或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(例如：动物的中枢神经系统，可以是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似；这里的神经网络由大量的人工神经元联结进行计算。

卷积神经网络(Convolutional Neural Networks，CNN)，是一种人工神经网络，人工神经网络的人工神经元可以响应周围单元，可以进行大型图像处理；卷积神经网络可以包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理；二维卷积神经网络常应用于图像类文本的识别；三维卷积神经网络主要应用于医学图像以及视频类数据识别。

反卷积(Deconvolution)，又被称为转置卷积(Transposed Convolution)，是一种基于算法通过计算输出和已知输入，求未知输入的过程，用于反转卷积对记录数据的影响；反卷积的概念广泛用于信号处理和图像处理技术；由于这些技术反过来在许多科学和工程学科中广泛使用，因此反卷积可以应用到许多领域。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器；当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(Reduced Instruction Set Computing，RISC)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的人脸检测方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的人脸检测方法之前，先介绍该人脸检测方法适用的应用场景，这里的应用场景包括但不限于：安全监控、移动支付和智能家居等等领域；安全监控领域包括：视频监控和门禁系统监控，具体例如：使用该人脸检测方法确定监控摄像头拍摄的待检测图像中是否包括人脸，获得该图像对应的人脸检测结果，若检测结果为包括人脸，则将人脸区域在图像中框出来。移动支付领域具体例如：使用该人脸检测方法确定视频流中的图像是否包括人脸，若包括，则对人脸对应区域进行识别，若识别通过，则支付成功；若识别不通过，则支付失败。智能家居领域例如：使用该人脸检测方法确定视频流中的图像是否包括人脸，若包括，则调整麦克风阵列或者摄像头的方向，使麦克风阵列或者摄像头向人脸区域进一步聚焦采集，获得该人脸的音频文件和视频文件，然后对音频文件进行语音识别和声纹识别等，或者对视频文件中的图像进行口型识别和形态模式识别等等操作。

在一些实施方式中，还可以将上述的人脸检测方法部署在中央处理器(CentralProcessing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)或者神经网络处理器(Neural-network Processing Unit，NPU)上，这里神经网络处理器又被称为人工智能加速器(AI accelerator)，是一类专用于人工智能(特别是人工神经网络、机器视觉、机器学习等)硬件加速的微处理器或计算系统；典型的应用包括机器人学、物联网等数据密集型应用或传感器驱动的任务，通过部署在CPU、GPU或NPU上对摄像头获取的实时视频流或实时图片进行处理，从而避免级联结构带来大量运算消耗，节约了内存占用和功耗，有效地提升了使用该人脸检测方法处理实时视频流或实时图片的速度，即提高了从待检测图像中检测出人脸的速度。

请参见图1示出的本申请实施例提供的人脸检测方法的流程示意图；该人脸检测方法的主要思路是，使用人脸检测模型中的单点无头网络提供全局感受野，并根据全局感受野对融合特征进行预测，这里的融合特征是对待检测图像的多尺度特征进行融合获得的，从而增强了人脸检测模型获得融合特征中的上下文信息或者互文(context)信息的能力，有效地提升了对待检测图像进行检测的检测效果，上述的人脸检测方法可以包括如下步骤：

步骤S110：获得待检测图像。

待检测图像，是指需要检测是否包括人脸的图像，具体例如：对人脸拍摄的彩色图像、黑白图像或者二值图像等等。

上述步骤S110中的待检测图像的获得方式包括：第一种方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待检测图像；然后该终端设备向电子设备发送待检测图像，然后电子设备接收终端设备发送的待检测图像，电子设备可以将待检测图像存储至文件系统、数据库或移动存储设备中。第二种方式，获取预先存储的待检测图像，具体例如：从实时的视频流中或者从文件系统中的视频文件截取，获得待检测图像，或者从数据库中获取待检测图像，或者从移动存储设备中获取待检测图像。第三种方式，使用浏览器等软件获取互联网上的待检测图像，或者使用其它应用程序访问互联网获得待检测图像。

在步骤S110之后，执行步骤S120：使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征。

人脸检测模型，是指对图像进行人脸检测的神经网络模型，即该神经网络模型的作用是在图像中找到人脸的位置和大小，以及人脸的关键点等信息，这里的人脸关键点具体例如：瞳孔、鼻子和嘴角等，也就是说，可以使用这里的人脸检测模型实现人脸关键点检测。

特征提取网络模型，是指从图像中提取图像特征的神经网络模型；这里的特征提取网络模型可以包括：骨干神经网络和尺度提取网络；其中，这里骨干神经网络可用于提取图像特征，这里的尺度提取网络用于提取多尺度特征。

请参见图2示出的本申请实施例提供的人脸检测模型的其中一种网络结构示意图；上述步骤S120的实施方式包括：使用特征提取网络中的骨干神经网络提取待检测图像中的图像特征，并使用特征提取网络中的尺度提取网络提取图像特征的多尺度特征；在一些实现方式中，特征提取网络可以采用MobileNet网络，具体地，可以使用MobileNet-0.25轻量化网络的深度可分离卷积层对待检测图像进行特征提取，获得多尺度特征。由于该MobileNet-0.25轻量化网络的基本单元是深度可分离卷积层，通过采用MobileNet-0.25轻量化网络来提取待检测图像的多尺度特征，可以极大地减少计算量和网络参数量，可以在保持网络性能的前提下降低网络模型大小，同时提升模型速度。在具体的实施过程中，需要从自下而上的路径中选择固定大小的特征图(或者称卷积核)作为重建特征金字塔的参考，也就是说，使用上而下的路径对粗略的特征图进行可分离反卷积，从而生成具有强语义的高分辨率的特征图。将两个路径的相同尺寸的特征图进行横向连接合并，由于底部路径中的特征图对定位的敏感性更高，因此，在每个合并的特征图之后，执行3×3卷积操作，会减少由于反卷积而引起的混叠效果。

需要说明的是，上述的特征提取网络可以包括：多个深度可分离卷积层；这里的可分离卷积，又被称为深度可分离卷积(Depth-wise Separable Convolution，DSC)，是指在一些轻量级网络中的深度可分离卷积，这里的轻量级网络例如可以是MobileNet，这里的深度可分离卷积是由深度方向(Depth Wise)和顶点方向(Point Wise)两个部分结合起来，用来提取特征图。

在一些实现方式中，上述的骨干神经网络可以采用卷积神经网络；可以直接将一些训练好的卷积神经网络模型作为骨干神经网络，常用的卷积神经网络：LeNet、AlexNet、VGG和GoogLeNet等等；在具体的实践过程中，可以采用已经训练的ResNet、DarkNet、DenseNet等通用网络结构中的ResBlock和DenseBlock等卷积模块，当然可以对这些卷积模块进行组合构建一个深度神经网络，该满足特征图尺寸(宽和高)逐步缩小、特征图深度逐步放大。

在一些实现方式中，上述的尺度提取网络可以采用残差网络(ResNet)，常用的残差网络具体例如：ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等；当然，也可以增加一个更浅层的尺度特征图，该尺度特征图的宽高可以是原始图像尺寸或者原始图像尺寸的一半，也就是说，尺度特征图的宽是原始图像的宽的一半，尺度特征图的高是原始图像的高的一半，这样的设置属于为了更好地提取小目标表征特征。

在上述的实现过程中，通过使用特征提取网络中的深度可分离卷积层对待检测图像进行特征提取，由于使用可分离卷积层替代了普通的卷积层操作，从而极大地减少卷积运算量和网络中的参数量，有效地在保持模型性能的前提下，降低人脸检测模型的尺寸大小并提升人脸检测模型的运算速度。

在本申请实施例中，在使用人脸检测模型之前，还需要对人脸检测模型进行训练，这里的人脸检测模型训练过程可以包括如下步骤：

步骤S121：获得多个人脸图像和多个标注图像。

人脸图像，是指表征目标人脸所在的图像，这里的目标人脸是指需要在图像中标注出人脸区域的大小位置和关键点等信息的人脸。

上述步骤S121中的人脸图像的获得方式包括：第一种方式，使用图像采集设备对目标人脸的图像进行采集，获得人脸图像，这里的图像采集设备具体例如：单反彩色照相机、黑白照相机、监控摄像机、照相机或带摄像头的终端等，带摄像头的终端例如：手机、平板电脑或笔记本等；第二种方式，其他终端设备向电子设备发送人脸图像，然后电子设备接收其他终端设备发送的人脸图像；第三种方式，使用浏览器等软件获取互联网上的人脸图像，或者使用其它应用程序访问互联网获得人脸图像，或者获取预先存储的人脸图像，具体例如：从人脸视频文件中截取人脸图像，或者从实时的视频流中截取人脸图像，或者从文件系统中获取人脸图像，或者从数据库中获取人脸图像；第四种方式，对现有的进行数据增强，获得更多的人脸图像，具体例如：对于人脸图像做不同尺度的缩放，具体地，人脸图像的基准尺寸可以采用网络的输入尺寸，将人脸图像尺寸较小的维度缩放成基础尺寸，在此基础上可以根据预设比例再进行缩放，这里的预设比例例如可以是3比10，获得调整尺寸后的人脸图像。

标注图像，是使用边界框对人脸图像中的人脸区域进行标注，以及对人脸区域对应的分类和人脸区域对应的关键点进行标注获得的图像，这里的关键点表征人脸区域中的关键特征点，关键特征点具体例如：瞳孔、鼻子和嘴角等。

上述步骤S121中的标注图像的获得方式包括：第一种方式，人工识别人脸图像中的人脸位置、大小和关键点，并在人脸图像中标注出人脸位置、大小和关键点，具体例如：使用位置框标注出人脸位置和大小，这里的位置框在不同的环境有不同的称呼，例如在特征提取网络的回归过程中被称为回归框，在人脸检测过程中被称为人脸框，在数据标注阶段可以被称为标注框等等；使用点或者点和线的组合在人脸图像中标注出人脸关键点位置，具体例如：在人脸图像中的瞳孔、鼻子和嘴角进行标点，标点是指在对应位置上标注圆点形状的标记，还可以对标点进行连线等等；第二种方式，直接使用已经标注好的训练数据集中的标注图像，这里的训练数据集例如可以是ImageNet数据集；第三种方式，对现有的进行数据增强，获得更多的标注图像，具体例如：根据标注图像的尺寸调整标注位置框和特征点的尺寸，将原来的坐标位置乘以缩放尺度，得到尺度缩放后标注图像，这里的标注图像包括尺度缩放后的人脸检测框和关键点坐标。

步骤S122：以多个人脸图像为训练数据，以多个标注图像为训练标签，对人脸检测网络进行训练，获得训练后的人脸检测模型。

上述步骤S122中的对人脸检测网络进行训练的实施方式例如：使用人脸检测网络预测人脸图像中的人脸框的位置、人脸框对应的分类和人脸框对应的关键点，然后根据人脸图像中的人脸框的位置和标注图像中的人脸区域的位置构建第一损失函数，第一损失函数用于计算边界框回归损失值，根据人脸图像中的人脸框对应的分类和标注图像中的人脸区域对应的分类构建第二损失函数，第二损失函数用于计算边界框分类损失值，根据人脸图像中的人脸框对应的关键点和标注图像中的人脸区域对应的关键点构建第三损失函数，第三损失函数用于计算关键点回归损失值，根据第一损失函数、第二损失函数和第三损失函数构建总损失函数，并根据总损失函数对人脸检测网络进行训练，以使根据总损失函数计算出的损失值小于预设阈值，则获得训练后的人脸检测模型；这里的预设阈值可以根据具体情况进行设置，具体例如：可以设置为0.1、1、3、5或者10等等。

在一些实施方式中，在对人脸检测模型进行训练之后，还可以对训练后的人脸检测模型进行评估，这里的对训练后的人脸检测模型进行评估的实施方式例如：使用WIDERFACE数据集对训练后的网络模型进行预测，获得预测数据集，其中，预测数据集中包括每张图片上人脸框的数量、人脸边界框和置信度；通过预测数据集中的人脸边界框与WIDERFACE数据集中的标注框进行比较，来提高预测数据集中的预测结果的精确率和召回率。

在步骤S120之后，执行步骤S130：使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，获得融合特征。

特征金字塔网络(Feature Pyramid Network，FPN)，是一种窗口大小固定的滑动窗口检测器，在金字塔层级上扫描可以提高其对尺度变化的鲁棒性。这里的特征金字塔网络可以包括多个可分离反卷积层，也就是说，可以将原来的特征金字塔网络中的上采样操作替换为反卷积操作，具体例如：将原来的特征金字塔网络中的上采样操作替换为深度可分离卷积层。

上述步骤S130的实施方式包括：在对多尺特征进行融合时，可以使用特征金字塔网络中的多个可分离反卷积层对提取的多尺度特征进行上采样，获得上采样特征，并对上采样特征和多尺度特征进行融合，获得融合特征；也就是说，使用多个可分离反卷积层进行上采样操作，可以有效地减少神经网络参数量，从而优化了特征金字塔网络的性能，提高对上采样特征和多尺度特征进行融合的速度。

上述步骤S130的一些实施方式中，上述的特征金字塔网络可以有3个分支，分别对应3个步长，这3个步长分别可以为32、16和8；在步长为32的分支中，该分支中的特征图对应的待检测图像32x32的感受野，可以用来检测较大的人脸区域，同理可知，步长为16对应的待检测图像的感受野可用于中等人脸区域的检测，步长为8对应的待检测图像的感受野可用于较小人脸区域的检测。设置为每个步长有两个比例，即每个步长对应的特征图的每个特征点会在待检测图像上生成两个先验框；对于每一个先验框，取交并比(Intersectionover Union，IOU)最大的标注框进行匹配，先验框与标注框的交并比大于0.5被标注为正样本，小于0.3被标注为负样本，0.3-0.5之间的先验框被丢弃。只有正样本参与人脸检测框和关键点回归，负样本仅对分类损失产生影响，对回归损失没有影响，并用交叉熵函数计算分类损失匹配好的正样本和标注框可以一一对应起来，计算两个框中心点的相对位置(dx，dy)和长宽比的对数值(dw，dh)，并计算标注框关键点和正样本中心点的相对距离；具体可以使用Smooth L1损失函数计算检测框和关键点的回归损失。

在上述的实现过程中，通过使用特征金字塔网络中的可分离反卷积层对多尺度特征进行上采样，获得上采样特征，并对上采样特征和多尺度特征进行融合；由于使用可分离反卷积层替代了普通的卷积层操作，从而极大地减少卷积运算量和网络中的参数量，有效地在保持模型性能的前提下，降低人脸检测模型的尺寸大小并提升人脸检测模型的运算速度。

在步骤S130之后，执行步骤S140：使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果。

请参见图3示出的本申请实施例提供的单点无头网络的网络结构示意图；单点无头网络，又被称为单级无头人脸检测器(Single Stage Headless Face Detector，简称为SSH)，是一种被设计为减少推理(inference)时间，具有低内存、尺度不变性的单级检测器；SSH能够在神经网络的一次转发过程中同时处理多个人脸比例，显著减少了推理(inference)时间。

人脸检测结果，是指对待检测图像进行处理后获得的人脸相关检测结果信息，其中，这里的人脸检测结果可以包括：人脸边界框和人脸边界框对应的分类得分，以及人脸检测结果还可以包括人脸边界框对应的关键点。

上述步骤S140的实施方式包括：使用人脸检测模型中的单点无头网络对融合特征进行边界框的分类和回归，获得人脸边界框和人脸边界框对应的分类得分。在上述的实现过程中，使用人脸检测模型中的单点无头网络提供全局感受野，并根据全局感受野对融合特征进行预测，这里的融合特征是对待检测图像的多尺度特征进行融合获得的，从而增强了人脸检测模型获得融合特征中的上下文信息或者互文(context)信息的能力，有效地提升了人脸检测模型对待检测图像进行预测的精度，从而提升了对待检测图像进行检测的检测效果。

可选地，在使用人脸检测模型中的单点无头网络对融合特征进行预测之后，还可以对融合特征进行回归，也就是说，在步骤S140之后，还可以包括如下步骤：

步骤S150：通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，获得人脸边界框对应的关键点。

多任务学习(Multi Task Learning，MTL)，是一种归纳迁移方法，充分利用隐含在多个相关任务训练信号中的特定领域信息；在后向传播过程中，多任务学习允许共享隐层中专用于某个任务的特征被其他任务使用；多任务学习将可以学习到可适用于几个不同任务的特征，这样的特征在单任务学习网络中往往不容易学到。

上述步骤S150的实施方式包括：在人脸检测模型中的单点无头网络中加入多任务学习策略，这里的多任务学习策略是指在模型中增加多任务损失函数,这里的多任务损失函数用于计算多任务损失值，这里的多任务损失函数包括：计算边界框回归损失值的第一损失函数、计算边界框分类损失值的第二损失函数和计算关键点回归损失值的第三损失函数，也就是说，通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，获得人脸边界框对应的关键点。

在上述的实现过程中，通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，也就是说，使用多任务学习策略正增加关键点回归损失，从而为人脸检测模型提供了额外的关键点标注监督信息，使得人脸检测模型能够根据这些额外的监督信息更好地预测待检测图像，有效地提高了预测待检测图像的精度。

请参见图4示出的本申请实施例提供的电子设备与终端设备进行交互的流程示意图；可选地，在本申请实施例中，执行上述人脸检测方法的电子设备还可以与终端设备进行交互，其中，电子设备与终端设备进行交互过程可以包括：

步骤S210：电子设备接收终端设备发送的视频流，并从视频流中获取待检测图像。

上述步骤S210的实施方式例如：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)接收终端设备发送的视频流，并从视频流中获取待检测图像。

步骤S220：电子设备使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征。

步骤S230：电子设备使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，获得融合特征。

步骤S240：电子设备使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果。

步骤S250：电子设备通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，获得人脸边界框对应的关键点。

其中，该步骤S220至步骤S250的实施原理和实施方式与步骤S120至步骤S150的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120至步骤S150的描述。

步骤S260：电子设备向终端设备发送人脸检测结果。

上述步骤S260的实施方式例如：电子设备通过TCP协议或者UDP协议向终端设备发送人脸检测结果。在上述的实现过程中，通过接收终端设备发送的视频流，并从视频流中获取待检测图像；在获得人脸检测结果之后，还向终端设备发送人脸检测结果；使得终端设备无需获知根据视频流处理获得人脸检测结果的细节，从而为终端设备更好地提高人脸检测服务，加快了终端设备获得人脸检测结果的速度。

请参见图5示出的本申请实施例提供的人脸检测装置的结构示意图；本申请实施例提供了一种人脸检测装置300，包括：

检测图像获得模块310，用于获得待检测图像。

尺度特征提取模块320，用于使用预先训练的人脸检测模型中的特征提取网络提取待检测图像中的多尺度特征。

融合特征获得模块330，用于使用人脸检测模型中的特征金字塔网络对多尺度特征进行融合，获得融合特征。

检测结果获得模块340，用于使用人脸检测模型中的单点无头网络对融合特征进行预测，获得人脸检测结果。

可选地，在本申请实施例中，特征提取网络包括：多个深度可分离卷积层；尺度特征提取模块，包括：

检测图像采样模块，用于使用特征提取网络中的深度可分离卷积层对待检测图像进行特征提取，获得多尺度特征。

可选地，在本申请实施例中，特征金字塔网络包括：多个可分离反卷积层；融合特征获得模块，包括：

尺度特征融合模块，用于使用特征金字塔网络中的可分离反卷积层对多尺度特征进行上采样，获得上采样特征，并对上采样特征和多尺度特征进行融合。

可选地，在本申请实施例中，人脸检测结果包括：人脸边界框和人脸边界框对应的分类得分；检测结果获得模块，包括：

特征分类回归模块，用于使用人脸检测模型中的单点无头网络对融合特征进行边界框的分类和回归，获得人脸边界框和人脸边界框对应的分类得分。

可选地，在本申请实施例中，人脸检测结果还包括：人脸边界框对应的关键点；人脸检测装置，还包括：

关键点回归模块，用于通过多任务学习策略使用人脸检测模型中的单点无头网络对融合特征进行关键点回归，获得人脸边界框对应的关键点。

可选地，在本申请实施例中，人脸检测装置，还包括：

图像标注获得模块，用于获得多个人脸图像和多个标注图像，标注图像是使用边界框对人脸图像中的人脸区域进行标注，以及对人脸区域对应的分类和关键点进行标注获得的，关键点表征人脸区域中的关键特征点。

检测网络训练模块，用于以多个人脸图像为训练数据，以多个标注图像为训练标签，对人脸检测网络进行训练，获得训练后的人脸检测模型。

可选地，在本申请实施例中，人脸检测装置，还可以包括：

检测图像获取模块，用于接收终端设备发送的视频流，并从视频流中获取待检测图像。

检测结果发送模块，用于向终端设备发送人脸检测结果。

应理解的是，该装置与上述的人脸检测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种人脸检测方法，其特征在于，包括：

获得待检测图像；

使用预先训练的人脸检测模型中的特征提取网络提取所述待检测图像中的多尺度特征；

使用所述人脸检测模型中的特征金字塔网络对所述多尺度特征进行融合，获得融合特征；

使用所述人脸检测模型中的单点无头网络对所述融合特征进行预测，获得人脸检测结果。

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括：多个深度可分离卷积层；所述使用预先训练的人脸检测模型中的特征提取网络提取所述待检测图像中的多尺度特征，包括：

使用所述特征提取网络中的深度可分离卷积层对所述待检测图像进行特征提取，获得所述多尺度特征。

3.根据权利要求1所述的方法，其特征在于，所述特征金字塔网络包括：多个可分离反卷积层；所述使用所述人脸检测模型中的特征金字塔网络对所述多尺度特征进行融合，包括：

使用所述特征金字塔网络中的可分离反卷积层对所述多尺度特征进行上采样，获得上采样特征，并对所述上采样特征和所述多尺度特征进行融合。

4.根据权利要求1所述的方法，其特征在于，所述人脸检测结果包括：人脸边界框和所述人脸边界框对应的分类得分；所述使用所述人脸检测模型中的单点无头网络对所述融合特征进行预测，获得人脸检测结果，包括：

使用所述人脸检测模型中的单点无头网络对所述融合特征进行边界框的分类和回归，获得所述人脸边界框和所述人脸边界框对应的分类得分。

5.根据权利要求4所述的方法，其特征在于，所述人脸检测结果还包括：所述人脸边界框对应的关键点；在所述使用所述人脸检测模型中的单点无头网络对所述融合特征进行预测之后，还包括：

通过多任务学习策略使用所述人脸检测模型中的单点无头网络对所述融合特征进行关键点回归，获得所述人脸边界框对应的关键点。

6.根据权利要求1-5任一所述的方法，其特征在于，在所述使用预先训练的人脸检测模型中的特征提取网络提取所述待检测图像中的多尺度特征之前，还包括：

获得多个人脸图像和多个标注图像，所述标注图像是使用边界框对所述人脸图像中的人脸区域进行标注，以及对所述人脸区域对应的分类和关键点进行标注获得的，所述关键点表征人脸区域中的关键特征点；

以所述多个人脸图像为训练数据，以所述多个标注图像为训练标签，对人脸检测网络进行训练，获得训练后的所述人脸检测模型。

7.根据权利要求1-5任一所述的方法，其特征在于，所述获得待检测图像，包括：

接收终端设备发送的视频流，并从所述视频流中获取所述待检测图像；

在所述获得人脸检测结果之后，还包括：

向所述终端设备发送所述人脸检测结果。

8.一种人脸检测装置，其特征在于，包括：

检测图像获得模块，用于获得待检测图像；

尺度特征提取模块，用于使用预先训练的人脸检测模型中的特征提取网络提取所述待检测图像中的多尺度特征；

融合特征获得模块，用于使用所述人脸检测模型中的特征金字塔网络对所述多尺度特征进行融合，获得融合特征；

检测结果获得模块，用于使用所述人脸检测模型中的单点无头网络对所述融合特征进行预测，获得人脸检测结果。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。