CN115909465A

CN115909465A - 人脸定位检测方法、图像处理设备以及可读存储介质

Info

Publication number: CN115909465A
Application number: CN202211673845.8A
Authority: CN
Inventors: 李振乐; 梁书举; 严海兵
Original assignee: Shenzhen KTC Commercial Technology Co Ltd
Current assignee: Shenzhen KTC Commercial Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-04

Abstract

本申请实施例公开了一种人脸定位检测方法、图像处理设备以及计算机可读存储介质，用于在提高人脸定位检测的效率的情况下，对原始图像进行人脸定位检测。本申请实施例方法包括：将原始图像输入人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图，将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的人脸定位检测图像。

Description

人脸定位检测方法、图像处理设备以及可读存储介质

技术领域

本申请实施例涉及人脸定位检测领域，更具体的，是人脸定位检测方法、图像处理设备以及计算机可读存储介质。

背景技术

随着人脸定位检测技术的快速发展，进行人脸定位检测已经不算难事，但是大部分落地的还只是对于近距离的人脸定位检测，还需要满足中远距离的人脸定位检测的市场需求。

现有的中远距离的人脸定位检测方法是，通过RCNN和Fast-RCNN为代表构成的两个阶段模型实现，具体的实现过程是，先获得包含待检测物体的预选框(Proposal)，接着根据第一阶段模型进行分类处理，然后再根据第二阶段模型进行回归处理，经过第一阶段的分类处理和第二阶段的回归处理从而进行人脸定位。

但是，这种人脸定位检测方法在第一阶段的分类处理后，在进行第二阶段的回归处理之前，还需要重新进行调试等操作，对于整体的人脸定位检测过程来说，需要消耗的时间和精力较多，人脸定位检测的效率较低。

发明内容

本申请实施例提供了一种人脸定位检测方法、图像处理设备以及计算机可读存储介质，能够在提高人脸定位检测的效率的情况下，对原始图像进行人脸定位检测。

第一方面，本申请实施例提供了一种人脸定位检测方法，包括：

获得原始图像；

将所述原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到所述主干特征提取网络输出的所述原始图像的N级尺度的目标提取特征图；所述N大于或等于2的整数；

将所述N级尺度的目标提取特征图输入所述人脸定位检测模型中的目标融合模块，由所述目标融合模块对所述N级尺度的目标特征图进行至少一次融合处理后，得到所述目标融合模块输出的N级尺度的目标融合特征图；

将所述N级尺度的目标融合特征图输入所述人脸定位检测模型的检测模块，由所述检测模块对所述N级尺度的目标融合特征图进行人脸定位检测，得到所述检测模块输出的所述原始图像对应的人脸定位检测图像。

可选的，所述主干特征提取网络包括轻量化压缩网络和特征提取优化网络；

所述将所述原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到所述主干特征提取网络输出的所述原始图像的N级尺度的目标提取特征图，包括：

将所述原始图像输入所述轻量化压缩网络，得到所述轻量化压缩网络输出的第一提取特征图；

将所述第一提取特征图输入所述特征提取优化网络，得到所述特征提取优化网络输出的第二提取特征图，并将所述第二提取特征图作为所述N级尺度的目标提取特征图。

可选的，所述目标融合模块包括第一融合模块和第二融合模块；

所述由所述目标融合模块对所述N级尺度的目标特征图进行至少一次融合处理后，得到所述目标融合模块输出的N级尺度的目标融合特征图，包括：

由所述第一融合模块对所述N级尺度的目标提取特征图进行第一次融合处理，得到所述第一融合模块输出的所述N级尺度的第一融合特征图；

由所述第二融合模块对所述N级尺度的第一融合特征图进行第二次融合处理，得到所述第二融合模块输出的所述N级尺度的第二融合特征图；其中，所述N级尺度的第二融合特征图为所述N级尺度的目标融合特征图。

可选的，所述第一融合模块包括每级尺度的目标提取特征图对应的融合处理路线，其中，每个级别尺度对应的融合处理路线包括处理节点；

所述由所述第一融合模块对所述N级尺度的目标提取特征图进行第一次融合处理，得到所述第一融合模块输出的所述N级尺度的第一融合特征图，包括：

根据预设融合权值规则获得每级尺度对应的融合处理路线对应的融合权值；

针对每级尺度对应的融合处理路线，由所述融合处理路线的处理节点对所述级别尺度的目标提取特征图进行融合处理，得到所述处理节点输出的所述级别尺度的处理特征图；

根据所述级别尺度对应的融合权值与所述级别尺度的处理特征图，获得所述级别尺度对应的第一融合特征图。

可选的，第一级尺度对应的处理节点包括第一级输入节点和第一级输出节点，第N级尺度对应的处理节点包括第N级输入节点和第N级输出节点，第n级尺度对应的处理节点包括第n级输入节点、第n级中间节点和第n级输出节点；

所述针对每级尺度对应的融合处理路线，由所述融合处理路线的处理节点对所述级别尺度的目标提取特征图进行融合处理，得到所述处理节点输出的所述级别尺度的处理特征图，包括：

针对第一级尺度对应的融合处理路线，对第二级尺度输出节点输出的第二处理特征图进行下采样，得到所述第二级尺度的下采样特征图后，将第一级尺度输入节点输出的第一级尺度的目标提取特征图与所述第二级尺度的下采样特征图进行融合处理，得到所述第一级尺度输出节点输出的第一级尺度的第一处理特征图；

针对第N级尺度对应的融合处理路线，对第N-1级尺度中间节点输出的第N-1级中间特征图进行上采样，得到所述第N-1级尺度的上采样特征图后，将第N级尺度输入节点输出的第N级尺度的目标提取特征图与所述第N-1级尺度的上采样特征图进行融合处理，得到所述第N级尺度输出节点输出的第N级尺度的第N处理特征图；

针对第n级尺度对应的融合处理路线，对第n-1级尺度输入节点输出的目标提取特征图进行上采样，得到所述第n-1级尺度的上采样特征图，并由所述第n级尺度中间节点对第n级尺度输入节点输出的目标提取特征图与所述第n-1级尺度的上采样特征图进行融合处理，得到所述第n尺度中间节点输出的中间特征图后；且对所述第n+1级尺度输出节点输出的第n+1级尺度的第n+1处理特征图进行下采样，得到所述第n+1级尺度的下采样特征图后；将所述第n尺度中间节点输出的中间特征图、第n级尺度的目标提取特征图和所述第n+1级尺度的下采样特征图进行融合处理，得到所述第n级尺度输出节点输出的第n级尺度的第n处理特征图；所述2≤n≤N-1。

可选的，所述第二融合模块包括每级尺度对应的SSH检测模块；所述SSH检测模块包括至少一个SSH上下文模块；所述SSH上下文模块包括至少一次融合分流处理和一次融合合流处理；

所述由所述第二融合模块对所述N级尺度的第一融合特征图进行第二次融合处理，得到所述第二融合模块输出的所述N级尺度的第二融合特征图，包括：

针对每级尺度的第一融合特征图，由所述级别尺度的SSH检测模块的每个所述SSH上下文模块分别对所述级别尺度的第一融合特征图进行至少一次融合分流处理和一次融合合流处理，得到所述级别尺度的SSH检测模块的每个所述SSH上下文模块输出的所述级别尺度的第二处理特征图；

根据所述级别尺度的SSH检测模块的每个所述SSH上下文模块输出的所述级别尺度的第二处理特征图，得到所述第二融合模块输出的所述N级尺度的第二融合特征图。

可选的，所述检测模块包括人脸分类检测模块和/或人脸定位检测模块和/或人脸关键点定位检测模块；

所述由所述检测模块对所述N级尺度的目标融合特征图进行人脸定位检测，得到所述检测模块输出的所述原始图像对应的人脸定位检测图像，包括：

由所述人脸分类检测模块对所述N级尺度的目标融合特征图进行人脸分类检测，得到所述人脸分类检测模块输出的所述原始图像对应的人脸定位检测图像；其中，所述人脸定位检测图像的人脸部分对应有预测框；和/或

由所述人脸定位检测模块对所述N级尺度的目标融合特征图进行人脸定位检测，得到所述人脸定位检测模块输出的所述原始图像对应的人脸定位检测图像；其中，所述人脸定位检测图像的人脸位置对应有定位信息；和/或

由所述人脸关键点定位检测模块对所述N级尺度的目标融合特征图进行人脸关键点定位检测，得到所述人脸关键点定位检测模块输出的所述原始图像对应的人脸定位检测图像；其中，所述人脸定位检测图像的人脸关键点对应有定位信息。

可选的，所述将所述原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络之前，所述方法还包括：

获得原始图像样本；其中，每个原始图像样本标注有人脸定位检测图像；

将所述原始图像样本输入人脸定位检测模型，得到所述人脸定位检测模型输出的所述原始图像样本对应的预测人脸定位检测图像；

根据回归损失函数计算所述预测人脸定位检测图像与标注的人脸定位检测图像之间的损失，当所述损失满足收敛条件时，得到训练完成的人脸定位检测模型。

第二方面，本申请实施例提供了一种图像处理设备，包括：

获得单元，用于获得原始图像；

输入单元，用于将所述原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到所述主干特征提取网络输出的所述原始图像的N级尺度的目标提取特征图；所述N大于或等于2的整数；

所述输入单元，还用于将所述N级尺度的目标提取特征图输入所述人脸定位检测模型中的目标融合模块，由所述目标融合模块对所述N级尺度的目标特征图进行至少一次融合处理后，得到所述目标融合模块输出的N级尺度的目标融合特征图；

所述输入单元，还用于将所述N级尺度的目标融合特征图输入所述人脸定位检测模型的检测模块，由所述检测模块对所述N级尺度的目标融合特征图进行人脸定位检测，得到所述检测模块输出的所述原始图像对应的人脸定位检测图像。

第三方面，本申请实施例提供了一种图像处理设备，包括：

中央处理器，存储器，输入输出接口，有线或无线网络接口以及电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行前述人脸定位检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质包括指令，当指令在计算机上运行时，使得计算机执行前述人脸定位检测方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行前述人脸定位检测方法。

从以上技术方案可以看出，本申请实施例具有以下优点：可以获得原始图像，将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；N大于或等于2的整数，将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图，将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像，整体的人脸定位检测过程需要消耗的时间和精力较少，人脸定位检测的效率较高。

附图说明

图1为本申请实施例公开的一种人脸定位检测系统的架构示意图；

图2为本申请实施例公开的一种人脸定位检测方法的流程示意图；

图3为本申请实施例公开的一种DPNet模块结构示意图；

图4为本申请实施例公开的一种bottleneck模块结构示意图；

图5为本申请实施例公开的一种h-sigmoid的函数示意图；

图6为本申请实施例公开的一种h-swish的函数示意图；

图7为本申请实施例公开的一种FPN模块的结构示意图；

图8为本申请实施例公开的一种PANet模块的结构示意图；

图9为本申请实施例公开的一种BiFPN模块的结构示意图；

图10为本申请实施例公开的一种SSH检测模块的流程框架示意图；

图11为本申请实施例公开的一种图像处理设备的结构示意图；

图12为本申请实施例公开的另一种图像处理设备的结构示意图。

具体实施方式

本申请实施例提供了一种人脸定位检测方法、图像处理设备以及计算机可读存储介质，用于在提高人脸定位检测的效率的情况下，对原始图像进行人脸定位检测。

请参阅图1，本申请实施例中人脸定位检测系统的架构包括：

原始图像101、主干特征提取网络102、第一融合模块103、第二融合模块104、检测模块105。当进行人脸定位检测时，由主干特征提取网络102对原始图像101进行特征提取，得到N级尺度的目标提取特征图，由第一融合模块103对N级尺度的目标提取特征图进行第一次融合处理，得到N级尺度的第一融合特征图，由第二融合模块104对N级尺度的第一融合特征图进行第二次融合处理，得到N级尺度的第二融合特征图，由检测模块105对N级尺度的第二融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像106。

基于图1所示的人脸定位检测系统，请参阅图2，图2为本申请实施例公开的一种人脸定位检测方法的流程示意图，方法包括：

201、获得原始图像。

本实施例中，当进行人脸定位检测时，可以获得原始图像。

202、将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；N大于或等于2的整数。

获得原始图像之后，可以将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；N大于或等于2的整数。可以理解的是，将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图的方法可以是，先将原始图像输入轻量化压缩网络，得到轻量化压缩网络输出的第一提取特征图，然后将第一提取特征图输入特征提取优化网络，得到特征提取优化网络输出的第二提取特征图，并将第二提取特征图作为N级尺度的目标提取特征图，其中，主干特征提取网络包括轻量化压缩网络和特征提取优化网络，还可以是其他合理的方法，具体此处不做限定。

203、将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图。

将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图之后，可以将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图。

204、将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像。

将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图之后，可以将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像。

本申请实施例中，可以获得原始图像，将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；N大于或等于2的整数，将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图，将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像，整体的人脸定位检测过程需要消耗的时间和精力较少，人脸定位检测的效率较高。

本申请实施例中，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图的方法可以有多种，基于图2所示的人脸定位检测方法，下面对其中的一种方法进行描述。

本实施例中，当进行人脸定位检测时，可以获得原始图像。

具体的，可以是进行基于Soc的中远距离的人脸定位检测。值得一提的是，由于大多数应用是基于PC端的，这会限制其便携性和应用的普适性，而嵌入式系统具有小体积、高可靠性、携带方便、功耗低、支持多任务、根据具体需求灵活定制等优点，所以可以基于Soc的人脸定位技术对中远距离(4-8米)视频/图像进行人脸定位检测，中远距离视频/图像例如视频会议、人脸追踪定位等场景较为复杂、背景多变，容易受光线等因素变化的，视频图像中的人脸区域较小，分辨率较低的中远距离视频/图像。

获得原始图像之后，可以将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；N大于或等于2的整数。

其中，将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图的方法可以是，先将原始图像输入轻量化压缩网络，得到轻量化压缩网络输出的第一提取特征图，然后将第一提取特征图输入特征提取优化网络，得到特征提取优化网络输出的第二提取特征图，并将第二提取特征图作为N级尺度的目标提取特征图，其中，主干特征提取网络包括轻量化压缩网络和特征提取优化网络。请继续参阅图1，图1的DPNet模块为轻量化压缩网络，bottlenck模块为特征提取优化网络，主干提取特征网络由2个DPNet模块和3个bottlenck模块串联而成，图1的P3、P4和P5为第二提取特征图。

需要理解的是，DPNet模块采用的是MobileNet v1中的深度可分离卷积(Depthwise Separable Convolutions)技术，主要作用是在不影响输出效果的前提下，减少卷积的参数量和运算量，而bottleneck模块是由MobileNet v2中带有线性瓶颈的Inverted residual block与SE模块相结合的结构组成，主要作用是减少特征提取时的信息损失，提高特征提取的丰富度和效果。

需要说明的是，主干特征提取网络的5个串联模块的池化步长都为2，这样就可以保证每次经过一个模块后特征图大小变为原输入特征图的1/2，因此可以得到5种不同尺度的特征图，保证了后续BiFPN模块对其进行多尺度的融合，同时，其图像的输入大小为N×N，其中N一般设为640、1280或者2560，这样设置的原因有两点，其一，因为后面所接的主干特征网络最大的scale为32，步长为2，所以输入图像大小需要为32的倍数，其二，考虑到中远距离下图像的清晰度要求以及保证测试人脸时视频帧的流畅性，综合考量后，N取640、1280或者2560。此外，主干特征提取网络采用2个DPNet模块和3个bottleneck模块的顺序串联而成，主要是考虑到以下三点：首先，因为靠近输入的层，通常会处理大量的数据，对于延迟的影响比远离输入的层更大，而后面的层会随着网络深度的增加而容易产生信息的丢失，所以前面的层放置DPNet模块可以减少运算量，降低时延，而后面的层放置bottleneck模块，可以减少特征信息的损失，从而提升特征提取效果。其次，bottleneck模块中的升降维操作和SE模块，虽增加了一定的运算量，但却可以减少特征信息的损失以及可以提升特征提取的有效性和准确性，加上bottleneck模块具有加强有用信息、压缩无用信息、减少特征信息损失的作用，因此与所提升的特征提取效果相比，额外增加的运算量和参数量可以忽略不计。最后，考虑到与下一个模块BiFPN衔接时的3个输入模块结构要求需要相同，所以需要设置3个bottleneck模块。总而言之，主干特征提取网络的这种结构可以兼顾计算速度和特征提取效果，使得达到局部最优的效果。

其中，DPNet模块的结构可以参阅图3，图3为本申请实施例公开的一种DPNet模块结构示意图，由图3可知，DPNet模块结构即包括深度可分离卷积过程，该过程又分为两个部分，一部分为深度卷积(Depthwise Convolution，DW)，另一部分为逐点卷积(PointwiseConvolution，PW)，具体过程可以是：先用DW对cⁱ _n个不同的输入通道分别进行卷积，得到cⁱ _n个大小为X×Y的平面特征图，接着组成大小为X″×Y″×c_in的空间特征图，使用PW技术与c_out个1×1×c_in卷积核进行卷积，最终得到大小为X″×Y″×c_out，可以理解的是，这样做的整体效果和一个标准卷积是差不多的，但是运算量和模型参数量会大大降低。

其中，bottleneck模块的结构可以参阅图4，图4为本申请实施例公开的一种bottleneck模块结构示意图，由图4可知，通过将SE(Squeeze-and-Excitation)模块引入到MobileNet v2的Bottleneck Residual Block(瓶颈残差模块)中，可以增强网络模型的特征提取能力。SE模块可看作是channel-wise attention机制。MobileNetv2网络结构主要由Expansionlayer(扩张层)、DWlayer(深度卷积层)和Compress layer(压缩层)组成，需要注意的是，在Expansionlayer和DWlayer采用ReLU6作为激活函数，这样做的目的是为了防止过大的激活值带来较大的精度损失，在低精度计算下ReLU6相比ReLU具有更强的鲁棒性。深度可分离卷积是mobileNetv1中的核心技术，但研究发现深度可分离卷积中有大量卷积核为0，即有很多卷积核没有参与实际计算，这主要还是与ReLU6的特点(输入小于0时输出为0)有关，因此在低维空间运算中会损失很多信息，而在高维空间中会保留较多有用的信息。所以为了保留更多的有效信息，采用了Expansion layer进行升维，接着使用DW卷积操作减少运算量和参数量，最后使用Compress layer进行降维，去控制模型的大小，以达到减少计算量的目的。为了最大限度地保留有效信息，提高有效信息压缩率，将Compress layer层的激活函数由ReLU6改为Linear。由图4可知，SE模块是作为一个独立的模块插入到MobileNetv2的DW layer和Compress layer之间，SE模块也即Squeeze and Excitation Network，它是channel attention的典型代表，属于注意力机制(AttentionMechanism)的一种，AttentionMechanism可以帮助模型对输入的每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型作出更加准确的判断，同时对模型的计算和存储不会带来太多的额外开销。CNN每层都会输出一个C×H×W的特征图，其中C是通道数，可以把特征图想象成深度为C，平面为H×W的长方体，而channel attention就是在channel维度上学习到不同的权重，而这些权重在同一channel维度上的H×W平面上是相同的，接着将学习好的权重在原来特征图基础上按通道维度进行二次加权。为了更好地说明SENet的原理和作用，由图3可以看到，输入大小为(H′,W′,C′)的特征图经过1×1卷积核的升维以及DW卷积操作，得到尺寸为(H′/2,W′/2,C)的特征图输出，对该特征图的每个通道做pooling，得到尺寸为(1,1,C)的张量，然后通过FC+ReLU6+FC+h-swish的操作，得到尺寸仍为(1,1,C)的张量，不同的是，此时的张量是经过h-swish处理的激活值，再把这些值按channel-wise与原来的特征图进行相乘，进行二次加权，以提取到更加关键和有用的信息，这就是channel-wise attention实现的原理。

为了更好地说明h-swish激活函数的优点，将h-swish与h-sigmoid进行比较，请参阅下方公式：

其中，公式一和公式二分别表示h-sigmoid和h-swish函数定义的演变过程。

请参阅图5和图6，图5为本申请实施例公开的一种h-sigmoid的函数示意图，图6为本申请实施例公开的一种h-swish的函数示意图，本文使用h-swish作为激活函数，主要原因如下：

由图5和图6可知，swish作为ReLU的替代激活函数，虽然具有无上界、有下界、平滑、非单调的特点，在深层模型上优于ReLU，大大提高了神经网络的准确性，但是由于σ(x)的存在，反向传播求梯度时计算量大且复杂，所以对量化过程不友好。而通过将sigmoid替换成分段线性模拟函数

可以解决求梯度时的计算复杂问题，在移动设备部署时对量化更友好。其次，使用ReLU6(x)主要是因为在移动设备float16低精度的时候，也能有很好的分辨率，通过限制激活值范围，可以防止低精度的float16带来精度损失。虽然h-swish与原始平滑版本swish几乎一样，在精度上没有明显的差距，但从部署的角度来看，将sigmoid替换成分段线性模拟函数

可以减少求梯度时的计算量，适配Soc端的量化过程，减少精度损失。

可以理解的是，轻量化压缩网络除了DPNet模块之外，还可以是其他合理的轻量化压缩网络，特征提取优化网络除了bottlenck模块之外，还可以是其他合理的特征提取优化网络，具体此处不做限定。

得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图之后，可以将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图。

其中，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图的方法可以是，先由第一融合模块对N级尺度的目标提取特征图进行第一次融合处理，得到第一融合模块输出的N级尺度的第一融合特征图，然后由第二融合模块对N级尺度的第一融合特征图进行第二次融合处理，得到第二融合模块输出的N级尺度的第二融合特征图；其中，N级尺度的第二融合特征图为N级尺度的目标融合特征图，其中，目标融合模块包括第一融合模块和第二融合模块。

其中，由第一融合模块对N级尺度的目标提取特征图进行第一次融合处理，得到第一融合模块输出的N级尺度的第一融合特征图的方法可以是，先根据预设融合权值规则获得每级尺度对应的融合处理路线对应的融合权值，然后针对每级尺度对应的融合处理路线，由融合处理路线的处理节点对级别尺度的目标提取特征图进行融合处理，得到处理节点输出的级别尺度的处理特征图，最后根据级别尺度对应的融合权值与级别尺度的处理特征图，获得级别尺度对应的第一融合特征图，其中，第一融合模块包括每级尺度的目标提取特征图对应的融合处理路线，其中，每个级别尺度对应的融合处理路线包括处理节点。

其中，针对每级尺度对应的融合处理路线，由融合处理路线的处理节点对级别尺度的目标提取特征图进行融合处理，得到处理节点输出的级别尺度的处理特征图的方法可以是，针对第一级尺度对应的融合处理路线，对第二级尺度输出节点输出的第二处理特征图进行下采样，得到第二级尺度的下采样特征图后，将第一级尺度输入节点输出的第一级尺度的目标提取特征图与第二级尺度的下采样特征图进行融合处理，得到第一级尺度输出节点输出的第一级尺度的第一处理特征图；

针对第N级尺度对应的融合处理路线，对第N-1级尺度中间节点输出的第N-1级中间特征图进行上采样，得到第N-1级尺度的上采样特征图后，将第N级尺度输入节点输出的第N级尺度的目标提取特征图与第N-1级尺度的上采样特征图进行融合处理，得到第N级尺度输出节点输出的第N级尺度的第N处理特征图；

针对第n级尺度对应的融合处理路线，对第n-1级尺度输入节点输出的目标提取特征图进行上采样，得到第n-1级尺度的上采样特征图，并由第n级尺度中间节点对第n级尺度输入节点输出的目标提取特征图与第n-1级尺度的上采样特征图进行融合处理，得到第n尺度中间节点输出的中间特征图后；且对第n+1级尺度输出节点输出的第n+1级尺度的第n+1处理特征图进行下采样，得到第n+1级尺度的下采样特征图后；将第n尺度中间节点输出的中间特征图、第n级尺度的目标提取特征图和第n+1级尺度的下采样特征图进行融合处理，得到第n级尺度输出节点输出的第n级尺度的第n处理特征图；2≤n≤N-1。其中，第一级尺度对应的处理节点包括第一级输入节点和第一级输出节点，第N级尺度对应的处理节点包括第N级输入节点和第N级输出节点，第n级尺度对应的处理节点包括第n级输入节点、第n级中间节点和第n级输出节点。

为方便理解，现举一个具体的例子进行描述，请继续参阅图1，当主干特征提取网络模块处理完之后，可以将3个bottleneck模块输出的不同尺寸对应的scale＝8、scale＝16和scale＝32的输出作为BiFPN模块的输入。为了更好地说明BiFPN模块的原理与优势，将BiFPN模块分别与FPN模块和PANet模块进行对比，请参阅图7、图8和图9，图7、图8和图9分别是FPN、PANet和BiFPN模块的结构示意图，图中只取了3个尺度的输入信息，即scale＝8、scale＝16、scale＝32，分别对应P3、P4和P5，代表其特征图大小是输入图像大小的1/8、1/16和1/32。需要理解的是，目标检测的难点在于有效地表示和处理多尺度特征，特征金字塔网络FPN采用自顶而下的通道来融合多尺度特征，PANet在FPN的基础上额外添加了一条自底向上的通道来融合多尺度特征，形成自顶向下和自底向上的双向聚合网络。FPN是典型的用于多尺度信息融合的方法，将深层的细节信息融入到浅层的语义信息中，增加了浅层的感受野，使得浅层在做小目标检测时能获得更多的上下文信息，但由于只有一条自顶向下的通道作特征融合，受到单向信息流的限制，所以其融合特征提取特征不够充分，效果欠佳。而PANet由于是在FPN基础上增加了一条自底向上的通道，所以效果好于FPN，有更好的精度，但需要花费更多的参数和计算。

为了更好地在精度与效率之间取得平衡，使用BiFPN模块代替FPN模块和PANet模块。由图9可知，BiFPN模块的结构在PANet模块的基础上进行了优化，具体优化的操作说明如下：

(1)移除了单输入边或单输出边的节点。因为单输入边或单输出边的节点没有进行特征融合，故所具有的信息比较少，那么它对特征网络融合的贡献度就比较小，可以忽略。因此各移除了P3、P5中的一个节点，构成了一个简化的双向网络，移除之后，能够减少计算量。

(2)添加了一个跳跃连接。在同一尺度的输入节点和输出节点之间添加一个跳跃连接，因为它们在相同层，在不增加太多计算成本的同时，融合了更多的特征，增强了特征表示能力。

(3)增加了权值融合。简单来说就是针对融合的各个尺度特征增加一个权重，通过调节每个尺度的贡献度，提高检测速度。其中加权特征融合方法采用的是Fast normalizedfusion(快速归一化融合)，其定义如下式所示。

公式三中，I_i表示输入的i路径，w_i≥0，w_i表示输入i路径的权重，比如，图9中，P3对应的中间节点有2个输入，则对应有2个权重w_i，wⁱ是通过在其后面施加ReLU6激活函数来保证的，令ε＝0.0001，设置一个小值来避免数值的不稳定性，同时，将每个权重的值进行归一化到0～1之间，由于没有采用softmax作为激活函数，所以效率要高很多。实验表明，该方法与Softmax-based fusion方法相比，具有相似的学习行为和准确率，但在GPU上的运行速度却快30％。

由第二融合模块对N级尺度的第一融合特征图进行第二次融合处理，得到第二融合模块输出的N级尺度的第二融合特征图的方法可以是，先针对每级尺度的第一融合特征图，由级别尺度的SSH检测模块的每个SSH上下文模块分别对级别尺度的第一融合特征图进行至少一次融合分流处理和一次融合合流处理，得到级别尺度的SSH检测模块的每个SSH上下文模块输出的级别尺度的第二处理特征图，然后根据级别尺度的SSH检测模块的每个SSH上下文模块输出的级别尺度的第二处理特征图，得到第二融合模块输出的N级尺度的第二融合特征图，其中，第二融合模块包括每级尺度对应的SSH检测模块；SSH检测模块包括至少一个SSH上下文模块；SSH上下文模块包括至少一次融合分流处理和一次融合合流处理。

具体的，SSH检测模块可以如图10所示，请参阅图10，图10为本申请实施例公开的一种SSH检测模块的流程框架示意图，SSH是Single Stage Headless的简称，也是进行特征融合的一种方式，能够增强对小目标(人脸)的检测效果。由图10可以看到，SSH contextmodule(SSH上下文模块)先是将2个3×3卷积层进行串联，得到2个3×3卷积层对应的串联结果，及将3个3×3卷积层进行串联，得到3个3×3卷积层对应的串联结果，接着再将这两个串联结果进行并联，得到并联结果，该并联结果再与1个3×3卷积层进行并联，最后进行效果的合并。需要理解的是，1个X/2Channels对应的3×3卷积层等价于1个SSH contextmodule(SSH上下文模块)，还需要理解的是，其中2个3×3卷积层的串联相当于1个5×5的卷积层，3个3×3卷积层的串联相当于1个7×7的卷积层。先将2个3×3卷积层进行串联，及将3个3×3卷积层进行串联，再将得到的两个串联结果进行并联，最后再将得到的并联结果与1个3×3卷积层进行并联，以最后进行效果的合并，即先通过通道分流的形式进行特征提取，而后再进行合流的形式得到输出结果，这样转换后就能够对特征进行融合，进而增大感受野并增强上下文建模的能力。

值得一提的是，SSH检测模块具体来说可以有三个优点，为了方便理解，下面举例子的方式对这三个优点进行描述，第一个是从感受野角度来看，可以增大感受野，例如在padding＝1,stride＝1的情况下，3个3×3卷积层的感受野是11，而1个7×7的感受野是7。第二个是从特征提取角度来看，网络更深了，特征提取能力也更强了。第三个是2个3×3卷积层代替1个5×5的卷积层或者3个3×3卷积层代替1个7×7的卷积层可以减少卷积的参数量和运算量。

得到目标融合模块输出的N级尺度的目标融合特征图之后，可以将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像。

其中，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像的方法可以是，由人脸分类检测模块对N级尺度的目标融合特征图进行人脸分类检测，得到人脸分类检测模块输出的原始图像对应的人脸定位检测图像；其中，人脸定位检测图像的人脸部分对应有预测框；和/或

由人脸定位检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到人脸定位检测模块输出的原始图像对应的人脸定位检测图像；其中，人脸定位检测图像的人脸位置对应有定位信息；和/或

由人脸关键点定位检测模块对N级尺度的目标融合特征图进行人脸关键点定位检测，得到人脸关键点定位检测模块输出的原始图像对应的人脸定位检测图像；其中，人脸定位检测图像的人脸关键点对应有定位信息，其中，检测模块包括人脸分类检测模块和/或人脸定位检测模块和/或人脸关键点定位检测模块。

举个例子，请继续参阅图1，其中输入的1/8、1/16和1/32对应的特征图都是1/8、1/16和1/32对应的BiFPN模块输出的特征图，其表示X∈R^c×w×h，其中c,w,h分别表示输入通道、特征图的宽、特征图的高。每一个SSH模块有3个相同的输出，分别参与对ClassHead、BoxHead、LandmarkHead的计算，即分别对人脸分类、人脸定位、人脸关键点定位作为贡献，具体的，请继续参阅图1，由图1可知，单阶段网络的ClassHead、BoxHead和LandmarkHead包含的向量个数分别是1、4、10，其中1代表框中是人脸的概率，4代表检测框的左上角和右下角的(x,y)坐标，而10代表5个关键点(x,y)的值。

值得一提的是，将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络之前，可以训练人脸定位检测模型。

其中，训练人脸定位检测模型的方法可以是，先获得原始图像样本；其中，每个原始图像样本标注有人脸定位检测图像，然后将原始图像样本输入人脸定位检测模型，得到人脸定位检测模型输出的原始图像样本对应的预测人脸定位检测图像，最后根据回归损失函数计算预测人脸定位检测图像与标注的人脸定位检测图像之间的损失，当损失满足收敛条件时，得到训练完成的人脸定位检测模型。

具体的，对检测模型进行训练的方法还包括，先由检测模型对N级尺度的目标融合特征图进行人脸定位检测，得到至少一个检测框，然后针对每个检测框，确定检测框的预测框的交并比，再确定出交并比大于或等于预设交并比阈值的至少一个目标检测框，最后通过非极大抑制模块(NMS)对至少一个目标检测框进行抑制处理，得到目标检测框。

本实施例中，可以获得原始图像，将原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到主干特征提取网络输出的原始图像的N级尺度的目标提取特征图；N大于或等于2的整数，将N级尺度的目标提取特征图输入人脸定位检测模型中的目标融合模块，由目标融合模块对N级尺度的目标特征图进行至少一次融合处理后，得到目标融合模块输出的N级尺度的目标融合特征图，将N级尺度的目标融合特征图输入人脸定位检测模型的检测模块，由检测模块对N级尺度的目标融合特征图进行人脸定位检测，得到检测模块输出的原始图像对应的人脸定位检测图像，整体的人脸定位检测过程需要消耗的时间和精力较少，人脸定位检测的效率较高。其次，主干特征提取网络先通过轻量化压缩网络进行处理，在通过特征提取优化网络进行处理，轻量化压缩网络(DPNet模块)主要作用是在不影响输出效果的前提下，减少卷积的运算量，而特征提取优化网络(bottleneck模块)的主要作用是减少特征信息损失，增强特征提取效果，通过这两个模块的结合，可以兼顾计算速度和特征提取效果，使得达到局部最优的效果。再次，通过BiFPN模块进行融合处理，与FPN模块，PANet模块相比，能够实现更高层次的特征融合，在平衡精度和效率方面可以达到性能更优的效果。再次，通过SSH检测模块可以减少卷积的参数量和运算量，可以提高特征提取能力，可以增大感受野，可以增强上下文建模的能力。最后，主干特征提取网络、BiFPN模块、SSH检测模块都可在权衡精度和运算速度方面时取到局部最优，通过网络微调，可以实现整个检测系统的全局最优。

上面对本申请实施例中的人脸定位检测方法进行了描述，下面对本申请实施例中的图像处理设备进行描述，请参阅图11，本申请实施例中的图像处理设备一个实施例包括：

获得单元1101，用于获得原始图像；

输入单元1102，用于将所述原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络，得到所述主干特征提取网络输出的所述原始图像的N级尺度的目标提取特征图；所述N大于或等于2的整数；

所述输入单元1102，还用于将所述N级尺度的目标提取特征图输入所述人脸定位检测模型中的目标融合模块，由所述目标融合模块对所述N级尺度的目标特征图进行至少一次融合处理后，得到所述目标融合模块输出的N级尺度的目标融合特征图；

所述输入单元1102，还用于将所述N级尺度的目标融合特征图输入所述人脸定位检测模型的检测模块，由所述检测模块对所述N级尺度的目标融合特征图进行人脸定位检测，得到所述检测模块输出的所述原始图像对应的人脸定位检测图像。

下面请参阅图12，本申请实施例中图像处理设备1200的另一实施例包括：

中央处理器1201，存储器1205，输入输出接口1204，有线或无线网络接口1203以及电源1202；

存储器1205为短暂存储存储器或持久存储存储器；

中央处理器1201配置为与存储器1205通信，并执行存储器1205中的指令操作以执行前述图2所示实施例中的方法。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质包括指令，当指令在计算机上运行时，使得计算机执行前述图2所示实施例中的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行前述图2所示实施例中的方法。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种人脸定位检测方法，其特征在于，包括：

获得原始图像；

2.根据权利要求1所述的方法，其特征在于，所述主干特征提取网络包括轻量化压缩网络和特征提取优化网络；

3.根据权利要求1所述的方法，其特征在于，所述目标融合模块包括第一融合模块和第二融合模块；

4.根据权利要求3所述的方法，其特征在于，所述第一融合模块包括每级尺度的目标提取特征图对应的融合处理路线，其中，每个级别尺度对应的融合处理路线包括处理节点；

5.根据权利要求4所述的方法，其特征在于，第一级尺度对应的处理节点包括第一级输入节点和第一级输出节点，第N级尺度对应的处理节点包括第N级输入节点和第N级输出节点，第n级尺度对应的处理节点包括第n级输入节点、第n级中间节点和第n级输出节点；

6.根据权利要求3所述的方法，其特征在于，所述第二融合模块包括每级尺度对应的SSH检测模块；所述SSH检测模块包括至少一个SSH上下文模块；所述SSH上下文模块包括至少一次融合分流处理和一次融合合流处理；

7.根据权利要求1所述的方法，其特征在于，所述检测模块包括人脸分类检测模块和/或人脸定位检测模块和/或人脸关键点定位检测模块；

8.根据权利要求1所述的方法，其特征在于，所述将所述原始图像输入预先训练的人脸定位检测模型中的主干特征提取网络之前，所述方法还包括：

9.一种图像处理设备，其特征在于，包括：

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行权利要求1至8中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至8中任意一项所述的方法。