CN116543432A

CN116543432A - 一种基于辅助网络的高效人脸检测方法

Info

Publication number: CN116543432A
Application number: CN202310401719.5A
Authority: CN
Inventors: 廖闻剑; 许二戗; 郑鹏; 董文君
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2023-04-16
Filing date: 2023-04-16
Publication date: 2023-08-04

Abstract

本发明属于计算机视觉人脸检测技术领域，提供了一种基于辅助网络的高效人脸检测方法，人脸检测方法包括骨干网络模块、图像分类分支、人脸检测分支和多任务损失四个部分，具体方法步骤包括：通过预标注与人工矫正获得训练样本、利用结构重参数化解耦训练与推理结构，获得高效的推理权重；FH‑EFACE秉持轻量高效原则搭建网络，利用图像分类分支作为辅助，过滤无人脸图片，既能降低部署时的硬件要求，同时在推理阶段，输入图片只需要一次预处理与模型推理操作，极大缩短了整体推理时间。

Description

一种基于辅助网络的高效人脸检测方法

技术领域

本发明属于计算机视觉人脸检测技术领域，更具体地说，提出了一种全新的基于辅助网络的人脸检测的训练和测试方法，通过共享骨干网络与多任务分支实现对图像分类和人脸检测任务进行同时训练和测试。

背景技术

人脸检测技术作为人脸识别、跟踪等任务不可缺少的前置步骤，其与通用目标检测的不同之处在与，人脸检测不仅要对图片中的人脸进行精准定位，还需要为后续任务提供人脸关键点信息，用于人脸对齐。

通常人脸检测算法包含特征提取模块和检测模块，特征提取模块负责提取对检测有用的特征，其中浅层特征包含细节信息更多，而深层特征包含高级语义信息更多；所以检测模块通常会加入多尺度特征融合，将深层特征中的高级语义传递给浅层特征；由于人脸尺度的多样性，检测通常采用不同层次特征，浅层特征检测小尺度人脸，深层特征检测大尺度人脸，经典人脸检测算法，比如retinaface，yolov5face均是采用此框架。

随着互联网，特别是移动互联网的高速发展，每天产生着海量多样化图片，给公安机关对于重点人的监控带来了极大的挑战，当前通常的处理方式是先利用图片分类初步筛选出有人脸图片，然后输送给人脸相关模型处理；

目前的人脸检测模型虽然能够实现对照片上的人脸进行识别，但是仍存在较多问题：

(1)在利用图片分类模型初筛过程中，人脸检测模型检测的方法，需要部署两个模型，导致硬件资源消耗，进而造成检测成本升高；

(2)其次图片处理时，每张图片都需要先后通过一次图片分类推理与一次人脸检测推理，导致检测模型响应时间长，造成人脸检测效率低，面对海量的照片，检测过程十分费时费力。

发明内容

为了解决上述技术问题，本发明提供一种基于辅助网络的高效人脸检测方法，通过基于辅助网络的高效人脸检测方法FH-EFACE，FH-EFACE秉持轻量高效原则搭建网络，利用图片分类分支作为辅助，过滤无人脸图片，既能减低部署时的硬件要求，同时在推理阶段，输入图片只需要一次预处理与模型推理操作，大大减少了响应时间，进而解决目前人脸检测模型检测成本高以及效率低等问题。

本发明具体的技术方案如下：

一种基于辅助网络的高效人脸检测方法，人脸检测方法包括骨干网络模块、图像分类分支、人脸检测分支和多任务损失四个部分，具体方法步骤如下：

S1：收集图片获取训练样本，首先搜集互联网上的图片，利用公开的人脸检测模型进行预打标，然后根据图片上有无人脸补充分类标签，进而得到训练标本；

S2：训练FH-EFACE模型，FH-EFACE损失函数由图像分类损失与目标检测损失组成，通过损失网络进行训练，得到训练好的FH-EFACE初始权重；

S3：获取推理时权重，通过模型结构重参数化，合并RepBlock块的多分支结构，得到与初始权重等效的推理时权重；

S4：人脸检测，加载FH-EFACE推理时权重，对模型进行初始化操作，然后将处理好的图片输入到模型中进行检测，并获取人脸检测结果。

优选的，步骤S1中，图片为RGB格式，并将图片同比例resize到长边为448大小，并对图片进行归一化操作。

优选的，步骤S2中，FH-EFACE模型由骨干网络、检测分支和分类分支三部分构成。

优选的，所述骨干网络负责提取图像语义特征，由stem块与RepBlock块组成；

检测分支包含Neck部分与Head部分，Neck部分对提取的不同粒度语义特征进行融合，Head部分进行编码预测人脸的位置与五个关键点，五个关键点包括左右眼睛、鼻尖和左右嘴角；

分类分支用于判断输入图片是否存在人脸，骨干网络提取的特征，经过1×1卷积特征融合，然后经过平均池化层与flatten操作，降低特征维度，最后接全连接层分类头。

优选的，步骤S2中，图像分类损失中，图像分类仅做有/无人脸的二分类，采用二值交叉熵损失，假设输入为x_i，其中p(x_i)为GT，q(x_i)为预测有人脸的概率，计算公式如下：L_BCE(x_i)＝-p(x_i)lnq(x_i)-(1-p(x_i))ln(1-q(x_i))。

优选的，所述目标检测损失细分为三个部分，分别为目标置信度损失、定位损失、关键点损失。

优选的，所述置信度损失是通过计算预测特征点是否存在人脸的置信度误差，其采用二值交叉熵损失；

所述定位损失为预测框与标定框之间的误差，记作L_loc，具体损失采用CloU损失，CloU loss考虑两个框的重叠面积、中心点距离、长宽比一致性多重因素；

假设两个矩形框A、B，ρ是A、B框中心点欧式距离，c是A、B框最小外接矩形对角线距离，v是衡量A、B框长宽比一致性，α为权重，计算公式如下：

所述关键点损失是采用人脸关键点检测算法中经典的Wing loss，计算公式如下：

C＝w-wln(1+w/∈)

w用于约束非线性部分的取值范围在[-w，w]内，∈约束非线性区域的曲率，C是一个常数，用于连接线性与分线性部分；

FH-EFACE整体损失函数：

其中，I^pre为图片分类输出预测概率，I^gt为图片的真实分类，p^pre、b^pre、I_t ^pre分别是检测分支输出的预测框是人脸的概率、预测框位置信息、关键点坐标，p^gt、b^gt、I_t ^gt为相应的GT信息；[λ_cls，λ_detect]是维持分类与检测损失平衡的权重，初始值均为1，[α_obj，α_box，α_Imark]是用于维持检测内部三个损失平衡的权重，权重值为[1.0，0.05，0.05]，便于模型训练时的稳定与快速收敛；为符号函数，该cell存在人脸时，值为1，否则为0；a_k ^balance用于平衡人脸检测分支K个预测特征层的损失差异，针对大、中、小目标预测特征层采用的权重分别为[0.4，1.0，4.0]；

优选的，步骤S3中，FH-EFACE模型训练结束后，模型中RepBlock结构进行结构重参数化，其中3×3卷积分支进行卷积层与BN层合并，1×1卷积分支、ldentity分支分别转化为3×3卷积层，最终将3个分支合并为1个单路3×3卷积层。

优选的，所述卷积层与BN层合并，假定卷积权重为W，偏置为b，BN层平均值为mean，标准差为var，比例因子为γ，偏置为β，则卷积层公式为：

Conv(x)＝W(x)+b

BN层公式为：

将卷积结果带入BN公式，为：

可形成一个新的合并后卷积公式，卷积权重为W_fused，偏置为B_fused：

BN(Conv(x))＝W_fused(x)+B_fused

1×1卷积转化为3×3卷积，以1×1的卷积核为中心，周边补0，padding成3×3尺寸，即转化为等效的3×3卷积；

ldentity层转化为3×3卷积，其中ldentity层特点为输入直接等于输出层，卷积操作必须要将每个通道累加后进行输出，若要保证每个通道元素输入输出相等，只需将当前通道卷积核参数设置为1，其余的卷积核参数为0即可，即构造出一个以单位矩阵为卷积核的1x1卷积即可，将Identity层转换为1x1卷积后，在通过上述方法继续转换为3x3的卷积。

与现有技术相比，本发明具有如下有益效果：

1、本发明通过FH-EFACE秉持轻量高效原则搭建网络，利用图片分类分支作为辅助，过滤无人脸图片，既能减低部署时的硬件要求，同时在推理阶段，输入图片只需要一次图片预处理与模型推理操作，进而实现了响应时间极大缩短，提升了人脸检测效率。

附图说明

图1是本发明FH-EFACE网络结构框图；

图2是本发明RepBlock块结构重参数化过程图；

图3是本发明FH-EFACE模型获取流程图；

图4是本发明FH-EFACE模型推理流程图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

如图1-图4所示，本发明提供一种基于辅助网络的高效人脸检测方法，具体步骤包括两个部分，一是获得FH-EFACE模型，二是采用FH-EFACE模型进行人脸检测；

具体步骤如下：

第一步：如图3所示，获得FH-EFACE模型

1.1首先搜集互联网图片，利用公开人脸检测模型(比如retinaface、yolov5face)进行预打标，并根据是否有人脸添加有/无人脸图像的分类标签，得到训练样本；

1.2通过损失训练网络，得到训练好的FH-EFACE初始权重，具体的FH-EFACE损失函数由图像分类损失与目标检测损失组成，其中目标检测损失细分为三部分，分别为目标置信度损失、定位损失、关键点损失；

FH-EFACE整体损失函数：

其中，I^pre为图片分类输出预测概率，I^gt为图片的真实分类，p^pre、b^pre、l_t ^pre分别是检测分支输出的预测框是人脸的概率、预测框位置信息、关键点坐标，p^gt、b^gt、l_t ^gt为相应的GT信息；[λ_cls,λ_detect]是维持分类与检测损失平衡的权重，初始值均为1，[α_obj,α_box,α_lmark]是用于维持检测内部三个损失平衡的权重，权重值为[1.0,0.05,0.05],便于模型训练时的稳定与快速收敛；为符号函数，该cell存在人脸时，值为1，否则为0；a_k ^balance用于平衡人脸检测分支K个预测特征层的损失差异，针对大、中、小目标预测特征层采用的权重分别为[0.4,1.0,4.0]。

1.3根据图2进行模型结构重参数化，合并骨干网络中的RepBlock的多分支结构，得到与训练模型等效的推理时网络权重；

其中FH-EFACE模型主要由骨干网络、检测分支、分类分支三部分构成，骨干网络负责提取图像语义特征；检测分支包含Neck部分与Head部分，Neck部分对提取的不同粒度语义特征进行融合，Head部分进行编码预测人脸的位置与五个(左右眼睛，鼻尖，左右嘴角)关键点；分类分支用于判断输入图片是否存在人脸。

从图1可看出，骨干网络由stem块与RepBlock块组成，下文分别对其介绍；

stem块由kernel为7×7，stride为2的Conv层，与kernel 3×3，stride为2的maxpooling层组成，通过对输入图片连续下采样操作，降低模型计算量。

RepBlock块源自RepVGG算法，其提出结构重参数化思想，在训练时使用多分支卷积结构，推理时将多分枝结构进行融合转换成单路3×3卷基层，采用完全恒等融合方式，既保留了模型训练的效果，又兼顾了推理速度，其具体转换过程如图2所示。

在模型训练时，网络结构如图2(a)；其次，在训练结束后，经历一次结果重参数化过程，经过卷积层与BN层合并，然后将1×1卷积层，Identity层等效变换为3×3卷积层，得到图2(b)，最后根据卷积的线性可加性，得到图2(c)；至此模型推理仅需执行单个3×3卷积，大大提升了执行速度。

卷积层与BN层合并：假定卷积权重为W，偏置为b，BN层平均值为mean，标准差为var，比例因子为γ，偏置为β，则卷积层公式为

Conv(x)＝W(x)+b

BN层公式为

将卷积结果带入BN公式，

BN(Conv(x))＝W_fused(x)+B_fused

1×1卷积转化为3×3卷积：以1×1的卷积核为中心，周边补0，padding成3×3尺寸，即转化为等效的3×3卷积。

Identity层转化为3×3卷积：Identity层特点为输入直接等于输出层。卷积操作必须要将每个通道累加后进行输出，若要保证每个通道元素输入输出相等，只需将当前通道卷积核参数设置为1，其余的卷积核参数为0即可，即构造出一个以单位矩阵为卷积核的1x1卷积即可；将Identity层转换为1x1卷积后，在通过上述方法转换为3x3的卷积。

第二步：如图4所示，基于FH-EFACE模型进行人脸检测

2.1加载FH-EFACE网络权重，对模型进行初始化操作；

2.2获取RGB图片，将图片同比例resize到长边为448大小，并对图片进行归一化操作；

2.3将处理好图片输入骨干网络，获得图片语义特征；

2.4将图片语义特征输入到图片分类分支，获得图片分类结果，如果预测为有人脸图片，则进入下一步骤，否则，输出结果；

2.5将图片语义特征输入到人脸检测分支，获得人脸检测结果。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。

Claims

1.一种基于辅助网络的高效人脸检测方法，其特征在于，人脸检测方法包括骨干网络模块、图像分类分支、人脸检测分支和多任务损失四个部分，具体方法步骤如下：

S1：收集图片获取训练样本，首先搜集互联网上的图片，利用公开的人脸检测模型进行预打标，然后根据图片上有无人脸补充分类标签，进而得到训练样本；

2.如权利要求1所述基于辅助网络的高效人脸检测方法，其特征在于：步骤S1中，图片为RGB格式，并将图片同比例resize到长边为448大小，并对图片进行归一化操作。

3.如权利要求1所述基于辅助网络的高效人脸检测方法，其特征在于：步骤S2中，FH-EFACE模型由骨干网络、检测分支和分类分支三部分构成。

4.如权利要求3所述基于辅助网络的高效人脸检测方法，其特征在于：所述骨干网络负责提取图像语义特征，由stem块与RepBlock块组成；

5.如权利要求1所述基于辅助网络的高效人脸检测方法，其特征在于：步骤S2中，图像分类损失中，图像分类仅做有/无人脸的二分类，采用二值交叉熵损失，假设输入为x_i，其中p(x_i)为GT，q(x_i)为预测有人脸的概率，计算公式如下：L_BCE(x_i)＝-p(x_i)lnq(x_i)-(1-p(x_i))ln(1-q(x_i))。

6.如权利要求1所述基于辅助网络的高效人脸检测方法，其特征在于：所述目标检测损失细分为三个部分，分别为目标置信度损失、定位损失、关键点损失。

7.如权利要求6所述基于辅助网络的高效人脸检测方法，其特征在于：所述置信度损失是通过计算预测特征点是否存在人脸的置信度误差，其采用二值交叉熵损失；

所述定位损失为预测框与标定框之间的误差，记作L_loc，具体损失采用CIoU损失，CIoUloss考虑两个框的重叠面积、中心点距离、长宽比一致性多重因素；

假设两个矩形框A、B，ρ是A、B框中心点欧式距离，c是A、B框最小外接矩形对角线距离，ν是衡量A、B框长宽比一致性，α为权重，计算公式如下：

C＝w-wln(1+w/∈)

w用于约束非线性部分的取值范围在[-w,w]内，∈约束非线性区域的曲率，C是一个常数，用于连接线性与分线性部分；

FH-EFACE整体损失函数：

其中，I^pre为图片分类输出预测概率，I^gt为图片的真实分类，p^pre、b^pre、l_t ^pre分别是检测分支输出的预测框是人脸的概率、预测框位置信息、关键点坐标，p^gt、b^gt、l_t ^gt为相应的GT信息；[λ_cls,λ_detect]是维持分类与检测损失平衡的权重，初始值均为1，[α_obj,α_box,α_lmark]是用于维持检测内部三个损失平衡的权重，权重值为[1.0,0.05,0.05],便于模型训练时的稳定与快速收敛；为符号函数，该cel l存在人脸时，值为1，否则为0；a_k ^balance用于平衡人脸检测分支K个预测特征层的损失差异，针对大、中、小目标预测特征层采用的权重分别为[0.4,1.0,4.0]。

8.如权利要求1所述基于辅助网络的高效人脸检测方法，其特征在于：步骤S3中，FH-EFACE模型训练结束后，模型中RepBlock结构进行结构重参数化，其中3×3卷积分支进行卷积层与BN层合并，1×1卷积分支、Identity分支分别转化为3×3卷积层，最终将3个分支合并为1个单路3×3卷积层。

9.如权利要求8所述基于辅助网络的高效人脸检测方法，其特征在于：所述卷积层与BN层合并，假定卷积权重为W，偏置为b，BN层平均值为mean，标准差为var，比例因子为γ，偏置为β，则卷积层公式为：

Conv(x)＝W(x)+b

BN层公式为：

将卷积结果带入BN公式，为：

BN(Conv(x))＝W_fused(x)+B_fused

Identity层转化为3×3卷积，其中Identity层特点为输入直接等于输出，卷积操作必须要将每个通道累加后进行输出，若要保证每个通道元素输入输出相等，只需将当前通道卷积核参数设置为1，其余的卷积核参数为0即可，即构造出一个以单位矩阵为卷积核的1x1卷积即可，将Identity层转换为1x1卷积后，在通过上述方法继续转换为3x3的卷积。