CN113158862B - 一种基于多任务的轻量级实时人脸检测方法 - Google Patents

一种基于多任务的轻量级实时人脸检测方法 Download PDF

Info

Publication number
CN113158862B
CN113158862B CN202110394121.9A CN202110394121A CN113158862B CN 113158862 B CN113158862 B CN 113158862B CN 202110394121 A CN202110394121 A CN 202110394121A CN 113158862 B CN113158862 B CN 113158862B
Authority
CN
China
Prior art keywords
anchor frame
prediction
neural network
convolutional neural
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110394121.9A
Other languages
English (en)
Other versions
CN113158862A (zh
Inventor
徐勇
郭越超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110394121.9A priority Critical patent/CN113158862B/zh
Publication of CN113158862A publication Critical patent/CN113158862A/zh
Application granted granted Critical
Publication of CN113158862B publication Critical patent/CN113158862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Abstract

本发明公开了一种基于多任务的轻量级实时人脸检测方法,首先将带有标签信息的人脸图像送入轻量级卷积神经网络模型进行训练,然后将待检测图片输入训练好的轻量级卷积神经网络模型中进行检测,得到预测数据。所述轻量级卷积神经网络模型使用DFace‑MobileNetV1作为主干网络对将待检测图片进行特征提取,然后送入GLFPN中对特征图中的全局信息与局部信息进行融合,并传入DSSH进行上下文特征的抽取,最后由MultiHead输出预测数据。为增强对离群点人脸的检测能力,本发明提出了基于离群样本补偿的交并比匹配算法;为促进特征图在人脸区域产生更大的响应,本发明利用弱监督分割预测来辅助学习。本发明在保证实时运行速度的情况下,进一步降低了人脸检测精度的损失。

Description

一种基于多任务的轻量级实时人脸检测方法
技术领域
本发明属于人脸识别领域,具体涉及一种基于多任务的轻量级实时人脸检测方法。
背景技术
传统的人脸检测方法采用手工设计的特征,这些特征稳定性较差,鲁棒性不高,对于各种遮挡、各种表情以及各种姿态等复杂情况,人脸检测效果极不理想。近年来,深度学习的异军突起将人工智能的发展推向了一个新的高度,研究表明,用卷积神经网络所提取出来的含有高级抽象的语义特征是传统手工设计特征所不具备的,而这些特征特别适合于多变场景下的视觉任务,人脸检测任务也不例外。
由于使用复杂神经网络结构提取特征所消耗的时间和空间资源巨大,不利于实际应用部署,因此轻量级网络的研究得到了业界的青睐。轻量级网络在损失一定精度的情况下,大大提高了神经网络运行的速度,使得深度学习能够在有限资源条件下投入应用。因此,如何在保证实时运行速度的情况下,进一步降低人脸检测精度的损失,成为研究的一个热点。
发明内容
本发明针对上述问题,提供了一种基于多任务的轻量级实时人脸检测方法,为增强对离群点人脸的检测能力,本发明提出了基于离群样本补偿的交并比匹配算法;为促进特征图在人脸区域产生更大的响应,本发明利用弱监督分割预测来辅助学习。本发明在保证实时运行速度的情况下,进一步降低了人脸检测精度的损失。
本发明的技术方案如下:
一种基于多任务的轻量级实时人脸检测方法,包括以下步骤:
S1、将含有人脸边框和人脸关键点标注的图片进行预处理,得到带有标签信息的训练图像,将所述训练图像送入轻量级卷积神经网络模型进行训练,直到在一定的时间内验证集精度在所述轻量级卷积神经网络模型中不再增加,得到训练好的轻量级卷积神经网络模型;
S2、将待检测图片输入S1训练好的轻量级卷积神经网络模型中进行检测,得到预测数据;
S3、将S2得到的预测数据通过阈值过滤掉低质量的预测数据,将过滤后的预测数据通过非极大值抑制得到最终的检测结果。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”前,先使用ImageNet对所述轻量级卷积神经网络模型进行预训练,得到预训练权值文件,将所述预训练权值文件加载到所述轻量级卷积神经网络模型中。
进一步的,所述轻量级卷积神经网络模型包括轻量级卷积神经网络DFace-MobileNetV1、轻量级特征金字塔网络GLFPN、上下文增强模块DSSH以及多任务检测头部预测模块MutiHead,其中,所述轻量级卷积神经网络DFace-MobileNetV1用于对待检测图片的特征信息进行提取,得到多种尺度特征图,所述轻量级特征金字塔网络GLFPN用于对所述多种尺度特征图中的多种尺度特征进行融合,同时对所述多种尺度特征图中的全局信息与局部信息进行融合,所述上下文增强模块DSSH用于增大待检测图片中的目标感受野区域,所述多任务检测头部预测模块MutiHead用于输出所述轻量级卷积神经网络模型的人脸检测预测数据。
进一步的,所述轻量级卷积神经网络DFace-MobileNetV1基于MobileNetV1并进行改进,包括:
将MobileNetV1中的全连接层去除,全连接层是DFace-MobileNetV1中不需要的;
将MobileNetV1中的批量归一化调整为组归一化,用于避开批量数据对所述轻量级卷积神经网络模型的影响;
增加对待检测图片的输入尺度,将输入尺度改为640*640,用于增加分辨率。
进一步的,所述轻量级特征金字塔网络GLFPN基于原有的特征金字塔网络FPN并进行改进,包括:
将原有的特征金字塔网络FPN中的卷积运算换成深度可分离卷积运算,用于减少GLFPN参数量并提高计算速度;
在原有的特征金字塔网络FPN的最顶层添加了全局平均池化模块,并将所述全局平均池化模块得到的特征图采用相加方式融合到原有的特征金字塔网络FPN特征图中,用于增强DFace-MobileNetV1提取的特征图中的全局信息与局部信息的交互。
所述上下文增强模块DSSH包括三路分支,其中一路分支含有一个3*3的卷积核组,一路分支含有两个3*3的卷积核组,一路分支含有三个3*3的卷积核组,同时,所述上下文增强模块DSSH采用可形变卷积DConv提取上下文特征信息。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”,具体包括:
S11、对训练图像上的标签进行编码,利用基于离群样本补偿的交并比匹配算法对编码后的标签与锚框进行匹配;
S12、将所述轻量级卷积神经网络模型输出的人脸检测预测数据与编码后的标签真实值进行多任务损失计算得到损失值;
S13、将S12得到的损失值通过反向传播进行权重文件更新;
S14、当所述训练图像全部数据集完成一次前向传播,进行一次验证集精度计算,当验证集精度趋于稳定且不再上升时,终止迭代,得到训练好的轻量级卷积神经网络模型。
进一步的,所述基于离群样本补偿的交并比匹配算法,具体步骤如下:
S111、计算编码后的标签真实值与所有锚框的交并比,得到交并比的二维矩阵;
S112、将S111得到的二维矩阵中与真实值具有最大交并比的锚框匹配为对应真实值的正样本锚框,将交并比值大于阈值θ的锚框匹配为对应真实值的正样本锚框;
S113、找到S112中未匹配的锚框,根据未匹配锚框坐标偏量预测值,解码得到未匹配锚框的预测结果,将所述预测结果与所有标签的真实值再求一次交并比,得到第二个二维矩阵,将第二个二维矩阵中交并比阈值大于α的锚框设置为可忽略锚框;
S114、统计每个编码后的标签真实值在S112中的正样本锚框匹配数量,得到正样本锚框匹配数量少于N的真实值;
S115、根据第二个二维矩阵,对S114中得到正样本锚框匹配数量少于N的真实值再次匹配K个正样本锚框,所述K的值等于N减掉S112中已匹配正样本锚框的数量;
S116、将剩下的锚框设置为负样本锚框。
进一步的,S12中所述轻量级卷积神经网络模型输出的人脸检测预测数据包括锚框类别预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预测,S12具体方法为:
S121、采用基于交叉熵的焦点损失函数计算所述锚框类别预测中的负样本锚框与标签编码后的真实值类别之间的损失值,所述锚框类别预测中的负样本锚框通过采用困难样本挖掘方法抽取;
S122、当锚框被分配为正样本锚框时,采用基于距离的交并比损失函数(CIOU)计算所述锚框坐标偏量预测与标签编码后的真实值坐标偏量之间的损失值;
S123、采用平滑一阶正则损失函数计算所述锚框关键点偏量预测与标签编码后的真实值关键点偏量之间的损失值;
S124、当锚框被分配为正样本锚框时,采用交叉熵损失函数计算所述锚框交并比预测与标签编码后的真实值交并比的损失值,其中,所述交并比为回归之后的锚框与真实值的交并比;
S125、采用交叉熵损失函数计算所述弱监督分割预测的损失值,并对全局特征图进行回归。
进一步的,S3中所述非极大值抑制的具体过程为:
S31、将所述锚框类别预测数据与所述锚框交并比预测数据相乘得到积分,根据所述积分对所有的预测数据进行排序;
S32、根据所述积分的排序,从高到低按顺序进行遍历,从第一个开始,如果后面的预测数据与当前预测数据的交并比大于阈值λ,则后面的预测数据将被抑制掉;
S33、返回没被抑制掉的预测数据,得到最终的检测结果。
本发明提供的一种基于多任务的轻量级实时人脸检测方法,其有益效果是:
1、轻量级特征金字塔网络GLFPN基于原有的特征金字塔网络FPN并进行改进,通过全局特征融合局部特征,让全局引导局部,达到相互促进的效果。
2、上下文增强模块DSSH通过融合多种感受野特征以及上下文局部信息特征,让神经网络充分利用目标周围局部区域信息来学习,加强目标区域与周边区域的信息交互。
3、多任务检测头部预测模块MultiHead是为多任务学习专门设置的网络输出通过多个协同相关任务一起进行监督学习,从而提高模型的鲁棒性能。
4、基于离群样本补偿的交并比匹配算法利用锚框来增加离群样本锚框的数量,增加对离群尺度人脸的召回率,进而提升离群尺度人脸的检测准确率。
5、利用弱监督分割预测来辅助学习,能够更好地促进网络模型学到更加鲁棒的特征,该分支能促进特征图在人脸区域产生更大的响应,从而帮助检测任务的学习,此分支在预测阶段将被冻结不会增加额外的推理时间。
附图说明
图1为本发明方法的轻量级卷积神经网络模型结构示意图;
图2为本发明方法的整体流程图;
图3为本发明方法对轻量级卷积神经网络模型训练的流程图;
图4为本发明方法对待检测图片的检测流程图;
图5为本发明方法中交并比的示意图。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
如图2所示,本发明基于多任务的轻量级实时人脸检测方法,包括以下步骤:
S1、将含有人脸边框和人脸关键点标注的图片进行预处理,得到带有标签信息的训练图像,将所述训练图像送入轻量级卷积神经网络模型进行训练,直到在一定的时间内验证集精度在所述轻量级卷积神经网络模型中不再增加,得到训练好的轻量级卷积神经网络模型;
具体地,预处理过程主要包括随机裁剪、随机水平翻转、运动模糊、颜色亮度对比度抖动、归一化、固定尺度缩放等操作,对于每张图片,采用以上的一个或多个预处理操作对图片进行数据增强。其中随机裁剪主要为了适应多尺度的目标,具体步骤为:设置裁剪比率为0.3,0.45,0.6,0.8,1.0,随机取一个比率r,从图片的宽度w和高度h中选择较小的数值s,s=min(w,h),随机裁剪的边长为s*r,值得注意的是,随机裁剪之后目标在原始图片中的相对位置发生了改变,因此也要相应的对标签进行转换。运动模糊主要为了适应捕捉现实场景中运动人脸目标而专门设置的数据增强操作,在训练中以0.4的概率,之后以不同的运动方向,不同程度的模糊进行数据增强。固定尺度缩放主要是固定图片的输入尺度,以保证每次能够送入多张图片进行同时训练。同时需要根据预处理过程中图片的变换对标签信息做出相应的调整,训练方式为多尺度训练,其有益效果是通过数据增强提高训练模型的鲁棒性,并提高模型对多尺度目标的泛化能力。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”前,先使用ImageNet对所述轻量级卷积神经网络模型进行预训练,得到预训练权值文件,将所述预训练权值文件加载到所述轻量级卷积神经网络模型中。
具体地,加载在ImageNet上预训练的权重文件,一方面可以加快神经网络的收敛,另一方面,充分利用ImageNet图像数据集来提升特征提取网络的鲁棒性,缓解训练数据不足的问题,因为对于不同的视觉任务,神经网络在特征提取阶段所提取的特征类型相差不大。
进一步的,如图1所示,所述轻量级卷积神经网络模型包括轻量级卷积神经网络DFace-MobileNetV1、轻量级特征金字塔网络GLFPN、上下文增强模块DSSH以及多任务检测头部预测模块MutiHead,其中,所述轻量级卷积神经网络DFace-MobileNetV1用于对待检测图片的特征信息进行提取,得到多种尺度特征图,所述轻量级特征金字塔网络GLFPN用于对所述多种尺度特征图中的多种尺度特征进行融合,同时对所述多种尺度特征图中的全局信息与局部信息进行融合,所述上下文增强模块DSSH用于增大待检测图片中的目标感受野区域,所述多任务检测头部预测模块MutiHead用于输出所述轻量级卷积神经网络模型的人脸检测预测数据,所述预测数据包括锚框类别预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预测。
具体地,所述轻量级卷积神经网络模型的特征提取部分采用轻量级神经网络DFace-MobileNetV1,所述轻量级卷积神经网络DFace-MobileNetV1基于MobileNetV1并进行改进,包括:将MobileNetV1中的全连接层去除,用于去除冗余的DFace-MobileNetV1结构和DFace-MobileNetV1参数,全连接层是DFace-MobileNetV1中不需要的,将MobileNetV1中的批量归一化调整为组归一化,将BN层替换为GN层,用于避开批量数据对所述轻量级卷积神经网络模型的影响;增加待检测图像的输入尺度,将输入尺度改为640*640,用于增加分辨率以防止所述人脸图像信息过度损失,同时增强对小人脸目标的检测能力,同时,在DFace-MobileNetV1网络中将一个常规的3*3卷积分解为一个深度卷积和一个逐点卷积,大大减少了参数量并提高了计算速度。
进一步的,所述轻量级特征金字塔网络GLFPN基于原有的特征金字塔网络FPN并进行改进,包括:将原有的特征金字塔网络FPN中的卷积运算换成深度可分离卷积运算,用于减少GLFPN参数量并提高计算速度;在原有的特征金字塔网络FPN的最顶层添加了全局平均池化模块,并将所述全局平均池化模块得到的特征图采用相加方式融合到原有的特征金字塔网络FPN特征图中,用于增强DFace-MobileNetV1提取的特征图中的全局信息与局部信息的交互。
具体地,所述轻量级特征金字塔网络GLFPN共有三层,特征图的尺寸分别为原图尺寸的1/8,1/16,1/32,分别对应三个检测分支,采用GLFPN的有益效果是通过全局特征融合局部特征,让全局引导局部,达到相互促进的效果。
进一步的,所述上下文增强模块DSSH包括三路分支,其中一路分支含有一个3*3的卷积核组,一路分支含有两个3*3的卷积核组,一路分支含有三个3*3的卷积核组,同时,采用可形变卷积DConv提取上下文特征信息。
具体地,所述上下文模块DSSH主要为增大目标的感受野,其结构类似于Inception结构,含有三路分支,其中一路分支含有一个3*3的卷积核组,另外两个分别含有两个和三个3*3的卷积核组,同时将所有的卷积层更换为可形变卷积DConv,增强了卷积核提取上下文特征信息的能力。其有益效果是通过融合多种感受野特征以及上下文局部信息特征,让神经网络充分利用目标周围局部区域信息来学习,加强目标区域与周边区域的信息交互。一个特征图分别经过三个分支,得到三种感受野,分别是3*3,5*5,7*7的感受野,最后对三种感受野进行融合,融合方式采用特征图叠加操作。所述上下文模块DSSH相当于空间注意力机制,充分考虑到特征图周边区域的特征对该区域的影响。
具体地,所述多任务检测头部预测模块MultiHead是为多任务学习专门设置的网络输出。其有益效果是通过多个协同相关任务一起进行监督学习,从而提高模型的鲁棒性能。对于人脸检测任务,一般只需要两个分支即可,一个分支用来进行边界框的锚框坐标偏量预测,另一个分支用来对预测结果置信度进行评估的锚框类别预测。本实施例使用了五个分支,另外三个分支分别用来预测人脸的五个关键点、人脸的区域分割以及预测框与真实框之间的交并比。人脸的锚框关键点偏量预测可用于对检测之后的人脸进行矫正,为人脸表情识别、人脸识别提提供可靠的输入,弱监督分割预测主要用来协助人脸检测任务,通过额外任务的监督提升网络的鲁棒性、泛化性;锚框交并比预测主要用来消除回归预测与分类预测之间的不一致问题,通常情况下,锚框与真实值交并比大于一定的阈值,就将该锚框设置为正样本锚框,但是却无法描述出匹配程度,即阈值越大匹配程度就越高,为此设计了锚框交并比预测来刻画锚框与真实值之间的匹配程度,从而为非极大值抑制提供了更为可靠的筛选依据。
具体地,获取训练图像在轻量级卷积神经网络模型中前向传播之后的预测结果,该过程就是网络的前向传播计算阶段,根据网络结构的特点,训练图像首先经过特征提取网络DFace-MobileNetV1提取特征,如图3所示,DFace-MobileNetV1的输出作为第二阶段轻量级特征金字塔网络GLFPN的输入,GLFPN自上而下,高层特征通过上采样与低层特征连接起来,再次得到三个尺度输出,这三个尺度分别相对于输入训练图像降采样8倍,16倍以及32倍,大尺度特征图负责小人脸的检测,小尺度特征图负责大人脸的检测。GLFPN将高层的语义信息与低层的精细粒度信息结合起来,实现高精度人脸检测。GLFPN之后将特征图分别送入DSSH上下文模块,提取上下文信息,然后再送入MultiHead模块,得到最终的输出。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”,具体包括:
S11、对训练图像上的标签进行编码,利用基于离群样本补偿的交并比匹配算法对编码后的标签与锚框进行匹配;
具体地,训练图片中每个目标的标签如下:x,y,w,h,p1_x,p1_y,p2_x,p2_y,p3_x,p3_y,p4_x,p4_y,p5_x,p5_y,其中x,y为目标的左上角坐标,w,h为目标的宽和高,p1_x,p1_y,p2_x,p2_y,p3_x,p3_y,p4_x,p4_y,p5_x,p5_y为人脸五个关键点的坐标,这五个关键点分别是左眼,右眼,鼻尖,嘴角左,嘴角右。在前向传播之前,根据坐标在特征图上的位置和特征图的大小将标签坐标值归一化到0-1之间,然后对标签进行编码。锚框的设置类似于滑动窗口,通常情况下,锚框需要根据目标的特点进行设置,在特征图上每个位置都预先设置不同长宽比,不同大小的锚框,这里考虑到人脸形状的特殊性,只设置一种长宽比的锚框,但人脸有多种尺度,为此,锚框人为设置了边长为16,32,64,128,256,512六种边长尺度的锚框,在降采样8倍的特征图上,设置边长为16,32两种尺度的锚框,降采样16倍的特征图上设置边长为64,128两种尺度的锚框,在降采样为32倍的特征图上,设置边长为256,512两种尺度的锚框。
进一步的,利用基于离群样本补偿的交并比匹配算法,具体步骤如下:
S111、计算编码后的标签真实值与所有锚框的交并比,得到交并比的二维矩阵;
S112、将S111得到的二维矩阵中与真实值具有最大交并比的锚框匹配为对应真实值的正样本锚框,将交并比值大于阈值θ的锚框匹配为对应真实值的正样本锚框,具体地,阈值θ设置为0.35;
S113、找到S112中未匹配的锚框,根据未匹配锚框坐标偏量预测值,解码得到未匹配锚框的预测结果,将所述预测结果与所有标签的真实值再求一次交并比,得到第二个二维矩阵,将第二个二维矩阵中交并比阈值大于α的锚框设置为可忽略锚框,所述可忽略指不参与损失的计算,具体地,阈值α设置为0.7;
S114、统计每个编码后的标签真实值在S112中的正样本锚框匹配数量,得到正样本锚框匹配数量少于N的真实值,具体地,所述N设置为3;
S115、根据第二个二维矩阵,对S114中得到正样本锚框匹配数量少于N的真实值再次匹配K个正样本锚框,所述K的值等于N减掉S112中已匹配正样本锚框的数量;
具体地,K个正样本锚框必须满足的条件:锚框的预测结果与真实值的交并比必须大于阈值α;锚框的预测结果与真实值交并比值必须在交并比值排序的前k个。
S116、将剩下的锚框设置为负样本锚框。
考虑到传统交并比匹配方法中,某些负样本锚框同样具有很强的回归能力,利用这些锚框来增加离群样本锚框的数量,其有益效果是增加对离群尺度人脸的召回率,进而提升离群尺度人脸的检测准确率。
匹配过程完成之后,每个编码后的标签真实值都分配了一定数量的锚框,对于锚框坐标偏量预测,首先将真实值的边界框转换为(x_c,y_c,w,h)的表示,其中x_c,y_c分别表示真实值的中心坐标,考虑到目标的大小存在尺度差异,如果不根据目标的大小来求损失,大目标的损失将主导整体损失,不利于小目标的学习,为此将为边界框的中心点回归以及宽高的回归损失乘上一个缩放因子,中心点回归中缩放因子为一个固定值乘以负责回归该真实值的锚框的尺寸,宽高的回归由于涉及到了宽高比,为此仅乘上了一个数值,设匹配的锚框中心为a_x,a_y,宽高为a_w,a_h,具体编码公式如下:
对于锚框关键点偏量预测,求的是关键点关于锚框中心点的偏移量,具体的方法和边框中心点的回归方式相同。值得注意的是,数据集中,小人脸比较多,并非每个人脸都有关键点的标注,对于没有关键点的人脸,不进行编码以及之后损失的计算。
对于锚框类别预测,上述锚框的匹配过程已经提到,主要设置为正样本锚框,负样本锚框以及可忽略锚框三种。
对于锚框交并比预测,根据锚框匹配过程步骤S123中得到。
进一步的,弱监督分割预测基于弱监督人脸区域分割方法,对于人脸区域掩码标签生成如下:
(1)求标签编码后的真实值与所有锚框的交并比,并找到交并比最大时所对应的锚框,根据该锚框的尺寸,找到对应的特征金字塔层i;
(2)将人脸目标在原图的位置区域映射到特征金字塔层i的位置区域,根据目标在特征图的映射,特征图上每个点进行编码,如果特征图上的点落在人脸区域,那么该像素点为1,否则该像素点为0;
(3)为了消除损失回传的混淆歧义,将特征金字塔层i+1和i-1对应的目标区域设置为可忽略区域,即该区域不参与损失的计算和回传。
由于没有真实的掩码标签,故该方法为弱监督人脸区域分割方法,由于人脸分割标注信息难以获得,故采用边界框来粗略定义分割区域。通过降采样操作,此粗略的分割标注已非常接近真实分割标注。其有益效果是,通过增加这一弱监督分割预测分支,能够更好地促进网络学到更加鲁棒的特征,该分支能促进特征图在人脸区域产生更大的响应,从而帮助检测任务的学习,此分支在预测阶段将被冻结不会增加额外的推理时间。
S12、将所述轻量级卷积神经网络模型输出的人脸检测预测数据与编码后的标签真实值进行多任务损失计算得到损失值;
具体地,根据标签编码后的真实值对多任务检测头部预测模块MutiHead输出的预测数据进行损失计算,进一步的,所述轻量级卷积神经网络模型输出的人脸检测预测数据包括锚框类别预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预测,S12具体方法为:
S121、采用基于交叉熵的焦点损失函数计算所述锚框类别预测中的负样本锚框与标签编码后的真实值类别之间的损失值,所述锚框类别预测中的负样本锚框通过采用困难样本挖掘方法抽取,具体地,所述标签编码后的真实值类别就是S11中利用基于离群样本补偿的交并比匹配算法对编码后的标签与锚框进行匹配后得到的锚框类别,此步骤的有益效果是平衡正负样本损失,同时让困难样本主导网络的梯度方向;
具体地,锚框类别预测与标签编码之后的真实值类别采用基于交叉熵的焦点损失函数,损失函数的定义如下:
Fl(pt)=-at(1-pt)γlog(pt)
其中,at用来平衡正负样本数量,设置为0.25,γ用来加权困难样本,pt表示预测值,计算锚框类别损失的时候采用了困难样本挖掘的模式,因为负样本锚框居多,如果都拿进来计算,损失将由负样本类别主导,采用1:7的比例,根据锚框的损失排序提取数量为正样本锚框7倍的负样本锚框,进行类别损失的计算。
S122、当锚框被分配为正样本锚框时,采用基于距离的交并比损失函数(CIOU)计算所述锚框坐标偏量预测与标签编码后的真实值坐标偏量之间的损失值,有益效果是基于距离的交并比的损失函数更能表征预测结果与目标的偏离程度,从而学习到目标更精确的回归表示;
具体地,关于交并比IOU,如图5所示,传统的IOU无法精确地衡量目标与锚框之间的重叠程度,CIOU将目标与锚框之间的距离、长宽比、重叠率以及尺度都考虑进去,公式如下:
其中,Lciou=1-CIOU,ρ为标签编码后的真实值中心与锚框中心的距离,c为标签编码后的真实值预取与锚框区域形成最小闭包的区域的对角线距离,b为预测的边界框,bgt为标签边界框,α为正则因子,wgt为真实值的宽,hgt为标签编码后的真实值的高,w、h分别为预测值的宽和高,Lciou为损失值。
将网络模型输出的预测值与标签编码之后的真实值进行CIOU损失的计算,得到关于边界框回归的损失值,这项损失只有锚框被分配为正样本的时候才进行计算。
S123、采用平滑一阶正则损失函数计算所述锚框关键点偏量预测与标签编码后的真实值关键点偏量之间的损失值;
具体地,锚框的关键点回归采用平滑一阶正则损失函数,损失函数如下,当且仅当目标有关键点标注的时候才对相应的预测锚框做此损失计算,其中x表示标签编码后的真实值与预测值之间的偏差值。
S124、当锚框被分配为正样本锚框时,采用交叉熵损失函数计算所述锚框交并比预测与标签编码后的真实值交并比的损失值,其中,所述交并比为回归之后的锚框与真实值的交并比,有益效果是解决了目标的边界框回归精度与目标的类别得分不一致的问题;
S125、采用交叉熵损失函数计算所述弱监督分割预测的损失值,并对全局特征图进行回归。
具体地,交并比损失和掩弱监督分割预测损失函数均采用交叉熵损失函数,损失函数如下:
总的损失为上S121-S125五项损失值之和,考虑到损失值得大小以及任务得重要性平衡关系,这里将S122中边界框回归损失权重设置为2,其余全部设置为1。
S13、将S12得到的损失值通过反向传播进行权重文件更新;
具体地,这个过程主要涉及到反向传播算法进行梯度回传和权重文件更新,将S12计算得到得损失值,根据梯度一步一步的往后传,然后后更新权重,经过多个批量数据的迭代来更新权重,不断逼近全局最优。
S14、当所述训练图像全部数据集完成一次前向传播,进行一次验证集精度计算,当验证集精度趋于稳定且不再上升时,终止迭代,得到训练好的轻量级卷积神经网络模型。
具体地,对于验证集精度计算,考虑到验证需要花费一定得时间,迭代完成一次(一次前向传播以及一次反向传播)就计算一次验证集精度不太现实,为此,设定迭代完一轮才完成一次验证集得精度计算,这里得迭代完一轮是指数据集全部进行一次前向传播。当验证集精度趋于稳定且不再上升时,终止迭代,得到最终得模型。至此,训练过程完成。
S2、将待检测图片输入S1训练好的轻量级卷积神经网络模型中进行检测,得到预测数据;
具体地,检测过程如图4所示:
S21、加载训练好的轻量级卷积神经网络模型和训练过程中得到的权重文件;
S22、输入待检测图片到网络模型中,这里可以采用原图直接输入,因为所设计轻量级卷积神经网络为全卷积层,没有全连接层,因此可接受任意尺寸的输入,同时也可以对输入的待检测图片进行适当的缩放,以保持跟训练时的感受野基本一致;
S23、对待检测图片进行前向传播并得到网络前向传播之后的检测结果,这些结果包含每个锚框的坐标偏量预测,类别预测,交并比预测以及关键点预测,还有弱监督分割预测。
S3、将S2得到的预测数据通过阈值过滤掉低质量的预测数据,将过滤后的预测数据通过非极大值抑制得到最终的检测结果。
具体地,S2得到的预测数据大部分都是低质量的,需要先通过一个阈值对类别预测置信度进行过滤,过滤掉低质量的检测框。对过滤之后保留的检测框进行非极大值抑制。非极大值抑制前需要对预测结果解码,解码为上次编码的逆过程,解码之后根据基于距离的交并比进行非极大值抑制。非极大值抑制的具体过程为:
S31、将所述锚框类别预测数据与所述锚框交并比预测数据相乘得到积分,根据所述积分对所有的预测数据进行排序;
S32、根据所述积分的排序,从高到低按顺序进行遍历,从第一个开始,如果后面的预测数据与当前预测数据的交并比大于阈值λ,则后面的预测数据将被抑制掉,具体地,时间复杂度约为O(n2),λ设置为0.4;
S33、返回没被抑制掉的预测数据,得到最终的检测结果。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于多任务的轻量级实时人脸检测方法,其特征在于,包括以下步骤:
S1、将含有人脸边框和人脸关键点标注的图片进行预处理,得到带有标签信息的训练图像,将所述训练图像送入轻量级卷积神经网络模型进行训练,直到在一定的时间内验证集精度在所述轻量级卷积神经网络模型中不再增加,得到训练好的轻量级卷积神经网络模型;
S2、将待检测图片输入S1训练好的轻量级卷积神经网络模型中进行检测,得到预测数据;
S3、将S2得到的预测数据通过阈值过滤掉低质量的预测数据,将过滤后的预测数据通过非极大值抑制得到最终的检测结果;
其中,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”,具体包括:
S11、对训练图像上的标签进行编码,利用基于离群样本补偿的交并比匹配算法对编码后的标签与锚框进行匹配;
S12、将所述轻量级卷积神经网络模型输出的人脸检测预测数据与编码后的标签真实值进行多任务损失计算得到损失值;
S13、将S12得到的损失值通过反向传播进行权重文件更新;
S14、当所述训练图像全部数据集完成一次前向传播,进行一次验证集精度计算,当验证集精度趋于稳定且不再上升时,终止迭代,得到训练好的轻量级卷积神经网络模型;
所述基于离群样本补偿的交并比匹配算法,具体步骤如下:
S111、计算编码后的标签真实值与所有锚框的交并比,得到交并比的二维矩阵;
S112、将S111得到的二维矩阵中与真实值具有最大交并比的锚框匹配为对应真实值的正样本锚框,将交并比值大于阈值θ的锚框匹配为对应真实值的正样本锚框;
S113、找到S112中未匹配的锚框,根据未匹配锚框坐标偏量预测值,解码得到未匹配锚框的预测结果,将所述预测结果与所有标签的真实值再求一次交并比,得到第二个二维矩阵,将第二个二维矩阵中交并比阈值大于α的锚框设置为可忽略锚框;
S114、统计每个编码后的标签真实值在S112中的正样本锚框匹配数量,得到正样本锚框匹配数量少于N的真实值;
S115、根据第二个二维矩阵,对S114中得到正样本锚框匹配数量少于N的真实值再次匹配K个正样本锚框,所述K的值等于N减掉S112中已匹配正样本锚框的数量;
S116、将剩下的锚框设置为负样本锚框。
2.根据权利要求1所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”前,先使用ImageNet对所述轻量级卷积神经网络模型进行预训练,得到预训练权值文件,将所述预训练权值文件加载到所述轻量级卷积神经网络模型中。
3.根据权利要求1所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,所述轻量级卷积神经网络模型包括轻量级卷积神经网络DFace-MobileNetV1、轻量级特征金字塔网络GLFPN、上下文增强模块DSSH以及多任务检测头部预测模块MutiHead,其中,所述轻量级卷积神经网络DFace-MobileNetV1用于对待检测图片的特征信息进行提取,得到多种尺度特征图,所述轻量级特征金字塔网络GLFPN用于对所述多种尺度特征图中的多种尺度特征进行融合,同时对所述多种尺度特征图中的全局信息与局部信息进行融合,所述上下文增强模块DSSH用于增大待检测图片中的目标感受野区域,所述多任务检测头部预测模块MutiHead用于输出所述轻量级卷积神经网络模型的人脸检测预测数据。
4.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,所述轻量级卷积神经网络DFace-MobileNetV1基于MobileNetV1并进行改进,包括:
将MobileNetV1中的全连接层去除;
将MobileNetV1中的批量归一化调整为组归一化;
增加对待检测图片的输入尺度,将输入尺度设为640*640。
5.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,所述轻量级特征金字塔网络GLFPN基于现有的特征金字塔网络FPN并进行改进,包括:
将原有的特征金字塔网络FPN中的卷积运算换成深度可分离卷积运算;
在现有的特征金字塔网络FPN的最顶层添加了全局平均池化模块,并将所述全局平均池化模块得到的特征图采用相加方式融合到原有的特征金字塔网络FPN特征图中。
6.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,所述上下文增强模块DSSH包括三路分支,其中一路分支含有一个3*3的卷积核组,一路分支含有两个3*3的卷积核组,一路分支含有三个3*3的卷积核组,所述上下文增强模块DSSH采用可形变卷积DConv提取上下文特征信息。
7.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,S12中所述轻量级卷积神经网络模型输出的人脸检测预测数据包括锚框类别预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预测,S12具体方法为:
S121、采用基于交叉熵的焦点损失函数计算所述锚框类别预测中的负样本锚框与标签编码后的真实值类别之间的损失值,所述锚框类别预测中的负样本锚框通过采用困难样本挖掘方法抽取;
S122、当锚框被分配为正样本锚框时,采用基于距离的交并比损失函数(CIOU)计算所述锚框坐标偏量预测与标签编码后的真实值坐标偏量之间的损失值;
S123、采用平滑一阶正则损失函数计算所述锚框关键点偏量预测与标签编码后的真实值关键点偏量之间的损失值;
S124、当锚框被分配为正样本锚框时,采用交叉熵损失函数计算所述锚框交并比预测与标签编码后的真实值交并比的损失值,其中,所述交并比为回归之后的锚框与真实值的交并比;
S125、采用交叉熵损失函数计算所述弱监督分割预测的损失值,并对全局特征图进行回归。
8.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法, 其特征在于,S3中所述非极大值抑制的具体过程为:
S31、将锚框类别预测数据与所述锚框交并比预测数据相乘得到积分,根据所述积分对所有的预测数据进行排序;
S32、根据所述积分的排序,从高到低按顺序进行遍历,从第一个开始,如果后面的预测数据与当前预测数据的交并比大于阈值λ,则后面的预测数据将被抑制掉;
S33、返回没被抑制掉的预测数据,得到最终的检测结果。
CN202110394121.9A 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法 Active CN113158862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110394121.9A CN113158862B (zh) 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110394121.9A CN113158862B (zh) 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法

Publications (2)

Publication Number Publication Date
CN113158862A CN113158862A (zh) 2021-07-23
CN113158862B true CN113158862B (zh) 2023-08-22

Family

ID=76890075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110394121.9A Active CN113158862B (zh) 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法

Country Status (1)

Country Link
CN (1) CN113158862B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449712B (zh) * 2021-09-01 2021-12-07 武汉方芯科技有限公司 一种基于改进Alexnet网络的羊脸识别方法
CN113807330B (zh) * 2021-11-19 2022-03-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向资源受限场景的三维视线估计方法及装置
CN114299113A (zh) * 2021-12-27 2022-04-08 北京航空航天大学 一种基于孪生网络的目标跟踪方法及装置
CN114882558B (zh) * 2022-04-29 2024-02-23 陕西师范大学 基于人脸识别技术的学习场景实时身份认证方法
CN115631344B (zh) * 2022-10-06 2023-05-09 中国人民解放军国防科技大学 一种基于特征自适应聚合的目标检测方法
CN115661577B (zh) * 2022-11-01 2024-04-16 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质
CN116416672B (zh) * 2023-06-12 2023-08-29 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN117523636A (zh) * 2023-11-24 2024-02-06 北京远鉴信息技术有限公司 一种人脸检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN111291637A (zh) * 2020-01-19 2020-06-16 中国科学院上海微系统与信息技术研究所 一种基于卷积神经网络的人脸检测方法、装置及设备
CN111898406A (zh) * 2020-06-05 2020-11-06 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN111291637A (zh) * 2020-01-19 2020-06-16 中国科学院上海微系统与信息技术研究所 一种基于卷积神经网络的人脸检测方法、装置及设备
CN111898406A (zh) * 2020-06-05 2020-11-06 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于无效卷积核权值回退的神经网络优化方法;顾上航 等;《计算机工程与应用》;第57卷(第22期);第86-91页 *

Also Published As

Publication number Publication date
CN113158862A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN109543667A (zh) 一种基于注意力机制的文本识别方法
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN112950645B (zh) 一种基于多任务深度学习的图像语义分割方法
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110390363A (zh) 一种图像描述方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN113205103A (zh) 一种轻量级的文身检测方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Liu Real-Time Object Detection for Autonomous Driving Based on Deep Learning
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
Shi et al. Combined channel and spatial attention for YOLOv5 during target detection
CN116258931A (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
CN110969109B (zh) 一种非受限条件下眨眼检测模型及其构建方法和应用
Sun et al. A Metaverse text recognition model based on character-level contrastive learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant