CN113591795A - 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 - Google Patents

一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 Download PDF

Info

Publication number
CN113591795A
CN113591795A CN202110957384.6A CN202110957384A CN113591795A CN 113591795 A CN113591795 A CN 113591795A CN 202110957384 A CN202110957384 A CN 202110957384A CN 113591795 A CN113591795 A CN 113591795A
Authority
CN
China
Prior art keywords
face
image
layer
detection
face detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110957384.6A
Other languages
English (en)
Other versions
CN113591795B (zh
Inventor
李志丹
田甜
潘齐炜
曾蕊
程吉祥
黄思维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202110957384.6A priority Critical patent/CN113591795B/zh
Publication of CN113591795A publication Critical patent/CN113591795A/zh
Application granted granted Critical
Publication of CN113591795B publication Critical patent/CN113591795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统,包括如下步骤:首先对小尺寸人脸训练集图像进行缩放处理及数据增强,得到待提取特征的图像;而后使用轻量化卷积神经网络提取图片特征;在多个特征尺度上对特征进行采样并融合不同尺度的特征;而后使用残差瓶颈层结构处理特征层并通过混合注意力金字塔结构得到最终的检测预测层;使用无锚检测方法和聚焦损失函数对预测层进行计算并回归出图像中所包含的人脸位置;设计并实现一种人脸检测系统,该系统使用本发明提出的算法进行快速人脸图片检测和视频检测。本发明对复杂场景中受遮挡、多尺度的密集人脸检测具有鲁棒性,测试结果和对应的人脸检测图片都证明了本发明方法的有效性。

Description

一种基于混合注意力特征金字塔结构的轻量化人脸检测方法 和系统
技术领域
本发明涉及基于深度学习的人脸检测技术领域,特别涉及基于混合注意力特征金字塔结构的人脸检测方法及系统。
背景技术
人脸检测是指在输入图像中确定所有人脸的位置、大小和位姿的过程,是人脸信息处理中一项关键技术,已成为计算机视觉领域的研究热点。人脸检测作为目标检测的具体应用以及人脸识别的关键步骤之一,已成为视觉任务中独立的研究方向并受到了广泛的关注。如今,由于计算机计算能力的提升以及人脸检测数据集的完善,深度学习成为解决计算机视觉任务的主流方法并在人脸检测领域成效卓然。目前基于深度学习的人脸检测按检测阶段可分为一阶段法和二阶段法,按检测时是否设置锚框可分为基于锚框的检测和无锚检测。最近几年来,因一阶段无锚人脸检测表现优良而受到了越来越多的关注。
文献1(NAJIBI M,SAMANGOUEI P,CHELLAPPA R,et al.Ssh:single stageheadless face detector[C].In:IEEE International Conference on ComputerVision,2017:4885-4894.)是典型的一阶段人脸检测方法,该方法在不同特征图尺度下分别检测人脸,同时在网络中加入上下文信息模块,使网络能精确检测出大量尺寸不同的人脸并有较快的检测速度。文献2(DENG J,GUO J,VERVERAS E,et al.Retinaface:single-shot multi-level face localisation in the wild[C].In:the 2020IEEE/CVFConference on Computer Vision and Pattern Recognition,2020:5205-5211.)该方法是一种单阶段人脸检测方法,其分别使用深度卷积骨干网络和轻量化骨干网络构建检测模型,并增加五个人脸关键点来辅助检测以提升准确率。文献3(LAW H,DENG J.Cornernet:detecting objects as paired keypoints[J].International Journal of ComputerVision,2020.128(3):642-656.)是一种无锚目标检测方法,该算法不在预测环节对检测的目标预先设置锚框,而通过检测目标的左上角和右下角两个关键点来得到目标的预测框。
当前人脸检测任务往往需要处理数十个或百个人脸目标,这些目标都处于随机的真实场景且具有多尺度、高遮挡、密集性等特点,目前多数人脸检测方法均使用大型卷积神经网络提取图像特征,极大的提升了检测准确性,但也伴随着参数量大,训练复杂,检测速度慢等问题,难以用于实时性检测场景中。虽然已有一些使用轻量化网络的检测方法,但仅使用轻量化网络提升检测速度大大降低了检测精度,并且这些快速的人脸检测方法难以处理人脸尺度变化大,小尺寸人脸数量多的复杂场景。
发明内容
为克服现有轻量化人脸检测中小尺寸人脸带来的检测率低及图片中人脸尺度各异的问题,本发明提出一种基于混合注意力特征金字塔结构的人脸检测方法,该方法结合通道注意力机制和空间注意力机制来有效地融合多尺度的上下文信息,使检测器同时关注分布相对全局的大目标人脸和局部分布的小目标人脸,以应对人脸尺度极端变化的场景,同时具有较快的检测速度和较高的检测精度。
一种基于混合注意力特征金字塔结构的轻量化人脸检测方法,具体包括以下步骤:
S1、收集复杂场景中含有多个小尺寸人脸的图像,对图像中人脸进行标注,构成训练集,这里的标注包括用包围框对人脸位置进行标注以及标注图片中人脸数量;所述小尺寸人脸指一幅图像中超过50%以上的人脸尺寸小于25像素*25像素或者小于整幅图像的0.03*0.03;至于复杂场景,这是筛选训练集图像的常识,指筛选背景不同、受遮挡程度不同、图像中人脸尺寸大小不同等涵盖较多情形的图片。此处筛选的图片中人脸数量越多越好。
S2、对步骤S1中的训练集图像进行缩放处理及数据增强,得到预处理的人脸图像,具体包括如下步骤:
S21、统一所述训练集图像尺寸,即对所述训练集图像进行缩放处理使其高宽值与网络训练所设定的高宽值相等:在得到所述训练集图像后,确定所述训练集图像的宽高值是否为网络训练所设定的宽高值;当训练集图像的宽高值不是设定的宽高值时,将训练集图像的宽高值设置为网络训练的预设宽高值,并根据训练集图像比例对训练集图像进行处理,得到经缩放尺寸后的图像;
S22、对S21处理的图像进行数据增强得到待提取特征的图像;所述图像数据增强过程包括图像翻转、图像旋转、图像随机裁剪、图像光照变换和图像色彩变换。
S3、构建人脸检测卷积神经网络;所述人脸检测卷积神经网络使用轻量化骨干网络对步骤S2中预处理的人脸图像提取特征并对提取的特征进行处理并融合,包括如下步骤:首先使用采样函数对特征层进行尺度变换并在多个特征尺度上分别融合不同特征层的特征,然后依次使用残差结构、瓶颈层结构、混合注意力模块处理融合的特征,最后输出到预测层进行计算。
所述轻量化骨干网络采用MobileNetV3small网络结构;所述网络结构从前至后依次设置卷积层、批次归一化层、激活函数层和带挤压模块的可逆残差线性瓶颈层;所述带挤压模块的可逆残差线性瓶颈层从前至后包括卷积层、激活函数层、深度可分离卷积层、挤压模块和残差结构;所述网络结构的第一层使用步长为2、卷积核大小为3*3的卷积层对图片进行下采样,然后使用11个带挤压模块的可逆残差线性瓶颈层,并在其第1、2、4、9个瓶颈层中使用步长为2的卷积核进行图片下采样;所述网络结构在所有卷积操作后均使用激活函数层,并在最后一层使用卷积核大小为3*3、步长为2的卷积层进行最后一次下采样操作。
所述对轻量化骨干网络对提取的特征进行处理和融合,具体包括如下步骤:
首先使用采样函数对特征层进行尺度变换,对所述轻量化骨干网络提取的特征经过上采样和下采样后分别在不同尺度上进行融合;若骨干网络提取的特征尺度由小到大分别为f1,f2,f3那么所得到的融合后的特征层F1,F2,F3由小到大表示为:
F1=f1+Fdownsample×f2+Fdownsample×f3
F2=Fupsample×f1+f2+Fdownsample×f3
F3=Fupsample×f1+Fupsample×f2+f3
其中:Fupsample表示上采样函数,Fdownsample表示下采样函数;
接着使用残差瓶颈层处理经尺度变换融合的特征层,所述残差瓶颈层结构包括1*1卷积层、批次归一化层、激活函数层、3*3卷积层和残差连接;其过程可表示为:
Foutput=F1*1(F3*3(F1*1(Finput)))+Finput
其中:Foutput表示输出特征,F1*1表示使用1*1大小的卷积计算,F3*3表示使用3*3大小的卷积计算,Finput表示输入特征,每个卷积计算后都使用批次归一化层和激活函数层;
最后将经过残差瓶颈层结构的特征层通过混合注意力模块两两融合后作为预测层进行输出;所述混合注意力模块由通道注意力子模块和空间注意力子模块并行组合而成;对于混合注意力模块的输入特征层Fin,混合注意力模块的输出特征Fout表示如下:
Figure BDA0003220521700000031
其中:δ表示使用sigmoid函数,Fc表示经过通道注意力子模块的特征,Fs表示经过空间注意力子模块的特征。Fc和Fs表达式如下:
Fc(X)=Pwconv(δ(AvgPool(Pwconv(X))+MaxPool(Pwconv(X))))
Fs(X)=Pwconv(δ(Conv7*7((AvgPool(Pwconv(X));MaxPool(Pwconv(X))))))
其中Pwconv(x)表示使用1*1逐点卷积,AvgPool(x)表示使用平均池化函数,MaxPool(x)表示使用最大池化函数,Conv7*7表示使用卷积核大小为7*7的卷积。
S4、将步骤S2中的得到的预处理图像输入到步骤S3构建的人脸检测卷积神经网络结构中进行人脸检测神经网络训练;训练时使用无锚检测方法对输入预测层中的图像特征进行计算并将图像中的人脸用矩形框标注,得到带人脸矩形框的图像,损失函数使用聚焦损失函数,所述聚焦损失函数通过网络训练让预测值拟合出真实值,直到损失函数收敛;聚焦损失函数使用平衡因子作为损失函数附加的权重来调节正负样本的优化,使用可调聚焦参数调节简单样本和复杂样本的优化;通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数E,当达到训练迭代次数E时,损失函数几乎不再减小即训练到拟合;
所述无锚检测方法的具体步骤如下:
B1、将步骤S3所述混合注意力模块输出的特征图像记为I∈RW×H×3,W为图像的宽,H为图像的高;
B2、通过步骤S4中的卷积神经网络训练得到混合注意力模块输出的特征图片中人脸高斯核的热图:该过程中,预测值表示为
Figure BDA0003220521700000041
其中n表示图片下采样的倍数,当
Figure BDA0003220521700000042
时表示检测到人脸,当
Figure BDA0003220521700000043
时表示检测为背景;在网络训练阶段,首先对步骤S2中预处理后的人脸图片计算人脸包围框对应的中心点,图像中的人脸标注框表示为(x1,y1,x2,y2),x1、x2、y1、y2分别表示人脸标注框横纵坐标的极值,则其中心点表示为
Figure BDA0003220521700000044
将这些中心点嵌入到高斯核函数中,得到带标注的人脸高斯核热图;
Figure BDA0003220521700000045
式中:Yxy为标签真实值;
Figure BDA0003220521700000046
表示低分辨率特征图下的等效中心点;σc表示目标自适应标准差,其大小为高斯核半径的三分之一。
所述聚焦损失函数计算公式如下:
Figure BDA0003220521700000047
其中:Yxy为标签真实值,
Figure BDA0003220521700000048
为预测值,α∈(0,1)为损失函数的附加权重,(1-p)γ为调制因子,γ≥0为可调聚焦参数;
S5、设置优化策略和相关超参数训练人脸检测网络,迭代训练直至损失函数收敛,并保存网络训练权重参数;
S6、基于步骤S3构建的人脸检测卷积神经网络和步骤S5获得的网络训练权重参数构建基于混合注意力特征金字塔结构的人脸检测模型,并以该检测模型对待检测图片进行人脸检测,同时,检测模型将记录所有检测得到的人脸矩形框以确定检测到的人脸数量。
本发明还提供了一种基于混合注意力特征金字塔结构的人脸检测系统,包括以下模块:
人脸图像获取模块,配置为获取待检测人脸图像集;
人脸图像检测模型获取及参数获取模块,配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸图像检测器,并进行图像中的人脸检测;
人脸视频检测模型获取及参数获取模块,配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸视频检测器,并进行视频中的人脸检测;
人脸计数模块,对图像或视频检测中的人脸进行计数。
有益效果:
1、本发明提出一种基于混合注意力特征金字塔结构的人脸检测方法及系统。人脸图片训练集包含大量的小尺寸人脸并且人脸尺度变化大,本发明首先使用图像裁剪和数据增强处理人脸图片训练集,然后使用轻量化的骨干网络提取图片特征以加快检测网络训练速度及减小网络参数量。
2、本发明在使用轻量化骨干网络提取出人脸图片特征之后,在多尺度特征层上进行采样并融合不同尺度上的特征层,然后使用瓶颈层结构处理融合的特征层,接着通过混合注意力模块处理得到最终的预测层。预测方式采用无锚框的中心点预测以缩减计算流程并加快检测速度。
3、本发明设计并实现了一种人脸检测系统,该系统可以使用本发明所提的基于混合注意力特征金字塔结构的人脸检测方法进行人脸图像检测和视频检测。
附图说明
图1为本发明实施例使用的模型结构整体图;
图2为本发明实施例使用的混合注意力结构图;其中,图a1为混合注意力整体结构图,图b1为混合注意力结构的通道注意力子结构图,图b2为混合注意力结构的空间注意力子结构图;
图3为本发明实施例的流程示意图;
图4为本发明实施例设计的检测系统结构图;
图5为采用本发明方法和未采用本发明方法的检测效果对比图;其中,图a1~a4为使用本发明方法的检测效果图,图b1~b4为未采用本发明方法的检测效果图。
具体实施方式
为了对本发明的技术特征、目的和有益效果有更加清楚的理解,结合附图对本发明的一个实施例作进一步描述。实施例只用于对本发明进行进一步的说明,不能理解为对本发明保护范围的限制,本领域的技术人员根据本发明的内容做出的一些非本质的改进和调整也属于本发明保护的范围。
一种基于混合注意力特征金字塔结构的轻量化人脸检测方法,具体包括以下步骤:
S1、收集复杂场景中含有多个小尺寸人脸的图像,对图像中人脸进行标注,构成训练集,这里的标注包括用包围框对人脸位置进行标注以及标注图片中小尺寸人脸数量;所述小尺寸人脸指一幅图像中超过50%以上的人脸尺寸小于25像素*25像素或者小于整幅图像的0.03*0.03;至于复杂场景,这是筛选训练集图像的常识,指筛选背景不同、受遮挡程度不同、图像中人脸尺寸大小不同等涵盖较多情形的图片。此处筛选的图片中人脸数量均大于等于20个。
S2、对步骤S1中的训练集图像进行缩放处理及数据增强,得到预处理的人脸图像。
S3、构建人脸检测卷积神经网络;所述人脸检测卷积神经网络使用轻量化骨干网络对步骤S2中预处理的人脸图像提取特征并对提取的特征进行处理并融合,包括如下步骤:首先使用采样函数对特征层进行尺度变换并在多个特征尺度上分别融合不同特征层的特征,然后依次使用残差结构、瓶颈层结构、混合注意力模块处理融合的特征,最后输出到预测层进行计算。
S4、将步骤S2中的得到的预处理图像输入到步骤S3构建的人脸检测卷积神经网络结构中进行人脸检测神经网络训练;训练时使用无锚检测方法对输入预测层中的图像特征进行计算并将图像中的人脸用矩形框标注,得到带人脸矩形框的图像,损失函数使用聚焦损失函数,所述聚焦损失函数通过网络训练让预测值拟合出真实值,直到损失函数收敛;聚焦损失函数使用平衡因子作为损失函数附加的权重来调节正负样本的优化,使用可调聚焦参数调节简单样本和复杂样本的优化;通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数E,当达到训练迭代次数E时,损失函数几乎不再减小即训练到拟合;
S5、设置优化策略和相关超参数训练人脸检测网络,迭代训练直至损失函数收敛,并保存网络训练权重参数;
S6、基于步骤S3构建的人脸检测卷积神经网络和步骤S5获得的网络训练权重参数构建基于混合注意力特征金字塔结构的人脸检测模型,并以该检测模型对待检测图片进行人脸检测,同时,检测模型将记录所有检测得到的人脸矩形框以确定检测到的人脸数量。
作为本发明的一种具体实施方式,步骤S2具体包括如下步骤:
S21、统一所述训练集图像尺寸,即对所述训练集图像进行缩放处理使其高宽值与网络训练所设定的高宽值相等:在得到所述训练集图像后,确定所述训练集图像的宽高值是否为网络训练所设定的宽高值;当训练集图像的宽高值不是设定的宽高值时,将训练集图像的宽高值设置为网络训练的预设宽高值,并根据训练集图像比例对训练集图像进行处理,得到经缩放尺寸后的图像;
S22、对S21处理的图像进行数据增强得到待提取特征的图像;所述图像数据增强过程包括图像翻转、图像旋转、图像随机裁剪、图像光照变换和图像色彩变换。
作为本发明的一种具体实施方式,步骤S3所述轻量化骨干网络采用MobileNetV3small网络结构;所述网络结构从前至后依次设置卷积层、批次归一化层、激活函数层和带挤压模块的可逆残差线性瓶颈层;所述带挤压模块的可逆残差线性瓶颈层从前至后包括卷积层、激活函数层、深度可分离卷积层、挤压模块和残差结构;所述网络结构的第一层使用步长为2、卷积核大小为3*3的卷积层对图片进行下采样,然后使用11个带挤压模块的可逆残差线性瓶颈层,并在其第1、2、4、9个瓶颈层中使用步长为2的卷积核进行图片下采样;所述网络结构在所有卷积操作后均使用激活函数层,并在最后一层使用卷积核大小为3*3、步长为2的卷积层进行最后一次下采样操作。
作为本发明的一种具体实施方式,步骤S3所述对轻量化骨干网络对提取的特征进行处理和融合,具体包括如下步骤:
首先使用采样函数对特征层进行尺度变换,对所述轻量化骨干网络提取的特征经过上采样和下采样后分别在不同尺度上进行融合;若骨干网络提取的特征尺度由小到大分别为f1,f2,f3那么所得到的融合后的特征层F1,F2,F3由小到大表示为:
F1=f1+Fdownsample×f2+Fdownsample×f3
F2=Fupsample×f1+f2+Fdownsample×f3
F3=Fupsample×f1+Fupsample×f2+f3
其中:Fupsample表示上采样函数,Fdownsample表示下采样函数;
接着使用残差瓶颈层处理经尺度变换融合的特征层,所述残差瓶颈层结构包括1*1卷积层、批次归一化层、激活函数层、3*3卷积层和残差连接;其过程可表示为:
Foutput=F1*1(F3*3(F1*1(Finput)))+Finput
其中:Foutput表示输出特征,F1*1表示使用1*1大小的卷积计算,F3*3表示使用3*3大小的卷积计算,Finput表示输入特征,每个卷积计算后都使用批次归一化层和激活函数层;
最后将经过残差瓶颈层结构的特征层通过混合注意力模块两两融合后作为预测层进行输出;所述混合注意力模块由通道注意力子模块和空间注意力子模块并行组合而成;对于混合注意力模块的输入特征层Fin,混合注意力模块的输出特征Fout表示如下:
Figure BDA0003220521700000081
其中:δ表示使用sigmoid函数,Fc表示经过通道注意力子模块的特征,Fs表示经过空间注意力子模块的特征。Fc和Fs表达式如下:
Fc(X)=Pwconv(δ(AvgPool(Pwconv(X))+MaxPool(Pwconv(X))))
Fs(X)=Pwconv(δ(Conv7*7((AvgPool(Pwconv(X));MaxPool(Pwconv(X))))))
其中Pwconv(x)表示使用1*1逐点卷积,AvgPool(x)表示使用平均池化函数,MaxPool(x)表示使用最大池化函数,Conv7*7表示使用卷积核大小为7*7的卷积。
作为本发明的一种具体实施方式,步骤S4所述无锚检测方法的具体步骤如下:
B1、将步骤S3所述混合注意力模块输出的特征图像记为I∈RW×H×3,W为图像的宽,H为图像的高;
B2、通过步骤S4中的卷积神经网络训练得到混合注意力模块输出的特征图片中人脸高斯核的热图:该过程中,预测值表示为
Figure BDA0003220521700000082
其中n表示图片下采样的倍数,当
Figure BDA0003220521700000083
时表示检测到人脸,当
Figure BDA0003220521700000084
时表示检测为背景;在网络训练阶段,首先对步骤S2中预处理后的人脸图片计算人脸包围框对应的中心点,图像中的人脸标注框表示为(x1,y1,x2,y2),x1、x2、y1、y2分别表示人脸标注框横纵坐标的极值,则其中心点表示为
Figure BDA0003220521700000085
将这些中心点嵌入到高斯核函数中,得到带标注的人脸高斯核热图;
Figure BDA0003220521700000086
式中:Yxy为标签真实值;
Figure BDA0003220521700000087
表示低分辨率特征图下的等效中心点;σc表示目标自适应标准差,其大小为高斯核半径的三分之一。
作为本发明的一种具体实施方式,所述聚焦损失函数计算公式如下:
Figure BDA0003220521700000091
其中:Yxy为标签真实值,
Figure BDA0003220521700000092
为预测值,α∈(0,1)为损失函数的附加权重,(1-p)γ为调制因子,γ≥0为可调聚焦参数。
本发明还提供了一种基于混合注意力特征金字塔结构的人脸检测系统,包括以下模块:
人脸图像获取模块,配置为获取待检测人脸图像集;
人脸图像检测模型获取及参数获取模块,配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸图像检测器,并进行图像中的人脸检测;
人脸视频检测模型获取及参数获取模块,配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸视频检测器,并进行视频中的人脸检测;
人脸计数模块,对图像或视频检测中的人脸进行计数。
仿真实验:
图5中给出了本发明方法与对比检测方法的人脸检测效果图,对比检测方法仅仅使用了轻量化骨干网络未使用特征处理步骤,其中图a1~a4为使用本发明方法的人脸检测效果图,图b1~b4为未使用本发明方法的基础人脸检测网络检测效果图,检测人脸数量结果见表1。
表1仿真实验人脸数量测量统计表
Figure BDA0003220521700000093
从图5和表1可以看出:使用本发明方法后极大提升了人脸检测器对小尺寸人脸的检测效果,并且能很好地检测复杂场景中受遮挡、多尺度的密集人群。
以上仿真实验结果表明,本发明方法在保持检测网络轻量化的同时,对复杂场景的检测具有很高的鲁棒性,特别是针对人脸尺度变化大、小尺寸人脸多的图片有很好地检测效果。
以上对本发明的有关内容进行了说明,本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

Claims (7)

1.一种基于混合注意力特征金字塔结构的轻量化人脸检测方法,其特征在于,包括以下步骤:
S1、收集复杂场景中含有多个小尺寸人脸的图像,对图像中人脸进行标注,构成训练集;所述小尺寸人脸指一幅图像中超过50%以上的人脸尺寸小于25像素*25像素或者小于整幅图像的0.03*0.03;所述标注包括用包围框对图像中的人脸位置进行标注以及标注图像中人脸数量;
S2、对步骤S1中的训练集图像进行缩放处理及数据增强,得到预处理的人脸图像;
S3、构建人脸检测卷积神经网络;所述人脸检测卷积神经网络使用轻量化骨干网络对步骤S2中预处理的人脸图像提取特征并对提取的特征进行处理并融合,具体包括如下步骤:首先使用采样函数对特征层进行尺度变换并在多个特征尺度上分别融合不同特征层的特征,然后依次使用残差结构、瓶颈层结构、混合注意力模块处理融合的特征,最后输出到预测层进行计算;
S4、将步骤S2中的得到的预处理图像输入到步骤S3构建的人脸检测卷积神经网络结构中进行人脸检测神经网络训练;训练时使用无锚检测方法对输入预测层中的图像特征进行计算并将图像中的人脸用矩形框标注,得到带人脸矩形框的图像,损失函数使用聚焦损失函数,所述聚焦损失函数通过网络训练让预测值拟合出真实值,直到损失函数收敛;聚焦损失函数使用平衡因子作为损失函数附加的权重来调节正负样本的优化,使用可调聚焦参数调节简单样本和复杂样本的优化;通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数E;
S5、设置优化策略和相关超参数训练人脸检测网络,迭代训练直至损失函数收敛,并保存网络训练权重参数;
S6、基于步骤S3构建的人脸检测卷积神经网络和步骤S5获得的网络训练权重参数构建基于混合注意力特征金字塔结构的人脸检测模型,并以该检测模型对待检测图片进行人脸检测,同时,检测模型将记录所有检测得到的人脸矩形框以确定检测到的人脸数量。
2.根据权利要求1所述的一种基于混合注意力特征金字塔结构的轻量化人脸检测方法,其特征在于,所述步骤S2包括如下步骤:
S21、统一所述训练集图像尺寸:对所述训练集图像进行缩放处理使其高宽值与所述网络训练所设定的高宽值相等;
S22、对S21处理的图像进行数据增强得到待提取特征的图像;所述图像数据增强过程包括图像翻转、图像旋转、图像随机裁剪、图像光照变换和图像色彩变换。
3.根据权利要求1所述的一种基于混合注意力特征金字塔结构的人脸检测方法,其特征在于,步骤S3中所述轻量化骨干网络采用MobileNetV3small网络结构;所述网络结构从前至后依次设置卷积层、批次归一化层、激活函数层和带挤压模块的可逆残差线性瓶颈层;所述带挤压模块的可逆残差线性瓶颈层从前至后包括卷积层、激活函数层、深度可分离卷积层、挤压模块和残差结构;所述网络结构的第一层使用步长为2、卷积核大小为3*3的卷积层对图片进行下采样,然后使用11个带挤压模块的可逆残差线性瓶颈层,并在其第1、2、4、9个瓶颈层中使用步长为2的卷积核进行图片下采样;所述网络结构在所有卷积操作后均使用激活函数层,并在最后一层使用卷积核大小为3*3、步长为2的卷积层进行最后一次下采样操作。
4.根据权利要求1所述的一种基于混合注意力特征金字塔结构的人脸检测方法,其特征在于,步骤S3中所述对轻量化骨干网络提取的特征进行处理和融合,具体包括如下步骤:
首先使用采样函数对特征层进行尺度变换,对所述轻量化骨干网络提取的特征经过上采样和下采样后分别在不同尺度上进行融合;若骨干网络提取的特征尺度由小到大分别为f1,f2,f3那么所得到的融合后的特征层F1,F2,F3由小到大表示为:
F1=f1+Fdownsample×f2+Fdownsample×f3
F2=Fupsample×f1+f2+Fdownsample×f3
F3=Fupsample×f1+Fupsample×f2+f3
其中:Fupsample表示上采样函数,Fdownsample表示下采样函数;
接着使用残差瓶颈层处理经尺度变换融合的特征层,所述残差瓶颈层结构包括1*1卷积层、批次归一化层、激活函数层、3*3卷积层和残差连接;其过程可表示为:
Foutput=F1*1(F3*3(F1*1(Finput)))+Finput
其中:Foutput表示输出特征,F1*1表示使用1*1大小的卷积计算,F3*3表示使用3*3大小的卷积计算,Finput表示输入特征,每个卷积计算后都使用批次归一化层和激活函数层;
最后将经过残差瓶颈层结构的特征层通过混合注意力模块两两融合后作为预测层进行输出;所述混合注意力模块由通道注意力子模块和空间注意力子模块并行组合而成;对于混合注意力模块的输入特征层Fin,混合注意力模块的输出特征Fout表示如下:
Figure FDA0003220521690000021
其中:δ表示使用sigmoid函数,Fc表示经过通道注意力子模块的特征,Fs表示经过空间注意力子模块的特征。Fc和Fs表达式如下:
Fc(X)=Pwconv(δ(AvgPool(Pwconv(X))+MaxPool(Pwconv(X))))
Fs(X)=Pwconv(δ(Conv7*7((AvgPool(Pwconv(X));MaxPool(Pwconv(X))))))
其中Pwconv(x)表示使用1*1逐点卷积,AvgPool(x)表示使用平均池化函数,MaxPool(x)表示使用最大池化函数,Conv7*7表示使用卷积核大小为7*7的卷积。
5.根据权利要求1所述的一种基于混合注意力特征金字塔结构的人脸检测方法,其特征在于,步骤S4中所述无锚检测方法的具体步骤如下:
B1、将步骤S3所述混合注意力模块输出的特征图像记为I∈RW×H×3,W为图像的宽,H为图像的高;
B2、通过步骤S4中的卷积神经网络训练得到混合注意力模块输出的特征图片中人脸高斯核的热图:该过程中,预测值表示为
Figure FDA0003220521690000031
其中n表示图片下采样的倍数,当
Figure FDA0003220521690000032
时表示检测到人脸,当
Figure FDA0003220521690000033
时表示检测为背景;在网络训练阶段,首先对步骤S2中预处理后的人脸图片计算人脸包围框对应的中心点,图像中的人脸标注框表示为(x1,y1,x2,y2),x1、x2、y1、y2分别表示人脸标注框横纵坐标的极值,则其中心点表示为
Figure FDA0003220521690000034
将这些中心点嵌入到高斯核函数中,得到带标注的人脸高斯核热图;
Figure FDA0003220521690000035
式中:Yxy为标签真实值;
Figure FDA0003220521690000036
表示低分辨率特征图下的等效中心点;σc表示目标自适应标准差,其大小为高斯核半径的三分之一。
6.根据权利要求1所述的一种基于混合注意力特征金字塔结构的人脸检测方法,其特征在于,所述聚焦损失函数计算公式如下:
Figure FDA0003220521690000037
其中:Yxy为标签真实值,
Figure FDA0003220521690000038
为预测值,α∈(0,1)为损失函数的附加权重,(1-p)γ为调制因子,γ≥0为可调聚焦参数。
7.一种基于混合注意力特征金字塔结构的人脸检测系统,其特征在于,包括以下模块:
人脸图像获取模块,配置为获取待检测人脸图像集;
人脸图像检测模型获取及参数获取模块,配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸图像检测器,并进行图像中的人脸检测;
人脸视频检测模型获取及参数获取模块,配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸视频检测器,并进行视频中的人脸检测;
人脸计数模块,对图像或视频检测中的人脸进行计数。
CN202110957384.6A 2021-08-19 2021-08-19 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 Active CN113591795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110957384.6A CN113591795B (zh) 2021-08-19 2021-08-19 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110957384.6A CN113591795B (zh) 2021-08-19 2021-08-19 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统

Publications (2)

Publication Number Publication Date
CN113591795A true CN113591795A (zh) 2021-11-02
CN113591795B CN113591795B (zh) 2023-08-08

Family

ID=78238660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110957384.6A Active CN113591795B (zh) 2021-08-19 2021-08-19 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统

Country Status (1)

Country Link
CN (1) CN113591795B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837185A (zh) * 2021-11-23 2021-12-24 深圳比特微电子科技有限公司 目标检测方法、系统、装置及存储介质
CN114025198A (zh) * 2021-11-08 2022-02-08 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质
CN114267069A (zh) * 2021-12-25 2022-04-01 福州大学 基于数据泛化与特征增强的人脸检测方法
CN114331904A (zh) * 2021-12-31 2022-04-12 电子科技大学 一种人脸遮挡识别方法
CN114418003A (zh) * 2022-01-20 2022-04-29 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN116311771A (zh) * 2023-01-17 2023-06-23 长扬科技(北京)股份有限公司 有限空间作业的安全监测方法、装置、设备及存储介质
CN116416672A (zh) * 2023-06-12 2023-07-11 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN117542104A (zh) * 2024-01-09 2024-02-09 浙江图讯科技股份有限公司 一种基于自监督辅助学习的人脸三维关键点检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9504047D0 (en) * 1994-03-24 1995-04-19 Discovision Ass Reconfigurable process stage
CN110647840A (zh) * 2019-09-19 2020-01-03 天津天地基业科技有限公司 一种基于改进的mobileNetV3的人脸识别方法
CN110647817A (zh) * 2019-08-27 2020-01-03 江南大学 基于MobileNet V3的实时人脸检测方法
CN110659721A (zh) * 2019-08-02 2020-01-07 浙江省北大信息技术高等研究院 一种目标检测网络的构建方法和系统
CN111160108A (zh) * 2019-12-06 2020-05-15 华侨大学 一种无锚点的人脸检测方法及系统
CN111832465A (zh) * 2020-07-08 2020-10-27 星宏集群有限公司 基于MobileNetV3的实时人头分类检测方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法
CN112597941A (zh) * 2020-12-29 2021-04-02 北京邮电大学 一种人脸识别方法、装置及电子设备
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9504047D0 (en) * 1994-03-24 1995-04-19 Discovision Ass Reconfigurable process stage
CN110659721A (zh) * 2019-08-02 2020-01-07 浙江省北大信息技术高等研究院 一种目标检测网络的构建方法和系统
CN110647817A (zh) * 2019-08-27 2020-01-03 江南大学 基于MobileNet V3的实时人脸检测方法
CN110647840A (zh) * 2019-09-19 2020-01-03 天津天地基业科技有限公司 一种基于改进的mobileNetV3的人脸识别方法
CN111160108A (zh) * 2019-12-06 2020-05-15 华侨大学 一种无锚点的人脸检测方法及系统
CN111832465A (zh) * 2020-07-08 2020-10-27 星宏集群有限公司 基于MobileNetV3的实时人头分类检测方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN112597941A (zh) * 2020-12-29 2021-04-02 北京邮电大学 一种人脸识别方法、装置及电子设备
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄思维等: ""基于多特征融合的轻量化无锚人脸检测方法"", 《计算机工程与应用》, vol. 58, no. 11, pages 242 - 249 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114025198B (zh) * 2021-11-08 2023-06-27 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质
CN114025198A (zh) * 2021-11-08 2022-02-08 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质
CN113837185A (zh) * 2021-11-23 2021-12-24 深圳比特微电子科技有限公司 目标检测方法、系统、装置及存储介质
CN114267069A (zh) * 2021-12-25 2022-04-01 福州大学 基于数据泛化与特征增强的人脸检测方法
CN114331904B (zh) * 2021-12-31 2023-08-08 电子科技大学 一种人脸遮挡识别方法
CN114331904A (zh) * 2021-12-31 2022-04-12 电子科技大学 一种人脸遮挡识别方法
CN114418003B (zh) * 2022-01-20 2022-09-16 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114418003A (zh) * 2022-01-20 2022-04-29 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN116311771A (zh) * 2023-01-17 2023-06-23 长扬科技(北京)股份有限公司 有限空间作业的安全监测方法、装置、设备及存储介质
CN116416672A (zh) * 2023-06-12 2023-07-11 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN116416672B (zh) * 2023-06-12 2023-08-29 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN117542104A (zh) * 2024-01-09 2024-02-09 浙江图讯科技股份有限公司 一种基于自监督辅助学习的人脸三维关键点检测方法
CN117542104B (zh) * 2024-01-09 2024-04-30 浙江图讯科技股份有限公司 一种基于自监督辅助学习的人脸三维关键点检测方法

Also Published As

Publication number Publication date
CN113591795B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN113591795B (zh) 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统
CN112396002B (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN108334847A (zh) 一种真实场景下的基于深度学习的人脸识别方法
CN112862811B (zh) 基于深度学习的材料显微图像缺陷识别方法、设备及装置
CN111898668A (zh) 一种基于深度学习的小目标物体检测方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN112036447A (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
CN114821102A (zh) 密集柑橘数量检测方法、设备、存储介质及装置
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN114627290A (zh) 一种基于改进DeepLabV3+网络的机械零部件图像分割算法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN111339934A (zh) 一种融合图像预处理与深度学习目标检测的人头检测方法
Shuai et al. An improved YOLOv5-based method for multi-species tea shoot detection and picking point location in complex backgrounds
Mirani et al. Object recognition in different lighting conditions at various angles by deep learning method
CN111339950A (zh) 一种遥感图像目标检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN116363532A (zh) 基于注意力机制和重参数化的无人机图像交通目标检测方法
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant