CN116884071A - 人脸检测方法、装置、电子设备及存储介质 - Google Patents
人脸检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116884071A CN116884071A CN202310884902.5A CN202310884902A CN116884071A CN 116884071 A CN116884071 A CN 116884071A CN 202310884902 A CN202310884902 A CN 202310884902A CN 116884071 A CN116884071 A CN 116884071A
- Authority
- CN
- China
- Prior art keywords
- face
- module
- feature map
- classification
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 158
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 230000001629 suppression Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 56
- 230000001815 facial effect Effects 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 48
- 238000005070 sampling Methods 0.000 claims description 41
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 238000003062 neural network model Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 20
- 230000004913 activation Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- KGKGSIUWJCAFPX-UHFFFAOYSA-N 2,6-dichlorothiobenzamide Chemical compound NC(=S)C1=C(Cl)C=CC=C1Cl KGKGSIUWJCAFPX-UHFFFAOYSA-N 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 208000029152 Small face Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人脸检测技术领域,其公开了一种人脸检测方法、装置、电子设备及存储介质。其中方法包括:获取待检测的原始人脸图像,将原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,人脸检测模型是利用预设损失函数训练得到的;将初始人脸特征图输入自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;将感受野人脸特征图依次输入改进的PANet网络、CPM检测模块以及Head分类模块进行特征增强、优化以及分类处理得到分类结果;对分类结果进行非极大值抑制处理得到人脸检测结果。本发明实施例可提高部署在Soc上的人脸检测模型的检测精度及检测实时性。
Description
技术领域
本发明实施例涉及人脸检测技术领域,尤其涉及一种人脸检测方法、装置、电子设备及存储介质。
背景技术
人脸检测技术是一种确定数字图像中人脸位置和大小的计算机视觉技术,是人机交互的基本技术之一,也是人脸分析算法的基石,在人脸对齐、人脸识别、身份验证/人脸验证以及面部表情识别等方面的应用中发挥着举足轻重的作用。随着计算机视觉技术的快速发展,深度学习方法的不断普及,基于神经网络的人脸检测技术被广泛应用在电子设备上,因此,人脸检测技术的落地就离不开Soc(System on Chip,系统级芯片)的硬件支持,然而,由于受Soc芯片面积和功耗的限制,Soc上的计算资源有限,难以实现复杂和计算量庞大的算法模型,对人脸检测的实时性能和算法适应性具有较大的限制,现有的基于神经网络的人脸检测技术应用在Soc上存在着检测精度低、检测实时性差的问题,难以在实际场景中得到较好的应用。
发明内容
本发明实施例提供了一种人脸检测方法、装置、电子设备及存储介质,旨在解决现有应用在Soc上的人脸检测方法检测精度较低及检测实时性较差的问题。
第一方面,本发明实施例提供了一种人脸检测方法,其包括:
获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的;
将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;
将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果;
对所述分类结果进行非极大值抑制处理得到人脸检测结果。
第二方面,本发明实施例还提供了一种人脸检测装置,其包括:
提取单元,用于获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的;
增强单元,用于将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;
增强优化分类单元,用于将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果;
处理单元,用于对所述分类结果进行非极大值抑制处理得到人脸检测结果。
第三方面,本发明实施例还提供了一种电子设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种人脸检测方法、装置及存储介质。其中,所述方法包括:获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的;将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果;对所述分类结果进行非极大值抑制处理得到人脸检测结果。本发明实施例的技术方案,通过预设损失函数训练得到搭载了特征提取网络、自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、以及Head分类模块的人脸检测模型,通过该人脸检测模型实现对待检测的人脸图像进行人脸特征提取、感受野增强、特征增强、人脸优化以及分类处理,在最大程度保留人脸图像特征的同时,降低了模型的复杂度,将其应用在SOC上不仅可以提升人脸检测精度,而且检测实时性快,检测效果好。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人脸检测方法的流程示意图;
图2为人脸检测模型中的MobileNetV3网络中的空洞卷积模块的网络结构示意图;
图3为图2中MobeleNetV3网络中注意力模块的特征加权示意图;
图4为图2中MobeleNetV3网络中空洞卷积模块与普通卷积模块的原理图;
图5为人脸检测模型中自适应权重残差感受野增强模块的结构示意图;
图6为本发明实施例提供的一种人脸检测方法的子流程示意图;
图7为本发明实施例提供的一种人脸检测方法的子流程示意图;
图8为人脸检测模型中改进的PANet网络的运算示意图;
图9为人脸检测模型中CPM检测模块的示意图;
图10为本发明实施例提供的人脸检测方法的工作流程框图;
图11为本发明实施例提供的人脸检测模型各模块的特征图属性示意图;
图12为本发明实施例提供的人脸检测模型训练方法的流程示意图;
图13为本发明实施例提供的人脸检测装置的示意性框图;
图14为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的人脸检测方法的流程示意图。下面对所述人脸检测方法进行详细说明。如图1所示,该方法包括以下步骤S100-S130。
S100、获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的。
在本发明实施中,人脸检测模型中的特征提取网络又可称为主干特征提取网络,其具体为MobileNetV3网络,所述MobileNetV3网络包括空洞卷积模块。通过MobileNetV3网络中的空洞卷积模块可以提取人脸基础特征。具体地,将所述原始人脸图像输入所述空洞卷积模块中,对所述原始人脸图像的尺寸及通道数进行调整,以得到原始人脸特征图;对所述原始人脸特征图进行空洞卷积运算以提取人脸基础特征,得到初始人脸特征图。所述空洞卷积模块的网络结构如图2所示,图2中的Dilation_Block表示的是空洞卷积模块的网络结构,而Base_Block表示的是基础卷积模块的网络结构。在空洞卷积模块中,其包括3层网络模块和注意力机制模块,该3层网络模块分别为CBN模块、DCBN模块以及CB模块。其中,CBN模块的组成为:普通卷积+批归一化+非线性激活函数(即Conv+BN+Nolinear);DCBN模块的组成为:空洞卷积+批归一化+非线性激活函数(即D_Conv+BN+Nolinear);CB模块的组成为:普通卷积+批归一化(即Conv+BN)。可理解地,所述Conv表示的是普通卷积,所述D_Conv表示的是空洞卷积,所述BN表示Bath Normalization,用于对每个batch的数据进行标准化处理,所述Nolinear表示非线性激活函数。从图2中可知,空洞卷积模块的网络结构与普通卷积模块的网络结构相比,是将CBN模块中的普通卷积替换为空洞卷积,替换后的模块记为DCBN,而普通卷积模块的第一层CBN模块及CB模块均采用1×1大小的卷积核进行通道的调整,而并未对特征图大小产生影响,因此并未对普通卷积模块中的CBN模块和CB模块进行修改。可理解地,图2中的SE(Y or N)表示是否使用SE注意力机制。
在本发明实施例中,由于待检测的原始人脸图像会存在不同人脸大小的图像,例如在本实施中,存在大尺寸人脸、中尺寸人脸、小尺寸人脸(即大、中、小人脸),在其它实施例中还可包括遮挡了一部分人脸的图像,为了更好的检测出不同尺寸的人脸目标,需要对MobileNetV3网络进行改进。请参阅表1,表1为MobileNetV3网络的网络配置示意图:
表1
在表1中,Input表示输入当前层的特征矩阵的形状,即包括输入的原始人脸图像或特征图,例如:4802×3表示输入的待检测的原始人脸图像的尺寸大小为480×480,通道数为3;又例如:2402×16表示输入特征图的尺寸大小为240×240,通道数为16;3×3表示深度卷积的卷积核大小;#out代表的是输出的通道大小;Exp_size表示Block中第一个升维的1×1卷积输出的维度;SE表示是否使用注意力机制;NL表示当前是否使用非线性激活函数,RE表示relu激活函数,HS表示h-swish激活函数;s为步距(stride);p为填充;d为空洞卷积的膨胀率;k表示num_class,即初始分类数。值得注意的是,第一个Block结构,它的Exp_size和输出维度是一样的,也就是第一个1×1卷积并没有做升维处理。需要说明的是,在本发明实施例中,MobileNetV3网络中的ReLU6激活函数的表达式如公式(1-1)所示,h-swish激活函数的表达式如公式(1-2)所示,:
ReLU6(x)=min(max(x,0),6) (1-1)
其中,x表示的是输入的特征值、max表示的是最大化、min表示的是最小化、ReLU6(x)表示的是ReLU6激活函数的输出结果;h-swish表示的是h-swish激活函数的输出结果。还需要说明的是,表1中的Block表示空洞卷积模块(即Dilation_Block,又称Block模块),多个Block模块可组成三层bneck1~bneck3网络结构,其中,bneck1对应的是第一个至第六个Block模块,共6个D_Block(即D_Block×6)组成了bneck1,其输出第一初始人脸特征图P1;bneck2对应的是对应的是第七至第十个Block模块,共4个D_Block(即D_Block×4)组成了bneck2,其输出第二初始人脸特征图P2;bneck3对应的是对应的是第十一至第十五个Block模块,共5个D_Block(即D_Block×5)组成了bneck3,其输出第三初始人脸特征图P3。
在本发明实施例中,为了增强了特征的表达能力,在Block中加入SE模块(注意力模块),核心原理是针对每一个channel进行池化处理,然后通过两个全连接层,得到输出向量。这个输出向量表示对原始特征矩阵(即输入的待检测的原始人脸图像)的每个channel的重要程度,越重要的赋予其越大的权重。其中,第一个全连接层的节点个数等于channel个数的1/4,第二个全连接层的节点和channel个数保持一致。如图3所示,图3为MobeleNetV3网络中注意力模块的特征加权示意图。首先采用平均池化将每一个channel变为一个值,然后经过两个全连接层(FC1和FC2)之后得到通道权重的输出,然后将通道的权重乘回原来的特征矩阵就得到了新的加权特征矩阵。值得注意的是,全连接层(FC2)使用的是Hard-Sigmoid激活函数,而非relu激活函数。
待检测的原始人脸图像经提取网络MobileNetV3提取基础人脸特征,最后输出三种特征图(P1、P2、P3)作为自适应权重残差感受野增强模块的输入,其中,输出的三种特征图尺寸的分别降为原始图像大小的8倍、16倍、32倍。以原始图片尺寸大小为480×480为例,则输出特征图P1、P2、P3尺寸分为60×60、30×30、15×15,通道数大小分别为64,128,256。可理解地,P1、P2、P3用于代表3种尺寸的大小,并非仅指代某一特征图,其中,P1代表的是大尺寸,P2代表的是中尺寸,P3表示的是小尺寸。
在本发明实施例中,在MobileNetV3网络中使用空洞卷积替代原基础卷积模块中的普通卷积,相比于使用普遍卷积,使用空洞卷积具有以下优点:1、请参照图4,根据图4中空洞卷积模块与普通卷积模块的原理图可以看出,使用空洞卷积增大了感受野:通过对卷积核的空洞设置,可以增大感受野,即在不增加参数和计算量的情况下,增加输入图像中每个像素对输出的影响范围,从而更好地捕捉图像中的长程依赖关系;2、减少特征图尺寸:在保持卷积核大小不变的情况下,通过增大空洞率可以减小输出特征图的尺寸,从而降低模型计算量和内存消耗;3、提高感受野的分辨率:在输入图像较大时,使用空洞卷积可以提高感受野的分辨率,即更准确地捕捉图像中的细节信息。4、增强特征提取能力:通过调整空洞率,在保留局部细节的同时提高感受野,并且可以增强卷积层的特征提取能力,从而提高模型的性能。
S110、将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图。
在本发明实施例中,自适应权重残差感受野增强模块(Residual ReceptiveField Enhancement,记为Resid-RFE模块),可以增强初始人脸图像的感受野。请参阅图5,图5为自适应权重残差感受野增强模块的结构示意图,在自适应权重残差感受野增强模块中包括三种卷积,其分别为conv1、conv2以及conv3;其中,conv1的参数设置为:卷积核3*3、s=1、p=1,d=1;conv2参数设置为:卷积核3*3、s=1、p=2,d=2;conv3参数设置为:卷积核3*3、s=1、p=3,d=3。其中,s表示步长;p表示填充;d表示膨胀率。三种卷积对应的输出分别为:out1、out2以及out3。
特征提取网络输出的初始人脸特征图包括三种不同尺寸的初始人脸特征图,其分别为第一初始人脸特征图P1、第二初始人脸特征图P2以及第三初始人脸特征图P3。对应的,所述自适应权重残差感受野增强模块包括第一Resid-RFE模块、第二Resid-RFE模块以及第三Resid-RFE模块,其分别用于处理三种不同尺寸的初始人脸特征图P1、P2以及P3,从而得到三种对应的第一感受野人脸特征图P1、第二感受野人脸特征图P2以及第三感受野人脸特征图P3。
请参阅图6,在一实施例中,例如,在本发明实施例中,所述步骤S110包括如下步骤S111-S112。
S111、将所述初始人脸特征图输入所述自适应权重残差感受野增强模块,对所述初始人脸特征图进行卷积运算得到卷积人脸特征图;
S112、将所述卷积人脸特征图与所述初始人脸特征图进行逐点像素相加,得到感受野人脸特征图。
在本实施例中,请参阅图5,以第一初始人脸特征图P1和第一Resid-RFE模块为例,将Resid-RFE模块进行感受野增强的处理过程进行介绍:第一初始人脸特征图P1(尺寸为60*60*64)输入第一Resid-RFE模块中后,会分别通过三种卷积conv1、conv2以及conv3进行卷积运算处理,其对应输出的三种输出:out1为:60*60*16的特征图;out2输出为:60*60*16的特征图;out3输出为60*60*32。由此可见,第一初始人脸特征图P1经conv1、conv2卷积处理后,通道数变为原来的1/4,而经conv3卷积处理后,通道数变为原来的1/2。随后将三种输出特征图out1、out2、out3分别乘以不同权重[W1,W2,W3],在通道数维度上进行拼接(即concat),得到特征图M;最后将第一初始人脸特征图P1与特征图M进行逐点像素相加,输出最终的特征图O(即第一感受野人脸特征图P1,尺寸为60*60*64),其尺寸与第一初始人脸图大小相等。需要说明的是,在本实施例中,自适应权重W1、W2、W3是通过网络训练更新得到的,而第一初始人脸特征图P1与特征图O进行逐点像素相加未进行权重分配。还需要说明的是,第一初始人脸特征图P1与⊕之间的连线是一种残差连接,主要作用可以保留原始输入特征信息,而加入了残差连接的自适应权重自适应权重残差感受野增强模块,既能减少参数量,加速训练,又能提高人脸检测模型的感知能力和鲁棒性。
在神经网络模型中,增强感受野不仅能够减少模型的参数量和计算量,还能提高模型的感知能力和模型的鲁棒性。由于感受野变大,提高了特征提取的有效视野,网络能够更全面的获取特征,更精细地识别对象的关键特征,从而减少模型受到噪声和变形图像的影响。
S120、将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果。
在本发明实施例中,感受野模块输出的感受野人脸特征图作为改进的PANet网络的输入,输入至所述改进的PANet网络进行卷积-采样处理得到增强人脸特征图。
在得到增强人脸特征图后,则将所述增强人脸特征图作为CPM检测模块的输入,以输入至所述CPM检测模块中进行运算得到优化人脸特征图。
在得到优化人脸特征图后,则将所述优化人脸特征图作为Head分类模块的输入,输入至Head分类模块中对所述优化人脸特征图进行分类得到分类结果。
请参阅图7,在一实施例中,例如,在本发明实施例中,所述步骤S120包括如下步骤S121-S123。
S121、将所述感受野人脸特征图输入所述改进的PANet网络,对所述感受野人脸特征图进行特征增强处理得到增强人脸特征图。
在本发明实施例中,PANet(Path Aggregation Network)网络,又称路径聚合网络,是一种通过自底向上的路径增强,利用反向信息流的传递,进一步提高各层网络特征之间的信息交互,从而缩短了低层特征与顶层特征之间的信息路径,但是PANet深层输出层特征均是由低层特征经卷积-上采样之后得到的,缺少对原始低层输入特征信息的融合。因此,为了将原始低层输入特征信息加入到深层特征中,本发明对PANet网络进行改进,设计了改进的PANet网络,其中,改进的PANet网络包括底层特征网络、中间层特征网络以及顶层特征网络。而自适应权重残差感受野增强模块输出的感受野人脸特征图包括第一感受野人脸特征图P1、第二感受野人脸特征图P2以及第三感受野人脸特征图P3,这三种感受野人脸特征图分别作为改进的PANet网络的输入。将所述所述第一感受野人脸特征图P1、所述第二感受野人脸特征图P2以及所述第三感受野人脸特征图P3分别输入所述底层特征网络、所述中间层特征网络以及所述顶层特征网络进行卷积-采样处理得到增强人脸特征图。需要说明的是,得到的所述增强人脸特征图包括第一增强人脸特征图、第二增强人脸特征图以及第三增强人脸特征图。
进一步地,在一实施例中,例如,在本发明实施例中,所述步骤S121包括如下步骤S1211-S1214。
S1211、对所述第三感受野人脸特征图进行采样得到第一采样人脸特征,将所述第二感受野人脸特征图和所述第一采样人脸特征输入所述中间层特征网络进行卷积运算得到卷积人脸特征,对所述卷积人脸特征进行采样得到第二采样人脸特征,将所述第一感受野人脸特征图和所述第二采样人脸特征输入所述底层特征网络进行卷积运算得到第一增强人脸特征图。
在本发明实施例中,为增强第一感受野人脸特征图P1的特征信息,在第一感受野人脸特征图P1的处理过程中融入第二感受野人脸特征图P2和第三感受野人脸特征图P3的特征信息。具体地,请参阅图8,图8为改进的PANet网络的运算示意图,对所述第三感受野人脸特征图P3进行双线性采样和上采样得到第一采样人脸特征,将所述第二感受野人脸特征图P2和所述第一采样人脸特征输入所述中间层特征网络进行卷积运算得到卷积人脸特征P2mid,对所述卷积人脸特征P2mid进行双线性采样和上采样得到第二采样人脸特征,将所述第一感受野人脸特征图P1和所述第二采样人脸特征输入所述底层特征网络进行卷积运算得到第一增强人脸特征图P1out。
S1212、对所述第一感受野人脸特征图和所述第一增强人脸特征图进行采样得到底层采样特征,将所述底层采样特征与所述卷积人脸特征输入中间层特征网络进行卷积运算得到第二增强人脸特征图。
在本发明实施例中,对所述第一感受野人脸特征图P1进行双线性采样和下采样处理得到第三采样人脸特征,对所述第一增强人脸特征图P1out进行双线性采样和下采样处理得到第四采样人脸特征,将所述第三采样人脸特征和所述第四采样人脸特征作为底层采样特征,将所述底层采样特征和所述卷积人脸特征P2mid输入所述中间层特征网络进行卷积运算得到第二增强人脸特征图P2out。
S1213、对所述第二感受野人脸特征图和所述第二增强人脸特征图进行采样得到中间层采样特征,将所述中间层采样特征与所述第三感受野人脸特征图输入顶层特征网络进行卷积运算得到第三增强人脸特征图。
在本发明实施例中,对所述第二感受野人脸特征图P2进行双线性采样和下采样处理得到第五采样人脸特征,对所述第二增强人脸特征图P2out进行双线性采样和下采样处理得到第六采样人脸特征,将所述第五采样人脸特征和所述第六采样人脸特征作为中间层采样特征,将所述中间层采样特征和所述第三感受野人脸特征图P3输入所述顶层特征网络进行卷积运算得到第三增强人脸特征图P3out。
S1214、将所述第一增强人脸特征图、所述第二增强人脸特征图以及所述第三增强人脸特征图作为增强人脸特征图。
在本发明实施例中,三层特征网络输出第一增强人脸特征图P1out,中间层特征网络输出第二增强人脸特征图P2out,顶层特征网络输出第三增强人脸特征图P3out,就是改进的PANet网络的输出结果,即增强人脸特征图。具体地,请参阅图8,Bilinear表示双线性采样,Scale=2表示上采样,Scale=0.5表示下采样。采用Bilinear,Scale=2采样时,初始人脸特征图尺寸增大一倍;采用Bilinear,Scale=0.5时,初始人脸特征图尺寸减少一倍,3×3×64Conv表示卷积核大小为3×3,通道数为64。初始人脸特征图进行采样的运算表达式如公式(1-3)至(1-8)所示:
P3mid=P3in (1-3)
P2mid=Conv(P3in+Upsample(P3mid)) (1-4)
P1mid=Conv(P1in+Upsample(P2mid)) (1-5)
P1out=P1mid (1-6)
P2out=Conv(Downsample(P1in)+Downsample(P1out)+P2mid) (1-7)
P3out=Conv(Downsample(P2in)+Downsample(P2out)+P3mid) (1-8)
其中,P3in表示的是顶层特征网络的输入值,P3mid表示的是顶层特征网络的中间值,P3out表示的是顶层特征网络的输出值;P2in表示的是顶层特征网络的输入值,P2mid表示的是顶层特征网络的中间值,P2out表示的是中间层特征网络的输出值;P1in表示的是顶层特征网络的输入值,P1mid表示的是顶层特征网络的中间值,P1out表示的是底层特征网络的输出值;Conv表示的是卷积运算,Downsample表示的是下采样,Upsample表示的是上采样。需要说明的是,在本实施例中,P2mid的值是由第二感受野人脸特征图P2和所述第一采样人脸特征输入中间层特征网络进行卷积运算得到的卷积人脸特征。
在本发明实施例中,改进的PANet网络相比于PANet网络具体改进:1、增加了底层输入特征向上一层输出特征之间的信息流,即P2in到P3out,P1in到P2out两条信息流传递;2、采用双线性插值采样(即双采样),克服最近邻插值不连续的缺点,使线状特征的块状化现象减少,并通过控制参数Scale大小,进行上或下采样操作;3、在各个尺寸特征图经上采样或下采样之后增加一个权重矩阵,调节每个尺寸特征图的贡献度。其中,加权特征融合方法采用的是快速归一化融合,定义如公式(1-9)所示:
其中,Ii表示第i个通道的输入,Wi,Wj表示的是权重,Wi≥0,令eps=0.001,设置一个小值来避免分母为零,同时,将每个权重的值进行归一化到[0,1]之间。通过改进的PANet网络的三层特征网络可以分别提取大尺寸、中尺寸以及小尺寸的人脸特征,而新增的从下至上的信息流传递,能够将大尺寸的特征信息融合到上层小目标信息中,提高了特征图的信息丰富度,从而让检测更加检测准确可靠。
S122、将所述增强人脸特征图输入所述CPM检测模块进行运算得到优化人脸特征图。
在本发明实施例中,经改进的PANet网络进行特征加强后的三个尺寸的增强人脸特征图,分别输入CPM检测模块进行优化处理,得到优化人脸特征图。需要说明的是,所述优化人脸特征图包括第一优化人脸特征图、第二优化人脸特征图以及第三优化人脸特征图。还需要说明的是,所述CPM(Context-sensitive Predict Module)检测模块是一种上下文敏感结构,其将SSH和DSSD两个网络模型的优势结合。SSH通过横向扩展,在三个不同深度的卷积层引入不同大小的stride增加网络感受野,提升检测精度;DSSD模型通过增加残差模块,提升网络的深度。因此,CPM检测模块使用了更宽、更深的网络来融合目标人脸周围的上下文信息,通过引入上下文信息来提高预测模型的表达能力。如图9所示,图9为CPM检测模块的示意图,其中,k表示kernel_size,s表示stride,p表示padding,+表示逐点相加。X经Conv_bn1x1模块后输出,调整通道数,特征图大小为w×h×128,即为残差模块;Concat后的特征图输出尺寸为w×h×64(64=32+16+16)。值得注意的是,在Conv_bn1x1和Conv_bn模块内部均使LeakReLU激活函数,而特征图经Conv2d后均使用relu激活函数。通过CPM检测模块提升了人脸检测模型的预测表达能力,进一步提高了人脸检测精度。
S123、将所述优化人脸特征图输入所述Head分类模块进行分类得到分类结果。
在本发明实施例中,Head分类模块包括第一Head分类模块、第二Head分类模块以及第三Head分类模块,所述第一Head分类模块、第二Head分类模块以及第三Head分类模块均包括人脸框回归模块(BoxHead)、分类回归模块(ClassHead)以及人脸关键点回归模块(LandmarkHead),而每一种Head分类模块的属性参数并不相同,其中,第一Head分类模块的人脸框回归模块的属性参数(w×h×d,w:宽,h:高,d:维度):60×60×4、分类回归模块的属性参数:60×60×2、人脸关键点回归模块的属性参数:60×60×10;第二Head分类模块的人脸框回归模块的属性参数:30×30×4、分类回归模块的属性参数:30×30×2、人脸关键点回归模块的属性参数:30×30×10;第三Head分类模块的人脸框回归模块的属性参数:15×15×4、分类回归模块的属性参数:15×15×2、人脸关键点回归模块的属性参数:15×15×10。具体地,将所述第一优化人脸特征图输入所述第一Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第一人脸框回归分类结果、第一回归分类结果以及第一人脸关键点回归分类结果;将所述第二优化人脸特征图输入所述第二Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第二人脸框回归分类结果、第二回归分类结果以及第二人脸关键点回归分类结果;将所述第三优化人脸特征图输入所述第三Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第三人脸框回归分类结果、第三回归分类结果以及第三人脸关键点回归分类结果;将所述第一人脸框回归分类结果、所述第一回归分类结果、所述第一人脸关键点回归分类结果、所述第二人脸框回归分类结果、所述第二回归分类结果、所述第二人脸关键点回归分类结果、所述第三人脸框回归分类结果、所述第三回归分类结果以及第三人脸关键点回归分类结果作为所述Head分类模块输出的分类结果。需要说明的是,在本实施例中,Head分类模块输出的分类结果的输出维度为w×h×d(d=2,4,10),其中,w表示的是宽度;h表示的是高度;d=2表示分类回归模块(ClassHead)的维度,检测是否分类为人脸;d=4表示人脸框回归模块(BoxHead)的维度,检测人脸框的左上角和右下角两点的坐标位置;d=10表示人脸关键点回归模块(LandmarkHead)的维度,代表5个人脸关键点位置分别对应的5个x值和y值。
S130、对所述分类结果进行非极大值抑制处理得到人脸检测结果。
在本发明实施例中,得到Head分类模块输出的分类结果后,需要将同种类的分类结果进行拼接(Concat),即将所述第一人脸框回归分类结果、所述第二人脸框回归分类结果以及所述第三人脸框回归分类结果进行拼接得到第一预测结果;将所述第一回归分类结果、所述第二回归分类结果以及所述第三回归分类结果进行拼接得到第二预测结果;将所述第一人脸关键点回归分类结果、所述第二人脸关键点回归分类结果以及所述第三人脸关键点回归分类结果进行拼接得到第三预测结果,然后通过后处理技术非极大值抑制(NMS)处理去除重合度较高且标定相对不是很准确的预测结果,最终得到人脸检测结果。
为更好的理解本发明实施例的人脸检测方法的工作流程,请参阅图10,图10本发明实施例提供的人脸检测方法的工作流程框图,下面结合流程框图介绍人脸检测模型的工作流程:首先,将待检测的原始人脸图像输入主干特征提取网络MobileNetV3进行人脸基础特征提取,输出3个不同尺度的初始人脸特征图(P1、P2、P3);其次,将初始人脸特征图作为自适应权重残差感受野增强模块的输入,输入至自适应权重残差感受野增强模块中进行感受野增强处理,输出三种感受野人脸特征图;然后,这三种感受野人脸特征图又作为改进的PANet网络的输入,输入改进的PANet网络进行特征增强处理,改进的PANet网络的三层特征网络结构分别输出第一增强人脸特征图、第二增强人脸特征图以及第三增强人脸特征图,用于提取大尺寸人脸特征、中尺寸人脸特征以及小尺寸人脸特征;然后,第一增强人脸特征图、第二增强人脸特征图以及第三增强人脸特征图分别输入CPM检测模块增强感受野和引入上下文信息,用于提升小尺寸人脸和遮挡人脸的检测效果;Head分类模块包括人脸框回归(BboxHead)、分类回归(ClsHead)和人脸关键点回归(LdmHead),Head网络使用不同大小和比例的锚点框来生成候选区域,并对每个锚点框进行分类与回归,用于从特征图层获取分类结果进行拼接(Concat);最后,通过后处理技术非极大值抑制(NMS)去除重合度较高且标定相对不是很准确的分类结果,最终获得人脸检测结果。本发明的人脸检测模型是一种轻量化模型,所需内存较小,可部署到Soc、边缘设备上进行人脸检测,解决了人脸检测算法移植在Soc上人脸检测精度低、检测实时性差的问题。在检测精度、检测速度以及检测性能等方面均可满足基本场景(例如视频/会议、智能家居)的需求。
请参阅图11,图11为本发明实施例提供的人脸检测模型各模块的特征图属性示意图;以输入图片尺寸为480×480为例,经主干特征提取网络MobileNetV3后,输出维度为w×h×c(w,h=60,30,15;c=64,128,256);并经自适应权重残差感受野增强模块进行感受野增强处理,然后再分别经过1×1×64卷积层统一通道数为64,即c=[64,64,64];再经改进的PANet网络、CPM检测模块进行特征加强和优化,丰富多尺度信息,但不改变各尺度的维度属性;经Head分类模块分类后,各尺度输出维度分别为w×h×d(d=2,4,10);而后将三种不同尺寸特征图的同种分类结果进行拼接(Concat),最终得到输出为1×9450×d的人脸检测结果图,其中,9450=15×15×2+30×30×2+60×60×2。
请参阅图12,在一实施例中,例如,在本发明实施例中,人脸检测模型在模型训练时,利用预设损失函数训练得到所述人脸检测模型,其训练过程包括步骤S200~S203:
S200、获取人脸图像训练数据,将所述人脸图像训练数据输入神经网络模型中进行训练,训练过程中使用预设优化器对所述神经网络模型的网络参数进行优化;
S201、根据预设损失函数计算损失值,其中,所述预设损失函数为Adaptive Wing_loss损失函数;
S203、若所述损失值收敛于预设损失值或迭代次数达到预设迭代次数,则将训练后的所述神经网络模型作为人脸检测模型。
在本发明实施例中,通过获取大批量的人脸图像用作训练数据对神经网络模型进行训练,例如获取大批量的大尺寸人脸图像、中尺寸人脸图像以及小尺寸人脸图像。在准备完成训练数据的同时,准备用于训练模型的预设损失函数和准备用于优化调整模型参数的预设优化器,以提高训练的完成速度。在模型训练时,使用训练数据集训练对神经网络模型进行训练,并在每次迭代更新时模型参数,直至预设损失函数输出的损失值收敛于预设损失值,或模型训练次数达到了预设迭代次数,例如预设迭代次数为100次。其中,损失值表示的是神经网络模型输出的预测结果,预设损失值表示为真实标签。在训练的过程中,若损失函数输出的损失值收敛于预设损失值,则表明模型已训练完成,将当前训练后的神经网络模型作为人脸检测模型;或者,在训练过程中对神经网络模型的迭代训练次数已经到预设迭代次数时,也可认为当前的神经网络模型训练完成,则将当前训练后的神经网络模型作为人脸检测模型。而当损失函数输出的损失值偏离预设损失值,且迭代训练次数未达到预设迭代次数,则通过优化器调整神经网络模型的参数,并返回执行继续训练神经网络模型的步骤,直至神经网络训练完成。需要说明的是,在本实施例中,所述损失函数为AdaptiveWing_loss损失函数,所述预设优化器为Ranger 21优化器。
为了能够在缩短训练时间的同时,又能保证人脸检测模型的性能,在训练神经网络的过程中引入了Adaptive Wing_loss损失函数和Ranger 21优化器对神经网络模型进行训练优化。其中,所述预设损伤函数为Adaptive Wing_loss损失函数(AWing_loss损失函数),是一种用于人脸关键点检测任务的损失函数,它是在Wing Loss损失函数的基础上进行改进得到的。Adaptive Wing_loss损失函数主要通过自适应地调整损失函数,这种自适应机制能够更加准确地反映每个样本和每个关键点的特性,进而提高模型的准确性和鲁棒性。相比于传统的L1 loss、Smooth L1 loss损失函数,Adaptive Wing_loss损失函数的自适应性、鲁棒性及高效性均有提高。其计算公式如下(1-10)、(1-11)以及(1-12)所示:
A=ω(1/(1+(θ/ε)α-y))(α-y)((θ/ε)α-y-1)(1/ε) (1-11)
C=θA-ωln(1+(θ/ε)a-y) (1-12)
其中,y表示预设损失值(即真实标签);表示损失值(即预测结果);C表示常数,控制AWing_loss函数中非线性部分的大小,从而影响损失函数的收敛速度;A表示分类间隔,用于控制模型对不同类别之间的敏感度;θ表示分类任务中正确分类与错误分类之间的阈值。当预测的置信度大于该阈值时,模型对预测正确的样本的惩罚程度会减小;ε表示一个小的正数,避免除以0的情况;α表示用于控制误差的惩罚系数,当误差大于等于θ时,模型会对错误分类的样本进行惩罚;ω表示用于对每个类别的误差进行加权,从而调整模型对各个类别的分类重要性。需要说明的是,θ、ε、α、ω为超参数且均为正值。
Range 21优化器用于更新和计算影响模型训练参数和模型输出的网络参r
数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。在训练过程中,若所述损失值偏离于预设损失值且迭代次数未达到预设迭代次数,则通过Range21优化器对神经网络模型的参数进行调整,以使神经网络输出的损失值收敛于预设损失值。Ranger 21优化器整合了许多新的优化思想,使用AdamW优化器作为其核心(可选MadGrad)与其他组件结合,能显著提高验证准确性和训练速度,并且有更平滑的训练曲线。Ranger 21优化器包含的组件包括:自适应梯度裁剪、梯度集中化、正负动量、范数损失、稳定权重衰减、线性学习率预热、探索-利用学习率计划、Lookahead、Softplus变换和梯度归一化。本申请通过实验数据证明,Ranger21优化器相比于SGD优化器而言具有更好的训练优化效果。
图13是本发明实施例提供的一种人脸检测装置200的示意性框图。如图13所示,对应于以上人脸检测方法,本发明还提供一种人脸检测装置200。该人脸检测装置200包括用于执行上述人脸检测方法的单元,该装置可以被配置于电子设备中。具体地,请参阅图13,该人脸检测装置200包括提取单元201、增强单元202、增强优化分类单元203以及处理单元204。
其中,所述提取单元201用于获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的;所述增强单元202用于将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;所述增强优化分类单元203用于将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果;所述处理单元204用于对所述分类结果进行非极大值抑制处理得到人脸检测结果。
在某些实施例,例如本实施例中,所述提取单元201包括调整子单元及第一运算子单元。
其中,所述调整子单元用于将所述原始人脸图像输入所述空洞卷积模块中,对所述原始人脸图像的尺寸及通道数进行调整,以得到原始人脸特征图;所述第一运算子单元用于对所述原始人脸特征图进行空洞卷积运算以提取人脸基础特征,得到初始人脸特征图。
在某些实施例,例如本实施例中,所述增强单元202包括第二运算子单元及第三运算子单元。
其中,所述第二运算子单元用于将所述初始人脸特征图输入所述自适应权重残差感受野增强模块,对所述初始人脸特征图进行卷积运算得到卷积人脸特征图;所述第三运算子单元用于将所述卷积人脸特征图与所述初始人脸特征图进行逐点像素相加,得到感受野人脸特征图。
在某些实施例,例如本实施例中,所述人脸检测装置200包括训练单元,所述训练单元包括训练子单元、计算子单元以及第一作为子单元。
其中,所述训练子单元用于获取人脸图像训练数据,将所述人脸图像训练数据输入神经网络模型中进行训练,训练过程中使用预设优化器对所述神经网络模型的网络参数进行优化;所述计算子单元用于根据预设损失函数计算损失值,其中,所述预设损失函数为Adaptive Wing_loss损失函数;所述作为子单元用于若所述损失值收敛于预设损失值或迭代次数达到预设迭代次数,则将训练后的所述神经网络模型作为人脸检测模型。
在某些实施例,例如本实施例中,所述增强优化分类单元203包括增强子单元、优化子单元以及分类子单元。
其中,所述增强子单元用于将所述感受野人脸特征图输入所述改进的PANet网络,对所述感受野人脸特征图进行特征增强处理得到增强人脸特征图;所述优化子单元用于将所述增强人脸特征图输入所述CPM检测模块进行运算得到优化人脸特征图;所述分类子单元用于将所述优化人脸特征图输入所述Head分类模块进行分类得到分类结果。
在某些实施例,例如本实施例中,所述增强子单元包括第一采样子单元、第二采样子单元、第三采样子单元以及第二作为子单元。
其中,所述第一采样子单元用于对所述第三感受野人脸特征图进行采样得到第一采样人脸特征,将所述第二感受野人脸特征图和所述第一采样人脸特征输入所述中间层特征网络进行卷积运算得到卷积人脸特征,对所述卷积人脸特征进行采样得到第二采样人脸特征,将所述第一感受野人脸特征图和所述第二采样人脸特征输入所述底层特征网络进行卷积运算得到第一增强人脸特征图;所述第二采样子单元用于对所述第一感受野人脸特征图和所述第一增强人脸特征图进行采样得到底层采样特征,将所述底层采样特征与所述卷积人脸特征输入中间层特征网络进行卷积运算得到第二增强人脸特征图;所述第三采样子单元用于对所述第二感受野人脸特征图和所述第二增强人脸特征图进行采样得到中间层采样特征,将所述中间层采样特征与所述第三感受野人脸特征图输入顶层特征网络进行卷积运算得到第三增强人脸特征图;所述第二作为子单元用于将所述第一增强人脸特征图、所述第二增强人脸特征图以及所述第三增强人脸特征图作为增强人脸特征图。
在某些实施例,例如本实施例中,所述分类子单元包括第一回归分类子单元、第二回归分类子单元、第三回归分类子单元以及第三作为子单元。
其中,所述第一回归分类子单元用于将所述第一优化人脸特征图输入所述第一Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第一人脸框回归分类结果、第一回归分类结果以及第一人脸关键点回归分类结果;所述第二回归分类子单元用于将所述第二优化人脸特征图输入所述第二Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第二人脸框回归分类结果、第二回归分类结果以及第二人脸关键点回归分类结果;所述第三回归分类子单元用于将所述第三优化人脸特征图输入所述第三Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第三人脸框回归分类结果、第三回归分类结果以及第三人脸关键点回归分类结果;所述第三作为子单元用于将所述第一人脸框回归分类结果、所述第一回归分类结果、所述第一人脸关键点回归分类结果、所述第二人脸框回归分类结果、所述第二回归分类结果、所述第二人脸关键点回归分类结果、所述第三人脸框回归分类结果、所述第三回归分类结果以及第三人脸关键点回归分类结果作为所述Head分类模块输出的分类结果。
上述人脸检测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图14所示的电子设备上运行。
请参阅图14,图14是本发明实施例提供的一种电子设备的示意性框图。该电子设备300为具有人脸检测功能的电子设备。
参阅图14,该电子设备300包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括非易失性存储介质303和内存储器304。
该非易失性存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时,可使得处理器302执行一种人脸检测方法。
该处理器302用于提供计算和控制能力,以支撑整个电子设备300的运行。
该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境,该计算机程序3032被处理器302执行时,可使得处理器302执行一种人脸检测方法。
该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备300的限定,具体的电子设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解,在本发明实施例中,处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行上述人脸检测方法的任意实施例。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种人脸检测方法,其特征在于,包括:
获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的;
将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;
将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果;
对所述分类结果进行非极大值抑制处理得到人脸检测结果。
2.根据权利要求1所述的人脸检测方法,其特征在于,所述特征提取网络为MobileNetV3网络,所述MobileNetV3网络包括空洞卷积模块,所述将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,包括:
将所述原始人脸图像输入所述空洞卷积模块中,对所述原始人脸图像的尺寸及通道数进行调整,以得到原始人脸特征图;
对所述原始人脸特征图进行空洞卷积运算以提取人脸基础特征,得到初始人脸特征图。
3.根据权利要求1所述的人脸检测方法,其特征在于,所述将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图,包括:
将所述初始人脸特征图输入所述自适应权重残差感受野增强模块,对所述初始人脸特征图进行卷积运算得到卷积人脸特征图;
将所述卷积人脸特征图与所述初始人脸特征图进行逐点像素相加,得到感受野人脸特征图。
4.根据权利要求1所述的人脸检测方法,其特征在于,利用预设损失函数训练得到所述人脸检测模型包括:
获取人脸图像训练数据,将所述人脸图像训练数据输入神经网络模型中进行训练,训练过程中使用预设优化器对所述神经网络模型的网络参数进行优化;
根据预设损失函数计算损失值,其中,所述预设损失函数为Adaptive Wing_loss损失函数;
若所述损失值收敛于预设损失值或迭代次数达到预设迭代次数,则将训练后的所述神经网络模型作为人脸检测模型。
5.根据权利要求1所述的人脸检测方法,其特征在于,所述将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果,包括:
将所述感受野人脸特征图输入所述改进的PANet网络,对所述感受野人脸特征图进行特征增强处理得到增强人脸特征图;
将所述增强人脸特征图输入所述CPM检测模块进行运算得到优化人脸特征图;
将所述优化人脸特征图输入所述Head分类模块进行分类得到分类结果。
6.根据权利要求5所述的人脸检测方法,其特征在于,所述感受野人脸特征图包括第一感受野人脸特征图、第二感受野人脸特征图以及第三感受野人脸特征图;所述改进的PANet网络包括底层特征网络、中间层特征网络以及顶层特征网络;所述将所述感受野人脸特征图输入所述改进的PANet网络,对所述感受野人脸特征图进行特征增强处理得到增强人脸特征图,包括:
对所述第三感受野人脸特征图进行采样得到第一采样人脸特征,将所述第二感受野人脸特征图和所述第一采样人脸特征输入所述中间层特征网络进行卷积运算得到卷积人脸特征,对所述卷积人脸特征进行采样得到第二采样人脸特征,将所述第一感受野人脸特征图和所述第二采样人脸特征输入所述底层特征网络进行卷积运算得到第一增强人脸特征图;
对所述第一感受野人脸特征图和所述第一增强人脸特征图进行采样得到底层采样特征,将所述底层采样特征与所述卷积人脸特征输入中间层特征网络进行卷积运算得到第二增强人脸特征图;
对所述第二感受野人脸特征图和所述第二增强人脸特征图进行采样得到中间层采样特征,将所述中间层采样特征与所述第三感受野人脸特征图输入顶层特征网络进行卷积运算得到第三增强人脸特征图;
将所述第一增强人脸特征图、所述第二增强人脸特征图以及所述第三增强人脸特征图作为增强人脸特征图。
7.根据权利要求5所述的人脸检测方法,其特征在于,所述优化人脸特征图包括第一优化人脸特征图、第二优化人脸特征图以及第三优化人脸特征图;所述Head分类模块包括第一Head分类模块、第二Head分类模块以及第三Head分类模块,所述第一Head分类模块、第二Head分类模块以及第三Head分类模块均包括人脸框回归模块、分类回归模块以及人脸关键点回归模块;所述将所述优化人脸特征图输入所述Head分类模块进行分类得到分类结果,包括:
将所述第一优化人脸特征图输入所述第一Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第一人脸框回归分类结果、第一回归分类结果以及第一人脸关键点回归分类结果;
将所述第二优化人脸特征图输入所述第二Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第二人脸框回归分类结果、第二回归分类结果以及第二人脸关键点回归分类结果;
将所述第三优化人脸特征图输入所述第三Head分类模块的人脸框回归模块、分类回归模块以及人脸关键点回归模块进行回归分类,得到第三人脸框回归分类结果、第三回归分类结果以及第三人脸关键点回归分类结果;
将所述第一人脸框回归分类结果、所述第一回归分类结果、所述第一人脸关键点回归分类结果、所述第二人脸框回归分类结果、所述第二回归分类结果、所述第二人脸关键点回归分类结果、所述第三人脸框回归分类结果、所述第三回归分类结果以及第三人脸关键点回归分类结果作为所述Head分类模块输出的分类结果。
8.一种人脸检测装置,其特征在于,包括:
提取单元,用于获取待检测的原始人脸图像,将所述原始人脸图像输入人脸检测模型中的特征提取网络提取人脸基础特征得到初始人脸特征图,其中,所述人脸检测模型包括自适应权重残差感受野增强模块、改进的PANet网络、CPM检测模块、Head分类模块以及所述特征提取网络,所述人脸检测模型是利用预设损失函数训练得到的;
增强单元,用于将所述初始人脸特征图输入所述自适应权重残差感受野增强模块进行感受野增强得到感受野人脸特征图;
增强优化分类单元,用于将所述感受野人脸特征图依次输入所述改进的PANet网络、所述CPM检测模块以及所述Head分类模块进行特征增强、优化以及分类处理得到分类结果;
处理单元,用于对所述分类结果进行非极大值抑制处理得到人脸检测结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310884902.5A CN116884071A (zh) | 2023-07-18 | 2023-07-18 | 人脸检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310884902.5A CN116884071A (zh) | 2023-07-18 | 2023-07-18 | 人脸检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884071A true CN116884071A (zh) | 2023-10-13 |
Family
ID=88261788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310884902.5A Pending CN116884071A (zh) | 2023-07-18 | 2023-07-18 | 人脸检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884071A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912085A (zh) * | 2024-03-19 | 2024-04-19 | 深圳市宗匠科技有限公司 | 模型训练方法、人脸关键点定位方法、装置、设备及介质 |
-
2023
- 2023-07-18 CN CN202310884902.5A patent/CN116884071A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912085A (zh) * | 2024-03-19 | 2024-04-19 | 深圳市宗匠科技有限公司 | 模型训练方法、人脸关键点定位方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021008328A1 (zh) | 图像处理方法、装置、终端及存储介质 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN111507993A (zh) | 一种基于生成对抗网络的图像分割方法、装置及存储介质 | |
CN108229296A (zh) | 人脸皮肤属性识别方法和装置、电子设备、存储介质 | |
CN109598231A (zh) | 一种视频水印的识别方法、装置、设备及存储介质 | |
CN112132847A (zh) | 模型训练方法、图像分割方法、装置、电子设备和介质 | |
CN110348352B (zh) | 一种人脸图像年龄迁移网络的训练方法、终端和存储介质 | |
JP2023523029A (ja) | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 | |
CN116884071A (zh) | 人脸检测方法、装置、电子设备及存储介质 | |
CN113743474A (zh) | 基于协同半监督卷积神经网络的数字图片分类方法与系统 | |
CN110472673B (zh) | 参数调整方法、眼底图像处理方法、装置、介质及设备 | |
CN111798463B (zh) | 一种头颈部ct图像中多器官自动分割方法 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN107464261A (zh) | 一种图像数据标定训练方法及其设备、存储介质、服务器 | |
CN117173269A (zh) | 一种人脸图像生成方法、装置、电子设备和存储介质 | |
Pang et al. | Salient object detection via effective background prior and novel graph | |
WO2022215559A1 (ja) | ハイブリッドモデル作成方法、ハイブリッドモデル作成装置、及び、プログラム | |
WO2022127333A1 (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN115661618A (zh) | 图像质量评估模型的训练方法、图像质量评估方法及装置 | |
CN114492657A (zh) | 植物疾病分类方法、装置、电子设备及存储介质 | |
CN116665266A (zh) | 人脸检测方法、装置、电子设备及存储介质 | |
WO2022190301A1 (ja) | 学習装置、学習方法、及びコンピュータ可読媒体 | |
CN113128479B (zh) | 一种学习噪声区域信息的人脸检测方法及装置 | |
CN114067370B (zh) | 一种脖子遮挡检测方法、装置、电子设备及存储介质 | |
US20230111393A1 (en) | Information processing apparatus and method, and non-transitory computer-readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |