CN111626160A - 一种基于区域式渐进校准网络的角度变化下人脸检测方法 - Google Patents

一种基于区域式渐进校准网络的角度变化下人脸检测方法 Download PDF

Info

Publication number
CN111626160A
CN111626160A CN202010413912.7A CN202010413912A CN111626160A CN 111626160 A CN111626160 A CN 111626160A CN 202010413912 A CN202010413912 A CN 202010413912A CN 111626160 A CN111626160 A CN 111626160A
Authority
CN
China
Prior art keywords
face
angle
network
feature
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010413912.7A
Other languages
English (en)
Other versions
CN111626160B (zh
Inventor
孙劲光
黄胜
杨忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202010413912.7A priority Critical patent/CN111626160B/zh
Publication of CN111626160A publication Critical patent/CN111626160A/zh
Application granted granted Critical
Publication of CN111626160B publication Critical patent/CN111626160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于区域式渐进校准网络的角度变化下人脸检测方法,包括:(1)特征提取与融合模块对整张图像提取用于候选区域生成与面部检测的特征feature,并融合每个卷积块的中间层输出,使得特征图包含更丰富的几何信息;(2)区域生成网络模块对原图进行采样,利用神经网络对每个采样区域给出是否包含人脸的置信度与粗略的区域大小回归值,生成高质量的人脸候选区域proposal;(3)渐进面部检测模块结合特征feature与人脸候选区域proposal,对人脸候选区域逐步地执行检测与区域大小回归,并同时缩小面部平面角度的变化范围,从而实现任意平面角度变化下的人脸检测。用于解决平面角度变化下人脸检测问题,可以在网络参数量较低时更好的提取特征,在小尺度人脸检测上更为适应。

Description

一种基于区域式渐进校准网络的角度变化下人脸检测方法
技术领域
本发明属于人脸检测技术领域,具体涉及一种基于区域式渐进校准网络的角度变化下人脸检测方法。
背景技术
人脸检测作为目标检测的特定场景应用,是计算机视觉中最基本和最具挑战的问题之一。高性能的人脸检测器是人脸相关研究的关键保证,如:人脸对齐、人脸识别、年龄识别、表情识别和行为检测等.得益于深度学习在目标、人脸检测器上的成功,人脸检测器经过多年发展也日趋成熟,其应用场景也逐渐趋于复杂,当人脸检测器被应用于平面旋转角度过大的人脸检测时,由于面部的变化巨大,人脸检测器要达到高性能十分具有挑战性.对于大幅度角度变化下的人脸检测,现有的方法分为:(1)适应变化,(2)缩小变化两类。
适应变化的方法,是人脸检测器用足够的计算量来应对人脸角度变化,检测器能够在面部发生大幅度变化的情况下保持高性能。如Faster RCNN采用基于区域的二阶段结构,使用区域生成网络提升候选面部区域的生成速度,并利用Res50、VGGM与VGG16作为基础网络,其拥有很高的检测准确度,在WIDER FACE数据集的达到了平均92.7%的召回率,在多方位FDDB数据集上平均召回率为88%。Face RFCN是基于区域的全卷积网络,它在R-FCN基础上提出的位置敏感平均池化重新权重了每个候选面部区域,对面部的不同区域进行了重要性的划分,消除人脸部分中的非均匀分布影响,它在WIDER FACE数据集上平均精度也达到了91.8%;SSD也是基于区域的方法,它在基于锚的方法基础上提出基于默认区域的候选区域生成方法,这消除了提出生成区域后与特征图重新采样的时间消耗,在随机翻转的FDDB数据集上平均召回率为87.7%,并且取得了更快的运行速度。适应变化的方法直接处理面部的平面角度变化问题,使得网络模型需要具有很深的网络结构,这也使得运行速度很低,但它们都对整张图片利用区域生成网络生成候选区域,从而在网络较为复杂时比基于滑动窗口的方法更加快速地产生候选区域。
缩小变化的方法是通过由粗到细的级联方法调整与降低变化幅度,并在过程中检测面部。例如:PCN采用滑动窗口形式生成候选区域,通过前两个阶段将候选区域的角度变化范围从[-180o,180o]降低到[-45o,45o],最后阶段再进行精确的检测,三个阶段均采用小型CNN,能够快速地检测面部,达到了30FPS以上,在随机翻转的FDDB数据集上平均召回率为86%;在H.A.Rowley的研究中提出了一种旋转路由的人脸检测器(Rotation Router),将角度问题从检测问题中提出并单独解决,首先将滑动窗口产生的候选面部通过一个路由网络估计平面角度并将候选面部转为直立的候选,再通过通用的人脸检测器进行处理,但路由器网络的误差会直接影响检测的召回率,使用低误差的大型神经网络将增加时间成本;在Cascade CNN方法与文献的研究中将多个独立的检测器级联,由粗至精的缩小分类变化,使得分类更加精确。缩小变化的方法通常基于滑动窗口实现,并都使用复杂度较小的检测器,致使精确度被限制,特别是在检测小尺度人脸时,但是它通过级联结构缩小变化范围的方法可以降低检测模型的参数量。
在目标检测的研究中,Cascade RCNN将级联结构与Faster RCNN相结合,并取得了比Faster RCNN更为优秀的性能,相比增加各个独立的级联子网络复杂度的方法,参数量增量也更低,但这依旧属于适应变化的方法,将其迁移到平面角度变化下的人脸检测任务时,是缺乏对角度这种特定情况考虑的通用检测器。
发明内容
有鉴于此,本发明提供一种基于区域式渐进校准网络的角度变化下人脸检测方法,用于解决平面角度变化下人脸检测问题,可以在网络参数量较低时更好的提取特征,在小尺度人脸检测上更为适应。
为了解决上述技术问题,本发明通过以下技术方案来实现:本发明提供一种基于区域式渐进校准网络的角度变化下人脸检测方法,由特征提取与融合、区域生成网络、渐进面部检测三个模块组成,
给定一张可能包含人脸的图像img:
(1)特征提取与融合模块对整张图像提取用于候选区域生成与面部检测的特征feature,并融合每个卷积块的中间层输出,使得特征图包含更丰富的几何信息。
(2)区域生成网络模块对原图进行采样,利用神经网络对每个采样区域给出是否包含人脸的置信度与粗略的区域大小回归值,生成高质量的人脸候选区域proposal。
(3)渐进面部检测模块结合特征feature与人脸候选区域proposal,对人脸候选区域逐步地执行检测与区域大小回归,并同时缩小面部平面角度的变化范围,从而实现任意平面角度变化下的人脸检测。
上述技术方案中,所述特征提取与融合模块实现对整张图像提取用于候选区域生成与人脸检测的特征。由卷积块、最大值池化层与特征图组合层组成,采用类似VGG-16结构以保持卷积块间参数量一致。
对于输入图像img,特征提取表示为:
F1=feature(img), (1)
受Hyper face等研究的启发,将每个Max Pooling层之前各卷积块的输出融合以保留图像中的几何信息,其中g1,g2,g3使用步幅为2的3×3卷积层以匹配融合特征图的大小,我们将中间层特征表示为Hi(i∈{0,1,2,3}),中间层特征融合表示为:
F2=g3(g2(g1(H0)+H1)+H2), (2)
模块的输出特征图表示为:
F=F1+F2, (3)
其中:F1为特征提取结果特征图,F2为特征融合结果特征图,F为输出特征图,Hi为各特征提取卷积块的输出,feature(·)表示特征提取运算,gi表示特征融合的计算卷积块,符号‘+’表示中间输出层加法运算,也即矩阵加法。
上述技术方案中,所述区域生成网络模块(RPN)是利用深度网络来产生候选面部的方法。方法从特征图Fdown16上各点出发,将每个特征图的点逐一线性映射至输入图像img上,进行不同尺度Anchor的区域采样,RPN计算各个采样区域包含面部的置信度与回归区域大小的微调值。模块根据各个采样区域的置信度通过指定阈值α=0.5对采样区域过滤,生成可能包含人脸的候选人脸框。
区域生成网络的网络结构,网络目标函数定义为:
Figure BDA0002494233470000041
其中:Losscls为分类损失,采用二进制交叉熵,Lossreg为边框回归损失,采用smooth_l1损失并除以批次上的方差,λreg=1为损失平衡因子。
Anchor经过了适应人脸的设计。锚的尺寸设置为B={16,32,48,64,96,128,256,512},比例设置为S={1}。减小采样区域间距离、增大特征图的大小可以有效增加Anchor对小尺度(16*16像素)面部的包含程度,因此我们对尺寸B为16、32的Anchor进行了偏移,其中Sa是下采样倍数。
对候选人脸框R调整。为了增大特征图大小,采用8倍下采样的结果特征图F作为检测任务的输入特征图,由于R是区域生成网络16倍下采样产生,因此将R中每个候选人脸框的大小扩大4倍。为了减小两者转换带来的误差,对扩大后的R进行变化为1的偏移,将中心的红框进行了8个方向的偏移。
上述技术方案中,所述渐进面部检测模块采用渐进校准网络(PCN)的三阶段校准网络结构进行人脸检测。模块利用候选人脸框R提取特征图F上对应区域特征组成区域特征Froi。每个Froi将被调整到256*7*7大小,并根据标志angle1,angle2将Froi旋转变换,随后被馈送到级联的三个渐进校准子网络中,预测目标的角度区间、逐步缩小角度的变化范围,同时进行面部或非面部分类、边界框回归。
三个级联的渐进校准子网络的目标任务大致相同,分别为:是否包含人脸的分类、边界框回归值预测和预测RIP角度范围。在这三个阶段中,上一阶段的预测值用于对候选人脸框R更新,并作为下一阶段的输入.指定平面坐标y轴正方向为0°,前两个子网络将检测目标的平面角度所属范围由[-180°,180°]降低到[45°,-45°],第三阶段进行精确的人脸分类,从而检测出平面内任意角度变化的人脸。其中ROI_R_Pooling层是在ROI_Pooling层的基础上对区域对应的特征图进行了旋转变换,这也是我们的方法与Cascade RCNN网络结构的不同之处,对区域特征Froi的旋转变换表示为:
F=Froi·rotate(angle1)·rotate(angle2), (5)
其中:rotate函数为矩阵旋转函数,angle1、angle2表示区间的变化角度,用于计算特征图的矩阵转置与翻转变换。
第一阶段校准子网络PCN1对Froi进行是否包含人脸的分类、边界框回归、对RIP角度进行上下朝向的二元分类.Adjust1利用PCN1网络预测结果,过滤掉人脸二分类中预测值小于0.37[10]的候选人脸框R,利用边界框回归值计算新的候选人脸框R1,第一阶段RIP角度预测值用于angle1的计算:
Figure BDA0002494233470000051
其中:
Figure BDA0002494233470000052
表示PCN1对目标角度区间的预测概率值。
第二阶段校准子网络PCN2,首先用新的候选框获取新的区域特征Froi,并根据angle1将Froi旋转变换为Froi_n1,将角度变化[-180°,180°]降到[90°,-90°]。第二阶段的目标任务类似于第一阶段,不同点是对RIP角度进行[90°,45°],[45°,-45°]或[-45°,-90°]区间的三分类。Adjust2利用PCN2网络的预测结果,对候选人脸框R1进行过滤与回归得到新的候选人脸框R2,第二阶段RIP角度预测值用于angle2的计算:
Figure BDA0002494233470000061
Figure BDA0002494233470000062
第三阶段校准子网络PCN3,ROI_R_Pooling层提取R2对应的特征Froi,根据angle1、angle2将所有Froi校准到RIP范围为[45°,-45°]。同样,对Froi_n2进行精确的是否人脸的分类、边界框回归。
最后,Adjust3以第三阶段的人脸二分类结果与回归值做最后的过滤与边框回归得到最终的检测结果。
PCN1、PCN2网络的目标函数定义为:
Figure BDA0002494233470000063
PCN3网络的目标函数定义为:
Figure BDA0002494233470000064
其中:λreg,λcal是平衡因子,Losscls为分类损失,采用二进制交叉熵损失函数,Lossreg为回归损失,采用smooth_l1损失,角度预测损失Losscal在三个阶段分别采用二进制交叉熵、交叉熵、smooth_l1损失,F为各阶段的输入特征图,其数据的分布随着渐进检测变化。
通过以上技术措施,采用联合训练的方式对整体网络进行训练,将区域生成网络与渐进校准网络联合训练,将渐进校准各子网络联合训练,损失共同作用于特征提取与融合层。在研究中发现,区域生成网络产生的候选区域的中心点是围绕在检测目标的,随着两者中心点越靠近,对于大尺寸的检测目标,其候选区域的置信度越高;而对于小尺寸目标,各个候选区域的置信度高于指定阈值后,不能依赖置信度进行基于投票的非最大值抑制(NMS)。
因此,我们只对尺寸较大的候选区域使用基于投票的非最大值抑制策略,并选取置信度大于0.5的最多2000个候选区域进行检测。
与现有技术相比,本发明技术方案带来的有益效果如下:
(1)本发明提出了一个将基于区域的检测网络与渐进校准网络相结合的方法,用于全旋转平面角度的人脸检测。所提出的方法结合了多种技术对特征提取与区域生成网络进行改进,给后续的检测网络提供了良好的检测输入;通过级联的检测结构,逐步的减小面部的角度变化并实现精确的人脸检测。在多方位FDDB数据集与WIDER FACE数据集上的实验结果也验证了我们提出的方法的有效性。在方法的应用前景中,不局限与对人脸的检测,方法也可以运用到角度变化下一般目标的检测,以及变化更加频繁的图像中文字检测等方向,我们也会在接下来的研究中,拓展方法对三维角度变化的鲁棒性。
(2)本发明利用RPN降低PCN中滑动窗口生成候选区域所带来的时间消耗,并使用高复杂度的基础网络增加PCN的检测准度。文中引入了中间层融合与适合人脸检测的锚设计技术,与之前的方法相比,它可以在网络参数量较低时更好的提取特征,在小尺度人脸检测上更为适应。由于区域生成网络是对整张图进行特征提取,我们还将PCN中对输入图像的校准旋转变换用对候选区域对应的特征图区域的校准旋转变换替代。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为RPCN的整体结构;
图2为特征提取与融合模块的网络结构;
图3为区域生成网络的网络结构;
图4为锚;
图5为锚偏移;
图6为候选区域R的偏移;
图7为利用一个三阶段渐进检测结构将平面角度变化缩小并在过程中检测人脸;
图8为方法在多方位FDDB数据集上的ROC曲线;
图9为在WIDER FACE上检测到的结果示例。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
一种基于区域式渐进校准网络的角度变化下人脸检测方法,由特征提取与融合、区域生成网络、渐进面部检测三个模块组成,
给定一张可能包含人脸的图像img:
(1)特征提取与融合模块对整张图像提取用于候选区域生成与面部检测的特征feature,并融合每个卷积块的中间层输出,使得特征图包含更丰富的几何信息。
(2)区域生成网络模块对原图进行采样,利用神经网络对每个采样区域给出是否包含人脸的置信度与粗略的区域大小回归值,生成高质量的人脸候选区域proposal。
(3)渐进面部检测模块结合特征feature与人脸候选区域proposal,对人脸候选区域逐步地执行检测与区域大小回归,并同时缩小面部平面角度的变化范围,从而实现任意平面角度变化下的人脸检测。
1.1特征提取与融合
特征提取与融合模块实现对整张图像提取用于候选区域生成与人脸检测的特征。如图2所示,它由卷积块、最大值池化层与特征图组合层组成,采用类似VGG-16结构以保持卷积块间参数量一致。
对于输入图像img,特征提取表示为:
F1=feature(img), (1)
受Hyper face等研究的启发,将每个Max Pooling层之前各卷积块的输出融合以保留图像中的几何信息,其中g1,g2,g3使用步幅为2的3×3卷积层以匹配融合特征图的大小,我们将中间层特征表示为Hi(i∈{0,1,2,3}),中间层特征融合表示为:
F2=g3(g2(g1(H0)+H1)+H2), (2)
模块的输出特征图表示为:
F=F1+F2, (3)
其中:F1为特征提取结果特征图,F2为特征融合结果特征图,F为输出特征图,Hi为各特征提取卷积块的输出,feature(·)表示特征提取运算,gi表示特征融合的计算卷积块,符号‘+’表示中间输出层加法运算,也即矩阵加法。
1.2区域生成模块
区域生成网络(RPN)是利用深度网络来产生候选面部的方法。RPN网络结构图3所示,方法从特征图Fdown16上各点出发,将每个特征图的点逐一线性映射至输入图像img上,进行不同尺度Anchor的区域采样,RPN计算各个采样区域包含面部的置信度与回归区域大小的微调值。模块根据各个采样区域的置信度通过指定阈值α=0.5对采样区域过滤,生成可能包含人脸的候选人脸框。
区域生成网络的网络结构,如图3所示,网络目标函数定义为:
Figure BDA0002494233470000101
其中:Losscls为分类损失,采用二进制交叉熵,Lossreg为边框回归损失,采用smooth_l1损失并除以批次上的方差,λreg=1为损失平衡因子。
Anchor经过了适应人脸的设计。如图4所示,锚的尺寸设置为B={16,32,48,64,96,128,256,512},比例设置为S={1}。Zhu Chenchen等人的研究表明,减小采样区域间距离、增大特征图的大小可以有效增加Anchor对小尺度(16*16像素)面部的包含程度,因此我们对尺寸B为16、32的Anchor进行了如图5的偏移,其中Sa是下采样倍数。
对候选人脸框R调整。为了增大特征图大小,采用8倍下采样的结果特征图F作为检测任务的输入特征图,由于R是区域生成网络16倍下采样产生,因此将R中每个候选人脸框的大小扩大4倍。为了减小两者转换带来的误差,我们对扩大后的R进行变化为1的偏移,如图6,我们将中心的红框进行了8个方向的偏移。
1.3渐进面部检测
渐进面部检测模块采用渐进校准网络(PCN)的三阶段校准网络结构进行人脸检测。如图7所示,模块利用候选人脸框R提取特征图F上对应区域特征组成区域特征Froi。每个Froi将被调整到256*7*7大小,并根据标志angle1,angle2将Froi旋转变换,随后被馈送到级联的三个渐进校准子网络中,预测目标的角度区间、逐步缩小角度的变化范围,同时进行面部或非面部分类、边界框回归。
三个级联的渐进校准子网络的目标任务大致相同,分别为:是否包含人脸的分类、边界框回归值预测和预测RIP角度范围。在这三个阶段中,上一阶段的预测值用于对候选人脸框R更新,并作为下一阶段的输入。指定平面坐标y轴正方向为0°,前两个子网络将检测目标的平面角度所属范围由[-180°,180°]降低到[45°,-45°],第三阶段进行精确的人脸分类,从而检测出平面内任意角度变化的人脸。其中ROI_R_Pooling层是在ROI_Pooling层的基础上对区域对应的特征图进行了旋转变换,这也是我们的方法与Cascade RCNN网络结构的不同之处,对区域特征Froi的旋转变换表示为:
F=Froi·rotate(angle1)·rotate(angle2), (5)
其中:rotate函数为矩阵旋转函数,angle1、angle2表示区间的变化角度,用于计算特征图的矩阵转置与翻转变换。
第一阶段校准子网络PCN1对Froi进行是否包含人脸的分类、边界框回归、对RIP角度进行上下朝向的二元分类。Adjust1利用PCN1网络预测结果,过滤掉人脸二分类中预测值小于0.37的候选人脸框R,利用边界框回归值计算新的候选人脸框R1,第一阶段RIP角度预测值用于angle1的计算:
Figure BDA0002494233470000111
其中:
Figure BDA0002494233470000114
表示PCN1对目标角度区间的预测概率值。
第二阶段校准子网络PCN2,首先用新的候选框获取新的区域特征Froi,并根据angle1将Froi旋转变换为Froi_n1,将角度变化[-180°,180°]降到[90°,-90°]。第二阶段的目标任务类似于第一阶段,不同点是对RIP角度进行[90°,45°],[45°,-45°]或[-45°,-90°]区间的三分类。Adjust2利用PCN2网络的预测结果,对候选人脸框R1进行过滤与回归得到新的候选人脸框R2,第二阶段RIP角度预测值用于angle2的计算:
Figure BDA0002494233470000112
Figure BDA0002494233470000113
第三阶段校准子网络PCN3,ROI_R_Pooling层提取R2对应的特征Froi,根据angle1、angle2将所有Froi校准到RIP范围为[45°,-45°]。同样,对Froi_n2进行精确的是否人脸的分类、边界框回归。
最后,Adjust3以第三阶段的人脸二分类结果与回归值做最后的过滤与边框回归得到最终的检测结果。
PCN1、PCN2网络的目标函数定义为:
Figure BDA0002494233470000121
PCN3网络的目标函数定义为:
Figure BDA0002494233470000122
其中:λreg,λcal是平衡因子,Losscls为分类损失,采用二进制交叉熵损失函数,Lossreg为回归损失,采用smooth_l1损失,角度预测损失Losscal在三个阶段分别采用二进制交叉熵、交叉熵、smooth_l1损失,F为各阶段的输入特征图,其数据的分布随着渐进检测变化。
实验
我们在具有挑战的WIDER FACE数据集与FDDB数据集对方法进行评估。WIIDERFACE数据集中有61种不同场景、32,203张图像和393,703个面部,其中包括的小尺度、面部数量差异、照明、姿态等问题使得数据集很具有挑战性。根据已有的研究,WIDER FACE数据集40%为训练集,20%为测试集,合并训练集与测试集可以提高检测器性能。我们将WIDERFACE数据集人工进行基准框的方位区间标注,并将方法在此数据集上进行训练,在WIDERFACE测试集和FDDB数据集上进行测试与评估,包括召回率与时耗的评估。
2.1实现细节
采用联合交叉训练的训练方式.首先将区域生成网络预训练50k次,采用SGD进行优化,学习率固定5e-4,动量为0.9,图像批次设为1,锚的设定与过去的研究类似,只是增加了偏移。在区域生成网络的训练过程中,将IOU分数最大或IOU分数高于0.7的锚定义为正样本,低于0.3的定义为负样本,正负样本的比例为1:1,单批次样本数目最大为256个。检测网络中的三个子网络也采用联合交叉训练方式,设置迭代次数为70k次,基本学习率为1e-4,在50k次迭代后降低为2e-5。参考Cascade RCNN的工作,设定IOU得分的上阈值为(0.5,0.6,0.7),下阈值设为0.1,分别用与对检测网络中各个子网络正负样本选取。
在训练过程中,我们对WIDER FACE数据集图像进行图像转置、翻转增强,并将每张图像调整至1024/max(w,h)的比率,w、h为图像的原始宽、高。为了提高对区域生成网络输出的筛选速度与保证小尺寸人脸被包含,我们将置信度大于0.5的最多2000个锚作为候选区域,并只对尺寸大于48×48的候选区域进行非最大值抑制。
2.2基准比较
我们将RPCN与其他先进方法进行比较,包括Faster RCNN、Cascade CNN、PCN、SSD500.Faster RCNN、SSD500使用WIDER FACE数据集进行训练,使用VGG16作为基础网络,并随机旋转训练样本图像;对于Faster RCNN,我们使用区域生成网络生成的前2000个候选框。对于Cascade CNN、PCN,两个方法都是根据滑动窗口和图像金字塔原理获得所有候选人脸区域,并通过多个级联的分类器渐进的对候选区域分类,我们将WIDER FACE与FDDB数据集混合用于训练PCN与Cascade CNN,其中图像随机旋转的角度区间遵循PCN中的研究,Cascade CNN采用与PCN相同的三个CNN子网络来级联实现。
遵循PCN中的方法,将FDDB数据集分别旋转90°、180°、270°,形成FDDBup、FDDBdown、FDDBleft、FDDBright,记作多方位FDDB数据集,并将面部的注释调整为矩形框。所有方法在WIDER FACE数据集、多方位FDDB数据集上进行评估。
2.3评估结果
2.3.1多方位FDDB数据集上的结果
下文给出了多方位FDDB数据集上的ROC曲线,如图8所示。我们的方法在整体数据集上是实现了接近Faster RCNN的性能,在100fp时,比Faster RCNN性能更好。与PCN相比,在整体上性能占优,但是在100fp时稍逊于PCN。
2.3.2运行速度与精度的比较
我们提出RPCN是为了利用级联结构降低检测任务的变化,以此来降低网络的参数量,提高处理速度,并保持精度。我们将多方位FDDB数据集与随机旋转的WIDER FACE数据集中的图像调整到1024/max(w,h)的比率,最小人脸尺寸(mini-face)分别设为16×16、48×48,在其上与其他的方法进行了比较,表1和表2分别给出两个数据集上误报为200个的结果。
在多方位FDDB数据集上,我们的方法在整体上实现了与Faster RCNN和SSD500相当的召回率,运行速度在mini-face为48达到11FPS,这比Faster RCNN要快得多。在WIDERFACE数据集上,方法的召回率接近90%,相较PCN,RPCN的运行速度虽然比PCN低一些,但召回率优于PCN,特别是处理小尺度人脸的时候。总体来说,RPCN相较于一阶段方法,运行速度稍慢一些,但性能更好,在处理小尺度人脸时也更有优势;相较于二阶段方法,RPCN使用了更少的参数量达到相当的性能,并对角度的变化更为鲁棒。
表1多方位FDDB数据集上各方法的性能比较
Figure BDA0002494233470000141
表2随机旋转WIDER FACE数据集上各方法的召回率、速度与参数量
Figure BDA0002494233470000142
以上所述,仅为本发明中最基础的具体实施方式,但本发明的保护范围并不局限于此,任何本技术领域人士在本发明所揭露的技术范围内,可理解到的替换,都应涵盖在本发明的包含范围之内,例如基于本发明方法的其它分布式发电孤岛检测方法。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种基于区域式渐进校准网络的角度变化下人脸检测方法,其特征在于,由特征提取与融合、区域生成网络、渐进面部检测三个模块组成,
给定一张可能包含人脸的图像img:
(1)特征提取与融合模块对整张图像提取用于候选区域生成与面部检测的特征feature,并融合每个卷积块的中间层输出,使得特征图包含更丰富的几何信息;
(2)区域生成网络模块对原图进行采样,利用神经网络对每个采样区域给出是否包含人脸的置信度与粗略的区域大小回归值,生成高质量的人脸候选区域proposal;
(3)渐进面部检测模块结合特征feature与人脸候选区域proposal,对人脸候选区域逐步地执行检测与区域大小回归,并同时缩小面部平面角度的变化范围,从而实现任意平面角度变化下的人脸检测。
2.如权利要求1所述的基于区域式渐进校准网络的角度变化下人脸检测方法,其特征在于,
所述特征提取与融合模块由卷积块、最大值池化层与特征图组合层组成,采用类似VGG-16结构以保持卷积块间参数量一致,
对于输入图像img,特征提取表示为:
F1=feature(img), (1)
将每个Max Pooling层之前各卷积块的输出融合以保留图像中的几何信息,其中g1,g2,g3使用步幅为2的3×3卷积层以匹配融合特征图的大小,将中间层特征表示为Hi(i∈{0,1,2,3}),中间层特征融合表示为:
F2=g3(g2(g1(H0)+H1)+H2), (2)
模块的输出特征图表示为:
F=F1+F2, (3)
其中:F1为特征提取结果特征图,F2为特征融合结果特征图,F为输出特征图,Hi为各特征提取卷积块的输出,feature(·)表示特征提取运算,gi表示特征融合的计算卷积块,符号‘+’表示中间输出层加法运算,也即矩阵加法。
3.如权利要求1所述的基于区域式渐进校准网络的角度变化下人脸检测方法,其特征在于,
所述区域生成网络模块是利用深度网络来产生候选面部的方法,方法从特征图Fdown16上各点出发,将每个特征图的点逐一线性映射至输入图像img上,进行不同尺度Anchor的区域采样,RPN计算各个采样区域包含面部的置信度与回归区域大小的微调值;模块根据各个采样区域的置信度通过指定阈值α=0.5对采样区域过滤,生成可能包含人脸的候选人脸框;
区域生成网络的网络结构,网络目标函数定义为:
Figure FDA0002494233460000021
其中:Losscls为分类损失,采用二进制交叉熵,Lossreg为边框回归损失,采用smooth_l1损失并除以批次上的方差,λreg=1为损失平衡因子;
Anchor经过了适应人脸的设计,锚的尺寸设置为B={16,32,48,64,96,128,256,512},比例设置为S={1};减小采样区域间距离、增大特征图的大小可以有效增加Anchor对小尺度面部的包含程度,因此对尺寸B为16、32的Anchor进行了偏移,其中Sa是下采样倍数;
对候选人脸框R调整,为了增大特征图大小,采用8倍下采样的结果特征图F作为检测任务的输入特征图,由于R是区域生成网络16倍下采样产生,因此将R中每个候选人脸框的大小扩大4倍;为了减小两者转换带来的误差,对扩大后的R进行变化为1的偏移,将中心的红框进行了8个方向的偏移。
4.如权利要求1所述的基于区域式渐进校准网络的角度变化下人脸检测方法,其特征在于,
所述渐进面部检测模块采用渐进校准网络的三阶段校准网络结构进行人脸检测,模块利用候选人脸框R提取特征图F上对应区域特征组成区域特征Froi。每个Froi将被调整到256*7*7大小,并根据标志angle1,angle2将Froi旋转变换,随后被馈送到级联的三个渐进校准子网络中,预测目标的角度区间、逐步缩小角度的变化范围,同时进行面部或非面部分类、边界框回归;
三个级联的渐进校准子网络的目标任务大致相同,分别为:是否包含人脸的分类、边界框回归值预测和预测RIP角度范围;在这三个阶段中,上一阶段的预测值用于对候选人脸框R更新,并作为下一阶段的输入;指定平面坐标y轴正方向为0°,前两个子网络将检测目标的平面角度所属范围由[-180°,180°]降低到[45°,-45°],第三阶段进行精确的人脸分类,从而检测出平面内任意角度变化的人脸;其中ROI_R_Pooling层是在ROI_Pooling层的基础上对区域对应的特征图进行了旋转变换,对区域特征Froi的旋转变换表示为:
F=Froi·rotate(angle1)·rotate(angle2), (5)
其中:rotate函数为矩阵旋转函数,angle1、angle2表示区间的变化角度,用于计算特征图的矩阵转置与翻转变换;
第一阶段校准子网络PCN1对Froi进行是否包含人脸的分类、边界框回归、对RIP角度进行上下朝向的二元分类;Adjust1利用PCN1网络预测结果,过滤掉人脸二分类中预测值小于0.37的候选人脸框R,利用边界框回归值计算新的候选人脸框R1,第一阶段RIP角度预测值用于angle1的计算:
Figure FDA0002494233460000031
其中:
Figure FDA0002494233460000032
表示PCN1对目标角度区间的预测概率值;
第二阶段校准子网络PCN2,首先用新的候选框获取新的区域特征Froi,并根据angle1将Froi旋转变换为Froi_n1,将角度变化[-180°,180°]降到[90°,-90°];第二阶段的目标任务类似于第一阶段,不同点是对RIP角度进行[90°,45°],[45°,-45°]或[-45°,-90°]区间的三分类;Adjust2利用PCN2网络的预测结果,对候选人脸框R1进行过滤与回归得到新的候选人脸框R2,第二阶段RIP角度预测值用于angle2的计算:
Figure FDA0002494233460000041
Figure FDA0002494233460000042
第三阶段校准子网络PCN3,ROI_R_Pooling层提取R2对应的特征Froi,根据angle1、angle2将所有Froi校准到RIP范围为[45°,-45°];同样,对Froi进行精确的是否人脸的分类、边界框回归;
最后,Adjust3以第三阶段的人脸二分类结果与回归值做最后的过滤与边框回归得到最终的检测结果;
PCN1、PCN2网络的目标函数定义为:
Figure FDA0002494233460000043
PCN3网络的目标函数定义为:
Figure FDA0002494233460000044
其中:λreg,λcal是平衡因子,Losscls为分类损失,采用二进制交叉熵损失函数,Lossreg为回归损失,采用smooth_l1损失,角度预测损失Losscal在三个阶段分别采用二进制交叉熵、交叉熵、smooth_l1损失,F为各阶段的输入特征图,其数据的分布随着渐进检测变化。
CN202010413912.7A 2020-05-15 2020-05-15 一种基于区域式渐进校准网络的角度变化下人脸检测方法 Active CN111626160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413912.7A CN111626160B (zh) 2020-05-15 2020-05-15 一种基于区域式渐进校准网络的角度变化下人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413912.7A CN111626160B (zh) 2020-05-15 2020-05-15 一种基于区域式渐进校准网络的角度变化下人脸检测方法

Publications (2)

Publication Number Publication Date
CN111626160A true CN111626160A (zh) 2020-09-04
CN111626160B CN111626160B (zh) 2023-10-03

Family

ID=72260952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413912.7A Active CN111626160B (zh) 2020-05-15 2020-05-15 一种基于区域式渐进校准网络的角度变化下人脸检测方法

Country Status (1)

Country Link
CN (1) CN111626160B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381018A (zh) * 2020-11-19 2021-02-19 北京影谱科技股份有限公司 基于改进弹性模块匹配算法的人脸表情识别方法
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112434674A (zh) * 2021-01-25 2021-03-02 中国科学院自动化研究所 基于标注框虚拟扩增的微小人脸检测方法、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127787A1 (en) * 2005-10-24 2007-06-07 Castleman Kenneth R Face recognition system and method
CN109145854A (zh) * 2018-08-31 2019-01-04 东南大学 一种基于级联卷积神经网络结构的人脸检测方法
CN109543545A (zh) * 2018-10-25 2019-03-29 北京陌上花科技有限公司 快速人脸检测方法及装置
CN110458005A (zh) * 2019-07-02 2019-11-15 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127787A1 (en) * 2005-10-24 2007-06-07 Castleman Kenneth R Face recognition system and method
CN109145854A (zh) * 2018-08-31 2019-01-04 东南大学 一种基于级联卷积神经网络结构的人脸检测方法
CN109543545A (zh) * 2018-10-25 2019-03-29 北京陌上花科技有限公司 快速人脸检测方法及装置
CN110458005A (zh) * 2019-07-02 2019-11-15 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊群芳 等: "基于深度学习的驾驶员打电话行为检测方法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112381018A (zh) * 2020-11-19 2021-02-19 北京影谱科技股份有限公司 基于改进弹性模块匹配算法的人脸表情识别方法
CN112434674A (zh) * 2021-01-25 2021-03-02 中国科学院自动化研究所 基于标注框虚拟扩增的微小人脸检测方法、系统及设备
CN112434674B (zh) * 2021-01-25 2021-04-23 中国科学院自动化研究所 基于标注框虚拟扩增的微小人脸检测方法、系统及设备

Also Published As

Publication number Publication date
CN111626160B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN108491835B (zh) 面向面部表情识别的双通道卷积神经网络
CN108090919B (zh) 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法
CN111626160A (zh) 一种基于区域式渐进校准网络的角度变化下人脸检测方法
CN109886128B (zh) 一种低分辨率下的人脸检测方法
CN111160108A (zh) 一种无锚点的人脸检测方法及系统
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN111626200A (zh) 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法
CN111860587B (zh) 一种用于图片小目标的检测方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN109948457B (zh) 基于卷积神经网络和cuda加速的实时目标识别方法
CN111583279A (zh) 一种基于pcba的超像素图像分割方法
CN105046278B (zh) 基于Haar特征的Adaboost检测算法的优化方法
CN111814889A (zh) 一种使用无锚框模块和增强分类器的单阶段目标检测方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN112381030A (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN113052136B (zh) 一种基于改进Faster RCNN的行人检测方法
CN109741358B (zh) 基于自适应超图学习的超像素分割方法
CN107895162A (zh) 基于物体先验的图像显著性目标检测算法
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN115147932A (zh) 一种基于深度学习的静态手势识别方法及系统
Zhang et al. Point clouds classification of large scenes based on blueprint separation convolutional neural network
Che et al. Traffic light recognition for real scenes based on image processing and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant