CN111881743A - 一种基于语义分割的人脸特征点定位方法 - Google Patents
一种基于语义分割的人脸特征点定位方法 Download PDFInfo
- Publication number
- CN111881743A CN111881743A CN202010579916.2A CN202010579916A CN111881743A CN 111881743 A CN111881743 A CN 111881743A CN 202010579916 A CN202010579916 A CN 202010579916A CN 111881743 A CN111881743 A CN 111881743A
- Authority
- CN
- China
- Prior art keywords
- feature
- map
- layer
- module
- aum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 title claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义分割的人脸特征点定位方法,属于人脸识别技术领域,包括:获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入,该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络;利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图;利用图像解码器模块网络对高层语义特征图进行语义分割,得到人脸特征点位置概率图。本发明采用基于深度学习的图像语义分割技术,综合利用人脸图像的深层语义特征和浅层细节特征来定位人脸特征点,人脸特征点定位更加精准。
Description
技术领域
本发明涉及人脸识别技术领域,特别涉及一种基于语义分割的人脸特征点定位方法。
背景技术
人脸特征点定位是指在人脸图像上,通过机器视觉技术精确的定位出脸部的关键特征点位置,关键特征点包括嘴角、眼角、鼻尖等器官位置以及脸部轮廓等位置。人脸特征点定位是人脸识别系统、表情识别系统和人脸属性分析系统等应用领域的技术基础,人脸特征点定位的质量好坏会直接影响到后续工作的可靠性和精准度。
近20年来,人脸特征点定位算法一直是机器视觉领域的研究热点,涌现出很多经典算法,具体算法可以分为以下几类:
(1)基于传统技术的人脸特征点定位算法,该类算法主要基于人脸的统计形状模型方法和级联回归的方法,如经典的算法:ASM、AAM、SDM、LBF等。该类算法的特点是利用人脸器官的几何位置关系,采用统计方法和级联优化的方法获取最终的人脸特征点位置,由于算法提取人脸特征的表达能力有限,并且对人脸特征点之间的形状约束并没有考虑,该类算法的特征点定位精准度误差较大。
(2)基于深度学习的人脸特征点定位算法,近年来,深度学习技术凭借着可以模拟人类大脑神经网络,能够进行精确的非线性预测,各个领域都得到了广泛的关注和应用,出现了一批经典的人脸特征点定位网络框架,如记忆下降法(Mnemonic Descent Method,MDM)、面部地标探测器(A Practical Facial Landmark Detectordensenet,PFLD),基于深度多任务学习的人脸标志点检测(Facial Landmark Detection by Deep Multi-taskLearning,TCDCN)等。该类算法的特点是利用卷积神经网络模型抓取人脸的深层语义特征,利用这些高层语义特征,或基于多分支任务训练模式,或基于级联多个神经网络模型迭代优化训练模式,获取最终的人脸特征点位置。该类算法相对于传统技术的人脸特征点定位算法,人脸特征点定位精准度有很大的提升,但是特征点定位主要利用的是人脸的深层语义特征,对人脸的浅层语义特征(人脸细节信息)利用较少,导致人脸特征点的定位存在一定的误差。
发明内容
本发明的目的在于克服上述背景技术存在的缺陷,提高人脸特征点定位的精准性。
为实现以上目的,本发明采用一种基于语义分割的人脸特征点定位方法,包括如下步骤:
获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入,该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络;
利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图;
利用图像解码器模块网络对高层语义特征图进行语义分割,得到人脸特征点位置概率图。
进一步地,所述图像编码器模块网络采用经典的resnet-18网络结构,包括卷积层conv0和四个卷积运算集合体,每个卷积运算集合体内部均设置有不同核尺寸不同跨度的卷积层,所述图像编码器模块网络的输入为大尺寸3通道RGB图像,输出是卷积层conv0得到的语义特征图C0以及四个卷积运算集合体得到的语义特征图C1、C2、C3和C4。
进一步地,所述图像解码器模块网络包括特征点位置概率图预测网络和AUM模块组,AUM模块组包括4倍AUM模块、8倍AUM模块、16倍AUM模块和四个2倍AUM模块,四个2倍AUM模块的输出依次连接,每个AUM模块的输入为高分辨率特征图和低分辨率特征图,输出是高分辨率特征图;
所述特征图C0、C1、C2和C3分别输入至四个2倍AUM模块,所述特征图C4经卷积运算得到的特征图D0作为首个2倍AUM模块的输入,首个2倍AUM模块的输出为特征图D1,剩下三个2倍AUM模块输出的特征图依次为D2、D3、D43,特征图D0、D1、D2分别作为16倍AUM模块、8倍AUM模块、4倍AUM模块的输入,16倍AUM模块、8倍AUM模块、4倍AUM模块的输出分别是特征图D40、D41和D42,特征图D40、D41、D42和D43拼接得到的特征图D4作为所述特征点位置概率图预测网络的输入,所述特征点位置概率图预测网络的输出为所述人脸特征点位置概率图。
进一步地,所述AUM模块包括上采样层upsample、卷积层conv1、拼接层concat1、卷积运算层conv-warp、上采样运算层warp和sum层;
卷积层conv1的输入为所述高分辨率特征图,上采样层upsample的输入为所述低分辨率特征图,卷积层conv1和上采样层upsample的输出均与拼接层concat1的输入连接,拼接层concat1的输出与卷积运算层conv-warp输入连接,卷积运算层conv-warp的输出和低分辨率特征图均作为上采样运算层warp的输入,所述高分辨率特征图和上采样运算层warp的输出均作为sum层的输入,sum层的输出为所述人脸特征点位置概率图;
其中,拼接层concat1用于按通道维度拼接两个输入特征图得到的拼接特征图,卷积运算层conv-warp用于将拼接特征图转换得到上采样位置变换映射图,上采样运算层warp用于根据上采样位置变换映射图完成上采样运算,sum层用于实现两个输入特征图逐像素相加。
进一步地,所述上采样运算层warp用于根据上采样位置变换映射图完成上采样运算,包括:
依据所述上采样位置变换映射图,获取所述高分辨率特征图上的点在所述低分辨率特征图上的对应位置;
获取所述低分辨率特征图上的对应位置周围4个最近位置点的值;
根据该4个最近位置点的值,计算得到所述低分辨率特征图上点的值,计算公式为:
其中,(x,y)表示所述高分辨率特征图在所述低分辨率特征图上的对应位置的点坐标,(x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)表示在低分辨率图上距离点(x,y)最近的四个已知值的点坐标。
进一步地,所述特征点位置概率图预测网络包括卷积层conv_predict_1和卷积层conv_predict_2,卷积层conv_predict_1的输入为所述特征图D4,输出与卷积层conv_predict_2连接,卷积层conv_predict_2的输出为所述人脸特征点位置概率图。
进一步地,所述预先训练好的深度神经网络模型的训练步骤包括:
获取训练样本图像集,集合中的每个单个人脸局部图像样本上标注有特征点的位置;
根据每个单个人脸局部图像样本上标注有特征点的位置,得到特征点位置概率标注图:
其中,(x,y)是指人脸图像上某个特征点周围点的坐标,G(x,y)表示(x,y)处像素点对应的概率值,(u,v)是指人脸图像上某个特征点的坐标,σ是高斯分布标准差,π是圆周率;
设置所述图像编码器模块网络的目标损失函数和所述图像解码器模块网络的目标损失函数;
将每个单个人脸局部图像样本作为所述深度神经网络模型的输入,将特征点位置概率标注图作为所述深度神经网络模型的输出,以对所述深度神经网络模型进行训练,得到所述预先训练好的深度神经网络模型。
进一步地,所述图像编码器模块网络的目标损失函数采用二分类交叉熵损失函数,所述图像解码器模块网络的目标损失函数采用均方差损失函数。
进一步地,所述图像编码器模块网络还包括辅助网络aux-net,辅助网络aux-net的输入与所述resnet-18网络结构中的最后一个卷积运算集合体中的卷积层输出连接,输出为利用回归分析运算得到的单个人脸局部图像样本的特征点位置;辅助网络aux-net包括全局均值池化层和全连接层。
进一步地,在所述利用图像解码器模块网络对高层语义特征图进行语义分割,得到人脸特征点位置概率图之后,还包括:
在所述人脸特征点位置概率图上选择可信度大于可信度阈值的所有特征点作为候选特征点;
取候选特征点的平均位置作为最终识别的特征点位置。
与现有技术相比,本发明存在以下技术效果:本发明采用基于深度学习的图像语义分割技术,使用分类运算代替回归运算来定位人脸特征点,综合利用人脸图像的深层语义特征和浅层细节特征来定位人脸特征点,并采用新设计的AUM模块,自适应的完成深层语义特征的上采样操作,人脸图像细节信息和人脸语义信息结合的更加完美,人脸特征点定位更加精准,鲁棒性更高。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于语义分割的人脸特征点定位方法的流程图;
图2是本发明整体设计流程图;
图3是深度神经网络模型的结构图,其中AUM(x)括号里的值表示该AUM模块对输入特征图分辨率的放大倍数;
图4是AUM模块的结构图;
图5是人脸特征点位置概率标注图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于语义分割的人脸特征点定位方法,包括如下步骤S1至S3:
S1、获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入,该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络;
S2、利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图;
S3、利用图像解码器模块网络对高层语义特征图进行语义分割,得到人脸特征点位置概率图。
需要说明的是,本实施例是在已经获取单个人脸局部图像的前提下进行的,为了方便说明,本发明采用5个人脸特征点进行叙述(本发明不局限于5个点),5个人脸特征点分别是:左眼睛中心点、右眼睛中心点、鼻尖点、左嘴角点、右嘴角点。
在上述对待识别的单个人脸局部图像进行特征点定位之前,还需对深度神经网络模型进行构建及训练,然后利用训练好的深度神经网络模型进行人脸特征点识别,如图2所示,以构建用于识别5个人脸特征点的深度神经网络模型为例:
1)设计深度神经网络模型:
本发明设计的深度神经网络模型,主要作用是借助一个精心设计的深度神经网络模型,提取人脸图像的深层语义特征和浅层细节特征,综合利用提取的语义特征和细节特征,精准的计算出人脸特征点位置。本发明设计的深度神经网络模型包括图像编码器模块encoder和图像解码器模块decoder。本发明采用的是卷积神经网络(CNN),为了方便叙述本发明,定义一些术语:特征图分辨率指的是特征图高度×特征图宽度,特征图尺寸指的是特征图高度×特征图宽度×特征图通道数,核尺寸指的是核宽度×核高度,跨度指的是宽度方向跨度×高度方向跨度,另外,每一个卷积层后面均带有批量归一化层和非线性激活层。该深度神经网络模型的具体设计步骤如下:
1-1)设计深度神经网络模型的输入图像:
本发明所采用的输入图像是尺寸为224×224的3通道RGB图像,输入图像尺寸越大,其包含的细节越多,越有利于精确定位人脸特征点。
1-2)设计图像编码器模块网络:
图像编码器模块网络主要用于快速提取输入人脸图像的高层语义特征,高层语义特征提取的质量直接影响后续人脸特征点定位的准确度。由于本发明采用的输入图像尺寸较大,不利于深度神经网络模型的快速运行,因此,需要一种能够快速提取输入人脸图像特征的高效网络。
如图3中的encoder模块所示,本发明采用经典的resnet-18网络结构作为图像编码器模块网络,其中,conv0是一个核尺寸是7×7,跨度是2×2的卷积层,这种大核尺寸大跨度卷积操作可以快速降低特征图分辨率,大大降低后续操作的运算量,同时保留更多图像细节,其输出特征图C0的特征图尺寸是112x112x64;stage1、stage2、stage3、stage4分别是resnet-18的4个阶段的卷积运算集合体,每一个stage内部的卷积层均是核尺寸是3×3的卷积层,除了第一个卷积层的跨度是2×2外,其余卷积层的跨度均是1×1,C1、C2、C3、C4分别表示不同运算阶段的输出特征图,其中,C1的特征图尺寸是56x56x64,C2的特征图尺寸是28x28x128,C3的特征图尺寸是14x14x256,C4的特征图尺寸是7x7x512。为了增加图像编码器模块的特征提取能力,本发明设计了一个只在训练阶段起作用的辅助网络aux-net,该辅助网络通过回归分析运算获取人脸的5个特征点位置,其网络结构包括一个全局均值池化层ave-pool和一个输出是10维的全连接层fc。
1-3)设计图像解码器模块网络:
图像解码器模块网络主要依据图像编码器模块提取的高层语义特征和本发明设计的AUM(Adaptive Upsample Module)模块,对输入人脸图像进行综合的语义分割,获取人脸特征点位置概率图。如图3的decoder模块所示,图像解码器模块由特征点位置概率图预测网络和AUM模块组构成,AUM模块组包括4倍AUM模块、8倍AUM模块、16倍AUM模块和四个2倍AUM模块。其中,每个AUM模块有两个输入特征图,分别是高分辨率特征图和低分辨率特征图,其输出特征图是一个高分辨率特征图,因此,AUM模块完成了由低分率特征图到高分辨率特征图的分辨率放大变换。D0特征图是由步骤1-2)中C4特征图通过一个核尺寸为1x1,跨度为1x1的卷积层运算获取的,其特征图尺寸是7x7x256。D1、D2、D3、D43、D42、D41、D40分别是AUM模块运算后的输出特征图,其中,D1的特征图尺寸是14x14x128,D2的特征图尺寸是28x28x64,D3的特征图尺寸是56x56x32,D43、D42、D41、D40的特征图尺寸均是112x112x32,D43、D42、D41、D40这4个特征图按照通道维度进行拼接,形成D4特征图,D4的特征图尺寸是112x112x128。AUM模块的这种分辨率放大变换功能和常规上采样运算类似,常规的上采样运算指的是采用双线性插值算法或者简单的对应填充算法进行图像分辨率放大运算。然而,常规上采样运算的缺点是采用固定的位置对应关系进行运算,而由图像编码器模块网络获取的特征图之间的位置对应关系并不是固定的,此时采用常规上采样运算,上采样图会存在一定的位置误差,导致最终的人脸特征点定位出现偏差。
其中,AUM模块的具体结构如图4所示,upsample层是常规上采样层;conv1是一个核尺寸为1x1,跨度为1x1的卷积层,主要用来调整输入特征图的通道数;concat1层用来按通道维度拼接两个输入特征图;conv-warp层是一个核尺寸为3x3,跨度为1x1的卷积运算层,其作用是生成上采样位置变换映射图;warp层主要根据上采样位置变换映射图完成精准的上采样运算,具体运算过程如下:首先,高分辨率特征图上的点依据上采样位置变换映射图,获取在低分辨率图上的对应位置,然后在低分辨率图上获取此位置周围4个最近位置点的值,最后通过公式计算的结果就是高分辨率特征图上点的值;sum层实现两个输入特征图逐像素相加,公式如下:
其中,(x,y)表示高分辨率图在低分辨率图上的对应位置的点坐标,(x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)表示在低分辨率图上距离点(x,y)最近的四个已知值的点坐标,*表示乘号。
特征点位置概率图预测网络包括:一个核尺寸为3x3,跨度为1x1的卷积层conv_predict_1;一个核尺寸为1x1,跨度为1x1的卷积层conv_predict_2,conv_predict_2输出的特征图就是特征点位置概率图,其特征图尺寸是112x112x5,其中,5表示输出5张特征图,每一张输出特征图对应一个特征点的位置概率图。
2)训练深度神经网络模型:
主要是通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型能够精确定位出人脸特征点位置,具体的步骤如下:
2-1)获取训练样本图像,主要是收集各种场景,各种光线、各种角度下的人脸图像,通过现有的人脸检测算法,获取每个人脸的局部区域图像,然后在每张人脸局部图像上标注5个特征点的位置,并记录特征点位置信息,如图5(a)所示;
2-2)生成特征点位置概率标注图,基于步骤2-1)获取的人脸5个特征点,按照如下公式,在每个特征点周围计算各个点可能是特征点的概率分布,距离标注特征点越近的点,其概率越大,如图5(b)所示:
其中,(x,y)是指人脸图像上某个特征点周围点的坐标,G(x,y)表示(x,y)处像素点对应的概率值,(u,v)是指人脸图像上某个特征点的坐标,σ是高斯分布标准差,π是圆周率。
2-3)设计深度神经网络模型的目标损失函数,图像解码器模块网络的目标损失函数采用的是二分类交叉熵损失函数,图像编码器模块网络的辅助网络采用的均方差(MSE)损失函数。
2-4)训练深度神经网络模型,主要是把标注好的人脸样本图像集合送入定义好的深度神经网络模型,学习相关的模型参数。
3)使用深度神经网络模型,对于任意给出的一个人脸图像,经过深度神经网络模型前向运算后,输出特征点位置概率图。其中,概率图表示图像上某个位置点成为特征点的可信度,选择可信度大于0.8的所有候选特征点,取其平均位置作为最终的特征点位置。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于语义分割的人脸特征点定位方法,其特征在于,包括:
获取待识别的单个人脸局部图像作为预先训练好的深度神经网络模型的输入,该深度神经网络模型包括图像编码器模块网络和图像解码器模块网络;
利用图像编码器模块网络获取单个人脸局部图像的高层语义特征图;
利用图像解码器模块网络对高层语义特征图进行语义分割,得到人脸特征点位置概率图。
2.如权利要求1所述的基于语义分割的人脸特征点定位方法,其特征在于,所述图像编码器模块网络采用经典的resnet-18网络结构,包括卷积层conv0和四个卷积运算集合体,每个卷积运算集合体内部均设置有不同核尺寸不同跨度的卷积层,所述图像编码器模块网络的输入为大尺寸3通道RGB图像,输出是卷积层conv0得到的语义特征图C0以及四个卷积运算集合体得到的语义特征图C1、C2、C3和C4。
3.如权利要求2所述的基于语义分割的人脸特征点定位方法,其特征在于,所述图像解码器模块网络包括特征点位置概率图预测网络和AUM模块组,AUM模块组包括4倍AUM模块、8倍AUM模块、16倍AUM模块和四个2倍AUM模块,四个2倍AUM模块的输出依次连接,每个AUM模块的输入为高分辨率特征图和低分辨率特征图,输出是高分辨率特征图;
所述特征图C0、C1、C2和C3分别输入至四个2倍AUM模块,所述特征图C4经卷积运算得到的特征图D0作为首个2倍AUM模块的输入,首个2倍AUM模块的输出为特征图D1,剩下三个2倍AUM模块输出的特征图依次为D2、D3、D43,特征图D0、D1、D2分别作为16倍AUM模块、8倍AUM模块、4倍AUM模块的输入,16倍AUM模块、8倍AUM模块、4倍AUM模块的输出分别是特征图D40、D41和D42,特征图D40、D41、D42和D43拼接得到的特征图D4作为所述特征点位置概率图预测网络的输入,所述特征点位置概率图预测网络的输出为所述人脸特征点位置概率图。
4.如权利要求3所述的基于语义分割的人脸特征点定位方法,其特征在于,所述AUM模块包括上采样层upsample、卷积层conv1、拼接层concat1、卷积运算层conv-warp、上采样运算层warp和sum层;
卷积层conv1的输入为所述高分辨率特征图,上采样层upsample的输入为所述低分辨率特征图,卷积层conv1和上采样层upsample的输出均与拼接层concat1的输入连接,拼接层concat1的输出与卷积运算层conv-warp输入连接,卷积运算层conv-warp的输出和低分辨率特征图均作为上采样运算层warp的输入,所述高分辨率特征图和上采样运算层warp的输出均作为sum层的输入,sum层的输出为所述人脸特征点位置概率图;
其中,拼接层concat1用于按通道维度拼接两个输入特征图得到的拼接特征图,卷积运算层conv-warp用于将拼接特征图转换得到上采样位置变换映射图,上采样运算层warp用于根据上采样位置变换映射图完成上采样运算,sum层用于实现两个输入特征图逐像素相加。
6.如权利要求3所述的基于语义分割的人脸特征点定位方法,其特征在于,所述特征点位置概率图预测网络包括卷积层conv_predict_1和卷积层conv_predict_2,卷积层conv_predict_1的输入为所述特征图D4,输出与卷积层conv_predict_2连接,卷积层conv_predict_2的输出为所述人脸特征点位置概率图。
7.如权利要求1~6任一项所述的基于语义分割的人脸特征点定位方法,其特征在于,所述预先训练好的深度神经网络模型的训练步骤包括:
获取训练样本图像集,集合中的每个单个人脸局部图像样本上标注有特征点的位置;
根据每个单个人脸局部图像样本上标注有特征点的位置,得到特征点位置概率标注图:
其中,(x,y)是指人脸图像上某个特征点周围点的坐标,G(x,y)表示(x,y)处像素点对应的概率值,(u,v)是指人脸图像上某个特征点的坐标,σ是高斯分布标准差,π是圆周率;
设置所述图像编码器模块网络的目标损失函数和所述图像解码器模块网络的目标损失函数;
将每个单个人脸局部图像样本作为所述深度神经网络模型的输入,将特征点位置概率标注图作为所述深度神经网络模型的输出,以对所述深度神经网络模型进行训练,得到所述预先训练好的深度神经网络模型。
8.如权利要求7所述的基于语义分割的人脸特征点定位方法,其特征在于,所述图像编码器模块网络的目标损失函数采用二分类交叉熵损失函数,所述图像解码器模块网络的目标损失函数采用均方差损失函数。
9.如权利要求8所述的基于语义分割的人脸特征点定位方法,其特征在于,所述图像编码器模块网络还包括辅助网络aux-net,辅助网络aux-net的输入与所述resnet-18网络结构中的最后一个卷积运算集合体中的卷积层输出连接,输出为利用回归分析运算得到的单个人脸局部图像样本的特征点位置;辅助网络aux-net包括全局均值池化层和全连接层。
10.如权利要求7所述的基于语义分割的人脸特征点定位方法,其特征在于,在所述利用图像解码器模块网络对高层语义特征图进行语义分割,得到人脸特征点位置概率图之后,还包括:
在所述人脸特征点位置概率图上选择可信度大于可信度阈值的所有特征点作为候选特征点;
取候选特征点的平均位置作为最终识别的特征点位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579916.2A CN111881743B (zh) | 2020-06-23 | 一种基于语义分割的人脸特征点定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579916.2A CN111881743B (zh) | 2020-06-23 | 一种基于语义分割的人脸特征点定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881743A true CN111881743A (zh) | 2020-11-03 |
CN111881743B CN111881743B (zh) | 2024-06-07 |
Family
ID=
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308000A (zh) * | 2020-11-06 | 2021-02-02 | 安徽清新互联信息科技有限公司 | 一种基于时空信息的高空抛物检测方法 |
CN112364846A (zh) * | 2021-01-12 | 2021-02-12 | 深圳市一心视觉科技有限公司 | 一种人脸活体识别方法、装置、终端设备及存储介质 |
CN112950600A (zh) * | 2021-03-10 | 2021-06-11 | 武汉联影智融医疗科技有限公司 | 脑标识提取方法、装置、计算机设备和存储介质 |
CN114187481A (zh) * | 2022-02-14 | 2022-03-15 | 常州铭赛机器人科技股份有限公司 | 基于改进的U-net语义分割网络的补强胶定位方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010073138A (ja) * | 2008-09-22 | 2010-04-02 | Toshiba Corp | 特徴点検出装置、特徴点検出方法及び特徴点検出プログラム |
CN104573658A (zh) * | 2015-01-09 | 2015-04-29 | 安徽清新互联信息科技有限公司 | 一种基于支持向量机的盲驾检测方法 |
CN105261042A (zh) * | 2015-10-19 | 2016-01-20 | 华为技术有限公司 | 光流估计的方法及装置 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN108227912A (zh) * | 2017-11-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 设备控制方法和装置、电子设备、计算机存储介质 |
CN108304765A (zh) * | 2017-12-11 | 2018-07-20 | 中国科学院自动化研究所 | 用于人脸关键点定位与语义分割的多任务检测装置 |
CN108764164A (zh) * | 2018-05-30 | 2018-11-06 | 华中科技大学 | 一种基于可变形卷积网络的人脸检测方法及系统 |
CN110135375A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院宁波材料技术与工程研究所 | 基于全局信息整合的多人姿态估计方法 |
CN110148081A (zh) * | 2019-03-25 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、图像处理方法、装置及存储介质 |
CN110287846A (zh) * | 2019-06-19 | 2019-09-27 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN110298291A (zh) * | 2019-06-25 | 2019-10-01 | 吉林大学 | 基于Mask-RCNN的牛脸及牛脸关键点检测方法 |
CN111046826A (zh) * | 2019-12-20 | 2020-04-21 | 北京碧拓科技有限公司 | 一种远红外热成像人脸关键点的定位方法 |
CN111274977A (zh) * | 2020-01-22 | 2020-06-12 | 中能国际建筑投资集团有限公司 | 多任务卷积神经网络模型及使用方法、装置和存储介质 |
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010073138A (ja) * | 2008-09-22 | 2010-04-02 | Toshiba Corp | 特徴点検出装置、特徴点検出方法及び特徴点検出プログラム |
CN104573658A (zh) * | 2015-01-09 | 2015-04-29 | 安徽清新互联信息科技有限公司 | 一种基于支持向量机的盲驾检测方法 |
CN105261042A (zh) * | 2015-10-19 | 2016-01-20 | 华为技术有限公司 | 光流估计的方法及装置 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN108227912A (zh) * | 2017-11-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 设备控制方法和装置、电子设备、计算机存储介质 |
CN108304765A (zh) * | 2017-12-11 | 2018-07-20 | 中国科学院自动化研究所 | 用于人脸关键点定位与语义分割的多任务检测装置 |
CN108764164A (zh) * | 2018-05-30 | 2018-11-06 | 华中科技大学 | 一种基于可变形卷积网络的人脸检测方法及系统 |
CN110148081A (zh) * | 2019-03-25 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、图像处理方法、装置及存储介质 |
CN110135375A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院宁波材料技术与工程研究所 | 基于全局信息整合的多人姿态估计方法 |
CN110287846A (zh) * | 2019-06-19 | 2019-09-27 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN110298291A (zh) * | 2019-06-25 | 2019-10-01 | 吉林大学 | 基于Mask-RCNN的牛脸及牛脸关键点检测方法 |
CN111046826A (zh) * | 2019-12-20 | 2020-04-21 | 北京碧拓科技有限公司 | 一种远红外热成像人脸关键点的定位方法 |
CN111274977A (zh) * | 2020-01-22 | 2020-06-12 | 中能国际建筑投资集团有限公司 | 多任务卷积神经网络模型及使用方法、装置和存储介质 |
Non-Patent Citations (3)
Title |
---|
LEZI WANG等: "A coupled encoder–decoder network for joint face detectionand landmark localization", 《IMAGE ANDVISIONCOMPUTING》, vol. 87, pages 37 - 46 * |
孙锐等: "级联网络和金字塔光流的旋转不变人脸检测", 《光电工程》, vol. 47, no. 1, pages 190135 - 1 * |
晋振杰: "基于改进的CNN人脸关键点检测算法研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, pages 138 - 2062 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308000A (zh) * | 2020-11-06 | 2021-02-02 | 安徽清新互联信息科技有限公司 | 一种基于时空信息的高空抛物检测方法 |
CN112308000B (zh) * | 2020-11-06 | 2023-03-07 | 安徽清新互联信息科技有限公司 | 一种基于时空信息的高空抛物检测方法 |
CN112364846A (zh) * | 2021-01-12 | 2021-02-12 | 深圳市一心视觉科技有限公司 | 一种人脸活体识别方法、装置、终端设备及存储介质 |
CN112950600A (zh) * | 2021-03-10 | 2021-06-11 | 武汉联影智融医疗科技有限公司 | 脑标识提取方法、装置、计算机设备和存储介质 |
CN114187481A (zh) * | 2022-02-14 | 2022-03-15 | 常州铭赛机器人科技股份有限公司 | 基于改进的U-net语义分割网络的补强胶定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN112330681B (zh) | 一种基于注意力机制的轻量级网络实时语义分割方法 | |
CN112308860B (zh) | 基于自监督学习的对地观测图像语义分割方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111832546B (zh) | 一种轻量级自然场景文本识别方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
CN110245683B (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN109657538B (zh) | 基于上下文信息指导的场景分割方法和系统 | |
CN112580515A (zh) | 一种基于高斯热图回归的轻量级人脸关键点检测方法 | |
CN113743269A (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN113850324A (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN109919215B (zh) | 基于聚类算法改进特征金字塔网络的目标检测方法 | |
CN110136098B (zh) | 一种基于深度学习的线缆顺序检测方法 | |
CN115376195B (zh) | 训练多尺度网络模型的方法及人脸关键点检测方法 | |
WO2020093210A1 (zh) | 基于上下文信息指导的场景分割方法和系统 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN111881743A (zh) | 一种基于语义分割的人脸特征点定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |