CN111881746B - 一种基于信息融合的人脸特征点定位方法及系统 - Google Patents
一种基于信息融合的人脸特征点定位方法及系统 Download PDFInfo
- Publication number
- CN111881746B CN111881746B CN202010581080.XA CN202010581080A CN111881746B CN 111881746 B CN111881746 B CN 111881746B CN 202010581080 A CN202010581080 A CN 202010581080A CN 111881746 B CN111881746 B CN 111881746B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature map
- input
- output
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000001815 facial effect Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于信息融合的人脸特征点定位方法及系统,属于人脸识别技术领域,包括:获取待识别的人脸局部图像作为人脸特征点定位模型的输入,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;利用特征点定位网络对融合特征图进行处理,得到人脸局部图像上的人脸特征点位置。本发明利用综合注意力机制,使得人脸特征点定位模型能够更好的关注有效的特征区域,人脸特征点定位更加精准。
Description
技术领域
本发明涉及人脸识别技术领域,特别涉及一种基于信息融合的人脸特征点定位方法及系统。
背景技术
人脸特征点定位是指在人脸图像上,通过机器视觉技术精确的定位出脸部的关键特征点位置,关键特征点包括嘴角、眼角、鼻尖等器官位置以及脸部轮廓等位置。人脸特征点定位是人脸识别系统、表情识别系统和人脸属性分析系统等应用领域的技术基础,人脸特征点定位的质量好坏会直接影响到后续工作的可靠性和精准度。
近20年来,人脸特征点定位算法一直是机器视觉领域的研究热点,涌现出很多经典算法,具体算法可以分为以下几类:
(1)基于传统技术的人脸特征点定位算法,该类算法主要基于人脸的统计形状模型方法和级联回归的方法,如经典的算法:ASM、AAM、SDM、LBF等。该类算法的特点是利用人脸器官的几何位置关系,采用统计方法和级联优化的方法获取最终的人脸特征点位置,由于算法提取人脸特征的表达能力有限,并且对人脸特征点之间的形状约束并没有考虑,该类算法的特征点定位精准度误差较大。
(2)基于深度学习的人脸特征点定位算法,近年来,深度学习技术凭借着可以模拟人类大脑神经网络,能够进行精确的非线性预测,各个领域都得到了广泛的关注和应用,出现了一批经典的人脸特征点定位网络框架,如记忆下降法(Mnemonic Descent Method,MDM)、面部地标探测器(A Practical Facial Landmark Detectordensenet,PFLD),基于深度多任务学习的人脸标志点检测(Facial Landmark Detection by Deep Multi-taskLearning,TCDCN)等。该类算法的特点是利用卷积神经网络模型抓取人脸的深层语义特征,利用这些深层语义特征,或基于多分支任务训练模式,或基于级联多个神经网络模型迭代优化训练模式,获取最终的人脸特征点位置。该类算法相对于传统技术的人脸特征点定位算法,人脸特征点定位精准度有很大的提升,但是特征点定位主要利用的是人脸的深层语义信息,而深层语义信息对于人脸器官细节信息不敏感,导致人脸特征点的定位存在一定的误差。
发明内容
本发明的目的在于克服上述背景技术存在的缺陷,提高人脸特征点定位的精准性。
为实现以上目的,一方面,本发明采用一种基于信息融合的人脸特征点定位方法,包括:
获取待识别的人脸局部图像作为人脸特征点定位模型的输入,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置。
进一步地,所述特征图分辨率快速下降网络包括卷积层conv0和最大值池化层maxpool0,卷积层conv0的输入为所述人脸局部图像、输出与最大值池化层maxpool0连接,最大值池化层maxpool0输出为所述低分辨率特征图。
进一步地,所述信息融合网络包括依次连接的信息融合模块RCAM0、RCAM 1、RCAM2和RCAM3,信息融合模块RCAM0的输入为所述低分辨率特征图,信息融合模块RCAM3的输出为所述融合特征图;
每个信息融合模块包括依次连接上下文环境信息模块、综合注意力模块、拼接层concat和卷积层conv2,拼接层concat的输入连接最大值池化层maxpool1的输出,上下文环境信息模块和最大值池化层maxpool1输入为上一信息融合模块的输出或所述特征图分辨率快速下降网络的输出。
进一步地,所述上下文环境信息模块包括合并层contextsum、卷积层contextconv0、contextconv1_0、contextconv2_0、contextconv3_0、contextconv1_1、contextconv2_1、contextconv3_1、contextconv2_2、contextconv3_2、contextconv3_3以及contextconv4;
卷积层contextconv0、contextconv1_0、contextconv2_0和contextconv3_0作为所述上下文环境信息模块的输入层,卷积层contextconv1_0的输出接卷积层contextconv1_1,卷积层contextconv2_0的输出接卷积层contextconv2_1的输入,卷积层contextconv2_1的输出接卷积层contextconv2_2的输入,卷积层contextconv3_0的输出依次经卷积层contextconv3_1、contextconv3_2与contextconv3_3的输入连接;
卷积层contextconv0、contextconv1_1、contextconv2_2和contextconv3_3的输出均与合并层contextsum连接,合并层contextsum的输出与卷积层contextconv4的输入连接,卷积层contextconv4的输出与所述综合注意力模块的输入连接。
进一步地,所述综合注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块包括基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0、全连接层amf0和amfc1、第一sigmod层以及通道加权层scale0;
空间注意力模块包括基于特征图通道维度的全局均值池化层globalavepool1、基于特征图通道维度的全局最大值池化层globalmaxpool1、卷积层amconv0、第二sigmod层和像素加权层scale1;
基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图通道维度的全局均值池化层globalavepool1和通道加权层scale0的输入为所述上下文环境信息模块的输出,基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0输出的特征图与基于特征图宽度和高度维度的全局均值池化层globalavepool0输出的特征图按通道维度拼接后作为全连接层amf0的输入,全连接层amf0的输出经全连接层amfc1与第一sigmod层输入连接,第一sigmod层输出与通道加权层scale0的输入连接;
基于特征图通道维度的全局均值池化层globalavepool1输出的特征图和基于特征图通道维度的全局最大值池化层globalmaxpool1输出的特征图按通道维度进行拼接后作为卷积层amconv0的输入,卷积层amconv0的输出经第二sigmod层与像素加权层scale1的输入连接;
通道加权层scale0的输出与像素加权层scale1的输入连接,像素加权层scale1的输出作为所述拼接层concat的输入。
进一步地,所述通道加权层scale0用于对输入的特征图的各个通道特征图进行加权,加权计算公式为:
FSc(x,y)=sc*Fc(x,y)
其中,FSc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,sc表示第c个通道的权重值,Fc(x,y)表示输入的特征图的第c个通道(x,y)位置处的数值。
进一步地,所述像素加权层scale1用于对输入的特征图按照逐像素位置进行加权,加权计算公式为:
FSc(x,y)=s(x,y)*Fc(x,y)
其中,FSc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,s(x,y)表示输入特征图的(x,y)位置处的重要程度权重值,Fc(x,y)表示输入特征图的第c个通道第(x,y)位置处的数值。
进一步地,所述特征点定位网络包括全局均值池化层ave-pool和全连接层fc,全局均值池化层ave-pool的输入与所述信息融合网络的输出连接、输出与全连接层fc的输入连接。
进一步地,在所述获取待识别的人脸局部图像作为人脸特征点定位模型的输入之前,还包括对所述人脸特征点定位模型进行训练,具体为:
获取训练样本图像集,该集合中的样本图像为标注有特征点位置信息的人脸局部图像;
设置所述人脸特征点定位模型的目标损失函数谓均方差损失函数;
将训练样本图像集送入人脸特征点定位模型,学习模型参数。
另一方面,采用一种基于信息融合的人脸特征点定位系统,包括:获取模块、转换模块、融合模块和定位模块,其中:
获取模块用于获取待识别的人脸局部图像并输入至人脸特征点定位模型,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
转换模块用于利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
融合模块用于利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
定位模块用于利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置。
进一步地,所述特征图分辨率快速下降网络包括卷积层conv0和最大值池化层maxpool0,卷积层conv0的输入为所述人脸局部图像、输出与最大值池化层maxpool0连接,最大值池化层maxpool0输出为所述低分辨率特征图;
所述信息融合网络包括依次连接的信息融合模块RCAM0、RCAM1、RCAM 2和RCAM3,信息融合模块RCAM0的输入为所述低分辨率特征图,信息融合模块RCAM3的输出为所述融合特征图;
每个信息融合模块包括依次连接上下文环境信息模块、综合注意力模块、拼接层concat和卷积层conv2,拼接层concat的输入连接最大值池化层maxpool1的输出,上下文环境信息模块和最大值池化层maxpool1输入为上一信息融合模块的输出或所述特征图分辨率快速下降网络的输出。
与现有技术相比,本发明存在以下技术效果:本发明基于深度学习技术设计人脸特征点定位模型,该模型利用人脸图像的具有上下文信息的融合特征,使得人脸特征点定位模型能够兼顾人脸图像的深层语义信息和浅层细节信息,精准的计算出人脸特征点位置;利用综合注意力机制,使得深度神经网络模型能够更好的关注有效的特征区域,人脸特征点定位更加精准,鲁棒性更高。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于信息融合的人脸特征点定位方法的流程图;
图2是本发明整体设计流程图;
图3是人脸特征点定位模型的结构图;
图4是信息融合模块的结构图;
图5是上下文环境信息模块的结构图,其中C0表示调整后的特征图通道数目,取值远小于输入特征图通道数目;
图6是综合注意力模块的结构图,其中,R表示网络挤压因子;
图7是一种基于信息融合的人脸特征点定位系统的结构图。
图中:每个模块图形旁边的字母数字,表示当前模块的输出特征图尺寸,即:特征图高度×特征图宽度×特征图通道数。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于信息融合的人脸特征点定位方法,其用于利用所设计的人脸特征点定位模型对任意给出的人脸局部图像进行人脸特征点的识别定位,具体包括如下步骤S1至S4:
S1、获取待识别的人脸局部图像作为人脸特征点定位模型的输入,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
S2、利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
S3、利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
S4、利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置。
需要说明的是,本发明所设计的人脸特征点定位模型中采用了信息融合网络,用于融合上下文环境信息、通道注意力信息和空间注意力信息,兼顾了人脸图像的深层语义特征和浅层细节信息,可以精准的定位出人脸图像的特征点位置。
需要说明的是,在上述对待识别的人脸图像进行人脸特征点定位之前,还需对人脸特征点定位模型进行构建及训练,然后利用训练好的人脸特征点定位模型进行人脸特征点定位,如图2所示:
(1)设计人脸特征点定位模型:
需要说明的是,本发明所设计的人脸特征点定位模型采用的是卷积神经网络(CNN),为了方便叙述本发明,定义一些术语:特征图分辨率指的是特征图高度×特征图宽度,特征图尺寸指的是特征图高度×特征图宽度×特征图通道数,核尺寸指的是核宽度×核高度,跨度指的是宽度方向跨度×高度方向跨度,另外,每一个卷积层后面均带有批量归一化层和非线性激活层。人脸特征点定位模型的设计思路如下:
1-1)设计深度神经网络模型的输入图像:
本发明所采用的输入图像是一幅图像分辨率为224×224的3通道RGB图像,输入图像尺寸越大,其包含的细节越多,越有利于精确定位人脸特征点。
1-2)设计深度神经网络模型的主体网络,主体网络主要用于融合人脸图像的深层语义信息和人脸图像的浅层细节信息,提取人脸图像的具有上下文信息的融合特征,人脸的融合特征提取质量直接影响后续人脸特征点的定位准确度。
由于本发明采用的输入图像尺寸较大,不利于深度神经网络模型的快速运行,因此,需要一种能够快速提取输入人脸图像特征的高效网络。如图3所示,本发明采用改进的经典resnet网络结构作为模型主体网络,包括特征图分辨率快速下降网络、信息融合网络和特征点定位网络。
1-2-1)设计特征图分辨率快速下降网络:
特征图分辨率快速下降网络包括卷积层conv0和最大值池化层maxpool0,conv0层是一个核尺寸为7×7,跨度为2×2的卷积层;maxpool0层是一个核尺寸为2×2,跨度为2×2的最大值池化层;conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络,主要作用是在保留更多图像细节的同时,快速降低特征图分辨率,减少后续操作的运算量。
1-2-2)设计信息融合网络:
信息融合网络包括包括信息融合模块RCAM0、RCAM 1、RCAM 2、和RCAM3,信息融合模块主要是在resnet网络的resblock的基础上,融合了上下文环境信息、通道注意力信息和空间注意力信息。
信息融合模块的具体结构如图4所示,maxpool1层是一个核尺寸为2×2,跨度为2×2的最大值池化层;concat层是按通道维度进行拼接的拼接层;conv2是一个核尺寸为3×3,跨度为1×1的卷积层,主要用于融合拼接后的特征图;contextmodule是融合了上下文环境信息的resblock改进模块即接上下文环境信息模块,attentionmodule是综合注意力模型即综合注意力模块,融合了通道注意力机制和空间注意力机制。
其中,上下文环境信息模块contextmodule的具体网络结构如图5所示,contextconv0层是一个核尺寸为1×1,跨度为2×2的卷积层;contextconv1_0、contextconv2_0、contextconv3_0均是核尺寸为1×1,跨度为1×1的卷积层,主要用于调整特征图通道数目;contextconv1_1、contextconv2_1、contextconv3_1均是核尺寸为3×3,跨度为2×2的卷积层;contextconv2_2、contextconv3_2、contextconv3_3均是核尺寸为3×3,跨度为1×1的卷积层;其中,contextconv2_1和contextconv2_2这两层网络通过两个核尺寸为3×3的卷积操作来完成一个核尺寸为5×5的卷积操作,contextconv3_1、contextconv3_2和contextconv3_3这三层网络通过三个核尺寸为3×3的卷积操作来完成一个核尺寸为7×7的卷积操作;contextsum层是一个把多个输入特征图按逐像素相加的方式生成一个输出特征图的合并层;contextconv4是一个核尺寸为3×3,跨度为1×1的卷积层,主要用于融合合并后的特征图。
其中综合注意力模块attentionmodule的具体网络结构如图6所示,综合注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块包括基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0、全连接层amf0和amfc1、第一sigmod层以及通道加权层scale0;空间注意力模块包括基于特征图通道维度的全局均值池化层globalavepool1、基于特征图通道维度的全局最大值池化层globalmaxpool1、卷积层amconv0、第二sigmod层和像素加权层scale1。
globalavepool0层的输出特征图和globalmaxpool0层的输出特征图按通道维度进行拼接;amf0、amfc1均是全连接层,用于提取输入特征图每个通道的重要程度权值;globalavepool1是一个基于特征图通道维度的全局均值池化层,globalmaxpool1是一个基于特征图通道维度的全局最大值池化层;globalavepool1层的输出特征图和globalmaxpool1层的输出特征图按通道维度进行拼接;amconv0是一个核尺寸为7×7,跨度为1×1的卷积层,主要用于提取输入特征图上各个像素位置的重要程度权值;sigmod层是sigmod类型的激活函数;scale0层是按通道加权层,其作用是对输入特征图的各个通道特征图进行加权;scale1层是按像素加权层,其作用是对输入特征图按照逐像素位置进行加权。
所述通道加权层scale0用于对输入的特征图的各个通道特征图进行加权,加权计算公式为:
FSc(x,y)=sc*Fc(x,y)
其中,FSc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,sc表示第c个通道的权重值,Fc(x,y)表示输入的特征图的第c个通道(x,y)位置处的数值,*表示乘号。
进一步地,所述像素加权层scale1用于对输入的特征图按照逐像素位置进行加权,加权计算公式为:
FSc(x,y)=s(x,y)*Fc(x,y)
其中,FSc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,s(x,y)表示输入特征图的(x,y)位置处的重要程度权重值,Fc(x,y)表示输入特征图的第c个通道第(x,y)位置处的数值。
1-2-3)设计特征点定位网络:
特征点定位网络包括全局均值池化层ave-pool和全连接层fc,全局均值池化层ave-pool的输入与所述信息融合网络的输出连接、输出与全连接层fc的输入连接,fc层是一个输出特征为2xN维的全连接层,N表示人脸特征点的个数。
(2)训练深度神经网络模型:
主要是通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型能够精确定位出人脸特征点位置,具体的步骤如下:
2-1)获取训练样本图像,主要是收集各种场景,各种光线、各种角度下的人脸图像,通过现有的人脸检测算法,获取每个人脸的局部区域图像,然后在每个人脸局部图像上标注N个特征点的位置,并记录特征点位置信息;
2-2)设计深度神经网络模型的目标损失函数,本发明采用的是均方差(MSE)损失函数。
2-3)训练深度神经网络模型,主要是把标注好的人脸样本图像集合送入定义好的深度神经网络模型,学习相关的模型参数.
(3)使用深度神经网络模型,对于任意给出的一个人脸局部图像,经过深度神经网络模型前向运算后,直接输出人脸特征点位置。
如图7所示,本实施例公开了一种基于信息融合的人脸特征点定位系统,包括:获取模块10、转换模块20、融合模块30和定位模块40,其中:
获取模块10用于获取待识别的人脸局部图像并输入至人脸特征点定位模型,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
转换模块20用于利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
融合模块30用于利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
定位模块40用于利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置。
需要说明的是,该系统中采用的人脸特征点定位模型与上述实施例公开的基于信息融合的人脸特征点定位方法中所采用的人脸特征点定位模型结构和原理相同,该处不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于信息融合的人脸特征点定位方法,其特征在于,包括:
获取待识别的人脸局部图像作为人脸特征点定位模型的输入,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置;
所述信息融合网络包括依次连接的信息融合模块RCAM0、RCAM 1、RCAM 2和RCAM3,信息融合模块RCAM0的输入为所述低分辨率特征图,信息融合模块RCAM3的输出为所述融合特征图;
每个信息融合模块包括依次连接上下文环境信息模块、综合注意力模块、拼接层concat和卷积层conv2,拼接层concat的输入连接最大值池化层maxpool1的输出,上下文环境信息模块和最大值池化层maxpool1输入为上一信息融合模块的输出或所述特征图分辨率快速下降网络的输出;
所述上下文环境信息模块包括合并层contextsum、卷积层contextconv0、contextconv1_0、contextconv2_0、contextconv3_0、contextconv1_1、contextconv2_1、contextconv3_1、contextconv2_2、contextconv3_2、contextconv3_3以及contextconv4;
卷积层contextconv0、contextconv1_0、contextconv2_0和contextconv3_0作为所述上下文环境信息模块的输入层,卷积层contextconv1_0的输出接卷积层contextconv1_1,卷积层contextconv2_0的输出接卷积层contextconv2_1的输入,卷积层contextconv2_1的输出接卷积层contextconv2_2的输入,卷积层contextconv3_0的输出依次经卷积层contextconv3_1、contextconv3_2与contextconv3_3的输入连接;
卷积层contextconv0、contextconv1_1、contextconv2_2和contextconv3_3的输出均与合并层contextsum连接,合并层contextsum的输出与卷积层contextconv4的输入连接,卷积层contextconv4的输出与所述综合注意力模块的输入连接;
所述综合注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块包括基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0、全连接层amf0和amfc1、第一sigmod层以及通道加权层scale0;
空间注意力模块包括基于特征图通道维度的全局均值池化层globalavepool1、基于特征图通道维度的全局最大值池化层globalmaxpool1、卷积层amconv0、第二sigmod层和像素加权层scale1;
基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图通道维度的全局均值池化层globalavepool1和通道加权层scale0的输入为所述上下文环境信息模块的输出,基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0输出的特征图与基于特征图宽度和高度维度的全局均值池化层globalavepool0输出的特征图按通道维度拼接后作为全连接层amf0的输入,全连接层amf0的输出经全连接层amfc1与第一sigmod层输入连接,第一sigmod层输出与通道加权层scale0的输入连接;
基于特征图通道维度的全局均值池化层globalavepool1输出的特征图和基于特征图通道维度的全局最大值池化层globalmaxpool1输出的特征图按通道维度进行拼接后作为卷积层amconv0的输入,卷积层amconv0的输出经第二sigmod层与像素加权层scale1的输入连接;
通道加权层scale0的输出与像素加权层scale1的输入连接,像素加权层scale1的输出作为所述拼接层concat的输入。
2.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述特征图分辨率快速下降网络包括卷积层conv0和最大值池化层maxpool0,卷积层conv0的输入为所述人脸局部图像、输出与最大值池化层maxpool0连接,最大值池化层maxpool0输出为所述低分辨率特征图。
3.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述通道加权层scale0用于对输入的特征图的各个通道特征图进行加权,加权计算公式为:
FSc(x,y)=sc*Fc(x,y)
其中,FSc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,sc表示第c个通道的权重值,Fc(x,y)表示输入的特征图的第c个通道(x,y)位置处的数值。
4.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述像素加权层scale1用于对输入的特征图按照逐像素位置进行加权,加权计算公式为:
FSc(x,y)=s(x,y)*Fc(x,y)
其中,FSc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,s(x,y)表示输入特征图的(x,y)位置处的重要程度权重值,Fc(x,y)表示输入特征图的第c个通道第(x,y)位置处的数值。
5.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述特征点定位网络包括全局均值池化层ave-pool和全连接层fc,全局均值池化层ave-pool的输入与所述信息融合网络的输出连接、输出与全连接层fc的输入连接。
6.如权利要求1~4任一项所述的基于信息融合的人脸特征点定位方法,其特征在于,在所述获取待识别的人脸局部图像作为人脸特征点定位模型的输入之前,还包括对所述人脸特征点定位模型进行训练,具体为:
获取训练样本图像集,该集合中的样本图像为标注有特征点位置信息的人脸局部图像;
设置所述人脸特征点定位模型的目标损失函数谓均方差损失函数;
将训练样本图像集送入人脸特征点定位模型,学习模型参数。
7.一种基于信息融合的人脸特征点定位系统,其特征在于,包括:获取模块、转换模块、融合模块和定位模块,其中:
获取模块用于获取待识别的人脸局部图像并输入至人脸特征点定位模型,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
转换模块用于利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
融合模块用于利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
定位模块用于利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置;
具体地,融合模块包括依次连接的信息融合模块RCAM0、RCAM 1、RCAM 2和RCAM3,信息融合模块RCAM0的输入为所述低分辨率特征图,信息融合模块RCAM3的输出为所述融合特征图;
每个信息融合模块包括依次连接上下文环境信息模块、综合注意力模块、拼接层concat和卷积层conv2,拼接层concat的输入连接最大值池化层maxpool1的输出,上下文环境信息模块和最大值池化层maxpool1输入为上一信息融合模块的输出或所述特征图分辨率快速下降网络的输出;
所述上下文环境信息模块包括合并层contextsum、卷积层contextconv0、contextconv1_0、contextconv2_0、contextconv3_0、contextconv1_1、contextconv2_1、contextconv3_1、contextconv2_2、contextconv3_2、contextconv3_3以及contextconv4;
卷积层contextconv0、contextconv1_0、contextconv2_0和contextconv3_0作为所述上下文环境信息模块的输入层,卷积层contextconv1_0的输出接卷积层contextconv1_1,卷积层contextconv2_0的输出接卷积层contextconv2_1的输入,卷积层contextconv2_1的输出接卷积层contextconv2_2的输入,卷积层contextconv3_0的输出依次经卷积层contextconv3_1、contextconv3_2与contextconv3_3的输入连接;
卷积层contextconv0、contextconv1_1、contextconv2_2和contextconv3_3的输出均与合并层contextsum连接,合并层contextsum的输出与卷积层contextconv4的输入连接,卷积层contextconv4的输出与所述综合注意力模块的输入连接;
所述综合注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块包括基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0、全连接层amf0和amfc1、第一sigmod层以及通道加权层scale0;
空间注意力模块包括基于特征图通道维度的全局均值池化层globalavepool1、基于特征图通道维度的全局最大值池化层globalmaxpool1、卷积层amconv0、第二sigmod层和像素加权层scale1;
基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图通道维度的全局均值池化层globalavepool1和通道加权层scale0的输入为所述上下文环境信息模块的输出,基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0输出的特征图与基于特征图宽度和高度维度的全局均值池化层globalavepool0输出的特征图按通道维度拼接后作为全连接层amf0的输入,全连接层amf0的输出经全连接层amfc1与第一sigmod层输入连接,第一sigmod层输出与通道加权层scale0的输入连接;
基于特征图通道维度的全局均值池化层globalavepool1输出的特征图和基于特征图通道维度的全局最大值池化层globalmaxpool1输出的特征图按通道维度进行拼接后作为卷积层amconv0的输入,卷积层amconv0的输出经第二sigmod层与像素加权层scale1的输入连接;
通道加权层scale0的输出与像素加权层scale1的输入连接,像素加权层scale1的输出作为所述拼接层concat的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010581080.XA CN111881746B (zh) | 2020-06-23 | 2020-06-23 | 一种基于信息融合的人脸特征点定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010581080.XA CN111881746B (zh) | 2020-06-23 | 2020-06-23 | 一种基于信息融合的人脸特征点定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881746A CN111881746A (zh) | 2020-11-03 |
CN111881746B true CN111881746B (zh) | 2024-04-02 |
Family
ID=73156560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010581080.XA Active CN111881746B (zh) | 2020-06-23 | 2020-06-23 | 一种基于信息融合的人脸特征点定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881746B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205152B (zh) * | 2021-05-24 | 2023-12-22 | 西安邮电大学 | 一种环视融合的特征融合方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934195A (zh) * | 2019-03-21 | 2019-06-25 | 东北大学 | 一种基于信息融合的反欺骗三维人脸识别方法 |
CN109977781A (zh) * | 2019-02-26 | 2019-07-05 | 上海上湖信息技术有限公司 | 人脸检测方法及装置、可读存储介质 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110287857A (zh) * | 2019-06-20 | 2019-09-27 | 厦门美图之家科技有限公司 | 一种特征点检测模型的训练方法 |
CN110287846A (zh) * | 2019-06-19 | 2019-09-27 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及系统 |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别系统及方法 |
WO2020037898A1 (zh) * | 2018-08-23 | 2020-02-27 | 平安科技(深圳)有限公司 | 人脸特征点检测方法、装置、计算机设备及存储介质 |
CN111028213A (zh) * | 2019-12-04 | 2020-04-17 | 北大方正集团有限公司 | 图像缺陷检测方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201316372D0 (en) * | 2013-09-13 | 2013-10-30 | Eip | Image processing |
WO2017149315A1 (en) * | 2016-03-02 | 2017-09-08 | Holition Limited | Locating and augmenting object features in images |
-
2020
- 2020-06-23 CN CN202010581080.XA patent/CN111881746B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037898A1 (zh) * | 2018-08-23 | 2020-02-27 | 平安科技(深圳)有限公司 | 人脸特征点检测方法、装置、计算机设备及存储介质 |
CN109977781A (zh) * | 2019-02-26 | 2019-07-05 | 上海上湖信息技术有限公司 | 人脸检测方法及装置、可读存储介质 |
CN109934195A (zh) * | 2019-03-21 | 2019-06-25 | 东北大学 | 一种基于信息融合的反欺骗三维人脸识别方法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110287846A (zh) * | 2019-06-19 | 2019-09-27 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN110287857A (zh) * | 2019-06-20 | 2019-09-27 | 厦门美图之家科技有限公司 | 一种特征点检测模型的训练方法 |
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及系统 |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别系统及方法 |
CN111028213A (zh) * | 2019-12-04 | 2020-04-17 | 北大方正集团有限公司 | 图像缺陷检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
CBAM: Convolutional Block Attention Module;Sanghyun Woo等;《Proceedings of the European conference on computer vision (ECCV)》;3-19 * |
CSANet: Channel and Spatial Mixed Attention CNN for Pedestrian Detection;YUNBO ZHANG等;《IEEE Access》;第8卷;76243-76252 * |
Kai Su等.Multi-Person Pose Estimation With Enhanced Channel-Wise and Spatial Information.《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》.2020,摘要,第1-4节,图2、4. * |
Multi-Person Pose Estimation With Enhanced Channel-Wise and Spatial Information;Kai Su等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;摘要,第1-4节,图2、4 * |
基于卷积神经网络的多角度人脸特征点检测技术研究;林娇娇;《中国优秀硕士学位论文全文数据库:信息科技辑》(第2020年第06期);I138-777 * |
Also Published As
Publication number | Publication date |
---|---|
CN111881746A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN111080693A (zh) | 一种基于YOLOv3的机器人自主分类抓取方法 | |
CN110674741B (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN112084911B (zh) | 一种基于全局注意力的人脸特征点定位方法及系统 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN112163498A (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111881743B (zh) | 一种基于语义分割的人脸特征点定位方法 | |
CN112597920A (zh) | 基于YOLOv3剪枝网络的实时物体检测系统 | |
CN108363962B (zh) | 一种基于多层次特征深度学习的人脸检测方法及系统 | |
CN112163508A (zh) | 一种基于真实场景的文字识别方法、系统及ocr终端 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN111881746B (zh) | 一种基于信息融合的人脸特征点定位方法及系统 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN111881914A (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN111179212A (zh) | 集成蒸馏策略和反卷积的微小目标检测片上实现方法 | |
CN115331261A (zh) | 基于YOLOv6的移动端实时人体检测方法及系统 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
CN111881744B (zh) | 一种基于空间位置信息的人脸特征点定位方法及系统 | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
CN111881744A (zh) | 一种基于空间位置信息的人脸特征点定位方法及系统 | |
Brander et al. | Improving data-scarce image classification through multimodal synthetic data pretraining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |