CN112906432A - 一种应用于人脸关键点定位任务的检错纠错方法 - Google Patents
一种应用于人脸关键点定位任务的检错纠错方法 Download PDFInfo
- Publication number
- CN112906432A CN112906432A CN201911211148.9A CN201911211148A CN112906432A CN 112906432 A CN112906432 A CN 112906432A CN 201911211148 A CN201911211148 A CN 201911211148A CN 112906432 A CN112906432 A CN 112906432A
- Authority
- CN
- China
- Prior art keywords
- error detection
- network
- key point
- error
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种应用于人脸关键点定位任务上的检错纠错算法,属于计算机视觉与深度学习领域。该方法针对人脸特征点定位任务提出一种检错‑纠错网络模型,检错网络可度量现有关键点定位结果的可靠性,纠错网络可对错误的定位结果进行修正。其中,检错网络引入了一种能反映关键点位置信息的先验模型,先验模型隐含了当前定位结果的准确程度,能指导检错网络评估预测的结果。纠错网络的输入数据依赖于检错网络的输出结果,并将修正后的定位结果反馈给检错网络,实现自我检错和纠错。检错纠错网络是对现有人脸关键点定位方法的一种补充和后处理过程。在现有方法的基础上,引入额外的检错纠错模块,比直接训练一个强网络模型更为简单有效。
Description
技术领域
本发明涉及一种应用于人脸关键点定位任务的检错纠错方法,属于计算机视觉、深度学习技术领域。
背景技术
人脸关键点定位任务主要是在人脸图像上搜索稀疏的一组预定义地标,包括眉毛,眼睛,鼻子,嘴唇,面部轮廓等。人脸关键点定位是其他任务的前提条件,例如面部识别,面部跟踪,头部姿势估计以及辅助3D面部重建等,因此,长期以来人脸关键点定位一直是计算机视觉领域的热门研究。人脸关键点定位的发展是从传统的形状模型参数化方法开始的,随着大型标注数据集的出现,提出了大量基于级联形状回归和深度学习的非参数化方法。基于深度学习的方法具有强大的特征表达能力,可以在数据的驱动下有效地学习关键点之间的空间信息,使得人脸关键点定位任务取得了很大的成功。但是,仍然存在许多困难的情况,由于面部外观,遮挡,姿势和照明的巨大变化,即使是最先进的网络模型也无法正确定位所有面部地标。基于上述现象,本发明提出了一种应用于人脸关键点定位任务上的检错-纠错框架。该方法被明确地训练来解决现有人脸关键点定位方法的错误结果。检错-纠错框架是一种有效的检测和校正人脸对准初始预测的后处理技术,检错模块用于评价现有方法的预测结果,纠错模块用于校正现有方法的预测误差。检错模块引入了一种能反映关键点位置信息的先验模型,先验模型隐含了当前定位结果的准确程度,能指导检错网络评估预测的结果。纠错网络的输入数据依赖于检错网络的输出结果,并将修正后的定位结果反馈给检错网络,实现自我检错和纠错。该方法可以应用于任何现有的人脸关键点定位的方法之上,进一步提高了现有人脸关键点定位方法的准确性。
发明内容
本发明的目的是为了解决现有人脸关键点定位方法中,由于面部外观,遮挡,姿势和照明的巨大变化,关键点无法被正确定位的问题。针对该问题,提出了一种应用于人脸关键点定位任务上的检错纠错方法,构建的检错网络模型用于评估现有方法预测结果的可靠性,并通过纠错网络对错误的预测结果进行校正。
本发明所采用的技术方案是:
一种应用于人脸关键点定位任务的检错纠错方法,该方法含有以下几个步骤:
步骤A:引入合理的结构约束,构建先验模型;
步骤B:检错网络模型的构建;
步骤C:纠错网络模型的构建;
所述步骤A的具体处理过程如下:
(1)使用现有的关键点定位方法,对人脸数据集进行关键点定位,获得人脸关键点的定位结果。
(2)对数据集人脸进行姿态判断,按姿态对数据集进行划分。其中人脸被划分为三种姿态形式,人脸偏转角度介于左偏转45度和右偏转45角度之间的被划分为正脸姿态数据集;人脸偏转角度大于左偏转45度被划分为左侧脸姿态数据集;人脸偏转角度大于右偏转45度被划分为右侧脸姿态数据集。
(3)引入一种基于点分布模型的形状模板S。选择三张无表情人脸形状:基于正脸无表情人脸模板图像、基于左侧脸无表情人脸模板图像以及基于右侧脸无表情人脸形状模板。
(4)将不同姿态数据集中人脸关键点与对应的形状模板S进行匹配,获得先验人脸形状。该步骤又分为了3个小步骤:
①形状模板S标定了68个关键点,采用Delaunay三角划分技术基于68个关键点对人脸形状进行切分,切分后获得一个个对应的无重叠的三角区域。三角形的顶点由标定的关键点组成,整个形状被剖分成了许多个小三角形。
②对原始数据集人脸图像进行与①相同的操作。现有人脸关键点定位方法对每一张测试图像都预测了68个关键点,将预测的人脸形状与模板形状进行点对映射,每个点构成一一对应的关系。同样对预测的68个关键点组成的人脸形状进行切分,获得一系列的三角形,这些三角形与模板人脸形状S切分得到的三角形一一对应。
③根据测试图像中三角形每一个点的位置计算其在模板图像S中所对应的点位置,然后将该点的像素复制到平均脸对应点的位置上。经过线性变换,可以基于预测的关键点将原始人脸图像变换到统一的先验形状S中,获得先验模型:形状外观人脸An。
所述步骤B的具体处理过程如下:
(1)为检错网络构建正负样本均衡的An数据集。选取合适的NME阈值用于判断正负样本。现有方法预测关键点的NME数值大于0.06,则基于该关键点变换获得的An图像称为正样本,否则为负样本。
(2)训练一个dfc-vae模型,dfc-vae模型是对vae模型的改进。dfc-vae模型在训练的时候使用了在ImageNet上训练好的vgg网络,vgg网络用来提取输入图像的特征。dfc-vae模型的损失函数中引入了提取的特征,对提取的特征进行了损失计算。dfc-vae模型的输入数据为An图像,通过dfc-vae模型提取了An图像的隐变量Zn。dfc-vae模型的损失函数Loss计算公式如下所示:
p_loss=p1_loss+p2_loss+p3_loss
Loss=KL_loss+weight*p_loss
其中,P1_loss、P2_loss和P3_loss分别表示输入图像和VAE模型生成的图像在VGG中不同网络层所提取的特征之差。KL_loss表示KL散度,weight参数表示p_loss在损失函数中所占的比重。
(3)构建一个简单的二分类网络模型,模型由三层卷积网络和一层全连接层组成。隐变量Zn是二分类网络的输入数据,通过二分器对Zn变量进行分类,实现对An数据的评估。
所述步骤C的具体处理过程如下:
(1)构建纠错网络的数据集。为预测的每个关键点构建坐标点为中心的高斯图G(h,w),将一张图像被预测的68关键点热图合在一张图像中。同时,真实标注的人脸关键点也被转换为高斯热图。
其中h,w表示高斯图的高度和宽度,(x,y)是关键点坐标,A表示幅值。
(2)设计纠错网络,用于校正在检错网络中被评估为负样本的关键点。该步骤又分为了4个小步骤:
①HourGlass(HG)模块作为纠错网络的主干,用来捕获、整合人脸关键点的空间信息。HG模块的拓扑结构是对称的,网络通过卷积和池化操作对图像进行下采样操作,然后再自顶向下通过反卷积操作将特征图进行上采样,将图像还原成与输入图像相同的尺寸。
②HG模块的基础单元采用沙漏残差模块,残差模块将经过卷积和池化操作后的输出结果F(x)与输入数据x进行相加,作为整个残差模块的输出。在残差模块中引入注意力机制,将残差基本模块设计成与Hourglass架构相似的结构,获得沙漏残差模块。
H(x)=F(x)+x
其中,H(x)表示残差模块的输出,也是下一个残差模块的输入。
③四个基础的Hourglass模块构造成一个纠错网络,输入图像经过一次卷积操作后被送入到第一个HG模块中,最后一个HG模块输出的经过1×1卷积输出最终的预测结果。
④纠错网络将合成的关键点热图,原始人脸图像和An图像堆叠作为输入图像,输入图像的大小为224*224。训练神经网络采用L2损失函数,batchsize的大小设计为32,迭代训练了50次。网络预测输出68张热图,每张热图对应一个关键点的预测结果,热图中最大响应值就是纠错网络预测的关键点坐标。
其中,Yi表示目标值,f(xi)为网络的预测结果,n表示68个关键点。
(3)将纠错网络预测的关键点坐标送到检错网络中,重复上述B、C操作,对纠错网络的预测结果再次进行检错和纠错。
有益效果
本发明设计了一种应用于人脸关键点定位任务的检错纠错方法。该方法包含了以下步骤:步骤A:引入合理的结构约束,构建先验模型;步骤B:检错网络模型的构建;步骤C:纠错网络模型的构建。该方法在现有人脸关键点定位方法上对原始图像进行关键点定位,并基于现有方法的定位结果构建先验形状模型。检错网络在先验模型的指导下实现了对现有方法预测结果的评估,评估结果将进一步指导纠错网络对错误的定位结果进行校正,从而实现了对现有人脸关键点定位方法的检错和纠错。检错纠错方法是对现有人脸关键点定位方法的一种补充和后处理过程。在现有方法的基础上,引入额外的检错纠错模块,比直接训练一个强网络模型更为简单有效。
附图说明
图1为本发明的人脸关键点定位检错纠错方法流程图
图2为本发明实例中构建先验模型的流程图
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图对本发明具体实施步骤作进一步详细的说明。
本发明设计了一种应用于人脸关键点定位任务上的检错纠错方法,该方法被明确地训练来解决现有人脸关键点定位方法的错误结果,其完整的流程如图1所示。检错网络用于评价现有方法的预测结果,纠错网络用于校正现有方法的预测误差。检错纠错方法可以应用于任何现有的人脸关键点定位的方法之上,可以进一步提高了现有人脸关键点定位方法的准确性。具体而言,本发明包含以下步骤:
步骤A:引入合理的结构约束,构建先验模型,其实施流程如图2所示。
(1)使用现有的关键点定位方法,对人脸数据集进行关键点定位,获得人脸关键点的定位结果。
(2)对数据集人脸进行姿态判断,按姿态对数据集进行划分。其中人脸被划分为三种姿态形式,人脸偏转角度介于左偏转45度和右偏转45角度之间的被划分为正脸姿态数据集;人脸偏转角度大于左偏转45度被划分为左侧脸姿态数据集;人脸偏转角度大于右偏转45度被划分为右侧脸姿态数据集。
(3)引入一种基于点分布模型的形状模板S。选择三张无表情人脸形状:基于正脸无表情人脸模板图像、基于左侧脸无表情人脸模板图像、基于右侧脸无表情人脸形状模板。
(4)将不同姿态数据集中人脸关键点与对应的形状模板S进行匹配,获得先验人脸形状。该步骤又分为了3个小步骤:
①形状模板S标定了68个关键点,采用Delaunay三角划分技术基于68个关键点对人脸形状进行切分,切分后获得一个个对应的无重叠的三角区域。三角形的顶点由标定的关键点组成,整个形状被剖分成了许多个小三角形。
②对原始数据集人脸图像进行与①相同的操作。现有人脸关键点定位方法对每一张测试图像都预测了68个关键点,将预测的人脸形状与模板形状进行点对映射,每个点构成一一对应的关系。同样对预测的68个关键点组成的人脸形状进行切分,获得一系列的三角形,这些三角形与模板人脸形状S切分得到的三角形一一对应。
③根据测试图像中三角形每一个点的位置计算其在模板图像S中所对应的点位置,然后将该点的像素复制到平均脸对应点的位置上。经过线性变换,可以基于预测的关键点将原始人脸图像变换到统一的先验形状S中,获得先验模型:形状外观人脸An。
步骤B:检错网络模型的构建
(1)为检错网络构建正负样本均衡的An数据集。选取合适的NME阈值用于判断正负样本。现有方法预测关键点的NME数值大于0.06,则基于该关键点变换获得的An图像称为正样本,否则为负样本。
(2)训练一个dfc-vae模型,dfc-vae模型是对vae模型的改进。dfc-vae模型在训练的时候使用了在ImageNet上训练好的vgg网络,vgg网络用来提取输入图像的特征。dfc-vae模型的损失函数中引入了提取的特征,对提取的特征进行了损失计算。dfc-vae模型的输入数据为An图像,通过dfc-vae模型提取了An图像的隐变量Zn。dfc-vae模型的损失函数Loss计算公式如下所示:
p_loss=p1_loss+p2_loss+p3_loss
Loss=KL_loss+weight*p_loss
其中,P1_loss、P2_loss和P3_loss分别表示输入图像和VAE模型生成的图像在VGG中不同网络层所提取的特征之差。KL_loss表示KL散度,weight参数表示p_loss在损失函数中所占的比重。
(3)构建一个简单的二分类网络模型,模型由三层卷积网络和一层全连接层组成。隐变量Zn是二分类网络的输入数据,通过二分器对Zn变量进行分类,实现对An数据的评估。
步骤C:纠错网络模型的构建
(1)构建纠错网络的数据集。为预测的每个关键点构建坐标点为中心的高斯图G(h,w),将一张图像被预测的68关键点热图合在一张图像中。同时,真实标注的人脸关键点也被转换为高斯热图。
其中h,w表示高斯图的高度和宽度,(x,y)是关键点坐标,A表示幅值。
(2)设计纠错网络,用于校正在检错网络中被评估为负样本的关键点。该步骤又分为了4个小步骤:
①HourGlass(HG)模块作为纠错网络的主干网络,用来捕获整合人脸关键点的空间信息。HG模块的拓扑结构是对称的,网络通过卷积和池化操作对图像进行下采样操作,然后再自顶向下通过反卷积操作将特征图进行上采样,将图像还原成与输入图像相同的尺寸。
②HG模块的基础单元采用沙漏残差模块,残差模块将经过卷积和池化操作后的输出结果F(x)与输入数据x进行相加,作为整个残差模块的输出。在残差模块中引入注意力机制,将残差基本模块设计成与Hourglass架构相似的结构,获得沙漏残差模块。
H(x)=F(x)+x
其中,H(x)表示残差模块的输出,也是下一个残差模块的输入。
③四个基础的Hourglass网络构造成一个纠错网络,输入图像经过一次卷积操作后被送入到第一个HG网络中,最后一个HG网络连接了两轮1x1卷积来产生最终的网络预测。
④纠错网络将合成的关键点热图,原始人脸图像和An图像堆叠作为输入图像,输入图像的大小为224*224。训练神经网络采用L2损失函数,batchsize的大小设计为32,迭代训练了50次。网络预测输出68张热图,每张热图对应一个关键点的预测结果,热图中最大响应值就是纠错网络预测的关键点坐标。
其中,Yi表示目标值,f(xi)为网络的预测结果,n表示68个关键点。
(3)将纠错网络预测的关键点坐标送到检错网络中,重复上述B、C操作,对纠错网络的预测结果再次进行检错和纠错。
本发明提的检错纠错方法能对现有人脸关键点定位方法的结果进行评估,并对错误的预测结果进行校正。该方法能被应用于任何现有的人脸关键点定位方法之上,进一步提高了人脸关键点定位结果的准确性。
Claims (4)
1.一种应用于人脸关键点定位任务的检错纠错方法。其主要特征点是为现有人脸关键点定位方法的预测结果引入合理的结构约束,结构信息初始化预测结果构建先验模型。通过构建检错网络学习先验模型中的纹理特征和结构特征,实现对现有方法预测结果的评估;通过构建纠错网络校正现有方法中预测不理想的结果,并将校正的结果再次反馈给检错网络,形成一个有效的迭代循环过程。
2.根据权利要求1所述的方法,选择一张中性无表情的点分布人脸形状作为先验信息,Delaunay三角划分技术将先验人脸形状和预测的关键点建立一一对应的关系。基于预测的关键点坐标将原始人脸图像的纹理特征映射到先验人脸形状中,即可以获得先验模型。
3.根据权利要求1所述的方法,构建检错网络模型。检错网络通过dfc-vae模型提取先验模型的隐变量,再构建一个简单的二分类神经网络尝试对隐变量进行分类。
4.根据权利要求1所述的方法,将基于残差结构的Hourglass神经网络构建纠错网络。现有人脸关键点的定位结果被转换成高斯热图,并与原始图像和构建的先验模型堆叠作为纠错网络的输入数据,指导纠错网络将错误的结果往正确的方向校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211148.9A CN112906432A (zh) | 2019-12-04 | 2019-12-04 | 一种应用于人脸关键点定位任务的检错纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211148.9A CN112906432A (zh) | 2019-12-04 | 2019-12-04 | 一种应用于人脸关键点定位任务的检错纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906432A true CN112906432A (zh) | 2021-06-04 |
Family
ID=76103559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911211148.9A Pending CN112906432A (zh) | 2019-12-04 | 2019-12-04 | 一种应用于人脸关键点定位任务的检错纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906432A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118303A (zh) * | 2022-01-25 | 2022-03-01 | 中科视语(北京)科技有限公司 | 基于先验约束的人脸关键点检测方法及装置 |
-
2019
- 2019-12-04 CN CN201911211148.9A patent/CN112906432A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118303A (zh) * | 2022-01-25 | 2022-03-01 | 中科视语(北京)科技有限公司 | 基于先验约束的人脸关键点检测方法及装置 |
CN114118303B (zh) * | 2022-01-25 | 2022-04-29 | 中科视语(北京)科技有限公司 | 基于先验约束的人脸关键点检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
Li et al. | Deepim: Deep iterative matching for 6d pose estimation | |
CN111428586B (zh) | 基于特征融合与样本增强的三维人体姿态估计方法 | |
WO2019178702A1 (en) | Systems and methods for polygon object annotation and a method of training an object annotation system | |
CN106991388B (zh) | 关键点定位方法 | |
WO2015139574A1 (zh) | 一种静态物体重建方法和系统 | |
CN111161364B (zh) | 一种针对单视角深度图的实时形状补全和姿态估计方法 | |
CN114782691A (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
WO2019011958A1 (en) | INVARIANT FACE ALIGNMENT SYSTEM AND METHOD FOR INSTALLATION | |
CN113065546B (zh) | 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
CN111368759B (zh) | 基于单目视觉的移动机器人语义地图构建系统 | |
CN113392584B (zh) | 基于深度强化学习和方向估计的视觉导航方法 | |
CN110223382B (zh) | 基于深度学习的单帧图像自由视点三维模型重建方法 | |
CN114663502A (zh) | 物体姿态估计、图像处理方法及相关设备 | |
CN115908517B (zh) | 一种基于对应点匹配矩阵优化的低重叠点云配准方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN111429481B (zh) | 一种基于自适应表达的目标追踪方法、装置及终端 | |
CN111598995B (zh) | 一种基于原型分析的自监督多目三维人体姿态估计方法 | |
CN114067075A (zh) | 基于生成对抗网络的点云补全方法及装置 | |
Huang et al. | Tracking-by-detection of 3d human shapes: from surfaces to volumes | |
CN116958420A (zh) | 一种数字人教师三维人脸的高精度建模方法 | |
CN113393524B (zh) | 一种结合深度学习和轮廓点云重建的目标位姿估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210604 |
|
WD01 | Invention patent application deemed withdrawn after publication |