CN112016454A - 一种人脸对齐的检测方法 - Google Patents

一种人脸对齐的检测方法 Download PDF

Info

Publication number
CN112016454A
CN112016454A CN202010879593.9A CN202010879593A CN112016454A CN 112016454 A CN112016454 A CN 112016454A CN 202010879593 A CN202010879593 A CN 202010879593A CN 112016454 A CN112016454 A CN 112016454A
Authority
CN
China
Prior art keywords
probability
visibility
keypoint
network
fan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010879593.9A
Other languages
English (en)
Inventor
卢丽
闫超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Yifeishi Technology Co ltd
Original Assignee
Yunnan Yifeishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Yifeishi Technology Co ltd filed Critical Yunnan Yifeishi Technology Co ltd
Priority to CN202010879593.9A priority Critical patent/CN112016454A/zh
Publication of CN112016454A publication Critical patent/CN112016454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人脸对齐的检测方法,包括:拍摄视频图像并转换成图片,剔除非人脸和模糊的图片,拆分得到训练集和测试集,并标记训练集;采用人脸检测模型分别检测训练集和测试集的图片,并得到人脸检测框;将带有标记的训练集输入至构建的FAN卷积神经网络中,采用FAN损失函数对所述FAN卷积神经网络进行端到端优化,得到最优的网络模型;将测试集的图片导入最优的网络模型,生成得到人脸的关键点位置、位置的概率和能见度概率;通过人脸的关键点位置与采集的视频图像对应的图片进行仿射变换,并得到对齐后的人脸图像。本发明既能解决了人脸图像的倾斜角度过大导致活体识别率不高。又能解决了L2损失函数在初始定位时误差较大的问题。

Description

一种人脸对齐的检测方法
技术领域
本发明涉及人脸识别技术领域,尤其是一种人脸对齐的检测方法。
背景技术
在人脸活体检测系统中,人脸对齐是一个非常关键的预处理步骤。目前,现有技术中的人脸对齐方法主要是基于主动形状模型(ASM)、主动外观模型(AAM)和深度学习方法。其中,基于主流深度学习的人脸对齐方法具有较好的效果,其包括直接回归和基于热力图的方法。直接回归方法使用堆叠网络或密集连接U型网络组成,最初用来估计人体二维姿势,之后用来对齐人脸图像。另外,基于树的回归方法能够较快地对齐人脸,级联回归方法能够较准确地对齐人脸。基于热力图的方法是根据一个固定方差的高斯分布生成真实热力图,然后使用每个预测热力图和真实热力图之间的距离进行训练,每个预测热力图的最大值来估算人脸的关键点。之后,许多学者对热力图的像素点通过不同的方差变化来改善人脸对齐方式。但基于热力图的方法有许多缺点,由于训练的目标是模拟含有固定高斯分布的热力图,不适合关键点概率估计。另外,热力图的最大值仅由最临近的像素点决定,生成关键点的误差较大。为了实现人脸关键点定位,将热力图的最大值替换为空间平均值。
人脸对齐检测方法在计算机视觉领域取得了巨大的成功,目前许多方法仍存在以下问题:
第一,在人脸活体检测前,现有技术只是简单的清除噪声和非人脸图像,然后将清除后的图像输入卷积神经网络中训练,这些人脸图像可能倾斜或者倾斜的角度太大看不到正面的人脸导致活体识别率不高;
第二,人脸关键点检测,主要使用L2损失函数来计算网络中的损失。L2能够处理较小的损失,但在初始定位误差较大时,L2损失函数不能从这些大的误差中快速恢复;
第三,人脸对齐方法(人脸的5个关键点)在大多数情况下都表现得很好,但是这些方法都只是预测出关键点的位置,没有估计其位置的概率,也没有预测关键点是否有遮挡。
传统上有两种估计关键点位置的概率方法,第一种使用非参数方法估计人脸对齐的概率,将热力图与高斯核卷积得到核密度网络。另一种使用直接回归法(无热力图)计算关键点的概率,直接预测高斯分布的平均值和精度矩阵。关键点位置会随着不同人标记而发生变化,这种变化在不同的图像上也会跟着变化。例如,对于遮挡和光线较差的图像,关键点位置的变化较大。在真实场景下,人脸图像的每个关键点只有一个真实标记位置,因此很难准确地估算关键点位置变化的概率分布。
目前,关键点概率估计有抽样和非抽样两种方法。基于抽样的方法包括贝叶斯神经网络和蒙特卡罗,这些方法基于多个输入来估算关键点的概率。另外,基于抽样的方法适用于一维回归,不适用于高维回归。非抽样方法有两个输出,一个用于估计关键点的值,另一个用于评估关键点的概率,并优化高斯对数似然函数,而不需要计算分类和回归的损失值。
另外,在专利申请号为“202010166807.8”、专利名称为“基于动态间隔损失函数和概率特征的视频人脸识别方法”的中国发明专利,其利用学习到的不确定性作为特征的重要程度,对输入的视频特征集合进行聚合,以识别视频中的人脸图像;该技术采用预训练的RetinaFace人脸检测模型输出人脸包围框和人脸关键点的位置,其存在以下问题:
第一,该技术只是预测出关键点的位置,没有估计其位置的概率。在遮挡和光线较差的人脸图像上,关键点的位置会发生较大的变化导致人脸对齐的效果较差。
第二,该技术的模型并没有判断人脸是否存在遮挡的情况,导致当人脸被遮挡时其无法准确定位到人脸关键点的位置,从而降低了人脸和关键点检测的泛化能力。
因此,急需要构建一个高效、准确的人脸对齐检测模型,以实时、准确地检测关键点的位置、位置概率和能见度概率,从而矫正人脸图像。
发明内容
针对上述问题,本发明的目的在于提供一种人脸对齐的检测方法,本发明采用的技术方案如下:
一种人脸对齐的检测方法,包括以下步骤:
拍摄视频图像,并将视频图像转换成图片,剔除非人脸和模糊的图片,拆分得到训练集和测试集,并标记训练集;
采用人脸检测模型分别检测训练集和测试集的图片,并得到人脸检测框;
将带有标记的训练集输入至构建的FAN卷积神经网络中,采用FAN损失函数对所述FAN卷积神经网络进行端到端优化,得到最优的网络模型;
将测试集的图片导入最优的网络模型,生成得到人脸的关键点位置、位置的概率和能见度概率;
通过人脸的关键点位置与采集的视频图像对应的图片进行仿射变换,并得到对齐后的人脸图像。
进一步地,所述FAN卷积神经网络的优化过程包括以下步骤:
在任一U-Net网络的底层添加均值估计量、能见度估计器网络和位置估计器网络,得到构建的FAN卷积神经网络;
将带有标记的训练集输入至构建的FAN卷积神经网络中,求得热力图的加权空间平均值,并作为任一关键点的位置pj
利用位置估计器网络求得任一关键点位置的概率,并利用能见度估计器网络估计任一图片中任一关键点能见度的概率uj
利用关键点位置的概率和关键点能见度的概率并结合FAN损失函数进行优化,得到优化后的最优的网络模型。
更进一步地,所述热力图的加权空间平均值求得包括以下步骤:
对于第i个U-Net网络的第j个关键点的热力图像素(x,y)的值Hij(x,y);
采用RELU函数对热力图Hij(x,y)的像素进行处理,得到热力图的加权空间平均值(即关键点的位置uij),其表达式为:
Figure BDA0002653707430000041
其中,σ(Hi,j(x,y))表示使用RELU函数(σ)对热力图处理后的输出值。
更进一步地,所述利用位置估计器网络求得任一关键点位置的概率,并利用能见度估计器网络估计任一图片中任一关键点能见度的概率uj,包括以下步骤:
采用伯努利分布估计第i个U-Net网络的第j个关键点的能见度和位置的联合分布,其表达式为:
q(u,z)=qu(u)qz(z|u)
Figure BDA0002653707430000042
Figure BDA0002653707430000043
其中,
Figure BDA0002653707430000044
表示能见度的预测概率,qu(u)表示伯努利分布的概率,qz(z|u)表示在z点估计关键点能见度的概率,q(u|z)表示能见度u和位置z的联合分布的概率,u=1表示关键点位置可见,u=0表示关键点位置不可见;
qz(z|u=1)=P(z|uij,∑ij)
Figure BDA0002653707430000045
其中,P(z|uij,∑ij)表示在z点估计关键点的位置uij和出现的概率∑ij,
Figure BDA0002653707430000046
表示关键点不存在。
更进一步地,所述采用FAN损失函数对所述FAN卷积神经网络进行端到端优化,其表达式为:
Figure BDA0002653707430000051
其中,uj表示第j个关键点的能见度,
Figure BDA0002653707430000052
表示能见度的预测概率,P(z|uij,∑ij)表示在z点估计关键点的位置uij和出现的概率∑ij,pj表示关键点的位置。
更进一步地,所述关键点的位置的分布,采用二维高斯似然模型求得,其表达式为:
Figure BDA0002653707430000053
更进一步地,所述FAN损失函数的表达式为:
Figure BDA0002653707430000054
其中,uj表示第j个关键点的能见度,
Figure BDA0002653707430000055
表示能见度的预测概率,∑ij表示关键点的出现概率。
更进一步地,所述关键点的位置的分布,采用二维拉普拉斯似然求得,其表达式为:
Figure BDA0002653707430000056
其中,
Figure BDA0002653707430000057
表示第i个U-Net网络关键点的真实位置概率z与预测位置概率uij差的总和的倒数。
更进一步地,所述FAN损失函数的表达式为:
Figure BDA0002653707430000058
其中,uj表示第j个关键点的能见度,
Figure BDA0002653707430000059
表示能见度的预测概率,∑ij表示关键点的出现概率,
Figure BDA0002653707430000061
表示第i个U-Net网络关键点的真实位置概率pj与预测位置概率uij差的总和的倒数。
更进一步地,所述图片的总损失L为任一U-Net网络的损失的加权和,其表达式如下:
Figure BDA0002653707430000062
Figure BDA0002653707430000063
其中,Np表示关键点的数目。
与现有技术相比,本发明具有以下有益效果:
(1)本发明巧妙地引入了FAN网络结构来对齐人脸图像,将倾斜的人脸图像正面对齐,从而矫正了人脸图像,解决现有技术中人脸图像的倾斜角度过大导致活体识别率不高;
(2)本发明提出了一种联合损失函(FAN)来估计面部关键点位置、关键点位置概率和能见度概率,不仅可以检测出人脸对齐后关键点定位的结果,还可以得到相应的概率。另外,本发明还解决了L2损失函数在初始定位时误差较大的问题。
(3)本发明增加关键点位置的网络分支(PEN)来估计多元高斯或拉普拉斯概率分布的协方差矩阵,得到位置概率分布的参数模型,解决了关键点检测不准确的问题。另外,本发明通过训练神经网络结构来估计人脸图像的每个关键点的模型参数,以估算人脸图像关键点位置的概率。
(4)本发明通过添加能见度估计器网络结构(SEN),根据关键点的位置来预测各个关键点是否被遮挡,从而获得每个关键点的能见度。
(5)本发明巧妙地使用预处理方法清除人脸图像中非人脸和模糊图像的数据集,其有利于提高活体检测的准确度,也提高了网络模型的计算速度,从而提升整体算法的性能。
(6)本发明的人脸对齐算法在多个数据集上能够精确地定位,生成位置概率和能见度概率,能够实时地应用在真实场景中。
综上所述,本发明实时准确、精准定位、识别可靠等优点,在人脸识别技术领域具有很高的实用价值和推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需使用的附图作简单介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对保护范围的限定,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的流程图。
图2为本发明的人脸对齐网络的结构示意图。
图3为本发明的FAN网络标记的5个关键点图。
图4为本发明的人脸对齐效果示意图。
上述附图中,附图标记对应的部件名称如下:
具体实施方式
为使本申请的目的、技术方案和优点更为清楚,下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1至图4所示,本实施例提供了一种人脸对齐的检测方法及系统,其中:
数据预处理模块S101,摄像头拍摄人脸视频图像,将视频转化为图像,然后清除非人脸和模糊的图片得到训练和测试集,对训练集图像进行人工标记。
人脸检测模块S102,预处理后的人脸图像通过人脸检测模型检测,得到人脸检测框。
网络结构训练模块S103,将带标记的训练集输入构建的FAN卷积神经网络中训练,调整网络结构的参数得到最优的网络模型,然后将测试集输入最优的网络模型中,生成人脸的关键点位置,位置的概率和能见度概率。
人脸对齐模块S104,通过关键点的位置与原始图像进行仿射变换,得到对齐后的人脸图像。
下面详细阐述了一种人脸对齐的检测方法,本实施例的FAN网络结构的详细步骤如下:
第一步,拍摄视频图像,并将视频图像转换成图片,剔除非人脸和模糊的图片,拆分得到训练集和测试集,并标记训练集;
第二步,采用人脸检测模型分别检测训练集和测试集的图片,并得到人脸检测框。
第三步,将带有标记的训练集输入至构建的FAN卷积神经网络中,得到最优的网络模型,在本实施例中,采用FAN损失函数Lij实现整个网络结构端到端的优化,获取第i个U-net网络和第j个关键点的位置估计uij、位置概率∑ij和能见度估计
Figure BDA0002653707430000081
具体来说:
输入的RGB人脸图像通过U-Net网络结构传递,其中从每个U-Net分支添加了三个组件。由于热力图的最大值的位置作为人脸的关键点,生成关键点的位置不准确。因此,在U-net的底层添加第一个组件(均值估计量),计算热力图的加权空间平均值作为每个关键点的位置pj。第二个新组件是能见度估计器网络(Seeing Estimator Network,SEN)和第三个组件是位置估计器网络(Position Estimator Network,PEN),PEN和SEN的权重在所有U-Net网络中共享。PEN估计每个关键点位置的概率(协方差矩阵系数),此概率使用参数度量,直接估计多元拉普拉斯或高斯分布的参数。SEN估计图像中每个关键点能见度的概率uj∈{0,1},1表示可见,0表示不可见。
本实施例考虑了三种不同的函数σ,ReLU函数(最简单和最好的估算方法)、softmax函数(使平均值估值成为热力图的最大值)和温度控制的softmax函数(取决于温度设置,提供一个连续的softmax函数从最大值到均匀分布的统一体)。对于第i个U-Net网络的第j个关键点的热力图像素(x,y)的值Hij(x,y),关键点位置的估计值uij=[uijx,uijy]T,采用ReLU函数对热力图Hij(x,y)的像素进行处理,得到热力图的加权空间平均值(即关键点的位置uij),其表达式为:
Figure BDA0002653707430000091
其中,σ(Hi,j(x,y))表示使用RELU函数(σ)对热力图处理后的输出值。
为了明确地测量关键点的能见度,本实施例使用混合随机变量对关键点位置的概率分布进行建模。对于图像中的每个关键点j,关键点使用二元变量uj∈{0,1}表示标记的能见度,其中1表示关键点的位置(pj)可见。如果关键点不可见(uj=0),则关键点不存在
Figure BDA0002653707430000092
本实施例估计第i个U-Net网络的第j个关键点的能见度和位置的联合分布,其采用伯努利分布估计第i个U-Net网络的第j个关键点的能见度u和位置z的联合分布,其表达式为:
q(u,z)=qu(u)qz(z|u)
Figure BDA0002653707430000093
Figure BDA0002653707430000094
其中,
Figure BDA0002653707430000095
表示能见度的预测概率,qu(u)表示伯努利分布的概率,qz(z|u)表示在z点估计关键点能见度的概率,q(u|z)表示能见度u和位置z的联合分布的概率,u=1表示关键点位置可见,u=0表示关键点位置不可见;
qz(z|u=1)=P(z|uij,∑ij)
Figure BDA0002653707430000096
其中,P(z|uij,∑ij)表示在z点估计关键点的位置uij和出现的概率∑ij,
Figure BDA0002653707430000097
表示关键点不存在。
在本实施例中,FAN损失是关于q(u,z)的负对数似然,因此,损失最小值等同于最大似然估计。本实施例采用FAN损失函数对所述FAN卷积神经网络进行端到端优化,其表达式为:
Figure BDA0002653707430000101
其中,本实施例预测了每个关键点的三个值(位置、位置的概率和能见度概率),第一项是位置估计的回归损失,而后两项为能见度的分类损失。在公式中,uj表示第j个关键点的能见度,
Figure BDA0002653707430000102
表示能见度的预测概率,P(z|uij,∑ij)表示在z点估计关键点的位置uij和出现的概率∑ij,pj表示关键点的位置。
总的FAN损失(负对数似然的最小值)等于KL散度的最小值。
Figure BDA0002653707430000103
其中,q(uj,pj)和p(uj,pj)都表示第j个关键点的能见度uj和位置pj的联合分布的概率。
本实施例使用两种不同的模型(高斯似然和拉普拉斯模型),以求得关键点的位置分布;其中,采用二维高斯似然模型求得,其表达式为:
Figure BDA0002653707430000104
优化后的FAN损失函数的表达式为:
Figure BDA0002653707430000105
其中,uj表示第j个关键点的能见度,
Figure BDA0002653707430000106
表示能见度的预测概率,∑ij表示关键点的出现概率。
第二,采用二维拉普拉斯似然求得,其表达式为:
Figure BDA0002653707430000111
其中,
Figure BDA0002653707430000112
表示第i个U-Net网络关键点的真实位置概率z与预测位置概率uij差的总和的倒数。
优化后的FAN损失函数的表达式为:
Figure BDA0002653707430000113
其中,uj表示第j个关键点的能见度,
Figure BDA0002653707430000114
表示能见度的预测概率,∑ij表示关键点的出现概率,
Figure BDA0002653707430000115
表示第i个U-Net网络关键点的真实位置概率pj与预测位置概率uij差的总和的倒数。
在本实施例中,如果Σij是单位矩阵,则所有的关键点都是可见的。通过二维的高斯似然得到的FAN损失值减少到l2距离的平方,通过二维拉普拉斯似然得到的FAN损失值减少到l2距离。
本实施例使用2×2协方差矩阵
Figure BDA0002653707430000116
来表示每个关键点位置的概率,此概率是对称的正对角元素。因此,本实施例通过RELU激活函数输出值,并在该函数中添加一个常数,以确保输出始终为正对角元素。另外,PEN分解得到协方差矩阵
Figure BDA0002653707430000117
的三个值。为了得到三角矩阵Lij的值,每个U-net网络增加一个位置估计器网络(PEN),PEN是一个完全连接的线性层,其输入2048维向量(128×4×4=2048维),输出是Np×3维向量,Np是关键点的数目。
本实施例添加了一个完全连通的线性层,以估计关键点的能见度,其输入是2048维向量(128×4×4=2048维),输出是Np维向量。这是通过sigmoid激活函数传递,因此能见度的预测值
Figure BDA0002653707430000118
在0和1之间。单个U-net的损失值是所有关键点(j=1,…,Np)的平均值Lij,每个输入图像的总损失L是所有K个U-net网络损失的加权和,其表达式如下:
Figure BDA0002653707430000121
Figure BDA0002653707430000122
其中,Np表示关键点的数目。
第四步,本实施例采用数据集300W、Menpo、COFW68数据集。300W包含8000张训练集图像和1300张测试集图像。Menpo包含7000张测试图像和COFW68的1000张测试图像。实验使用标准指标平均误差(NMEbox)和AUCbox来验证模型的准确性。标准化平均误差(NMEbox)的公式为:
Figure BDA0002653707430000123
其中,uj、pj和ukj分别表示第j个关键点的能见度、真实位置和预测位置。NMEbox将d设置为人脸检测框(box)的宽度和高度的平均值
Figure BDA0002653707430000124
为了评估算法的准确性,首先计算测试集平均误差NMEbox(%),然后计算为该曲线下的面积AUC,面积越大算法越准确。
表1不同数据集的平均误差和AUC比较
Figure BDA0002653707430000125
首先在300W上训练,然后在300W、Menpo和COFW68数据集上测试。表1显示了实验在Menpo和COFW数据集上测试的结果,在三种数据集下,FAN的平均误差比其他4种方法都低,另外,FAN的AUC面积比其他4种方法大、精确度高。这是因为其他4种算法使用了L2或者其他损失函数,产生了较大的误差。
第五步,在300W数据集上使用FAN网络来检测人脸图像,得到的结果如图3所示,FAN网络检测的5个关键点(两个眼睛,鼻子和两个嘴角)。
第六步,人脸图像使用FAN网络对齐后的结果如图4所示,图(a)显示原始图像,图(b)显示对齐后和人脸图像。
上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而作出的变化,均应属于本发明的保护范围之内。

Claims (10)

1.一种人脸对齐的检测方法,其特征在于,包括以下步骤:
拍摄视频图像,并将视频图像转换成图片,剔除非人脸和模糊的图片,拆分得到训练集和测试集,并标记训练集;
采用人脸检测模型分别检测训练集和测试集的图片,并得到人脸检测框;
将带有标记的训练集输入至构建的FAN卷积神经网络中,采用FAN损失函数对所述FAN卷积神经网络进行端到端优化,得到最优的网络模型;
将测试集的图片导入最优的网络模型,生成得到人脸的关键点位置、位置的概率和能见度概率;
通过人脸的关键点位置与采集的视频图像对应的图片进行仿射变换,并得到对齐后的人脸图像。
2.根据权利要求1所述的一种人脸对齐的检测方法,其特征在于,所述FAN卷积神经网络的优化过程包括以下步骤:
在任一U-Net网络的底层添加均值估计量、能见度估计器网络和位置估计器网络,得到构建的FAN卷积神经网络;
将带有标记的训练集输入至构建的FAN卷积神经网络中,求得热力图的加权空间平均值,并作为任一关键点的位置pj
利用位置估计器网络求得任一关键点位置的概率,并利用能见度估计器网络估计任一图片中任一关键点能见度的概率uj
利用关键点位置的概率和关键点能见度的概率并结合FAN损失函数进行优化,得到优化后的最优的网络模型。
3.根据权利要求2所述的一种人脸对齐的检测方法,其特征在于,所述热力图的加权空间平均值求得包括以下步骤:
对于第i个U-Net网络的第j个关键点的热力图像素(x,y)的值Hij(x,y);
采用RELU函数对热力图Hij(x,y)的像素进行处理,得到热力图的加权空间平均值,其表达式为:
Figure FDA0002653707420000021
其中,σ(Hi,j(x,y))表示使用RELU函数(σ)对热力图处理后的输出值。
4.根据权利要求2所述的一种人脸对齐的检测方法,其特征在于,所述利用位置估计器网络求得任一关键点位置的概率,并利用能见度估计器网络估计任一图片中任一关键点能见度的概率uj,包括以下步骤:
采用伯努利分布估计第i个U-Net网络的第j个关键点的能见度和位置的联合分布,其表达式为:
q(u,z)=qu(u)qz(z|u)
Figure FDA0002653707420000022
Figure FDA0002653707420000023
其中,
Figure FDA0002653707420000024
表示能见度的预测概率,qu(u)表示伯努利分布的概率,qz(z|u)表示在z点估计关键点能见度的概率,q(u|z)表示能见度u和位置z的联合分布的概率,u=1表示关键点位置可见,u=0表示关键点位置不可见;
qz(z|u=1)=P(z|uij,∑ij)
Figure FDA0002653707420000025
其中,P(z|uij,∑ij)表示在z点估计关键点的位置uij和出现的概率∑ij,
Figure FDA0002653707420000026
表示关键点不存在。
5.根据权利要求1所述的一种人脸对齐的检测方法,其特征在于,所述采用FAN损失函数对所述FAN卷积神经网络进行端到端优化,其表达式为:
Figure FDA0002653707420000027
其中,uj表示第j个关键点的能见度,
Figure FDA0002653707420000028
表示能见度的预测概率,P(z|uij,∑ij)表示在z点估计关键点的位置uij和出现的概率∑ij,pj表示关键点的位置。
6.根据权利要求5所述的一种人脸对齐的检测方法,其特征在于,所述关键点的位置的分布,采用二维高斯似然模型求得,其表达式为:
Figure FDA0002653707420000031
7.根据权利要求6所述的一种人脸对齐的检测方法,其特征在于,所述FAN损失函数的表达式为:
Figure FDA0002653707420000032
其中,uj表示第j个关键点的能见度,
Figure FDA0002653707420000033
表示能见度的预测概率,∑ij表示关键点的出现概率。
8.根据权利要求5所述的一种人脸对齐的检测方法,其特征在于,所述关键点的位置的分布,采用二维拉普拉斯似然求得,其表达式为:
Figure FDA0002653707420000034
其中,
Figure FDA0002653707420000035
表示第i个U-Net网络关键点的真实位置概率z与预测位置概率uij差的总和的倒数。
9.根据权利要求8所述的一种人脸对齐的检测方法,其特征在于,所述FAN损失函数的表达式为:
Figure FDA0002653707420000036
其中,uj表示第j个关键点的能见度,
Figure FDA0002653707420000037
表示能见度的预测概率,∑ij表示关键点的出现概率,
Figure FDA0002653707420000038
表示第i个U-Net网络关键点的真实位置概率pj与预测位置概率uij差的总和的倒数。
10.根据权利要求5所述的一种人脸对齐的检测方法,其特征在于,所述图片的总损失L为任一U-Net网络的损失的加权和,其表达式如下:
Figure FDA0002653707420000041
Figure FDA0002653707420000042
其中,Np表示关键点的数目。
CN202010879593.9A 2020-08-27 2020-08-27 一种人脸对齐的检测方法 Pending CN112016454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010879593.9A CN112016454A (zh) 2020-08-27 2020-08-27 一种人脸对齐的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010879593.9A CN112016454A (zh) 2020-08-27 2020-08-27 一种人脸对齐的检测方法

Publications (1)

Publication Number Publication Date
CN112016454A true CN112016454A (zh) 2020-12-01

Family

ID=73502747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010879593.9A Pending CN112016454A (zh) 2020-08-27 2020-08-27 一种人脸对齐的检测方法

Country Status (1)

Country Link
CN (1) CN112016454A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613446A (zh) * 2020-12-29 2021-04-06 贝壳技术有限公司 一种人脸对齐的方法、装置、电子设备及存储介质
CN112801069A (zh) * 2021-04-14 2021-05-14 四川翼飞视科技有限公司 一种人脸关键特征点检测装置、方法和存储介质
CN113011401A (zh) * 2021-04-30 2021-06-22 汇纳科技股份有限公司 人脸图像姿态估计和校正方法、系统、介质及电子设备
CN115439673A (zh) * 2022-11-10 2022-12-06 中山大学 基于扇形卷积神经网络的图像特征匹配方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613446A (zh) * 2020-12-29 2021-04-06 贝壳技术有限公司 一种人脸对齐的方法、装置、电子设备及存储介质
CN112613446B (zh) * 2020-12-29 2023-03-31 贝壳技术有限公司 一种人脸对齐的方法、装置、电子设备及存储介质
CN112801069A (zh) * 2021-04-14 2021-05-14 四川翼飞视科技有限公司 一种人脸关键特征点检测装置、方法和存储介质
CN113011401A (zh) * 2021-04-30 2021-06-22 汇纳科技股份有限公司 人脸图像姿态估计和校正方法、系统、介质及电子设备
CN115439673A (zh) * 2022-11-10 2022-12-06 中山大学 基于扇形卷积神经网络的图像特征匹配方法

Similar Documents

Publication Publication Date Title
CN109934115B (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN112016454A (zh) 一种人脸对齐的检测方法
US7539327B2 (en) System and process for bootstrap initialization of nonparametric color models
US10248854B2 (en) Hand motion identification method and apparatus
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
EP2479726B9 (en) Image comparison system and image comparison method
CN112418074A (zh) 一种基于自注意力的耦合姿态人脸识别方法
Moeini et al. Real-world and rapid face recognition toward pose and expression variations via feature library matrix
CN113361542B (zh) 一种基于深度学习的局部特征提取方法
CN102831409A (zh) 基于粒子滤波的运动行人视频自动跟踪方法及系统
CN111652317A (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
CN110634116A (zh) 一种面部图像评分方法及摄像机
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
US7646915B2 (en) Image recognition apparatus, image extraction apparatus, image extraction method, and program
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN112581540A (zh) 一种大场景下基于人体姿态估计的相机标定方法
CN112597847A (zh) 人脸姿态估计方法、装置、电子设备和存储介质
Yang et al. No-reference image quality assessment focusing on human facial region
CN111723688A (zh) 人体动作识别结果的评价方法、装置和电子设备
CN111914751B (zh) 一种图像人群密度识别检测方法及系统
CN114445649A (zh) 用多尺度超像素融合检测rgb-d单幅图像阴影的方法
WO2021038840A1 (ja) 物体数推定装置、制御方法、及びプログラム
Vankayalapati et al. Nonlinear feature extraction approaches with application to face recognition over large databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Lu Li

Inventor after: Yan Chao

Inventor after: Li Chen

Inventor after: Liu Kun

Inventor before: Lu Li

Inventor before: Yan Chao

CB03 Change of inventor or designer information