CN107016319B - 一种特征点定位方法和装置 - Google Patents
一种特征点定位方法和装置 Download PDFInfo
- Publication number
- CN107016319B CN107016319B CN201610053455.9A CN201610053455A CN107016319B CN 107016319 B CN107016319 B CN 107016319B CN 201610053455 A CN201610053455 A CN 201610053455A CN 107016319 B CN107016319 B CN 107016319B
- Authority
- CN
- China
- Prior art keywords
- shape
- linear
- iteration
- nonlinear
- texture features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 91
- 239000011159 matrix material Substances 0.000 claims abstract description 49
- 230000009466 transformation Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 14
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 101001099922 Homo sapiens Retinoic acid-induced protein 1 Proteins 0.000 description 9
- 102100038470 Retinoic acid-induced protein 1 Human genes 0.000 description 9
- 238000012417 linear regression Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 241000228740 Procrustes Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 229920000638 styrene acrylonitrile Polymers 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/35—Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种关键点定位方法,包括:提取待检测图像的非线性特征;根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置。本申请还公开了一种关键点定位装置。应用本申请公开的技术方案,能够快速准确地定位出图像中关键点的位置信息,为后续的处理提供依据。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种特征点定位方法和装置。
背景技术
人脸关键点定位是计算机视觉领域一个经典的问题,到现在已经有20多年的研究历史。由于人脸姿态、表情、光照等各种不确定因素的影响,人脸关键点定位问题一直是一个比较难的问题。比较经典的人脸关键点定位算法有ASM(Active Shape Model,主动形状模型)、AAM(Active Appearance Model,主动表观模型)、CLM(Constrained Local Model,受限局部模型)等算法。其中:
ASM算法需要离线学习一个形状模型,在线定位时在形状轮廓线法线方向进行关键点位置的搜索,最后利用形状模型对所有关键点进行约束更新。ASM算法的收敛域比较大,直接和轮廓线法线搜索范围相关。但ASM算法的缺点是不稳定,不够鲁棒,容易出错。
AAM算法在ASM的基础上增加了统计纹理模型,在线定位时通过更新形状和表观模型系数,使得当前位置下的图像能很好地被纹理模型所解释,也就是说使纹理误差达到局部最小值。这个方法虽然比较直观,但有一个很强的假设是,纹理误差最小的时候,关键点定位最准确。然而,实际的人脸图像是很复杂的,导致这个假设在很多时候不成立。
CLM算法则是把AAM中的纹理模型引入到ASM中,从而在单点搜索时不再只用法线方向上的像素作为依据,而是用关键点周围一个小块区域(patch)的信息进行搜索,其鲁棒性相比ASM有了很大的提高。然而,早期的CLM纹理信息大多直接用的灰度信息,对光照不够鲁棒。
最近,人脸关键点定位技术得到了很大的发展。很多机器学习的方法和非线性特征描述子被用于关键点定位。下面对与本申请比较相关的几个方法进行简要介绍。
“Supervised Descent Method and its Applications to Face Alignment”,CVPR2013,所提出的SDM(Supervised descent method,监督下降方法)方法采用SIFT(Scale-invariant feature transform,尺度不变特征变换)描述子对每个关键点周围一定大小的patch进行描述,然后利用线性回归的方式从SIFT特征回归出特征点位置的偏移量。通过多次迭代的方式最终得到比较精确的关键点坐标位置。该方法直接对关键点x、y坐标偏移量进行回归,当需要定位的关键点数目比较多时,回归因子矩阵也会比较大,运算时间也比较多。
“Coarse-to-Fine Auto-encoder Networks(CFAN)for Real-time FaceAlignment”,ECCV2014,提出的CFAN(Coarse-to-Fine Auto-encoder Networks,由粗到精自编码网络)方法从以下几个方面对SDM方法进行了改进:1)初始值的确定不是简单地用平均形状,而是通过一个Global SAN(stacked auto-encoder network,堆叠式自编码网络)直接预测得到;2)采用由粗到精多个SAN进行非线性回归。由于使用了堆叠式自编码深度网络,其关键点定位精度要高于原始的采用线性回归的SDM算法。该方法所用特征和原始的SDM一致,也是SIFT特征,回归量也是关键点x、y坐标偏移量。该方法主要是用非线性的堆叠式自编码深度网络替换原先的线性回归矩阵,同时改进了初始化方法。CFAN算法所生成的模型文件很大,通常在200M以上,运行时间也比原始的SDM多。
“Project-Out Cascaded Regression with an application to FaceAlignment”,CVPR2015,所提出的POCR(Project-Out Cascaded Regression,子空间投影级联回归)方法可以看做是AAM和SDM两大类算法的融合。POCR首先需要学习统计形状模型和统计纹理模型,然后在纹理模型的切空间学习雅克比矩阵,进而计算海森矩阵以及最后的最速下降方向。这里所用的纹理和SDM类似,也是在关键点周围一定大小的patch上提取SIFT特征。在线测试时,和SDM类似,也是先在各关键点位置周围提取SIFT特征,然后利用离线学习好的最速下降方向计算统计形状模型系数的偏移量。该方法和SDM不同的是其回归的是统计形状模型的系数,而不是各关键点x、y坐标的偏移量。另外,采用了AAM中的统计纹理模型,在纹理模型切空间进行雅克比矩阵的学习。然而,由于人脸姿态、光照等因素的影响,纹理误差最小的时候并不一定就对应最佳匹配位置。
发明内容
本申请提供了一种关键点定位方法和装置,以快速准确地定位出图像中的关键点位置。
本申请公开了一种关键点定位方法,包括:
提取待检测图像的非线性特征;
根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;
根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置。
较佳的,该方法还包括:每次对形状系数进行迭代更新之后,将本次迭代更新得到的中间形状与平均形状进行对齐,得到全局相似性变换矩阵;
根据所述全局相似性变换矩阵,对所述中间形状和所述待检测图像进行全局相似性变换。
较佳的,将本次迭代更新得到的中间形状与平均形状进行对齐,具体包括:
采用多分辨率金字塔框架,将本次迭代更新得到的中间形状与平均形状进行对齐。
较佳的,采用多分辨率金字塔框架,将本次迭代更新得到的中间形状与平均形状进行对齐,具体包括:
先在第一分辨率的图像上进行关键点定位,收敛到设定阈值之后,将所述关键点定位的结果映射到第二分辨率的图像上继续进行关键点定位,其中,第一分辨率小于第二分辨率。
较佳的,进行对齐之后,还包括:根据每次迭代后进行对齐所得到的全局相似性变换矩阵,将对齐后得到的关键点逆变换到所述待检测图像的坐标系内。
较佳的,第k次对形状系数进行迭代更新所用的全局相似性变换矩阵Ak通过以下目标函数得到:
较佳的,通过下述方式训练得到所述统计形状模型:
以标出关键点位置的图像作为训练样本,学习统计形状模型。
较佳的,通过下述方式训练得到所述回归因子矩阵:
确定训练样本的非线性特征;
根据训练样本的最优形状系数更新量与所述非线性特征,确定回归因子矩阵。
较佳的,所述非线性特征包括非线性纹理特征;
确定训练样本的非线性特征,具体包括:
从训练样本中学习平均纹理特征;
根据从训练样本中提取的非线性纹理特征与所述平均纹理特征,确定所述训练样本的非线性纹理特征。
较佳的,将从训练样本中提取的非线性纹理特征与所述平均纹理特征的差值,确认为所述训练样本的非线性纹理特征。
较佳的,所述非线性特征包括非线性纹理特征;
确定训练样本的非线性特征,具体包括:
从训练样本中学习统计纹理模型;
将从训练样本中提取的非线性纹理特征投影到所述统计纹理模型切空间后输出的结果,确认为所述训练样本的非线性纹理特征。
较佳的,所述非线性纹理特征包括一种非线性纹理特征或至少两种非线性纹理特征的组合;
在不同的迭代阶段使用相同或不同的非线性纹理特征或至少两种非线性纹理特征的组合。
较佳的,所述非线性特征包括形状系数。
较佳的,根据训练样本的最优形状系数更新量与所述非线性特征,确定回归因子矩阵,具体包括:
通过最小化最优形状系数更新量与根据所述非线性特征计算得到的形状系数更新量之间的误差,确定回归因子矩阵。
较佳的,第k次对形状系数进行迭代更新所用的回归因子矩阵Rk通过以下目标函数得到:
本申请还公开了一种关键点定位装置,包括:
特征提取模块,用于提取待检测图像的非线性特征;
迭代更新模块,用于根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;
关键点定位模块,用于根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置。
较佳的,所述装置还包括:
训练模块,用于以标出关键点位置的图像作为训练样本,学习统计形状模型;确定训练样本的非线性特征,根据训练样本的最优形状系数更新量与所述非线性特征,确定回归因子矩阵。
由上述技术方案可见,本申请提供的关键点定位方法和装置,通过提取待检测图像的非线性特征,并根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新,最后根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置,从而为后续的处理提供依据。
由于本申请所提供的技术方案是根据形状系数与统计形状模型来检测待检测图像的关键点位置,与现有关键点定位方法相比,所训练的统计形状模型可以仅用较少的形状参数来表达对应的形状,这相当于对待检测的形状进行了降维,通过较少的参数对原本复杂的模型进行精简描述。如此,关键点定位问题就转化为求解最优的形状参数问题。相比之下,本申请模型文件的大小比现有关键点定位方法得以大大降低,速度也得以提高,同时保持定位精度没有降低。
此外,本发明的应用范围非常广泛,可以用于人脸关键点定位,进而实现各种人脸相关的应用,包括人脸识别、人脸表情识别、人脸表情迁移、虚拟美颜、表情互动等,也可以应用于其他动物脸部的关键点定位、动物身体部位的关键点定位、B超图像的关键点定位等等。
附图说明
图1为本发明一较佳实施例中关键点定位装置的组成示意图;
图2a为本发明人脸关键点定位方法的总体流程示意图;
图2b为本发明人脸关键点定位方法的核心步骤示意图;
图3为本发明一个统计形状模型的示例;
图4a为本发明一示例中的初始形状;
图4b为图4a所示初始形状进行第一次迭代后的形状;
图5为本发明增加中间结果重对齐的人脸对齐算法流程示意图;
图6a为在iBUG公开数据库上测试得到的没有中间结果重对齐的累积误差分布示意图;
图6b为在iBUG公开数据库上测试得到的有中间结果重对齐的累积误差分布示意图;
图6c为有无中间结果重对齐的算法精度平均误差比较结果;
图7a为本发明一示例中多分辨率SMCR算法示意图;
图7b为图7a所示示例的多分辨率SMCR算法的平均归一化误差比较结果;
图8为本发明包含中间结果重对齐的多分辨率SMCR算法的简要流程示意图;
图9为本发明在LFPW公开数据库上的一些人脸对齐结果。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请作进一步详细说明。
随着科技的发展,现在的移动设备,尤其是手机、平板电脑等都配有前置摄像头。通过前置摄像头进行人脸关键点定位从硬件上来说是十分便利的。同时现在的手机、平板电脑都具有很强大的计算能力,这为复杂的图像处理算法提供了硬件基础。
如背景技术所述,现有的比较好的算法比如SDM、CFAN、POCR等相比以前的算法有了很大的提高。但是,这些算法如果用到移动平台下,尤其是手机上,还需要解决以下几个问题:
(1)模型文件太大。在68个关键点配置下,SDM、CFAN算法所需的模型大小分别是35M和275M;而在手机应用里,我们通常要求模型文件在10M以内,越小越好。
(2)速度有待提高。CFAN算法由于使用了深度网络,虽然在一定程度上提高了精度,但同时也降低了运行速度。SDM算法的运行时间主要由两部分构成:一是在每个关键点周围提取SIFT特征,二是利用提取的SIFT特征计算每个关键点x、y坐标偏移量。这两部分时间都是和关键点数量直接相关的。
(3)精度和速度的平衡。如何在保证较高精度的情况下提高速度,这是很多视觉算法追求的一个目标。CFAN虽然提高了精度,但损失了速度。POCR算法理论上能提高速度,但不易收敛。
本发明针对移动平台,提出一种模型文件小、精度高、速度快的关键点定位算法。其基本思路是先离线训练一个统计形状模型,然后提取待检测图像的非线性特征,并根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新,最后根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置。由于本方案是预先训练统计形状模型,因此可以根据需要训练不同形状的模型,然后检测对应形状的关键点,因此,本申请提供的技术方案不限于检测人脸关键点,还可以检测其他形状的关键点,包括:动物脸部的关键点定位、动物身体部位的关键点定位、B超图像的关键点定位等等。在本申请具体实施方式的描述中,仅以人脸关键点定位为例进行说明。
以人脸关键点为例,所训练的统计形状模型可以仅用十个左右的形状参数来表达几乎所有正常人脸的形状。这相当于对人脸形状进行了降维,通过较少的参数对原本复杂的模型进行精简描述。如此,人脸关键点定位问题就转化为求解最优的形状参数问题。通过提取非线性特征用线性回归的方式对形状参数进行迭代更新,从而得到最优的形状参数,然后再根据离线训练得到的统计形状模型就可计算得出每个关键点的位置。在这个过程中,回归因子矩阵的行数等于统计形状模型参数数目,与关键点数量无关,并且通常统计形状模型参数数目在15个以下,而关键点数目目前常用的是68个点,x、y偏移量就是136个。相比之下,本发明的回归因子矩阵行数不到传统SDM算法的九分之一。如此一来,模型文件的大小降低了很多,速度也得以提高,同时保持定位精度没有降低。
图1为本发明一较佳实施例中关键点定位装置的组成示意图。如图1所示,该系统包括:特征提取模块,迭代更新模块和关键点定位模块,可选的,还可以包括训练模块、存储单元和图像采集模块,在图中以虚线示出。其中:
特征提取模块,用于提取待检测图像的非线性特征;
迭代更新模块,用于根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;
关键点定位模块,用于根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置;
训练模块,用于以标出关键点位置的图像作为训练样本,学习统计形状模型;确定训练样本的非线性特征,根据训练样本的最优形状系数更新量与所述非线性特征,确定回归因子矩阵;
存储单元用于存储训练得到的统计形状模型以及其他必要信息;
图像采集模块用于采集包含视频和/或图像。
与图1所示装置对应的,本申请提供了一种关键点定位方法,包括:
提取待检测图像的非线性特征;
根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;
根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的关键点位置。
图2a所示为本发明人脸关键点定位方法的总体流程示意图,包含离线训练部分和在线定位部分。其中,离线训练部分包含以下步骤:
步骤1:输入标记出关键点位置的人脸图像;
步骤2:以所述标记出关键点位置的人脸图像作为训练样本,训练统计形状模型;
步骤3:以所述标记出关键点位置的人脸图像作为训练样本,训练统计纹理模型,该步骤是可选的;
步骤4:通过对初始形状位置进行随机扰动为每个样本生成至少两个初始值,以增加训练样本;
步骤5:判断是否是第一次迭代,如果是第一次迭代,直接在当前关键点周围提取非线性特征,并转到步骤6;否则,将上次更新后的中间形状和平均形状对齐,同时把图像做相应的仿射变换,然后在当前关键点周围提取非线性特征;
步骤6:计算当前形状相对于真实形状的统计形状模型系数更新量;
步骤7:根据形状模型系数更新量和非线性特征计算出线性形状系数回归因子矩阵;
步骤8:根据上一步得到的线性形状系数回归因子矩阵及非线性特征计算形状系数更新量,用此更新量更新形状系数,进而更新当前形状;
循环步骤5到步骤8,直到收敛或循环指定次数后终止;输出回归因子矩阵、形状模型、平均纹理等。
图2a中的在线定位部分主要包含以下步骤:
步骤1:输入一幅包含人脸的图像、人脸包围框以及离线模型;
步骤2:将人脸图像区域从原始图像中抠出并缩放到预定大小,根据人脸包围框初始化人脸形状;
步骤3:判断是否是第一次迭代,如果是第一次迭代,直接在当前关键点周围提取非线性特征,并转到步骤4;否则,将上次更新后的中间形状和平均形状对齐,同时把图像做相应的仿射变换,然后在当前关键点周围提取非线性特征;
步骤4:根据离线训练得到的线性形状系数回归因子矩阵及非线性特征计算形状系数更新量,用此形状系数更新量更新形状系数,进而更新当前形状;
循环步骤3到步骤4,循环指定次数后终止;将当前形状变换到原始输入图像坐标系中,得到最终的人脸关键点位置。
图2b为本发明人脸关键点定位方法的核心步骤示意图,同样包含离线训练部分和在线定位部分。其中,离线训练部分包含以下步骤:
步骤1:按照下式学习统计形状模型:
其中,s0为平均形状,pi是局部形状系数,si为基向量。
步骤2:通过最小化下式学习:
步骤3:按照下式更新形状系数:
步骤4:重复步骤2~3,直至收敛或循环次数达到指定次数后终止。
图2b所示的在线对齐部分包含以下步骤:
步骤1:从原始图像中抠出人脸区域并初始化人脸形状。例如:步骤1中位于左侧的图为原始图像,位于右侧的图为初始化后的人脸形状。
步骤2:按照下式更新形状系数直至收敛:
pk+1=pk+Rk*h(I(s(pk)))
步骤3:按照下式合成人脸形状并反变换到输入图像坐标系中,最后得到图2b右下角所示结果:
s(p)=s0+Sp
sfinal=A-1·s(p)
以上介绍了算法的总体流程和核心步骤,下面对其中的一些细节进行描述。
一、训练统计形状模型
对于正常的人脸形状,在去除了旋转、缩放、平移这些全局的相似性变换因素之后,人脸形状的变换实际上是有限的,主要的变化模式并不是很多,也就是说如果直接用所有关键点的x、y坐标来表示人脸形状存在很大的冗余。本发明提出:采用更加紧凑的方式表示人脸形状,也就是说只需要更少的参数就可以表示各种人脸形状。这就是本发明为什么要训练统计形状模型的原因。
为了训练一个紧凑的统计形状模型,需要先对输入的人脸形状进行归一化处理,也就是普式分析(Procrustes Analysis),以去除旋转、缩放等全局相似性变换的影响,具体实施步骤可参考相关文献:T.F.Cootes and C.J.Taylor,Statistical Models ofAppearance for Computer Vision,2004。
进行归一化处理后,再通过主成分分析(PCA)就可以得到平均形状s0和一组基向量si;同时为了实现全局相似性变换,需要额外添加4个基向量通过在平均形状上叠加不同权值的基向量,就可以生成一个特定的人脸形状,并且可以添加全局相似性变换,这些操作可以用以下公式表示:
其中,pi是局部形状系数,qi是全局相似性变换系数,N(.)表示对某一点(x,y)做全局相似性变换:
特别地,对于平均形状做全局相似性变换,可以写成如下形式:
图3是本发明一个统计形状模型的示例。其中,从左侧开始的第一个图显示的是经过归一化之后若干人脸形状叠加在一起的图像,从中可以看出这些点的分布接近于高斯分布。从左侧开始的第二个图,即s0所对应的图是平均形状,随后的三个图是将前三个基向量分别叠加到平均形状上进行显示的图像(图中带箭头的小线段代表基向量)。容易看出,第一个基向量描述了人脸左右转动时形状的变化,第二个基向量描述的是人脸上下俯仰运动时的形状变化,第三个基向量则描述了胖脸与瘦脸之间的人脸形状差异。图3所示示例仅用于举例说明基向量可能描述的信息,在实际应用中,基向量所能描述的信息不限于上述举例。
在给定一个人脸形状时,可以通过以下公式求得局部形状系数和全局相似性变换系数:
其中,N(s+;q)-1表示对给定形状做全局相似性变换的逆变换,类似于形状归一化操作。
二、基于统计形状模型系数回归的人脸对齐方法
基于统计形状模型系数回归的人脸对齐方法,其基本思路是先在当前各个关键点周围提取非线性特征,然后将这些特征组装到一个向量里,然后利用这些非线性特征回归出统计形状模型系数更新量:
pk+1=pk+Rkφk
其中,pk是当前形状(第k次迭代后的形状)对应的形状系数,φk是在当前形状下提取的非线性特征,Rk是第k次迭代所用的回归因子。这里为了描述方便,将局部形状系数和全局相似性变换系数合在一起记作pk。
为了使上述方法能够正确工作,我们需要通过数据学习得到每次迭代所用的回归因子Rk。在本发明中,Rk可以通过最小化以下目标函数得到:
除了这里提到的目标函数和求解公式外,还可以使用其他的目标函数和求解公式,比如采用岭回归代替线性回归,把非线性特征投影到纹理模型切空间等。具体的方法详见表1。
表1:SMCR算法的目标函数和求解公式
各符号含义:
基于同一个代码框架,我们也可以和SDM算法做一个对比,结果如表2所示。从对比结果看,SMCR算法在LFPW和iBUG两个数据库上的精度都比SDM算法要高。
表2:SMCR和SDM算法比较
三、中间结果的重对齐
在实际训练和测试中发现,通过最初1~2次的迭代,所得到的形状就已经很逼近真实形状了,如图4a和图4b所示,其中,图4a为初始形状,图4b为第一次迭代后的形状。如果输入图像上的人脸是有一定面内旋转的,那么即使当前形状已经探测出该面内旋转,而在后续迭代提取非线性特征时并没能把人脸图像转正,这将导致提取的非线性特征是包含了这种旋转信息的。然而,该旋转信息对于后续形状系数的回归并没有用处,反而会因此带来一些不必要的噪声。
基于上述观察,本发明在每次迭代之后,将当前形状和平均人脸形状进行对齐,其方法是找到一个全局相似性变换矩阵Ak,最小化如下目标函数:
其中,是第k次迭代后第i个样本的形状。得到全局相似性变换矩阵后,对当前形状和图像做全局相似性变换,然后在此基础上做下一轮的迭代。这样做的好处是可以消除旋转和缩放带来的不利影响,使提取的非线性特征能更好地反应关键点位置偏移。增加了中间结果重对齐的人脸对齐算法流程示意图如图5所示。
图6a为在iBUG公开数据库上测试得到的没有中间结果重对齐的累积误差分布示意图以及和CFAN算法的比较;图6b为在iBUG公开数据库上测试得到的有中间结果重对齐的累积误差分布示意图以及和CFAN算法的比较:图6c为分别在LFPW和iBUG两个公开数据库上比较有无中间结果重对齐的算法精度平均误差。从图6a、6b和6c中可以清楚地看出,增加中间结果重对齐之后的算法精度有明显的提高。
四、多分辨率扩展
为了平衡精度与速度,多分辨率框架是很多视觉算法常用的手段。在本发明涉及的人脸对齐算法中,同样可以采用多分辨率框架。其基本思路是先在一个分辨率较低的图像上进行人脸关键点定位,基本收敛之后,将其结果映射到高分辨率图像上继续迭代精定位。如图7a所示。
简单来看,采用多分辨率框架之后,迭代次数变多了。但这和简单地在单一分辨率图像上做对齐时增加迭代次数的效果不同。如图7b所示,假如同样是迭代6次,采用多分辨率框架时的误差明显比单一分辨率时的误差要小。
最后,图8展示了包含中间结果重对齐的多分辨率SMCR算法的简要流程示意图。图9展示了在LFPW公开数据库上的一些人脸对齐结果,从这些结果看,本发明的算法能够有效地克服光照、姿态、局部遮挡等不利因素进行精确关键点定位。
本发明提出的基于统计形状模型系数回归的人脸对齐算法可以准确快速地定位人脸关键点。所产生的模型文件大小不到4M,非常适合在移动平台上运行。模型文件变小的另一个好处是,计算形状系数更新量时的运算量(矩阵乘法运算)也相应地减少到原先的1/9。通过中间结果重对齐和多分辨率框架,进一步提高了算法的精度。
另外,本发明还提出在迭代过程中,让中间形状和平均形状进行对齐,这样有效减少了旋转干扰,让SIFT特征集中解决由于关键点偏移导致的纹理变化而不是由于旋转或缩放导致的纹理变化,提高了回归的效率和准确度。为进一步提高进度,多分辨率金字塔框架也可以引入到本发明的算法中。
本发明的应用范围非常广泛,包括人脸识别、人脸表情识别、人脸表情迁移、虚拟美颜、表情互动等。本发明采用图像视觉的方法,可以快速准确地定位出图片中人脸关键点位置信息,为后续的处理提供依据。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (30)
1.一种特征点定位方法,其特征在于,包括:
提取待检测图像的非线性特征;
根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;
根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的特征点位置;
其中,所述回归因子矩阵
根据训练样本的最优形状系数更新量与所述训练样本的非线性特征确定。
2.如权利要求1所述的方法,其特征在于:
该方法还包括:每次对形状系数进行迭代更新之后,将本次迭代更新得到的中间形状与平均形状进行对齐,得到全局相似性变换矩阵;
根据所述全局相似性变换矩阵,对所述中间形状和所述待检测图像进行全局相似性变换。
3.如权利要求2所述的方法,其特征在于:
将本次迭代更新得到的中间形状与平均形状进行对齐,具体包括:
采用多分辨率金字塔框架,将本次迭代更新得到的中间形状与平均形状进行对齐。
4.根据权利要求3所述的方法,其特征在于:
采用多分辨率金字塔框架,将本次迭代更新得到的中间形状与平均形状进行对齐,具体包括:
先在第一分辨率的图像上进行特征点定位,收敛到设定阈值之后,将所述特征点定位的结果映射到第二分辨率的图像上继续进行特征点定位,其中,第一分辨率小于第二分辨率。
5.根据权利要求4所述的方法,其特征在于:
进行对齐之后,还包括:根据每次迭代后进行对齐所得到的全局相似性变换矩阵,将对齐后得到的特征点逆变换到所述待检测图像的坐标系内。
7.如权利要求1至5任一项所述的方法,其特征在于:
通过下述方式训练得到所述统计形状模型:
以标出特征点位置的图像作为训练样本,学习统计形状模型。
8.如权利要求1所述的方法,其特征在于:
所述非线性特征包括非线性纹理特征;
训练样本的非线性特征通过以下方式确定:
从训练样本中学习平均纹理特征;
根据从训练样本中提取的非线性纹理特征与所述平均纹理特征,确定所述训练样本的非线性纹理特征。
9.如权利要求8所述的方法,其特征在于:将从训练样本中提取的非线性纹理特征与所述平均纹理特征的差值,确认为所述训练样本的非线性纹理特征。
10.如权利要求1所述的方法,其特征在于:
所述非线性特征包括非线性纹理特征;
训练样本的非线性特征通过以下方式确定:
从训练样本中学习统计纹理模型;
将从训练样本中提取的非线性纹理特征投影到所述统计纹理模型切空间后输出的结果,确认为所述训练样本的非线性纹理特征。
11.如权利要求8至10任一项所述的方法,其特征在于:
所述非线性纹理特征包括一种非线性纹理特征或至少两种非线性纹理特征的组合;
在不同的迭代阶段使用相同或不同的非线性纹理特征或至少两种非线性纹理特征的组合。
12.如权利要求11所述的方法,其特征在于:
pk+1=pk+Rkφk
其中,pk是当前形状(第k次迭代后的形状)对应的形状系数,φk是在当前形状下提取的非线性特征,Rk是第k次迭代所用的回归因子。
13.如权利要求12所述的方法,其特征在于:
回归因子矩阵通过最小化最优形状系数更新量与根据所述非线性特征计算得到的形状系数更新量之间的误差确定。
16.一种特征点定位装置,其特征在于,包括:
特征提取模块,用于提取待检测图像的非线性特征;
迭代更新模块,用于根据训练得到的回归因子矩阵与所述非线性特征,对形状系数进行迭代更新;
特征点定位模块,用于根据更新后的形状系数与训练得到的统计形状模型,检测所述待检测图像的特征点位置;
其中,所述回归因子矩阵
根据训练样本的最优形状系数更新量与所述训练样本的非线性特征确定。
17.根据权利要求16所述的装置,其特征在于,所述统计形状模型以标出特征点位置的图像作为训练样本学习得到。
18.如权利要求16所述的装置,其特征在于:
所述迭代更新模块,还用于:每次对形状系数进行迭代更新之后,将本次迭代更新得到的中间形状与平均形状进行对齐,得到全局相似性变换矩阵;
根据所述全局相似性变换矩阵,对所述中间形状和所述待检测图像进行全局相似性变换。
19.如权利要求18所述的装置,其特征在于:
所述迭代更新模块,将本次迭代更新得到的中间形状与平均形状进行对齐,具体用于:
采用多分辨率金字塔框架,将本次迭代更新得到的中间形状与平均形状进行对齐。
20.根据权利要求19所述的装置,其特征在于:
所述迭代更新模块,采用多分辨率金字塔框架,将本次迭代更新得到的中间形状与平均形状进行对齐,具体用于:
先在第一分辨率的图像上进行特征点定位,收敛到设定阈值之后,将所述特征点定位的结果映射到第二分辨率的图像上继续进行特征点定位,其中,第一分辨率小于第二分辨率。
21.根据权利要求20所述的装置,其特征在于:
所述迭代更新模块,进行对齐之后,还用于:根据每次迭代后进行对齐所得到的全局相似性变换矩阵,将对齐后得到的特征点逆变换到所述待检测图像的坐标系内。
23.如权利要求 16所述的装置,其特征在于:
所述非线性特征包括非线性纹理特征;
训练样本的非线性特征通过以下方式确定:
从训练样本中学习平均纹理特征;
根据从训练样本中提取的非线性纹理特征与所述平均纹理特征,确定所述训练样本的非线性纹理特征。
24.如权利要求23所述的装置,其特征在于:训练样本的非线性纹理特征为从训练样本中提取的非线性纹理特征与所述平均纹理特征的差值。
25.如权利要求16所述的装置,其特征在于:
所述非线性特征包括非线性纹理特征;
训练样本的非线性特征通过以下方式确定:从训练样本中学习统计纹理模型;
将从训练样本中提取的非线性纹理特征投影到所述统计纹理模型切空间后输出的结果,确认为所述训练样本的非线性纹理特征。
26.如权利要求23至25任一项所述的装置,其特征在于:
所述非线性纹理特征包括一种非线性纹理特征或至少两种非线性纹理特征的组合;
在不同的迭代阶段使用相同或不同的非线性纹理特征或至少两种非线性纹理特征的组合。
27.如权利要求26所述的装置,其特征在于:
pk+1=pk+Rkφk
其中,pk是当前形状(第k次迭代后的形状)对应的形状系数,φk是在当前形状下提取的非线性特征,Rk是第k次迭代所用的回归因子。
28.如权利要求27所述的装置,其特征在于:
回归因子矩阵通过最小化最优形状系数更新量与根据所述非线性特征计算得到的形状系数更新量之间的误差确定。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610053455.9A CN107016319B (zh) | 2016-01-27 | 2016-01-27 | 一种特征点定位方法和装置 |
KR1020160128386A KR102667737B1 (ko) | 2016-01-27 | 2016-10-05 | 특징점 포지셔닝 방법 및 장치 |
US15/416,271 US10096132B2 (en) | 2016-01-27 | 2017-01-26 | Method and apparatus for positioning feature point |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610053455.9A CN107016319B (zh) | 2016-01-27 | 2016-01-27 | 一种特征点定位方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107016319A CN107016319A (zh) | 2017-08-04 |
CN107016319B true CN107016319B (zh) | 2021-03-05 |
Family
ID=59438919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610053455.9A Active CN107016319B (zh) | 2016-01-27 | 2016-01-27 | 一种特征点定位方法和装置 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102667737B1 (zh) |
CN (1) | CN107016319B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784353B (zh) * | 2017-11-14 | 2024-09-24 | 北京三星通信技术研究有限公司 | 一种处理器实现的方法、设备和存储介质 |
CN108460335B (zh) * | 2018-01-26 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 视频细粒度识别方法、装置、计算机设备及存储介质 |
CN108062545B (zh) * | 2018-01-30 | 2020-08-28 | 北京搜狐新媒体信息技术有限公司 | 一种人脸对齐的方法及装置 |
CN109063584B (zh) * | 2018-07-11 | 2022-02-22 | 深圳大学 | 基于级联回归的面部特征点定位方法、装置、设备及介质 |
CN109241910B (zh) * | 2018-09-07 | 2021-01-01 | 高新兴科技集团股份有限公司 | 一种基于深度多特征融合级联回归的人脸关键点定位方法 |
CN109800635A (zh) * | 2018-12-11 | 2019-05-24 | 天津大学 | 一种基于光流法的受限局部人脸关键点检测与跟踪方法 |
CN110458887B (zh) * | 2019-07-15 | 2022-12-06 | 天津大学 | 一种基于pca的加权融合室内定位方法 |
CN112528978B (zh) * | 2021-02-10 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 人脸关键点的检测方法、装置、电子设备及存储介质 |
CN113033524B (zh) * | 2021-05-26 | 2021-08-17 | 北京的卢深视科技有限公司 | 遮挡预测模型训练方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1702693A (zh) * | 2004-05-28 | 2005-11-30 | 株式会社东芝 | 图像提供方法和设备 |
CN101499132A (zh) * | 2009-03-12 | 2009-08-05 | 广东药学院 | 一种人脸图像中特征点提取的三维变换搜索方法 |
CN101819628A (zh) * | 2010-04-02 | 2010-09-01 | 清华大学 | 结合形状特征的稀疏表示人脸识别方法 |
CN102999942A (zh) * | 2012-12-13 | 2013-03-27 | 清华大学 | 三维人脸重建方法 |
CN103824050A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联回归的人脸关键点定位方法 |
CN104598936A (zh) * | 2015-02-28 | 2015-05-06 | 北京畅景立达软件技术有限公司 | 人脸图像面部关键点的定位方法 |
CN105260703A (zh) * | 2015-09-15 | 2016-01-20 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员抽烟行为检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0607143D0 (en) * | 2006-04-08 | 2006-05-17 | Univ Manchester | Method of locating features of an object |
US9361510B2 (en) * | 2013-12-13 | 2016-06-07 | Intel Corporation | Efficient facial landmark tracking using online shape regression method |
-
2016
- 2016-01-27 CN CN201610053455.9A patent/CN107016319B/zh active Active
- 2016-10-05 KR KR1020160128386A patent/KR102667737B1/ko active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1702693A (zh) * | 2004-05-28 | 2005-11-30 | 株式会社东芝 | 图像提供方法和设备 |
CN101499132A (zh) * | 2009-03-12 | 2009-08-05 | 广东药学院 | 一种人脸图像中特征点提取的三维变换搜索方法 |
CN101819628A (zh) * | 2010-04-02 | 2010-09-01 | 清华大学 | 结合形状特征的稀疏表示人脸识别方法 |
CN102999942A (zh) * | 2012-12-13 | 2013-03-27 | 清华大学 | 三维人脸重建方法 |
CN103824050A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联回归的人脸关键点定位方法 |
CN104598936A (zh) * | 2015-02-28 | 2015-05-06 | 北京畅景立达软件技术有限公司 | 人脸图像面部关键点的定位方法 |
CN105260703A (zh) * | 2015-09-15 | 2016-01-20 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员抽烟行为检测方法 |
Non-Patent Citations (2)
Title |
---|
《人脸检测以及脸部特征点定位方法的研究》;刘水生;《中国优秀硕士学位论文全文数据库信息科技辑》;20150415(第04期);第I138-1101页; * |
《基于CPR和CLM的多视角人脸特征点定位方法》;石正权 等;;《计算机技术与发展》;20151130;第25卷(第11期);第1-5页; * |
Also Published As
Publication number | Publication date |
---|---|
CN107016319A (zh) | 2017-08-04 |
KR102667737B1 (ko) | 2024-05-22 |
KR20170089745A (ko) | 2017-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016319B (zh) | 一种特征点定位方法和装置 | |
Antonakos et al. | Feature-based lucas–kanade and active appearance models | |
CN109903313B (zh) | 一种基于目标三维模型的实时位姿跟踪方法 | |
EP2081133B1 (en) | System and method for deformable object recognition | |
Bronstein et al. | Expression-invariant representations of faces | |
Cristinacce et al. | Feature detection and tracking with constrained local models. | |
KR101304374B1 (ko) | 객체 특징을 위치결정하는 방법 | |
Rosten et al. | Fusing points and lines for high performance tracking | |
Raytchev et al. | Head pose estimation by nonlinear manifold learning | |
Vemulapalli et al. | R3DG features: Relative 3D geometry-based skeletal representations for human action recognition | |
US20150302240A1 (en) | Method and device for locating feature points on human face and storage medium | |
JP4321350B2 (ja) | パラメタ推定方法、パラメタ推定装置および照合方法 | |
Xiong et al. | Supervised descent method for solving nonlinear least squares problems in computer vision | |
EP1496466B1 (en) | Face shape recognition from stereo images | |
CN101964064A (zh) | 一种人脸比对方法 | |
CN112562081B (zh) | 一种用于视觉分层定位的视觉地图构建方法 | |
JP4709668B2 (ja) | 3次元物体認識システム | |
CN102654903A (zh) | 一种人脸比对方法 | |
WO2007053469A2 (en) | Discriminative motion modeling for human motion tracking | |
CN109272577B (zh) | 一种基于Kinect的视觉SLAM方法 | |
CN112907569A (zh) | 头部图像区域的分割方法、装置、电子设备和存储介质 | |
Zhou et al. | Automatic landmark location with a combined active shape model | |
Wang et al. | Joint head pose and facial landmark regression from depth images | |
Pons-Moll et al. | Efficient and robust shape matching for model based human motion capture | |
Azad et al. | Accurate shape-based 6-dof pose estimation of single-colored objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |