CN110929642A - 一种基于二维特征点的人脸姿态实时估计方法 - Google Patents

一种基于二维特征点的人脸姿态实时估计方法 Download PDF

Info

Publication number
CN110929642A
CN110929642A CN201911146686.4A CN201911146686A CN110929642A CN 110929642 A CN110929642 A CN 110929642A CN 201911146686 A CN201911146686 A CN 201911146686A CN 110929642 A CN110929642 A CN 110929642A
Authority
CN
China
Prior art keywords
feature points
human face
pose
net
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911146686.4A
Other languages
English (en)
Inventor
姚海滨
张翔
朱凌
王姣
沈静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Polytechnic College Yangzhou Radio and TV University
Original Assignee
Yangzhou Polytechnic College Yangzhou Radio and TV University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Polytechnic College Yangzhou Radio and TV University filed Critical Yangzhou Polytechnic College Yangzhou Radio and TV University
Priority to CN201911146686.4A priority Critical patent/CN110929642A/zh
Publication of CN110929642A publication Critical patent/CN110929642A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于二维特征点的人脸姿态实时估计方法,包括两个步骤:构建算法模型和假设已知特征点。本发明,针对少量特征点求解人脸姿态不稳定的问题,提出了一种基于二维特征点的人脸姿态实时估计方法,该方法首先根据相机成像原理求解出3d点重投影坐标,并根据投影点坐标与观测点坐标关系构建关于重投影误差的最小二乘问题,再结合李代数相关知识求解出最小二乘方程的雅克比矩阵,利用高斯牛顿法在梯度方向上迭代求解最小重投影误差,最终求解出人脸姿态角度,且经过实验证明,本发明中构建的算法模型在不同噪声和不同特征点对数量的情况下均具有较高的稳定性,在人脸识别前的合规判断中有重要的应用意义。

Description

一种基于二维特征点的人脸姿态实时估计方法
技术领域
本发明涉及人脸识别技术领域,更具体地说,它涉及一种基于二维特征点的人脸姿态实时估计方法。
背景技术
“人脸识别”是指在视频或图像信息中确定人脸身份的过程。人脸识别包含了人脸检测与特征比对两部分,而人脸检测是指在图像信息中确定人脸位置、大小、姿态等信息,其作为其中的关键技术,近年来已成为模式识别、人脸信息处理领域的热点问题。
人脸检测对图片质量有较高的要求,曝光、人脸大小、模糊、姿态等因素都会对后续的特征比对产生影响,因此在特征比对前需要进行合规判断,曝光、大小、模糊这些信息通过传统的图像处理知识能方便求解出,而由于单张图像的深度信息缺失,人脸姿态的求解难度较大,而人脸识别需要保证人脸角度在合理范围,因此人脸姿态的求解尤为重要。人脸姿态的求解需要提取人脸的相关特征点,目前人脸检测性能较高的主要是mtcnnl2,cascadB等级联式神经网络,人脸特征点越多对于姿态求解越有利,而人脸特征点过多会导致网络结构的复杂化,而检测时间也会受到影响,因此我们需要在少量的特征点情况下寻求一种稳定的姿态求解算法。
现有文献(1)Ramanan D, Zhu X. Face detection, pose estimation,andlandmark localization in the wild[C]//Proceedings of the 2012 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). 2012: 2879-2886和(2)Fanelli G, Gall J, Van Gool L. Real time head pose estimation with randomregression forests[C]//CVPR 2011. IEEE, 2011: 617-624均提出了一种基于深度学习的方法,即采集大量数据,并标注对应人脸角度,利用神经网络推算出人脸姿态,该类方法需要大量人力采集标注数据,并且当人脸在某个自由度上旋转时能有较好效果,当人脸在多个自由度旋转时效果较差,且文献(2)需要结合深度传感器,实施较困难;而传统的Pnp方法在已知一定数量3维点和2维投影点对时能够求解出相对姿态信息,一般特征点较少时该类方法稳定性较差。
为此,提出一种基于二维特征点的人脸姿态实时估计方法。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于二维特征点的人脸姿态实时估计方法,其根据相机成像原理求解出3d点重投影坐标,并根据投影点坐标与观测点坐标关系构建关于重投影误差的最小二乘问题,再结合李代数相关知识求解出最小二乘方程的雅克比矩阵,利用高斯牛顿法在梯度方向上迭代求解最小重投影误差,最终求解出人脸姿态角度,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供了如下技术方案:
一种基于二维特征点的人脸姿态实时估计方法,包括如下步骤:
步骤一、构建算法模型:
所述算法模型法由三个网络结构组成,三个所述网络结构分别为P-Net和R-Net以及O-Net;
所述P-Net用于获取人脸区域的候选窗口和边界框的回归向量,并用该边界框做回归,对候选窗口进行校准,然后通过非极大值抑制NMS来合并高度重叠的候选框;
所述R-Net用于通过边界框回归和非极大值抑制NMS来去掉 false-positive 区域;
所述O-Net用于对人脸区域进行更多的监督,同时用于输出五个特征点;
步骤二:假设已知特征点:
假设已知特征点三维坐标和图像中特征点的二维坐标,根据相机已标定的内参,根据估计位姿RT来估算特征点重投影误差;
考虑n个人脸特征点P以及他们的投影 p,求解位姿 RT,将位姿表示为李代数形式ξ,特 征点三维坐标为
Figure RE-324056DEST_PATH_IMAGE001
,像素坐标为
Figure RE-942119DEST_PATH_IMAGE002
,根据相机成像原理,像素位姿和空间点 位置呈现如下关系:
Figure RE-415826DEST_PATH_IMAGE003
将上式表示为矩阵形式可得:
Figure RE-384919DEST_PATH_IMAGE004
由于噪声影响,重投影坐标与观测坐标存在误差,因此需要构建最小二乘问题,最小化重投影误差以寻找最优位姿:
Figure RE-71115DEST_PATH_IMAGE005
上述最小二乘问题采用高斯牛顿法或者LM方法求解,首先将误差线性展开:
Figure RE-996215DEST_PATH_IMAGE006
由于相机姿态为6个自由度,因此J是一个2x6的矩阵,下面求解J的解析形式,即相机坐 标系下人脸特征点坐标为
Figure RE-437560DEST_PATH_IMAGE007
Figure RE-690687DEST_PATH_IMAGE007
满足以下关系:
Figure RE-711733DEST_PATH_IMAGE008
根据相机投影模型:
Figure RE-304388DEST_PATH_IMAGE009
展开上式可得:
Figure RE-119897DEST_PATH_IMAGE010
消去上式中s可得:
Figure RE-798003DEST_PATH_IMAGE011
而根据链式法则,可知误差关于姿态的导数形式如下:
Figure RE-91582DEST_PATH_IMAGE012
其中
Figure RE-538743DEST_PATH_IMAGE013
为李代数上的左乘扰动,根据式(8),可得:
Figure RE-259575DEST_PATH_IMAGE014
取出前三维可得:
Figure RE-690556DEST_PATH_IMAGE015
将两式相乘可得:
Figure RE-787825DEST_PATH_IMAGE016
上述雅克比矩阵提供了优化过程中的梯度方向,后续利用高斯牛顿法完成姿态的求解:
Figure RE-620652DEST_PATH_IMAGE017
根据上式可求解
Figure RE-246805DEST_PATH_IMAGE018
,而迭代过程中
Figure RE-165083DEST_PATH_IMAGE018
小于阈值
Figure RE-66043DEST_PATH_IMAGE019
时,即求解完成。
综上所述,本发明主要具有以下有益效果:
本发明,针对少量特征点求解人脸姿态不稳定的问题,提出了一种基于二维特征点的人脸姿态实时估计方法,该方法首先根据相机成像原理求解出3d点重投影坐标,并根据投影点坐标与观测点坐标关系构建关于重投影误差的最小二乘问题,再结合李代数相关知识求解出最小二乘方程的雅克比矩阵,利用高斯牛顿法在梯度方向上迭代求解最小重投影误差,最终求解出人脸姿态角度,且经过实验证明,本发明中构建的算法模型在不同噪声和不同特征点对数量的情况下均具有较高的稳定性,在人脸识别前的合规判断中有重要的应用意义。
附图说明
图1为一种实施方式的基于二维特征点的人脸姿态实时估计方法的算法模型的示意图;
图2为一种实施方式的基于二维特征点的人脸姿态实时估计方法的重投影误差的示意图;
图3为一种实施方式的基于二维特征点的人脸姿态实时估计方法的仿真结果图;
图4为一种实施方式的基于二维特征点的人脸姿态实时估计方法的姿态求解结果图。
具体实施方式
以下结合附图1-4对本发明作进一步详细说明。
实施例
一种基于二维特征点的人脸姿态实时估计方法,如图1-2所示,包括如下步骤:
步骤一、构建算法模型:
所述算法模型法由三个网络结构组成,三个所述网络结构分别为P-Net和R-Net以及O-Net;
所述P-Net用于获取人脸区域的候选窗口和边界框的回归向量,并用该边界框做回归,对候选窗口进行校准,然后通过非极大值抑制NMS来合并高度重叠的候选框;
所述R-Net用于通过边界框回归和非极大值抑制NMS来去掉 false-positive 区域;
所述O-Net用于对人脸区域进行更多的监督,同时用于输出五个特征点;
步骤二:假设已知特征点:
假设已知特征点三维坐标和图像中特征点的二维坐标,根据相机已标定的内参,根据估计位姿RT来估算特征点重投影误差;
考虑n个人脸特征点P以及他们的投影 p,求解位姿 RT,将位姿表示为李代数形式ξ,特 征点三维坐标为
Figure RE-222218DEST_PATH_IMAGE001
,像素坐标为
Figure RE-284851DEST_PATH_IMAGE002
,根据相机成像原理,像素位姿和空间点 位置呈现如下关系:
Figure RE-159267DEST_PATH_IMAGE003
将上式表示为矩阵形式可得:
Figure RE-728831DEST_PATH_IMAGE004
由于噪声影响,重投影坐标与观测坐标存在误差,因此需要构建最小二乘问题,最小化重投影误差以寻找最优位姿:
Figure RE-536250DEST_PATH_IMAGE005
上述最小二乘问题采用高斯牛顿法或者LM方法求解,首先将误差线性展开:
Figure RE-566523DEST_PATH_IMAGE006
由于相机姿态为6个自由度,因此J是一个2x6的矩阵,下面求解J的解析形式,即相机坐 标系下人脸特征点坐标为
Figure RE-928234DEST_PATH_IMAGE007
Figure RE-170997DEST_PATH_IMAGE007
满足以下关系:
Figure RE-301764DEST_PATH_IMAGE008
根据相机投影模型:
Figure RE-706200DEST_PATH_IMAGE009
展开上式可得:
Figure RE-555208DEST_PATH_IMAGE010
消去上式中s可得:
Figure RE-70503DEST_PATH_IMAGE011
而根据链式法则,可知误差关于姿态的导数形式如下:
Figure RE-321356DEST_PATH_IMAGE012
其中
Figure RE-162273DEST_PATH_IMAGE013
为李代数上的左乘扰动,根据式(8),可得:
Figure RE-764155DEST_PATH_IMAGE014
取出前三维可得:
Figure RE-83141DEST_PATH_IMAGE015
将两式相乘可得:
Figure RE-454080DEST_PATH_IMAGE016
上述雅克比矩阵提供了优化过程中的梯度方向,后续利用高斯牛顿法完成姿态的求解:
Figure RE-465898DEST_PATH_IMAGE017
根据上式可求解
Figure RE-289497DEST_PATH_IMAGE018
,而迭代过程中
Figure RE-677753DEST_PATH_IMAGE018
小于阈值
Figure RE-903198DEST_PATH_IMAGE019
时,即求解完成。
本实施例中还提供了对本发明提出的一种基于二维特征点的人脸姿态实时估计方法的实验验证:针对不同噪声以及不同特征点对量下的姿态估计情况,包括了姿态估计时间以及准确率,分别进行了仿真实验和真实实验。
仿真实验
我们在仿真环境中设置虚拟相机焦距为800,而图像大小为
Figure RE-DEST_PATH_IMAGE020
,主点位置为 (320,240),在此环境下生成3D-2D点对,根据真实相机外参RT,可以求得旋转分量的误差:
Figure RE-351497DEST_PATH_IMAGE021
,
Figure RE-DEST_PATH_IMAGE022
为旋转矩阵对应的归一化四元数,同样,平移分量误差形式为
Figure RE-911660DEST_PATH_IMAGE023
。数据为仿真环境下人脸模型三维点与投影到成像平面的像素位 置,实验分别测试两种场景,一是在像素坐标添加不同高斯噪声,二是取不同匹配点数量, 分别用Epnp、LHM和DLT方法与本文算法NLO(nonlinear optimization)求取人脸姿态信息。 结果如图3所示,由于DLT方法是直接线性求解,其效果最差,Epnp与LHM效果相当,本发明所 述方法在15像素的高斯噪声以及取5个匹配点的情况下,旋转误差与平移误差均在10%以 内,而LHM和Epnp算法匹配点较多情况下误差与本文算法相近,但在匹配点较少的情况下误 差接近20%,远高于本发明所述方法。
人脸识别应用过程中特征点提取的数量越少,对网络复杂度要求越低,检测与识别速度也越快,本发明所述方法在提取5个特征点的情况下表现较好,能够满足人脸识别的实时性要求。
真实实验
本文也在真实场景对本文算法进行了测试,测试目标为摄像机下不同角度的人脸,如下图所示,图4为Steve Jobs在斯坦福大学演讲视频中多帧视频的姿态求解结果。在不同角度下本文算法具有较高的稳定性,可应用于人脸识别的合规性检测流程中,满足了识别工作的准确性与实时性要求。
综上所述:本发明,针对少量特征点求解人脸姿态不稳定的问题,提出了一种基于二维特征点的人脸姿态实时估计方法,该方法首先根据相机成像原理求解出3d点重投影坐标,并根据投影点坐标与观测点坐标关系构建关于重投影误差的最小二乘问题,再结合李代数相关知识求解出最小二乘方程的雅克比矩阵,利用高斯牛顿法在梯度方向上迭代求解最小重投影误差,最终求解出人脸姿态角度,且经过实验证明,本发明中构建的算法模型在不同噪声和不同特征点对数量的情况下均具有较高的稳定性,在人脸识别前的合规判断中有重要的应用意义。
本发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (1)

1.一种基于二维特征点的人脸姿态实时估计方法,其特征在于:包括如下步骤:
步骤一、构建算法模型:
所述算法模型法由三个网络结构组成,三个所述网络结构分别为P-Net和R-Net以及O-Net;
所述P-Net用于获取人脸区域的候选窗口和边界框的回归向量,并用该边界框做回归,对候选窗口进行校准,然后通过非极大值抑制NMS来合并高度重叠的候选框;
所述R-Net用于通过边界框回归和非极大值抑制NMS来去掉 false-positive 区域;
所述O-Net用于对人脸区域进行更多的监督,同时用于输出五个特征点;
步骤二:假设已知特征点:
假设已知特征点三维坐标和图像中特征点的二维坐标,根据相机已标定的内参,根据估计位姿RT来估算特征点重投影误差;
考虑n个人脸特征点P以及他们的投影 p,求解位姿 RT,将位姿表示为李代数形式ξ,特征点三维坐标为
Figure RE-DEST_PATH_IMAGE001
,像素坐标为
Figure RE-365304DEST_PATH_IMAGE002
,根据相机成像原理,像素位姿和空间点位置呈现如下关系:
Figure RE-DEST_PATH_IMAGE003
将上式表示为矩阵形式可得:
Figure RE-6501DEST_PATH_IMAGE004
由于噪声影响,重投影坐标与观测坐标存在误差,因此需要构建最小二乘问题,最小化重投影误差以寻找最优位姿:
Figure RE-DEST_PATH_IMAGE005
上述最小二乘问题采用高斯牛顿法或者LM方法求解,首先将误差线性展开:
Figure RE-895960DEST_PATH_IMAGE006
由于相机姿态为6个自由度,因此J是一个2x6的矩阵,下面求解J的解析形式,即相机坐标系下人脸特征点坐标为
Figure RE-DEST_PATH_IMAGE007
Figure RE-571792DEST_PATH_IMAGE007
满足以下关系:
Figure RE-419662DEST_PATH_IMAGE008
根据相机投影模型:
Figure RE-DEST_PATH_IMAGE009
展开上式可得:
Figure RE-813734DEST_PATH_IMAGE010
消去上式中s可得:
Figure RE-DEST_PATH_IMAGE011
而根据链式法则,可知误差关于姿态的导数形式如下:
Figure RE-241304DEST_PATH_IMAGE012
其中
Figure RE-DEST_PATH_IMAGE013
为李代数上的左乘扰动,根据式(8),可得:
Figure RE-771643DEST_PATH_IMAGE014
取出前三维可得:
Figure RE-DEST_PATH_IMAGE015
将两式相乘可得:
Figure RE-524835DEST_PATH_IMAGE016
上述雅克比矩阵提供了优化过程中的梯度方向,后续利用高斯牛顿法完成姿态的求解:
Figure RE-DEST_PATH_IMAGE017
根据上式可求解
Figure RE-140624DEST_PATH_IMAGE018
,而迭代过程中
Figure RE-903044DEST_PATH_IMAGE018
小于阈值
Figure RE-DEST_PATH_IMAGE019
时,即求解完成。
CN201911146686.4A 2019-11-21 2019-11-21 一种基于二维特征点的人脸姿态实时估计方法 Withdrawn CN110929642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911146686.4A CN110929642A (zh) 2019-11-21 2019-11-21 一种基于二维特征点的人脸姿态实时估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146686.4A CN110929642A (zh) 2019-11-21 2019-11-21 一种基于二维特征点的人脸姿态实时估计方法

Publications (1)

Publication Number Publication Date
CN110929642A true CN110929642A (zh) 2020-03-27

Family

ID=69850492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146686.4A Withdrawn CN110929642A (zh) 2019-11-21 2019-11-21 一种基于二维特征点的人脸姿态实时估计方法

Country Status (1)

Country Link
CN (1) CN110929642A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681279A (zh) * 2020-04-17 2020-09-18 东南大学 基于改进李群非线性优化的行车吊臂空间位姿测量方法
CN112184812A (zh) * 2020-09-23 2021-01-05 广东海洋大学 提升无人机相机对AprilTag识别定位精度方法及定位方法和系统
CN113569653A (zh) * 2021-06-30 2021-10-29 宁波春建电子科技有限公司 一种基于面部特征信息的三维头部姿态估计算法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681279A (zh) * 2020-04-17 2020-09-18 东南大学 基于改进李群非线性优化的行车吊臂空间位姿测量方法
CN111681279B (zh) * 2020-04-17 2023-10-31 东南大学 基于改进李群非线性优化的行车吊臂空间位姿测量方法
CN112184812A (zh) * 2020-09-23 2021-01-05 广东海洋大学 提升无人机相机对AprilTag识别定位精度方法及定位方法和系统
CN112184812B (zh) * 2020-09-23 2023-09-22 广东海洋大学 提升无人机相机对AprilTag识别定位精度方法及定位方法和系统
CN113569653A (zh) * 2021-06-30 2021-10-29 宁波春建电子科技有限公司 一种基于面部特征信息的三维头部姿态估计算法

Similar Documents

Publication Publication Date Title
US11727661B2 (en) Method and system for determining at least one property related to at least part of a real environment
CN109345588B (zh) 一种基于Tag的六自由度姿态估计方法
Caruso et al. Large-scale direct SLAM for omnidirectional cameras
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
US9420265B2 (en) Tracking poses of 3D camera using points and planes
JP5822322B2 (ja) ローカライズされ、セグメンテーションされた画像のネットワークキャプチャ及び3dディスプレイ
Lee et al. Simultaneous localization, mapping and deblurring
US9846974B2 (en) Absolute rotation estimation including outlier detection via low-rank and sparse matrix decomposition
CN110929642A (zh) 一种基于二维特征点的人脸姿态实时估计方法
CN113689503B (zh) 目标对象的姿态检测方法、装置、设备及存储介质
Yuan et al. 3D reconstruction of background and objects moving on ground plane viewed from a moving camera
US10346949B1 (en) Image registration
CN108694348B (zh) 一种基于自然特征的跟踪注册方法及装置
CN105339981B (zh) 用于使用一组基元配准数据的方法
CN109741245B (zh) 平面信息的插入方法及装置
Lui et al. An Iterative 5-pt Algorithm for Fast and Robust Essential Matrix Estimation.
Schwarz et al. Tracking planes with time of flight cameras and j-linkage
Fan et al. Collaborative three-dimensional completion of color and depth in a specified area with superpixels
CN111260544B (zh) 数据处理方法及装置、电子设备和计算机存储介质
Wang et al. Robust rank-4 affine factorization for structure from motion
CN111915632A (zh) 一种基于机器学习的贫纹理目标物体真值数据库构建方法
Kaveti et al. Removing dynamic objects for static scene reconstruction using light fields
Troutman et al. Registration and localization of unknown moving objects in monocular SLAM
Liu et al. OmniColor: A Global Camera Pose Optimization Approach of LiDAR-360Camera Fusion for Colorizing Point Clouds
Goyal et al. Layart: generating indoor layout using arcore transformations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200327

WW01 Invention patent application withdrawn after publication