CN108711175B

CN108711175B - 一种帧间信息导向的头部姿态估计优化方法

Info

Publication number: CN108711175B
Application number: CN201810486607.3A
Authority: CN
Inventors: 沈海斌; 于学峰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2021-10-01
Anticipated expiration: 2038-05-16
Also published as: CN108711175A

Abstract

本发明公开了一种帧间信息导向的头部姿态估计优化方法，包括人脸检测、人脸对齐、参数估计三个步骤。在人脸检测时，根据前邻帧的人脸位置信息缩小待测区域，提高人脸检测速度；在人脸对齐时，根据前邻帧的头部姿态是否偏转过大，剔除一些处于人脸轮廓边缘而导致定位不准的特征点，提高鲁棒性；在参数估计时，利用参数在前后帧的相近性简化了求解过程，省去了直接线性变换的步骤。本发明公开的方法在不增加复杂运算的前提下，优化了传统的头部姿态估计方法的准确性和实时性，为其再结合其他相关技术，实现更丰富的应用提供了支撑。

Description

一种帧间信息导向的头部姿态估计优化方法

技术领域

本发明涉及一种帧间信息导向的头部姿态估计优化方法，用于视频流中的人脸面部图像处理分析领域。

背景技术

头部姿态估计是机器视觉和人机交互交叉领域的研究热点，通常是从二维的人脸图像估计得到头部对应的三维姿态，可以用三个欧拉角来描述。用专业的头部佩戴式感应设备可以获得精确的姿态数值，然而存在操作复杂、携带不便等缺点。基于机器视觉处理技术的头部姿态估计方法则不存在上述方法的弊端，可以被移植在配备摄像头的智能设备上，操作简单，能被运用于人脸辅助识别、驾驶员疲劳检测、虚拟现实等多种应用场景中。

现有的头部姿态估计方法主要分为基于特征和基于模型两类。基于特征的方法通常是提取待测人脸图像的某种特征，并与已标记姿态的样本做匹配，将匹配程度最高的样本姿态作为待测人脸图像的姿态，此方法提取特征的运算复杂，且所得到的姿态精度取决于样本标记是否设置合理，故不太适用于准确性实时性要求较高的场合。基于模型的方法需要预先建立一个描述头部形状轮廓的模型，然后基于针孔透视成像的原理建立起人脸图像和头部三维姿态的映射关系，一般分为人脸检测、人脸对齐、参数估计三个环节，在人脸对齐准确的前提下，理论上可以获得精确值。随着头部姿态估计技术越来越广泛地运用于人机交互等场景，传统的头部姿态估计方法无法满足一些准确性和实时性上的要求，如人脸检测速度慢、人脸对齐获得的特征点存在漂移而导致误差上升、求解速度慢的问题。

发明内容

为克服上述现有技术的不足，本发明提出一种帧间信息导向的头部姿态估计优化方法，解决传统头部姿态估计方法在处理视频流时速度慢、准确性差的问题。

本发明解决其技术问题所采用的技术方案是：一种帧间信息导向的头部姿态估计优化方法，包括人脸检测、人脸对齐、参数估计三个步骤。

1)人脸检测：采用基于HOG特征的人脸检测算法，除了初始帧需要对整幅图像进行人脸检测之外，其余帧可根据前邻帧的检测出的人脸位置信息改进搜索策略，缩小待测区域，提高检测速度。

2)人脸对齐：在步骤1)的基础上，采用级联回归树算法对当前帧检测出的人脸图像进行处理，得到特征点的二维图像像素点坐标，为了提高后续步骤的鲁棒性，在该步骤对特征点做两次筛选。第一次筛选，选择特征明显的特征点，例如眼角、眉角、嘴角、鼻尖等。第二次筛选，根据前邻帧计算得到的姿态是否偏转度过大，剔除一些处于人脸轮廓边缘而导致定位不准的特征点。通过两次筛选，只选取鲁棒的特征点，增强整体的抗噪性能。

3)参数估计：将步骤2)筛选得到的特征点与头部模型进行匹配，并联立方程求解。传统的求解方法分为两步，第一步采用直接线性变换方法求得粗糙解，第二步将粗糙解作为迭代算法的初值，求得最优解。本发明将前邻帧的最优解作为当前帧的迭代算法的初值，省略了直接线性变化的求解步骤，能在保证精度的同时提升速度。

本发明充分利用了视频中前后帧之间的强相关性，根据前邻帧的人脸位置信息缩小待测区域，提高人脸检测速度，同时根据前邻帧姿态筛选稳定的特征点，提高鲁棒性，最后直接利用参数在前后帧的相近性简化了求解步骤。本发明在不增加复杂运算的前提下，优化了传统的头部姿态估计方法的准确性和实时性，为其再结合其他相关技术、实现更丰富的应用提供了支撑。

附图说明

图1是本发明主要流程的示意图。

图2是改进搜索策略的人脸检测的方法示意图。

图3是改进搜索策略的人脸检测的效果示意图。

图4a是特征点第一次筛选的示意图。

图4b是特征点第二次筛选的示意图。

图5是改进的参数估计方法的示意图。

具体实施方式

以下，用实施例结合附图对本发明做更详细的描述。这些实施例仅仅是对本发明最佳实施方式的描述，并不对本发明的范围有任何限制。如图1所示，本发明方法的主要流程分为3个部分：

1)人脸检测：基于HOG特征的人脸检测算法主要分为六个步骤：颜色空间归一化、梯度计算、细胞单元的HOG统计、重叠块特征归一化、滑动窗口检测、线性SVM分类器识别。在滑动窗口步骤，如果对整幅图像进行搜索检测会耗费大量的运算时间，而实际上，头部在相邻两帧之间的位移几乎很小，所以，可以以前邻帧检测出的人脸位置为中心，适当扩大一定比例作为候选框，即当前帧优先搜索的范围，而如果在候选框范围内没有检测到人脸，才会对全局进行搜索，改进的搜索策略如图2所示，其效果示意图如图3所示，图3中的候选框一般远小于待测图像，而基于HOG特征的人脸检测算法准确率很高，所以几乎只需要在候选框范围内搜索人脸即可，提高了搜索效率，这就大大提高了对视频流的实时处理能力，加速能力根据候选框和整体图像的大小比例呈线性关系。

2)人脸对齐。首先，使用级联回归树算法得到初始的人脸形状；然后，做第一次筛选，根据特征点的显著性、稳定性以及所使用的头部三维模型，从初始的描述人脸形状的特征点中选取尽可能多的特征明显、定位鲁棒且与头部三维模型点(X_w,Y_w,Z_w)相对应的人脸二维图像坐标点(u,v)，形成多组2D-3D映射对，以便在参数估计时可以收敛到更小的误差精度，如图4a选取并标记了14个特征点；接着，再做第二次筛选，根据前邻帧的头部姿态是否偏转过大，剔除一些处于人脸轮廓边缘而导致定位不准的特征点，例如可以为头部的左右偏转设置一个合理的阈值，当头部左转过大时，原本处于人脸左侧的一些特征点会由于被遮挡而出现漂移、定位不准的情况，如图4b中的标号为1和5的特征点，因而在当前帧的头部姿态估计时不将其纳入运算。同理，头部俯仰等情况也可以采用这种方法。二次筛选的方法有效减小了误差引入，能提高头部姿态估计的准确性。

3)参数估计。参数估计的原理主要借鉴针孔透视成像的模型，可以用公式表示为：

根据步骤2)所获得的多组2D-3D映射对以及上述方程联立方程。初始帧的参数估计仍然采用两步求解的方式，第一步使用直接线性变换法求得旋转矩阵R的粗糙解，第二步将粗糙解作为LM迭代算法的初值，求解得到旋转矩阵R的最优解，最后通过转化得到表示头部姿态的三个欧拉角。除了初始帧之外的其余帧在进行参数估计时，不再使用直接线性变换法求得旋转矩阵R的粗糙解，而是直接利用前邻帧旋转矩阵R的最优解作为当前帧LM迭代算法的初值，其余步骤与初始帧的计算方式相同，图5中的虚线箭头是原始的求解方法，而实线箭头是改进后的方法，本发明可简化求解步骤，有效增强实时性。

以上所述仅为本发明的具体实施方式，并不用以限制本发明，任何本发明所属领域内的技术人员，在本发明揭露的技术范围内，所作的修改或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种帧间信息导向的头部姿态估计优化方法，其特征在于包括如下步骤：

1)人脸检测，采用基于HOG特征的人脸检测方法从视频流中的每一帧图像提取出目标人脸；

2)人脸对齐，人脸对齐使用基于级联回归树的算法得到人脸的形状轮廓，并经二次筛选出稳定的特征点；所述的步骤2)具体为：

2.1)使用级联回归树算法得到初始的人脸形状；

2.2)做第一次筛选，从初始的描述人脸形状的特征点中选取尽可能多的特征明显、定位鲁棒且与头部三维模型点(X_w,Y_w,Z_w)相对应的人脸二维图像坐标点(u,v)，形成多组2D-3D映射对，

2.3)做第二次筛选，根据前邻帧的头部姿态是否偏转过大，剔除处于人脸轮廓边缘而导致定位不准的特征点；

3)参数估计，根据特征点的二维坐标和头部模型的三维坐标建立方程，求解得到头部姿态。

2.根据权利要求1所述的帧间信息导向的头部姿态估计优化方法，其特征在于所述的步骤1)在采用基于HOG特征的人脸检测方法提取目标人脸的过程中，在对图像进行滑动窗口检测时，除初始帧之外的其余帧，均以前邻帧检测出的人脸位置为中心，扩大设定比例作为候选框，即当前帧优先搜索的范围；如果在候选框范围内没有检测到人脸，才对全局进行搜索。

3.根据权利要求1所述的帧间信息导向的头部姿态估计优化方法，其特征在于所述的步骤3)具体为：

根据步骤2)所获得的多组2D-3D映射对以及方程(1)联立方程；

初始帧的参数估计采用两步求解的方式，第一步使用直接线性变换法求得旋转矩阵R的粗糙解，第二步将粗糙解作为LM迭代算法的初值，求解得到旋转矩阵R的最优解，最后通过转化得到表示头部姿态的三个欧拉角；

除了初始帧之外的其余帧在进行参数估计时，直接利用前邻帧旋转矩阵R的最优解作为当前帧LM迭代算法的初值，再解得到旋转矩阵R的最优解，最后通过转化得到表示头部姿态的三个欧拉角。