CN107220596A

CN107220596A - 基于级联纠错机制的人体姿态估计方法

Info

Publication number: CN107220596A
Application number: CN201710328383.9A
Authority: CN
Inventors: 高新波; 戴慧冰; 何立火; 路文; 郭兆骐; 窦睿翰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2017-09-29
Anticipated expiration: 2037-05-11
Also published as: CN107220596B

Abstract

本发明公开了一种基于级联纠错机制的人体姿态追踪方法，主要解决现有技术对人体姿态估计中手腕定位不准确的问题。其包括：1)利用双向树结构模型定位手腕以外的身体各关节点；2)利用光流和粒子滤波初步预测手腕的位置；3)通过光流响应判断初步检测的结果是否可靠，若不可靠，则利用双向图结构模型来定位手腕的位置；4)利用肤色模型来判断双向图结构模型的定位结果是否可靠；5)若双向树结构模型的定位结果不正确，则再利用上一帧的手腕位置估计当前帧的手腕位置。实验结果表明，本发明能更精确地定位手腕的位置，从而取得更好的人体姿态估计效果，可用于视频监控、人机交互、数字娱乐、医学成像和运动场景下对人体姿态的识别。

Description

基于级联纠错机制的人体姿态估计方法

技术领域

本发明属于图像识别技术领域，特别是一种人体姿态估计方法，可用于在视频监控、人机交互、数字娱乐、医学成像和运动场景下对人体姿态的识别。

背景技术

人体姿态估计是指在2D或3D的静态图像或视频中检测出人体各部位的位置，根据人体各部位的连接关系，估计出人体姿态的过程。人体姿态估计是计算机视觉研究范畴内的一个重要问题,在许多实际应用中,如视频监控、人机交互、数字娱乐、医学成像和运动场景等领域都具有广泛的应用前景。但同时，对人体姿态的准确估计也是一个非常具有挑战性的问题。在现实生活中，人体姿势的变化、复杂的场景、严重的部位遮挡、明暗不一的光照条件、不同的人体服饰等都会对人体姿态的估计结果造成干扰。值得一提的是，在人体姿态估计中，因为手关节灵活，运动形式多样，因此手腕的定位成为人体姿态估计过程中最具挑战的任务之一。

为了克服在人体姿态估计中可能会出现的不利因素，人们长期致力于研究改进人体姿态估计的方法。现有的人体姿态估计方法一般是基于图结构模型来设计的，该模型将人体表示成各个部位以及任意两个部位之间的连接关系。

Yang和Ramanan等人提出了一种混合模型来表示人体部位以及各个部位的连接关系。在该混合模型中，各个部位被拆分成多个无向混合部分，从而使模型能够更加灵活地近似模拟人体部位的形变程度。Sapp和Taskar等人提出了一种MODEC模型，该模型采用二次变形成本作为几何特征，重新定义图结构模型中描述相邻部件连接关系的二元项。Kiefel和Gehler等人用二元随机变量代替图结构模型中的各个部件，将原始的图结构模型变得更加灵活。Pishchulin等人提出用poselet假说代替图结构模型中的一元和二元多项式。一般的图结构模型一般只考虑相邻部件之间的连接关系，但poselet假说还描述了不相邻身体部件之间的依赖关系，使得图结构模型表达人体姿态的效果更佳。

尽管相对原始的图结构模型，这些改进的模型已经具备较强的人体姿态表达能力，但也只能准确表示相对简单的人体姿态，对于复杂的人体姿态不能完全准确定位，不能满足实际生活中的应用要求。尤其是对手腕的正确定位，明显劣于其他身体关节点。但是，手腕的位置在整个人体姿态发挥重要的作用，手腕的错误定位会极大地影响对整个人体姿态的正确判断。

发明内容

本发明的目的在于针对人体姿态估计中对于手腕定位不准确的问题，利用视频图像序列特有的时间信息和自适应的肤色模型，提出一种基于级联纠错机制的人体姿态估计方法，以提高对手腕的正确检测率，得到更加准确的人体姿态估计效果。

实现本发明目的的技术方案是：基于手腕是最难估计的人体关节点的事实，将人体姿态估计分为两部分进行：第一部分对手腕以外的身体关节点进行定位；第二部分，对手腕的位置进行定位，具体实现步骤包括如下：

(1)利用双向树结构模型对手腕以外的身体关节点进行定位；

(2)利用光流和粒子追踪相结合的方法初步预测手腕的位置；

(3)根据光流响应矩阵B的列数和设定的两个列光流阈值对预测的结果进行判断：

若光流响应矩阵B的第1列B(1)大于第1列的光流阈值1.5，且第1列到第200列的光流阈值B(1)…B(200)的值下降缓慢，使得第200列的光流响应B(200)大于第200列的光流阈值1，则判断定位的结果是手腕，即定位成功；

若光流响应矩阵B的第1列B(1)大于第1列的光流阈值1.5，且第1列到第200列的光流阈值B(1)…B(200)的值下降迅速，使得第200列的光流响应B(200)小于第200列的光流阈值1，则判断定位的结果是手肘，即定位失败，执行(4)；

若光流响应矩阵B的第1列B(1)小于第1列的光流阈值1.5，则判定定位的结果是手肘，即定位失败，执行(4)；

(4)利用双向树结构模型重新预测手腕的位置；

(5)对(4)预测的结果进行判断：

基于同一个人脸部和手部的肤色具有相似性的特性，用人脸区域的肤色直方图近似代替手腕区域的肤色直方图，即先使用脸部检测器准确定位人脸，再统计人脸区域的色度、亮度、饱和度HSV肤色直方图，即手腕区域的HSV肤色直方图，最后根据HSV肤色直方图计算手腕定位框内肤色区域面积的比例：

若手腕定位框内肤色区域面积的比例高于50％，则判断双向树结构模型定位的结果准确；若手腕定位框内肤色区域面积的比例低于50％，判断双向树结构模型定位的结果错误，则把上一帧中已定位的手腕位置取作预测的手腕位置。

本发明具有如下优点:

1)本发明解决了人体姿态估计过程中由手肘引起的对手腕错误定位的问题。

现有技术在手腕的定位过程中，利用主成分分析PCA方法难以区分手腕和手肘，本发明利用光流响应矩阵B的列数和设定的两个列光流阈值，可以很好地区分手腕和手肘，很大程度上避免了由手肘引起的对手腕错误定位的情况。

2)增强了定位的鲁棒性。

本发明采用自适应肤色模型充分地利用了同一个人脸部和手部颜色特征的相似性，能有效地适应不同光照条件、不同年龄、不同人种等因素造成的手腕颜色特征的变化，增强了定位的鲁棒性。

3)提升手腕的定位效果。

现有的方法直接使用肤色特征来定位手腕，当背景中出现与肤色相近的物体时，就会产生错误的手腕定位结果；本发明间接使用肤色特征来定位手腕，将肤色特征作为一种判断手腕定位结果准确性的标准，既利用了手腕的肤色特征，又减小了对手腕的错误定位，较大地提升了手腕的定位准确率。

附图说明

图1是本发明的实现流程图；

图2是传统的图结构模型图；

图3是现有的双向树结构模型图；

图4是使用光流法处理原图像后得到的光流图；

图5是本发明实验中使用的客观评价标准PCP示意图；

图6是本发明对人体姿态估计的实验结果图。

具体实施方式

参照图1，本发明中基于级联纠错机制的人体姿态估计方法，包括如下步骤：

步骤1.利用双向树结构模型对手腕以外的身体关节点进行定位。

传统的人体姿态估计方法一般都是基于图结构模型进行。

参照图2，图结构模型一般分为纸盒结构模型、单向树结构模型和双向树结构模型，每一种模型都是由外观模型和几何约束模型两大部分组成，其中，外观模型对关节点的外观进行建模，用于度量每个关节点的图像似然度；几何约束模型表示两个关节点间的连接关系。

本发明选用双向树结构模型，如图3所示，该模型相比其他两种模型，其能双向地传递相邻关节点间的几何约束信息，且能更好地模拟人体复杂的姿态。本发明只研究人体上半身的姿态，其中包括头、脖子、左/右肩膀、左/右手肘、左/右手腕这8个关节点。

本步骤利用双向树结构模型对手腕以外的身体关节点进行定位，按如下步骤进行：

1a)提取原始视频帧的方向梯度直方图HOG特征，利用双向树结构外观模Φ(Pⁱ,I)作为匹配模板，计算图像I中各个像素点和手腕以外各关节点的图像似然度，初步得到一系列候选的手腕以外各关节点位置，其中，i表示人体的第i个关节点，Pⁱ表示观察图像序列I中第i个关节点的状态变量，I表示给定的一帧图像；

1b)根据双向树结构的几何约束模型在候选的手腕以外各关节点位置中抑制不满足模型的预测结果，以保留更优的手腕以外各关节点位置，其中，i、j分别表示人体的第i个关节点和第j个关节点，Pⁱ和P^j分别表示观察图像序列I中第i个关节点和第j个关节点的状态变量；

1c)运用和积算法从1b)候选的手腕以外各关节点位置中确定最优的手腕以外各关节点位置：

1c1)通过下式计算由关节点i传递到它的父关节点j的信息，

其中，I表示给定的一帧图像，k表示第k个关节点，a_i(Pⁱ)表示手腕以外第i个关节点的状态变量为Pⁱ时的几何约束模型连接系数，m′_i(P^j)表示手腕以外第j个关节点的状态变量为P^j时手腕以外第i个关节点的后验边缘分布，m′_k(Pⁱ)表示手腕以外第i个关节点的状态变量为Pⁱ时手腕以外第k个关节点的后验边缘分布；

1c2)由手腕以外第j个关节点的状态变量为P^j时手腕以外第i个关节点的后验边缘分布m′_i(P^j)，得到手腕以外第j个关节点的状态变量为P^j时，手腕以外所有关节点的后验边缘分布：m′(P^j)＝{m′₁(P^j)…m′_i(P^j)…m′_N(P^j)}，其中，i,j∈{1…N}分别表示手腕以外的第i个关节点和第j个关节点，N表示手腕以外人体各关节点的总数；

1c3)从1b)候选的手腕以外第i个关节点位置中选取m′_i(P^j)最大的位置，即为手腕以外第i个关节点的最优位置；

1c4)以此类推，最终确定手腕以外所有各关节点的最优位置。

步骤2.利用光流和粒子追踪相结合的方法初步预测手腕的位置。

与静止图像相比，由于视频图像还包含了人体运动过程中的时间信息，因而可以利用视频中的时间信息更好地对人体姿态进行估计。光流法是处理视频中时间信息最常见的方法之一，但单一使用光流法对手腕进行定位，只能预测手腕位置所在的区域范围而不能预测手腕的具体位置。

本发明利用光流和粒子追踪相结合的方法，可以初步预测手腕的具体位置，其如下步骤如下：

2a)建立外观模型：

采用光流法fast flow处理原始的视频帧，得到一系列的光流图像，如图4，并采用主成分分析PCA方法对光流图像中的特定关节点手腕进行外观建模，其表示如下：

其中，i表示第i个关节点，I_t表示t时刻的观察图像序列，表示在I_t中第i个关节点的图像块，U_i表示部件i张成的子空间，d_t表示图像块到子空间的距离，d_w表示图像块在子空间内的距离，表示图像块由子空间生成的概率，表示图像块到子空间U_i距离为d_t的概率，表示图像块在子空间U_i内距离为d_w的概率，表示独立的高斯分布，μ_i表示均值，E表示单位矩阵，εE表示高斯噪声，表示由U_i的特征值所构成的矩阵；

2b)根据外观模型，计算出每个图像块可能是手腕的概率得到一系列候选的手腕位置；

2c)建立动态模型：

采用布朗运动对手腕的粒子追踪过程进行动态建模，其表示如下：

其中，θ_i表示对应仿射参数的方差，P_t ⁱ表示在I_t中第i个关节点的状态变量，表示当t-1时刻手腕的状态变量为的t时刻手腕状态变量为的概率；

2d)在外观模型和动态模型共同引导下，判断手腕在视频中的运动轨迹，再根据得到的运动轨迹从候选的手腕位置中确定最优的手腕位置。

步骤3.根据光流响应矩阵B的列数和设定的两个列光流阈值对预测的结果进行判断。

通过实验观察，在手腕的定位过程中，利用主成分分析PCA方法难以区分手腕和手肘，但利用光流响应矩阵B的列数和设定的两个列光流阈值可以很好地区分手腕和手肘，本实例根据实验确定两个设置的列光流阈值分别为1.5和1。

将光流响应矩阵B的第1列B(1)、第200列B(200)分别与设置的列光流阈值进行比较：

若光流响应矩阵B的第1列B(1)大于第1列的光流阈值1.5，且第1列到第200列的光流阈值B(1)…B(200)的值下降迅速，使得第200列的光流响应B(200)小于第200列的光流阈值1，则判断定位的结果是手肘，即定位失败，执行步骤4；

若光流响应矩阵B的第1列B(1)小于第1列的光流阈值1.5，则判定定位的结果是手肘，即定位失败，执行步骤4。

步骤4.利用双向树结构模型重新预测手腕的位置。

4a)将2b)得到的结果作为候选的手腕位置；

4b)根据双向树结构的几何约束模型在候选的手腕位置中抑制不满足模型的预测结果，以保留更优的候选手腕位置，其中，i、j分别表示人体的第i个关节点和第j个关节点,Pⁱ和P^j分别表示观察图像序列I中第i个关节点和第j个关节点的状态变量；

4c)运用和积算法从4b)候选的手腕位置中确定最优的手腕位置：

通过下式计算由关节点i传递到它的父关节点j的信息，得到第j个关节点的状态变量为P^j时手腕的后验边缘分布m′_i(P^j)，从4b)候选的手腕位置中选取m′_i(P^j)最大的位置，即最优的手腕位置：

a_i(Pⁱ)∝Φ(Pⁱ,I)Πm_k(Pⁱ)

其中，I表示给定的一帧图像，k表示人体的第k个关节点，a_i(Pⁱ)表示手腕的状态变量为Pⁱ时的几何约束模型连接系数，m_k(Pⁱ)表示手腕的状态变量为Pⁱ时第k个关节点的后验边缘分布，Φ(Pⁱ,I)表示在图像I中手腕的状态变量为Pⁱ时双向树结构的外观模型。

步骤5.对步骤4预测的结果进行判断。

因为实验的训练数据有限，训练得到的双向树结构模型只能估计特定的人体姿态，对手腕的定位结果不一定准确。因此，需要设计一个标准判断双向树结构模型对手腕的定位结果是否准确。在本发明中，基于同一个人脸部和手部的肤色具有相似性的特性，用人脸区域的肤色直方图近似代替手腕区域的肤色直方图，设计一个自适应的肤色检测模型，来判断双向树结构模型对手腕定位结果的准确性，其判断步骤如下：

5a)先使用脸部检测器准确定位人脸，再统计人脸区域的色度、亮度、饱和度HSV肤色直方图，即手腕区域的HSV肤色直方图；

5b)根据HSV肤色直方图计算手腕定位框内肤色区域面积的比例：

若手腕定位框内肤色区域面积的比例高于50％，则判断双向树结构模型定位的结果准确；

若手腕定位框内肤色区域面积的比例低于50％，判断双向树结构模型定位的结果错误，则把上一帧中已定位的手腕位置取作预测的手腕位置。

本发明的效果可通过以下实验进一步说明：

一、实验数据

数据库采用VdieoPose2.0，此数据库是目前被广泛用于人体姿态估计的主流数据库之一，其包括44个来自于电视节目Friends and Lost的视频剪辑片段，共有1286帧，这些视频序列图像十分接近现实的自然生活场景，因此在数据库VdieoPose2.0上测试本发明的有效性是可行且有效的，有利于本发明投入到实际的应用生产中。

从44个来自于电视节目Friends and Lost的视频剪辑片段中随机地选择26个视频片段作为训练数据，18个视频片段作为测试数据。

二、实验内容

本实验只定位人体上半身的8个关节点，其中包括头顶、脖子、左/右肩膀、左/右手肘、左/右手腕，通过这8个关节点的位置估计人体的上半身姿态，可以得到一系列对人体上半身姿态进行估计的实验结果图，如图5所示。

本实验采用MATLAB与C++语言两种语言进行编程实现。实验过程涉及到相当多的参数，其设置方式如下：双向树结构模型中的参数都是由训练集自动学习得到的；第1列的光流响应阈值设置为1.5，第200列的光流响应阈值设置为1；粒子滤波的粒子个数统一设置为1200个；其他参数根据Ross等人的工作设置。

三、评价标准

本实验采用正确定位的人体部件比率PCP作为客观评价标准，证明本发明在人体姿态估计领域的有效性，其实验是针对人体的上半身各部件进行。其中：

头、左/右上臂、左/右下臂6个部件分别通过不同的两个关节点确定，头由头顶和脖子这两个关节点共同确定，左上臂由左肩膀和左手肘这两个关节点共同确定，左下臂由左手肘和左手腕这两个关节点共同确定，右上臂由右肩膀和右手肘这两个关节点共同确定，右下臂由右手肘和右手腕这两个关节点共同确定。

关节点的预测位置可由实验结果得到，关节点的人工标定位置可由数据库VdieoPose2.0中的各关节点标定文件得到。

对每一个部件，当对应的两个关节点预测的位置与人工标定的位置之间的欧式距离都小于30个像素时，则该部件被正确定位，如图6所示，比如，对图6中的左手肘和左手腕这两个关节点，其由于预测的位置与人工标定的位置之间的欧式距离都小于30个像素，则判断图5中的左上臂部件被正确定位。

以此类推，分别统计每一个部件被正确定位的数目。

再统计每一个部件的总数目，最终得到人体上半身各部件的PCP值，如表1

表1人体上半身各部件的PCP值

部件名称	头	左上臂	右上臂	左下臂	右下臂
						PCP值	83.111	38.111	37.222	24.546	26.143

Claims

1.一种基于级联纠错机制的人体姿态估计方法，其特征在于：包括如下步骤：

(1)利用双向树结构模型对手腕以外的身体关节点进行定位；

(2)利用光流和粒子追踪相结合的方法初步预测手腕的位置；

(4)利用双向树结构模型重新预测手腕的位置；

(5)对(4)预测的结果进行判断：

2.根据权利要求1所述的方法，其特征在于步骤(2)所述的利用光流和粒子追踪相结合的方法初步预测手腕的位置，按如下步骤进行：

2a)建立外观模型：

采用光流法fast flow处理原始的视频帧，得到一系列的光流图像，并采用主成分分析PCA方法对光流图像中的特定关节点手腕进行外观建模，其表示如下：

<mrow> <mo>=</mo> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>t</mi> </msub> <mo>;</mo> <msub> <mi>&mu;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <msubsup> <mi>U</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>+</mo> <mi>&epsiv;</mi> <mi>E</mi> <mo>)</mo> </mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>t</mi> </msub> <mo>;</mo> <msub> <mi>&mu;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <msubsup> <mi>&Sigma;</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>2</mn> </mrow> </msubsup> <msubsup> <mi>U</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

其中，i表示第i个关节点，I_t表示t时刻的观察图像序列，表示在I_t中第i个关节点的图像块，U_i表示部件i张成的子空间，d_t表示图像块到子空间的距离，d_w表示图像块在子空间内的距离，表示图像块由子空间生成的概率，表示图像块到子空间U_i距离为d_t的概率，表示图像块在子空间U_i内距离为d_w的概率，N(·)表示独立的高斯分布，μ_i表示均值，E表示单位矩阵，εE表示高斯噪声，表示由U_i的特征值所构成的矩阵；

2c)建立动态模型：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mi>P</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>|</mo> <msubsup> <mi>P</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>N</mi> <mrow> <mo>(</mo> <msubsup> <mi>P</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>;</mo> <msubsup> <mi>P</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> <mo>,</mo> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，θ_i表示对应仿射参数的方差，P_t ⁱ表示在I_t中第i个关节点的状态变量，表示当t-1时刻手腕的状态变量为的t时刻手腕状态变量为P_t ⁱ的概率；

3.根据权利要求1所述的方法，其特征在于步骤(1)中利用双向树结构模型对手腕以外的各关节点定位，按如下步骤进行：

1c1)通过下式计算由关节点i传递到它的父关节点j的信息，

a_i(Pⁱ)∝Φ(Pⁱ,I)Πm′_k(Pⁱ)

1c2)由手腕以外第j个关节点的状态变量为P^j时手腕以外第i个关节点的后验边缘分布m′_i(P^j)，得到手腕以外第j个关节点的状态变量为P^j时，手腕以外所有关节点的后验边缘分布：m′(P^j)＝{m′₁(P^j)…m′_i(P^j)…m′_N(Pj)}，其中，i,j∈{1…N}分别表示手腕以外的第i个关节点和第j个关节点，N表示手腕以外人体各关节点的总数；

1c4)以此类推，最终确定手腕以外所有各关节点的最优位置。

4.根据权利要求1或2所述的方法，其特征在于步骤(4)所述的利用双向树结构模型重新预测手腕的位置，按如下步骤进行：

4a)将2b)得到的结果作为候选的手腕位置；

a_i(Pⁱ)∝Φ(Pⁱ,I)Πm_k(Pⁱ)