CN105389569B

CN105389569B - 一种人体姿态估计方法

Info

Publication number: CN105389569B
Application number: CN201510792096.4A
Authority: CN
Inventors: 孔德慧; 陈思; 王少帆; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2019-03-26
Anticipated expiration: 2035-11-17
Also published as: CN105389569A

Abstract

本发明公开了一种人体姿态估计方法，其有效地解决了传统算法中存在的人体姿态易受光照、遮挡等因素影响的问题，通过将彩色图像信息与深度图像信息相融合，实现更高的鲁棒性以及定位准确度。包括步骤：(1)分部位计算特征模板，提取深度特征：以待测点到人体中心点的最短路径为极坐标方向，通过该极坐标系下依次取半径和角度所统计的深度差作为待测点的深度特征向量；(2)将各个特征模板整合起来构建人体姿态数据的树结构模型；(3)基于树结构模型构建打分函数，将待检测图像与模型进行匹配，从而实现人体特征定位。

Description

一种人体姿态估计方法

技术领域

本发明属于计算机视觉的技术领域，具体地涉及一种人体姿态估计方法。

背景技术

人体姿态估计作为计算机视觉研究领域的一个重要研究方向，以及体感技术领域中的一个关键问题，广泛应用于人体活动分析、智能视频监控及高级人机交互等领域。人体姿态估计技术，可以通过计算机在一幅包含人体的图像中自动地检测出人体，即输出人的整体或者局部肢体的结构参数，如人体轮廓、头部的位置与朝向、人体关节点的位置与部位类别，为人体活动分析、智能监控等研究工作提供重要的基础数据。

近年来，国内外学者们提出了多种人体姿态估计方法，例如基于分割与匹配的检测方法、基于梯度信息的检测方法以及基于统计学习的检测方法，这些方法都是基于图结构模型。图结构模型是人体姿态的一种广泛使用的模型，主要包含用于确定人体部位定位位置的似然度观测项，以及用于确定人体部位定位位置符合模型结构的程度的结构先验项。基于图结构模型进行人体姿态估计的核心思想是，根据人体各个部位特征的形状特点构造一个带有可变参数的几何模型，该模型的可变参数反映了对应特征形状的可变部分，如位置、大小、角度等，它们最终通过模型与图像的边缘、峰、谷和灰度分布特性的动态地交互适应来得以修正。该几何模型还设定一个相应的打分函数以度量被检测区域与模型的匹配程度。搜索时，通过优化的方法不断调整参数使得目标函数最小化，使模型逐渐收敛于待定位的人体特征，以达到最佳的匹配。

目前，基于图结构模型进行人体姿态估计的算法都是基于普通光学图像，比如常见的RGB图像。由于人体具有非刚性的特性，在公共场合中，存在背景复杂、姿态衣着多样、光照条件多变等因素，这些图像很容易受光照、阴影等外界因素影响，因而导致系统识别率低，很难实现鲁棒的特征提取。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种人体姿态估计方法，其有效地解决了传统算法中存在的人体姿态易受光照、遮挡等因素影响的问题，通过将彩色图像信息与深度图像信息相融合，实现更高的鲁棒性以及定位准确度。

本发明的技术解决方案是：这种人体姿态估计方法，包括以下步骤：

(1)分部位计算特征模板，提取深度特征：以待测点到人体中心点的最短路径为极坐标方向，通过该极坐标系下依次取半径和角度所统计的深度差作为待测点的深度特征向量；

(2)将各个特征模板整合起来构建人体姿态数据的树结构模型；

(3)基于树结构模型构建打分函数，将待检测图像与模型进行匹配，从而实现人体特征定位。

本发明首先分部位计算特征模板，提取特征，而后将各个模板整合起来构建人体姿态数据的树结构模型，再基于树结构模型构建打分函数，将待检测图像与模型进行匹配，从而实现人体特征定位，所以有效地解决了传统算法中存在的人体姿态易受光照、遮挡等因素影响的问题，通过将彩色图像信息与深度图像信息相融合，实现更高的鲁棒性以及定位准确度。

附图说明

图1是根据本发明的步骤(1)的流程图。

图2是根据本发明的步骤(2)、(3)的流程图。

具体实施方式

这种人体姿态估计方法，包括以下步骤：

优选地，所述步骤(1)中深度特征的提取按照公式(1)获得：

where,

其中，f表示像素点(x_s,y_s)的深度差值特征，该特征与(c_x,c_y,r₁,r₂,θ₁,θ₂,t)这些参数有关，c_x,c_y分别为人体中心点的横纵坐标，r₁,r₂为极坐标系下随机生成的两个半径，θ₁，θ₂为极坐标系下随机生成的两个角度，t为阈值，D为像素点的深度值，α为极坐标轴与图像坐标系x轴正方向的夹角，由起始点(x_s,y_s)，到终止点(c_x,c_y)，的最短路径所确定。

优选地，所述步骤(1)中求解该深度特征的步骤为：采用A*寻路算法找寻人体像素点到人体中心点的最短路径，以最短路径上的某人体像素点与其下一个相邻像素点的连线的方向为极轴建立极坐标系，设定一定的半径R,以起始像素点为中心，在(0,R)和(0,2π)的范围内随机选取半径r和角度θ，以得到两个随机点的极坐标；对坐标系进行旋转变换，将极坐标系下的随机点映射到二维图像坐标系下，得到图像坐标系下的两个随机点的坐标；根据某像素点周围两个随机像素点的深度值计算该像素点的深度差值，并根据通过实验确定的最佳阈值，对深度差值进行0-1化处理，从而得到深度特征描述器，来实现对深度图像的描述。

优选地，所述步骤(2)中采用先局部再整体的训练方法：首先对模型进行初始化，基于特征点树结构连接关系初始化模型参数，计算图像I_i(i＝1,2,……,D)中相邻特征点之间的相对距离：采用相对距离的均值作为图像I_i的特征点标注框大小，将所有图像中相同标号的特征框大小按面积大小排序，选取适当的值作为特征点t的标注框大小，以提取图像中特征点t周围以N_s为边长的矩形框区域的hog特征和深度差值特征；对人体的26个小块使用 k-means聚类算法进行聚类，对每一小块的每一类分别进行训练，在进行局部训练时，计算该部分的特征；将局部训练得到的模板连结起来形成树结构，进行整体训练。

优选地，所述步骤(3)中使用线性核函数作为打分函数，并采用动态规划算法对其进行优化，通过将待测图像与训练得到的模型进行匹配，计算其分数的高低，来实现人体特征点的定位。

优选地，所述打分函数分为三部分：第一部分是对将一个部位模板放到图像上的一个指定的位置这一匹配过程进行打分；第二部分表示的是一个估测部位对间相对位置关系的形变模型；第三部分表示的是部位对的先验共现关系。

优选地，采用动态规划算法对打分函数进行优化和求解，得到的最大分数对应的人体特征点位置的组合为人体最优姿态；动态规划算法是将待求解的问题分解为若干个子问题，先对子问题进行求解，通过这些子问题的解得到原问题的解。

以下对本发明进行更详细的说明。

本发明提出了一种基于测地距离不变特征的人体姿态估计算法。算法主要分为建模和定位两个关键步骤。建模阶段采用先局部再整体的训练方法，首先分部位计算特征模板，提取特征，而后将各个模板整合起来构建人体姿态数据的表示模型——树结构模型。定位阶段基于树结构模型构建打分函数，将待检测图像与模型进行匹配，从而实现人体特征定位。

1、测地距离不变特征

本发明提出了一种新的深度图像特征描述方法。在传统的深度差值特征的基础上提出了一种更为可行、稳定的深度特征描述方法，使用该测地距离不变的深度特征，可以更好地对图像的深度信息进行提取和描述。

传统的深度差值特征取某个像素点i周围一定范围内随机的两个点，将两个点深度值之差作为像素点i的深度差值，原始的深度差值特征表示如下：

式中，u(x,y)表示像素点的位置，z(u)表示该像素点的深度值，δ＝(δ₁,δ₂)表示二维图像上以u为起始点的两个随机偏移量。对偏移量δ₁,δ₂进行标准化(即除以z(u)),得到两个偏移点的深度值，将两个深度值作差得到像素点(x,y)的深度差值，以该像素点为中心选取周围一定范围的区域作为特征模板的大小，分别计算区域内每个像素点对应的深度差值，将各个像素点的深度差值组合起来构成特征向量。

传统的深度差值特征表达式较为简单，计算起来较为方便，但是由于随机点的选取规则过于简单，无法对图像的深度信息进行充分和准确的描述。因此，基于传统的深度差特征表达式，本发明提出了一种保持测地距离不变的深度特征描述方法，以待测点到人体中心点的最短路径为极坐标方向，通过该极坐标系下依次取半径和角度所统计的深度差作为待测点的深度特征向量，解决了传统深度差特征对人体深度数据无法保持测地距离不变的缺陷。

保持测地距离不变的深度特征表达式如下：

where,

在上述表达式中，f表示像素点(x_s,y_s)的深度差值特征，该特征与(c_x,c_y,r₁,r₂,θ₁,θ₂,t)这些参数有关，c_x,c_y分别为人体中心点的横纵坐标，r₁,r₂为极坐标系下随机生成的两个半径，θ₁，θ₂为极坐标系下随机生成的两个角度，t为阈值。D为像素点的深度值，α为极坐标轴与图像坐标系x轴正方向的夹角，由起始点(x_s,y_s)(即待求解深度差值的特征点)，到终止点(c_x,c_y)(即人体中心点)的最短路径所确定。

求解该深度特征的大体步骤如下：采用A*寻路算法找寻人体像素点到人体中心点的最短路径，以最短路径上的某人体像素点(起始点)与其下一个相邻像素点的连线的方向为极轴建立极坐标系，设定一定的半径R(该参数的最佳取值根据实验结果而确定),以起始像素点为中心，在(0,R)和(0,2π)的范围内随机选取半径r和角度θ，以得到两个随机点的极坐标。而后，对坐标系进行旋转变换，将极坐标系下的随机点映射到二维图像坐标系下，得到图像坐标系下的两个随机点的坐标。得到某个像素点周围的两个随机点的坐标后，根据某像素点周围两个随机像素点的深度值计算该像素点的深度差值，并根据通过实验确定的最佳阈值，对深度差值进行0-1化处理，从而得到深度特征描述器，来实现对深度图像的描述。算法流程图如图1所示。

算法具体实现过程如下：

①人体中心点的求解

根据像素点的深度值大小，提取得到前景的人体部分。统计人体上像素点的个数n，记录人体上像素点的横纵坐标，对横纵坐标分别进行累加计算得到sumx和sumy，即:

sumx＝x₁+x₂+…+x_n

sumy＝y₁+y₂+…+y_n

那么人体中心点的坐标(c_x,c_y)可以用下述公式计算得到：

c_x＝sumx/n

c_y＝sumy/n

②最短路径的求解

本发明提出的保持测地距离不变的深度差值特征提取算法中，采用A*寻路算法找寻人体像素点到人体中心点的最短路径。将二维图像视为一个二维数组，二维数组中的每一个元素可以被看作是下图网格中的一个方格，网格中的方格被标记为可通过的和不可通过的，用从起始点到目标点所经过的方块的集合来表示起始点到目标点的路径，将路径中经过的点称为节点。寻路的过程就是以人体上的某个像素点为起始点，从起始点开始，通过搜索八邻域，不断向外扩展直到到达目标点即人体中心点。具体的实现过程如下：

首先从起始点A开始，将其作为待处理的点存入一个开启列表中，即待检查方格的列表。寻找起始点周围所有可到达或者可通过的方格，跳过那些不可通过的方格，即背景像素点，将这些可达或可通过的点加入到开启列表中，则在开启列表中，起始点A为其他这些点的父节点。接着从开启列表中将起始点A去除，将其放入关闭列表，关闭列表中存放的为不需要再次检查的方格。要得到最短路径，需要从开启列表中选出一个最为靠谱的方格，本发明采用A*算法来寻找最短路径。公式如下：

F＝G+H

其中，G表示从起点A移动到网格上指定方格的移动耗费，对于每个方格，可以向八个方向进行移动)；H表示从指定的方格移动到目标点的预计耗费，要寻找起始点A到目标点B(即人体中心点)的最短路径，需要从开启列表中选择F取值最低的那个方格作为最短路径上起始点的下一个方格C，接着，将方格C从开启列表中删除，放入关闭列表中,检查方格C的所有相邻并且可以到达的方格(除背景像素点和关闭列表中的方格以外)。接下来，分两种情况进行处理，如果这些可达的方格不在开启列表中，则需要将其加入到开启列表中，接着计算这些方格的G,H和F的取值，并将其父节点设置为方格C；另一种情况下，如果与C相邻的某个方格D已经存在于开启列表中，则需要比较从起始方格A直接到达方格D和经过方格C到达方格D，哪一条路径的花销更低，即G值更小，若经过C到达D的G值更小，则需要将D的父节点由A改为C，并重新计算D方格的F和G值，否则保留上一步的结果不变。

重复上述过程，直到目标点出现在开始列表中，则表明可以成功地从起始点A到达目标点。根据曾经或正在在开启列表中出现的方块的父节点索引信息，可以反向追溯到起始点，即得到最短路径上的节点索引序列。

③随机像素点的生成

将起始点s(x_s,y_s)到人体中心点的最短路径记为L_S，将L_S上起始点的邻接点(即最短路径上的第二个点)记为p(x_p,y_p)，则将从s出发指向p的方向作为极坐标系的正方向，建立极坐标系。设定R值，则半径r在(0,R]的范围内随机生成，同时在(0,2π]的范围内随机选取一定的角度，如此就可以得到以起始点s为中心，随机生成的两个像素点的极坐标。

④坐标系旋转变换

得到极坐标系下的两个随机像素点后，需要将其映射到图像坐标系下，已知图像坐标系以向右的x轴方向为正方向，因此通过求解其与极坐标轴两个坐标轴的夹角α，就可以实现坐标系的转换。

已知起始像素点为s(x_s,y_s)，最短路径L_S上的第二个点为p(x_p,y_p)，则图像坐标系x轴正方向与极坐标轴的夹角为：

旋转变换公式如下：

上述公式中，(r₁,θ₁),(r₂,θ₂)为极坐标系下旋转变换前的两组随机参数，(r₁₁,θ₁₁)，(r₂₂,θ₂₂)为旋转变换后的极坐标参数，x_s、y_s为图像坐标系下起始像素点的横纵坐标，(x₁,y₁)，(x₂,y₂)即为所求旋转变换后的图像坐标系下的两个随机像素点坐标。

⑤深度差值0-1化处理

将生成的两个随机像素点u(x₁,y₁)、v(x₂,y₂)的深度值作差得到起始点s对应的深度差值，对深度差值作如下判定：

其中u(x₁,y₁)，v(x₂,y₂)为两个随机偏移点的坐标，D(u)、D(v)为这两个随机偏移点的深度值，公式的含义是，当两个随机偏移点的深度差值的绝对值大于某个阈值t时，标志f＝1，深度差值小于等于阈值t的时候，f＝0。

通过上述0-1化处理，就可以用一个只包含0和1的矩阵来描述人体某个部位或区域的特征，简化了后续的计算过程。

为了保证特征描述的鲁棒性和完备性，本发明采用n*m*k维的特征向量来对图像的特征进行描述，其中n和m分别为特征模板的长和宽，k为特征向量的维度，通过实验确定最佳维度。

2、混合部位模型训练

混合部位模型基于树图形结构，其核心思想是将人体分成小块，通过共享模板块，来减少模板的数量，从而提高学习的速度并降低学习的难度。定义树结构模型为T_m＝(V_m,E_m)，其中V_m表示人体骨架特征点对应的模板E_m表示具有一致关系的人体部位对，即某两个身体部位之间的连接关系。下标m表示类型，可以理解为不同姿态下部位之间的连接方式(朝向等)，V_m对应的参数w_i表示的是特征的权重，选取特征值作为初值；E_m对应的参数分别表示的是树图形结构中相互连接的两个骨架特征点的相对位置和位置形变特征的权重。

本发明采用先局部再整体的训练方法。为了训练模型参数，首先要对模型进行初始化，基于特征点树结构连接关系初始化模型参数。计算图像I_i(i＝1,2,……,D)中相邻特征点之间的相对距离：采用相对距离的均值作为图像的I_i特征点标注框大小，将所有图像中相同标号的特征框大小按面积大小排序，选取适当的值(最大程度保留特征点的特征)作为特征点t 的标注框大小，以提取图像中特征点t周围以N_s为边长的矩形框区域的hog特征和深度差值特征。初始化完成后，对人体的26个小块使用k-means聚类算法进行聚类(每个小块对应6 类)，接着进行局部训练，即对每一小块的每一类分别进行训练，在进行局部训练时，需要计算该部分的特征，本发明采用的是测地距离不变特征。而后，将局部训练得到的模板连结起来形成树结构，进行整体训练。本发明采用SVM支持向量机方法对模型进行训练。

本发明选用的是线性核函数，形式如下：

核函数展开后，形式如下：

核函数中，β表示上述混合部位模型及参数训练中提到的V_m和E_m联合参数，用(w,b)来表示，如展开式所示，w＝(α,θ)为人体骨架特征点模板(即特征向量)所对应的权重及树图形结构中相互连接的两个骨架特征点的位置形变特征的权重的联合参数，b为部位对的先验共现关系。z表示图像I上某个特征点i的位置l_i及对应的类型m_i，用(l_i,m_i)表示，表示特征点的特征向量和位置形变向量γ(l_i,l_j)的联合向量，其中，特征向量由对彩色图像和深度图像分别进行特征提取后联结得到，其中彩色图像采用HOG特征向量(大小为m*n*16)，深度图像采用测地距离不变特征(大小为m*n*16)，将两个m*n*16的向量(即三维数组)进行联结得到一个m*n*32的三维数组,位置形变向量γ(l_i,l_j)表达式为:

γ(l_i，l_j)＝[(x_i-x_j) (y_i-y_j) (x_i-x_j)² (y_i-y_j)²]

本发明使用以下目标函数对传统的SVM进行优化：

并作以下约束：

上述公式中pos代表正样本图像(即标记正确骨架点位置的人体图片)，neg代表负样本图像(我们采用了不含人体的自然图片)，上述目标函数及约束的含义是，要找到一组满足上面的这些约束的最优的β^*作为最优解，从而计算出权重向量w^*和b，并得到分隔超平面和决策函数。这是一个凸二次规划问题，本发明使用坐标下降算法对该问题进行求解。坐标下降法基于的思想是多变量函数F(β)可以通过每次沿一个方向优化来获取最小值。与通过梯度获取最速下降的方向不同，在坐标下降法中，优化方向从算法一开始就予以固定。例如，可以选择线性空间的一组基e₁,e₂,…,e_n作为搜索方向。在算法中，循环最小化各个坐标方向上的目标函数值。亦即，如果β^k已给定，那么，β^k+1的第i个维度为：

因而，从一个初始的猜测值β₀以求得函数F的局部最优值，可以迭代获得β₀，β₁，β₂,……的序列。通过在每一次迭代中采用一维搜索，可以很自然地获得不等式F(β₀)≥F(β₁)≥F(β₂)≥…，直到前后两次迭代结果相差小于某个阈值，停止迭代，从而求得最优解。

3.基于动态规划的特征点定位

本发明使用混合部位模型训练中提到的线性核函数作为打分函数，并采用动态规划算法对其进行优化，通过将待测图像与训练得到的模型进行匹配，即计算其分数的高低，来实现人体特征点的定位。

打分函数如下：

打分函数分为三部分：

第一部分是对将一个部位模板放到图像上的一个指定的位置这一匹配过程进行打分，其中，α_i表示部位i对应的模板，表示从该位置提取得到的图像特征向量，m_i表示部位i的类型。

第二部分表示的是一个估测部位对间相对位置关系的形变模型，其中，θ表示的是树图形结构中相互连接的两个骨架特征点的位置形变特征的权重。γ表示两个部位位置间的形变偏移量，用[dx dy dx² dy²]来表示，dx和dy分别表示两个部位间横向和纵向的偏移，即：

dx＝x_i-x_j

dy＝y_i-y_j

dx²＝(x_i-x_j)²

dy²＝(y_i-y_j)²

第三部分表示的是部位对的先验共现关系。

在对打分函数进行求解时，可能得到多个可行解，每个解对应一个分数值，本发明希望通过找到具有最优值的解来实现最为准确的人体特征点的定位。因此，打分函数的求解是一个动态规划问题，采用动态规划算法对打分函数进行优化和求解，得到的最大分数对应的人体特征点位置的组合即为人体最优姿态。

动态规划算法的核心思想是：将待求解的问题分解为若干个子问题，先对子问题进行求解，通过这些子问题的解得到原问题的解。由于经过分解得到的子问题往往不是相互独立的，因此使用动态规划算法对问题进行求解时，需要将子问题的解保存到一个表中，在需要的时候从表中提取已经得到的解，从而避免大量重复的计算，提高计算效率。

具体步骤如下：

1、找出最优解的性质，并刻画其结构特征，即设计打分函数：

2、构造动态规划方程，将打分函数进行变形，对分数进行递归的定义：

其中，z＝(l,m)，l表示像素点的位置，m表示该像素点的类型；k为i的子节点之一；表示节点i的特征向量的值，γ_ki(z_k,z_i)表示子节点k和其父节点i之间的形变特征向量的值。

3、以自底向上的方式计算出最优值，即最大分数值

求解步骤2的动态规划方程，使用叶子节点作为初始值，从叶子节点开始，向上层层递归，直到得到根节点的分数。

4、根据计算最优值(最大分数)时得到的信息，构造一个最优解。通过步骤3计算得到最大分数值的同时，可以得到对应的像素位置l和类型m。最大分数对应的位置l和m即为希望求得的部位位置和类型(可以理解某个部位的方向，姿态)，即最优解。

本发明提出了一种基于测地距离不变特征的人体姿态估计算法。该算法在传统的图结构模型的基础上，使用混合部位模型，将人体部位分解成若干小的模板块，通过共享模板块，来提高学习的速度并降低学习的难度；此外，将原来的由RGB图像构成的训练集扩展为由对齐的RGB图像和深度图像组成的训练集，基于混合部位模型分别对彩色图像和深度图像提取特征，并进行融合，通过对特征描述方法进行丰富和改进，实现了更为鲁棒的人体姿态估计。以下给出实验数据和数据分析。

1、实验数据

由于当前没有公开的包含对齐的深度图像和彩色图像的人体姿态数据库，本发明采用虚拟人体姿态数据库作为实验数据。

获取人体姿态数据库(包含对齐的深度图像和彩色图像)的方法是，首先使用Smith Micro Poser人体三维动画制作软件建立三维人体模型序列，导出该序列对应的纹理信息，三维模型格式文件(*.obj)，骨骼构成及动作数据文件(*.bvh)，以获取人体模型的纹理信息以及三维信息(包括空间几何信息，关节点名称，通道数目，关节间的相对位置等)。接着，对文件进行解析得到深度图、彩色图及对应的各个特征点位置信息，具体算法为：在三维空间中加载obj文件，将从视点到屏幕点的射线与模型求交，得到三维空间坐标，利用映射矩阵(视点变换矩阵*模型变换矩阵*投影变换矩阵)实现三维空间到二维空间的映射，得到二维图像信息。bvh文件同理。解析得到对齐的彩色图和深度图，以及对应的14个骨架特征点的二维坐标。

人体姿态数据库包括2000幅训练图像和700幅测试图像，包含多样的人体姿态。图像分辨率为150*150。为了准确比较特征点定位准确率，实验选取人体上的14个常用的核心骨架点(头底部、头顶部、左右肩、左右肘、左右手腕、左右跨骨、左右膝盖以及左右脚踝)进行比较。

2、实验结果及分析

为了很好地说明本发明算法的效果，我们将本发明提出的基于测地距离不变特征的人体姿态估计算法，与传统的基于HOG特征的人体姿态估计算法以及基于测地距离不变的深度差值特征的人体姿态估计算法进行比较。传统的基于HOG特征的人体姿态估计算法实验采用上述虚拟数据集中的彩色图像作为训练数据和测试数据，基于测地距离不变的深度差值特征的人体姿态估计算法实验则采用虚拟数据集中的深度图像作为训练和测试数据。

对上述三个实验的结果进行记录，通过计算测试位置和真实位置的整体误差率，测试图像中检测出来的各个人体骨架特征点与真实位置的均值误差、最大均值误差，以及定位效果图，来说明算法的性能。实验结果如下：

为了更好地比较和反映定位的准确度，我们采用两种计算方法来对数据进行对比分析：(a)比较14个人体骨架特征点(头顶部、头底部、左肩、左肘、左手腕、左跨、左膝、左脚踝、右肩、右肘、右手腕、右跨、右膝、右脚踝)的测试数据与真实数据的误差率，即均值误差；(b)比较14个骨架特征点的最大均值误差。

本发明提出的基于测地距离不变特征的人体姿态估计算法的特征点定位的均值误差保持在0.6～4个像素之间，在单个骨架特征点均值误差的比较上,本发明提出的算法整体上优于其他两种算法，14个特征点中除左膝、左脚踝、右膝、右脚踝(lknee、lankle、rknee、rankle)的均值误差大于基于HOG特征的人体姿态估计算法，其他10个特征点的均值误差均小于其他两种算法；基于HOG特征的人体姿态估计算法的特征点定位的均值误差在1.6～5.3个像素之间；基于测地距离不变的深度差值特征的人体姿态估计算法的特征点定位的均值误差在1.6～7.5个像素之间。由上述可知，基于测地距离不变特征的人体姿态估计算法在稳定性上优于其他两种算法，在单个人体骨架特征点定位的准确性上，优于基于测地距离不变的深度差值特征的人体姿态估计算法，部分优于基于HOG特征的人体姿态估计算法。

本发明提出的基于测地距离不变特征的人体姿态估计算法的特征点的最大误差保持在3.6～8个像素范围内，整体上优于其他两种算法。

从定位效果图可以看出，采用本发明算法进行实验得到的定位结果优于其他两种算法。

上述实验结果表明，本发明提出的基于测地距离不变特征的人体姿态估计算法可以实现不同姿态下的人体骨架特征点的定位，通过将彩色图像信息与深度图像信息相融合，实现了更高的鲁棒性以及定位准确度。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种人体姿态估计方法，其特征在于：包括以下步骤：

(3)基于树结构模型构建打分函数，将待检测图像与模型进行匹配，从而实现人体特征定位；

所述步骤(1)中深度特征的提取按照公式(1)获得：

where,

其中，u(x₁,y₁)、v(x₂,y₂)是生成的两个随机像素点，f表示像素点(x_s,y_s)的深度差值特征，该特征与(c_x,c_y,r₁,r₂,θ₁,θ₂,T)这些参数有关，c_x,c_y分别为人体中心点的横纵坐标，r₁,r₂为极坐标系下随机生成的两个半径，θ₁，θ₂为极坐标系下随机生成的两个角度，T为阈值，D为像素点的深度值，α为极坐标轴与图像坐标系x轴正方向的夹角，由起始点(x_s,y_s)，到终止点(c_x,c_y)，的最短路径所确定。

2.根据权利要求1所述的人体姿态估计方法，其特征在于：所述步骤(1)中求解该深度特征的步骤为：采用A*寻路算法找寻人体像素点到人体中心点的最短路径，以最短路径上的某人体像素点与其下一个相邻像素点的连线的方向为极轴建立极坐标系，设定一定的半径R,以起始像素点为中心，在(0,R)和(0,2π)的范围内随机选取半径r和角度θ，以得到两个随机点的极坐标；对坐标系进行旋转变换，将极坐标系下的随机点映射到二维图像坐标系下，得到图像坐标系下的两个随机点的坐标；根据某像素点周围两个随机像素点的深度值计算该像素点的深度差值，并根据通过实验确定的最佳阈值，对深度差值进行0-1化处理，从而得到深度特征描述器，来实现对深度图像的描述。

3.根据权利要求2所述的人体姿态估计方法，其特征在于：所述步骤(2)中采用先局部再整体的训练方法：首先对模型进行初始化，基于特征点树结构连接关系初始化模型参数，计算图像I_i(i＝1,2,......,D)中相邻特征点之间的相对距离：其中D为像素点的深度值，采用相对距离的均值作为图像的I_i特征点标注框大小，将所有图像中相同标号的特征框大小按面积大小排序，选取适当的值作为特征点t的标注框大小，以提取图像中特征点t周围以N_s为边长的矩形框区域的hog特征和深度差值特征；对人体的26个小块使用k-means聚类算法进行聚类，对每一小块的每一类分别进行训练，在进行局部训练时，计算该部分的特征；将局部训练得到的模板连结起来形成树结构，进行整体训练。

4.根据权利要求3所述的人体姿态估计方法，其特征在于：所述步骤(3)中使用线性核函数作为打分函数，并采用动态规划算法对其进行优化，通过将待测图像与训练得到的模型进行匹配，计算其分数的高低，来实现人体特征点的定位。

5.根据权利要求4所述的人体姿态估计方法，其特征在于：所述打分函数分为三部分：第一部分是对将一个部位模板放到图像上的一个指定的位置这一匹配过程进行打分；第二部分表示的是一个估测部位对间相对位置关系的形变模型；第三部分表示的是部位对的先验共现关系。

6.根据权利要求5所述的人体姿态估计方法，其特征在于：采用动态规划算法对打分函数进行优化和求解，得到的最大分数对应的人体特征点位置的组合为人体最优姿态；动态规划算法是将待求解的问题分解为若干个子问题，先对子问题进行求解，通过这些子问题的解得到原问题的解。