CN105117694A

CN105117694A - 一种结合旋转不变性特征的单张图片人体姿态估计方法

Info

Publication number: CN105117694A
Application number: CN201510502639.4A
Authority: CN
Inventors: 梁晓辉; 郭承禹; 阮松松; 冯小雪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-08-16
Filing date: 2015-08-16
Publication date: 2015-12-02
Anticipated expiration: 2035-08-16
Also published as: CN105117694B

Abstract

本发明是一种结合旋转不变性特征的单张图片人体姿态估计方法，该方法首先对旋转图像进行分析，构建旋转不变性梯度特征；其次结合旋转不变性特征及HOG特征对单张图像中的人体部件建立表象模型，并基于姿态先验构建柔性混合模型，从而估计出输入图像中的人体二维姿态。本发明的特点是提出了一种结合旋转不变性特征的物体识别方法，然后利用此特征对单张图片进行人体姿态估计。

Description

一种结合旋转不变性特征的单张图片人体姿态估计方法

技术领域

本发明属于计算机物体识别领域。

背景技术

从图像或视频中对人体姿态进行估计为机器理解人类非语言活动提供了一种有效的途径，其不仅对学习人类如何感知、学习、行为具有较高的科学价值，且对人类的社会活动及关系分析具有深远的意义。基于图像及视频进行人体姿态估计，进而对人体运动、行为进行分析已被广泛应用于人机交互、智能监控、影视制作、医学疗理等领域。

然而，由于人体结构和运动本身的复杂性，同时，基于单目图像中的三维信息丢失、人体外观服饰不一、自遮挡、人体胖瘦等原因，尚存在识别准确度低、姿态估计不准确等很多问题。当前基于普通单目图像进行人体姿态估计方法主要分为两大类：基于模型的方法和基于非模型的方法。

其中基于模型的方法使用先知的人体知识对人体姿态进行估计，其过程包括建模和估值两个步骤，建模过程需要依据相机视点模型、图像描述符、人体结构模型、匹配函数和人体约束等信息构造似然函数，估值过程则根据似然函数找到最大可能性的人体姿态。

相比基于模型的方法，非模型的方法没有使用已知的人体模型，而是直接建立图像信息和人体姿态间的关系。主要包括基于学习的方法和基于样例的方法。基于学习的方法通常从训练数据中直接构建从图像空间到姿态空间的映射函数。而基于样例的方法在避免此类映射的同时通过收集样本以及相应的姿态描述符建立数据库，在给定输入图像的情况下在数据库中进行相似性搜索并通过对候选姿态插值获取姿态估计结果。非模型方法在处理某类特定运动(如行走，跑步等)时具有较高的效率和准确性，并且由于该模型不需要进行初始化，从而无需处理初始化问题，因而其结果可以被用在基于模型的方法的初始化步骤中。然而，非模型的方法过于依赖背景提取等预处理过程的效果，且对于运动姿态的泛化能力弱，在存在多样化运动的复杂场景中存在局限和不足。

作为目前主要的研究方法，基于模型的方法因为其从人们的先验知识中学习从而对人体姿态进行估计，通过考虑人体表象信息及结构、视点信息和人体运动相关性来降低搜索空间，得到广泛应用。其大多数基于HOG特征进行人体部件特征描述，使用图案结构模型(PictorialStructureModel,PSM)对部件间关系进行构建，然而由于人体姿态复杂多样，部件可能以任意角度出现，传统的使用非旋转不变特征——HOG特征对人体部件进行描述不能有效地编码部件在不同角度下的相似性，因此，本发明目的是引入旋转不变性特征对人体部件进行描述，同时结合传统的柔性混合模型进行人体姿态估计。

发明内容

本发明的目的：引入旋转不变性特征对人体部件进行描述，增加其对人体部件物体的描述能力，从而应用到人体姿态估计当中。

为了达到上述目的，本发明提出了一种结合旋转不变性特征的单张图片人体姿态估计方法，该方法能同时结合HOG特征对局部非旋转属性的描述能力，同时结合FourierHOG对相同部件旋转不变属性进行描述，从而构建出一个人体姿态估计模型，完成单张图像的人体姿态估计任务。

一种结合旋转不变性特征的单张图片人体姿态估计方法，其特征在于包括以下步骤：

步骤(1)、对旋转图像进行分析，构建基于傅里叶分析的旋转不变性特征，并结合HOG特征构建人体部件表象模型；

步骤(2)、结合人体部件的混合类型及位置标注，构建基于姿态先验的人体形变模型——柔性混合模型，对人体部件间约束进行描述；

步骤(3)、在单张图像的人体姿态估计应用中，根据步骤(1)中图像特征的表象模型和步骤(2)中的姿态先验形变模型估计当前输入图像的表象评分，并以该评分结果为指导进行人体二维姿态估计。

附图说明

图1为本发明的结合旋转不变性特征的单张图片人体姿态估计方法的整体过程示意图。

具体实施方式

下面结合附图与表对本发明作进一步详细描述：

本发明实施过程包括三个步骤：人体部件表象模型的构建，人体形变模型的构建与训练，人体姿态估计过程中基于表象模型及人体形变模型的姿态估计。图1展示了本发明的整体过程示意图。

步骤一：建立人体部件表象模型：

第一阶段：计算图像梯度并进行局部归一化处理，然后将其映射到傅里叶空间，公式如下：

| | D (x) | | = | | D (x) | | / \sqrt{| | D (x) | |^{2} * K}

其中D(x)为图像I的梯度，即D(x)＝▽I，||D(x)||为图像梯度幅值，K为一个平滑卷积核；

F_m(x)＝||D(x)||e^-imΦ(D(x))

将前面得到的归一化梯度映射到傅里叶空间，其中Φ(D(x))为图像梯度方向，m我们选择傅里叶空间前7个域m∈{0,1,2,3,4,5,6}，其中F_m(x)维度为I_sizex×I_sizey*7，I_sizex及I_sizey为图像I在x和y方向的大小。

第二阶段：分别针对每个傅里叶空间计算区域旋转不变性特征，对每个(A1)中得到的傅里叶空间域内的梯度信息计算图像的区域特征：

B_i＝U_j,k*F_m

其中U_j,k为傅里叶基底函数，其中r为构建傅里叶基函数的径向距离，为相对于中心的角度，j表示傅里叶基底函数的第j个半径，而k表示基底函数的第k个角度，其中j对应三个不同尺度下的傅里叶基底函数，各尺度间的相隔半径为9个像素。在卷积过程中，取-6≤k-m≤6，其组合数为64种，从而得到B大小为I_sizex×I_sizey*64*3。

第三阶段：根据图像梯度在不同傅里叶基函数下的卷积结果，可将图像中每点的区域特征分为实数部分及虚数部分，对区域特征实数部分和虚数部分分别取实数值，从而构建出对于图像I中每个像素点区域的旋转不变性特征，大小为I_sizex×I_sizey*384，名为FourierHOG特征；

第四阶段：对图像同时计算HOG特征，将前面的FourierHOG与HOG特征连接成一个特征向量，使整个特征向量既包含对图像非旋转属性的描述，又包括旋转不变性属性的描述，使图像特征对人体部件具有较好的表征能力，从而构建出人体部件表象模型。

步骤二：定义人体姿态能量函数，构造出人体形变模型：

第一阶段：针对部件共现模型构建部件布局能量函数：

S (t) = \underset{i &Element; V}{Σ} b_{i}^{t_{i}} + \underset{i j &Element; E}{Σ} b_{i j}^{t_{i} t_{j}}

其中为部件i对应的类型t_i下的能量值，而部件间的能量值表示为两个部件i和j共现情况下的能量值V及E代表人体部件间的关系，即G＝(V,E)，代表人体是由多个关节点组成的树状图，也用其来表示部件之间的约束关系。

第二阶段：建立完部件间共现模型之后，人体姿态的整体能量函数就可表示为：

其中φ(I,p_i)表示从图像I中提取位置p_i＝(x,y)时的特征向量，而为部件i相对于部件j的相对位移，其为到此我们便构造完人体部件形变模型。

在进行形变模型能量函数构造时，通过第二阶段中的能量函数能有效地对人体部件间的关系进行描述，但如何使能量函数最大化，此处采用公式如下：

{score}_{i} (t_{i}, p_{i}) = b_{i}^{t_{i}} + w_{t_{i}}^{i} \cdot φ (I, p_{i}) + \underset{k &Element; k i d s (i)}{Σ} m_{k} (t_{i}, p_{i})

其中kids(i)为关系图G中部件i的孩子节点，j为其父节点，首先对部件i的所有可能的位置p_i及类型t_i计算其对应的能量值，并从孩子节点迭代收集能量到父节点，从而求得分数最高的部件位置及类型。

步骤三：在人体姿态估计过程中，结合步骤一及步骤二的模型估计人体姿态：

第一阶段：在学习过程中，针对正样本的图像、部件位置、部件类型，即{I_n,p_n,t_n}进行学习，设z_n＝(p_n,t_n),β＝(w,b),我们可以将公式5写成S(I,z)＝β·Φ(I,z)，优化模型如下：

\arg \underset{w, ξ_{i} &GreaterEqual; 0}{m i n} \frac{1}{2} β \cdot β + C \underset{n}{Σ} ξ_{n}

s . t . &ForAll; n &Element; p o s, β \cdot Φ (I_{n}, z_{n}) &GreaterEqual; 1 - ξ_{n}

&ForAll; n &Element; n e g, β \cdot Φ (I_{n}, z) \leq - 1 + ξ_{n}

基于上式约束，对于正样本其分数应大于1，对于负样本其分数值应小于-1。

第二阶段：对新输入的测试图像，便可以基于步骤(1)的表象模型提取图像特征，计算不同部件在不同位置、不同类型的最大能量，从而估计出人体二维姿态信息，从而恢复人体骨架。本发明结合旋转不变性特征对单张图片中人体姿态进行估计。

Claims

1.一种结合旋转不变性特征的单张图片人体姿态估计方法，其特征在于包括以下步骤：

2.根据权利要求1所述的结合旋转不变性特征的单张图片人体姿态估计方法，其特征在于：所述步骤(1)中对旋转不变性特征的构建方法，具体如下：

步骤(A1)、计算图像梯度并进行局部归一化处理，然后将其映射到傅里叶空间；

| | D (x) | | = | | D (x) | | / \sqrt{| | D (x) | |^{2} * K} - - - (1)

其中D(x)为图像I的梯度，即||D(x)||为图像梯度幅值，K为一个平滑卷积核；

F_m(x)＝||D(x)||e^-imΦ(D(x))(2)

将前面得到的归一化梯度映射到傅里叶空间，其中Φ(D(x))为图像梯度方向，m选择傅里叶空间前7个域，m∈{0,1,2,3,4,5,6}，其中F_m(x)维度为I_sizex×I_sizey*7，I_sizex及I_sizey为图像I的x和y方向的大小；

步骤(A2)、分别针对每个傅里叶空间计算区域旋转不变性特征，对每个(A1)步骤中得到的傅里叶空间域内的梯度信息计算图像的区域特征；

B_i＝U_j,k*F_m(3)

其中U_j,k为傅里叶基底函数，其中r为构建傅里叶基函数的径向距离，为相对于中心的角度，j表示傅里叶基底函数的第j个半径，而k表示基底函数的第k个角度，其中j对应三个不同尺度下的傅里叶基底函数，各尺度间的相隔半径为9个像素。在卷积过程中，取-6≤k-m≤6，其组合数为64种，从而得到B大小为I_sizex×I_sizey*64*3；

步骤(A3)、根据图像梯度在不同傅里叶基函数下的卷积结果，将图像中每点的区域特征分为实数部分及虚数部分，对区域特征实数部分和虚数部分分别取实数值，从而构建出对于图像I中每个像素点区域的旋转不变性特征，大小为I_sizex×I_sizey*384；对它们分别取长度值从而构建出实数值的旋转不变性特征向量，名为FourierHOG特征；

步骤(A4)、对图像同时计算HOG特征，将前面的FourierHOG与HOG特征连接成一个特征向量，使整个特征向量既包含对图像非旋转属性的描述，又包括旋转不变性属性的描述，从而构建出人体部件表象模型。

3.根据权利要求1所述的一种结合旋转不变性特征的单张图片人体姿态估计方法：其特征在于：所述步骤(2)构造人体部件形变模型——柔性混合模型的步骤具体如下：

步骤(B1)、针对部件共现模型构建部件布局能量函数：

S (t) = \underset{i &Element; V}{Σ} b_{i}^{t_{i}} + \underset{i j &Element; E}{Σ} b_{i j}^{t_{i} t_{j}} - - - (4)

其中为部件i对应的类型t_i下的能量值，而部件间的能量值表示为两个部件i和j共现情况下的能量值V及E代表人体部件间的关系，即G＝(V,E)，代表了由多个关节点组成的关系图，用其来表示部件之间的约束关系；

步骤(B2)、建立完部件间共现模型之后，人体姿态的整体能量函数就可表示为：

其中φ(I,p_i)表示从图像I中提取位置p_i＝(x,y)时的特征向量，而为部件i相对于部件j的相对位移，其为到此便构造完人体部件形变模型；

步骤(B3)、在进行形变模型能量函数构造时，通过(B2)中的能量函数能有效地对人体部件间的关系进行描述，为了使能量函数最大化，此处采用公式如下：

{score}_{i} (t_{i}, p_{i}) = b_{i}^{t_{i}} + w_{t_{i}}^{i} \cdot φ (I, p_{i}) + \underset{k &Element; k i d s (i)}{Σ} m_{k} (t_{i}, p_{i}) - - - (6)

4.根据权利要求1所述的一种结合旋转不变性特征的单张图片人体姿态估计方法，其特征在于：所述步骤(3)中基于步骤(1)的部件表象模型及步骤(2)中的人体形变模型，在人体姿态估计学习应用中的步骤如下：

步骤(C1)、在学习过程中，针对正样本的图像、部件位置、部件类型，即{I_n,p_n,t_n}进行学习，设z_n＝(p_n,t_n),β＝(w,b)，将公式(5)写成S(I,z)＝β·Φ(I,z)，优化模型如下：

\arg \underset{w, ξ_{i} &GreaterEqual; 0}{m i n} \frac{1}{2} β \cdot β + C \underset{n}{Σ} ξ_{n}

s . t . &ForAll; n &Element; p o s, β \cdot Φ (I_{n}, z_{n}) &GreaterEqual; 1 - ξ_{n} - - - (8)

&ForAll; n &Element; n e g, β \cdot Φ (I_{n}, z) \leq - 1 + ξ_{n}

基于上式约束，对于正样本其分数应大于1，对于负样本其分数值应小于-1；

步骤(C2)、对新输入的测试图像，基于步骤(1)的表象模型提取图像特征，计算不同部件在不同位置、不同类型的最大能量，从而估计出人体二维姿态信息，从而恢复人体骨架。