CN103345744A

CN103345744A - 一种基于多图像的人体目标部件自动解析方法

Info

Publication number: CN103345744A
Application number: CN2013102449716A
Authority: CN
Inventors: 孙林嘉; 梁晓辉; 刘敏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-06-19
Filing date: 2013-06-19
Publication date: 2013-10-09
Anticipated expiration: 2033-06-19
Also published as: CN103345744B

Abstract

本发明公开了一种基于多图像的人体目标部件自动解析方法，属于计算机视觉和图像处理领域。所述方法在给定多个人体目标图像的基础上，利用目标间存在的共现性，自动地实现图像中人体目标部件解析。所述方法迭代地执行人体目标分类模块和人体目标解析模块，直到达到终止条件。其中，人体目标分类模块实现多个人体目标图像的自动分类。在分类过程中，综合考虑人体目标间的外形相似性和姿态相似性；人体目标解析模块实现每个分类中人体目标部件的自动解析以及不同分类间解析结果的对齐。本发明将对每个人体目标图像的单独解析转变为对多个人体目标图像的同时解析，克服了先学习后推理的传统解析模式所带来的局限性。

Description

一种基于多图像的人体目标部件自动解析方法

术领域

本发明属于计算机视觉和图像处理领域，具体地说本发明是涉及一种在多个图像中自动的实现人体目标部件解析的方法，是人体目标建模等应用的基础技术。

背景技术

图像中的目标解析是计算机视觉和图像理解的一个重要分支，常被用于实现图像中目标的识别、分割和姿态估计。传统的图像目标解析技术需要两个关键的步骤。一个关键步骤是离线的目标部件标注建模过程。另一个关键步骤是在线的目标部件解析推理过程。在离线的过程中，需要执行目标部件的定义和目标部件的标注。目标部件的定义是确定一个目标由哪些基本元素组成。几乎之前所有的工作都从人类认知的角度去定义一个目标的组成元素，所有的组成元素都具有语义。例如，一个人体目标按照解剖学的方式可以定义为头部、躯干和四肢等部件的集合。而且，依据应用的需要目标部件的个数也是不相等的。例如，在人体运动学模型中存在着不同数目的关节部件。在定义好目标部件后，需要手动的对图像中的区域进行标注，指定图像中哪些区域对应哪些部件。在离线标注的基础上，学习构建目标部件表观模型及目标部件关系模型，用于在线的目标部件解析。在在线的过程中，需要对给定的目标执行底层的图像分割过程和高层的部件识别过程。通常利用基于部件的解析模型实现这一过程。例如，星座模型利用概率的形式在相互的几何约束下对目标部件进行推理。同时可将部件的形状、表观和尺度进行参数化，通过训练同时得到三者的具体估计，使得目标部件解析更真实和紧凑。片图模型则包含了肯定数量的、规则形状的部件集合，收集记录了成对部件间的连接关系，方便的获取了目标的各种表观信息，最终利用图的形式进行推理并将部件的这些信息表达出来。

上述传统的目标解析技术是一种先学习后推理的开环模式，其解析过程符合人类对目标事物的认识过程，其缺点主要存在三个方面：第一个方面是在离线学习的标注过程中，手动的标注目标部件在实现上需要耗费大量的人力和时间，并容易在标注过程中引入不确定性。第二个方面是在定义目标部件的时候，利用人类认知定义的目标部件很难在图像中找到对应的实际区域。第三个方面是在解析过程中，需要对每个目标进行单独处理，并且严重依赖于已经构建好的目标模型，且解析过程十分的耗时间。

随着图像采集设备的快速发展和图像数据的不断增多，图像中重复出现的模式为自动地定义和解析目标部件提供了可能。例如，具有相同姿态的人体目标一定是由相同的部件按照相同的布局模式组成的。通过分割多个相同姿态的人体目标并建立一致的解析，就能够找到可能的部件；反过来，按照相同的部件及部件姿态组合形式可以找到多个相同姿态的人体目标。这种同时进行部件定义和目标解析的闭环模式，克服了传统目标部件解析技术中目标部件定义难与图像中实际区域对应的问题以及手动标注方式所带来的高消耗性和不确定性，实现了对多个目标同时进行解析的功能，有利于同时处理多个相关的目标。采用从目标集合中自动地实现部件解析的方法难点在于如何依据目标的姿态对目标进行子类的划分以及如何对目标的结构特征及姿态信息进行描述。在很多方法中只是简单的利用和描述了目标的表观信息，无法建立有效的姿态间的区别，以至于在解析多个目标时找不到合适的部件。

发明内容

本发明所解决的问题是：克服了传统人体目标部件解析技术中人体目标部件定义难与图像中实际区域对应的问题以及手动标注方式所带来的高消耗性和不确定性，本发明提出了一种基于多图像的人体目标部件自动解析方法，该方法利用重复出现的模式自动地定义和解析人体目标部件，综合考虑了人体目标的外形信息和姿态信息，从部件组合模式的角度对目标进行量化，具有区分不同姿态人体目标的优点，达到发现显著人体目标部件的效果，实现了对多个相关目标同时进行解析的功能。

本发明所采用的技术方案是：一种基于多图像的人体目标部件自动解析方法，其特征在于如下步骤：

步骤1、输入人体目标图像集合；对集合中的每个人体目标进行描述，利用基于全局表观信息描述人目标的外形，利用基于局部布局模式描述人体目标的姿态；在第一次描述中，仅仅采用基于全局表观信息的外形描述；在随后的描述中，同时采用基于全局表观信息的外形描述和基于局部布局模式的姿态描述；

步骤2、利用外形描述和姿态描述并给定待分类的个数，采用基于谱聚类的方法对人体目标图像集合进行分类，建立多个人体目标分类集合，每个分类中所包含的人体目标在外形和姿态上是相似的，并为每个人体目标图像设定一个分类标签；

步骤3、收集属于同一个分类的人体目标，对属于同一分类的人体目标执行类内人体目标共解析，利用同一分类中组成人体目标的部件在全局空间关系上是相似的假设，分析和量化每一个人体目标所解析的部件区域的空间关系，发现可能的类内目标部件，得到每个人体目标的中间解析结果；

步骤4、基于每个人体目标的中间解析结果，为每一个分类选定一个解析代表；利用不同分类间人体目标在全局姿态空间变换是连续的假设，分析解析代表间的外形变换和姿态变换，执行类间人体目标解析对齐，在多个分类解析代表间建立部件对齐，将不同分类发现的类内部件进行统一标注，得到每个人体目标的最终解析结果；

步骤5、判断是否满足迭代执行的次数。如果满足，则输出步骤4中得到的人体目标部件解析结果；如果不满足迭代次数，则重复执行从步骤1到步骤4的内容。

进一步的，所述步骤（1）中基于局部布局模式的姿态描述的具体步骤如下：

（1.1）给定一个解析好的人体目标，选择在空间位置上相邻的2个或3个部件并形成一个最小矩形包围盒；利用部件完整性原则和区域面积最小化原则，对最小矩形包围盒进行划分；一个具体的矩形划分就是一个局部的布局实例；

（1.2）给定全部解析好的人体目标，通过在每个人体目标上重复执行部件选择和矩形划分，在全部解析好的人体目标中发现所有的布局实例，形成布局实例集合；

（1.3）对布局实例集合中的每个布局实例进行数值化描述，利用布局实例中子区域的个数、子区域的中心坐标和子区域的边界坐标等几何属性描述每一个布局实例的表观信息，得到几何属性描述符；

（1.4）利用数值化的几何描述符计算布局实例集合中的两两布局实例间的距离，利用K-均值聚类算法将全部的布局实例进行聚类，形成布局模式字典；

（1.5）对每个人体目标,利用最近邻距离计算布局实例属于布局模式字典中的一个具体的布局模式,从而得到该人体目标对应于布局模式字典的描述，将每一个人体目标表示为布局模式的集合。

进一步的，所述步骤（3）中的类内人体目标共解析的具体步骤如下：

（3.1）收集属于同一个分类的人体目标，并对每个人体目标进行图像分割，得到基于像素和区域的双层次描述。为每个人体目标，在像素和区域的基础上构建双层马尔科夫随机场；

（3.2）利用双层马尔科夫随机场为每一个人体目标给定一种可能的部件标注结果；

（3.3）对每一个人体目标的部件标注情况进行全局空间关系描述，以及对每一个部件的几何属性进行描述，形成类内共解析优化函数；

（3.4）基于类内共解析优化函数，发现可能的类内目标部件，得到每个人体目标的中间解析结果。

进一步的，所述步骤（4）中的类间人体目标解析对齐的具体步骤如下：

（4.1）从每一个分类中选择一个人体目标的中间解析结果作为该分类的解析代表；

（4.2）将每一个分类的解析代表表示为无向全联通图形式，每一个部件表示为图中的一个节点，节点间边表示部件间的连接关系；

（4.3）利用图匹配的思想，在外形变换和姿态变换的约束下，对多个分类解析代表执行对齐，使得不同分类中所获得的人体目标部件能够得到一一的对应；

（4.4）将对应后的不同分类发现的类内部件进行统一标注，用统一的标注更新每一个人体目标的中间解析结果，得到最终的人体目标解析结果。

与现有技术相比，本发明的有益效果是：本发明实现了在多个图像中同时实行人体目标自动部件解析功能，克服了传统解析技术中的先定义部件再标注部件最后对单个图像中的人体目标进行解析的过程，将部件定义、部件标注和部件解析建立在一个闭环内。在解放手动标注的同时，使得部件的定义更符合图像中的实际情况，避免高层部件定义与底层图像区域不一致的情况，从而发现了显著的人体目标部件。

附图说明

图1是本发明的整体过程示意图；

图2是本发明的基于局部布局模式的姿态描述示意图，其中，（a）是选择在空间位置上相邻的3个部件；（b）是对3个部件形成一个最小矩形包围盒，并利用部件完整性原则和区域面积最小化原则，对最小矩形包围盒进行划分；（c）是获得的布局实例，每一行代表一类布局模式；

图3是本发明的基于像素和区域的双层马尔科夫随机场示意图；

图4是本发明的部件区域间全局空间关系示意图；

图5是本发明的类间人体目标解析对齐示意图；其中，不同的标号代表不同的部件。

具体实施方式

下面结合附图与实施例对本发明作进一步详细描述：

本发明实施过程包括了两个主要模块，共计四个主要步骤。一个主要模块是人体目标分类模块，包括人体目标描述和人体目标分类两个主要步骤。另一个主要模块是人体目标解析模块，包括类内人体目标共解析和类间人体目标解析对齐。

如图1所示，整个实施过程是一个在人体目标分类模块和人体目标解析模块之间不断迭代的闭环形式。人体目标分类模块为人体目标解析模块提供了在外形和姿态上相似的目标分类集合，而人体目标解析模块则发现同一分类中可能的部件以及不同分类中部件的关系，并为进一步的人体目标分类提供描述基础。每一次迭代，都提高了人体目标分类模块和人体目标解析模块之间的一致性。当满足迭代次数的时候，整个实施过程停止，输出人体目标解析结果。

具体的实施过程如下：

步骤一、人体目标描述。输入人体目标图像集合；对集合中的每个人体目标进行描述。对每个人体目标主要分为外形描述和姿态描述；利用基于全局表观信息描述人目标的外形，利用基于局部布局模式描述人体目标的姿态；在第一次描述中，仅仅采用基于全局表观信息的外形描述；在随后的描述中，同时采用基于全局表观信息的外形描述和基于局部布局模式的姿态描述。

第一种描述为基于全局表观信息的外形描述，主要执行如下步骤：

（1）将每一个人体目标图像分别在灰度空间、RGB色彩空间和LAB色彩空间上对图像进行色彩和伽马归一化，目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时抑制噪音的干扰。最后将图像转化为灰度图像；

（2）对灰度化的图像进行梯度计算操作，获得图像的梯度方向图，捕获人体目标的轮廓信息。最常用的方法是使用一个一维的离散微分模板在一个方向上或者同时在水平和垂直两个方向上对图像进行处理，也可以使用其他一些更复杂的模板进行梯度计算，如3×3Sobel模板或对角线模板；

（3）对人体目标图像构建梯度方向直方图。首先将图像分成小的规则的连通区域，称为细胞单元，例如，每个单元为6×6的正方形像素区域。然后采集细胞单元中各像素点的梯度，并为每个细胞单元构建梯度方向直方图。细胞单元中的每一个像素点都为某个基于方向的直方图通道投票。投票是采取加权投票的方式，即每一票都是带权值的，这个权值是根据该像素点的梯度幅度计算出来。最后把这些细胞单元的直方图组合起来描述人体目标的外形。

第二种描述为基于局部布局模式的姿态描述，主要执行如下步骤：

（1）在人体目标中发现布局实例。利用迭代执行中前一次的解析结果，给定一个解析好的人体目标，像图2（a）和（b）所示，选择在空间位置上相邻的2个或3个部件并形成一个最小矩形包围盒；利用部件完整性原则和区域面积最小化原则，对最小矩形包围盒进行划分；一个具体的矩形划分就是一个局部的布局实例；

（2）给定全部解析好的人体目标，通过部件选择和矩形划分得到全部人体目标中的布局实例；

（3）对每个布局实例进行数值化，得到几何属性描述符。主要从三个方面对布局实例进行数值化，分别是布局实例中子区域的个数、子区域的中心坐标和子区域的边界坐标。其中坐标的顺序采用从上到下，从左到右的顺序记录。这些几何属性描述了子区域的位置及几何分布情况，给出了每一个布局实例的表观信息；

（4）对全部的布局实例进行聚类，形成布局模式字典，如图2（c）所示。利用数值化的几何描述符计算布局实例间的距离，利用K-均值聚类算法将对全部的布局实例进行聚类，聚类结果中的每一个类被看作是一个布局模式，全部的布局模式组成了布局模式字典；

（5）将每一个人体目标表示为布局模式的集合。对每个人体目标,通过最近邻距离计算，将发现的布局实例归属对齐到布局模式字典中的一个具体的布局模式上,从而得到该人体目标对应于布局模式字典的描述。

步骤二、人体目标分类。依据外形描述和姿态描述对人体目标进行分类，将人体目标表示为外形描述和姿态描述具有相同的描述权重的线性组合。其中，在迭代过程中的第一次分类中只考虑外形描述，利用外形描述对人体目标进行分类。在随后的迭代过程中，利用前一次的解析结果获得目标的姿态描述，进而同时利用外形描述和姿态描述进行人体目标的重新分类。给定待分类的个数，采用基于谱聚类的方法对人体目标图像集合进行分类，建立多个人体目标分类集合，每个分类中所包含的人体目标在外形和姿态上是相似的，并为每个人体目标图像设定一个分类标签。主要执行如下步骤：

（1）计算人体目标间的相似性矩阵。采用欧拉距离度量任意两个人体目标的外形距离和姿态距离，在第一次分类中，将外形距离的权重设为1.0，将姿态距离的权重设为0。在随后的分类中，将外形距离和姿态距离的权重全部设为0.5；

（2）构造拉普拉斯矩阵，并对拉普拉斯矩阵进行奇异值分解；

（3）求得拉普拉斯矩阵的前K个最小特征值对应的特征向量，并把K个特征向量放在一起构造一个新的N×K的矩阵M，其中K表示要聚类的个数，N表示描述人体目标的相似性矩阵维数，M表示降维后的人体目标相似性矩阵；

（4）把M的每一行当成一个新的样本点，对这N个新的样本点进行K-Means聚类。

步骤三、类内人体目标共解析。收集属于同一个分类的人体目标，对属于同一分类的人体目标执行类内人体目标共解析，利用同一分类中组成人体目标的部件在全局空间关系上是相似的假设，分析和量化每一个人体目标所解析的部件区域的空间关系，发现可能的类内目标部件，得到每个人体目标的中间解析结果。主要执行如下步骤：

（1）对每个人体目标进行图像分割，得到基于像素和区域的双层次描述。利用像素间的颜色信息、纹理信息和梯度信息作为相似性度量的计算元素，融合图像中的区域线索和边缘线索。同时考虑了像素在图像中的位置线索，使得分割出的同一种区域在空间关系上是连续的。在设定图像分割区域的数目后，利用蒙特卡洛采样的方法对人体目标进行图像分割；

（2）为每个人体目标，在像素和区域的基础上构建双层马尔科夫随机场，如图3所示。在对像素和区域进行部件的标注的过程中，利用空间尺度一致性约束，使得像素和其归属的区域标注为同一部件；

（3）对标注好的每一个人体目标的部件分布情况进行描述。如图4所示，将人体目标图像以图像中心为参照，由中心向外围扩展划分成3个范围，即中心范围，近邻范围和远邻范围，再将为每个范围划分4个区域，即上、下、左、右。共计12个区域，统计每个区域中每个部件的像素个数，形成一个一维的统计直方图；

（4）获取每一个人体目标部件的几何属性。主要从三个方面描述部件的几何属性，分别是部件的面积、部件的中心位置坐标和部件的主方向。对每一个几何属性进行归一化处理，使其具有尺度不变的性质；

（5）在同分类的人体目标间，利用部件区域间的全局空间关系描述，来判断每个人体目标部件标注的结果在全局空间关系上是否一致。通过最优化获得类内人体目标部件解析结果。整个类内共解析优化函数定义为：

E (L | S, I) = Σ_{i = 1}^{N} E (L_{i} | S_{i}, A_{i}) + \underset{i, j}{Σ} E (L_{i}, L_{j} | S_{i}, S_{j}) - - - (1)

其中，第一项表示对分割后的每一个人体目标S_i，基于其特征A_i进行部件标注L_i，从像素层、区域层和尺度层三个方面定义了部件标注过程，具体定义如下：

E(L_i|S_i,A)＝E^pixel+E^region+E^scale （2）

E^{pixel} = Σ_{u = 1}^{U} - (\log (P (l_{u} | p_{u}, A_{k}^{C})) + \log (P (l_{u} | p_{u}, A_{k}^{L}))) + \underset{u, w}{Σ} (1 - δ (l_{u}, l_{w} | p_{u}, p_{w})) - - - (3)

E^{region} = Σ_{y = 1}^{Y} - \log (P (l_{y} | r_{y}, A_{k}^{T})) + \underset{y, z}{Σ} (1 - δ (l_{y}, l_{z} | r_{y}, r_{z})) - - - (4)

E^{scale} = \underset{u, y}{Σ} (1 - δ (l_{u}, l_{y} | p_{u} &Element; r_{y})) - - - (5)

其中，I表示一个人体目标图像，S表示在像素和区域的基础上构建的双层马尔科夫随机场，L表示一个可能的解析结果，p表示一个像素，r表示一个区域，A^C表示一个像素的颜色特征，A^L表示一个像素的位置特征，A^T表示一个区域的纹理特征，P(*)则表示一个像素或区域依据其颜色特征、位置特征或纹理特征属于一个部件的概率。δ(*)是狄利克雷函数。

第二项表示同一分类中人体目标标注间的一致性判断，具体定义如下：

E (L_{i}, L_{j} | S_{i}, S_{j}) = x^{2} (H_{i}, H_{j} | S_{i}, S_{j}) + Σ_{k = 1}^{K} (| \frac{a_{i}^{k} - a_{j}^{k}}{a_{I}} | + | \frac{c_{i}^{k} - c_{j}^{k}}{x_{I}} | + | \frac{d_{i}^{k} - d_{j}^{k}}{x_{I}} |) - - - (6)

其中，H表示一个人体目标解析的全局空间关系描述，a表示图像或部件的面积，C表示图像或部件的中心坐标，d图像或部件的方向坐标，χ²(*)表示直方图间的卡方距离函数。

步骤四、类间人体目标解析对齐。基于每个人体目标的中间解析结果，为每一个分类选定一个解析代表；利用不同分类间人体目标在全局姿态空间变换是连续的假设，分析解析代表间的外形变换和姿态变换，执行类间人体目标解析对齐，在多个分类解析代表间建立部件对齐，将不同分类发现的类内部件进行统一标注，得到每个人体目标的最终解析结果。主要执行如下步骤：

（1）选择人体目标解析代表。为每一个分类，选择一个人体目标解析结果作为该类的代表。首先对每一个人体目标解析结果进行描述，分别利用步骤一中的基于全局表观信息的外形描述和基于局部布局模式的姿态描述进行描述。接着计算任意两个人体目标间的距离，包括外形距离和姿态距离。该距离还包括了局部姿态模式的位置信息、面积信息和表观信息。最后，利用到其他人体目标距离之和最小原则，找到一个人体目标作为该分类的解析代表；

（2）构建人体目标解析代表图。将人体目标解析代表表示为无向全联通图形式。将选择的每一个人体目标解析代表的每一个部件描述为图中的一个节点，节点间边表示部件间的连接关系，将部件间的姿态描述模式量化为边的权重；

（3）基于外形和姿态变换约束的解析代表对齐。对多个分类解析代表执行匹配，使得不同分类中所获得的人体目标部件解析结果能够得到一一的对应。如图5所示，对人体目标外形进行对齐。提取人体目标外形轮廓，并将轮廓表示为离散的点集。利用迭代最近点算法建立两个轮廓点集之间的对齐关系；对人体目标姿态进行对齐。提取局部部件间的布局模式，同样将布局模式表示为离散的点集。利用迭代最近点算法建立两个布局点集之间的对齐关系；综合两种对齐，使得对齐的成本最小，得到不同人体目标间部件的对应关系；

（4）将对应后的不同分类发现的类内部件进行统一标注，用统一的标注更新每一个人体目标的中间解析结果，得到最终的人体目标解析结果。

步骤5、判断是否满足迭代执行的次数。如果不满足迭代次数，则重复执行步骤1---步骤4。如果满足，则输出步骤4中得到的人体目标部件解析结果；

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多图像的人体目标部件自动解析方法，其特征在于实现步骤如下：

步骤1、输入人体目标图像集合，对集合中的每个人体目标进行描述，利用基于全局表观信息描述人目标的外形，利用基于局部布局模式描述人体目标的姿态；

步骤2、给定分类个数，根据步骤（1）得到的人体目标外形和姿态描述结果对人体目标图像集合进行分类，建立多个人体目标分类集合，使得每个人体目标图像都有一个分类标签；

步骤3、根据步骤（2）收集属于同一个分类的人体目标，对属于同一分类的人体目标执行类内人体目标共解析，发现可能的类内目标部件，得到每个人体目标的中间解析结果；

步骤4、根据步骤（3）得到的每个人体目标的中间解析结果，执行类间人体目标解析对齐，将不同分类发现的类内部件进行统一标注，得到每个人体目标的最终解析结果；

步骤5、判断是否满足迭代执行的次数，如果满足，则输出步骤4中得到的人体目标部件解析结果；如果不满足迭代次数，则重复执行从步骤1到步骤4的内容。

2.根据权利要求1所述的一种基于多图像的人体目标部件自动解析方法，其特征在于：所述步骤1中的基于局部布局模式的姿态描述，具体实现为：

3.根据权利要求1所述的一种基于多图像的人体目标部件自动解析方法，其特征在于：所述步骤3中的类内人体目标共解析，具体实现步骤包括：

4.根据权利要求1所述的一种基于多图像的人体目标部件自动解析方法，其特征在于：所述步骤4中的类间人体目标解析对齐，具体实现步骤包括：