CN108647663A

CN108647663A - 基于深度学习和多层次图结构模型的人体姿态估计方法

Info

Publication number: CN108647663A
Application number: CN201810476203.6A
Authority: CN
Inventors: 何立火; 戴慧冰; 高新波; 邢志伟; 钟炎喆; 路文; 郭兆骐
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-10-12
Anticipated expiration: 2038-05-17
Also published as: CN108647663B

Abstract

本发明公开了一种基于深度学习和多层次图结构模型的人体姿态估计方法，主要解决人体姿态估计精度较低的问题。其包含：1)重新定义人体部件，将人体部件分为组合部件和关节点两种类型；2)利用卷积神经网络对人体部件进行分类和定位，并输出人体各部件的候选坐标；3)设计多层次图结构模型；4)对每一个人体部件，利用设计的多层次图结构模型，计算卷积神经网络输出的候选坐标属于人体部件最终坐标的所有概率，从中选取该部件的最高概率，将最高概率对应的候选坐标取做该部件的最终坐标，并输出，得到人体的姿态估计结果。实验结果表明，本发明能获得高精度的人体姿态估计结果，可用于行为识别、人机交互、运动分析领域中对人体姿态的估计。

Description

基于深度学习和多层次图结构模型的人体姿态估计方法

技术领域

本发明属于图像识别领域，特别是一种人体姿态估计方法，可用于虚拟现实、体育训练、辅助医疗、数字娱乐和运动场景下对人体姿态的估计。

背景技术

随着信息化时代的迅速发展，人类每时每刻都在通过多种多样的手段和途径获得海量的可视化图像数据，这使得基于自然场景图像的人体姿态估计研究在现实生活中拥有很多潜在的应用价值。但是，许多年来学者们在人体姿态估计领域的研究成果却远远跟不上市场的需求，主要原因是实现人体姿态估计的过程中常常会面临一些难以解决的干扰因素。人体本身形态的多样性，是影响人体姿态估计结果的重要因素。体型的胖瘦、衣服的宽松以及不同的拍摄视角，都可能带来人体外观的局部形变，使得提前训练好的模型丧失表征人体结构的能力，造成了人体姿态估计精度下降的现象。另外，遮挡问题也极大地增加了人体姿态估计的难度。当遮挡情况发生时，图像中表示某一个人体部件的像素点将很难和对应的人体部件模板相匹配，最终导致人体姿态估计精度的下滑。此外，在自然图像中，当背景图像过于复杂、光照条件明暗不一、或拍摄的人物尺度过小等不利因素发生时，都难以获得鲁棒、高精度的人体姿态结果。总之，一方面人体姿态估计领域具备许多潜在的应用价值，另一方面现有的人体姿态估计技术还远远不够成熟，完全实现鲁棒、高精度的人体姿态的估计仍面临着极大的挑战。因此，针对自然场景图像中的人体姿态估计过程展开深入的研究，符合社会市场的实际需求，具有重要的意义。

现有的人体姿态估计方法，可归于以下其中之一或两者都具备的范畴：一是从目标检测的角度来解决自然场景图像中的人体姿态估计问题；二是利用传统的图结构模型来描述自然场景图像中的人体姿态估计过程。

从目标检测的角度，可以将人体各部件以及关节点看作是独立的物体，仅仅检测出它们的位置即可获得人体姿态估计的结果。基于深度学习网络优良的特征提取特性，研究者们常常采用深度学习网络作为人体姿态估计过程中的目标检测器。2014年Toshev和Szegedy等人提出了一个具有循环结构的卷积神经网络，首先将自然图像作为该卷积神经网络的输入可以得到粗略的人体姿态，随后将初步得到的人体姿态重新输入到同一个卷积神经网络中，依此循环直到满足网络的输出条件。该方法将人体姿态问题转化为目标检测问题，从人体的全局出发，通过训练学习得到一个估计人体姿态的回归器。该方法的提出，将人体姿态估计的研究进程向前推进了一大步，开辟了新的研究思路。但是同时也可以发现，该方法不仅模型可扩展性差不利于后期的改进工作，而且直接在输入图像中检测人体关节点的做法难以得到高精度的人体关节定位结果。2017年He等人开发了一种用于目标检测分割掩膜区域卷积神经网络Mask R-CNN，该框架同时也很好地解决了多人图像中的人体姿态估计问题。Mask R-CNN是在原有的更快速区域卷积神经网络Faster R-CNN的网络结构上进行改造的，唯一的区别是在每一个感兴趣区域中增加一个用于预测分割的子结构。该方法将人体姿态估计问题转化为关节点检测问题，使用目标检测分割网络Mask R-CNN很好地解决了人体姿态估计的问题。

采用深度卷积神经网络来检测人体单个部件以及关节点的位置，能够在实验的精度上保证人体姿态估计的效果。但从理论分析上可以看出，仅仅把静态图像中的人体姿态估计归结于目标检测的问题，这种做法忽略了各关节点的空间约束关系，必然会导致人体姿态估计精度的下降。特别地，当物体自遮挡或者物体间相互遮挡的情况发生时，深度学习网络基本无法检测到人体部件或者关节点从而不能很好地完成静态图像中的人体姿态估计。

传统的图结构模型为自然场景图像中的人体姿态估计提供了优雅的框架。由部件外观模型以及确定人体部件间的空间约束模型两部分组成，即先采用似然度观测项获取人体部位的候选位置，再通过人体空间结构的先验项推断出人体部位的确切位置。图结构模型是由Felzenszwalb和Hutenlocher等人提出的，该模型是目前应用最广泛的模型，也是人体姿态估计领域研究的重点。图结构模型把人体分解为一些相互连接的关节点，由部件的外观模型、部件间的几何约束关系和图推理这三大部分组成。该模型不仅使用马尔科夫网络进行建模，而且采用快速有效的图推理，可以灵活地表示任意的人体姿态。该图结构模型的提出，将人体姿态估计推到了一个新的水平，并形成了一个围绕图结构模型的热门研究课题。之后，很多基于图结构模型的工作主要对部件的外观模型和部件间的几何约束关系进行了改进。

然而，仅仅使用传统的图结构模型对自然场景图像中的人体姿态进行估计，很难取得显著的效果。主要原因是，传统的图结构模型通常采用方向梯度直方图HOG特征提取边缘来建立部件的观测模型，很难全面地描述人体部件的外观特性。

总而言之，不论是利用深度学习网络从目标检测角度提升人体姿态估计的精度，还是通过具有理论优势的图结构模型，都正促使着人体姿态估计领域快速地发展。但是，如何在表征人体的理论数学模型和提升估计结果的精度上同时取得突破，是人体姿态估计领域努力的终极目标。因此，人体姿态估计领域在未来的工作中还有很大的研究发展空间。

发明内容

本发明的目的在于针对当前自然场景图像中人体姿态估计效果不佳的问题，提出一种基于深度学习和多层次图结构模型的人体姿态估计方法，以从部件检测和人体空间结构两方面提高自然图像中人体姿态估计的精度。

实现本发明目的的技术方案是：根据深度学习网络良好的特征提取特性以及图结构模型描述复杂人体结构的适用性，先采用卷积神经网络回归出人体各部件在图像中的候选坐标，再设计一种多层次的图结构模型，从得到的人体各部件候选坐标中计算出每一个部件的最终坐标。其实现步骤包括如下：

(1)将传统的人体部件类型重新进行定义，即把人体部件分为组合部件和关节点两种类型；

(2)利用由5层卷积层、2层下采样层和3层全连接层组成的卷积神经网络，对(1)中重新定义的人体部件进行分类和定位，并输出人体各部件的候选坐标：

2a)根据步骤(1)中定义的人体部件类型以及公开数据库中现成的人体各个部件的位置坐标，将包含人体的自然图像裁剪成包含各个人体部件的图像块和包含背景的图像块，作为2c)中卷积神经网络的输入；

2b)建立关于所有人体部件的状态空间S，通过所有人体部件的状态空间S为每个人体部件定义一个全局ID号；

2c)根据2b)所有人体部件的状态空间S以及公开数据库中现成的人体各个部件的位置坐标，对2a)裁剪得到的图像块进行标注，其标注信息包括部件类型、部件的位置坐标以及2b)中的全局ID号；

2d)将2c)带有标注信息的图像块作为卷积神经网络的输入，对该卷积神经网络进行训练，得到训练好的卷积神经网络；

2e)将整幅包含人体的自然图像输入到2d)训练好的卷积神经网络中，对人体各部件以及背景像素进行分类和定位，输出整幅自然图像中人体各部件的候选坐标；

(3)设计多层次图结构模型，其中，第一层，将整个人体作为根节点；第二层，将整个人体分解为三个大的组合部件，第三层，将三个大的组合部件继续分解为小的组合部件；第四层，将小的组合部件分解为其所对应的关节点；

(4)对每一个人体部件，利用(3)设计的多层次图结构模型，计算(2)中卷积神经网络输出的候选坐标属于人体部件最终坐标的所有概率，从中选取该部件的最高概率，将最高概率对应的候选坐标取做该部件的最终坐标，并输出。

本发明具有如下优点：

1)提高了人体姿态估计精度。

传统的方法通常只单一使用深度学习或图结构模型对自然场景图像中的人体姿态进行估计。

基于深度学习网络优良的特征提取特性，使用深度学习网络直接输出人体各部件的位置，能够获得良好的人体姿态估计效果。但这种做法把人体姿态估计问题归结于目标检测的问题，忽略了人体姿态估计过程中人体各部件间的几何约束关系，必然会导致人体姿态估计精度的下降。

图结构模型虽然为描述复杂的人体结构提供了一个优雅的框架，但由于传统的图结构模型通常采用方向梯度直方图HOG特征对人体各部件的外观进行建模，很难全面地描述无约束环境中人体部件的外观变化，难以获得高精度的人体姿态估计效果。

本发明将将深度学习和图结构模型相融合，用于人体姿态估计，使得深度学习和图结构模型优势互补，同时从单一人体部件的检测精度和人体各部件间的几何约束两方面提高人体姿态估计的效果，能够获得更高的人体姿态估计精度。

2)更全面地描述了复杂的人体结构。

传统的图结构模型只采用单层的描述方式描述人体结构，难以全面地描述无约束环境下人体姿态的变化。

本发明中的多层次图结构模型，包含了4层：整个人体、大的组合部件、小的组合部件、关节点，从整张图像、图像块、边缘到像素点的概念出发，由粗到精地分解复杂的人体结构，能对复杂的人体结构进行更全面的描述。

附图说明

图1是本发明的实现流程图；

图2是现有卷积神经网络的结构示意图；

图3是本发明中所设计的多层次图结构模型示意图；

图4是本发明实验中使用的客观评价标准PDJ示意图；

图5是用本发明对人体姿态估计的实验结果图。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1.定义人体部件类型。

将传统的人体部件类型重新进行定义，即把人体部件分为组合部件和关节点两种类型，其中组合部件包括整个人体、左半身、头、左臂、右半身、头、右臂、腿、左腿和右腿，关节点包括头顶、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝。

步骤2.利用卷积神经网络，获得人体各部件的候选坐标。

如图2所示，现有卷积神经网络由5层卷积层、2层下采样层和3层全连接层组成，利用该卷积神经网络，获得人体各部件候选坐标的实现步骤如下：

2a)根据步骤1中定义的人体部件类型以及公开数据库中现成的人体各个部件的位置坐标，将包含人体的自然图像裁剪成包含各个人体部件的图像块和包含背景的图像块，作为卷积神经网络的输入；

2b)建立关于所有人体部件的状态空间S，以对人体各部件定义一个全局ID号：

2b1)建立一类人体部件的状态空间：

令N表示人体部件的类型个数，c表示输入的图像块中包含的人体部件，j表示第一个与人体部件c直接相连的人体部件，k表示第二个与人体部件c直接相连的人体部件，且c,j,k∈{0,1,…,N}，P_cj表示c与j的连接类型个数，P_ck表示c与k的连接类型个数，M_c表示人体部件c对应的状态空间，其取值根据人体部件c在整个人体中所属的节点类型确定：

当人体部件c是叶子节点，且仅与第一个部件j有直接的连接关系时，则状态空间M_c＝{1,…,P_cj}；

当人体部件c是中间节点，且同时与第一个部件j、第二个部件k都有直接的连接关系时，则状态空间M_c＝{1,…,P_cj}×{1,…,P_ck}；

2b2)根据2b1)得到所有人体部件的状态空间S：

其中，表示人体部件c从0到N取遍所有的人体部件类型的集合；

2b3)利用所有人体部件的状态空间S，得到每个人体部件在整个人体中所属的节点类型，再根据每个人体部件所属的节点类型为该人体部件定义一个对应的全局ID号；

2e)将整幅包含人体的自然图像输入到2d)训练好的卷积神经网络中，对人体各部件以及背景像素进行分类和定位，输出整幅自然图像中人体各部件的候选坐标。

步骤3.设计多层次图结构模型。

如图3所示，本发明所设计的多层次图结构模型包括如下4层：

第一层，将整个人体作为根节点；

第二层，将整个人体分解为三个大的组合部件，即左半身、右半身、腿；

第三层，将三个大的组合部件继续分解为小的组合部件，即左半身分解为头部和左手臂，右半身分解为头部和右手臂，腿分解为左腿和右腿；

第四层，将小的组合部件进一步分解为其所对应的关节点，即头部分解为头顶和脖子，左手臂分解为左肩、左手肘和左手腕，右手臂分解为右肩、右手肘和右手腕，左腿分解为左臀、左膝和左脚踝，右腿分解为右臀、右膝和右脚踝。

步骤4.利用多层次图结构模型，获得人体各部件的最终坐标。

对每一个人体部件，利用步骤3设计的多层次图结构模型，计算步骤2中卷积神经网络输出的候选坐标属于人体部件最终坐标的所有概率，具体过程如下：

4a)利用多层次图结构模型，定义求解人体部件最终坐标的分数函数如下：

F(l,t|I)＝∑U(l_c|I)+∑R(l_c,l_j,t_cj|I)

其中，l是由卷积神经网络输出的人体各部件的候选坐标，t是人体各部件可能出现的所有连接类型，I是一幅包含人体的自然场景图像，U(·)是多层次图结构模型中的似然度观测项，l_c是由卷积神经网络输出人体部件c的候选坐标，R(·)是多层次图结构模型中的结构先验项，l_j是由卷积神经网络输出人体部件j的候选坐标，t_cj是人体部件c与人体部件j的连接类型；

4b)以l,t为自变量，求解分数函数F(l,t|I)的最大值，得到卷积神经网络输出的人体各部件的候选坐标对应的分数；

4c)将人体各部件的候选坐标对应的分数归一化为分数概率，即计算出卷积神经网络输出的候选坐标属于人体部件最终坐标的所有概率；

4d)从4c)计算得到的所有概率中选取该部件的最高概率，将最高概率对应的候选坐标取做该部件的最终坐标，并输出，至此，完成对整个人体的姿态估计。

本发明的优点可通过以下实验进一步说明：

1.实验数据

对利兹运动姿态LSP数据库中的人体姿态进行估计，LSP数据库来源于国际摄影网站Flickr，共包含2000张图片，每一张图片都标注了人体全身关节点的位置坐标。LSP数据库是目前被广泛应用于人体姿态估计领域的主流数据库之一，在LSP数据库上对本发明的性能进行评价，能充分说明本发明在人体姿态估计领域的有效性。

2.评价标准：被正确定位关节点的百分比PDJ。

图4是PDJ客观评价标准的示意图，其具体含义是，对每一个人体部件，计算预测的位置与真实的位置之间的距离，当计算得到的距离小于给定的阈值时，则认为该人体部件被正确定位。

3.实验内容：

用本发明方法定位利兹运动姿态LSP数据库中整个人体的所有关节点，包括头顶、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝，通过人体各关节点的位置得到整个人体姿态估计过程中的客观结果和主观结果。

其中：客观结果是指统计整个人体所有关节点的PDJ值，如表1所示，

表1在LSP数据库上的PDJ值

部件名称	PDJ值
		头顶	99.3％
脖子	99.7％
		左肩	93.5％
右肩	92.9％
		左手肘	71.1％
右手肘	70.3％
		左手腕	61.9％
右手腕	62.1％
		左臀	99.5％
右臀	99.7％
		左膝盖	79.1％
右膝盖	78.7％
		左脚踝	71.2％
右脚踝	70.4％

从表1可以看出，用本发明方法对LSP数据库中人体姿态进行估计，能获得较高的关节点PDJ值，从而实现高精度的人体姿态估计。

主观结果是指在实验结果图中标记这人体所有关节点的位置，如图5所示。

从图5可见，用本发明方法对LSP数据库中人体姿态进行估计，其整体上有不错的性能表现，尤其是当人体活动范围大或者人体倒立时，本发明仍然能估计出准确的人体姿态。

Claims

1.一种基于深度学习和多层次图结构模型的人体姿态估计方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的方法，其特征在于步骤2b)中建立关于所有人体部件的状态空间S，按如下步骤进行：

2b1)建立一类人体部件的状态空间：

2b2)根据2b1)得到所有人体部件的状态空间S：

其中，表示人体部件c从0到N取遍所有的人体部件类型的集合。

3.根据权利要求1所述的方法，其特征在于步骤(3)中设计多层次图结构模型，包括如下4层：

第一层，将整个人体作为根节点；

4.根据权利要求1所述的方法，其特征在于步骤(4)中利用多层次图结构模型，计算(2)中卷积神经网络输出的候选坐标属于人体部件最终坐标的所有概率，按如下步骤进行：

F(l,t|I)＝∑U(l_c|I)+∑R(l_c,l_j,t_cj|I)

4c)将人体各部件的候选坐标对应的分数归一化为分数概率，即计算出卷积神经网络输出的候选坐标属于人体部件最终坐标的所有概率。