CN108717531B

CN108717531B - 基于Faster R-CNN的人体姿态估计方法

Info

Publication number: CN108717531B
Application number: CN201810487188.5A
Authority: CN
Inventors: 何立火; 戴慧冰; 钟炎喆; 高新波; 武天妍; 路文; 邢志伟; 张怡; 李琪琦; 蔡虹霞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2021-06-08
Anticipated expiration: 2038-05-21
Also published as: CN108717531A

Abstract

本发明公开一种基于Faster‑RCNN的人体姿态估计方法，其步骤为：输入图像；进行人体部件分类；获取人体姿态图像数据与标签；用训练集图像数据与标签，训练深度网络Faster R‑CNN模型；获得矩形检测框；确定空间约束关系的人体部件位置；确定关节点位置；连接相邻人体部件的关节点并输出，得到人体上半身的姿态。本发明将人体部件分为单一部件和组合部件，采用了Faster R‑CNN，使用脖子对应的位置坐标为基准，能够在图像背景干扰下得到高精度的人体上半身姿态估计。本发明具有鲁棒、高精度、应用场景广的人体姿态估计的优点。

Description

基于Faster R-CNN的人体姿态估计方法

技术领域

本发明属于图像处理技术领域，更进一步涉及计算机视觉技术领域中的一种基于更快速度的区域卷积神经网络Faster R-CNN(Faster Region Convolution NeuralNetwork)的人体姿态估计方法。本发明通过从智能监控系统中普通摄像头获取图像，从图像中检测人体各关节点的位置，得到人体上半身姿态，实现人体的行为识别。

背景技术

在自然图像中，由于受复杂场景、严重遮挡、光照变化、服饰差异等因素的影响，导致人体姿态估计不够准确和鲁棒。因此，在无约束的环境下对高自由度的人体实现高精度的鲁棒姿态估计仍面临巨大的挑战。为了克服在人体姿态估计中可能会出现的不利因素，学者们长期致力于研究人体姿态估计的方法。现有的人体姿态估计方法，可归于以下其中之一或两者都具备的范畴：1)基于模型匹配的人体姿态估计方法。该方法在人体姿态估计领域取得了显著的效果，但由于人体结构自身的复杂性，经典模型匹配的方法很难描述所有可能出现的人体姿态。2)基于深度学习的人体姿态估计方法。相比于经典模型匹配的方法，该方法对人体姿态的估计精度上有着明显的提升。虽然在关节点定位精度上有很大的提高，但这仅仅只是依赖于深度学习网络本身良好的特征提取特性而脱离了人体姿态估计本身所具备的物理意义。因此，为了更大程度地提升估计结果的精度和更好地表征复杂的人体姿态，需要一种高精度且具有较强理论支撑的人体姿态估计方法。

北京工业大学在其申请的专利文献“一种人体姿态估计方法”(申请号：201510792096.4，公开号：105389569A)中公开了一种人体姿态估计方法。该方法的具体步骤如下，1)分部位计算特征模板，提取人工设计的深度特征；2)通过深度特征构建人体姿态数据的树结构模型；3)基于树结构模型构建打分函数，将待检测图像与模型进行匹配，从而实现人体特征定位。该方法存在的不足之处是：由于分部位计算特征模板，使用人工设计的深度特征来构建人体姿态数据的树结构模型，因此在检测过程中很容易受到背景中物体的干扰，使得该模型在无约束的环境中难以全面地描述复杂的人体部件外观变化，得到错误的人体姿态估计结果，导致识别精度降低。

北京工业大学在其申请的专利文献“一种基于融合模型的人体姿态估计方法”(申请号：201511025900.2，公开号：105678321A)中公开了一种人体姿态估计方法。该方法的具体步骤如下，1)以人体运动时的二维静态图像为输入数据；2)利用信度函数D-S融合模型将二维静态图像中的特征信息融合，将人体的头部作为人信度函数D-S融合模型的根节点，从而获得人体姿态最佳结果。该方法存在的不足之处是：该方法在对姿态估计的过程中，由于图像拍摄视角不同，会出现头部轮廓的改变，人脸部分被遮挡的情况，引起信度函数D-S融合模型很难获得准确的头部定位结果。在实际应用中，该方法局限于头部以及人脸清晰可见的情况下使用，使得其应用场景受到一定限制。

Kaiming He在其发表的论文“Mask R-CNN”(IEEE International Conference onComputer Vision,2017，1:2980-2988)中提出了一种基于目标检测分割掩膜区域的卷积神经网络的姿态估计方法。该方法将人体的单一部件作为目标检测过程的对象，通过检测、定位、分割三大步骤得到了人体中各个单一部件的空间位置，从而获得最终的人体姿态估计结果。该方法存在的不足之处是：将人的单一部件作为目标检测过程的对象，在检测过程中，单一部件容易受到背景中类似矩形物体的干扰，降低了人体单一部件的正确定位率，因此难以获得高精度、鲁棒的人体姿态估计结果。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提出了一种基于Faster R-CNN的人体姿态估计方法，用于提高对人体部件定位的准确率，从而得到更好的人体姿态估计效果。

实现本发明目的的思路是：对图像中的人体进行组合部件与单一部件的分配；使用深度学习网络Faster R-CNN检测人体各部位矩形框位置；通过组合部件与单一部件的相关性，计算空间约束关系确定每一部件位置；使用图结构模型，定位各关节点位置。

本发明的具体步骤如下：

(1)输入图像：

将摄像头拍摄得到的含有人体的图像输入计算机；

(2)对人体部件进行分类：

将输入计算机中的图像人体上身结构分为组合部件与单一部件，两类共11个部件，第一类为组合部件，其中包括上半身、左臂、右臂共3个组合部件；第二类为单一部件，包括头部、脖子、左上臂、右上臂、左下臂，右下臂、左手，右手共8个单一部件；

(3)获取人体姿态图像数据与标签：

(3a)从人体姿态数据库中选取至少3000幅含有人体姿态的图像，组成数据集；

(3b)将数据集中的每幅图像依次做镜像、旋转变换，将镜像变换，旋转变换后得到的人体姿态图像分别存入数据集中；

(3c)从数据集的所有图像中随机选取75％的图像，组成训练集，将剩余的图像组成测试集；

(3d)用矩形框标注训练集中每幅图像中的每个人体部件，得到的图像标签是11个部件的矩形框；

(4)训练深度网络Faster R-CNN模型：

将训练集图像与标签输入深度网络Faster R-CNN模型，对深度网络Faster R-CNN模型进行训练，得到训练好的深度网络Faster R-CNN模型；

(5)获得矩形检测框：

将测试集图像输入到训练好的深度网络Faster R-CNN模型中，得到11种部件中每个部件对应的矩形检测框，及其每个矩形检测框的对应分数；

(6)确定每一人体部件位置：

利用空间约束定位的方法，确定11个人体部件中每个人体部件的位置；

(7)确定关节点位置：

(7a)将头部对应的矩形定位框的中心点坐标，作为头关节点的坐标位置；

(7b)将左/右上臂的矩形定位框和脖子矩形定位框重叠处的矩形框的中心点坐标，作为左/右肩的坐标位置；

(7c)将左/右上臂的矩形定位框和左/右下臂的矩形定位框重叠处的矩形框的中心点坐标，作为左/右手肘的坐标位置；

(7d)将左/右下臂的矩形定位框和左/右手的矩形定位框重叠处的矩形框的中心点坐标，作为左/右手的坐标位置；

(7e)得到人体上半身中头、左、右肩、左、右手肘、左、右手腕共7个关节点的坐标位置；

(8)连接相邻人体部件的关节点并输出，得到人体上半身的姿态。

本发明与现有的技术相比具有以下优点：

第一，由于本发明采用了深度网络Faster R-CNN，从输入数据中自动发现需要检测的特征，克服了现有技术中利用人工设计的深度特征来构建的树结构模型，在无约束的环境中易受到背景中类似物体的干扰，得到错误的人体姿态估计结果的问题，使得本发明具有鲁棒、高精度的人体姿态估计结果的优点。

第二，由于本发明采用脖子对应的位置坐标为基准，确定本发明所定义的人体部件位置，克服了现有技术在对姿态估计的过程中，由于图像拍摄视角不同，会出现头部轮廓的改变，人脸部分被遮挡的情况不能使用的问题，使得本发明能够应用在不同的拍摄视角场景下。

第三，由于本发明将人体部件分为3个组合部件和8个单一部件，克服了现有技术中单一部件容易受到背景中类似矩形物体的干扰，降低了人体单一部件的正确定位率的问题，使得本发明具有高精度的人体姿态估计结果的优点。

附图说明

图1是本发明的流程图；

图2是从本发明估计后的人体姿态图中随机选取的3幅人体姿态图；

图3是本发明仿真实验中使用的客观评价标准PDJ与PCP示意图。

具体实施方式

下面结合附图对本发明作进一步的描述。

参照图1，本发明的实现步骤作进一步的描述。

步骤1.输入图像。

将摄像头拍摄得到的含有人体的图像输入计算机。

步骤2.对人体部件进行分类。

步骤3.获取人体姿态图像数据与标签。

从人体姿态数据库中选取至少3000幅含有人体姿态的图像，组成数据集。

将数据集中的每幅图像依次做镜像、旋转变换，将镜像变换，旋转变换后得到的人体姿态图像分别存入数据集中。

从数据集的所有图像中随机选取75％的图像，组成训练集，将剩余的图像组成测试集。

用矩形框标注训练集中每幅图像中的11个人体部件，得到图像标签。

步骤4.用训练集图像数据与标签，训练深度网络Faster R-CNN模型。

所述的训练深度网络Faster R-CNN模型的步骤如下。

第一步，将预训练好的深度卷积网络VGG-Net模型中的参数加载到深度网络Faster R-CNN中的区域建议网络模型中，完成区域建议网络模型参数初始化。

第二步，将训练集图像数据输入到深度网络Faster R-CNN中的区域建议网络模型中，进行训练，得到训练好的区域建议网络模型。

第三步，将预训练好的深度卷积网络VGG-Net模型中的参数加载到深度网络Faster R-CNN中的Fast R-CNN模型中，完成Fast R-CNN模型参数初始化。

第四步，将训练集图像数据输入到训练好的区域建议网络模型生成相应的矩形检测框，用矩形检测框对深度卷积网络VGG-Net模型和Fast R-CNN模型进行训练，得到训练好的深度卷积网络VGG-Net模型和Fast R-CNN模型。

第五步，保持训练好的深度卷积网络VGG-Net模型中的参数不变，将训练集图像数据输入到深度卷积网络VGG-Net模型中，得到图像特征。

第六步，保持训练好的区域建议网络模型中的参数不变，将图像特征输入到区域建议网络，得到矩形检测框，用矩形检测框训练Fast R-CNN网络模型，得到训练好的FastR-CNN网络模型。

第七步，保持训练好的Fast R-CNN网络模型中的参数不变，将图像特征输入到Fast R-CNN网络模型得到矩形检测框，用矩形检测框训练区域建议网络模型，得到训练好的区域建议网络模型。

第八步，判断深度网络Faster R-CNN模型的全局损失值是否小于阈值，若是，执行步骤九；否则，执行步骤六。

第九步，结束训练，得到训练好的深度网络Faster R-CNN模型。

步骤5.获得矩形检测框。

Faster R-CNN网络在设计的结构上分别对应特征提取层、区域建议层、感兴趣区域池化层和分类层，能够同时实现提取特征、选取候选框、位置精修和分类等功能。将测试集图像数据输入到训练好的深度网络Faster R-CNN模型中，得到11种部件中每个部件对应的矩形检测框，步骤如下：

第一步，将一幅大小为P×Q且包含人体姿态的自然图像缩放至M×N大小。

第二步，将大小为M×N的自然图像输入到深度网络Faster R-CNN模型的特征提取层，提取自然图像的特征图。

第三步，将第二步中提取的特征图输入到深度网络Faster R-CNN模型的区域建议层，得到大小不一的矩形检测框，并计算矩形检测框的偏移量以对矩形检测框的位置进行微调。

第四步，将第二步中提取的特征图和第三步中生成的矩形检测框同时输入到深度网络Faster R-CNN模型的感兴趣区域池化层，对矩形检测框内对应的特征图进行等份分块，输出大小固定的特征向量。

第五步，将第三步中生成的矩形检测框和第五步中输出的与各矩形检测框对应且大小固定的特征向量输入到深度网络Faster R-CNN模型的分类层，通过分类函数判别矩形检测框内包含的人体部件类别，并输出分数。至此，获得了所有人体部件的矩形检测框。

步骤6.确定空间约束关系的人体部件位置。

从脖子部件的所有矩形检测框中选取分数最高的矩形框，将该矩形框中心点坐标作为脖子对应的位置坐标。

以脖子对应的位置坐标为基准，利用欧氏距离公式，计算人头部对应的位置坐标。

所述的欧氏距离公式如下：

其中，d表示脖子位置到头部位置的欧式距离，(x₁,y₁)表示脖子对应的位置坐标，(x₂,y₂)表示头部对应的位置坐标。

将左上臂、右上臂、左下臂、右下臂、左手、右手的人体单一部件中的每个部件的所有矩形检测框分数求和，得到单一部件的总分数，将每个部件的总分数相加，得到全局矩形检测框分数。

将左上臂、右上臂、左下臂、右下臂、左手、右手的人体单一部件中的每个部件的所有矩形检测框组成全局矩形检测框。

分别将全局矩形检测框的分数，组合部件左臂矩形检测框的分数，组合部件右臂矩形检测框的分数从高到低的排列，从中分别选取分数最高的矩形框，依据脖子与左、右臂的空间约束关系，确定人体组合部件左臂、右臂的位置。

在确定的左臂位置中，分别对左上臂、左下臂、左手的矩形检测框分数从高到低的排列，选取每一单一部件中分数最高的矩形框，确定单一部件左上臂、左下臂、左手的位置。

在确定的右臂位置中，分别对右上臂、右下臂、右手的矩形检测框分数从高到低的排列，选取每一单一部件中分数最高的矩形框，确定单一部件右上臂、右下臂、右手的位置。

步骤7.确定关节点位置。

将头部对应的矩形定位框的中心点坐标，作为头关节点的坐标位置。

将左/右上臂的矩形定位框和脖子矩形定位框重叠处的矩形框的中心点坐标，作为左/右肩的坐标位置。

将左/右上臂的矩形定位框和左/右下臂的矩形定位框重叠处的矩形框的中心点坐标，作为左/右手肘的坐标位置。

将左/右下臂的矩形定位框和左/右手的矩形定位框重叠处的矩形框的中心点坐标，作为左/右手的坐标位置。

得到人体上半身中头、左、右肩、左、右手肘、左、右手腕共7个关节点的坐标位置。

步骤8.连接相邻人体部件的关节点并输出，得到人体上半身的姿态。

下面结合仿真实验对本发明的效果做进一步的说明。

本发明的仿真实验是在人体姿态数据库FLIC(Frames Labeled in Cinema)和人体姿态数据库Buffy Pose上评价基于Faster R-CNN的人体姿态估计算法，进一步客观地证明本发明在人体姿态估计领域的有效性。

人体姿态数据库FLIC数据库是目前被广泛用于人体姿态估计的主流数据库之一，它来源于好莱坞的影视作品“Frames Labeled in Cinema”。FLIC数据库共包含了5003幅图像，其中80％(3987幅)是训练集，20％(1016幅)是测试集。FLIC数据库中的每幅图像只标注上半身的10个关节位置。为了更好地训练Faster R-CNN网络，本发明将3987幅的训练集图片进行每45度旋转和镜像操作，增加数据量至35883幅图像数据。FLIC数据库中的图像包含多种复杂的人体姿态，十分接近现实的自然生活场景，因此在FLIC数据库上测试本算法是可行且有效的。

Buffy Pose数据库是一个专门收集人类姿势的图像数据库，包含了各式各样的人类动作姿态。Buffy Pose数据库分别来源于美剧“Buffy the Vampire Slayer”第五季中的第2集到第6集，共有748幅图像。Buffy Pose数据库只对图像中人体上半身的关节点进行手动标注。由于Buffy Pose数据库中数据集的数量较少，无法直接利用该数据库对Faster R-CNN进行训练。因此，仅仅把Buffy Pose数据库作为本算法进行交叉验证实验时的测试集，直接利用由FLIC数据库训练集训练得到的Faster R-CNN模型对Buffy Pose数据库的整个数据集进行测试。Buffy Pose数据库上进行的交叉实验能进一步地说明本算法的泛化能力。

本发明的仿真实验是选取FLIC数据库中的35883幅图像作训练集，选取FLIC数据集中的1016幅图像与Buffy Pose数据库中748幅图像，共1764幅图像组成测试集。

本发明的仿真实验，首先输入测试集中的所有图像，经过本发明的所有步骤后，估计出1764幅图像中每幅图像的人体上半身姿态，从中随机选取如图2所示的3幅人体上半身姿态图，用于主观评价本发明的仿真效果，通过主观评价可知在解决静态人体姿态估计问题上有很好的表现，并且当自然图像中人体和背景图像的色彩相似、存在物体间的部分遮挡和非均匀的光照时，本发明所提出的人体姿态估计方法仍能准确地估计出人体的姿态。

本发明的仿真实验选取两种客观评价标准，证明本发明在人体姿态估计领域的有效性，一是被正确定位关节点的百分比(Percentage of Detected Joints，PDJ)，二是被正确定位部件的百分比(Percentage of Correct Parts，PCP)。本发明估计的人体姿态图仿真效果图如图3所示，由PDJ客观评价标准和PCP客观评价标准来衡量，PDJ客观评价标准的示意图如图3(a)所示，其具体含义是，对每一个关节点，当预测的位置与真实的位置间距离(这里采用欧式距离进行计算)小于给定的阈值时，则该关节点被正确定位。各关节点的PDJ值随着阈值的变化而变化，由此形成的曲线图刻画了关节点定位精度的变化趋势，称之为PDJ曲线图。PCP客观评价标准的示意图如图3(b)所示，其具体含义是当人体部件两端对应的两个关节点被正确定位时，则该部件被正确定位。

由于头顶和脖子的定位精度都接近100％，所以不再统计这两个关节点的PCP值和PDJ值，只关注与手臂相关的关节点的PCP值和PDJ值。表1和表2分别给出了本发明在FLIC和Buffy Pose数据库测试集上估计的人体姿态图中，以每个关节点为中心的20个像素为阈值的PCP值和PDJ值，表3和表4分别给出了Sapp等人的人体姿态估计方法在FLIC和Buffy Pose数据库测试集上估计的人体姿态图中，以每个关节点为中心的20个像素为阈值的PCP值和PDJ值。

表1本发明在两个数据库中的PCP值比较表

表2本发明在两个数据库中的PDJ值比较表

表3 B.Sapp等人的方法在两个数据库中的PCP值比较表

表4 B.Sapp等人的方法在两个数据库中的PDJ值比较表

从表1可以看出，无论是Buffy Pose数据库还是FLIC数据库，本发明估计的人体姿态平均值在PCP值上分别达到了73.6％和80.5％；从表2可以看出，无论是Buffy Pose数据库还是FLIC数据库，本发明估计的人体姿态平均值在PDJ值上分别达到了81％和84.1％,均高于Sapp等人的人体姿态估计方法的水准，证明本发明具有鲁棒、高精度的人体姿态估计结果的优点。

Claims

1.一种基于Faster R-CNN的人体姿态估计方法，其特征在于，对图像中的人体组合部件与单一部件进行分类，使用深度学习网络Faster R-CNN检测人体各部件矩形框位置，通过空间约束关系确定每一人体部件位置，定位各关节点位置，得到人体上半身的姿态；该方法的具体步骤包括如下：

(1)输入图像：

将摄像头拍摄得到的含有人体的图像输入计算机；

(2)对人体部件进行分类：

(3)获取人体姿态图像数据与标签：

(4)训练深度网络Faster R-CNN模型：

(5)获得矩形检测框：

(6)确定每一人体部件位置：

利用下述空间约束定位的方法，确定11个人体部件中每个人体部件的位置：

第一步，从脖子部件的所有矩形检测框中选取分数最高的矩形框，将该矩形框中心点坐标作为脖子对应的位置坐标；

第二步，以脖子对应的位置坐标为基准，利用欧氏距离公式，计算人头部对应的位置坐标；

第三步，将左上臂、右上臂、左下臂、右下臂、左手、右手的人体单一部件中的每个部件的所有矩形检测框分数求和，得到单一部件的总分数，将每个部件的总分数相加，得到全局矩形检测框分数；

第四步，将左上臂、右上臂、左下臂、右下臂、左手、右手的人体单一部件中的每个部件的所有矩形检测框组成全局矩形检测框；

第五步，分别将全局矩形检测框的分数，组合部件左臂矩形检测框的分数，组合部件右臂矩形检测框的分数从高到低的排列，从中分别选取分数最高的矩形框，依据脖子与左、右臂的空间约束关系，确定人体组合部件左臂、右臂的位置；

第六步，在确定的左臂位置中，分别对左上臂、左下臂、左手的矩形检测框分数从高到低的排列，选取每一单一部件中分数最高的矩形框，确定单一部件左上臂、左下臂、左手的位置；

第七步，在确定的右臂位置中，分别对右上臂、右下臂、右手的矩形检测框分数从高到低的排列，选取每一单一部件中分数最高的矩形框，确定单一部件右上臂、右下臂、右手的位置；

(7)确定关节点位置：

2.根据权利要求1所述的基于Faster R-CNN的人体姿态估计方法，其特征在于，步骤(4)中所述训练深度网络Faster R-CNN模型的步骤如下：

第一步，将预训练好的深度卷积网络VGG-Net模型中的参数加载到深度网络Faster R-CNN中的区域建议网络模型中，完成区域建议网络模型参数初始化；

第二步，将训练集图像数据输入到深度网络Faster R-CNN中的区域建议网络模型中，进行训练，得到训练好的区域建议网络模型；

第三步，将预训练好的深度卷积网络VGG-Net模型中的参数加载到深度网络Faster R-CNN中的Fast R-CNN模型中，完成Fast R-CNN模型参数初始化；

第四步，将训练集图像数据输入到训练好的区域建议网络模型生成相应的矩形检测框，用矩形检测框对深度卷积网络VGG-Net模型和Fast R-CNN模型进行训练，得到训练好的深度卷积网络VGG-Net模型和Fast R-CNN模型；

第五步，保持训练好的深度卷积网络VGG-Net模型中的参数不变，将训练集图像数据输入到深度卷积网络VGG-Net模型中，得到图像特征；

第六步，保持训练好的区域建议网络模型中的参数不变，将图像特征输入到区域建议网络，得到矩形检测框，用矩形检测框训练Fast R-CNN网络模型，得到训练好的Fast R-CNN网络模型；

第七步，保持训练好的Fast R-CNN网络模型中的参数不变，将图像特征输入到Fast R-CNN网络模型得到矩形检测框，用矩形检测框训练区域建议网络模型，得到训练好的区域建议网络模型；

第八步，判断深度网络Faster R-CNN模型的全局损失值是否小于阈值，若是，执行步骤九；否则，执行步骤六；

第九步，结束训练，得到训练好的深度网络Faster R-CNN模型。

3.根据权利要求1所述的基于Faster R-CNN的人体姿态估计方法，其特征在于，第二步中所述的欧氏距离公式如下：