CN110532873A

CN110532873A - 一种联合人体检测与姿态估计的深度网络学习方法

Info

Publication number: CN110532873A
Application number: CN201910672984.0A
Authority: CN
Inventors: 袁泽剑; 赵云; 郭子栋
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-12-03

Abstract

本发明公开了一种联合人体检测与姿态估计的深度网络学习方法，通过CNN模型联合整体与局部信息进行检测，该模型通过共享卷积层高效地提取底层特征，然后将这些特征分别通过两个并联的分支，进行人体检测与姿态估计。本发明通过暗含树结构推理算法的Fusion模型来融合人体检测和姿态估计的结果，以得到鲁棒可靠的人体检测框。本发明通过NMS算法(poseNMS)，利用得到的人体部件的信息，有效地保留下相互遮挡的每一个个体。本发明使用树形结构模型将每个部分的信息嵌入到检测到的边界框中，并使用卷积网络实现推理算法。集合了整体建模与局部建模的优点，对于拥挤遮挡人群和和不常见姿态行为的行人拥有很好的检测效果，能更好的集成到实际应用中。

Description

一种联合人体检测与姿态估计的深度网络学习方法

【技术领域】

本发明属于电子信息技术领域，涉及一种联合人体检测与姿态估计的深度网络学习方法。

【背景技术】

人体检测是辅助驾驶系统和视频监控等应用中的重要任务。目前的人体检测器只能在人体无遮挡或遮挡不严重且人体姿态为常见的姿态动作(如行走)时达到较好的检测效果，当对拥挤人群中被严重遮挡的人体或表现出不常见的姿态动作(如翻越、跌倒等)的人体进行检测时，检测效果不佳。这种情况启发构造新的人体检测器来完成以上两种情况下的人体检测，从而满足更广的应用需求。

实现人体检测的方法主要有两类，一类是对人体的全身进行整体建模；另一种是对身体的构成部分进行局部建模。整体建模的方法虽然在一般数据集上表现的性能较好，但对于拥挤有遮挡人群以及非常见姿态人体的检测效果难以令人满意，原因是这种整体模型不足以表现人体丰富的外观模式；局部建模方法能够对人的肢体部分进行较好的定位，但由于肢体与背景的区分度不足，这种骨架定位对于人体检测效果并未达到最佳，而且这类方法大多只能实现单人的检测。

整体建模与局部建模两类方法各有优劣，通过互补地利用二者的优点，可以在复杂条件下将人体检测达到令人满意的效果。

【发明内容】

本发明的目的在于克服上述现有技术的缺点，提供一种联合人体检测与姿态估计的深度网络学习方法。，

为达到上述目的，本发明采用以下技术方案予以实现：

一种联合人体检测与姿态估计的深度网络学习方法，包括以下步骤：

步骤1：构建网络结构

网络结构包括用于特征生成的body网络、人体检测网络H-CNN、人体姿态检测网络P-CNN以及用于整合人体检测网络H-CNN和人体姿态检测网络P-CNN结果信息的Fusion网络；具体构建方法如下：

将图片通过多个卷积层生成共享特征图；

将共享特征图应用于两个并行分支：人体检测网络H-CNN和人体姿态检测网络P-CNN；其中，

①人体检测网络H-CNN使用两级网络结构，由区域提出网络RPN和微调网络RCNN组成；区域提出网络RPN利用共享特征图生成检测目标的候选框(bounding box)，微调网络RCNN使用ROI-Pooling利用每个候选框提取特征，并使用这些特征进行分类和回归；人体检测网络H-CNN的检测结果表示为b＝(x，y，w，h)和分数s(b)，其中(x，y)表示候选框左上角点的坐标，(w，h)表示候选框的长度和高度；

②人体姿态检测网络P-CNN：将人体解剖学上的关节点作为人体姿态关键点，并用树状图模型对其建模；关键点的集合表示为p＝(p₁，…，p_i，…，p_K)，其中p_i＝(x_i，y_i)表示第i个关节点在图像中的位置坐标，K是关键点的数量；人体姿态检测网络P-CNN同时预测人体关键点的位置(2D置信图S)和关键点之间的连接关系，即向量场R；

步骤2：建立Fusion模型

基于人体检测网络H-CNN的检测结果，使用ROI-Align层将人体姿态检测网络P-CNN的估计结果(S，R)在感兴趣区域b内的部分调整为空间尺寸H×W的特征图，然后，利用Fusion模型将part的得分融合到人体检测的结果中；

用(b，p₁，…，p_K)表示一个个体的整体和部分的位置，其中，b表示整体检测框的位置和大小，p_K表示第k个关键点的位置；用树状图模型来建模人体的整体与各个部件之间的关系，其中根节点0表示检测框，其他节点表示不同的关键点，节点1表示颈部；每个人体检测的得分表示为：

其中，w_i和w_i，j是每个关键点和连接关系的权重参数，用SVM训练得到；候选框的分数s(b)通过人体检测网络H-CNN得到，每个关键点的分数s_i(p_i)通过人体姿态检测网络P-CNN输出的置信图S得到；r(b，p₁)表示候选框和颈部之间的空间关系，计算方式为：

r(b，p₁)＝-||(x₁，y₁)-((x₀，y₀)+v₁)||²

其中，(x₀，y₀)表示候选框的左上角点坐标，v₁＝(x_v，y_v)表示人体脖子的位置与候选框左上角的固定偏差；r_i，j(p_i，p_j)表示每两个相连结点的连接关系，该值通过人体姿态检测网络P-CNN输出的PAF图R_i，j计算，计算方法如下：

其中，p_u＝(1-u)p_i+up_i，表示两个相连关键点之间的插值坐标点；

通过最大化候选框内所有关键点配置对应的分数来计算每个候选框的整体分数，表示为：

最大分数的计算方法为：其中通过对叶子结点的递归计算得出：

其中K(i)是指节点i的子节点的集合，若则表示i为叶子结点；

为了让整个框架实现端到端连接以便在GPU上实现，通过卷积重构以上推理过程；将p_k定位在以p_i为中心长度为l的网格M中，递归算法中的和r_i，k(p_i，p_k)表示为：

w_r为(1/N_u)·(p_k-p_i)/||p_k-p_i||，N_u是插值的数量；

通过设计l²个卷积核来表示p_k在M中的全部位置并将p_k相对于p_i的位置表示为p_k′；卷积核的结构中，通道1中只有p_k′被置1，其余元素均为0；通道2-3中从中心点到p_k′的直线上的值被设为(1/N_u)·p_k′/||p_k′||，其余元素为0；

对于成对关键点i和k，拼接S_k和R_i，k为一个三通道的特征图，并用设计的卷积核进行卷积操作，对生成的l²个结果取最大值，得到关键点部分的结果；随后用过卷积操作得到最终的得分完成推理算法；

步骤3：非极大值抑制NMS方法PoseNMS

在得到人体检测结果的集合{(b，p₁，…，p_K)}中，选择得分最高的检测结果，其部件配置为p_i；如果检测结果j的第m关键点与之间的距离小于α·max(h_i，w_i)且小于则将标记为被遮挡，其中h_i，w_i表示候选框的长宽；将第j个检测结果中所有被遮挡的部件标号记为o_j；选取得分高于β的关键点检测结果记为IoU_pose定义为：

其中，为检测结果j中关键点m的得分；

最终的NMS使用的IoU为：IoU＝IoU_overlap+w_poseIoU_pose；其中，IoU_overlap表示传统的基于整体检测框的IoU值，w_pose设为1并将IoU的拒绝域也设为1。

与现有技术相比，本发明具有以下有益效果：

本发明通过CNN模型联合整体与局部信息进行检测，该模型通过共享卷积层高效地提取底层特征，然后将这些特征分别通过两个并联的分支，进行人体检测与姿态估计。本发明通过暗含树结构推理算法的Fusion模型来融合人体检测和姿态估计的结果，以得到鲁棒可靠的人体检测框。本发明通过NMS算法(poseNMS)，利用得到的人体部件的信息，有效地保留下相互遮挡的每一个个体。本发明使用树形结构模型将每个部分的信息嵌入到检测到的边界框中，并使用卷积网络实现推理算法。集合了整体建模与局部建模的优点，对于拥挤遮挡人群和和不常见姿态行为的行人拥有很好的检测效果，能更好的集成到实际应用中。

【附图说明】

图1为本发明网络结构的示意图；

图2为本发明Fusion模型结构的示意图；(a)人体姿态图，每个结点表示一个人体关键点，结点0表示人体检测的候选框；(b)关键点得分通过最左侧叶子结点传播到根节点；(c)使用CNN完成推理算法

图3为本发明实施例人体检测结果；第一行是单独使用H-CNN的检测结果，第三行是单独使用P-CNN的检测结果，第二、四行是使用本发明方法的检测结果。黑色粗框表示包含漏检、错检和多检等情况的检测错误，灰色细框表示检测正确。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图，一种联合人体检测与姿态估计的深度网络学习方法，针对互相遮挡人群和特殊姿态人体的特点。通过共享卷积层高效地提取底层特征，然后将这些特征分别通过两个并联的分支，进行人体检测与姿态估计。本发明通过暗含树结构推理算法的Fusion模型来融合人体检测和姿态估计的结果，以得到鲁棒可靠的人体检测框。最后，通过新的NMS算法(poseNMS)，利用得到的人体部件的信息，有效地保留下相互遮挡的每一个个体。具体步骤如下：

步骤1：构建网络结构

本发明的网络结构由四部分组成：用于特征生成的body网络、人体整体框检测网络人体检测网络H-CNN、人体姿态关键点估计网络、人体姿态检测网络P-CNN以及用于整合人体检测网络H-CNN和人体姿态检测网络P-CNN结果信息的Fusion网络。具体方法如下：

步骤1-1：将图片通过多个卷积层生成共享特征图；

步骤1-2：共享特征图应用于两个并行分支：人体检测网络H-CNN和人体姿态检测网络P-CNN。其中，

人体检测网络H-CNN使用两级网络结构，由区域提出网络RPN和微调网络RCNN组成。区域提出网络RPN利用共享特征图生成检测目标的候选框(bounding box)，微调网络RCNN使用ROI-Pooling利用每个候选框提取特征，并使用这些特征进行分类和回归。人体检测网络H-CNN的检测结果表示为b＝(x，y，w，h)和分数s(b)，其中(x，y)表示候选框左上角点的坐标，(w，h)表示候选框的长度和高度。

人体姿态检测网络P-CNN：将人体解剖学上的关节点作为人体姿态关键点，并用树状图模型对其建模。关键点的集合可以表示为p＝(p₁，…，p_i，…，p_K)，其中p_i＝(x_i，y_i)表示第i个关节点在图像中的位置坐标，K是关键点的数量。人体姿态检测网络P-CNN同时预测人体关键点的位置(2D置信图S)和关键点之间的连接关系(向量场R)。

步骤1-3：基于人体检测网络H-CNN的检测结果，使用ROI-Align层将人体姿态检测网络P-CNN的估计结果(S，R)在感兴趣区域b内的部分调整为空间尺寸H×W的特征图，然后，利用Fusion模型将part的得分融合到人体检测的结果中。

步骤2：建立Fusion模型

用(b，p₁，…，p_K)表示一个个体的整体和部分的位置，其中，b表示整体检测框，p_K表示第k个关键点的位置。用树状图模型来建模人体的整体与各个部件之间的关系，其中根节点0表示检测框，其他节点表示不同的关键点(节点1表示颈部)。每个人体检测的得分可表示为：

w_i和w_i，j是每个关键点和连接关系的权重参数，可用SVM训练得到。候选框的分数s(b)通过人体检测网络H-CNN得到，每个关键点的分数s_i(p_i)通过人体姿态检测网络P-CNN输出的置信图S得到。r(b，p₁)表示候选框和颈部之间的空间关系，计算方式为：

r(b，p₁)＝-||(x₁，y₁)-((x₀，y₀)+v₁)||²

其中，(x₀，y₀)表示候选框的左上角点坐标，v₁＝(x_v，y_v)表示人体脖子的位置与候选框左上角的固定偏差。r_i，j(p_i，p_j)表示每两个相连结点的连接关系，该值通过人体姿态检测网络P-CNN输出的PAF图R_i，j计算，计算方法如下：

其中，p_u＝(1-u)p_i+up_i，表示两个相连关键点之间的插值坐标点。

其中K(i)是指节点i的子节点的集合，若则表示i为叶子结点。

为了让整个框架实现端到端连接以便在GPU上实现，通过卷积重构以上推理过程。将p_k定位在以p_i为中心长度为l的网格M中，递归算法中的和r_i，k(p_i，p_k)可表示为：

w_r为(1/N_u)·(p_k-p_i)/||p_k-p_i||，N_u是插值的数量。

通过设计l²个卷积核来表示p_k在M中的全部位置并将p_k相对于p_i的位置表示为p_k′。卷积核的结构中，通道1中只有p_k′被置1，其余元素均为0；通道2-3中从中心点到p_k′的直线上的值被设为(1/N_u)·p_k′/||p_k′||，其余元素为0。

对于成对关键点i和k，拼接S_k和R_i，k为一个三通道的特征图，并用设计的卷积核进行卷积操作，对生成的l²个结果取最大值，得到关键点部分的结果。随后用过卷积操作得到最终的得分完成推理算法。

步骤3：非极大值抑制(NMS)方法PoseNMS

本发明定义了一种新的非极大值抑制(NMS)方法：poseNMS。在得到人体检测结果的集合{(b，p₁，…，p_K)}中，选择得分最高的检测结果，其部件配置为p_i。如果检测结果j的第m关键点与之间的距离小于α·max(h_i，w_i)且小于则将际记为被遮挡，其中h_i，w_i表示候选框的长宽。将第j个检测结果中所有被遮挡的部件标号记为o_j。

在实际运算中，由于遮挡等原因，行人检测结果中往往包含一些不准确的关键点，选取得分高于β(设为0.3)的关键点检测结果记为新的算法定义为：

为检测结果j中关键点m的得分。

最终的NMS使用的IoU为：IoU＝IoU_overlap+w_poseIoU_pose，其中IoU_overlap表示传统的基于整体检测框的IoU值，w_pose设为1并将IoU的拒绝域也设为1。

本发明的原理如下：

本发明为有效提高人体检测和姿态估计准确率，使用阶段包括：

Body步骤：该步骤用于输入一幅图像，经过卷积操作提取所有共享特征和信息；

H-CNN步骤：该步骤基于区域提出网络(RPN)和微调网络(RCNN)利用Body步骤提取的共享特征，得到初步的人体检测结果；

P-CNN步骤：该步骤基于卷积神经网络和树状图建模的方法利用Body步骤提取的共享特征，得到初步的人体姿态估计结果；

Fusion步骤：该步骤提出一种自设计的推理卷积核，通过卷积操作融合H-CNN步骤得到的人体检测结果和P-CNN步骤得到的姿态估计结果，实现端到端的推理运算以得到最终的检测结果；

Post-P步骤：该步骤提出一种新的非极大值抑制(NMS)方法，即poseNMS，对Fusion步骤所得结果进行非极大值抑制的后处理，得到最终的检测结果。

Fusion模块详细结构如图2所示。其中，(a)和(b)表示人体整体与部件关系对应的图模型结构。(c)描述了如何通过构造卷积核完成图的推理过程。

本发明方法内部大部分参数通过数据和网络架构训练得到，具体的训练方法细节为：

第一步训练Body模块和P-CNN模块：本发明使用COCO数据集对Body网络和P-CNN进行预训练，然后在CityPersons数据集中标定的人体关节点上进行微调，得到最终的网络参数。

第二步训练H-CNN模块：固定Body网络参数，利用CityPersons行人检测数据集，对H-CNN进行单独训练。

第三步训练Fusion模块：通过在训练集上得到的整体与部件检测结果，我们通过SVM学习权重参数(w₀，...，w_i，w_0，1，...，w_i，j)。

网络检测结果如图3所示，第一行的前四张图针对多个行人并列或互相遮挡情况下所产生的漏检问题；第一行的最后一张图片以及第三行的前两张图片是针对非常见姿态的行人产生的错检、漏检问题；在第二行的后三张图片则针对常见的行人多检问题，在对应第二行及第四行的相应位置可以看出本发明检测器对于这些不良检测情况的检测效果均有所改进。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种联合人体检测与姿态估计的深度网络学习方法，其特征在于，包括以下步骤：

步骤1：构建网络结构

将图片通过多个卷积层生成共享特征图；

①人体检测网络H-CNN使用两级网络结构，由区域提出网络RPN和微调网络RCNN组成；区域提出网络RPN利用共享特征图生成检测目标的候选框(bounding box)，微调网络RCNN使用ROI-Pooling利用每个候选框提取特征，并使用这些特征进行分类和回归；人体检测网络H-CNN的检测结果表示为b＝(x,y,w,h)和分数s(b)，其中(x,y)表示候选框左上角点的坐标，(w,h)表示候选框的长度和高度；

②人体姿态检测网络P-CNN：将人体解剖学上的关节点作为人体姿态关键点，并用树状图模型对其建模；关键点的集合表示为p＝(p₁,…,p_i,…,p_K)，其中p_i＝(x_i,y_i)表示第i个关节点在图像中的位置坐标，K是关键点的数量；人体姿态检测网络P-CNN同时预测人体关键点的位置(2D置信图S)和关键点之间的连接关系，即向量场R；

步骤2：建立Fusion模型

基于人体检测网络H-CNN的检测结果，使用ROI-Align层将人体姿态检测网络P-CNN的估计结果(S,R)在感兴趣区域b内的部分调整为空间尺寸H×W的特征图，然后，利用Fusion模型将part的得分融合到人体检测的结果中；

用(b,p₁,…,p_K)表示一个个体的整体和部分的位置，其中，b表示整体检测框的位置和大小，p_K表示第k个关键点的位置；用树状图模型来建模人体的整体与各个部件之间的关系，其中根节点0表示检测框，其他节点表示不同的关键点，节点1表示颈部；每个人体检测的得分表示为：

其中，w_i和w_i,j是每个关键点和连接关系的权重参数，用SVM训练得到；候选框的分数s(b)通过人体检测网络H-CNN得到，每个关键点的分数s_i(p_i)通过人体姿态检测网络P-CNN输出的置信图S得到；r(b,p₁)表示候选框和颈部之间的空间关系，计算方式为：

r(b,p₁)＝-‖(x₁,y₁)-((x₀,y₀)+v₁)‖²

其中，(x₀,y₀)表示候选框的左上角点坐标，v₁＝(x_v,y_v)表示人体脖子的位置与候选框左上角的固定偏差；r_i,j(p_i,p_j)表示每两个相连结点的连接关系，该值通过人体姿态检测网络P-CNN输出的PAF图R_i,j计算，计算方法如下：

其中K(i)是指节点i的子节点的集合，若则表示i为叶子结点；

为了让整个框架实现端到端连接以便在GPU上实现，通过卷积重构以上推理过程；将p_k定位在以p_i为中心长度为l的网格M中，递归算法中的和r_i,k(p_i,p_k)表示为：

w_r为(1/N_u)·(p_k-p_i)/‖p_k-p_i‖，N_u是插值的数量；

通过设计l²个卷积核来表示p_k在M中的全部位置并将p_k相对于p_i的位置表示为p_k′；卷积核的结构中，通道1中只有p_k′被置1，其余元素均为0；通道2-3中从中心点到p_k′的直线上的值被设为(1/N_u)·p_k′/‖p_k′‖，其余元素为0；

对于成对关键点i和k，拼接S_k和R_i,k为一个三通道的特征图，并用设计的卷积核进行卷积操作，对生成的l²个结果取最大值，得到关键点部分的结果；随后用过卷积操作得到最终的得分完成推理算法；

步骤3：非极大值抑制NMS方法PoseNMS

在得到人体检测结果的集合{(b,p₁,…,p_K)}中，选择得分最高的检测结果，其部件配置为p_i；如果检测结果j的第m关键点与之间的距离小于α·max(h_i,w_i)且小于则将标记为被遮挡，其中h_i,w_i表示候选框的长宽；将第j个检测结果中所有被遮挡的部件标号记为o_j；选取得分高于β的关键点检测结果记为IoU_pose定义为：

其中，为检测结果j中关键点m的得分；