CN107886069A

CN107886069A - 一种多目标人体2d姿态实时检测系统及检测方法

Info

Publication number: CN107886069A
Application number: CN201711102577.3A
Authority: CN
Inventors: 卢绍文; 王金鑫; 王克栋; 郭章; 程盟盟; 李鹏琦; 赵磊; 刘晓丽; 丁进良; 柴天佑
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-04-06

Abstract

本发明涉及一种多目标人体2D姿态实时检测系统及检测方法，系统包括：图像采集模块用于获取图像数据；实时处理模块用于将图像数据输入到神经网络进行学习和预测，并根据获取的关节点位置的热点图和关节点之间的方向向量场的热点图生成人体的姿态信息；可视化显示模块用于将预测得到的人体姿态信息通过线段连接的方式呈现给用户。本发明利用深度学习的方法编码关节的位置和由关节相互连接组成的骨骼的位置和方向，实现对单幅图像准确的人体的2D姿态估计，而且对于人员聚集复杂的情况，能够准确估计场景中的多个人体姿态，方便用户对人体的姿态进一步分析处理和挖掘，从而预测人的下一步行为。

Description

一种多目标人体2D姿态实时检测系统及检测方法

技术领域

本发明涉及计算机视觉和深度学习领域，尤其涉及一种多目标人体2D姿态实时检测系统及检测方法。

背景技术

随着计算机视觉技术、深度学习技术发展，人体姿态估计仍然是日益活跃的计算机视觉的一个研究领域，并具有广阔的应用前景，如人机交互、智能监控、运动员辅助训练、视频编码等。近年来，在这些应用的驱动之下，行为分析已经成为计算机视觉、机器人领域、深度学习、机器学习、数据挖掘学等相关领域的研究热点。人体行为分析的目的在于描述、识别和理解人体动作、人与人之间以及人与环境之间的交互行为，其在智能视频监控、虚拟现实、机器人人机交互等方面具有广泛的应用背景，而进行人体的姿态估计则是进行行为分析的前提条件。

2D人体姿态是指人体关节在图像二维平面分布的一种描述，主要是在图像中检测出人体的各个关键点，包括面部，躯干和手指等的位置、方向以及尺度信息。一般使用线段或者矩形来描述人体关节在图像二维平面的投影。线段或者矩形的角度分布和大小描述了人体的姿态。

现有的2D人体姿态估计已经很大程度上聚焦于寻找人体的某个部位，从而推断出一张图像中的多个的姿态。现有的2D人体姿态估计采用一种自上而下的检测方法：先检测图像中的人体信息，获得人体的位置信息后再对人体进行姿态估计。现有的方法在多目标的场景中检测精度并不理想：首先，每张图片中可能包含未知个数的人，而且这些人的出现的位置和范围都是未知的。其次，人与人之间的交互可能带来空间上的干扰，由于人与人之间有相互接触，关节之间的相互重叠，采用先检测人体的方法在这种情况下可能漏检被遮挡的，信息不完全的人体，造成不精确的估计。第三，时间复杂度会随着图片中的人数的增加而增加，这对于系统的实时性来说是一个巨大的挑战。

发明内容

本发明实施例提供一种多目标人体2D姿态实时检测系统及方法，对于人员聚集复杂的情况，能够准确估计场景中的多个人体姿态，方便用户对人体的姿态进一步分析处理和挖掘，从而预测人的下一步行为。

本发明提供一种多目标人体2D姿态实时检测系统，包括：

图像采集模块，用于获取图像数据；

实时处理模块，用于将图像数据输入到神经网络进行学习和预测，并根据获取的关节点位置的热点图和关节点之间的方向向量场的热点图生成人体的姿态信息；

可视化显示模块，用于将预测得到的人体姿态信息通过线段连接的方式呈现给用户。

在本发明的多目标人体2D姿态实时检测系统中，所述图像采集模块为USB摄像机或者网络摄像机，用于获取图像信息并将图像信息转换成标准RGB图像。

在本发明的多目标人体2D姿态实时检测系统中，所述实时处理模块包括：

神经网络子模块，用于将图像数据输入到神经网络进行学习和预测，获取到关节点位置的热点图和关节点之间的方向向量场的热点图，方向向量场的热点图描述了两个关节点是否可以连接在一起组成人体的一部分骨骼；

关节点连接子模块，用于对神经网络输出的两种热点图进行融合，将属于同一人体的关节点连接起来，构成完整的人体姿态信息。

本发明还提供一种多目标人体2D姿态实时检测方法，包括：

步骤1：获取图像数据；

步骤2：将图像数据输入到神经网络进行学习和预测，利用神经网络提取特征，根据获取的关节点位置的热点图和关节点之间的方向向量场的热点图生成人体的姿态信息；

步骤3：将预测得到的人体姿态信息通过线段连接的方式呈现给用户。利用线段将属于某一个人的所有关节点按人体实际的连接情况连接起来，得到人体的完整姿态信息。

在本发明的多目标人体2D姿态实时检测方法中，所述步骤1具体为：

通过USB摄像机或者网络摄像机获取待处理图像信息，将获得的图像信息转换成标准RGB图像。

在本发明的多目标人体2D姿态实时检测方法中，所述步骤2包括：

步骤2.1：将历史图像数据作为神经网络的输入对神经网络模型进行训练；

步骤2.2：将要检测的图像数据输入到训练完的神经网络模型，利用神经网络提取特征，得到对于该图像预测的不同类型关节点的热点图和关节点之间的方向向量场热点图；

步骤2.3：对神经网络输出的两种热点图进行融合，将属于同一人体的关节点连接起来，构成完整的人体姿态信息。

在本发明的多目标人体2D姿态实时检测方法中，所述步骤2.1包括：

步骤2.1.1：建立卷积神经网络的初始模型，卷积神经网络包括单通道阶段和多个双通道阶段，单通道阶段包括：

第一层和第二层为卷积层：对历史图像数据进行卷积处理；

第三层为池化层：对第一层和第二层的结果进行下采样处理；

第四层和第五层为卷积层：对第三层的图像进行两层卷积处理；

第六层为池化层：对第四层和第五层的结果进行下采样处理；

第七至第十层为卷积层：对第六层的图像进行四层卷积处理；

第十一层为池化层：对第七至第十层为卷积层的结果进行下采样处理；

第十二层和第十三层为卷积层：将第十一层的图像进行两层卷积处理，得到输入图像的特征图；

步骤2.1.2：将步骤2.1.1得到的输入图像的特征图输入卷积神经网络的双通道阶段，得到不同类型关节点的热点图S和关节点之间的方向向量场热点图L，关节点的热点图S表示出一副图像中所有的关节点的位置信息，方向向量场热点图L有表示各个关节点之间的关联程度，由若干2D向量组成，2D向量的方向代表了关节连接成骨骼的方向；

步骤2.1.3：通过对于神经网络学习到的结果与真实数据之间的误差，利用反向传播算法，调整神经网络的参数，使得神经网络学习到的结果最接近标注数据的真实结果，从而得到训练好的神经网络模型。

在本发明的多目标人体2D姿态实时检测方法中，所述步骤2.3包括：

步骤2.3.1：将预测得到的关节点的热点图S和关节点之间的方向向量场热点图L转化成图论里求解最大权重K分图匹配问题，不同类型关节点的热点图S为K分图的节点，关节点之间的方向向量场热点图L代表二分图的边的权重，其中K代表不同关节类型的个数；

步骤2.3.2：利用贪心算法简化最大权重二分图匹配问题：根据人体关节的实际连接情况简化问题，将K分图的匹配问题化解成多个最大权重二分图匹配问题；

步骤2.3.3：利用匈牙利算法求解所述最大权重二分图匹配问题，把所有的关节点按照求解的结果连在一起，获得整的人体姿态信息。

本发明提供一种多目标人体2D姿态实时检测系统及检测方法，利用深度学习的方法编码关节的位置和由关节相互连接组成的骨骼的位置和方向，实现对单幅图像准确的人体的2D姿态估计，而且对于人员聚集复杂的情况，能够准确估计场景中的多个人体姿态，方便用户对人体的姿态进一步分析处理和挖掘，从而预测人的下一步行为。

附图说明

图1为本发明的一种多目标人体2D姿态实时检测系统的结构框图；

图2为本发明的一种多目标人体2D姿态实时检测方法的流程图；

图3为本发明的一种多目标人体2D姿态实时检测方法中采用的神经网络的结构图；

图4为本发明实施例提供的方法中步骤3.2中的二分图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示为本发明的多目标人体2D姿态实时检测系统的结构框图，本发明检测系统包括：图像采集模块1、实时处理模块2和可视化显示模块3。其中，图像采集模块1用于获取图像数据；实时处理模块2用于将图像数据输入到神经网络进行学习和预测，并根据获取的关节点位置的热点图和关节点之间的方向向量场的热点图生成人体的姿态信息。可视化显示模块3用于将预测得到的人体姿态信息通过线段连接的方式呈现给用户。

具体实施时，图像采集模块1为USB摄像机或者网络摄像机，用于获取人体图像信息并将图像信息转换成标准RGB图像。

实时处理模块2包括：神经网络子模块21和关节点连接子模块22。神经网络子模块21用于将图像数据输入到神经网络进行学习和预测，获取到关节点位置的热点图和关节点之间的方向向量场的热点图；方向向量场的热点图描述了两个关节点是否可以连接在一起组成人体的一部分骨骼。关节点连接子模块22用于对神经网络输出的两种热点图进行融合，将属于同一人体的关节点连接起来，构成完整的人体姿态信息。

如图2所示为本发明的一种多目标人体2D姿态实时检测方法的流程图，该检测方法包括如下步骤：

步骤1：获取图像数据；

具体实施时，通过USB摄像机或者网络摄像机获取待处理图像信息，将获得的图像信息转换成标准RGB图像。若是采用USB摄像机，可以通过OpenCV开源计算机视觉库直接获取RGB图像，若是网络摄像机则通过SDK获取到视频流后转码为RGB图像。

步骤2：将图像数据输入到神经网络进行学习和预测，利用神经网络提取特征，获取不同类型关节点的热点图S和关节点之间的方向向量场热点图L，根据关节点位置的热点图S和关节点之间的方向向量场的热点图L生成人体的姿态信息；

步骤3：将预测得到的人体姿态信息通过线段连接的方式呈现给用户。

人体姿势的特征学习是通过多层卷积神经网络从大量训练样本中学习得到的，步骤2具体包括：

步骤2.1：将历史图像数据作为神经网络的输入对神经网络模型进行训练；具体为：

第一层和第二层为卷积层：对历史图像数据进行两层卷积处理；每一层采用64个3×3大小的卷积核对图像进行卷积操作，卷积步长为1，一个像素的填充；

第三层为池化层：对第一层和第二层的结果进行下采样处理；池化操作采用MaxPooling方法，滤波器尺寸为2×2，步长为2；

第四层和第五层为卷积层：对第三层的图像进行两层卷积处理；每一层采用128个3×3大小的卷积核对图像进行卷积操作，卷积步长为1，一个像素的填充；

第六层为池化层：对第四层和第五层的结果进行下采样处理；池化操作采用MaxPooling方法，滤波器尺寸为2×2，步长为2；

第七至第十层为卷积层：对第六层的图像进行四层卷积处理；每一层采用256个3×3大小的卷积核对图像进行卷积操作，卷积步长为1，一个像素的填充；

第十一层为池化层：对第七至第十层为卷积层的结果进行下采样处理；池化操作采用Max Pooling方法，滤波器尺寸为2×2，步长为2；

第十二层和第十三层为卷积层：将第十一层的图像进行两层卷积处理；每一层采用512个3×3大小的卷积核对图像进行卷积操作，卷积步长为1，一个像素的填充，最终得到用卷积神经网络学习到的输入图像的特征图F；

步骤2.1.2：将步骤2.1.1得到的输入图像的特征图F输入卷积神经网络的双通道阶段，得到不同类型关节点的热点图S和关节点之间的方向向量场热点图L，关节点的热点图S表示出一副图像中所有的关节点的位置信息，方向向量场热点图L有表示各个关节点之间的关联程度，由若干2D向量组成，2D向量的方向代表了关节连接成骨骼的方向；

在实际测试中，我们发现通过六个阶段的双通道学习，准确率达到最高，因此，在实际的应用中，我们将采用六阶段的双通道卷积神经网络，具体为：将步2.1.1得到的特征图F输入双通道卷积神经网络的第一阶段，得到第一阶段的预测的关节点的热点图S¹和关节点之间的方向向量场热点图L¹，得到的S¹、L¹和特征图F一起作为双通道卷积神经网络的第二阶段的输入，用第一阶段的结果加上原始特征图F一起进入第二阶段的神经网络可以得到更好的预测精度；得到第二阶段的预测的关节点的热点图S²和关节点之间的方向向量场热点图L²，以此类推，第t阶段的输入为t-1阶段的输出，再融合步骤2.1.1得到的特征图F，第六阶段的输出为最终得到的不同类型关节点的热点图S和关节点之间的方向向量场热点图。

通过神经网络可以得到预测的不同类型关节点的热点图S和关节点之间的方向向量场热点图L：

关节点的热点图S＝(S₁,S₂,…,S_J)表示出一副图像中所有的关节点的位置信息，共有J种不同类型的关节，在关节点的热点图中任意位置P的值由公式1给出：

其中代表第k个人的j类型的关节热点图中位置P的值，X_j,k代表关节点的真实位置坐标，其中p代表位置P点的位置坐标，σ控制热点图辐射的范围，σ越大，以真实关节点为中心的辐射范围越大，σ越小，以真实关节点为中心的辐射范围越小。热点图就是以关节点为中心的一个辐射状的图，关节点附近的点在热点图上的值也会受到关节点的影响，离关节点越近的值越大，离关节点越远的值越小，而σ的大小代表了以真实关节点为中心的多大范围内的点会受到影响。

如果一张图片上有多个人，则对于某一类型的关节点的热点图S_j，位置P点可能有多个值，我们采用非极大值抑制的方法来保证热点图保留所有的关节点信息，如公式2所示：

关节点之间的方向向量场热点图L＝(L₁,L₂,…,L_C)表示各个关节点之间的关联程度，同时编码了骨骼的位置信息和方向信息，关节点之间的方向向量场热点图L由若干2D向量组成，2D向量的方向代表了关节连接成骨骼的方向，在关节点之间的方向向量场热点图L中任意位置P的值L^* _c,k(p)由公式3给出：

其中，x_j2,k和x_j1,k是骨骼C两端的两个关节点的位置坐标。

多阶双通道段卷积神经网络各个阶段神经网络的输入由公式4和公式5求得：

其中，S^t代表第t阶段关节点特征图，L^t代表第t阶段关节点之间的方向向量场热点图L，ρ^t和φ^t代表神经网络的输入与输出的映射函数。

具体实施时，我们通过L₂损失函数P是神经网络预测值，P^*是标注数据的真实真，来计算神经网络学习到的结果与真实数据之间的误差，然后利用反向传播算法，调整神经网络的参数使损失函数值减小并收敛于某一值，使得神经网络学习到的结果最接近标注数据的真实结果，从而得到神经网络模型。

获得训练完成的神经网络后，利用神经网络进行预测，具体为：

步骤2.2：在步骤2.1中我们得到了通过大量标注数据训练得到的神经网络模型，此模型用于对一张RGB图像进行分析预测，预测精度的高低影响整个系统的性能；将要检测的图像数据输入到训练完的神经网络模型，利用神经网络提取特征，得到对于该图像预测的不同类型关节点的热点图和关节点之间的方向向量场热点图；

步骤2.3：对神经网络输出的两种热点图进行融合，将属于同一人体的关节点连接起来，构成完整的人体姿态信息，具体为：

通过步骤2.2我们获得了一组多人的关节点集合其中N_j为关节类型j的数量，为关节类型j第m个关节点的位置坐标，我们需要把上述关节点按照实际情况连接起来组成一个完整的人体。

将预测得到的关节点的热点图S和关节点之间的方向向量场热点图L转化成图论里求解最大权重K(K代表不同关节类型的个数)分图匹配问题，不同类型热点图S为K分图的节点，二分图的边的权重由公式6计算，其中P(u)＝(1-u)d_j1+ud_j2，d_j1和d_j2为关节点的位置。

步骤2.3.2：利用贪心算法简化最大权重二分图匹配问题：根据人体关节的实际连接情况简化问题，比如人体的肘关节只与手腕关节和肩关节相连接，不与腿上的关节相连，将K分图的匹配问题化解成多个最大权重二分图匹配问题；简化后减少了求解时间，使系统具有更好的实时性，简化后的二分图如图4所示；

本发明提供一种多目标人体2D姿态实时检测系统及方法，利用深度学习的方法编码关节的位置和由关节相互连接组成的骨骼的位置和方向，实现对单幅图像准确的人体的2D姿态估计，而且对于人员聚集复杂的情况，能够准确估计场景中的多个人体姿态，方便用户对人体的姿态进一步分析处理和挖掘，从而预测人的下一步行为。

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多目标人体2D姿态实时检测系统，其特征在于，包括：

图像采集模块，用于获取图像数据；

2.如权利要求1所述的多目标人体2D姿态实时检测系统，其特征在于，所述图像采集模块为USB摄像机或者网络摄像机，用于获取图像信息并将图像信息转换成标准RGB图像。

3.如权利要求1所述的多目标人体2D姿态实时检测系统，其特征在于，所述实时处理模块包括：

4.一种多目标人体2D姿态实时检测方法，其特征在于，包括：

步骤1：获取图像数据；

5.如权利要求4所述的多目标人体2D姿态实时检测方法，其特征在于，所述步骤1具体为：

6.如权利要求4所述的多目标人体2D姿态实时检测方法，其特征在于，所述步骤2包括：

7.如权利要求6所述的多目标人体2D姿态实时检测方法，其特征在于，所述步骤2.1包括：

第一层和第二层为卷积层：对历史图像数据进行卷积处理；

8.如权利要求6所述的多目标人体2D姿态实时检测方法，其特征在于，所述步骤2.3包括：