CN108898063A

CN108898063A - 一种基于全卷积神经网络的人体姿态识别装置及方法

Info

Publication number: CN108898063A
Application number: CN201810562059.8A
Authority: CN
Inventors: 张强; 张正轩; 董婧; 周东生; 魏小鹏; 夏时洪; 刘玉旺
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-27
Anticipated expiration: 2038-06-04
Also published as: CN108898063B

Abstract

本发明涉及一种基于全卷积神经网络的人体姿态识别装置及方法。首先，采集人体姿态数据构建训练数据集，捕获人体姿态图像并以手动标注对应图像上人体的关节点位置坐标；然后，对三阶段的全卷积神经网络进行训练，优化关节点预测器的识别精度；其次，在全卷积神经网络的前两个阶段依次提取待识别图像局部特征和关节点邻域特征；再次，在全卷积神经网络的第三阶段对两个特征进行叠加融合；最后，将融合后的特征作为关节预测器的输入，进而识别图像中人体关节点位置。本发明利用一个三阶段的全卷积神经网络配合多源特征来提高关节点的识别精度，改进了传统手工设计特征的弊端，具有简单、可靠等优点。

Description

一种基于全卷积神经网络的人体姿态识别装置及方法

技术领域

本发明属于深度学习和计算机视觉领域，具体涉及一种基于全卷积神经网络的人体姿态识别装置及其识别方法。

背景技术

人体运动分析和人体姿态识别是非常重要的技术，该技术使用有意义的人体姿态作为输入参数，有助于实现下一代人机交互、虚拟三维交互游戏和医学康复等应用。近年来，由于具有良好的学术价值和商业价值前景，人体运动捕获研究受到了越来越多的关注。

目前存在用于人体运动分析的多种方案。一些方案需要在对象上贴上特定的标记块或需要特定的运动捕获设备，而在一般的环境中(诸如家庭娱乐、3D交互游戏等)，上述需要对于用户是不方便的，因而限制了这些方案的使用。

现有的方法主要划分为两类，即，基于人体部位模板匹配的方法和基于深度学习的方法。从数据来源方面，现有的方法还可分为单纯使用彩色图像的方法以及使用深度图像和彩色图像，红外图像多种数据融合的方法。

众所周知，彩色图像只能提供二维(2D)信息，诸如颜色、纹理、形状等，存在人体的一些部位出现自遮挡的(self-occlusion)情况。因此，不可避免地会导致传统的基于模板匹配和特征分类等算法使用2D信息而导致的姿态不确定和识别准确精度低的问题。除此之外，一些研究人员和工程师使用激光扫描的3D模型来获得更精确的结果。然而，由于捕获装置的高成本和大体积，激光扫描仪在真实的环境(诸如家庭娱乐、3D交互游戏等)中并不实用且成本昂贵。为了解决该问题，急需一种能够适应大规模简单场景下，针对静态图像中人体姿态关节点的识别方法。

发明内容

本发明集中于静态图像场景下人体姿态识别的问题。针对传统算法需要手动设计特征且存在重复计算特征的问题，本发明提出一种基于全卷积神经网络的人体姿态识别装置，该装置包括：

输入模块(101)，用于捕获人体姿态，形成输入图像；

预处理模块(102)，用于将输入的图像剪裁、填充和归一化；

训练模块(103)，利用预处理模块(102)处理后的数据对三个阶段的全卷积神经网络(以下简称“三阶段全卷积神经网络”)训练关节预测器，建立一种从原始图像空间到人体姿态关节点之间的非线性映射；

模型固化模块(104)，对经训练得到的关节预测器的参数进行保存；

特征融合模块(105)，用于将全卷积神经前两个阶段依次提取的待识别图像局部特征和关节点邻域特征进行叠加融合；

识别模块(106)，用于识别待预测图像中人体关节点的位置；

输出模块(107)，用于将人体姿态识别的结果信息输出。

本发明提出利用一种基于全卷积神经网络的人体姿态识别装置识别人体姿态的方法，该方法包括以下步骤：

S1：采集人体姿态数据构建训练数据集，捕获形态各异的人体姿态图像和以手动标注对应图像上人体的14个关节点位置坐标；

S2：利用步骤S1中构建的数据集对三阶段的全卷积神经网络进行训练，优化关节点预测器gt(.)的识别精度，其中采用信念图描述各个关节点p在t∈{1，2，3}阶段的信念得分；

S3：在全卷积神经网络的前两个阶段依次提取待识别图像局部特征和关节点邻域特征ψ_t(z，b_t-1)，其中z表示图像位置z处，ψ_t(.)表示前一阶段输出的置信图b_t-1到关节点邻域像素特征之间的映射；

S4：在全卷积神经网络的第三阶段对步骤S3中提取的两个特征进行叠加融合；

S5：将融合后的特征作为关节预测器g_t(.)的输入，进而识别待预测图像中人体关节点位置。

本发明对静态图像中人体姿态的估计过程中只使用少量标注数据训练网络，网络即可端到端(End-to-End)地学习从图像空间到人体姿态空间的映射关系，无需人工设计特征和训练对应的分类器，具有简单可靠、易于扩展等特性。

附图说明

图1示出了根据本发明实施例的人体全身14个关节点位置定义图；

图2示出了根据本发明实施例的全卷积神经网络流程框图。

图3示出了根据本发明实施例的三阶段全卷积神经网络架构图；

图4示出了根据本发明实施例在特征融合前后右腕关节预测结果的对比图。

图5示出了根据本发明实施例的人体姿态关节点识别过程示意图。

具体实施方式

以下参照附图来详细说明本发明的实施例。本发明实施例使用深度学习Caffe框架作为实验平台。

图1示出了根据本发明实施方式所采用的人体关节点定义图。本发明实施例将人体划分为14个关节点，与此相关的训练和识别过程都是在该定义上进行的。

图2是本发明实施方式的人体姿态识别系统的系统框图。该人体姿态识别装置包括：输入模块101、预处理模块102、训练模块103、模型固化模块104、特征融合模块105、识别模块106、输出模块107。

利用该装置进行人体姿态识别的方法包括以下具体的步骤：

步骤1：输入模块101，利用彩色摄像机用于捕获人体姿态，形成输入图像。预处理模块102，将输入图像剪裁，填充和归一化为368*368大小。之后以人工手动标记的方式，对输入图像标记14个人体关节点位置作为训练标签数据。

步骤2：训练模块103，利用预处理后的数据对三阶段的全卷积神经网络训练关节预测器g_t(.)，使得g_t(.)可以建立一种从原始图像空间到人体姿态关节点之间的非线性映射。本发明使用L₂距离作为真实坐标点和网络预测关节点坐标之间差异的衡量标准。通过定义全局损失函数来驱动网络模型收敛:

其中P表示关节点定义个数，这里即为常数14，表示网络对应第p个关节点输出的预测坐标点，表示对应关节点真实位置的信念图，由在图像关节点p真实标签位置添加一个高斯波峰构成。在模型固化模块104，在上一步网络收敛稳定后，对关节预测器g_t(.)参数进行保存。

步骤3：将待识别图像送入全卷积神经网络中如图3所示，在网络前两个阶段依次提取图像局部特征和关节点邻域特征ψ_t(z，b_t-1)，其中z表示图像位置z处，ψ_t(.)表示前一阶段输出的置信图b_t-1到关节点邻域像素特征之间的映射。由于所设计的网络模型各个阶段的最后都可以获得人体关节点的粗略位置，因此可以利用第一阶段输出关节点位置附近的局部特征(即关节点邻域特征ψ_t(z，b_t-1))来建立关节点邻域特征同真实关节点位置之间的另一层映射关系。

步骤4：在特征融合模块105，将上述两个特征使用caffe框架中concat层进行叠加融合，这样一来，在第一阶段某些易检测的关节点(例如头，肩关节点)可以作为辅助信息用于后续难检测关节点的识别。更形象的如图4所示，通过提取三个阶段末尾关节预测器g_t(.)对右腕关节的预测结果，可以看到网络第一阶段对腕关节的左右位置不确定且存在干扰区域。在第一阶段输出的基础上加入关节点邻域特征，网络第二阶段已可以排除原先的干扰，但存在腕关节左右不分的情况。直至网络第三阶段，将上述特征融合后再次送入关节预测器g_t(.)，此时人体的右腕关节可以准确的识别。

步骤5：上述融合特征流入识别模块106，交由关节点预测器g_t(.)对人体关节点位置进行识别。关节点预测器g_t(.)输出14个关节点信息的热量图。在输出模块107对热量图进行插值，换算成原始图像大小下人体关节点的坐标信息，完成人体姿态的识别。

图5是本发明实施例的人体姿态关节点识别过程示意图。该图最左侧表示本发明实施例的输入图像，最右侧表示本发明实施例三阶段全卷积神经网络输出的人体关节点位置置信图，中间部分表示本发明实施例三阶段全卷积神经网络数据通道示意图。

因此，与传统的基于手工设计特征并训练相应分类器来进行识别的方法相比，本发明仅适用彩色摄像头所拍摄的2D信息，且没有使用深度相机和红外相机作为辅助信息。本发明提供一种简单场景下，对静态图像中人体姿态关节点识别的快速解决方法，具有简单可靠、容易扩展的特点。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于全卷积神经网络的人体姿态识别装置，其特征在于，该装置包括：

输入模块(101)，用于捕获人体姿态，形成输入图像；

预处理模块(102)，用于将输入的图像剪裁、填充和归一化；

训练模块(103)，利用预处理模块(102)处理后的数据对三阶段全卷积神经网络训练关节预测器，建立一种从原始图像空间到人体姿态关节点之间的非线性映射；

识别模块(106)，用于识别待预测图像中人体关节点的位置；

输出模块(107)，用于将人体姿态识别的结果信息输出。

2.利用如权利要求1所述的一种基于全卷积神经网络的人体姿态识别装置识别人体姿态的方法，其特征在于，该方法包括以下步骤：

S1：采集人体姿态数据构建训练数据集，捕获形态各异的人体姿态图像并以手动标注对应图像上人体的14个关节点位置坐标；

S2：利用步骤S1中构建的数据集对三阶段的全卷积神经网络进行训练，优化关节点预测器g_t(.)的识别精度，其中采用置信图描述各个关节点p在t∈{1，2，3}阶段的置信得分；

3.如权利要求2所述的一种基于全卷积神经网络的人体姿态识别装置识别人体姿态的方法，其特征在于，S5的过程表示为：

其中x′_z表示图像局部特征；ψ_t(z，b_t-1)表示关节点邻域特征；g_t(.)表示关节预测器；表示当前t阶段关节点p的置信图；Y_p为待预测的人体关节点坐标，表示为：

其中表示预测关节点在图像z处的置信图，表示真实关节点在图像Z处的置信图。