CN108898063A - 一种基于全卷积神经网络的人体姿态识别装置及方法 - Google Patents
一种基于全卷积神经网络的人体姿态识别装置及方法 Download PDFInfo
- Publication number
- CN108898063A CN108898063A CN201810562059.8A CN201810562059A CN108898063A CN 108898063 A CN108898063 A CN 108898063A CN 201810562059 A CN201810562059 A CN 201810562059A CN 108898063 A CN108898063 A CN 108898063A
- Authority
- CN
- China
- Prior art keywords
- human body
- convolutional neural
- artis
- neural networks
- full convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Abstract
本发明涉及一种基于全卷积神经网络的人体姿态识别装置及方法。首先,采集人体姿态数据构建训练数据集,捕获人体姿态图像并以手动标注对应图像上人体的关节点位置坐标;然后,对三阶段的全卷积神经网络进行训练,优化关节点预测器的识别精度;其次,在全卷积神经网络的前两个阶段依次提取待识别图像局部特征和关节点邻域特征;再次,在全卷积神经网络的第三阶段对两个特征进行叠加融合;最后,将融合后的特征作为关节预测器的输入,进而识别图像中人体关节点位置。本发明利用一个三阶段的全卷积神经网络配合多源特征来提高关节点的识别精度,改进了传统手工设计特征的弊端,具有简单、可靠等优点。
Description
技术领域
本发明属于深度学习和计算机视觉领域,具体涉及一种基于全卷积神经网络的人体姿态识别装置及其识别方法。
背景技术
人体运动分析和人体姿态识别是非常重要的技术,该技术使用有意义的人体姿态作为输入参数,有助于实现下一代人机交互、虚拟三维交互游戏和医学康复等应用。近年来,由于具有良好的学术价值和商业价值前景,人体运动捕获研究受到了越来越多的关注。
目前存在用于人体运动分析的多种方案。一些方案需要在对象上贴上特定的标记块或需要特定的运动捕获设备,而在一般的环境中(诸如家庭娱乐、3D交互游戏等),上述需要对于用户是不方便的,因而限制了这些方案的使用。
现有的方法主要划分为两类,即,基于人体部位模板匹配的方法和基于深度学习的方法。从数据来源方面,现有的方法还可分为单纯使用彩色图像的方法以及使用深度图像和彩色图像,红外图像多种数据融合的方法。
众所周知,彩色图像只能提供二维(2D)信息,诸如颜色、纹理、形状等,存在人体的一些部位出现自遮挡的(self-occlusion)情况。因此,不可避免地会导致传统的基于模板匹配和特征分类等算法使用2D信息而导致的姿态不确定和识别准确精度低的问题。除此之外,一些研究人员和工程师使用激光扫描的3D模型来获得更精确的结果。然而,由于捕获装置的高成本和大体积,激光扫描仪在真实的环境(诸如家庭娱乐、3D交互游戏等)中并不实用且成本昂贵。为了解决该问题,急需一种能够适应大规模简单场景下,针对静态图像中人体姿态关节点的识别方法。
发明内容
本发明集中于静态图像场景下人体姿态识别的问题。针对传统算法需要手动设计特征且存在重复计算特征的问题,本发明提出一种基于全卷积神经网络的人体姿态识别装置,该装置包括:
输入模块(101),用于捕获人体姿态,形成输入图像;
预处理模块(102),用于将输入的图像剪裁、填充和归一化;
训练模块(103),利用预处理模块(102)处理后的数据对三个阶段的全卷积神经网络(以下简称“三阶段全卷积神经网络”)训练关节预测器,建立一种从原始图像空间到人体姿态关节点之间的非线性映射;
模型固化模块(104),对经训练得到的关节预测器的参数进行保存;
特征融合模块(105),用于将全卷积神经前两个阶段依次提取的待识别图像局部特征和关节点邻域特征进行叠加融合;
识别模块(106),用于识别待预测图像中人体关节点的位置;
输出模块(107),用于将人体姿态识别的结果信息输出。
本发明提出利用一种基于全卷积神经网络的人体姿态识别装置识别人体姿态的方法,该方法包括以下步骤:
S1:采集人体姿态数据构建训练数据集,捕获形态各异的人体姿态图像和以手动标注对应图像上人体的14个关节点位置坐标;
S2:利用步骤S1中构建的数据集对三阶段的全卷积神经网络进行训练,优化关节点预测器gt(.)的识别精度,其中采用信念图描述各个关节点p在t∈{1,2,3}阶段的信念得分;
S3:在全卷积神经网络的前两个阶段依次提取待识别图像局部特征和关节点邻域特征ψt(z,bt-1),其中z表示图像位置z处,ψt(.)表示前一阶段输出的置信图bt-1到关节点邻域像素特征之间的映射;
S4:在全卷积神经网络的第三阶段对步骤S3中提取的两个特征进行叠加融合;
S5:将融合后的特征作为关节预测器gt(.)的输入,进而识别待预测图像中人体关节点位置。
本发明对静态图像中人体姿态的估计过程中只使用少量标注数据训练网络,网络即可端到端(End-to-End)地学习从图像空间到人体姿态空间的映射关系,无需人工设计特征和训练对应的分类器,具有简单可靠、易于扩展等特性。
附图说明
图1示出了根据本发明实施例的人体全身14个关节点位置定义图;
图2示出了根据本发明实施例的全卷积神经网络流程框图。
图3示出了根据本发明实施例的三阶段全卷积神经网络架构图;
图4示出了根据本发明实施例在特征融合前后右腕关节预测结果的对比图。
图5示出了根据本发明实施例的人体姿态关节点识别过程示意图。
具体实施方式
以下参照附图来详细说明本发明的实施例。本发明实施例使用深度学习Caffe框架作为实验平台。
图1示出了根据本发明实施方式所采用的人体关节点定义图。本发明实施例将人体划分为14个关节点,与此相关的训练和识别过程都是在该定义上进行的。
图2是本发明实施方式的人体姿态识别系统的系统框图。该人体姿态识别装置包括:输入模块101、预处理模块102、训练模块103、模型固化模块104、特征融合模块105、识别模块106、输出模块107。
利用该装置进行人体姿态识别的方法包括以下具体的步骤:
步骤1:输入模块101,利用彩色摄像机用于捕获人体姿态,形成输入图像。预处理模块102,将输入图像剪裁,填充和归一化为368*368大小。之后以人工手动标记的方式,对输入图像标记14个人体关节点位置作为训练标签数据。
步骤2:训练模块103,利用预处理后的数据对三阶段的全卷积神经网络训练关节预测器gt(.),使得gt(.)可以建立一种从原始图像空间到人体姿态关节点之间的非线性映射。本发明使用L2距离作为真实坐标点和网络预测关节点坐标之间差异的衡量标准。通过定义全局损失函数来驱动网络模型收敛:
其中P表示关节点定义个数,这里即为常数14,表示网络对应第p个关节点输出的预测坐标点,表示对应关节点真实位置的信念图,由在图像关节点p真实标签位置添加一个高斯波峰构成。在模型固化模块104,在上一步网络收敛稳定后,对关节预测器gt(.)参数进行保存。
步骤3:将待识别图像送入全卷积神经网络中如图3所示,在网络前两个阶段依次提取图像局部特征和关节点邻域特征ψt(z,bt-1),其中z表示图像位置z处,ψt(.)表示前一阶段输出的置信图bt-1到关节点邻域像素特征之间的映射。由于所设计的网络模型各个阶段的最后都可以获得人体关节点的粗略位置,因此可以利用第一阶段输出关节点位置附近的局部特征(即关节点邻域特征ψt(z,bt-1))来建立关节点邻域特征同真实关节点位置之间的另一层映射关系。
步骤4:在特征融合模块105,将上述两个特征使用caffe框架中concat层进行叠加融合,这样一来,在第一阶段某些易检测的关节点(例如头,肩关节点)可以作为辅助信息用于后续难检测关节点的识别。更形象的如图4所示,通过提取三个阶段末尾关节预测器gt(.)对右腕关节的预测结果,可以看到网络第一阶段对腕关节的左右位置不确定且存在干扰区域。在第一阶段输出的基础上加入关节点邻域特征,网络第二阶段已可以排除原先的干扰,但存在腕关节左右不分的情况。直至网络第三阶段,将上述特征融合后再次送入关节预测器gt(.),此时人体的右腕关节可以准确的识别。
步骤5:上述融合特征流入识别模块106,交由关节点预测器gt(.)对人体关节点位置进行识别。关节点预测器gt(.)输出14个关节点信息的热量图。在输出模块107对热量图进行插值,换算成原始图像大小下人体关节点的坐标信息,完成人体姿态的识别。
图5是本发明实施例的人体姿态关节点识别过程示意图。该图最左侧表示本发明实施例的输入图像,最右侧表示本发明实施例三阶段全卷积神经网络输出的人体关节点位置置信图,中间部分表示本发明实施例三阶段全卷积神经网络数据通道示意图。
因此,与传统的基于手工设计特征并训练相应分类器来进行识别的方法相比,本发明仅适用彩色摄像头所拍摄的2D信息,且没有使用深度相机和红外相机作为辅助信息。本发明提供一种简单场景下,对静态图像中人体姿态关节点识别的快速解决方法,具有简单可靠、容易扩展的特点。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种基于全卷积神经网络的人体姿态识别装置,其特征在于,该装置包括:
输入模块(101),用于捕获人体姿态,形成输入图像;
预处理模块(102),用于将输入的图像剪裁、填充和归一化;
训练模块(103),利用预处理模块(102)处理后的数据对三阶段全卷积神经网络训练关节预测器,建立一种从原始图像空间到人体姿态关节点之间的非线性映射;
模型固化模块(104),对经训练得到的关节预测器的参数进行保存;
特征融合模块(105),用于将全卷积神经前两个阶段依次提取的待识别图像局部特征和关节点邻域特征进行叠加融合;
识别模块(106),用于识别待预测图像中人体关节点的位置;
输出模块(107),用于将人体姿态识别的结果信息输出。
2.利用如权利要求1所述的一种基于全卷积神经网络的人体姿态识别装置识别人体姿态的方法,其特征在于,该方法包括以下步骤:
S1:采集人体姿态数据构建训练数据集,捕获形态各异的人体姿态图像并以手动标注对应图像上人体的14个关节点位置坐标;
S2:利用步骤S1中构建的数据集对三阶段的全卷积神经网络进行训练,优化关节点预测器gt(.)的识别精度,其中采用置信图描述各个关节点p在t∈{1,2,3}阶段的置信得分;
S3:在全卷积神经网络的前两个阶段依次提取待识别图像局部特征和关节点邻域特征ψt(z,bt-1),其中z表示图像位置z处,ψt(.)表示前一阶段输出的置信图bt-1到关节点邻域像素特征之间的映射;
S4:在全卷积神经网络的第三阶段对步骤S3中提取的两个特征进行叠加融合;
S5:将融合后的特征作为关节预测器gt(.)的输入,进而识别待预测图像中人体关节点位置。
3.如权利要求2所述的一种基于全卷积神经网络的人体姿态识别装置识别人体姿态的方法,其特征在于,S5的过程表示为:
其中x′z表示图像局部特征;ψt(z,bt-1)表示关节点邻域特征;gt(.)表示关节预测器;表示当前t阶段关节点p的置信图;Yp为待预测的人体关节点坐标,表示为:
其中表示预测关节点在图像z处的置信图,表示真实关节点在图像Z处的置信图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810562059.8A CN108898063B (zh) | 2018-06-04 | 2018-06-04 | 一种基于全卷积神经网络的人体姿态识别装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810562059.8A CN108898063B (zh) | 2018-06-04 | 2018-06-04 | 一种基于全卷积神经网络的人体姿态识别装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108898063A true CN108898063A (zh) | 2018-11-27 |
CN108898063B CN108898063B (zh) | 2021-05-04 |
Family
ID=64344176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810562059.8A Active CN108898063B (zh) | 2018-06-04 | 2018-06-04 | 一种基于全卷积神经网络的人体姿态识别装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108898063B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190544A (zh) * | 2018-08-27 | 2019-01-11 | 华中科技大学 | 一种基于序列深度图像的人体身份识别方法 |
CN110210402A (zh) * | 2019-06-03 | 2019-09-06 | 北京卡路里信息技术有限公司 | 特征提取方法、装置、终端设备及存储介质 |
CN110349180A (zh) * | 2019-07-17 | 2019-10-18 | 深圳前海达闼云端智能科技有限公司 | 人体关节点预测方法及装置、动作类型识别方法及装置 |
CN110598569A (zh) * | 2019-08-20 | 2019-12-20 | 江西憶源多媒体科技有限公司 | 一种基于人体姿态数据的动作识别方法 |
CN110826401A (zh) * | 2019-09-26 | 2020-02-21 | 广州视觉风科技有限公司 | 一种人体肢体语言识别方法及系统 |
CN111428609A (zh) * | 2020-03-19 | 2020-07-17 | 辽宁石油化工大学 | 一种基于深度学习的人体姿态识别方法及系统 |
EP3709134A1 (en) * | 2019-03-12 | 2020-09-16 | Volvo Car Corporation | Tool and method for annotating a human pose in 3d point cloud data |
US11043005B2 (en) | 2018-11-23 | 2021-06-22 | Volvo Car Corporation | Lidar-based multi-person pose estimation |
CN113033256A (zh) * | 2019-12-24 | 2021-06-25 | 武汉Tcl集团工业研究院有限公司 | 一种指尖检测模型的训练方法和设备 |
CN113128446A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于信念图增强网络的人体姿态估计方法 |
CN113505256A (zh) * | 2021-07-02 | 2021-10-15 | 北京达佳互联信息技术有限公司 | 特征提取网络训练方法、图像处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080152191A1 (en) * | 2006-12-21 | 2008-06-26 | Honda Motor Co., Ltd. | Human Pose Estimation and Tracking Using Label Assignment |
KR20170077444A (ko) * | 2015-12-28 | 2017-07-06 | 전자부품연구원 | 인체 포즈 인지 시스템 및 방법 |
CN107451568A (zh) * | 2017-08-03 | 2017-12-08 | 重庆邮电大学 | 使用深度卷积神经网络的姿态检测方法及设备 |
CN107808111A (zh) * | 2016-09-08 | 2018-03-16 | 北京旷视科技有限公司 | 用于行人检测和姿态估计的方法和装置 |
-
2018
- 2018-06-04 CN CN201810562059.8A patent/CN108898063B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080152191A1 (en) * | 2006-12-21 | 2008-06-26 | Honda Motor Co., Ltd. | Human Pose Estimation and Tracking Using Label Assignment |
KR20170077444A (ko) * | 2015-12-28 | 2017-07-06 | 전자부품연구원 | 인체 포즈 인지 시스템 및 방법 |
CN107808111A (zh) * | 2016-09-08 | 2018-03-16 | 北京旷视科技有限公司 | 用于行人检测和姿态估计的方法和装置 |
CN107451568A (zh) * | 2017-08-03 | 2017-12-08 | 重庆邮电大学 | 使用深度卷积神经网络的姿态检测方法及设备 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190544A (zh) * | 2018-08-27 | 2019-01-11 | 华中科技大学 | 一种基于序列深度图像的人体身份识别方法 |
CN109190544B (zh) * | 2018-08-27 | 2020-09-08 | 华中科技大学 | 一种基于序列深度图像的人体身份识别方法 |
US11043005B2 (en) | 2018-11-23 | 2021-06-22 | Volvo Car Corporation | Lidar-based multi-person pose estimation |
US11308639B2 (en) | 2019-03-12 | 2022-04-19 | Volvo Car Corporation | Tool and method for annotating a human pose in 3D point cloud data |
EP3709134A1 (en) * | 2019-03-12 | 2020-09-16 | Volvo Car Corporation | Tool and method for annotating a human pose in 3d point cloud data |
CN110210402A (zh) * | 2019-06-03 | 2019-09-06 | 北京卡路里信息技术有限公司 | 特征提取方法、装置、终端设备及存储介质 |
CN110349180A (zh) * | 2019-07-17 | 2019-10-18 | 深圳前海达闼云端智能科技有限公司 | 人体关节点预测方法及装置、动作类型识别方法及装置 |
CN110349180B (zh) * | 2019-07-17 | 2022-04-08 | 达闼机器人有限公司 | 人体关节点预测方法及装置、动作类型识别方法及装置 |
CN110598569B (zh) * | 2019-08-20 | 2022-03-08 | 江西憶源多媒体科技有限公司 | 一种基于人体姿态数据的动作识别方法 |
CN110598569A (zh) * | 2019-08-20 | 2019-12-20 | 江西憶源多媒体科技有限公司 | 一种基于人体姿态数据的动作识别方法 |
CN110826401A (zh) * | 2019-09-26 | 2020-02-21 | 广州视觉风科技有限公司 | 一种人体肢体语言识别方法及系统 |
CN110826401B (zh) * | 2019-09-26 | 2023-12-26 | 广州视觉风科技有限公司 | 一种人体肢体语言识别方法及系统 |
CN113033256A (zh) * | 2019-12-24 | 2021-06-25 | 武汉Tcl集团工业研究院有限公司 | 一种指尖检测模型的训练方法和设备 |
CN111428609A (zh) * | 2020-03-19 | 2020-07-17 | 辽宁石油化工大学 | 一种基于深度学习的人体姿态识别方法及系统 |
CN113128446A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于信念图增强网络的人体姿态估计方法 |
CN113505256A (zh) * | 2021-07-02 | 2021-10-15 | 北京达佳互联信息技术有限公司 | 特征提取网络训练方法、图像处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108898063B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898063A (zh) | 一种基于全卷积神经网络的人体姿态识别装置及方法 | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN106897670B (zh) | 一种基于计算机视觉的快递暴力分拣识别方法 | |
CN101989326B (zh) | 人体姿态识别方法和装置 | |
CN106055091B (zh) | 一种基于深度信息和校正方式的手部姿态估计方法 | |
CN108388882B (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
CN108776773B (zh) | 一种基于深度图像的三维手势识别方法及交互系统 | |
CN106203503B (zh) | 一种基于骨骼序列的动作识别方法 | |
CN105536205A (zh) | 一种基于单目视频人体动作感知的上肢训练系统 | |
CN109086706A (zh) | 应用于人机协作中的基于分割人体模型的动作识别方法 | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
CN110688965A (zh) | 基于双目视觉的ipt模拟训练手势识别方法 | |
CN106815855A (zh) | 基于产生式和判别式结合的人体运动跟踪方法 | |
CN109758756A (zh) | 基于3d相机的体操视频分析方法及系统 | |
CN115376034A (zh) | 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置 | |
Zhou et al. | Cross-weather image alignment via latent generative model with intensity consistency | |
D'Eusanio et al. | Refinet: 3d human pose refinement with depth maps | |
Kanaujia et al. | Part segmentation of visual hull for 3d human pose estimation | |
Liang et al. | Egocentric hand pose estimation and distance recovery in a single RGB image | |
Huang et al. | Multi‐class obstacle detection and classification using stereovision and improved active contour models | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
Liu et al. | Sparse pose regression via componentwise clustering feature point representation | |
Shih | Hand gesture recognition using color-depth association for smart home | |
Xu et al. | Indoor localization using region-based convolutional neural network | |
KR101357581B1 (ko) | 깊이 정보 기반 사람의 피부 영역 검출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |