CN108664885B

CN108664885B - 基于多尺度级联HourGlass网络的人体关键点检测方法

Info

Publication number: CN108664885B
Application number: CN201810224634.3A
Authority: CN
Inventors: 郭春生; 都文龙; 夏尚琴; 应娜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2021-08-31
Anticipated expiration: 2038-03-19
Also published as: CN108664885A

Abstract

基于多尺度级联HourGlass网络的人体关键点检测方法：一：将输入图片生成128*128、64*64和32*32特征图；二：将128*128的特征图送入前2个Modified HourGlass模块中，此2个模块输入输出都为128*128特征图；三：将第2个Modified HourGlass模块输出的128*128特征图和128*128热点图进行下采样成64*64的特征图与步骤一生成的64*64特征图一并送入中间4个Modified HourGlass模块中，此4个模块的输入和输出均为64*64特征图；四：将第6个Modified HourGlass模块输出的64*64特征图和64*64热点图进行下采样成32*32特征图与步骤一生成的32*32特征图一并送入最后2个模块中；五：提取8个Modified HourGlass模块的损失函数，将损失函数相加；网络根据损失函数进行后向反馈，当损失函数达到预期值并稳定后停止训练。

Description

基于多尺度级联HourGlass网络的人体关键点检测方法

技术领域

本发明属于单人姿态估计技术领域，具体涉及一种基于多尺度级联HourGlass网络的人体关键点检测方法。

背景技术

经典的单人姿态估计方法是基于图形结构模型。在这种模型中，身体各部分的空间相关性被表示为树形结构的图模型。后来为增强树形结构捕获人体关键点间的对称性和长距离关系发展出通过引入循环机制的非树形模型。总体而言，基于图形结构模型的单人姿态估计存在关键点重复计数、建模复杂等缺点。

随着深度学习的发展，出现了很多基于CNN的单人姿态估计方法。如DeepPose直接回归关节的坐标。该网络使用卷积神经网络和级联的思想，将以前用于分类的卷积神经网络，通过改变误差函数，将其转变为用于关节点坐标估计的卷积神经网络。同时，采用级联的方式，利用局部图片进行更高精度的坐标计算。但是，由于人体运动灵活，该模型可扩展性较差。Flowing ConvNets将姿态估计看作是检测问题，输出是热点图。其创新点在于从卷积神经网络的3和7层提取出来，再经过卷积操作，称之为空间融合模型，用来提取关节点之间的内在联系；同时使用光流信息，用来对准相邻帧的热点图预测。最后使用参数池化方法，将对其的热点图合并成一个概率图。但是，该方法对于pose的估计范围有限，只是半身的关节点，并不是全身的身体骨骼点。CPM方法使用顺序化的卷积架构来表达空间信息和纹理信息。网络分为多个阶段，每一个阶段都有监督训练的部分。但是，对于关键点的建模过程比较复杂，计算量大。HourGlass网络对给定的单张RGB图像，输出人体关键点的精确像素位置，使用多尺度特征，捕捉人体各关节点的空间位置信息。网络结构形似沙漏状，重复使用自上而下到自下而上的结构来推断人体的关节点位置。每一个自上而下到自下而上的结构都是一个Hourglass模块。虽然HourGlass网络在MPII等数据集上对于人体关键点的检测率很高，但是其结构仍存在不合理之处，没有充分利用网络中的特征图包含的丰富信息。

发明内容

基于上述现有技术存在的缺陷，本发明提出了一种基于多尺度级联HourGlass网络的人体关键点检测方法。

原HourGlas网络是由8个HourGlass模块组成。本发明中将组成原HourGlass模块的Residual模块进行改进，修改过的HourGlass模块称之为Modified HourGlass模块。原HourGlass网络每次将前一个HourGlass模块的输出直接作为下一个HourGlass模块的输入，本发明中灵活运用每个HourGlass模块。首先，将尺寸为128*128的特征图送入前2个Modified HourGlass模块中，尺度最大的特征图包含大量的全局信息，有利于网络对于人体关键点的粗略定位。其次，将尺寸为64*64的特征图送入中间4个Modified HourGlass模块中，该尺度大小的特征图，感受也大小适中，包含的局部信息也较为丰富，相比于尺度最大的特征图和尺度最小的特征图，包含的语义信息和底层信息都适中，因此本发明充分利用该类特征图。然后，将尺寸为32*32的特征图送入最后2个Modified HourGlass模块，尺度最小的特征图包含丰富的底层信息，辅助网络对于关键点检测的精细定位。最后，根据8个Modified HourGlass模块的损失函数进行反向传播，从而能够利用网络中不同尺度的特征图比较准确的检测到人体关键点。

为方便描述发明内容，首先做以下术语定义：

定义1HourGlass模块

HourGlass模块是由若干个Residual模块组成的自上而下和自下而上为一体的结构。每个Residual模块都包块2路：一路是对Residual模块的输入和输出进行等价映射，另一路对Residual模块输入的特征图进行卷积操作。最后将两者进行像素相加，作为Residual模块的输出。

定义2Modified HourGlass模块

Modified HourGlass模块是由若干个修改过的Residual模块(ModifiedResidual模块)组成的自上而下和自下而上为一体的结构。每个Modified Residual模块都包块3路：一路是对Modified Residual模块的输入和输入进行等价映射，另外两路对Modified Residual模块输入的特征图进行卷积操作。最后将三者进行像素相加，作为Residual模块的输出。由于Modified Residual模块增加了一路卷积操作，使得由ModifiedResidual模块组成的Modified HourGlass模块相比于原HourGlass模块能够更加充分地提取到特征图中所包含的信息。

本发明提出了一种基于多尺度级联HourGlass网络的人体关键点检测方法。本发明方法的创新点在于不仅改进了原HourGlass模块的结构，增加一条分支提取特征图的信息，而且灵活地运用不同尺度的特征图，将3种不同尺度的特征图按照合理的顺序，分别输入到每个Modified HourGlass模块中，使得网络能够比较充分地利用特征图的信息进行人体关键点的定位。本发明具体步骤如下：

步骤一：利用CBR模块(Convolution Layer-Batch Normalization Layer-Rectified Linear Units)、Residual模块和下采样层将输入的图片生成3种尺度的特征图，特征图的尺寸为128*128、64*64和32*32；

步骤二：将尺寸为128*128的特征图送入前2个Modified HourGlass模块中，这2个Modified HourGlass模块输入和输出都是大小128*128的特征图；

步骤三：将第2个Modified HourGlass模块输出的尺寸为128*128的特征图和尺寸为128*128的热点图都进行下采样成64*64大小的特征图与步骤一中由原始图片生成的64*64的特征图一并送入中间4个Modified HourGlass模块中，这4个Modified HourGlass模块的输入和输出均为大小64*64的特征图；

步骤四：将第6个Modified HourGlass模块输出的尺寸为64*64的特征图和尺寸为64*64的热点图都进行下采样成32*32大小的特征图与步骤一中由原始图片生成的32*32的特征图一并送入最后2个Modified HourGlass模块中；

步骤五：提取每个Modified HourGlass模块中的损失函数，将这8个损失函数进行相加。网络根据损失函数进行后向反馈，当损失函数达到预期值并稳定后停止训练。

本发明的优点在于：

1)利用当前非常流行的人体关键点检测网络——HourGlass网络，作为原型，将组成HourGlass模块的Residual模块修改为多路卷积的Residual模块，从而使得ModifiedHourGlass模块相比于原HourGlass模块能够更加有效地提取特征图中的信息。

2)本发明将多尺度特征图作为每个HourGlass模块的输入，充分地利用了不同尺度特征图所包含的丰富的语义信息和底层信息。

附图说明

图1为本发明一种优选实施例的流程示意图。

具体实施方式

下面结合附图对本发明优选实施例作详细说明。

本发明一种优选的实施例流程如图1所示，具体实施步骤如下：

步骤一：利用CBR(Convolution Layer-Batch Normalization Layer-RectifiedLinear Units)、Residual模块和下采样层将输入的图片生成3种不同尺度的特征图，特征图的尺寸为128*128、64*64和32*32(为便于示意清晰，图1中并未具体画出，只画出其输出部分)；

步骤三：将第2个Modified HourGlass模块输出的尺寸为128*128的特征图和尺寸为128*128热点图都进行下采样成64*64大小的特征图与步骤一中由原始图片生成的64*64的特征图一并送入中间4个Modified HourGlass模块中，这4个Modified HourGlass模块的输入和输出均为大小64*64的特征图；

步骤五：提取8个Modified HourGlass模块中的损失函数，将这8个损失函数进行相加。网络根据损失函数进行后向反馈，当损失函数达到预期值并稳定后停止训练。

本发明基于多尺度级联HourGlass网络的人体关键点检测方法。首先，将尺寸为128*128的特征图送入前2个Modified HourGlass模块中，尺度最大的特征图包含大量的全局信息，有利于网络对于人体关键点的粗略定位。其次，将尺寸为64*64的特征图送入中间4个Modified HourGlass模块中，该尺度大小的特征图，相比于尺度最大的特征图和尺度最小的特征图，包含的语义信息和底层信息都比较适中，因此主要用来进行人体关键点的检测。然后，将尺寸为32*32的特征图送入最后2个Modified HourGlass模块，尺度最小的特征图包含丰富的底层信息，辅助网络对于关键点检测的精细定位。最后，根据8个ModifiedHourGlass模块的损失函数进行反向传播，从而能够利用网络中不同尺度的特征图比较准确地检测到人体关键点。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度级联HourGlass网络的人体关键点检测方法，其特征是按如下步骤：

步骤一：将输入的图片生成3种不同尺度的特征图，特征图的尺寸分别为128*128、64*64和32*32；

步骤二：将尺寸为128*128的特征图送入前2个Modified HourGlass模块中，此2个Modified HourGlass模块输入和输出都为128*128的特征图；

步骤三：将第2个Modified HourGlass模块输出的尺寸为128*128的特征图和尺寸为128*128的热点图都进行下采样成64*64的特征图与步骤一中由原始图片生成的64*64的特征图一并送入中间4个Modified HourGlass模块中，此4个Modified HourGlass模块的输入和输出均为64*64的特征图；

步骤四：将第6个Modified HourGlass模块输出的尺寸为64*64的特征图和尺寸为64*64的热点图都进行下采样成32*32的特征图与步骤一中由原始图片生成的32*32的特征图一并送入最后2个Modified HourGlass模块中；

步骤五：提取8个Modified HourGlass模块中的损失函数，将此8个损失函数进行相加；网络根据损失函数进行后向反馈，当损失函数达到预期值并稳定后停止训练。

2.如权利要求1所述一种基于多尺度级联HourGlass网络的人体关键点检测方法，其特征是：

步骤一中，利用CBR模块、Residual模块和下采样层将输入的图片生成3种不同尺度的特征图。