CN108710830A

CN108710830A - 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法

Info

Publication number: CN108710830A
Application number: CN201810362559.7A
Authority: CN
Inventors: 田彦; 王勋; 蒋杭森
Original assignee: Zhejiang Gongshang University
Current assignee: Hangzhou Yunqi Smart Vision Technology Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-10-26
Anticipated expiration: 2038-04-20
Also published as: CN108710830B

Abstract

本发明公开了一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，该方法分解为辨别式人体2D姿势估计和生成式人体3D姿势估计两个部分。首先构建人体2D姿势估计模型，人体2D姿势估计模型包括注意力金字塔残差块和由若干注意力金字塔残差块组成的漏斗子网络，注意力金字塔残差块用于多尺度图像特征提取，漏斗子网络用于生成人体关节点热力图；为解决环境上下文信息未充分利用的问题，结合注意力机制和多尺度分析捕捉环境上下文特征；为解决梯度消失/梯度爆炸问题，密集连接网络结合上述注意力机制改进特征图辨识度。然后构建损失函数，引入等距限制项，通过最小化损失函数来拟合人体3D姿势。本发明方法在人体3D姿势估计任务上有明显优势。

Description

一种结合密集连接注意力金字塔残差网络和等距限制的人体 3D姿势估计方法

技术领域

本发明属于人体姿势估计技术领域，具体涉及一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法。

背景技术

人体3D姿势估计恢复给定图像或视频中人体关节点的3D位置。这项工作是很多重要应用的基础，例如视频监控、行为识别、人体交互、虚拟现实、游戏动画、医疗看护等等。

目前的人体姿势估计方法大致可以分为以下几类：1)回归迭代法，初始化得到起始姿态预测，然后迭代估计提高预测精度；2)基于结构化学习的方法，利用马尔科夫随机场挖掘人体结构信息从而在特征层面上获得人体关节点的相互关系；3)基于检测的方法，通过检测器获得各个人体关节点的热力图，然后基于热力图分析得到最终关节点坐标。

目前基于深度卷积神经网络的人体3D姿势估计研究取得一定的效果，但是在性能上遇到一些瓶颈：1)这个问题本质上是病态问题；2)从图像特征空间到3D姿势空间的映射是非线性多模态的；3)更深层的网络容易学习这种非线性映射关系，但是更深层的网络容易引起梯度消失或梯度爆炸问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，该方法能够有效提高人体姿势估计的准确率。

本发明的目的是通过以下技术方案来实现的：一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，该方法包括以下步骤：

(1)构建人体2D姿势估计模型：所述人体2D姿势估计模型包括注意力金字塔残差块和由若干注意力金字塔残差块组成的漏斗子网络；

(1.1)所述注意力金字塔残差块用于多尺度图像特征提取，具体为：

金字塔残差块(pyramid residual module)具有三个支路，第一支路通过通道数为D、卷积核为1*1的卷积层后展开为n个并行分支，每个分支通过不同采样率的下采样层、卷积层、上采样层后连接注意力模块，在每个注意力模块中，首先输入特征经过卷积核为3*3的卷积层，然后经过卷积核为1*1、通道数为1的卷积层，从而得到非归一化注意力图，将非归一化注意力图输入softmax层，得到归一化注意力图α_k，将每个尺度的归一化注意力图α_k的通道数扩张到该尺度下的上采样特征通道数，再与该上采样特征进行Hadamard乘积得到该尺度的环境上下文特征，作为该注意力模块的输出；将所有注意力模块的输出进行加和，得到该输入特征的环境上下文特征c，作为该支路的输出；在上采样层输出和1*1卷积层输入之间引入一条捷径(short-cut)，上采样层输出特征图与3*3卷积层输出特征图级联(concatenate)到一起作为1*1卷积层的输入，从而形成密集连接网络；这种连接有利于解决梯度消失问题，同时加强特征的传播，间接地减少了网络参数；

第二支路依次通过通道数为C/2、卷积核为1*1的卷积层，通道数为C/2、卷积核为3*3的卷积后，作为该支路的输出；第三支路通过通道数为C、卷积核为1*1的卷积层后，作为该支路的输出；三个支路的输出进行融合后，作为注意力金字塔残差块的输出；

本发明将金字塔残差块修改为“密集连接的注意力金字塔残差块”，通过引入注意力机制，模型可以有选择性地在每个尺度关注特定局部区域而不是同样对待所有区域；

(1.2)所述漏斗子网络用于生成人体关节点热力图，具体为：

输入特征经过卷积层实现下采样，每个尺度使用注意力金字塔残差块进行处理，经过若干次下采样，输入特征分辨率逐渐下降，当输入特征分辨率降到指定精度后开始上采样，从而获得多尺度特征；漏斗子网络的拓扑结构是对称的，下采样过程中不同尺度的特征均能在上采样过程中得到对应尺度的特征，前后对应特征进行融合从而得到高层语义特征，进而得到人体2D姿势；

(2)生成3D人体姿势估计：

构建损失函数：损失函数包括四项：数据项E_J、先验知识项E_α、E_θ和等距限制项E_iso：

E(β,θ)＝E_J(β,θ,K,J_est)+λ_αE_α(θ)+λ_θE_θ(θ)+λ_iE_iso(θ,β)

其中，β、θ、K、J_est分别为形状参数、姿势参数、相机参数、通过人体2D姿势估计模型得到的人体2D姿势；形状参数β＝[β₁,...,β_β]^T，|β|等于线性形状系数，线性形状系数的范围为[0,300]；姿势参数包括关节点的位置和角度，可通过改变形状参数和姿势参数得到不同的人体形状；相机参数包括相机内参、外参和畸变参数；λ_α、λ_θ和λ_i是权重因子，根据工程经验选择，每次实验时固定其他两个参数，微调第三个参数，直到得到最佳的效果；L_ij是初始3D姿势下相邻关节点i和j间的长度，J(β)_i是通过人体形状参数β得到的人体骨架关节点i的3D位置；R_θ(J(β)_i)代表特定姿势θ下人体关节点3D位置；D_i,j(θ,β)代表肢体伸缩程度，N(i)是关节点i的相邻关节点，u为辅助变量，u_ij是关节点i和j的辅助变量，辅助变量是为了凑代价函数的形式，凑成一定形式以后方便对代价函数求解。

参数λ_k＝0.02，参数λ_d的初始值设置为1，最小化损失函数过程中，每次迭代λ_d改变为原来的2倍直到λ_d>10⁶，λ_k和λ_d在实验中通过训练曲线和测试曲线调整；

通过最小化损失函数来拟合人体3D姿势。

进一步地，通道数D、C的确定方式如下：

D＝math.floor(numOut/baseWidth)

C＝cardinality

其中，math.floor()为向下取整函数，numOut是注意力金字塔残差块输出通道数；baseWidth和cardinality是网络训练参数，baseWidth＝9，cardinality＝4。

进一步地，所述注意力金字塔残差块中所有卷积层前均包含归一化层BN和激活层RELU。

进一步地，三个支路输出的融合过程可以通过像素加和、像素乘积或级联实现。

进一步地，数据项E_J：

其中J(β)_i是通过人体形状参数β得到的人体骨架关节点i的3D位置；R_θ(J(β)_i)代表特定姿势θ下人体关节点3D位置；Π_K是根据相机参数K得到的人体关节从世界坐标3D位置到图像坐标2D位置的映射；w_i是2D网络提供的关节点的预测置信度；J_est,i是通过人体2D姿势估计模型得到的关节点i的人体2D姿势；可微的Geman-McClure损失函数ρ用来处理噪音问题；

先验知识项：

其中，g_j、μ_θ,j和Σ_θ,j是混合高斯分布中成分j的权重、均值和方差，N代表高斯分布；

先验知识项：

其中，θ_i是关节点i的姿势参数；肢体的弯曲程度用exp(θ_i)来表示，指数形式可以强有力地惩罚肢体不正常弯曲的情况。

进一步地，权重因子λ_α取值为1.5，权重因子λ_θ取值为2.1，权重因子λ_i取值为2.5。

进一步地，所述漏斗子网络使用卷积层实现下采样。

进一步地，所述漏斗子网络使用半像素卷积实现上采样。

进一步地，第一个漏斗子网络的输入和输出级联到一起与初始热力图相加到一起作为下一个漏斗子网络的输入。

进一步地，所述2D人体姿势估计阶段采用GPU进行计算，3D人体姿势估计阶段采用CPU进行计算。

相比于现有技术，本发明具有的有益效果为：

(1)漏斗结构的改进，能够在特征图提取时捕获到多尺度目标信息，能够增加特征的辨识度，能够提升计算效率。

(2)密集连接的金字塔注意力残差块的增加，能够在特征图提取时保证特征的辨识度，且解决了梯度消失问题、加强特征的传播、增加了特征重用；注意力机制的增加，有利于获取有用的局部特征。

(3)等距限制的增加，进一步解决了因参数空间过大造成训练困难和人体有多种可能姿势的问题。

附图说明

图1是本发明实施例提供的人体2D姿势估计模型的框架示意图；

图2是图1提供的框架示意图中的漏斗结构示意图；

图3是本发明实施例提供的金字塔残差块的结构示意图；

图4是本发明实施例提供的密集连接的金字塔注意力残差块的结构示意图；

图5是图4提供的密集连接的金字塔注意力残差块在数据集MPII上的注意力图结果示例；

图6是图1提供的框架示意图中半像素卷积操作的原理示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明实施例提供的人体3D姿势估计方法可以获得一副图像中人体的3D姿势，且可以应用到视频监控、行为识别、人体交互、虚拟现实、游戏动画和医疗看护等。

该方法包括人体2D姿势估计和3D姿势估计两个部分。下面在阐述这两个部分之前着重介绍本实施例所采用的人体2D姿势估计模型。

本发明实施例提供的人体2D姿势估计模型的框架示意图，参见图1，该人体2D姿势估计模型包括注意力金字塔残差块和由若干注意力金字塔残差块组成的漏斗子网络；

在图1中，conv代表卷积操作，箭头上方矩阵代表该层输出尺寸，Block表示本实施例提出的“密集连接的金字塔注意力残差块”结构，pooling代表池化操作，FC为全连接层，Hourglass为本实施例提出的漏斗结构。concate代表特征的连接操作。

人体2D姿势估计模型开始于一个卷积核为7×7、步长为2的卷积层；然后是一个“密集连接的金字塔注意力残差块”Block1、最大池化层Max Pooling，分辨率相较于输入降低了4倍；随后是“密集连接的金字塔注意力残差块”Block2、Block3、Block4和漏斗结构Hourglass，接下来是全连接层FC1、FC2来实现跨通道交互和信息集成；经过卷积层Conv2得到初始的人体关节点热图。

此外，第一个漏斗子网络的输入和输出级联到一起与初始热力图相加到一起作为下一个漏斗子网络的输入。这种特征的重新利用有利于解决梯度消失问题，同时加强了特征的传播，从而间接减少了网络参数。

经过漏斗模型特征提取后得到n张人体关节点热力图，这些人体关节的热力图通过优化结合等距限制的代价函数生成人体3D姿势。

图2是图1提供的框架示意图中的漏斗结构示意图。如图2所示，sub-pixel conv表示半像素卷积操作用于提高特征图分辨率，步长为2的卷积层用来提取特征并降低特征的分辨率。输入特征经过卷积层实现下采样，每个尺度使用注意力金字塔残差块进行处理，经过若干次下采样，输入特征分辨率逐渐下降，当输入特征分辨率降到指定精度后开始上采样，从而获得多尺度特征；漏斗子网络的拓扑结构是对称的，下采样过程中不同尺度的特征均能在上采样过程中得到对应尺度的特征，前后对应特征进行融合从而得到高层语义特征，进而得到人体2D姿势；

图3是本发明实施例提供的原始金字塔残差块的结构示意图。原始金字塔残差块包括不同下采样率的多支路网络，不同尺度的特征图分别经过通道数为D、卷积核为3*3的卷积层，然后上采样到同样分辨率后进行像素级相加，从而获得了多尺度特征信息。为了获得全局信息，多尺度特征继续与跳级路融合，跳级路分别使用了通道数为C和C/2的卷积层，且此卷积层连接顺序为卷积层Conv-归一化层BN-激活层RELU。

图3所示的原始金字塔残差块虽特征提取性能较好，但是权值参数过多难以优化，且忽视了局部上下文环境信息，本实施例提出了如图4所示的密集连接的金字塔注意力残差块，金字塔残差块(pyramid residual module)具有三个支路，第一支路通过通道数为D、卷积核为1*1的卷积层后展开为n个并行分支，每个分支通过不同采样率的下采样层、卷积层、上采样层后连接注意力模块，在每个注意力模块中，首先输入特征经过卷积核为3*3的卷积层，然后经过卷积核为1*1、通道数为1的卷积层，从而得到非归一化注意力图，将非归一化注意力图输入softmax层，得到归一化注意力图α_k，将每个尺度的归一化注意力图α_k的通道数扩张到该尺度下的上采样特征通道数，再与该上采样特征进行Hadamard乘积得到该尺度的环境上下文特征，作为该注意力模块的输出；将所有注意力模块的输出进行加和，得到该输入特征的环境上下文特征c，作为该支路的输出；在上采样层输出和1*1卷积层输入之间引入一条捷径(short-cut)，上采样层输出特征图与3*3卷积层输出特征图级联(concatenate)到一起作为1*1卷积层的输入，从而形成密集连接网络；

通道数D，C的确定方式如下：

D＝math.floor(numOut/baseWidth)

C＝cardinality

其中，math.floor()为向下取整函数，numOut是注意力金字塔残差块输出通道数；baseWidth和cardinality是网络训练参数，默认设置为baseWidth＝9，cardinality＝4。

与原始金字塔残差块不同，密集连接的金字塔注意力残差块的卷积层连接顺序为归一化层BN-激活层RELU-卷积层Conv。

通过图4所示的“密集连接的金字塔注意力残差块”使得输入特征图通过卷积层转化为不同尺度下的低维特征然后以并联的方式融合。这种分开-转化-融合的操作能达到复杂卷积层所具有的表达能力。同时，通过引入注意力机制，模型可以有选择性地在每个尺度关注于特定局部区域而不是同样对待所有区域。

图5是本实施例图4所示的“密集连接的金字塔注意力残差块”在MPII数据集上得到的注意力图。上行展示的是在没有加入密集连接机制的注意力图；下行展示的是相应的在加入了密集连接机制的注意力图。

图6是图2所示的漏斗结构网络中半像素卷积的原理。假设r是上采样率，首先用四个滤波器对输入进行卷积操作，得到尺寸为H×W×C×r²的输出特征图，之后对输出特征图进行周期性的平移操作得到尺寸为rH×rW×C的特征图。周期性的平移操作是一种计算效率很高的操作，代替了复杂的上采样或反卷积操作。

本实施例中，改进的人体3D姿势估计损失函数定义为：

E(β,θ)＝E_J(β,θ,K,J_est)+λ_αE_α(θ)+λ_θE_θ(θ)+λ_iE_iso(θ,β)

其中，λ_α、λ_θ和λ_i是权重因子。本实施例中，权重因子λ_α取值为1.5，影响因子λ_θ取值为2.1，影响因子λ_i取值为2.5；

数据项E_J：

先验知识项：

其中，g_j、μ_θ,j和Σ_θ,j是混合高斯分布中成分j的权重、均值和方差，N代表高斯分布，c是一个正常数；

先验知识项：

其中，θ_i是关节点i的姿势参数；肢体的弯曲程度可以用exp(θ_i)来表示，指数形式可以强有力地惩罚肢体不正常弯曲的情况；

本发明提出的等距限制

其中，L_ij是初始3D姿势下相邻关节点i和j间的长度D_i,j(θ,β)代表肢体伸缩程度，N(i)是关节点i的相邻关节点，u为辅助变量，u_ij是关节点i和j的辅助变量，辅助变量是为了凑代价函数的形式，凑成一定形式以后方便对代价函数求解；参数λ_k＝0.02，参数λ_d的初始值设置为1，最小化损失函数过程中，每次迭代λ_d改变为原来的2倍直到λ_d>10⁶，λ_k和λ_d在实验中通过训练曲线和测试曲线调整；

以上模型建立完毕后，在Intel i7-4790 3.6GHz CPU、32GB内存、NVIDIA GTXTitan X graphics的计算机上进行实验，使用Torch library验证算法的性能和计算能力。实验结果显示本发明方法在HumaEva-I和Human3.6M数据集上相比较于方法取得了更好的效果。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，包括以下步骤：

金字塔残差块具有三个支路，第一支路通过通道数为D、卷积核为1*1的卷积层后展开为n个并行分支，每个分支通过不同采样率的下采样层、卷积层、上采样层后连接注意力模块；在每个注意力模块中，首先输入特征经过卷积核为3*3的卷积层，然后经过卷积核为1*1、通道数为1的卷积层，从而得到非归一化注意力图，将非归一化注意力图输入softmax层，得到归一化注意力图α_k，将每个尺度的归一化注意力图α_k的通道数扩张到该尺度下的上采样特征通道数，再与该上采样特征进行Hadamard乘积得到该尺度的环境上下文特征，作为该注意力模块的输出；将所有注意力模块的输出进行加和，得到该输入特征的环境上下文特征c，作为该支路的输出；在上采样层输出和1*1卷积层输入之间引入一条捷径，上采样层输出特征图与3*3卷积层输出特征图级联到一起作为1*1卷积层的输入，从而形成密集连接网络；第二支路依次通过通道数为C/2、卷积核为1*1的卷积层，通道数为C/2、卷积核为3*3的卷积后，作为该支路的输出；第三支路通过通道数为C、卷积核为1*1的卷积层后，作为该支路的输出；三个支路的输出进行融合后，作为注意力金字塔残差块的输出；

(1.2)所述漏斗子网络用于生成人体关节点热力图，具体为：

(2)生成3D人体姿势估计：

构建损失函数：损失函数包括四项：数据项E_J、先验知识项E_α、E_θ和等距限制项E_iso:

E(β,θ)＝E_J(β,θ,K,J_est)+λ_αE_α(θ)+λ_θE_θ(θ)+λ_iE_iso(θ,β)

其中，β、θ、K、J_est分别为形状参数、姿势参数、相机参数、通过人体2D姿势估计模型得到的人体2D姿势；λ_α、λ_θ和λ_i是权重因子；L_ij是初始3D姿势下相邻关节点i和j间的长度；J(β)_i是通过人体形状参数β得到的人体骨架关节点i的3D位置；R_θ(J(β)_i)代表特定姿势θ下人体关节点3D位置；D_i,j(θ,β)代表肢体伸缩程度；N(i)是关节点i的相邻关节点；u为辅助变量，u_ij是关节点i和j的辅助变量；参数λ_k＝0.02；参数λ_d的初始值设置为1，最小化损失函数过程中，每次迭代λ_d改变为原来的2倍直到λ_d>10⁶；

通过最小化损失函数来拟合人体3D姿势。

2.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，通道数D、C的确定方式如下：

D＝math.floor(numOut/baseWidth)

C＝cardinality

3.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，所述注意力金字塔残差块中所有卷积层前均包含归一化层BN和激活层RELU。

4.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，三个支路输出的融合过程可以通过像素加和、像素乘积或级联实现。

5.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，

数据项E_J：

先验知识项：

6.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，权重因子λ_α取值为1.5，权重因子λ_θ取值为2.1，权重因子λ_i取值为2.5。

7.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，所述漏斗子网络使用卷积层实现下采样。

8.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，所述漏斗子网络使用半像素卷积实现上采样。

9.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，第一个漏斗子网络的输入和输出级联到一起与初始热力图相加到一起作为下一个漏斗子网络的输入。

10.根据权利要求1所述的一种结合密集连接注意力金字塔残差网络和等距限制的人体3D姿势估计方法，其特征在于，所述2D人体姿势估计阶段采用GPU进行计算。