CN112232134B

CN112232134B - 一种基于沙漏网络结合注意力机制的人体姿态估计方法

Info

Publication number: CN112232134B
Application number: CN202010991889.XA
Authority: CN
Inventors: 俞俊; 董谢娜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2024-04-05
Anticipated expiration: 2040-09-18
Also published as: CN112232134A

Abstract

本发明公开了一种基于沙漏网络结合注意力机制的人体姿态估计方法。本发明步骤如下:步骤(1)、在沙漏模块前面我们把加入一条分支计算非局部注意力特征，并把这个注意力特征融入主分支。我们称之为全局注意力模块。步骤(2)、在沙漏模块后面我们把输出分成若干通道分别做注意力计算得到每个通道的特征作为输出。我们称之为局部注意力模块。步骤(3)、通过反向传播算法对网络参数进行训练，直至整个网络模型收敛。本发明解决了原来模型的人际间关节的干扰和自我关节的干扰的问题。人体姿态估计在基于图像或视频分析人类行为中起着重要作用，准确高效的人体姿势估计可以促进各种应用，提出的改善方法使得原模型最终的检测效果得到提升。

Description

一种基于沙漏网络结合注意力机制的人体姿态估计方法

技术领域

本发明涉及人体姿态估计领域。尤其是涉及沙漏网络和注意力机制的姿态估计方法。

背景技术

人体姿态估计的目的是定位人体关节，例如头部，膝盖和脚踝。人体姿态估计在基于图像或视频分析人类行为中起着重要作用。准确高效的人体姿势估计可以促进各种应用，例如人体动作识别，人机交互和视频对象跟踪等。

从2012年开始使用AlexNet以来，深度学习开始迅速发展，对图像分类，目标检测和分割等问题得到了前所未有的发展。2014年，基于CNN的深度特征表示首次引入单人姿态估计问题。随后，大量研究继续改进最新的姿态估计。然而，由于摄像机的视角易变且人体姿势复杂，经过数年的研究，人体姿势估计仍然是一项艰巨的任务。

用现有技术方法容易忽视的两个问题是检测时人际间关节的干扰和自我关节的干扰。前一个问题通常在多个人彼此非常接近时发生，从而一个人的身体关节会影响另一个人的关节检测。后一个问题是关节检测被同一人的视觉相似关节所干扰，特别是在检测人体中的对称关节时。为解决这个问题提出了一个新颖的框架，用于人体姿态估计，称为全局和局部注意力增强的沙漏网络。全局注意力模块是通过在每个沙漏模块之前插入一个非局部注意块来实现的。

发明内容

本发明采用沙漏网络作为人体姿势估计的基本网络结构。堆叠的沙漏网络包含八个沙漏模块，每个沙漏模块都捕获输入信号的多尺度特征表示。在每个沙漏模块之前，将全局注意力模块融入沙漏网络中。此外，每个沙漏模块后面都融入有一个局部注意模块；得到一个融合后堆叠的沙漏网络；利用融合后堆叠的沙漏网络来逐步改善每个模块产生的检测结果。其具体实现步骤如下：

步骤(1)、在沙漏网络开始阶段，计算全局注意力特征C，并把这个注意力特征融入沙漏模块，该过程称之为全局注意力模块。

步骤(2)、针对每个沙漏模块，将其输出分成若干通道，对每个通道分别做局部注意力计算，将得到的每个通道的局部注意力特征拼接后作为输出，该过程称之为局部注意力模块。

步骤(3)、通过结合步骤(1)和步骤(2)的模块得到融合后堆叠的沙漏网络模型。通过反向传播算法对融合后堆叠的沙漏网络模型的参数进行训练，直至整个网络模型收敛。

进一步的，步骤(1)具体实现如下：

1-1.计算图像位置x_i处的全局注意力特征C，表示为：

其中，x为输入信号，i是要计算其响应的输出位置的索引，而j是枚举所有可能位置的索引；h(·)是线性映射：h(x_j)＝w_hx_j，w_h是要被学习的权重矩阵。M(x)为正则化因子表示为：

其中，l(·)可以通过多种方式实现。且本发明中，通过映射为高斯函数来计算特征之间的相似度：

其中，θ(x_i)＝w_θ*x_i和是关于x_i和x_j的线性映射。

1-2.为了增强姿势估计网络的非局部感知能力，在每个沙漏模块前融入一个全局注意模块。此过程表示为：

其中，S表示沙漏模块的个数；f_s是当前沙漏模块的输入特征,f_s-1是前一沙漏模块的输入特征,是前一个沙漏模块输出的特征，y_s-1是前一个沙漏模块后局部注意力模块输出的预测热图(详见公式7)。U(·)包括几个运算：将前一沙漏模块的输入特征f_s-1、前一沙漏模块的输出特征/>和前一沙漏模块的预测热图y_s-1通过卷积统一维度后，对应位置的元素值相加；而⊕表示维度上拼接操作。

进一步的，步骤(2)所述具体实现如下：

设是当前沙漏模块的输出特征，则与每个预测位置相关的特征通过/>来计算w_s是需要被学习的权重矩阵；我们通过卷积操作将通道数转变为要预测的目标位置的个数P，我们将F_s的p个通道切片记作F_{s_p}，F_{s_p}表示第s个沙漏模块第p个预测位置的特征。

通过使用相关性权重矩阵A_p更新每个特征F_{s_p}，从而实现局部注意力机制。该特定相关性权重矩阵A_p是通过利用特征中两个特征形成的特征对之间的相似性来计算：

其中，局部注意力模块对于通道p的输出特征通过以下方式获得：

最后在通道p处预测位置的预测热图y_{s_p}计算为：

其中，w_{s_p}是需要被学习的权重矩阵。

步骤(3)通过反向传播算法对上述步骤的深度网络模型参数进行训练，直至整个网络模型收敛，其具体过程如下：

通过步骤(1)和步骤(2)在沙漏网络中融合全局注意力模块和局部注意力模块，得到我们的模型称之为一种基于沙漏网络结合注意力机制的模型。

针对以下最优化问题，通过反向传播算法迭代训练，直至模型收敛：

其中，p代表第p个预测位置，(m,n)表示模型输出预测的热图的空间位置，y_p和分别代表输出的预测热图和真实标签的热图。

本发明有益效果：

本发明通过将全局和局部注意力机制融合进入沙漏模块，一定程度解决了原来模型的人际间关节的干扰和自我关节的干扰的问题。人体姿态估计在基于图像或视频分析人类行为中起着重要作用，准确高效的人体姿势估计可以促进各种应用，提出的改善方法使得原模型最终的检测效果得到提升。

附图说明

图1是本发明方法的具体流程示意图。

图2是本发明方法中沙漏模块示意图

图3是本发明方法中全局注意力模块示意图

图4是本发明方法中局部注意力模块示意图。

图5为本发明方法中构造的网络框架示意图。

具体实施方式

下面结合附图对本发明做进一步具体说明。

如图1所示，本发明提供一种基于沙漏网络结合注意力机制的人体姿态估计方法。

如图2所示，沙漏网络由八个堆叠的沙漏模块组成，一个沙漏模块首先通过堆叠若干次下采样操作每次下采样前用残差块来进行特征的提取，然后通过堆叠一系列上采样操作进行特征重构。上采样的过程采取最近邻插值的方式，而下采样就是简单的pool操作。模型在每个沙漏模块的输出做中间监督，这样做可以使模型更加有效的收敛。一个残差块由正则化、ReLU激活和2D卷积的三次重复操作组成。

步骤(1)所述的在沙漏网络开始阶段，计算全局注意力特征C，并把这个注意力特征融入沙漏模块，该过程称之为全局注意力模块。在沙漏模块前面加入一条分支计算非局部注意力特征，并把这个注意力特征融入主分支。称之为全局注意力模块。具体如下：

首先计算将输入数据在开始阶段计算非局部注意力特征，由于计算开销较大，在堆叠的8次模块循环中仅仅开头一次计算非局部注意力图，在接下去的8次循环，模块的输入使用第一次计算的结果。在每次沙漏模块前将原输入特征和非局部注意力模块进行拼接，由原本的256通道变为512通道，为了恢复原始通道，接着用一个1×1的卷积核改变通道，这样沙漏模块融合入非局部注意力特征，称之为全局注意力模块。该增强了模型的性能，使得模型关节点检测能力得到提升。在数据集MPII上进行了实验，的评价方法采用PCKh@0.5。PCKh表示归一化的概率。预测关节与真实关节位置之间的距离小于一特定值，将此关节的预测结果记作1，否则为0。所有图片对应的关节总值取平均为该节点的准确率。表1所示为加入的全局注意力的模型与原模型结果：

表1

方法	头	肩膀	手肘	手腕	臀部	膝盖	脚踝	平均
									原沙漏模型	97.4	96.2	90.8	86.5	90.1	86.7	83.6	90.3
加入全局注意力模块的模型	97.6	96.3	91.4	87.1	90.8	87.5	84.4	90.8

步骤(2)所述的针对每个沙漏模块，将其输出分成若干通道，对每个通道分别做局部注意力计算，将得到的每个通道的局部注意力特征拼接后作为输出，该过程称之为局部注意力模块。具体如下：

由于最后预测的关节点有16个，所以将其划分为16个通道分别作局部注意力计算，该过程是通过直接将特征矩阵切片的方式分割。分割后得道1×64×64的矩阵块，将分别作注意力计算后再拼接成16×64×64的矩阵作为模型的输出。在数据集MPII上进行了实验，的评价方法采用PCKh@0.5。PCKh表示归一化的概率。预测关节与真实关节位置之间的距离小于一特定值，将此关节的预测结果记作1，否则为0。所有图片对应的关节总值取平均为该节点的准确率。表2所示为加入的局部注意力的模型与原模型结果：

表2

方法	头	肩膀	手肘	手腕	臀部	膝盖	脚踝	平均
									原沙漏模型	97.4	96.2	90.8	86.5	90.1	86.7	83.6	90.3
加入全局注意力模块的模型	97.5	96.4	91.1	86.9	90.1	87.5	84.8	90.7

步骤(3)所述的通过结合步骤(1)和步骤(2)的模块得到融合后堆叠的沙漏网络模型。通过反向传播算法对融合后堆叠的沙漏网络模型的参数进行训练，直至整个网络模型收敛。具体如下：

根据公式6的最优化问题，在已经构建好的深度学习模型上进行反向传播训练，直至网络模型收敛。初始时，学习率为0.00025，选择的优化器为RMSprop，采用mini-batch的方法，每一个batch的大小为8张图片，在训练验证集合结果平稳的时候把学习率下降十倍。在数据集MPII上进行了实验。在数据的预处理阶段，对数据进行增强，包括图片缩放，旋转，和水平翻转。的评价方法采用PCKh@0.5。PCKh表示归一化的概率。预测关节与真实关节位置之间的距离小于一特定值，将此关节的预测结果记作1，否则为0。所有图片对应的关节总值取平均为该节点的准确率从表3中可以看出，发明的方法对关节点的检测效果有明显的提升。

表3

方法	头	肩膀	手肘	手腕	臀部	膝盖	脚踝	平均
									原沙漏模型	97.4	96.2	90.8	86.5	90.1	86.7	83.6	90.3
加入全局注意力模块的模型	97.6	96.5	91.6	87.6	91.3	87.8	84.4	91.0

。

Claims

1.一种基于沙漏网络结合注意力机制的人体姿态估计方法，其特征在于采用沙漏网络作为人体姿势估计的基本网络结构；堆叠的沙漏网络包含八个沙漏模块，每个沙漏模块都捕获输入信号的多尺度特征表示；在每个沙漏模块之前，将全局注意力模块融入沙漏网络中；此外，每个沙漏模块后面都融入有一个局部注意模块；得到一个融合后堆叠的沙漏网络模型；利用融合后堆叠的沙漏网络模型来逐步改善每个模块产生的检测结果；其具体实现步骤如下：

步骤(1)、在沙漏网络开始阶段，计算全局注意力特征C，并把这个注意力特征融入沙漏模块，该过程称之为全局注意力模块；

步骤(2)、针对每个沙漏模块，将其输出分成若干通道，对每个通道分别做局部注意力计算，将得到的每个通道的局部注意力特征拼接后作为输出，该过程称之为局部注意力模块；

步骤(3)、通过结合步骤(1)和步骤(2)的模块得到融合后堆叠的沙漏网络模型；通过反向传播算法对融合后堆叠的沙漏网络模型的参数进行训练，直至整个网络模型收敛；

步骤(1)具体实现如下：

1-1.计算图像位置x_i处的全局注意力特征C，表示为：

其中，x为输入信号，i是要计算其响应的输出位置的索引，而j是枚举所有可能位置的索引；h(·)是线性映射：h(x_j)＝w_hx_j，w_h是要被学习的权重矩阵；M(x)为正则化因子表示为：

其中，l(·)通过映射为高斯函数来计算特征之间的相似度：

其中，θ(x_i)＝w_θ*x_i和是关于x_i和x_j的线性映射；

1-2.在每个沙漏模块前融入一个全局注意模块，此过程表示为：

其中，S表示沙漏模块的个数；f_s是当前沙漏模块的输入特征,f_s-1是前一沙漏模块的输入特征,是前一个沙漏模块输出的特征，y_s-1是前一个沙漏模块后局部注意力模块输出的预测热图；U(·)包括几个运算：将前一沙漏模块的输入特征f_s-1、前一沙漏模块的输出特征/>和前一沙漏模块的预测热图y_s-1通过卷积统一维度后，对应位置的元素值相加；而/>表示维度上拼接操作；

步骤(2)所述具体实现如下：

设是当前沙漏模块的输出特征，则与每个预测位置相关的特征通过/>来计算，w_s是需要被学习的权重矩阵；通过卷积操作将通道数转变为要预测的目标位置的个数P，将F_s的p个通道切片记作F_{s_p}，F_{s_p}表示第s个沙漏模块第p个预测位置的特征；

通过使用相关性权重矩阵A_p更新每个特征F_{s_p}，从而实现局部注意力机制；该相关性权重矩阵A_p是通过利用特征中两个特征形成的特征对之间的相似性来计算：

最后在通道p处预测位置的预测热图y_{s_p}计算为：

其中，w_{s_p}是需要被学习的权重矩阵。

2.根据权利要求1所述的一种基于沙漏网络结合注意力机制的人体姿态估计方法，其特征在于步骤(3)通过反向传播算法对上述步骤的沙漏网络模型参数进行训练，直至整个沙漏网络模型收敛，其具体过程如下：

通过步骤(1)和步骤(2)在沙漏网络中融合全局注意力模块和局部注意力模块，得到沙漏网络模型；