CN112418070A

CN112418070A - 一种基于解耦阶梯网络的姿态估计方法

Info

Publication number: CN112418070A
Application number: CN202011307337.9A
Authority: CN
Inventors: 骆炎民; 欧志龙; 林躬耕
Original assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Current assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20
Also published as: CN112418070B

Abstract

本发明提供了人体姿态估计技术领域的一种基于解耦阶梯网络的姿态估计方法，包括如下步骤：步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络；步骤S20、获取大量的人体样本图像，利用所述人体样本图像对解耦阶梯网络进行训练；步骤S30、将待测图像输入训练好的所述解耦阶梯网络，计算所述待测图像中各关节点的位置，进而基于各关节点的位置形成完整的人体姿态。本发明的优点在于：极大的提升了人体姿态估计的速度以及精度。

Description

一种基于解耦阶梯网络的姿态估计方法

技术领域

本发明涉及人体姿态估计技术领域，特别指一种基于解耦阶梯网络的姿态估计方法。

背景技术

人体姿态估计是计算机视觉进一步理解人体行为的关键步骤，通过一张RGB图像能有效预测出人体所有关节点并形成正确的姿态，而准确预测出人体姿态对更高级别的计算机视觉任务，如人的行为识别、人机交互、行人重识别、异常行为检测等具有重要的意义。

尽管人体姿态估计领域发展迅速，但目前不论是自顶向下还是自底向上的方法，均存在网络结构复杂且参数量大的问题，使得在训练网络时不知道哪一部分较为关键，导致网络训练速度变慢。为了降低网络结构的复杂度，减少参数量，传统的做法只是简单的把一些卷积核进行替换，丢失了对关节点的感受野的考虑；且传统的姿态估计方法对于不同尺度大小的任务区分程度不够，使得一些较小尺度的任务被忽略，进而导致降低了人体姿态估计的精度。

在网络结构设计方面，Cai Y,Wang Z,Luo Z等人(arXiv preprint arXiv:2003.04030,2020.)在论文“Learning Delicate Local Representations for Multi-Person Pose Estimation”中提出了一种残差阶梯块，每一个残差阶梯块都包含四个分支，每个分支的感受野大小并不相同，且输入的特征图大小一致，通过多个卷积将不同分支的感受野进行融合，最后再进行concat操作，虽然提高了网络的感受野，但由于多个分支融合再进行concat操作，增加了网络参数量，从而导致网络训练速度与推理速度低下。

在基于RGB图像的姿态估计方法中，Sun K,Xiao B,Liu D等人(19th Proceedingsof the IEEE conference on computer vision and pattern recognition.2019:5693-5703.)在论文“Deep high-resolution representation learning for human poseestimation”中提出一种基于ResNet的网络来进行姿态估计，通过源码发现该论文设计的网络参数量较大，不利于训练，同时复杂的网络结构导致推理和训练速度较慢，对于计算资源较少的用户而言，极大的提高了用户的训练成本。

专利公开号为CN104850845A的中国专利公开了一种基于非对称卷积神经网络的交通标志识别方法，采用两个不同结构的卷积神经网络并行地进行特征映射和提取，最后将特征进行合并，再经过全连接层和最后的分类器，完成整个分类过程。该方法确保了图像特征的多样性，提高了识别精度并加快了网络运算速度，对于人体姿态估计领域而言，虽然提高了网络运算速度，但是降低了人体姿态估计的精确度。

因此，如何提供一种基于解耦阶梯网络的姿态估计方法，实现提升人体姿态估计的速度以及精度，成为一个亟待解决的问题。

发明内容

本发明要解决的技术问题，在于提供一种基于解耦阶梯网络的姿态估计方法，实现提升人体姿态估计的速度以及精度。

本发明是这样实现的：一种基于解耦阶梯网络的姿态估计方法，包括如下步骤：

步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络；

步骤S20、获取大量的人体样本图像，利用所述人体样本图像对解耦阶梯网络进行训练；

步骤S30、将待测图像输入训练好的所述解耦阶梯网络，计算所述待测图像中各关节点的位置，进而基于各关节点的位置形成完整的人体姿态。

进一步地，所述步骤S10中，所述解耦阶梯网络包括：

一大小为3×3的第一卷积核、一第一解耦残差组、一第二解耦残差组、一第三解耦残差组、一第四解耦残差组、一第一瀑布组、一第二瀑布组、一第三瀑布组以及一第四瀑布组；

所述第一解耦残差组包括横向并行排列并连接的二十个解耦残差模块，依次用A_1,1、A_1,2、……、A_1,20表示；所述第二解耦残差组包括横向并行排列并连接的十六个解耦残差模块，依次用A_2,1、A_2,2、……、A_2,16表示；所述第三解耦残差组包括横向并行排列并连接的十一个解耦残差模块，依次用A_3,1、A_3,2、……、A_3,11表示；所述第四解耦残差组包括横向并行排列并连接的六个解耦残差模块，依次用A_4,1、A_4,2、……、A_4,6表示；

所述第一瀑布组包括横向并行排列的十九个瀑布模块；所述第二瀑布组包括横向并行排列的十五个瀑布模块；所述第三瀑布组包括横向并行排列的十个瀑布模块；所述第四瀑布组包括横向并行排列的五个瀑布模块；

所述第一卷积核的输出端与第一解耦残差组的输入端连接，用于提取图像特征并改变图像的通道数；所述第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组依次至上而下排列，且靠右对齐；所述第一瀑布组设于第一解耦残差组的解耦残差模块之间；所述第二瀑布组设于第二解耦残差组的解耦残差模块之间；所述第三瀑布组设于第三解耦残差组的解耦残差模块之间；所述第四瀑布组设于第四解耦残差组的解耦残差模块之间；

各所述瀑布模块均与位于正前方和正后方的解耦残差模块连接，用于为解耦残差模块补偿感受野；

所述解耦残差模块A_1,4、解耦残差模块A_2,5、解耦残差模块A_3,5分别进行一次2倍下采样操作，将特征图的分辨率降低至与所述解耦残差模块A_2,1、解耦残差模块A_3,1、解耦残差模块A_4,1一致，并进行元素求和；

所述解耦残差模块A_1,9进行一次2倍下采样操作后，与解耦残差模块A_2,6进行元素求和；所述解耦残差模块A_1,9进行一次4倍下采样操作后，与解耦残差模块A_3,1进行元素求和；

所述解耦残差模块A_2,5进行1次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_1,10一致，并进行元素求和；

所述解耦残差模块A_2,10进行1次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_1,15一致，并进行元素求和；所述解耦残差模块A_2,10进行一次2倍下采样操作后，将特征图的分辨率降低至与解耦残差模块A_3,6一致，并进行元素求和；所述解耦残差模块A_2,10进行一次4倍下采样操作后，将特征图的分辨率降低至与解耦残差模块A_4,1一致，并进行元素求和；

所述解耦残差模块A_2,15进行1次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_1,20一致，并进行元素求和；所述解耦残差模块A_2,15进行一次2倍下采样操作后，将特征图的分辨率降低至与解耦残差模块A_3,11一致，并进行元素求和；所述解耦残差模块A_2,15进行一次4倍下采样操作后，将特征图的分辨率降低至与解耦残差模块A_4,6一致，并进行元素求和；

所述解耦残差模块A_3,5进行2次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_1,15一致，并进行元素求和；所述解耦残差模块A_3,5进行1次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_2,11一致，并进行元素求和；

所述解耦残差模块A_3,10进行2次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_1,20一致，并进行元素求和；所述解耦残差模块A_3,10进行1次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_2,16一致，并进行元素求和；所述解耦残差模块A_3,10进行一次2倍下采样操作后，将特征图的分辨率降低至与解耦残差模块A_4,6一致，并进行元素求和；

所述解耦残差模块A_4,5进行3次双线性插值后，将特征图的分辨率提升至与解耦残差模块A_1,20、A_2,16、A_3,11一致，并分别进行元素求和。

进一步地，所述步骤S10中，所述解耦残差模块包括：

一大小为1×1的第二卷积核、一大小为3×1的第三卷积核、一大小为1×3的第四卷积核、一大小为1×1的第五卷积核；

所述第二卷积核、第三卷积核、第四卷积核以及第五卷积核依次连接；所述第二卷积核用于提取图像特征并改变图像的通道数为64；所述第五卷积核用于提取图像特征并改变图像的通道数为256；输入所述第二卷积核的特征图使用恒等映射到第五卷积核进行元素相加。

进一步地，所述步骤S10中，所述瀑布模块包括：

一大小为3×3的第六卷积核、一大小为3×3的第七卷积核、一大小为3×3的第八卷积核、一大小为3×3的第九卷积核；

所述第六卷积核将特征图F进行卷积操作生成特征图F1；所述第七卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2；所述第八卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3；所述第九卷积核将特征图F和特征图F3进行元素相加后进行卷积操作生成特征图F4。

进一步地，所述步骤S20具体包括：

步骤S21、获取大量的人体样本图像，将所述人体样本图像调整为大小为256×256的RGB图像后，输入搭建好的所述解耦阶梯网络；

步骤S22、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图；

步骤S23、利用非极大值抑制算法查找所述位置热图中，各关节点的最大像素值位置；

步骤S24、以所述最大像素值位置为关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测的关节点位置；

步骤S25、利用均方误差损失函数以及关节点位置计算得到各关节点的损失值：

其中M表示损失值，用来训练解耦阶梯网络；i表示人体的编号，j表示关节点的编号，且i和j均为正整数；P_i(p_j)表示第i个人，第j个关节点的预测值；

为预测的关节点的热图，尺度为λ×64×64，λ表示关节点的个数；G_i(p_j)表示第i个人，第j个关节点的真值；G＝{g₁,...,g_λ}，为高斯激活生成的各人体部位对应的真值热图。

进一步地，所述步骤S30具体包括：

步骤S31、获取待测图像，将所述待测图像调整为大小为256×256的RGB图像后，输入训练好的所述解耦阶梯网络中；

步骤S32、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图；

步骤S33、利用非极大值抑制算法查找所述位置热图中，各关节点的最大像素值位置；

步骤S34、以所述最大像素值位置为关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测的关节点位置；

步骤S35、基于预先标定各关节点的序号以及预测的关节点位置，依次连接各关节点形成完整的人体姿态。

本发明的优点在于：

1、通过解耦残差模块和瀑布模块搭建解耦阶梯网络用于人体姿态估计，有效减少了深度卷积神经网络的参数量，提升了深度卷积神经网络的训练与推理速度，进而极大的提升了人体姿态估计的速度。

2、通过在解耦阶梯网络中的第一解耦残差组、第二解耦残差组、第三解耦残差组以及第四解耦残差组间进行下采样和双线性插值操作，使得解耦阶梯网络能够高效的进行信息流动，有利于空间信息与语义信息的融合，极大的提升了人体姿态估计的精度。

3、通过在每两个解耦残差模块间加入瀑布模块，解决解耦阶梯网络因为解耦残差模块代理的感受野缺失导致精度下降的问题，进一步提升了人体姿态估计的精度。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于解耦阶梯网络的姿态估计方法的流程图。

图2是本发明解耦残差组的结构示意图。

图3是本发明解耦残差模块的结构示意图。

图4是本发明瀑布模块的结构示意图。

图5是本发明人体姿态估计的效果示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：

首先，基于解耦残差模块搭建解耦阶梯网络，使得深度卷积神经网络的参数量大大减少，且降低的精度在可接受范围内；其次，在解耦阶梯网络的每个解耦残差组之间进行信息的流动，使得解耦阶梯网络能够有效利用和融合空间信息与语义信息，使得姿态估计结果更准确；然后，在解耦阶梯网络的每两个解耦残差模块中加入瀑布模块，有效补足因为解耦残差模块导致的感受野缺失，使得人体各关节点精度更加平衡，大大提高姿态估计的精度，为行为识别、行人重识别、异常行为检测等提供一个姿态参考。

请参照图1至图5所示，本发明一种基于解耦阶梯网络的姿态估计方法的较佳实施例，包括如下步骤：

步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络；

即事先获取大量的人体样本图像，对各人体样本图像的关节点进行标注后，划分为训练集，验证集和测试集，将训练集输入解耦阶梯网络进行训练，再利用验证集对训练后的解耦阶梯网络进行验证，判断损失值是否达到预设的阈值；所述解耦阶梯网络属于深度卷积神经网络；

所述步骤S10中，所述解耦阶梯网络包括：

所述步骤S10中，所述解耦残差模块包括：

所述步骤S10中，所述瀑布模块包括：

所述第六卷积核将特征图F进行卷积操作生成特征图F1；所述第七卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2；所述第八卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3；所述第九卷积核将特征图F和特征图F3进行元素相加后进行卷积操作生成特征图F4。即所述瀑布模块的输入是特征图F，输出是特征图F4。

所述步骤S20具体包括：

步骤S21、获取大量的人体样本图像(RGB图像)，将所述人体样本图像调整为大小为256×256的RGB图像后，输入搭建好的所述解耦阶梯网络；

步骤S22、通过所述解耦阶梯网络获取RGB图像中关节点的位置热图；即通过所述第一卷积核提取特征图F，同时改变RGB图像的通道数，再将特征图F输入所述解耦阶梯网络的主干网络得到位置热图；

所述步骤S30具体包括：

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于解耦阶梯网络的姿态估计方法，其特征在于：包括如下步骤：

步骤S10、基于解耦残差模块和瀑布模块搭建解耦阶梯网络；

2.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法，其特征在于：所述步骤S10中，所述解耦阶梯网络包括：

3.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法，其特征在于：所述步骤S10中，所述解耦残差模块包括：

4.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法，其特征在于：所述步骤S10中，所述瀑布模块包括：

5.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法，其特征在于：所述步骤S20具体包括：

6.如权利要求1所述的一种基于解耦阶梯网络的姿态估计方法，其特征在于：所述步骤S30具体包括：