CN113610015B

CN113610015B - 基于端到端快速阶梯网络的姿态估计方法、装置及介质

Info

Publication number: CN113610015B
Application number: CN202110918420.8A
Authority: CN
Inventors: 骆炎民; 欧志龙; 林躬耕
Original assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Current assignee: Fujian Gongtian Software Co ltd; Huaqiao University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-05-30
Anticipated expiration: 2041-08-11
Also published as: CN113610015A

Abstract

本发明提供了人体姿态估计技术领域的一种基于端到端快速阶梯网络的姿态估计方法、装置及介质，所述方法包括：步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络；步骤S20、利用样本图像对所述端到端快速阶梯网络进行训练；步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络，计算关节点的位置并形成完整的人体姿态。本发明的优点在于：取消了人体姿态估计模型对目标检测算法的约束，不再需要先进行人体检测，保证了姿态估计可以进行端到端训练与预测，加快了人体姿态估计的速度，同时还能保证网络的精确度。

Description

基于端到端快速阶梯网络的姿态估计方法、装置及介质

技术领域

本发明涉及人体姿态估计技术领域，特别涉及一种基于端到端快速阶梯网络的姿态估计方法、装置及介质。

背景技术

人体姿态估计是计算机视觉领域中热门研究领域，同时是一些高级计算机视觉任务的基础工作，对人机交互，异常行为识别检测等有着重要的意义。人体姿态估计即通过一张RGB图像有效预测出人体所有关节点并形成正确的姿态。

尽管人体姿态估计领域发展迅速，但目前主流的自顶向下和自底向上的方法，均为两阶段的任务，不能实现端到端的运行与训练，导致在实际应用中无法快速的预测人体姿态。特别是自顶向下的方法需要先进行人体检测，而后在进行人体姿态估计，这也是自顶向下方法在速度上较慢于自底向上方法的主要原因。

在网络结构设计方面，Ke Li,Shijie Wang,Xiang Zhang等人(21th Proceedingsof the IEEE conference on computer vision and pattern recognition.2021.)在论文“Pose Recognition with Cascade Transformers”中提出了一种端到端训练的思想，借助行人检测算法，提取出行人的特征，接着将该特征转为一维向量输入到人体检测的transformer获取人体框，接着裁剪特征图，再次送到另一个名为关节点检测transformer中进行姿态估计。但是该方法训练速度较慢，需要依赖行人检测的算法，不能实现一个网络预测。

在基于RGB图像的姿态估计工作中，Sun K,Xiao B,LiuD等人(19th Proceedingsof the IEEE conference on computer vision and pattern recognition.2019:5693-5703.)在论文“Deep high-resolution representation learning for human poseestimation”中提出了HRNet的网络来进行姿态估计，但是该网络的参数量大，训练速度较慢；并且该网络仍为传统的自顶向下的方法，依赖于目标检测的算法，一旦目标检测算法缺失，则不能进行多人姿态估计，且最终的精度也受目标检测算法的影响。

电子科技大学在其申请的专利“CN201810915453.5”(专利公开号：CN108960212A)中公开了一种基于端到端的人体关节点检测与分类方法，包括将预处理得到的图片输入到已经训练好的沙漏型神经网络中,通过前向传播得到相应关节点的热力图分布,再利用条件随机场模型强化各个节点之间的空间位置关系,最终得到每个节点出现的概率统计分布,将输出的预测结果利用预先设定的规则将关节点连接起来,就可以实现端到端的人体姿态估计。但是该方法相对而言参数量较大，速度较慢，实际效果不佳。

因此，如何提供一种姿态估计方法，实现提升网络的训练以及推理速度并且降低网络的参数量，同时还能得到精度的保证，成为一个亟待解决的问题。

发明内容

本发明要解决的技术问题，在于提供一种基于端到端快速阶梯网络的姿态估计方法、装置及介质，同时实现提升人体姿态估计的精度和效率。

第一方面，本发明提供了一种基于端到端快速阶梯网络的姿态估计方法，所述方法包括如下步骤：

步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络；

步骤S20、利用样本图像对所述端到端快速阶梯网络进行训练；

步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络，计算关节点的位置并形成完整的人体姿态。

进一步的，所述端到端快速阶梯网络包括：

一大小为3×3的第一卷积核、一大小为3×3的第二卷积核、一大小为1×1的第三卷积核、一大小为1×1的第四卷积核、一通道数为32的第一子网、一通道数为64的第二子网、一通道数为128的第三子网和一通道数为256的第四子网；

所述第一子网包括横向并行排列并连接的二十个残差模块，依次用S_1,1、S_1,2、……、S_1,20表示；所述第二子网包括横向并行排列并连接的十六个残差模块，依次用S_2,1、S_2,2、……、S_2,16表示；所述第三子网包括横向并行排列并连接的十一个残差模块，依次用S_3,1、S_3,2、……、S_3,11表示；所述第四子网包括横向并行排列并连接的六个残差模块，依次用S_4,1、S_4,2、……、S_4,6表示；

所述第一卷积核的输出端与所述第二卷积核进行连接，用于改变图像特征图的分辨率；在所诉第二卷积核的输出端与第一子网的输入端连接，用于提取图像特征；所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列，且靠右对齐；

分别在所述第三子网中的S_3,5和S_3,6以及S_3,10和S_3,11的残差模块之间设置有稠密瀑布模块，用于为残差模块补偿感受野；

所述第一子网输出特征图S_out,1；所述第二子网输出特征图S_out,2，进行一次双线性插值上采样后，将特征图的分辨率提升至与特征图S_out,1一致，并进行元素堆叠；所述第三子网输出特征图S_out,3，进行两次双线性插值上采样后，将特征图的分辨率提升至与特征图S_out,1一致，并进行元素堆叠；所述第四子网输出特征图S_out,4，进行三次双线性插值上采样后，将特征图的分辨率提升至与特征图S_out,1一致，并进行元素堆叠形成特征图F_out,1；

在所述特征图F_out,1后进行所述第三卷积核操作；在所述第三卷积核操作后进行恒等映射操作得到特征图F_out,up；在所述第三卷积核操作后，根据所述特征图F_out,up得到的坐标进行特征图裁剪操作得到特征图F_out,temp；在所述特征图F_out,temp后进行所述第四卷积核操作，得到特征图F_out,dowm。

进一步的，所述稠密瀑布模块包括：

一大小为3×3的第五卷积核、一大小为3×3的第六卷积核、一大小为3×3的第七卷积核和一大小为3×3的第八卷积核；

所述第五卷积核将特征图F进行卷积操作生成特征图F1；所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2；所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3；所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4；紧接着将特征图F1，F2，F3，F4进行堆叠并且与特征图F进行元素相加，生成特征图F5，将所述即所述稠密瀑布模块的输入是特征图F，输出是特征图F5。

进一步的，所述步骤S20具体包括：

步骤S21、获取数据集中的样本图像，将所述样本图像调整为大小为512×512的RGB图像后，输入搭建好的所述端到端快速阶梯网络；

步骤S22、通过所述端到端快速阶梯网络获取所述特征图F_out,up,所述特征图F_out,up包含人体边界框顶点的位置热图，标签嵌入矩阵以及偏移值；

步骤S23、利用非极大值抑制算法查找所述人体边界框顶点的位置热图中，人体边界框顶点的最大像素值位置；

步骤S24、以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测各人体边界框顶点的位置；

步骤S25、利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值：

其中M表示人体边界框顶点的损失值；i表示人体的编号，j表示各人体边界框顶点的编号，且i和j均为正整数；P_i(p_j)表示第i个人，第j个人体边界框顶点的预测值；

为预测的关节点的热图，尺度为n×64×64，n表示人体边界框顶点的个数；G_i(p_j)表示第i个人，第j个人体边界框顶点的真值；G＝{g₁,…,g_n}，为高斯激活生成的各个人体边界框顶点对应的真值热图。

步骤S26、计算各人体边界框顶点的分组损失值：

其中L_pull表示对同一个人体边界框顶点进行分组的损失值；k表示人体边界框的编号，N表示总人体边界框的数量，且k和N均为正整数；

表示属于第k个人体边界框的左上角顶点的嵌入向量，

表示属于第k个人体边界框的右下角顶点的嵌入向量，e_k表示

和

的均值。

步骤S27、计算各人体边界框顶点的分离损失值：

其中L_push表示对不同人的人体边界框顶点进行分离的损失值；k表示人体边界框的编号，N表示总人体边界框的数量，且k和N均为正整数；e_k表示同一个人人体边界框顶点的均值，e_j表示不同于第k个人体边界框顶点的均值。

步骤S28、利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值：

其中L_off表示预测的人体边界框与真实边界框的误差；k表示人体边界框的编号，N表示总人体边界框的数量，且k和N均为正整数；O_k表示第k个人体边界框顶点的偏移量，x_k表示第k个人体边界框顶点的横坐标值，y_k表示第k个人体边界框顶点的纵坐标值，n表示下采样倍率；

步骤S29、利用热图解码器计算所述预测得到的各人体边界框的值：

其中

表示预测得到第k个人体边界框的坐标值；m_k表示P_i(p_j)中的最大值，s_k表示P_i(p_j)中的第二大值；

步骤S210、利用所述预测得到的各人体边界框的值，对所述特征图F_out,dowm进行裁剪，得到特征图F_out,h；

步骤S211、对所述F_out,h进行缩放操作，缩放成64*64大小分辨率的特征图F_out,k；

步骤S212、对所述F_out,k进行第四卷积核操作，得到人体关节点的位置热图；

步骤S213、利用非极大值抑制算法查找所述人体关节点的位置热图中，人体关节点的最大像素值位置；

步骤S214、以所述人体关节点的最大像素值位置为人体关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测人体关节点的位置；

步骤S215、利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值：

其中L_d表示人体关节点的损失值；i表示人体关节点的编号，N表示关节点的数量，且i与N均为正整数；P_i表示第i个关节点的预测值；

为预测的关节点的热图，尺度为n×64×64，n表示人体关节点的个数；G_i表示第i个关节点的真值；G＝{g₁,…,g_n}，为高斯激活生成的各类关节点对应的真值热图。

步骤S216、加权各类所述的损失函数来训练所述的端到端快速阶梯网络：

L＝M+αL_push+βL_pull+L_d+γL_off

其中，α＝β＝0.1，γ＝1。

进一步的，所述步骤S30具体包括：

步骤S31、获取待测图像，将所述待测图像调整为大小为512*512的RGB图像后，输入训练好的所述端到端快速阶梯网络中；

步骤S32、通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图；

步骤S33、利用非极大值抑制算法查找所述关节点的位置热图中，各关节点的最大像素值位置；

步骤S34、以所述最大像素值位置为关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测的关节点位置；

步骤S35、基于预先标定各关节点的序号以及预测的关节点位置，依次连接各关节点形成完整的人体姿态。

第二方面，本发明提供了一种基于端到端快速阶梯网络的姿态估计装置，所述装置包括网络搭建模块、训练模块和姿态估计模块：

网络搭建模块，用于基于快速阶梯网络搭建端到端快速阶梯网络；

训练模块，用于利用样本图像对所述端到端快速阶梯网络进行训练；

姿态估计模块，用于将待测图像输入训练好的所述端到端快速阶梯网络，计算关节点的位置并形成完整的人体姿态。

进一步的，所述端到端快速阶梯网络包括：

在所述特征图F_out,1后进行所述第三卷积核操作；在所述第三卷积核操作后进行恒等映射操作得到特征图F_out,up；在所述第三卷积核操作后，根据所述特征图F_out,up得到的坐标特征图裁剪操作得到特征图F_out,temp；在所述特征图F_out,temp后进行所述第四卷积核操作，得到特征图F_out,dowm。

进一步的，所述稠密瀑布模块包括：

进一步的，所述训练模块具体包括：

获取数据集中的样本图像，将所述样本图像调整为大小为512×512的RGB图像后，输入搭建好的所述端到端快速阶梯网络；

通过所述端到端快速阶梯网络获取特征图F_out,up,所述特征图F_out,up包含人体边界框顶点的位置热图，标签嵌入矩阵以及偏移值；

利用非极大值抑制算法查找所述人体边界框顶点的位置热图中，人体边界框顶点的最大像素值位置；

以所述人体边界框顶点的最大像素值位置为人体边界框顶点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测各人体边界框顶点的位置；

利用均方误差损失函数以及人体边界框顶点的位置计算得到各人体边界框顶点的损失值：

计算各人体边界框顶点的分组损失值：

表示属于第k个人体边界框的左上角顶点的嵌入向量，

表示属于第k个人体边界框的右下角顶点的嵌入向量，e_k表示

和

的均值。

计算各人体边界框顶点的分离损失值：

利用平滑最小绝对值偏差函数计算各人体边界框顶点偏移的损失值：

利用热图解码器计算所述预测得到的各人体边界框的值：

其中

利用所述预测得到的各人体边界框的值，对所述特征图F_out,dowm进行裁剪，得到特征图F_out,h；

对所述F_out,h进行缩放操作，缩放成64*64大小分辨率的特征图F_out,k；

对所述F_out,k进行第四卷积核操作，得到人体关节点的位置热图；

利用非极大值抑制算法查找所述人体关节点的位置热图中，人体关节点的最大像素值位置；

以所述人体关节点的最大像素值位置为人体关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测人体关节点的位置；

利用均方误差损失函数以及人体关节点的位置计算得到人体关节点的损失值：

加权各类所述的损失函数来训练所述的端到端快速阶梯网络：

L＝M+αL_push+βL_pull+L_d+γL_off

其中，α＝β＝0.1γ＝1。

进一步的，所述姿态估计模块具体包括：

获取待测图像，将所述待测图像调整为大小为512*512的RGB图像后，输入训练好的所述端到端快速阶梯网络中；

通过所述端到端快速阶梯网络获取RGB图像中关节点的位置热图；

利用非极大值抑制算法查找所述关节点的位置热图中，各关节点的最大像素值位置；

以所述最大像素值位置为关节点位置的中心点，膨胀所述中心点生成半径为R个像素的圆，得到预测的关节点位置；

基于预先标定各关节点的序号以及预测的关节点位置，依次连接各关节点形成完整的人体姿态。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、通过基于端到端的快速阶梯网络，实现有效减少在人体姿态估计领域深度卷积神经网络的参数量，改善人体姿态估计里深度卷积神经网络训练与推理速度慢的问题，进而极大的提升了人体姿态估计的效率。

2、将目标检测算法修改预测目标边界框的顶点值，从而实现同一个网络完成不同的任务，大大提高了人体姿态估计的速度，同时也实现端到端的人体姿态估计。

3、通过加入稠密瀑布模块，解决端到端快速阶梯网络因为网络较轻量，而使得网络的感受野不足导致精度下降的问题，本发明仅需简单的步骤即可解决感受野缺失的问题，极大的提升了人体姿态估计的精度。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种基于端到端快速阶梯网络的姿态估计方法的方法流程图。

图2为本发明一种基于端到端快速阶梯网络的姿态估计装置的结构示意图。

图3为本发明介质的结构示意图。

图4为本发明端到端快速阶梯网络的结构示意图。

图5为本发明稠密瀑布模块的原理示意图。

图6为本发明一实施例中的姿态估计效果图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：首先，基于快速阶梯网络搭建端到端快速阶梯网络，使得网络能够同时预测人体边界框与人体姿态，实现了端到端的预测人体姿态，不需要额外的目标检测算法，实现了快速高效的人体估计算法；其次，在端到端快速阶梯网络的每个末尾分支都会进行上采样操作，实现了多尺度特征融合，帮助解决图像中不同尺度人物的关节点预测，提高人体姿态估计算法的精度；最后，在端到端快速阶梯网络进行关节点预测时，我们将特征图大小采样到64*64大小的特征图，从而解决了小尺度关节点无法预测的情况，进一步提高姿态估计的精度，为行为识别、异常行为检测等提供一个更加标准的姿态参考。

为了更好地理解本发明技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

本发明提供了一种基于端到端快速阶梯网络的姿态估计方法，如图1所述方法包括如下步骤：

步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络；

即事先获取大量的样本图像，对各样本图像的关节点进行标注后，划分为训练集，验证集和测试集，将训练集输入深度卷积神经网络进行训练，再利用验证集对训练后的深度卷积神经网络进行验证，判断损失值是否达到预设的阈值；将测试集输入训练好的卷积神经网络，来最终判断卷积神经网络达到的能力。

较佳的，请参考图4，所述端到端快速阶梯网络包括：

在所述特征图F_out,1后进行所述第三卷积核操作；在所述第三卷积核操作后进行恒等映射操作得到特征图F_out,up；在所述第三卷积核操作后，根据所述特征图F_out,up得到的坐标进行特征图裁剪操作得到特征图F_out,temp；在所述特征图F_out,temp后进行所述第四卷积核操作，得到特征图F_out,dowm；

较佳的，如图5所示，所述稠密瀑布模块包括：

较佳的，所述步骤S20具体包括：

步骤S22、通过所述端到端快速阶梯网络获取特征图F_out,up,所述特征图F_out,up包含人体边界框顶点的位置热图，标签嵌入矩阵以及偏移值；

步骤S26、计算各人体边界框顶点的分组损失值：

表示属于第k个人体边界框的左上角顶点的嵌入向量，

表示属于第k个人体边界框的右下角顶点的嵌入向量，e_k表示

和

的均值。

步骤S27、计算各人体边界框顶点的分离损失值：

其中

L＝M+αL_push+βL_pull+L_d+γL_off

其中，α＝β＝0.1γ＝1。

较佳的，所述步骤S30具体包括：

步骤S35、基于预先标定各关节点的序号以及预测的关节点位置，依次连接各关节点形成完整的人体姿态，即可得到如图6所示的效果图。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于端到端快速阶梯网络的姿态估计装置，如图2所示，所述装置包括网络搭建模块、训练模块和姿态估计模块：

即事先获取大量的样本图像，对各样本图像的关节点进行标注后，划分为训练集，验证集和测试集，将训练集输入深度卷积神经网络进行训练，再利用验证集对训练后的深度卷积神经网络进行验证，判断损失值是否达到预设的阈值，将测试集输入训练好的卷积神经网络，来最终判断卷积神经网络达到的能力；

较佳的，可参考图4，所述端到端快速阶梯网络包括：

较佳的，如图5所示，所述稠密瀑布模块包括：

较佳的，所述训练模块具体包括：

计算各人体边界框顶点的分组损失值：

表示属于第k个人体边界框的左上角顶点的嵌入向量，

表示属于第k个人体边界框的右下角顶点的嵌入向量，e_k表示

和

的均值。

计算各人体边界框顶点的分离损失值：

利用热图解码器计算所述预测得到的各人体边界框的值：

其中

L＝M+αL_push+βL_pull+L_d+γL_off

其中，α＝β＝0.1γ＝1。

较佳的，所述姿态估计模块具体包括：

基于预先标定各关节点的序号以及预测的关节点位置，依次连接各关节点形成完整的人体姿态，即可得到如图6所示的效果图。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例三。

实施例三

本实施例提供一种计算机可读存储介质，如图3所示，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：通过基于端到端的快速阶梯网络，实现有效减少在人体姿态估计领域深度卷积神经网络的参数量，改善人体姿态估计领深度卷积神经网络训练与推理速度慢，进而极大的提升了人体姿态估计的效率；通过将目标检测算法修改预测目标边界框的顶点值，从而实现同一个网络完成不同的任务，大大提高了人体姿态估计的速度，同时也实现端到端的人体姿态估计；通过加入稠密瀑布模块，解决端到端快速阶梯网络中感受野不足导致精度下降的问题，通过简单的步骤即可解决感受野缺失的问题，极大的提升了人体姿态估计的精度。。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于端到端快速阶梯网络的姿态估计方法，其特征在于：所述方法包括如下步骤：

步骤S10、基于快速阶梯网络搭建端到端快速阶梯网络；

所述步骤S20具体包括：

为预测的关节点的热图，尺度为n×64×64，n表示人体边界框顶点的个数；G_i(p_j)表示第i个人，第j个人体边界框顶点的真值；G＝{g₁,...,g_n}，为高斯激活生成的各个人体边界框顶点对应的真值热图；

步骤S26、计算各人体边界框顶点的分组损失值：

表示属于第k个人体边界框的左上角顶点的嵌入向量，

表示属于第k个人体边界框的右下角顶点的嵌入向量，e_k表示

和

的均值；

步骤S27、计算各人体边界框顶点的分离损失值：

其中L_push表示对不同人的人体边界框顶点进行分离的损失值；k表示人体边界框的编号，N表示总人体边界框的数量，且k和N均为正整数；e_k表示同一个人人体边界框顶点的均值，e_j表示不同于第k个人体边界框顶点的均值；

其中

为预测的关节点的热图，尺度为n×64×64，n表示人体关节点的个数；G_i表示第i个关节点的真值；G＝{g₁,...,g_n}，为高斯激活生成的各类关节点对应的真值热图；

L＝M+αL_push+βL_pull+L_d+γL_off

其中，α＝β＝0.1，γ＝1；

步骤S30、将待测图像输入训练好的所述端到端快速阶梯网络，计算关节点的位置并形成完整的人体姿态；

所述步骤S30具体包括：

步骤S35、基于预先标定各关节点的序号以及预测的关节点位置，依次连接各关节点形成完整的人体姿态；

所述端到端快速阶梯网络包括：

所述第一卷积核的输出端与所述第二卷积核进行连接，用于改变图像特征图的分辨率；在所述第二卷积核的输出端与第一子网的输入端连接，用于提取图像特征；所述第一子网、第二子网、第三子网以及第四子网依次至上而下排列，且靠右对齐；

所述第一子网输出特征图S_out,1；所述第二子网输出特征图S_out,2，进行一次双线性插值上采样后，将特征图的分辨率提升至与特征图S_out1一致，并进行元素堆叠；所述第三子网输出特征图S_out,3，进行两次双线性插值上采样后，将特征图的分辨率提升至与特征图S_out,1一致，并进行元素堆叠；所述第四子网输出特征图S_out,4，进行三次双线性插值上采样后，将特征图的分辨率提升至与特征图S_out,1一致，并进行元素堆叠形成特征图F_out,1；

2.如权利要求1所述的一种基于端到端快速阶梯网络的姿态估计方法，其特征在于：所述稠密瀑布模块包括：

所述第五卷积核将特征图F进行卷积操作生成特征图F1；所述第六卷积核将特征图F和特征图F1进行元素相加后进行卷积操作生成特征图F2；所述第七卷积核将特征图F和特征图F2进行元素相加后进行卷积操作生成特征图F3；所述第八卷积核将特征图F和特征图F3进行元素相加后进行第九卷积操作生成特征图F4；紧接着将特征图F1，F2，F3，F4进行堆叠并且与特征图F进行元素相加，生成特征图F5，即所述稠密瀑布模块的输入是特征图F，输出是特征图F5。

3.一种基于端到端快速阶梯网络的姿态估计装置，其特征在于：所述装置包括网络搭建模块、训练模块和姿态估计模块：

训练模块，用于利用样本图像对所述端到端快速阶梯网络进行训练；所述训练模块具体包括：

计算各人体边界框顶点的分组损失值：

表示属于第k个人体边界框的左上角顶点的嵌入向量，

表示属于第k个人体边界框的右下角顶点的嵌入向量，e_k表示

和

的均值；

计算各人体边界框顶点的分离损失值：

利用热图解码器计算所述预测得到的各人体边界框的值：

其中

L＝M+αL_push+βL_pull+L_d+γL_off

其中，α＝β＝0.1，γ＝1；

姿态估计模块，用于将待测图像输入训练好的所述端到端快速阶梯网络，计算关节点的位置并形成完整的人体姿态，具体步骤包括：

所述端到端快速阶梯网络包括：

所述第一子网包括横向并行排列并连接的二十个残差模块，依次用S_1,1、S_1,2、……、S_1,20表示；所述第二子网包括横向并行排列并连接的十六个残差模块，依次用S_2,1、S_2,2、……、S_2,16表示；所述第三子网包括横向并行排列并连接的十一个残差模块，依次用S_3，1、S_3，2、……、S_3，11表示；所述第四子网包括横向并行排列并连接的六个残差模块，依次用S_4,1、S_4,2、……、S_4,6表示；

4.如权利要求3所述的一种基于端到端快速阶梯网络的姿态估计装置，其特征在于：所述稠密瀑布模块包括：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1或2所述的方法。