CN114550305A

CN114550305A - 一种基于Transformer的人体姿态估计方法及系统

Info

Publication number: CN114550305A
Application number: CN202210214320.1A
Authority: CN
Inventors: 刘晓平; 王冬; 谢文军; 蔡有城; 李鑫杰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-05-27
Anticipated expiration: 2042-03-04
Also published as: CN114550305B

Abstract

本发明涉及计算机视觉领域，具体公开了一种基于Transformer的人体姿态估计方法，包括特征提取模块，所述特征提取模块用于对输入图像实现局部特征提取，得到初级特征图像；特征交互模块，所述特征交互模块用于对输入图像实现全局特征交互，得到交互特征图像；特征恢复模块，所述特征恢复模块用于对交互特征图像进行特征恢复，得到预测特征图像；将预测特征图像作为预测热图，与真值ground_truth关节点的热图进行计算，得到训练的损失值loss，实现梯度回传，完成特征提取模块、特征交互模块和特征恢复模块的训练。为人们提供了一个新的思路去平衡人体姿态估计过程中的效率和效果，本申请能提高传统方法效果的同时降低了网络参数，提高了计算速度，更能满足实际需求。

Description

一种基于Transformer的人体姿态估计方法及系统

技术领域

本发明涉及人体姿态估计技术领域，具体为一种基于Transformer的人体姿态估计方法及系统。

背景技术

体姿态估计是给定一幅图像或者一段视频，从中去恢复人体关节点的过程。利用深度学习进行姿态估计的方法大致分为两种：自上而下的方法和自下而上的方法。自上而下(top-down)，即先检测出来人体，再对单个人进行姿态估计；而自下而上(down-top)，则是先检测出人体关节点，再根据检测出来的关节点连成人体骨架。

自上而下的方法因为先给出人体，再对人体的关节点进行检测，所以整体精度较高，我们的方法是利用自上而下来进行检测。

对于自上而下的人体姿态估计方法来说，HRNet(Deep High-ResolutionRepresentation Learning for Human Pose Estimation(CVPR2019))是非常经典的方法，现在也有很多方法在跟进这一成果。一些人在增强其性能的过程中，不断增大网络的容量，从而提高整体效果，但这样一来，网络的计算量和时间开销都非常大，我们从另外一个角度(Transformer)来思考如何探索轻量级网络。

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。

目前，人们引入Transformer到人体姿态估计当中，例如2021年的Tfpose(Directhuman pose estimation with Transformers)，但其关注点在于如何更好的进行端到端训练，主要探究如何进行直接的关节点位置回归，并未利用到热图计算，所以没有考虑人体姿态估计的速度和效果。

因此，在Transformer的基础上，探索一个更快、效果更优的网络，是值得思考的。

发明内容

针对以上问题，本发明提供了一种基于Transformer的人体姿态估计方法及系统，探索了基于Transformer轻量级网络，不仅能有效的提高效果，还可以实现网络的快速运行，极大的提高了整体的运算效率和效果，可以有效解决背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种基于Transformer的人体姿态估计方法，包括

特征提取模块，所述特征提取模块用于对输入图像实现局部特征提取，得到初级特征图像；

特征交互模块，所述特征交互模块用于对输入图像实现全局特征交互，得到交互特征图像；

特征恢复模块，所述特征恢复模块用于对交互特征图像进行特征恢复，得到预测特征图像；

将预测特征图像作为预测热图，与真值ground_truth关节点的热图进行计算，得到训练的损失值loss，实现梯度回传，完成特征提取模块、特征交互模块和特征恢复模块的训练。

作为本发明一种优选的技术方案，所述特征提取模块包括残差网络、压缩卷积Con-Red以及姿态注意力机制单元SA；

其中所述残差网络由多个残差Res组成，多个所述残差Res前后串联；

所述残差网络对输入图像特征的宽度W、高度H、通道C进行第一次采样，实现宽度W、高度H的第一次下采样，实现通道C的第一次上采样；

所述压缩卷积Con-Red由两个卷积组成，第一个卷积的卷积核大小为3×3，第二个卷积的卷积核大小为1×1，利用压缩卷积Con-Red接在所述残差网络之后，对第一次采样的图像特征进行第二次采样，实现宽度W、高度H的第二次下采样，实现通道C的第二次上采样；

所述姿态注意力机制单元SA插入在所述残差网络内，对残差网络内的特征通道C进行关注。

作为本发明一种优选的技术方案，所述姿态注意力机制单元SA包括转换层、softmax激活层、sigmoid激活层和多个1×1的卷积；

所述残差网络的每个残差Res包含多层卷积，每个残差Res内的第一层卷积C_1后均插入有所述姿态注意力机制单元SA；

姿态注意力机制单元SA获取到每个残差Res内第一个卷积C_1的输出C_r×H_r×W_r，利用两个1×1的卷积分别对该输出的通道数C_r下降到为1和1/2C_r，保持特征的高度和宽度不变，得到两个并行处理的管道G_1和管道G_2，管道G_1和管道G_2输出分别为1×H_r×W_r和C_r/2×H_r×W_r；

利用转换层分别对两个并行处理的管道G_1和管道G_2进行维度转换，对其中管道G_1的特征维度保持不变，使其特征高度和宽度合成同一维度，得到特征H_rW_r×1×1；对另外一管道G_2的特征维度由三维转换为二维，并将特征高度和宽度合成同一维度，通道数为1/2C_r，得到特征C_r/2×H_rW_r；

利用1×1的卷积对管道G_2的特征C_r/2×H_rW_r进行计算，利用softmax激活层对另一管道G_1的特征H_rW_r×1×1进行计算，将两者计算的值进行叉乘计算，并经sigmoid激活层输出，得到一个三维特征，该三维特征的通道数与残差网络内第一个卷积的输出的通道数相同，特征的高度和宽度均为1，为C_r×1×1；

将所述姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出C_r×H_r×W_r进行通道关注，实现对所述残差网络内的特征通道C_r进行关注；

提高初级特征图像的特征通道的关注度。

作为本发明一种优选的技术方案，所述特征提取模块与特征交互模块之间设置有特征交融模块；

所述特征交融模块包括三个并行的通道特征单元，分别为第一通道特征单元T_1，第二通道特征单元T_2，第三通道特征单元T_3；三个并行的通道特征单元的特征维度均为三维；

三个并行的通道特征单元均包括卷积层、批量归一化BN和激活Relu，每个通道特征单元的卷积层设置不同；

所述第一通道特征单元T_1，卷积层的卷积核大小为1×1，步长为1，保持特征大小与初级特征图像相同；

所述第二通道特征单元T_2，卷积层的卷积核大小为3×3，步长为1，对初级特征图像的特征大小进行一次下采样，改变初级特征图像的特征大小，使其宽度和高度为初级特征图像的一半，通道为初级特征图像的两倍；

所述第三通道特征单元T_3，卷积层的卷积核大小为5×5，步长为2，对初级特征图像的特征大小进行二次下采样，改变初级特征图像的特征大小，使其宽度和高度为初级特征图像的四分之一，通道为初级特征图像的四倍；

将三个并行的通道特征单元相互交融：将第三通道特征单元T_3上采样到与第一通道特征单元T_1特征大小相同，并与第一通道特征单元T_1相加；将第二通道特征单元T_2上采样到与第一通道特征单元T_1特征大小相同，并与第一通道特征单元T_1相加；

经过将三个并行的通道特征单元相互交融后，所述特征交融模块对初级特征图像处理完毕，得到交融特征图像；

所述交融特征图像与所述初级特征图像的特征大小相同。

作为本发明一种优选的技术方案，还包括特征转换模块；

所述特征转换模块设置在所述特征交融模块与特征交互模块之间；

所述特征转换对交融特征图像的特征维度进行转换：对交融特征图像的三维特征转换为二维特征，将交融特征图像的宽和高相乘作为二维特征的第一维，将交融特征图像的通道数作为第二维；

其中，将所述二维特征的第一维中的宽和高的值，设置为输入图像的高和宽的1/16；

得到转换特征图像；

对所述特征转换模块得到的转换特征图像进行位置编码，得到编码后的编码特征图像。

作为本发明一种优选的技术方案，所述特征交互模块包括多头注意力单元、前馈单元和三个大小一致的计算符组成；其中，所述前馈单元包括线性层；

所述三个大小一致的计算符由所述编码特征图像得到，分别为：第一计算符M，第二计算符N，第三计算符Q；

将三个所述计算符送入多头注意力单元，利用以下计算方式进行计算得到多头注意力矩阵：

对第二计算符N进行转置，获取第二计算符N的转置计算符，将第二计算符N的转置计算符与第一计算符M计算得到相乘计算符，将相乘计算符进行尺度缩放得到缩放计算符，利用softmax激活对缩放计算符进行得分计算，得到计算符分值，再将计算符分值与第三计算符Q计算，得到所述多头注意力矩阵；

将所述转换特征图像与所述多头注意力矩阵相加得到注意力分配特征图像，再将注意力分配特征图像送入前馈单元，利用所述前馈单元中的线性层对注意力分配特征图像进行特征线性转换输出，并与注意力分配特征图像相加得到交互特征图像。

作为本发明一种优选的技术方案，所述特征恢复模块由两个连续的反卷积单元组成，其中两个反卷积单元的参数保持一致；

利用所述反卷积单元对交互特征图像的进行反卷积之前，将所述交互特征图像的特征维度与输入图像对应的真值ground_truth对齐；

通过反卷积单元对交互特征图像进行恢复，使其与真值ground_truth计算损失，完成模型训练。

本申请还提供了一种基于Transformer的人体姿态估计系统，利用前述的一种基于Transformer的人体姿态估计方法，

所述系统包括特征提取模块，特征交融模块，特征转换模块，特征交互模块和特征恢复模块，所述特征交融模块，特征转换模块，特征交互模块和特征恢复模块依次连接。

作为本发明一种优选的技术方案，还包括位置编码模块，所述位置编码模块连接在特征转换模块和特征交互模块之间；

其中，

所述特征提取模块用于对输入图像实现局部特征提取，得到初级特征图像；

所述特征交融模块利用三个并行的通道特征单元对初级特征图像相互交融，得到交融特征图像；

所述特征转换模块对交融特征图像的特征维度进行转换，得到转换特征图像；

所述位置编码模块对转换特征图像进行位置编码，得到编码特征图像；

所述特征交互模块用于对编码特征图像实现全局特征交互，得到交互特征图像；

所述特征恢复模块用于对交互特征图像进行特征恢复，得到预测特征图像；

利用所述预测特征图像作为预测热图，与真实关节点的热图进行计算，得到训练的损失值loss，实现梯度回传，完成特征交融模块、特征转换模块、位置编码模块、特征交互模块和特征恢复模块的训练。

与现有技术相比，本发明的有益效果是：

1、特征提取模块中的残差网络实现对输入图像的采样，由于本申请中残差网络是由ResNet50组成，因此，实现对输入图像的快速采样，本申请利用ResNet50的快速特点，实现了对输入图像的特征获取，为后续的图像交互提供基础。并利用姿态注意力机制单元SA的特点，获取残差网络中的图像特征，实现一个图像特征C_r×H_r×W_r的输入，得到C_r×1×1的输出，从而只会产生对图像特征通道C_r的值，因此，利用在残差网络中插入姿态注意力机制单元SA，会对初级特征图像进行通道关注，实现提取特征中的通道注意力关注，提取特征更加准确。

2、在特征提取模块之后加入特征交融模块，通过三个相互并行的通道特征单元获取初级特征图像的特征，实现并行计算再相融，由于初级特征图像的高和宽只有一个大小，而本申请的特征交融模块已经获取了三个不同大小的特征图像，因此，能获取不同尺度下的特征图像，从而识别出图像中的各种尺度特征，提升了初级特征图像的识别精度，大幅度提高人体姿态估计的精度，另外，本申请的特征交融模块整体设计较为轻量级，也不会给模块带来更大的额外开销，相比现在的网络，其参数小，对网络速度影响有限。

3、利用特征转换模块对特征图像的特征维度进行转换：目前的算法为了提高精度，一味的将图像的大小保持在输入图像的高和宽的1/4或者输入图像的高和宽的1/8，这样会对网络的速度大大折扣。本申请中，抛弃这种观念，将转换后的二维特征中第一维中的宽和高的值设置为输入图像的高和宽的1/16，速度大幅度提升且精度损失在可接受的范围内。利用特征交互模块内的多头注意力矩阵计算得到交互特征图像，不同于卷积的卷积核进行移动计算，本申请的相乘计算符对输入的编码特征图像进行了全局计算，能充分的将特征之间的关系进行计算和比较，扩大了模型感受野，提升模型的整体效果。

附图说明

图1为本发明整体结构示意图；

图2为本发明姿态注意力机制单元结构示意图；

图3为本发明残差网络结构示意图；

图4为本发明特征交融模块结构示意图；

图5为本发明系统结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

请参阅图1至图5，本发明提供一种技术方案：

一种基于Transformer的人体姿态估计方法，包括

如图1、图2、图3，所述特征提取模块包括残差网络、压缩卷积Con-Red以及姿态注意力机制单元SA；

所述残差网络实现对输入图像的采样，由于本申请中残差网络是由ResNet50组成，因此，实现对输入图像的快速采样，本申请利用ResNet50的快速特点，实现了对输入图像的特征获取，为后续的图像交互提供基础。

如图2，所述姿态注意力机制单元SA插入在所述残差网络内，对残差网络内的特征通道C进行关注。

进一步的，所述姿态注意力机制单元SA包括转换层、softmax激活层、sigmoid激活层和多个1×1的卷积；

将所述姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出C_r×H_r×W_r进行通道关注，实现对所述残差网络内的特征通道C_r进行关注；公式如下：

F_b(X_r)＝Softmax(Reshape(Conv(X_r)))， (1)

F_t(X_r)＝Conv(Reshape(Conv(X_r)))， (2)

其中，Conv表示卷积核大小为1×1的卷积，Reshape为转换层，

表示叉乘，Norm为归一化，激活层与上述表述一致。公式1表示管道G_1，公式2表示管道G_3，最终利用公式3得到本申请姿态注意力机制单元SA的输出，与姿态注意力机制单元SA输入C_r×H_r×W_r进行点乘，提高初级特征图像的特征通道的关注度。

本申请中，姿态注意力机制单元SA如图2所示，本申请利用姿态注意力机制单元SA的特点，获取残差网络中的图像特征，实现一个图像特征C_r×H_r×W_r的输入，得到C_r×1×1的输出，从而只会产生对图像特征通道C_r的值，因此，利用在残差网络中插入姿态注意力机制单元SA，会对初级特征图像进行通道关注，实现提取特征中的通道注意力关注，提取特征更加准确，我们后续会在实验中验证这一点。

进一步的，如图4所示，所述特征提取模块与特征交互模块之间设置有特征交融模块；

所述交融特征图像与所述初级特征图像的特征大小相同。

在现有技术中，一般会采样hourglass networks(Alejandro Newell，KaiyuYang，and Jia Deng.Stacked hourglass networks for human pose estimation.InECCV，pages 483-499.Springer)或者CPN(Yilun Chen，Zhicheng Wang，Yuxiang Peng，Zhiqiang Zhang，Gang Yu，and Jian Sun.Cascaded pyramid network for multi-personpose estimation.In CVPR，pages 7103-7112)来进行图像的采样，其中CPN，采用传统的ResNet改进得到金字塔模型，实现输入图像的快速采用，本申请中，并未进行特征金字塔模型的设计，为了考虑参数轻量化，直接利用残差网络对输入图像进行获取，而为了进一步提升本申请的整体效果，设计了特征交融模块。

需要说明的是，本申请的特征交融模块与现有技术中的hourglass和CPN都不相同，本申请利用三个相互并行的通道特征单元获取初级特征图像的特征后，实现并行计算再相融，由于初级特征图像的高和宽只有一个大小，而本申请的特征交融模块已经获取了三个不同大小的特征图像，因此，能获取不同尺度下的特征图像，从而识别出图像中的各种尺度特征，提升了初级特征图像的识别精度，大幅度提高人体姿态估计的精度，另外，本申请的特征交融模块整体设计较为轻量级，也不会给模块带来更大的额外开销，相比现在的网络，其参数小，对网络速度影响有限。

进一步的，还包括特征转换模块；

得到转换特征图像；

本申请中，由于Transformer模型对位置信息的敏感度较高，因此本申请利用位置嵌入(Position Embedding)对转换特征图像进行位置编码，这里使用Sin PositionEmbedding实现位置编码。

本申请中，为了匹配目前的Transformer模型，提出的特征转换模块是必须的，而本申请的Transformer模型连接过程中，目前的算法为了提高精度，一味的将图像的大小保持在输入图像的高和宽的1/4或者输入图像的高和宽的1/8，这样会对网络的速度大大折扣。本申请中，抛弃这种观念，将转换后的二维特征中第一维中的宽和高的值设置为输入图像的高和宽的1/16，速度大幅度提升且精度损失在可接受的范围内。

进一步的，所述特征交互模块包括多头注意力单元、前馈单元和三个大小一致的计算符组成；其中，所述前馈单元包括线性层；

对第二计算符N进行转置，获取第二计算符N的转置计算符，将第二计算符N的转置计算符与第一计算符M计算得到相乘计算符，将相乘计算符进行尺度缩放得到缩放计算符，利用softmax激活对缩放计算符进行得分计算，得到计算符分值，再将计算符分值与第三计算符Q计算，得到所述多头注意力矩阵：

本申请中，利用特征交互模块的多头注意力矩阵计算得到交互特征图像，这里第一计算符M，第二计算符N，第三计算符Q值相等，而将将第二计算符N的转置计算符与第一计算符M计算得到相乘计算符是一种全局计算方式，不同于卷积的卷积核进行移动计算，本申请的相乘计算符对输入的编码特征图像进行了全局计算，能充分的将特征之间的关系进行计算和比较，扩大了模型感受野，提升模型的整体效果。

进一步的，所述特征恢复模块由两个连续的反卷积单元组成，其中两个反卷积单元的参数保持一致；

反卷积单元能很好的恢复交互特征图像的大小，也能保证本申请的整体效果。

如图5所示，所述系统包括特征提取模块，特征交融模块，特征转换模块，特征交互模块和特征恢复模块，所述特征交融模块，特征转换模块，特征交互模块和特征恢复模块依次连接。

进一步的，还包括位置编码模块，所述位置编码模块连接在特征转换模块和特征交互模块之间；

其中，

本发明的工作原理：下面结合上述的人体姿态估计系统，对本申请做一个详细的描述，包括实验。

首先，特征提取模块中的残差网络实现对输入图像的采样，残差Res为ResNet50网络，而本申请的残差网络由残差Res组成，因此本申请中残差网络是由ResNet50组成，因此，实现对输入图像的快速采样，本申请利用ResNet50的快速特点，实现了对输入图像的特征获取，为后续的图像交互提供基础。紧接着，将姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出C_r×H_r×W_r进行通道关注，实现对所述残差网络内的特征通道C_r进行关注，这一操作提高初级特征图像的特征通道的关注度，需要指出的是，本申请利用姿态注意力机制单元SA的特点，获取残差网络中的图像特征，实现一个图像特征C_r×H_r×W_r的输入，得到C_r×1×1的输出，从而只会产生对图像特征通道C_r的值，因此，利用在残差网络中插入姿态注意力机制单元SA，会对初级特征图像进行通道关注，实现提取特征中的通道注意力关注，提取特征更加准确。

利用特征转换模块对特征图像的特征维度进行转换：对交融特征图像的三维特征转换为二维特征，将交融特征图像的宽和高相乘作为二维特征的第一维，将交融特征图像的通道数作为第二维；将所述二维特征的第一维中的宽和高的值，设置为输入图像的高和宽的1/16；得到转换特征图像；并利用位置编码模块对所述特征转换模块得到的转换特征图像进行位置编码，得到编码后的编码特征图像。

目前的算法为了提高精度，一味的将图像的大小保持在输入图像的高和宽的1/4或者输入图像的高和宽的1/8，这样会对网络的速度大大折扣。本申请中，抛弃这种观念，将转换后的二维特征中第一维中的宽和高的值设置为输入图像的高和宽的1/16，速度大幅度提升且精度损失在可接受的范围内。

接着，利用特征交互模块的多头注意力矩阵计算得到交互特征图像，这里第一计算符M，第二计算符N，第三计算符Q值相等，而将将第二计算符N的转置计算符与第一计算符M计算得到相乘计算符是一种全局计算方式，不同于卷积的卷积核进行移动计算，本申请的相乘计算符对输入的编码特征图像进行了全局计算，能充分的将特征之间的关系进行计算和比较，扩大了模型感受野，提升模型的整体效果。

再通过特征恢复模块用于对交互特征图像进行特征恢复，与真实关节点的热图进行计算，得到训练的损失值loss，实现梯度回传，完成各个模块的训练。

下面结合实验，验证本申请的方法。

上述的模型设计，实验采用COCO数据集，MS COCO的全称是Microsoft CommonObjects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。

下面的各个参数含义在本领域技术人员看来是现有技术，因此本申请不再加以赘述。

本申请比较的方法包括目前比较先进的方法，其中1-5的方法论文名分别为：

1、Stacked hourglass networks for human pose estimation

2、Cascaded pyramid network for multi-person pose estimation

3、Simple baselines for human pose estimation and tracking

4、Deep high-resolution representation learning for human poseestimation

5、TransPose：Keypoint localization via Transformer

所有的实验采用GPU2080Ti，图像大小为256×192，从上述结果上看，本申请的平均精度AP值最高，速度更是达到191FPS。最需要说明的是，本申请的整体参数最低，且计算量为5.9GFLOPs，同样达到了最低。因此，本申请利用卷积与Transformer结合，并精心设计多个模块之间的协同作用，使得不仅超过目前CNN方法，而且利用特征转换模块设计，进一步降低了Transformer内部的计算参数和复杂度，使得内存进一步下降，同时提高了运算速度。

下面介绍本申请特征交融模块的作用：

本申请在上述实验的基础上，在特征提取模块之后加入特征交融模块，通过三个相互并行的通道特征单元获取初级特征图像的特征，实现并行计算再相融，由于初级特征图像的高和宽只有一个大小，而本申请的特征交融模块已经获取了三个不同大小的特征图像，因此，能获取不同尺度下的特征图像，从而识别出图像中的各种尺度特征，提升了初级特征图像的识别精度，大幅度提高人体姿态估计的精度，另外，本申请的特征交融模块整体设计较为轻量级，也不会给模块带来更大的额外开销，相比现在的网络，其参数小，对网络速度影响有限。

本申请1代表无特征交融模块，本申请2代表有特征交融模块，在利用特征交融模块后，本申请的效果也进一步提升，主要表现在平均精度提升0.3，平均召回率AR达到79.0，速度上从191FPS降低20FPS，影响不是非常大。通过实验进一步说明，是上述方案后结合了特征交融模块，本申请的整体性能得到了进一步提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的人体姿态估计方法，其特征在于：

包括

2.根据权利要求1所述的一种基于Transformer的人体姿态估计方法，其特征在于：

所述特征提取模块包括残差网络、压缩卷积Con-Red以及姿态注意力机制单元SA；

所述姿态注意力机制单元SA插入在所述残差网络内，对残差网络内的通道C进行关注。

3.根据权利要求2所述的一种基于Transformer的人体姿态估计方法，其特征在于：

所述姿态注意力机制单元SA包括转换层、softmax激活层、sigmoid激活层和多个1×1的卷积；

姿态注意力机制单元SA获取到每个残差Res内第一个卷积C_1的输出C_r×H_r×W_r，利用两个1×1的卷积分别对输出的通道数C_r下降到为1和1/2C_r，保持特征的高度H_r和宽度W_r不变，得到两个并行处理的管道G_1和管道G_2，管道G_1和管道G_2输出特征分别为1×H_r×W_r和C_r/2×H_r×W_r；

利用转换层分别对两个并行处理的管道G_1和管道G_2进行维度转换，对其中管道G_1的特征维度保持三维，使其特征高度H_r和宽度W_r合成同一维度，得到特征维度为H_rW_r×1×1；对另外一管道G_2的特征维度由三维转换为二维，并将特征高度和宽度合成同一维度，通道数为1/2C_r，得到特征C_r/2×H_rW_r；

利用1×1的卷积对管道G_2的特征C_r/2×H_rW_r进行计算，利用softmax激活层对另一管道G_1的特征H_rW_r×1×1进行计算，将两者计算的值进行叉乘计算，并经sigmoid激活层输出，得到一个三维特征，该三维特征的通道数与残差网络内第一个卷积的输出的通道数C_r相同，特征的高度和宽度均为1，特征为C_r×1×1；

将所述姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出C_r×H_r×W_r进行通道C_r关注，实现对所述残差网络内的特征通道C_r进行关注；提高初级特征图像的特征通道的关注度。

4.根据权利要求1-3任一所述的一种基于Transformer的人体姿态估计方法，其特征在于：

所述特征提取模块与特征交互模块之间设置有特征交融模块；

三个并行的通道特征单元均包括卷积层，每个通道特征单元的卷积层设置不同；

所述交融特征图像与所述初级特征图像的特征大小相同。

5.根据权利要求4所述的一种基于Transformer的人体姿态估计方法，其特征在于：

还包括特征转换模块；

得到转换特征图像；

6.根据权利要求5所述的一种基于Transformer的人体姿态估计方法，其特征在于：

所述特征交互模块包括多头注意力单元、前馈单元和三个大小一致的计算符组成；其中，所述前馈单元包括线性层；

将三个所述计算符送入多头注意力单元，利用以下方式得到多头注意力矩阵：

对第二计算符N进行转置，获取第二计算符N的转置计算符，将第二计算符N的转置计算符与第一计算符M相乘，再进行尺度缩放，利用softmax激活对尺度缩放结果进行得分计算，得到计算符分值，再将计算符分值与第三计算符Q计算，得到所述多头注意力矩阵；

7.根据权利要求5所述的一种基于Transformer的人体姿态估计方法，其特征在于：

所述特征恢复模块由两个连续的反卷积单元组成，其中两个反卷积单元的参数保持一致；

8.一种基于Transformer的人体姿态估计系统，利用如权利要求5所述的一种基于Transformer的人体姿态估计方法，其特征在于：

9.根据权利要求8所述的一种基于Transformer的人体姿态估计系统，其特征在于：

还包括位置编码模块，所述位置编码模块连接在特征转换模块和特征交互模块之间；

其中，