CN116071785B

CN116071785B - 一种基于多维空间交互的人体姿态估计方法

Info

Publication number: CN116071785B
Application number: CN202310201240.7A
Authority: CN
Inventors: 王冬; 刘晓平; 胡鹏; 钮立超; 曹忠锐; 谢文军
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-23
Anticipated expiration: 2043-03-06
Also published as: CN116071785A

Abstract

本发明公开了一种基于多维空间交互的人体姿态估计方法，包括第一交互模块，所述第一交互模块获取输入图像后，对输入图像进行一维空间人体关节信息交互，得到一维交互特征；第二交互模块，所述第二交互模块对一维交互特征进行二维空间人体关节信息交互，得到二维交互特征；第三交互模块，所述第三交互模块对二维交互特征进行三维空间人体关节信息交互，得到三维交互特征；将三维交互特征输入至人体姿态关节对齐模块，得到人体姿态的关节位置，本发明研究了人体姿态估计任务的高维空间，并证实本发明提出的多维空间交互方案能促进人体姿势估计精度，且不会增大神经网络模型的计算开销。

Description

一种基于多维空间交互的人体姿态估计方法

技术领域

本发明涉及计算机视觉领域，具体为一种基于多维空间交互的人体姿态估计方法。

背景技术

人体姿态估计是计算机视觉领域的一项基本和重要的任务，它是指通过定位人体的关键点（头部、肩部、手腕、肘部、膝盖等）来识别图像中人物的关节点姿态。目前，人体姿态估计任务已经引起了工业界和学术界的极大兴趣，并被应用于一些关键领域，如人机交互、动作识别和姿态追踪。

最近的视觉Transformer已被应用于人体姿态估计任务中，相比之前的一维空间交互的单纯2d卷积（如只采用ResNet的残差卷积）来说，Transformer通过自注意操作完成了二维空间上的交互，并在人体姿态估计上取得了出色的性能。

目前，平衡人体姿态估计的精度和模型计算量成为该领域研究的一个重点，然而人体姿态估计神经网络的设计仅局限于采用ResNet和Transformer，有部分研究学者通过不断加深网络的深度或增大图像输入的大小来提高人体姿态估计精度，这必然增大模型的计算开销，增加了硬件成本。

因此，在人体姿态估计领域，探索新的神经网络模型来平衡精度和模型计算量，成为当下研究的新方向。

发明内容

针对以上问题，本发明探究了高维空间图像特征交互对人体姿态估计的影响，提出的第三交互模块与2d卷积的一维空间交互和所提出第二交互模块中的二维空间交互相结合，形成一种新的基于多维空间交互的人体姿态估计方法，能提升人体姿态估计的精度，证明了高维空间互动能促进姿势估计的实际效果。

为实现上述目的，本发明提供如下技术方案：

一种基于多维空间交互的人体姿态估计方法，包括

第一交互模块，所述第一交互模块获取输入图像后，对输入图像进行一维空间人体关节信息交互，得到一维交互特征；

第二交互模块，所述第二交互模块对一维交互特征进行二维空间人体关节信息交互，得到二维交互特征；

第三交互模块，所述第三交互模块对二维交互特征进行三维空间人体关节信息交互，得到三维交互特征；

将三维交互特征输入至人体姿态关节对齐模块，得到人体姿态的关节位置。

作为本发明一种优选的技术方案，所述第一交互模块包括残差网络ResNet50，输入图像进入第一交互模块后，由ResNet50对输入图像进行2d卷积操作，卷积核大小为3×3，利用3×3的卷积核处理输入图像特征；

所述ResNet50对人体关节信息进行一维空间交互，获得一维交互特征；

所述输入图像大小为[3,H,W]，所述一维交互特征大小为[C,H/16,W/16]，其中C表示图像特征的通道数，H和W分别表示图像特征的高和宽。

作为本发明一种优选的技术方案，第二交互模块包括变形网络，所述变形网络由多头自注意力和一个特征感知单元组成；

所述第二交互模块获取一维交互特征后，对一维交互特征进行图像切片，得到切片特征，所述切片特征大小为[H/16*W/16,C]，再利用位置编码将切片特征进行编码，获得3个大小一致的人体关节信息特征矩阵K、Q、V，通过所述多头自注意力对3个大小一致的人体关节信息特征矩阵K、Q、V进行多头自注意力操作：

所述多头自注意力操作包括将人体关节信息特征矩阵K、Q相乘后，再经过一个softmax函数计算人体关节信息二维空间的相似度矩阵，再将相似度矩阵与人体关节信息特征矩阵V相乘，得到人体关节信息二维空间的自注意力矩阵；

所述多头自注意力采用残差连接；

将自注意力矩阵与人体关节信息特征矩阵V相加，得到人体关节信息二维空间的自注意力特征；

所述特征感知单元采用残差连接，用于对所述自注意力特征进行特征感知，所述特征感知单元由2个线性层、1个RELU激活函数组成；在特征感知单元获取自注意力特征后，特征感知单元利用其中一个线性层对人体关节信息二维空间的自注意力特征进行线性特征处理，再利用非线性RELU激活函数进行非线性激活，再利用另外一个线性层对人体关节信息二维空间的自注意力特征进行线性特征处理，实现线性-非线性激活-线性的依次自注意力特征处理过程，提升二维空间人体关节信息的特征感知能力；

所述第二交互模块利用变形网络处理一维交互特征，得到二维交互特征，大小为[H/16*W/16,C]。

作为本发明一种优选的技术方案，所述第三交互模块包括通道扩充单元、通道整理单元、通道分离单元和通道聚合单元；

在所述第三交互模块获取二维交互特征后，利用通道扩充单元扩充输入通道，将二维交互特征的通道数C扩充两倍，所述二维交互特征的二维空间特征大小H/16、W/16维持不变，得到通道扩充特征，大小为[2C,H/16,W/16]；

利用通道整理单元对通道扩充特征进行通道整理，增强通道特征感知力，得到通道整理特征；

利用通道分离单元对通道整理特征进行通道分离，得到四个空间大小一致、通道数不相同的通道分离特征，四个通道分离特征大小分别为[C/4,H/16,W/16]、[C/4,H/16,W/16]、[C/2,H/16,W/16]、[C,H/16,W/16]；

利用通道聚合单元对四个所述通道分离特征两两之间依次进行通道交互聚合，得到三维交互特征，大小为[C,H/16,W/16]。

作为本发明一种优选的技术方案，所述通道扩充单元采用一个卷积核大小为1×1，步长为1的2d卷积；

所述通道整理单元包括第一维度转换器和第二维度转换器；

利用第一维度转换器对通道扩充特征[2C,H/16,W/16]进行维度转换，得到第一维度转换特征，大小为[H/16*W/16,2C]；

利用一个标准器Layer Norm和第一线性层，对第一维度转换特征进行层标准化和通道拉长，得到通道拉长特征，大小为[H/16*W/16,4C]；

利用激活函数GELU对通道拉长特征进行通道非线性激活处理，维持图像特征的高、宽、通道不变，得到通道激活特征；

利用第二线性层缩短通道激活特征的通道数，得到大小为[H/16*W/16,2C]的通道缩短特征，并利用第二维度转换器对通道缩短特征进行维度转换，得到通道整理特征，大小为[2C,H/16,W/16]。

作为本发明一种优选的技术方案，所述通道聚合单元获取四个所述通道分离特征后，对其中通道分离特征中大小为[C/4,H/16,W/16]的两个特征进行第一次交互聚合，经过2d卷积提升第一次交互聚合后的特征通道数，得到第一次交互特征，大小为[C/2,H/16,W/16]；

再对通道分离特征中大小为[C/2,H/16,W/16]的特征与第一次交互特征进行第二次交互聚合，经过2d卷积提升第二次交互聚合后的特征通道数，得到第二次交互特征，大小为[C,H/16,W/16]；

另外，对通道分离特征中大小为[C,H/16,W/16]的特征与第二次交互特征进行第三次交互聚合，得到第三次交互特征，大小为[C,H/16,W/16]；

再经过2d卷积并维持第三次交互特征的特征通道数，得到三维聚合特征，大小为[C,H/16,W/16]。

作为本发明一种优选的技术方案，所述第一维度转换器和第二维度转换器采用Reshape函数的维度转换操作。

作为本发明一种优选的技术方案，所述第一交互模块和第二交互模块之间通过一个Flatten展平操作连接，所述第一交互模块得到的一维交互特征大小为[C,H/16,W/16]，经过Flatten展平操作得到大小为[H/16*W/16,C]的特征送入到第二交互模块；

所述第二交互模块和第三交互模块之间通过一个Reshape函数操作连接，所述第二交互模块得到的二维交互特征大小为[H/16*W/16,C]，经过Reshape函数操作得到大小为[C,H/16,W/16]的特征送入到第三交互模块。

作为本发明一种优选的技术方案，第二交互模块和第三交互模块之间还包括一个线性标准化操作LinearNorm。

作为本发明一种优选的技术方案，所述人体姿态关节对齐模块将三维交互特征[C,H/16,W/16]进行反卷积操作，得到人体姿态的N个关节位置，大小为[N,H/4,W/4]。

与现有技术相比，本发明的有益效果是：

1、探究了高维空间图像特征交互对人体姿态估计的影响，并与2d卷积的一维空间交互和所提出的第二交互模块中的二维空间交互相结合，形成一种新的多维空间交互方法，提升人体姿态估计的精度。本发明中采用第三交互模块，仅依靠不同通道数、相同空间大小的图像分离特征完成了多次图像特征之间的交互，提高了对人体姿态关节的获取能力，提高了网络对于关节位置的识别能力，同时整体模型维持了较低的计算开销。

2、本发明通过所提出的第三交互模块，利用通道扩充单元、通道整理单元、通道分离单元和通道聚合单元对第二交互模块的二维交互特征进行三次全局特征的交互，提高了图像整体的交互深度，有效保证本发明所提方法对人体姿态位置的识别能力；另外，通过通道整理单元的设计，增强了第三交互模块在通道扩充后的通道特征感知力。

3、本发明将第一交互模块、第二交互模块和第三交互模块依次结合，形成逐空间（一维空间交互、二维空间交互、三维空间交互依次进行）的交互形式，从理论上能避免人体姿态识别的混乱，在COCO数据集（公开的人体数据集）上，验证了本发明的有效性。

附图说明

图1为本发明的整体方法流程示意图；

图2为本发明中整体方法的神经网络模型框架图；

图3为本发明中神经网络模型框架中第三交互模块示意图；

图4为本发明第三交互模块中的通道整理单元示意图；

图5为本发明整体方法的在COCO数据集上的人体姿态估计结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，2d卷积为神经网络的Conv2d函数组成，是面向图像特征的一维平面交互手段，类似所提出第一交互模块，所以称之为一维空间交互；Transformer采用的是三个矩阵进行自注意力操作，由于进行了两次全局相乘计算，对人体姿态相似度进行全局图像的两次交互，类似所提出的第二交互模块，所以称之为二维空间交互。

第一交互模块采用ResNet50，利用2d卷积串行组成，可以得到一维交互特征。最近的视觉Transformer发展迅速，在人体姿态估计任务中取得了一定效果。例如发表在2021年顶级会议的论文《TransPose: KeypointLocalization via Transformer》所采用Transformer方法进行人体姿态估计，相比之前的2d卷积来说，Transformer通过二维空间互动与自注意力机制，证实了二维交互空间比单独的一维交互方案更出色。

另外，对于一维空间交互和二维空间交互的相互叠加效果，本申请人已在相关方法中进行了证实，具体可以参见SCI论文《A Fast and Effective Transformer forHumanPose Estimation》提出的方法，已发表在Signal Processing Letters期刊，表明了一维空间交互和二维空间交互能提升人体姿态估计精度的同时，大幅度提升人体姿态估计速度，这有利于实际场景的硬件部署。

通常来说，人们提高人体姿态估计精度往往通过不断加深网络的深度或增大图像输入的大小，这必然增大模型的计算开销，且对硬件要求和实际应用提出了较高的要求，不利于算法落地应用。

在以往的Transformer模型中，二维空间交互在解决人体姿态估计精度的同时还能保持较低的计算开销，这相比一维空间交互方法具有一定优势。然而，针对人体姿态估计任务的高维空间交互目前并未有研究，高维空间交互是否能促进姿势估计的精度和模型计算量没有得到证实。

本发明针对高维空间交互在人体姿态估计领域的有效性，提出了以下方案。

实施例：

请参阅图1至图5，本发明提供一种技术方案：

一种基于多维空间交互的人体姿态估计方法，包括

在本发明中的其中一个实施例中，所提出的第一交互模块可以采用ResNet其他模块，例如ResNet152和其他的不同层数的ResNet，另外，本发明的第二交互模块可以采用论文《TransPose: Keypoint Localization via Transformer》和2022年论文《AiATrack:Attention in Attention forTransformer Visual Tracking》中的Transformer模块，也可以采用论文《ViTPose Simple Vision Transformer Baselines for HumanPoseEstimation》中所给出的Transformer模块来实现。

进一步，所述第一交互模块包括残差网络ResNet50，输入图像进入第一交互模块后，由ResNet50对输入图像进行2d卷积操作，卷积核大小为3×3，利用3×3的卷积核处理输入图像特征；

所述输入图像大小为[3,H,W]，这一般是图像特征表示的标准样式，所述一维交互特征大小为[C,H/16,W/16]，其中C表示图像特征的通道数，H和W分别表示图像特征的高和宽。

在本发明中，如图2-图4所示，给出了图像输入的特征大小样式，而在本发明所提方法的神经网络模型框架中，针对不同的处理步骤，依次给出了特征的大小，方便本领域技术人员根据本申请的实施例和图示来复现本发明所提方案。特别是，输入图像大小为[3,H,W]，其中3表示RGB通道。而在图像特征进入神经网络模型后，图像特征能随着卷积或其他的矩阵操作实现特征的转换，这一点对本领域技术人员来说是显而易见的，所以本申请不再赘述图像特征的大小表示的基本原理。

前面提到第二交互模块可以采用朴素的Transformer，而在本发明的一个实施例中，第二交互模块也可以是本申请设计的变形网络。

所述变形网络由多头自注意力和一个特征感知单元组成；

在之前的Transformer中（例如论文《TransPose: Keypoint Localization viaTransformer》），图像切片大小都是[H/8*W/8,C]，本发明进一步降低了图片的切片大小，因此本发明切片特征较之前的方案都小，有助于人体姿态估计的交互速度，提高了本发明方案在GPU上的运行速度。

所述多头自注意力采用残差连接；

所采用的所述多头自注意力操作与目前主流方案一致，具体可以参见论文《TransPose:Keypoint Localization via Transformer》或本申请人在2022年发表的SCI论文《A Fastand Effective Transformer for Human Pose Estimation》提出的多头自注意力操作原理。

线性-非线性激活-线性的技术原理可以解释为，当人体姿态在识别过程中，由一个矩阵投射到另外一个矩阵中，利用非线性映射，能极大的提高人体姿态估计在线性投射中的感知力，可通过非线性操作提高矩阵的复杂性，在神经网络反向传递，极大的提高网络参数敏感度，提升二维空间人体关节信息的特征感知能力。

下面，将重点介绍本发明所提的比目前Transformer方法更高维度的方案：第三交互模块。

如图3所示：所述第三交互模块包括通道扩充单元、通道整理单元、通道分离单元和通道聚合单元。

在第三交互模块中，利用多个Conv2d卷积就实现了相同空间的多次交互，为了表现本申请与Transformer的不同，将相同空间大小的通道分离特征分为了四个，这四个通道分离特征的通道并不相同，而采用特征交互，能够实现相同空间、不同通道数的特征交互，从而构成三维空间交互。

进一步，所述通道扩充单元采用一个卷积核大小为1×1，步长为1的2d卷积；

通道整理单元包括第一维度转换器、第二维度转换器、第一线性层、第二线性层和激活函数GELU；

利用激活函数GELU对通道拉长特征进行通道非线性激活处理，维持图像特征的高、宽、通道数不变，得到通道激活特征；

本申请中，为维持空间不变性，在变换通道过程中空间大小维持不变，并利用激活函数GELU对通道拉长特征进行通道非线性激活处理，保证了在通道映射过程中的随机性，能使得本发明神经网络模型的训练参数更加鲁棒。

进一步，所述通道聚合单元获取四个所述通道分离特征后，对其中通道分离特征中大小为[C/4,H/16,W/16]的两个特征进行第一次交互聚合，经过2d卷积提升第一次交互聚合后的特征通道数，得到第一次交互特征，大小为[C/2,H/16,W/16]；

目前，在人体姿态估计上，对相同空间、不同通道的特征进行多次操作，实现了多维（相比Transformer的二维）交互空间。

当二维交互特征经过维度转换后得到特征

, 利用通道扩充单元扩充输入通道，将二维交互特征的通道数C扩充两倍，所述二维交互特征的二维空间特征大小H/16、W/16维持不变，得到通道扩充特征/>

，大小为[2C,H/16,W/16]（

），这里H和W表示输入图像特征的高和宽，如下公式：

Conv2d

—>/>

；

利用通道分离单元对通道整理特征进行通道分离，如下公式：

Split

—>/>

；

这里 Split[] 采用 torch.split对通道整理特征实现通道分离，得到

,

,/>

,/>

均为/>

大小的通道分离特征，四个通道分离特征大小分别为[C/4,H/16,W/16]、[C/4,H/16,W/16]、[C/2,H/16,W/16]、[C,H/16,W/16]。得到四个空间大小一致、通道数不相同的通道分离特征；

利用通道聚合单元对四个所述通道分离特征两两之间依次进行通道交互聚合，如下公式：

；

得到三维交互特征

，大小为[C,H/16,W/16]。

上述

表示特征矩阵中元素相乘，说明书附图3中所画的/>

也是此含义。

在本发明的一个实施例中，所述人体姿态关节对齐模块将三维交互特征[C,H/16,W/16]进行反卷积操作，得到人体姿态的N个关节位置，大小为[N,H/4,W/4]。

在本申请中，采用的COCO数据集，其中N为17。代表有17个关节点，关于COCO数据集的17个关节点如下（L表示左，R表示右）：

0-鼻 1-L眼 2-R眼 3-L耳 4-R耳 5-L鞋 6-R鞋 7-L肘 8-R肘 9-L腰 10-R腰 11-L臀 12-R臀 13-L膝 14-R膝 15-L踝 16-R踝。

我们采用本申请所提的多维空间交互人体姿态估计方法进行实验，见表1所示：

表1 本发明所提方法与其他先进方法对比结果

方法	主框架	是否预训练	AP	AP50	GFLOPs
						Hourglass [1]	8-stage HG	否	66.9	-	14.3
CPN [2]	ResNet-50	是	68.6	-	6.2
						SimpleBase[3]	ResNet-50	是	70.4	88.6	8.9
HRNet-W32[4]	HRNet-W32	否	73.4	89.5	7.1
						Transpose [5]	ResNet-50	是	72.6	89.1	8.9
FET[6]	ResNet-50	是	73.6	89.8	5.8
						本发明	ResNet-50	是	74.1	89.9	5.8

本申请比较的方法包括目前较为先进的方法，表1中，1到6的方法所涉及的论文名，分别为：

1、Stacked hourglass networks for human pose estimation

2、Cascaded pyramid network for multi-person pose estimation

3、Simple baselines for human pose estimation and tracking

4、Deep high-resolution representation learning for humanposeestimation

5、TransPose: Keypoint localization via Transformer

6、A Fast and Effective Transformer for Human Pose Estimation

其中AP表示平均准确度，GFLOPs表示模型的计算量。

可以看出，本发明所提方法取得了74.1的平均准确率，且计算量与之前的FET（方法6）一致，均比目前其他同类的方法要好。证实了采用逐空间（第一交互模块、第二交互模块、第三交互模块相互串联的方式实现）的有效性，上述的实验5中是代表没采用本发明提供的第三交互模块（在网络模型处理中的一维交互特征[C,H/8,W/8]，虽然能提高人体姿态估计精度但需要更大的计算开销），最终得到72.6的平均精度，比发明所提方法要低1.5平均精度，一方面证明了第三交互模块对于人体姿态估计方法的有效性，另外一方面也证明了在人体姿态估计方案上，本发明提出的逐空间交互方法能有效提升人体姿态估计的准确率，不会增大模型的计算开销。

本发明的可视化效果如图5所示，可以看出我们的方法在单人和多人姿态估计上取得了较为准确的可视化效果。

在本申请的实验中，未采用通道整理单元所取得的效果比不上采用通道整理单元的效果，在COCO数据集上的整体平均精度要低0.4AP。因此，本申请中采用的通道整理单元能进一步提高通道扩充特征的通道特征感知力，提高人体姿态估计识别精度。

在本发明的一个实施例中，所述第一维度转换器和第二维度转换器采用Reshape函数的维度转换操作。

进一步，所述第一交互模块和第二交互模块之间通过一个Flatten展平操作连接，所述第一交互模块得到的一维交互特征大小为[C,H/16,W/16]，经过Flatten展平操作得到大小为[H/16*W/16,C]的特征送入到第二交互模块；方便了不同模块之间的连接。

在本发明的一个实施例中，第二交互模块和第三交互模块之间还包括一个线性标准化操作LinearNorm。对数据进行标准化操作，保证了网络更好的进行迭代优化。

本发明的工作原理：

首先利用第一交互模块获取输入图像，并快速处理图像特征，实现一维空间交互过程，得到一维交互特征；第一交互模块和第二交互模块之间通过一个Flatten展平操作连接，第一交互模块得到的一维交互特征大小为[C,H/16,W/16]。

经过展平操作（Flatten）将一维交互特征处理成[H/16*W/16,C]的大小特征，送入到第二交互模块；第二交互模块利用多头自注意力实现三个相同人体姿态特征的两次全局交互，再利用特征感知单元提升了全局交互的感知能力，得到第二交互特征。

第二交互模块和第三交互模块之间通过一个维度变换（Reshape）操作连接，第二交互模块得到的二维交互特征大小为[H/16*W/16,C]，经过Reshape操作得到大小为[C,H/16,W/16]的特征送入到第三交互模块，在所第三交互模块中，利用通道扩充单元、通道整理单元、通道分离单元和通道聚合单元对二维交互特征进行了三次全局特征的交互，提高了图像整体的交互深度，提升本发明所提方法对人体姿态位置的识别能力，另外，通过通道整理单元的设计，有效提升了第三交互模块在通道扩充后的通道特征感知力。

最后，并利用人体姿态关节对齐模块得到相应的人体关节位置信息。

本发明设计的第二交互模块和第三交互模块与现有的ResNet50（2dConv卷积）的一维空间交互相结合，形成一种新的多维空间交互方法，在本发明中，将第一交互模块、第二交互模块和第三交互模块依次结合，形成逐空间的交互形式，可避免人体姿态识别的空间混乱，在公开的人体数据集上，验证了本发明的有效性。本发明的方案证实了所提出的多维空间交互方案能改善人体姿势估计精度，且不会增大神经网络模型的计算开销。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多维空间交互的人体姿态估计方法，其特征在于：包括

将三维交互特征输入至人体姿态关节对齐模块，得到人体姿态的关节位置；

所述第三交互模块包括通道扩充单元、通道整理单元、通道分离单元和通道聚合单元；

利用通道整理单元对通道扩充特征进行通道整理，增强通道特征感知力，得到通道整理特征，大小为[2C,H/16,W/16]；所述通道整理单元包括第一维度转换器、第二维度转换器、第一线性层、第二线性层和激活函数GELU；

2.根据权利要求1所述的基于多维空间交互的人体姿态估计方法，其特征在于：所述第一交互模块包括残差网络ResNet50，输入图像进入第一交互模块后，由ResNet50对输入图像进行2d卷积操作，卷积核大小为3×3，利用3×3的卷积核处理输入图像特征；

3.根据权利要求1所述的基于多维空间交互的人体姿态估计方法，其特征在于：第二交互模块包括变形网络，所述变形网络由多头自注意力和一个特征感知单元组成；

所述多头自注意力采用残差连接；

所述特征感知单元采用残差连接，用于对所述自注意力特征进行特征感知，所述特征感知单元由2个线性层、1个RELU激活函数组成；

在所述特征感知单元获取自注意力特征后，所述特征感知单元利用其中一个所述线性层对人体关节信息二维空间的自注意力特征进行线性特征处理，利用非线性RELU激活函数进行非线性激活，再利用另外一个所述线性层对人体关节信息二维空间的所述自注意力特征进行线性特征处理；

所述第二交互模块利用所述变形网络处理一维交互特征，得到二维交互特征，大小为[H/16*W/16,C]。

4.根据权利要求1所述的基于多维空间交互的人体姿态估计方法，其特征在于：所述通道扩充单元采用一个卷积核大小为1×1，步长为1的2d卷积；

利用第一线性层和一个标准器Layer Norm，对第一维度转换特征进行层标准化和通道拉长，得到通道拉长特征，大小为[H/16*W/16,4C]；

5.根据权利要求1所述的基于多维空间交互的人体姿态估计方法，其特征在于：所述通道聚合单元获取四个所述通道分离特征后，对其中通道分离特征中大小为[C/4,H/16,W/16]的两个通道分离特征进行第一次交互聚合，经过2d卷积提升第一次交互聚合后的特征通道数，得到第一次交互特征，大小为[C/2,H/16,W/16]；

再对通道分离特征中大小为[C/2,H/16,W/16]的特征与所述第一次交互特征进行第二次交互聚合，经过2d卷积提升第二次交互聚合后的特征通道数，得到第二次交互特征，大小为[C,H/16,W/16]；

6.根据权利要求4所述的基于多维空间交互的人体姿态估计方法，其特征在于：所述第一维度转换器和第二维度转换器采用Reshape函数的维度转换操作。

7.根据权利要求1-6任一所述的基于多维空间交互的人体姿态估计方法，其特征在于：所述第一交互模块和第二交互模块之间通过一个Flatten展平操作连接，所述第一交互模块得到的一维交互特征大小为[C,H/16,W/16]，经过Flatten展平操作得到大小为[H/16*W/16,C]的特征送入到第二交互模块；

8.根据权利要求1-6任一所述的基于多维空间交互的人体姿态估计方法，其特征在于：第二交互模块和第三交互模块之间还包括一个线性标准化操作Linear Norm。

9.根据权利要求1-6任一所述的基于多维空间交互的人体姿态估计方法，其特征在于：所述人体姿态关节对齐模块将三维交互特征[C,H/16,W/16]进行反卷积操作，得到人体姿态的N个关节位置，大小为[N,H/4,W/4]。