CN115511968B

CN115511968B - 一种二维手部姿态估计方法、装置、设备及存储介质

Info

Publication number: CN115511968B
Application number: CN202211451704.1A
Authority: CN
Inventors: 殷绪成; 黄智勇; 陈松路; 刘琦; 张崇建; 陈�峰
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-02-28
Anticipated expiration: 2042-11-21
Also published as: CN115511968A

Abstract

本发明适用计算机技术领域，提供了一种二维手部姿态估计方法、装置、设备及存储介质，该方法包括：对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图；对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图；对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图；根据结构特征图生成关键点高斯热图，根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计，从而实现了二维手部姿态的准确估计。

Description

一种二维手部姿态估计方法、装置、设备及存储介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种二维手部姿态估计方法、装置、设备及存储介质。

背景技术

二维手部姿态估计在手势识别、人机交互、三维重建、虚拟现实和增强现实等场景中具有广泛的应用。计算机视觉领域中的二维手部姿态估计方法以RGB手部图片作为输入，以手部21个关键点在图片上的坐标作为输出。传统手部姿态估计方法需要对人手的显著特点进行特征工程，如纹理、肤色、轮廓等特征。但是这些手工特征的泛化能力差、在干扰和变化多样的实际场景中检测效果较差，因此只适用于简单场景。

基于深度学习技术的手部姿态估计方法在泛化能力和识别精度上都取得了更好的表现，因此近年来的姿态估计方法大多都是基于深度学习技术。Sun等人 (Ke Sun, BinXiao, Dong Liu, et al. Deep High-Resolution Representation Learning for HumanPose Estimation[C]. Conference on Computer Vision and Pattern Recognition,2019:5693-5703)提出了高分辨率网络（High-Resolution Net，简写为HRNet），Yu等人(Changqian Yu, Bin Xiao, Changxin Gao, et al. Lite-HRNet: A Lightweight High-Resolution Network[C]. Conference on Computer Vision and Pattern Recognition,2021:10440-10450.)对HRNet进行了轻量化设计，在确保模型性能不会大幅度下降的前提下，有效地降低了模型的参数量和计算复杂度，然而该模型实际运行速度太慢，不能满足实时计算的需求。在高质量特征提取模块的设计上面，Li等人( Juncheng Li, Faming Fang,Kangfu Mei, et al. Multi-scale Residual Network for Image Super-Resolution[C]. European Conference on Computer Vision, 2018:527-542）提出了一种多尺度残差模块（MSRB，Multi-Scale Residual Block），通过使用并行卷积核大小不同的卷积神经网络来有效地提取多尺度特征，但这种做法会大大增加模型的计算成本。近年来，通道注意力模块由于其轻量且有效的特性，开始应用于轻量化网络中。其中，Woo等人（SanghyunWoo, Jongchan Park, et al. CBAM: Convolutional Block Attention Module[C].European Conference on Computer Vision, 2018:3-19）提出了一种通道注意力模块，可以嵌入已有的姿态估计网络中，以用于增强网络的特征，其原理就是通过空间和通道注意力让网络自动生成权重值来决定不同通道特征的重要程度，但其使用全局平均池化和全局最大池化的操作，会丢失大量的空间信息，而不利于网络产生准确的权重值。

发明内容

本发明的目的在于提供一种二维手部姿态估计方法、装置、设备及存储介质，旨在解决由于现有技术无法提供一种有效的二维手部姿态估计方法，导致二维手部姿态估计不准确的问题。

一方面，本发明提供了一种二维手部姿态估计方法，所述方法包括下述步骤：

对输入的二维手部图像进行下采样和浅层特征提取，得到所述二维手部图像对应的浅层特征图；

对所述浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图；

对所述多尺度深度特征图进行上采样和特征融合，得到所述二维手部图像对应的结构特征图；

根据所述结构特征图生成关键点高斯热图，根据所述关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。

另一方面，本发明提供了一种二维手部姿态估计装置，所述装置包括：

第一特征提取单元，用于对输入的二维手部图像进行下采样和浅层特征提取，得到所述二维手部图像对应的浅层特征图；

第二特征提取单元，用于对所述浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图；

第三特征提取单元，用于对所述多尺度深度特征图进行上采样和特征融合，得到所述二维手部图像对应的结构特征图；以及

姿态估计单元，用于根据所述结构特征图生成关键点高斯热图，根据所述关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。

另一方面，本发明还提供了一种图像处理设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明通过对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图，对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图，对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图，根据结构特征图生成关键点高斯热图，最后根据关键点高斯热图获取二维手部关键点坐标，从而实现了二维手部姿态的准确估计。

附图说明

图1是本发明实施例一提供的二维手部姿态估计方法的实现流程图；

图2A是本发明实施例二提供的二维手部姿态估计方法的实现流程图；

图2B是本发明实施例二提供的前处理网络的结构示意图；

图2C是本发明实施例二提供的第一多感受野特征提取模块的结构示意图；

图2D是本发明实施例二提供的第一通道注意力模块的结构示意图；

图2E是本发明实施例二提供的卷积神经网络模型的结构示意图；

图2F是本发明实施例二提供的本发明实施例与对照网络模型的识别效果示例图；

图3是本发明实施例三提供的二维手部姿态估计装置的结构示意图；以及

图4是本发明实施例四提供的图像处理设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的二维手部姿态估计方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图；

本发明实施例适用于图像处理设备，具体地，适用于二维手部姿态估计或识别的图像处理设备，以对输入的二维手部图像中的手部进行姿态估计或识别。在接收到二维手部图像后，对图像进行下采样和浅层特征提取，得到二维手部图像对应的、丰富的浅层特征图。具体地，可通过卷积神经网络对二维手部图像进行下采样，并增加二维手部图像的通道维度。

在步骤S102中，对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图；

在本发明实施例中，对浅层特征图进行多尺度的深层特征提取，得到不同尺度的深度特征图。优选地，在对浅层特征图进行多尺度的深层特征提取时，按照高分辨率到低分辨率的特征提取方式依次提取，以得到分辨率逐次降低的、对应的多尺度深层特征图，从而提高后续对不同大小手部的识别准确率。具体地，可通过多个卷积神经网络对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图。

在步骤S103中，对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图；

在本发明实施例中，对多尺度深度特征图进行上采样和特征融合，得到语义信息更加丰富的、二维手部图像对应的结构特征图。优选地，分步对多尺度深度特征图进行上采样和特征融合，从而进一步丰富了得到的结构特征图的语义信息。具体地，对步骤S102得到的最小尺度深度特征图进行上采样后，将上采样得到的特征图与步骤S102得到的另一尺度的深度特征图进行特征融合，融合结果作为下一步的上采样对象，如此迭代最终完成对多尺度深度特征图的上采样和特征融合，从而采用一个由低分辨率到高分辨率特征提取方式，还原得到后续关键点高斯热图所需的分辨率。在具体实施中，可通过多个卷积神经网络对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图。

在步骤S104中，根据结构特征图生成关键点高斯热图，根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。

在本发明实施例中，根据结构特征图生成关键点高斯热图，根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。优选地，在根据结构特征图生成关键点高斯热图时，通过对结构特征图的通道进行降维（例如，将128通道降为21通道），得到与关键点个数相等的通道数，一个通道对应一个关键点高斯热图，从而得到结构特征图对应的关键点高斯热图，从而在减少计算量的同时，更加有效、直观地得到关键点高斯热图。之后，根据关键点高斯热图获取二维手部关键点坐标，具体地，获取每个关键点高斯热图中得分最高的点的坐标，经过缩放后得到原图上的关键点二维坐标，从而得到二维手部关键点坐标，以实现二维手部的姿态估计。

在本发明实施例中，通过对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图，对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图，对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图，根据结构特征图生成关键点高斯热图，最后根据关键点高斯热图获取二维手部关键点坐标，从而实现了二维手部姿态的准确估计。

实施例二：

图2A示出了本发明实施例二提供的二维手部姿态估计方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，通过前处理网络对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图；

在本发明实施例中，通过前处理网络对图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图。优选地，该前处理网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一深度卷积层以及第一最大池化层，第一卷积层的输入为二维手部图像，第一卷积层的输出经批归一化（Batch Normalization，缩写为BN）和激活函数处理后作为第一深度卷积层的输入，第一深度卷积层的输出经批归一化和激活函数处理后作为第二卷积层和第一最大池化层的输入，第二卷积层的输出经批归一化和激活函数处理后作为第三卷积层的输入，第三卷积层的输出经批归一化和激活函数处理后和第一最大池化层的输出作级联，级联结果作为第四卷积层的输入，第四卷积层的输出作为前处理网络的输出。这样，通过该前处理网络可以从二维手部图像得到丰富的浅层特征图，提高了后续二维手部识别的准确率。

如图2B所示，在前处理网络的一具体实施例中，第一卷积层的卷积核为3×3，步长（stride）为2，第一卷积层将输入图像从3通道变为32通道，每个通道的特征图大小分辨率减半，经过批归一化和激活函数（LeakReLU）处理后作为第一深度卷积层的输入，第一深度卷积层（卷积核为3×3，分组数等于输入输出通道数，且都为32）的输出经批归一化和激活函数（LeakReLU）处理后作为第二卷积层（卷积核为1×1）和第一最大池化层（卷积核为2×2，步长为2）的输入，第二卷积层的输出经批归一化和激活函数（ReLU）处理后作为第三卷积层（卷积核为3×3，步长为2）的输入，第三卷积层的输出经批归一化和激活函数（ReLU）处理后和第一最大池化层的输出作级联（concatenation），级联结果（32*2个通道）作为第四卷积层（卷积核为1×1）的输入，第四卷积层的输出作为前处理网络的输出（此时，特征图由64通道升维到128通道）。通过该前处理网络可以对二维手部图像的宽高进行4倍下采样，同时将通道维度从3维提高到128维，从而可以从二维手部图像得到丰富的浅层特征图，提高了后续二维手部识别的准确率。

在步骤S202中，通过编码器对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图；

在本发明实施例中，通过编码器对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图。该编码器包括第一特征图提取单元、第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元，第一特征图提取单元的输入为浅层特征图，第二特征图提取单元的输入为第一特征图提取单元的输出，第三特征图提取单元的输入为第二特征图提取单元的输出，第四特征图提取单元的输入为第三特征图提取单元的输出，且从第一特征图提取单元到第四特征图提取单元，各单元的输入图像的分辨率不断降低，从而提高了对不同大小手部的识别准确率。

进一步地，第一特征图提取单元用于从浅层特征图中提取感受野不同的图像特征，并对提取的图像特征进行筛选，该第一特征图提取单元包括第一多感受野特征提取模块以及第一通道注意力模块。其中，第一多感受野特征提取模块包括第五卷积层、第六卷积层、第一深度可分离卷积模块、第二深度可分离卷积模块、第三深度可分离卷积模块以及第四深度可分离卷积模块，其中，第五卷积层的输入为浅层特征图，第五卷积层的输出作为第一深度可分离卷积模块和第二深度可分离卷积模块的输入，第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为第三深度可分离卷积模块和第四深度可分离卷积模块的输入，第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与所述第五卷积层的输出进行相加操作后得到相加结果，该相加结果经批归一化和激活函数处理后作为第六卷积层的输入，第六卷积层的输出作为第一多感受野特征提取模块的输出。第一通道注意力模块包括自适应平均池化层、第二深度卷积层以及全连接层，自适应平均池化层的输入为第一多感受野特征提取模块的输出，自适应平均池化层的输出经批归一化和激活函数处理后作为第二深度卷积层的输入，第二深度卷积层的输出作为全连接层的输入，全连接层的输出和第一多感受野特征提取模块的输出作乘法操作后作为第一通道注意力模块的输出。这样，在输入的高分辨率特征图上使用第一特征图提取单元提取高质量的深层结构特征，同时可有效降低处理高分辨率特征图时的浮点运算量。

如图2C所示，在第一多感受野特征提取模块的一具体实施例中，第五卷积层（卷积核为1×1）的输入为浅层特征图（经批归一化和激活函数（SiLU）处理后），第五卷积层的输出作为第一深度可分离卷积模块（DPBlock，空洞系数dilation为1）和第二深度可分离卷积模块（DPBlock，空洞系数dilation为2）的输入，第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为第三深度可分离卷积模块（DPBlock，空洞系数为1）和第四深度可分离卷积模块（DPBlock，空洞系数为2）的输入，第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与第五卷积层的输出进行相加（add）操作后得到相加结果，该相加结果经批归一化和激活函数（SiLU）处理后作为第六卷积层（卷积核为1×1）的输入，第六卷积层的输出作为第一多感受野特征提取模块的输出。这样，在第一多感受野特征提取模块的输入和输出使用1×1卷积来对特征图通道数进行降维和升维，从而减少了模块的复杂度，另外，通过深度可分离卷积来降低模块的浮点运算量和参数量，同时使用空洞系数为2的深度可分离卷积来增加感受野的多样性，从而可使得第一多感受野特征提取模块能有效地提取丰富的多尺度特征。

如图2D所示，在第一通道注意力模块的一具体实施例中，自适应平均池化层（Adaptive AvgPool2d）的输入为第一多感受野特征提取模块的输出，自适应平均池化层的输出经批归一化和激活函数（ReLU）处理后作为第二深度卷积层（DWconv，卷积核为3×3）的输入，第二深度卷积层的输出作为全连接层（FC）的输入，全连接层的输出和第一多感受野特征提取模块的输出作乘法操作后作为第一通道注意力模块的输出。这样，通过第一通道注意力模块对第一多感受野特征提取模块提取的特征图的各个通道特征乘以不同大小权重，对于结构特征（如纹理、轮廓特征）质量低的特征通道赋予低权重，而对于结构特征质量高的特征通道赋予高权重，从而有效地筛选出高质量的结构特征。

在一具体实施例中，第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元可由ResNet网络中的一个基础模块（Basic Block）和两个瓶颈模块（Bottleneck）组成，以用于提取不同尺度的特征。

在步骤S203中，通过解码器对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图；

在本发明实施例中，通过解码器对多尺度深度特征图进行上采样和特征融合，得到语义信息更加丰富的、二维手部图像对应的结构特征图。该解码器包括第五特征图提取单元、第六特征图提取单元、第七特征图提取单元以及第八特征图提取单元，第五特征图提取单元的输入为第四特征图提取单元的输出，第六特征图提取单元的输入为第一特征图提取单元的输出经自适应池化后与第五特征图提取单元的输出的相加操作结果，第七特征图提取单元的输入为第六特征图提取单元的输出与第三特征图提取单元的输出的相加操作结果，第八特征图提取单元的输入为第七特征图提取单元的输出与第二特征图提取单元的输出的相加操作结果，第八特征图提取单元的输出和第一特征图提取单元的输出作加法操作后作为解码器的输出。这样，分步对多尺度深度特征图进行上采样和特征融合，进一步丰富了得到的结构特征图的语义信息。进一步地，第八特征图提取单元包括第二多感受野特征提取模块以及第二通道注意力模块，第二多感受野特征提取模块以及第二通道注意力模块的结构可参考第一多感受野特征提取模块以及第一通道注意力模块的描述，在此不再赘述。

在步骤S204中，根据结构特征图生成关键点高斯热图，根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。

在本发明实施例中，可使用一检测头生成关键点高斯热图，进而根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。具体地，检测头可由瓶颈模块（Bottleneck）和两个1×1卷积层组成，从而在减少计算量的同时，更加有效、直观地得到关键点高斯热图，进而根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。

作为示例地，图2E示出了本发明实施例的一具体卷积神经网络模型，该模型由前述的前处理网络、编码器、解码器以及检测头组成，各个部分的组成可参考前述描述，在此不再赘述。通过该模型对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图，进而对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图，对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图，根据结构特征图生成关键点高斯热图，最后根据关键点高斯热图获取二维手部关键点坐标，从而实现了二维手部姿态的准确估计。该模型的实验效果可参考图2F，图中上半部分示出了本实施例和其它网络模型（如，Ground Truth，LiteHRNet30）在背光昏暗条件下的手部姿态估计或识别效果，下半部分示出了本实施例和其它网络模型在光亮条件下的手部姿态估计或识别效果，可以得出，本实施例在背光昏暗条件下也能保持与光亮条件下相同的识别效果，对光照和肤色变化具有较高的鲁棒性，而其他轻量级姿态估计模型在昏暗条件下的识别性能则出现不同程度的下降。

实施例三：

图3示出了本发明实施例三提供的二维手部姿态估计装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

第一特征提取单元31，用于对输入的二维手部图像进行下采样和浅层特征提取，得到二维手部图像对应的浅层特征图；

第二特征提取单元32，用于对浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图；

第三特征提取单元33，用于对多尺度深度特征图进行上采样和特征融合，得到二维手部图像对应的结构特征图；以及

姿态估计单元34，用于根据结构特征图生成关键点高斯热图，根据关键点高斯热图获取二维手部关键点坐标，以实现二维手部的姿态估计。

在本发明实施例中，二维手部姿态估计装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考前述方法实施例的描述，在此不再赘述。

实施例四：

图4示出了本发明实施例四提供的图像处理设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的图像处理设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述各个二维手部姿态估计方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器40执行计算机程序42时实现上述装置实施例中各单元的功能，例如图3所示单元31至34的功能。

本发明实施例的图像处理设备4中处理器40执行计算机程序42时实现二维手部姿态估计方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述二维手部姿态估计方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图3所示单元31至34的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种二维手部姿态估计方法，其特征在于，所述方法包括下述步骤：

通过编码器对所述浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图，所述编码器包括第一特征图提取单元、第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元，所述第一特征图提取单元的输入为所述浅层特征图，所述第二特征图提取单元的输入为所述第一特征图提取单元的输出，所述第三特征图提取单元的输入为所述第二特征图提取单元的输出，所述第四特征图提取单元的输入为所述第三特征图提取单元的输出，所述第一特征图提取单元用于从所述浅层特征图中提取感受野不同的图像特征，并对提取的图像特征进行筛选；所述第一特征图提取单元包括第一多感受野特征提取模块以及第一通道注意力模块，其中：所述第一多感受野特征提取模块包括第五卷积层、第六卷积层、第一深度可分离卷积模块、第二深度可分离卷积模块、第三深度可分离卷积模块以及第四深度可分离卷积模块，所述第五卷积层的输入为所述浅层特征图，所述第五卷积层的输出作为所述第一深度可分离卷积模块和第二深度可分离卷积模块的输入，所述第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为所述第三深度可分离卷积模块和第四深度可分离卷积模块的输入，所述第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与所述第五卷积层的输出进行相加操作后得到相加结果，该相加结果经批归一化和激活函数处理后作为所述第六卷积层的输入，所述第六卷积层的输出作为所述第一多感受野特征提取模块的输出；所述第一通道注意力模块包括自适应平均池化层、第二深度卷积层以及全连接层，所述自适应平均池化层的输入为所述第一多感受野特征提取模块的输出，所述自适应平均池化层的输出经批归一化和激活函数处理后作为所述第二深度卷积层的输入，所述第二深度卷积层的输出作为所述全连接层的输入，所述全连接层的输出和所述第一多感受野特征提取模块的输出作乘法操作后作为所述第一通道注意力模块的输出；

2.如权利要求1所述的方法，其特征在于，对输入的二维手部图像进行下采样和浅层特征提取的步骤，包括：

对所述二维手部图像进行下采样，并增加所述二维手部图像的通道维度。

3.如权利要求2所述的方法，其特征在于，通过前处理网络对所述二维手部图像进行下采样，并增加所述二维手部图像的通道维度；

所述前处理网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一深度卷积层以及第一最大池化层，所述第一卷积层的输入为所述二维手部图像，所述第一卷积层的输出经批归一化和激活函数处理后作为所述第一深度卷积层的输入，所述第一深度卷积层的输出经批归一化和激活函数处理后作为所述第二卷积层和第一最大池化层的输入，所述第二卷积层的输出经批归一化和激活函数处理后作为所述第三卷积层的输入，所述第三卷积层的输出经批归一化和激活函数处理后和第一最大池化层的输出作级联，级联结果作为所述第四卷积层的输入，所述第四卷积层的输出作为所述前处理网络的输出。

4.如权利要求1所述的方法，其特征在于，通过解码器对所述多尺度深度特征图进行上采样和特征融合，所述解码器包括：

所述解码器包括第五特征图提取单元、第六特征图提取单元、第七特征图提取单元以及第八特征图提取单元，所述第五特征图提取单元的输入为所述第四特征图提取单元的输出，所述第六特征图提取单元的输入为所述第一特征图提取单元的输出经自适应池化后与所述第五特征图提取单元的输出的相加操作结果，所述第七特征图提取单元的输入为所述第六特征图提取单元的输出与所述第三特征图提取单元的输出的相加操作结果，所述第八特征图提取单元的输入为所述第七特征图提取单元的输出与所述第二特征图提取单元的输出的相加操作结果，所述第八特征图提取单元的输出和所述第一特征图提取单元的输出作加法操作后作为所述解码器的输出。

5.如权利要求4所述的方法，其特征在于，所述第八特征图提取单元包括第二多感受野特征提取模块以及第二通道注意力模块。

6.一种二维手部姿态估计装置，其特征在于，所述装置包括：

第二特征提取单元，用于通过编码器对所述浅层特征图进行多尺度的深层特征提取，得到多尺度深度特征图，所述编码器包括第一特征图提取单元、第二特征图提取单元、第三特征图提取单元以及第四特征图提取单元，所述第一特征图提取单元的输入为所述浅层特征图，所述第二特征图提取单元的输入为所述第一特征图提取单元的输出，所述第三特征图提取单元的输入为所述第二特征图提取单元的输出，所述第四特征图提取单元的输入为所述第三特征图提取单元的输出，所述第一特征图提取单元用于从所述浅层特征图中提取感受野不同的图像特征，并对提取的图像特征进行筛选；所述第一特征图提取单元包括第一多感受野特征提取模块以及第一通道注意力模块，其中：所述第一多感受野特征提取模块包括第五卷积层、第六卷积层、第一深度可分离卷积模块、第二深度可分离卷积模块、第三深度可分离卷积模块以及第四深度可分离卷积模块，所述第五卷积层的输入为所述浅层特征图，所述第五卷积层的输出作为所述第一深度可分离卷积模块和第二深度可分离卷积模块的输入，所述第一深度可分离卷积模块和第二深度可分离卷积模块的级联结果作为所述第三深度可分离卷积模块和第四深度可分离卷积模块的输入，所述第三深度可分离卷积模块和第四深度可分离卷积模块的级联结果与所述第五卷积层的输出进行相加操作后得到相加结果，该相加结果经批归一化和激活函数处理后作为所述第六卷积层的输入，所述第六卷积层的输出作为所述第一多感受野特征提取模块的输出；所述第一通道注意力模块包括自适应平均池化层、第二深度卷积层以及全连接层，所述自适应平均池化层的输入为所述第一多感受野特征提取模块的输出，所述自适应平均池化层的输出经批归一化和激活函数处理后作为所述第二深度卷积层的输入，所述第二深度卷积层的输出作为所述全连接层的输入，所述全连接层的输出和所述第一多感受野特征提取模块的输出作乘法操作后作为所述第一通道注意力模块的输出；

7.一种图像处理设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。