CN110210426B

CN110210426B - 基于注意力机制从单幅彩色图像进行手部姿态估计的方法

Info

Publication number: CN110210426B
Application number: CN201910489248.1A
Authority: CN
Inventors: 蒋杰; 王翔汉; 郭延明; 高盈盈; 康来; 魏迎梅; 雷军
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-06-08
Anticipated expiration: 2039-06-05
Also published as: CN110210426A

Abstract

本发明提供一种基于注意力机制从单幅彩色图像进行手部姿态估计的方法，包括以下步骤：通过图像获取装置获取具有手部状态的单幅彩色图像，从单幅彩色图像中裁剪出手部区域图像；根据手部区域图像提取2D关节热图；级联2D关节热图和手部区域图像并且根据注意力机制得到图像获取装置坐标系下的3D手部关节点位置和图像获取装置的旋转角；根据3D手部关节点位置和旋转角进行手部状态估计。本发明将2D关节点和RGB图像的特征在通道层面中相融合。将彩色图像和2D关节点特征级联后重新规划权重，合理规划和利用各个部分特征。本发明还引入通道注意力机制提高了不同类型特征图融合的效果。通过融合通道注意力机制对手部姿态作出准确的估计。

Description

基于注意力机制从单幅彩色图像进行手部姿态估计的方法

技术领域

本发明属于一种手部姿态估计方法，具体是涉及到一种基于注意力机制从单幅彩色图像进行手部姿态估计的方法。

背景技术

手势估计在计算机科学中起着重要作用，目的是让电脑通过算法理解人类的手势。基于计算机视觉的手势估计使人们能够与机器更自然地进行通信，其优点是受环境影响较小，用户可以随时进行人机交互(Human-Computer Interaction，HCI)，并且对用户约束较小，能够让计算机及时准确地了解人发出的指令，无需任何机械的辅助。手势在人机交互过程中有及时、生动、直观、灵活和形象的特点，能够无声地完成人机交互，成功打破了现实和虚拟之间的鸿沟。

随着计算机视觉的发展，手势估计不再依赖于传统的可穿戴设备，而是直接从图像进行识别。基于计算机视觉的手势估计主要基于三类：深度图像，多目视觉彩色图像和单幅彩色图像。Markus等人提出了一种完全基于卷积神经网络的先初步定位再优化的方法，能够经过多张有标签的深度图像训练后在单张深度图像上准确的定位出手部节点位置的方法HandDeep。Ayan等人提出了利用补全矩阵(Matrix Completion)的方法进行加速，能够不依赖GPU应用于大规模实时手势姿态估计。Wan等人提出了一种适用于密集像素方式，通过非参数均值平移变量来聚合局部估计，明确地强制估计的3D关节坐标与2D和3D局部估计一致。该方法提供了比先前的现有技术和各种基线更好的2D检测和3D回归之间的融合方案。Aisha等人提出一种在条件随机场(CRF)的辅助下进行的第一人称视角下和存在遮挡情况下进行手势分割的方法，该方法第一次提出了以自我为中心的视角下和有遮挡的情况下进行手的分割和检测，通过提高分割的准确度达到提高手势估计准确度的目的。但是该方法依然没有解决遮挡物体或者背景物体与手部颜色相似的问题。Seungryul Baek提出了一种利用CycleGAN的思想扩充数据集的方法，该方法通过训练数据集，能够主动生成骨骼节点数据，在CycleGAN训练之后，通过生成对抗网络还原成深度图像。在一定程度上解决了数据集中缺少部分视角的训练数据的问题，提出问题的方法较为巧妙，用了较为复杂的循环式关系，也造成了训练过程比较繁琐、网络复杂的问题。Wan等人提出了一种基于隐空间变换的深度图像与骨骼图像匹配的方法。该方法的精确度虽然一般，但是该方法能够做到在CPU上90FPS的速度。该方法将深度图像与骨骼图映射到隐空间中，将成对的深度图像和骨骼图像映射到隐空间中同一位置，通过反卷积从隐空间还原原始图像。因此，即使基于深度图像的姿态估计方法已经日趋成熟，但是深度采集设备对用户有较大的约束，对光照、抖动和距离更加敏感，并且成本更高。很多工作通过深度图像估计人的手部姿态，虽然取得了比较好的效果，但是在图像获取上不如彩色图像方便，影响了在实际方面的应用。由于缺少深度信息，利用彩色图像估计手部姿态起步较晚，尤其是利用单幅彩色图像的手部姿态估计。C.Zimmerman实现了基于深度学习的通过单幅彩色图像的三维手部姿态估计，在不依靠任何特殊设备的情况下，利用深度网络的能力，从数据中学习合理的先验，来解决模糊问题。提出了一种可行的从二维关节点导出三维关节点的网络框架。该方法包含三个深度网络：第一个网络进行手部分割以定位图像中的手，在第一个网络的输出中，第二个网络通过CPM的方法估计二维关节点热图，第三个网络实现了从二维关节点导出三维关节点的步骤。该方法提出正则坐标系，将手部姿势在正则坐标系下的位置看成在相机坐标系下的旋转，通过神经网络计算手在正则坐标系下的位置和旋转角来还原三维关节点位置。该方法作为第一个实现了用单幅彩色图片进行三维手部姿态估计。之后，Spur利用变分编码器将图像和关节信息映射到隐空间，通过最小化对应图像和关节在隐空间的距离来提高准确度。Dibra利用弱监督学习的方法实现手势估计，这种方法不直接通过3D手部姿态进行监督，而是利用GAN将估计的3D手部姿态生成深度图像，利用深度图像进行监督学习。Muller通过GAN补全被遮挡的手部区域，能够在一定程度上解决手部区域遮挡问题。基于彩色图像的手部姿态能够使使用者脱离深度设备的束缚，更自如地通过无处不在的普通摄像头进行人机交互。张等人通过多目视觉进行手部进行追踪和姿态估计，虽然实现了利用彩色图像进行手部姿态估计，但是由于多目视觉的要求，其对用户也有一定程度的约束。基于多目视觉的手势估计实现了基于彩色图像的手势估计，但是仍然面临对用户约束较大的问题。目前基于单幅彩色图像的姿态估计方法大多是在二维层面上进行的关节点检测。虽然有些人体姿态估计的方法能够回归出三维姿态，但是由于手部有比人体更加严重的自遮挡问题，并且人体是对称的，而每个手内部是不对称的，使得手部姿态估计的方法有别于人体姿态估计的方法。

发明内容

本发明的目的在于提供一种基于注意力机制从单幅彩色图像进行手部姿态估计的方法，以解决现有的手部状态估计方法中存在技术问题。

本发明的内容包括提供一种基于注意力机制从单幅彩色图像进行手部姿态估计的方法，包括以下步骤：

通过图像获取装置获取具有手部状态的单幅彩色图像，从单幅彩色图像中裁剪出手部区域图像；

根据手部区域图像提取2D关节热图；

级联2D关节热图和手部区域图像并且根据注意力机制得到图像获取装置坐标系下的3D手部关节点位置和图像获取装置的旋转角；

根据相机坐标系下的3D手部关节点位置和旋转角手部姿态估计。

优选地，从单幅彩色图像中裁剪出手部区域图像的方法为采用HandSegNet进行裁剪。

优选地，利用PoseNet从手部区域图像提取2D关节热图。

优选地，级联操作包括：

F_1j＝I_mask*C_1j

F_2j＝p_J*C_2j

其中，F_1j和F_2j是卷积操作输出的结果，*表示C_1j和C_2j对图像进行的卷积操作，

表示对F_1j和F_2j进行级联操作，I_mask为手部区域图像，p_J为2D关节热图，C_1j和C_2j为四个并行的卷积操作，j＝1,2。

优选地，卷积操作均包含6个卷积层和ReLU线性激活函数。但不进行参数共享。

优选地，注意力机制包括：

将4×4×256的F_k挤压成4×4×16来计算ReLU线性函数激活的描述符L_k，其中L_k的第i个统计量的计算方法为:

对L_k进行激励操作，使其维度增加，其公式为:

R_k＝CH_e(L_k,U)＝σ(g(L_k,U))＝σ(U₂δ(U₁L_k))

得到注意力机制的输出O_k：

O_k＝F_k·R_k

其中，δ表示ReLU线性激活函数，

其中，i∈[1,256]，h为全连接层U₁的维数，U₁、U₂代表全连接层。f_ki为F_k的第i个通道的特征图，CH_s表示挤压操作，挤压后的特征图L_k传入全连接层U₁中，将其维数限制为h，通过激励操作CH_e还原维度，σ为sigmoid函数。

优选地，得到图像获取装置坐标系下的3D手部关节点位置和图像获取装置的旋转角遵循：

W^camera＝O₁*FC₁

R＝O₂*FC₂。

优选地，根据3D手部关节点位置和旋转角预测手部状态遵循：

W^world＝W^cameraR。

本发明的有益效果是：

本发明将2D关节点和RGB图像的特征在通道层面中相融合。将彩色图像和2D关节点特征级联后重新规划权重，合理规划和利用各个部分特征。本发明还引入通道注意力机制提高了不同类型特征图融合的效果。通过融合通道注意力机制对手部姿态作出准确的估计。

附图说明

附图1为本发明基于注意力机制从单幅彩色图像进行手部姿态估计的方法所需实现的目的示意图；

图2是本发明的融合通道注意力机制结构框架图；

图3是Zimmermann在ICCV会议中提出的通过手部图像进行手势估计的网络结构图；

图4是本发明基于注意力机制从单幅彩色图像进行手部估计的网络结构图；

图5是本发明优选实施例中在RHD数据集上的2D关节点定位AUC曲线图；

图6是本发明优选实施例中RHD数据集从GT关节热图和GT分割手部图像估计3D手势姿态示意图；

图7是本发明优选实施例中在STB上从GT关节点和从GT GRB图像估计3D手部姿态AUC曲线图；

图8是本发明优选实施例中RHD数据集上从GT分割和RGB图像估计3D手部姿态AUC曲线图。

具体实施方式

实施例1：

如附图1所示，本发明的任务为输入一张包含人手部的图像，通过端到端的神经网络，得到21个手部节点3D姿态从而估计手部姿态。本实施例中用J表示不同的手部关节点，手部有21个关节点，令J＝{1,21}。W＝{w_J＝(x,y,z),i.e.,J∈[1,21]}表示手部关节点的3D坐标。输入的RGB图像为I∈R^w×h×3，分割好的手部图像为

划分好的手部图像是一个略比手部区域大而比输入图像小的包含手部的图像。R＝(R_x,R_y,R_z)代表相机坐标系相对世界坐标系的旋转角。(u,v)是每个手部关节点的2D位置，我们在2D关节的上加入高斯噪声，得到含高斯噪声的热图，每个关节点对应一张热图，则有21张热图P＝p_J(u,v),i.e.,J∈[1,21]。利用高斯热图能够将定位问题转化为类似分割问题，更适合神经网络完成任务。附图2展示了我们的方法的流程，整个流程分为三步，先将整幅包含手部的RGB图像(a)通过HandSegnet裁剪出手部区域图像(b)，再根据手部区域图像估计关节热图(c)，最后在PosePrior里利用裁剪出的手部区域图像和关节热图估计3D坐标(d)。

Zimmermann提出的方法整个任务被分为三个阶段，首先，HandSegNet从原始图像

中分割出包含手部区域的图像I_mask。之后利用一个类似于CPM的方法PoseNet在I_mask上定位2D手部关节点，得到关节点热图p_J(u,v)。最后，通过PosePrior网络估计各个关节点的3D坐标。附图3展示了Zimmermann提出的方法的网络结构,C代表六个卷积操作，F和O表示数据，FC表示全连接层，整个网络由预测相机坐标系下的手部姿态的camera-network和预测旋转角的rotation-network组成，两个网络的结构相同，只是输出的维度不同。3D坐标W被分成世界坐标系下的坐标W^world和相机坐标系下的坐标W^camera。相机的旋转角为R＝(R_x,R_y,R_z)，两种坐标系的转换:

W^world＝W^cameraR。

在Zimmermann提出的方法中，RGB图像中隐含的空间信息被忽略了，这对手势估计的准确度有很大影响。RGB图像包含一些关节点热图中没有的纹理特征和隐含的空间信息。纹理特征由周围空间和像素的灰度分布表示，它具有旋转不变性和强大的抗噪声能力，能够在包含多个像素的区域中进行统计计算，而不是基于单个像素的特征。在模式匹配中，此区域特征具有更大的优势，不会由于局部偏差而不能成功匹配。另外，局部纹理信息和全局纹理信息在RGB图像中被不同程度的表达。因此，当与关节点热图共同估计3D手部姿态的时候，来自RGB图像的补充信息能够提供很强的指导作用。

参见附图4，本实施例首先融合手部区域图像和2D关节热图，以便在CFAM(融合通道注意力机制，Channel Fusion Attention Mechanism)中能充分利用RGB图像中包含的隐含空间信息。在网络的前段，有四个并行的卷积操作(C_ij,i,j＝1,2)，这些卷积操作结构相同，都包含6个卷积层和ReLU线性激活函数。但是不进行参数共享。将手部区域图像I_mask作为C_1j的输入，将关节热图p_J作为C_2j的输入。将数据输入进C之后，得到对应的数据F。C₁₁的输出F₁₁和C₂₁的输出F₂₁进行级联得到F₁来估计相机坐标系下的3D手部关节点位置，C₁₂的输出F₁₂和C₂₂的输出F₂₂进行级联得到F₂来估计相机的旋转角。该过程如下式所示:

F_1j＝I_mask*C_1j

F_2j＝p_J*C_2j

F_ij是卷积操作输出的结果，*表示C_ij对图像进行的卷积操作.

表示对F_1j和F_2j进行级联操作。该方法最大限度地利用了I_mask中隐含的空间信息和纹理信息，在3D手势估计的过程中解决了上下文不足的问题。网络获得更多的空间和上下文信息。

在全连接层处理两类特征图之前，加入注意力机制。注意力机制被广泛地应用于计算机视觉的任务中，例如图像分类、图像分割和目标检测。在多个计算机视觉的任务中，注意力机制被证明是有效的。本实施例在卷积层后加入通道注意力模块。在模型中，C输出的特征图维度是4×4×256。首先将特征图F_k输入到挤压模块。在4×4的空间维度上进行全局平均池化来描述每个通道的特征。通过将空间维度4×4收缩成F_k来计算统计量L_k，其中L_k的第i(i∈[1,256])个统计量的计算方法为:

这种方法能够让通道层面的特征受全局层面影响，不同的全局信息都能互相利用。之后进行激励操作，其公式为:

R_k＝CH_e(L_k,U)＝σ(g(L_k,U))＝σ(U₂δ(U₁L_k))。

其中δ表示ReLU激活函数，

为了限制模型的复杂度和提高泛化效果，我们首先将由ReLU激活函数的描述符L_k传入全连接层U₁中，将其维数限制为h。然后为了还原维数，用Sigmoid激活函数激活全连接层U₂。在扩展操作后，得到用于描述每个特征图F_k的权重R_k。最后，从C获得的特征图F_k通过通道层面的乘法(用·表示)，F_k和R_k相乘得到通道注意力模块的输出O_k：

O_k＝F_k·R_k。

本实施例的CFAM模块由Front-end和Middle-end构成。

通过上面的模块，网络能够对不同的特征给予相应的权重，学习使用全局信息对特征进行重新校准，能够选择性地强调有用的特征并抑制无用的特征。这是一种类似于门控制的机制，但是把门的控制改为权重控制，通过权重计算的方式对信道关系进行建模。通道注意力模块输出的特征图O_k与判断左右手的信息相连接，在两个结构相同的全连接层中逐步降维。然后将这个平行的网络流程送到最后的全连接层中，分别估计相机的坐标W^camera和旋转角R，最后根据这两个参数计算世界坐标系下的坐标W^world。过程如下公式所示，其中FC_k代表全连接操作：

W^camera＝O₁*FC₁

R＝O₂*FC₂。

最后通过W^world＝W^cameraR实现手部状态的估计。

实施例2：

本实施例通过实验验证CFAM，以TensorFlow为基础在1080ti上运行，并将训练的批量大小设置为8。在训练过程中，当loss值多次不变小的时候停止训练并采用Adam训练策略。本实施例将学习率设置为(1e-5,1e-6,1e-7)，学习率在30000步和60000步后变化。本实施例在关节热图检测和手势估计方面进行改进和测试。在表格中，有些对wrist预测的误差为0，是因为保留了两位小数，而这些误差小于0.01，被四舍五入为0。这些误差为0是因为对wrist的预测较为准确，误差小于0.01。

本实施例基于有标签的单张RGB图像。常用的基于深度图像的手势估计数据集MSRA和NYU不适用本实施例。因此，本实施例选择了两个公开数据集：STB(Stereo handTracking Benchmar)数据集和RHD(Rendered hand dataset)数据集，每个数据集都有包含人手部的RGB图像和对应的3D笛卡尔坐标。在每个数据集中，要估计的手部关节点数为21，包括每个手指上的关节点和掌心，其中每个手指有4个关节点。每个数据集的每个样本都包含了样本中包含RGB图像、分割好的手部区域图像、相机的旋转角和每个关节点的2D、3Dground-truth笛卡尔坐标。RHD数据集是由20个不同的人做39个不同的动作的生成数据集，训练集有41258个样本，测试集有2728个样本，所有的图像大小均为320×320。STB数据集是一个在真实世界中采集的数据集，由两个摄像机从两个不同的方向进行采集，在六个不同的背景下进行采集，一共有30000张训练图片和6000张测试图像，采集到的图像大小为640×480。

本实施例将误差(Error)和AUC(area under the curve)作为实验结果的评价指标。误差的计算方法为：

E_J＝|gt_J-pre_J|。

其中gt_J是关节点J的ground-truth坐标值，pre_J是关节点J的估计坐标，误差分为误差均值(Mean Error)和误差中值(Media Error)。AUC值的计算方法基于PCK(percentageof correct keypoints)：

AUC_J＝∫PCK_J。

为了计算平局误差和平均AUC值，本实施例将21个关节点的结果进行平均。为了方便表示结果，用wrist表示手掌，Thumb，Index，Middle，Ring和Little表示五个手指，使用GT代表ground-truth，即数据集中的标签。

3D手势识别的准确度很大程度上取决于2D关节点定位，如果能提高关节热图估计的准确度，能够有效提高3D手势识别的准确度。本实施例通过改进CPM方法来提高定位准确度。数据集中提供了原始的RGB图像和分割好手部区域的RGB图像。在训练过程中，将原始RGB图像缩放成240×320输入HandSegNet中分割手部区域，将分割好的RGB图像缩放成256×256来定位手部关节点。由于通道注意力机制能够获得更好的特征图，本实施例在CPM方法中加入通道注意力机制以提高关节点定位的准确度。在实验结果中，我们用CPMAtt代表在CPM中加入通道注意力机制的方法。CPMAtt_gt和CPM_gt表示在分割好的手部区域图像上测试，CPMAtt和CPM表示在原始图像中进行测试。通过加入通道注意力机制，CPMAtt效果比CPM更好，甚至在HandSegNet分割的图片中，AUC值比CPM_gt更高。无论是CPMAtt_gt还是CPM_gt，效果都有提升，从下表1和表2以及附图5中可以看出AUC值提升了近9个百分点，平均误差降低了3个像素。

表1在RHD数据集上的2D关节点定位的结果均值

表2在RHD数据集上2D关节定位结果

为了更好地再之前的基础上进行3D手部姿态估计，我们提出了CFAM模块，CFAM模块中包括加入为了注意力机制和融合RGB图像和2D热图信息。为了证明构架设计的每一步都是有效的，下面采用三种不同的策略进行比较：

策略1:加入通道注意力机制；

策略2:加入RGB图像与2D关节热图相融合；

策略3:完整的CFAM模块。

表3 RHD数据集中从GT关节热图和GT分割的RGB图像估计3D手势姿态

表4 RHD数据集中对每个手指从GT关节热图和GT分割的RGB图像3D姿态估计

表3和附图6展示了在RHD数据集上的效果，表4显示了在每个手指上的误差和AUC值。注意力机制能挺高特征提取效果，因此策略1在Zimmermann提出的方法的基础上AUC值提升了1％。在策略2中，通过加入RGB图像辅助提取特征，效果有了更好的提高。CFAM(策略3)很好地联合了RGB图像和2D关节热图，在策略2的基础上将误差减小了多于1mm，在原来的基础上减小了多于4mm。策略3在策略2和策略1在Zimmermann提出的方法上都有提升，提升的主要原因都是加入了通道注意力机制，但是策略3的提升比策略1的提升幅度更大，并且是在一个更好的结果上提升的准确度，当准确度较高时提升准确度更加困难，说明CFAM中的注意力机制是有效的，其起到的作用不仅是通道注意力，还能更好地融合RGB图像和2D热图的特征，才使结果有了比较大的提升。通过不同方法的AUC曲线，策略3(CFAM)效果最好，因此接下来在CFAM的方法上进行测试。

表5 STB数据集从GT关节点估计3D手部姿态

表6 STB数据集从GT关节热图估计每个手指3D姿态

表5和表6展示了CFAM方法在STB数据集上的试验结果。CFAM方法使在误差和AUC上优于Zimmermann提出的方法，并且在大部分手部关节点上，CFAM方法的准确度比Zimmermann提出的方法好。

在2D关节热图和3D手部姿态估计上，结果都比原来的好。为了证明在整个流程的可行性，从单张RGB图像估计3D手部姿态。分别从用HandSegNet分割的原始手部图像和GT分割的图像上进行试验。RGB代表HandSegNet分割的图像，GT RGB代表GT上分割的图像。用Ours代表用CPMAtt定位2D关节点并用CFAM估计3D手部姿态的方法。

表7从GT RGB图像估计3D手部姿态

表8从GT RGB图像估计3D手部姿态平均误差

表9从GT RGB图像估计3D手部姿态中值误差

表10从GT RGB图像估计3D手部姿态AUC值(0-50mm)

本实施例训练过程中用的是GT分割的RGB图像和GT关节热图，而最终的任务是从RGB图像到3D手部姿态。由于图像定位的关节点有一定误差，从误差的关节点进行手势估计的过程中存在误差加剧的可能。如表7-表10以及附图7所示，在GT分割的图像上进行试验，从整体上来比Zimmermann提出的方法准确度更高，在各项平均值上我们的方法大多优于Zimmermann提出的方法。大部分关节点上，取得了更高的AUC值和较低的平均误差。证明了本发明方法能有效用于GT分割的图像。图7(a)为在STB上从GT关节点估计3D手部姿态AUC曲线，图7(b)为在STB上从GT GRB图像估计3D手部姿态AUC曲线。

表11在RHD数据集上从RGB图像估计手部姿态

表12在RHD数据集上从RGB图像估计手部姿态的平均误差

用HandSegNet分割的图像也会存在误差，因此在HandSegNet分割的图像上进行试验可以证明本发明方法对误差不敏感。如表11和表12以及附图8所示，在HandSegNet分割的RGB图像上，本发明方法的效果仍优于Zimmermann提出的方法，证明本发明的方法可以从包含手部的图像进行端到端的估计，而不一定需要分割好的图像。很多手部姿态估计方法基于分割好的手部图像，说明其对分割过程中的误差较为敏感，本发明的方法能够在存在分割误差的情况下较为准确的估计手部姿态，能够更好地用于追踪和未分割的手部图像。附图8(a)为在RHD数据集上从GT分割估计3D手部姿态AUC曲线(20-50mm)，图8(b)为在RHD数据集上从RGB图像估计3D手部姿态AUC曲线(20-50mm)。

为了证明本发明方法的先进性，本实施例还与其他方法进行了比较，由于大部分方法都是在STB数据集上进行的，并且都是在分割好的手部图像上进行，因此，本实施例只在STB数据集的分割好的图像上进行了比较。表13显示，在所有方法中，本发明方法获得了最高的AUC值。CVPR2018 workshop的方法通过将骨骼节点还原成深度图像进行弱监督学习，能够通过弱监督学习学到部分隐含的深度信息，但是其学习到的深度信息仍然少于原RGB图像中隐含的深度信息。Zimmermann提出的方法，WACV和CVPR的方法只用到2D信息还原3D位置，遗失了部分信息。CVPR2018的方法通过GAN将被遮挡的手部区域还原出来，但是由于GAN还原的图片本身存在一定的误差，中间误差传递的过程中导致了误差的扩大化。本实施例利用了本发明提出的CFAM，兼顾了手部2D热图和RGB图像中包含的信息，得到的AUC值最优。

表13在STB数据集上比较各方法的AUC

上述表格中的Panteleris为其在WACV发表的论文中的方法。Spur为其在CVPR中发表的论文中提出的方法。Zimmermann均为Zimmermann在ICCV会议中发表的论文里提出的方法。Dibra为其在CVPR workshop中发表的论文提出的方法。为Mueller为其在2018年在CVPR会议中发表的论文提出的方法。

本实施例附图中RGB imgage为RGB图片，3D keypoint coordinate为3D手部关节点坐标，CNN为卷积神经网络，Cropped hand为裁剪出的手部姿态图片，2D score map为2D关节热图，threshold为阈值，pix为图片像素单位。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力机制从单幅彩色图像进行手部姿态估计的方法，其特征是，包括以下步骤：

通过图像获取装置获取具有手部状态的单幅彩色图像，从所述单幅彩色图像中裁剪出手部区域图像；

根据所述手部区域图像提取2D关节热图；

级联所述2D关节热图和所述手部区域图像并且根据注意力机制得到所述图像获取装置坐标系下的3D手部关节点位置和所述图像获取装置的旋转角，所述级联操作包括：

F_lj＝I_mask*C_1j

F_2j＝p_J*C_2j

表示对F_1j和F_2j进行级联操作，I_mask为所述手部区域图像，p_J为所述2D关节热图，C_1j和C_2j为四个并行的卷积操作，k＝j＝1，2；所述注意力机制包括：将4×4×256的F_k挤压成4×4×16来计算ReLU线性函数激活的描述符L_k，其中L_k的第i个统计量的计算方法为：

对L_k进行激励操作，使其维度增加，其公式为：

R_k＝CH_e(L_k，U)＝σ(U₂δ(U₁L_k))

得到注意力机制的输出O_k：

O_k＝F_k·R_k

其中，δ表示ReLU线性激活函数，

其中，i∈[1，256]，h为全连接层U₁的维数，U₁、U₂代表全连接层；f_ki为F_k的第i个通道的特征图，CH_s表示挤压操作，挤压后的特征图L_k传入全连接层U₁中，将其维数限制为h，通过激励操作CH_e还原维度，σ为sigmoid函数；

根据所述3D手部关节点位置和所述旋转角进行手部姿态估计。

2.如权利要求1所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法，其特征是，从所述单幅彩色图像中裁剪出手部区域图像的方法为采用HandSegNet进行裁剪。

3.如权利要求1所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法，其特征是，利用PoseNet从所述手部区域图像提取2D关节热图。

4.如权利要求1所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法，其特征是，所述卷积操作均包含6个卷积层和ReLU线性激活函数，但不进行参数共享。

5.如权利要求4所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法，其特征是，得到所述图像获取装置坐标系下的3D手部关节点位置和所述图像获取装置的旋转角遵循：

W^camera＝O₁*FC₁

R＝O₂*FC₂

其中，FC₁和FC₂分别代表不同全连接层的全连接操作，R为相机的旋转角。

6.如权利要求4所述的基于注意力机制从单幅彩色图像进行手部姿态估计的方法，其特征是，根据所述3D手部关节点位置和所述旋转角预测手部状态遵循：

W^world＝W^cameraR

其中，W^world为3D坐标W在世界坐标系下的坐标，W^camera为3D坐标W在相机坐标系下的坐标，R为相机的旋转角。