CN117953545A

CN117953545A - 基于彩色图像的三维手部姿态估计方法、装置及处理设备

Info

Publication number: CN117953545A
Application number: CN202410353666.9A
Authority: CN
Inventors: 赖重远; 熊辉; 周风淳; 吴显峰; 白亚靖; 吴显祖; 兰慧; 周静; 孙金山
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-04-30
Anticipated expiration: 2044-03-27
Also published as: CN117953545B

Abstract

本申请提供了基于彩色图像的三维手部姿态估计方法、装置及处理设备，通过设计一种更为新颖的、以彩色图像为输入的三维手部姿态估计网络，实现高精度且高效的处理效果，可以满足高质量的三维手部姿态估计需求。

Description

基于彩色图像的三维手部姿态估计方法、装置及处理设备

技术领域

本申请涉及用户姿态估计领域，具体涉及基于彩色图像的三维手部姿态估计方法、装置及处理设备。

背景技术

手部姿态估计是计算机视觉领域的一项基础任务，旨在通过分析图像中的手部信息，推断手部的关节点坐标。这一技术的发展涵盖了人机交互、虚拟现实和手势识别等多个领域。常见的手部姿态估计方法包括彩色图像、深度图像、点云以及多种数据混合使用等，其中，虽然深度图像能够提供对物体形状的直观感知，点云能够更全面地刻画物体表面的细节和空间结构，但在现实场景中，采集这些数据涉及到特殊的设备还有相关复杂技术，并非轻而易举。相较于深度图和点云，彩色图像在日常生活中更容易获取，但由于彩色图像缺少深度信息、存在遮挡问题等多种环境因素影响，使得如何有效地利用彩色图像进行三维姿态估计成为一个具有一定挑战性的问题。

针对以上问题，研究者们提出了不同的估计方法，主要可概括为生成式、判别式和混合式三种。（1）第一类是生成式方法。生成式手部姿态估计方法采用预定义的手部三维模型（如三维网格模型），输入的手部数据通过搜索匹配，最大化相似度目标函数以获得最优拟合误差的手部三维模型。MANO模型是这类方法的经典案例，通过最小化目标函数，优化模型的形状参数和姿态参数，得到一个合理且准确的手部姿态。这类方法需要设计大量模型，难以处理遮挡情形，且模型在建立过程中还存在物理上不可能出现的自碰撞、穿透等问题；（2）第二类是判别式方法。判别式方法无需预先生成手部模型或构建复杂的代价函数，而是直接从输入的手部数据中提取代表性特征信息，并学习这些特征信息与姿态空间的映射关系。早期的判别式方法主要基于机器学习技术对手部形状进行分解，再利用优化算法估计每个部件的中心作为手部关键点，形成手部骨架。后续的方法利用神经网络来对输入数据进行特征学习并姿态估计。这类方法，尤其是基于深度学习的判别式方法，通常需要大量的数据进行训练，且在实际应用中，基于深度学习的方法往往采用轻量级网络作为骨干结构，因为复杂的网络结构通常伴随着庞大的计算量，难以在精度和速率之间取得平衡；（3）第三类是混合式方法。混合式方法将判别式方法和生成式方法融合到一个框架中，将判别式方法的输出作为生成式方法的初始化，由于前者提供了良好的初始化，后者更容易通过优化求解获得更好的效果。个别方法采用基于部件的姿势检索策略，将判别式和生成式方法结合，在检测步骤中，随机决策森林将像素点划分为手的各个部件，在优化步骤中，利用目标函数将检测到的部件标签和基于深度的高斯混合表示相结合，估计出适当的位姿。混合式方法整合了上述两种方法的优点，通常能够获得更好的效果，但在处理一些复杂场景如手与手的交互、手与物体的交互时效果较差。

当面向彩色图像时，基于深度学习的三维姿态估计方法的流程大致涉及多个步骤：首先输入真实的彩色图像，然后对彩色图像进行预处理，包括调整图像尺寸和去除噪声等操作，接着进行手部目标检测，这一步骤在部分姿态估计方法中被应用，属于自上而下的姿态估计方法，之后对手部关键点的二维位置进行预测，以便对三维姿态进行估计，或者直接进行三维姿态估计，最后可能涉及去除异常值、姿态调整等后续处理步骤。

然而本申请发明人发现，在面向彩色图像的三维手部姿态估计任务中，存在着许多难题和挑战：（1）精度问题，由于深度信息缺失，因此不仅需要在二维图像上检测出手部关节点的平面位置，还要估计出关节点的深度坐标，从而引入了更多的估计误差；（2）遮挡问题，在实际的检测中可能存在物体的遮挡或者是自遮挡，如双手抱拳时会有一部分关节点被遮挡；（3）效率问题，为提升精度往往会引入Transformer等复杂度较高的注意力计算模块，进而影响了三维手部姿态的估计效率。

也就是说，现有技术中基于彩色图像的三维手部姿态估计方法，难以取得高精度且高效的处理效果。

发明内容

第一方面，本申请提供了一种基于彩色图像的三维手部姿态估计方法，方法包括：

获取通过拍摄得到的、含用户手部的目标彩色图像；

将目标彩色图像输入到训练好的三维手部姿态估计网络，三维手部姿态估计网络包括特征提取部分和姿态估计部分，特征提取部分用于从输入的彩色图像中提取不同尺度的特征图，并融合不同尺度的特征图形成多尺度融合特征，姿态估计部分用于对多尺度融合特征一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络获取左手和右手假设下的三维热力图，接着搜索三维热力图中的关键点，然后通过坐标系变换得到关键点对应的手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果；

获取三维手部姿态估计网络输出的三维手部姿态估计结果。

第二方面，本申请提供了一种基于彩色图像的三维手部姿态估计装置，装置包括：

图像获取单元，获取通过拍摄得到的、含用户手部的目标彩色图像；

估计处理单元，用于将目标彩色图像输入到训练好的三维手部姿态估计网络，三维手部姿态估计网络包括特征提取部分和姿态估计部分，特征提取部分用于从输入的彩色图像中提取不同尺度的特征图，并融合不同尺度的特征图形成多尺度融合特征，姿态估计部分用于对多尺度融合特征一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络获取左手和右手假设下的三维热力图，接着搜索三维热力图中的关键点，然后通过坐标系变换得到关键点对应的手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果；

结果获取单元，用于获取三维手部姿态估计网络输出的三维手部姿态估计结果。

第三方面，本申请提供了一种处理设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

针对面向彩色图像的三维手部姿态估计任务，本申请设计一种更为新颖的、以彩色图像为输入的三维手部姿态估计网络，其具体包括特征提取部分和姿态估计部分，特征提取部分用于对输入的彩色图像数据提取不同尺度的特征图，并融合不同尺度的特征图形成多尺度融合特征，如此可以更加充分地利用不同尺度下的特征信息，且相比于原骨干网络，如ResNet50，新增的多尺度特征图融合非常简单，几乎未额外增加计算量，对计算效率造成的影响可忽略不计，姿态估计部分用于对多尺度融合特征卷积后一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络来获得三维热力图，接着搜索三维热力图的关键点，再进行坐标系变换得到手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果，如此引入融合注意力，能更好地学习到数据中的空间信息，减小因遮挡问题造成的精度损失，且相比于常用的高复杂度注意力计算模块，如Transformer，该融合注意力非常简单，未额外增加三维姿态估计网络的计算复杂度，对计算效率造成的影响极其有限，从而基于特征提取部分和姿态估计部分均实现高精度且高效的处理效果，可以满足高质量的三维手部姿态估计需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于彩色图像的三维手部姿态估计方法的一种流程示意图；

图2为本申请三维手部姿态估计网络的一种整体架构示意图；

图3为本申请特征提取部分的一种架构示意图；

图4为本申请三维姿态估计网络的一种架构示意图；

图5为本申请手性估计的一种处理架构示意图；

图6为本申请融合注意力的一种处理架构示意图；

图7为本申请引入融合注意力的特征学习模块的一种架构示意图；

图8为本申请基于彩色图像的三维手部姿态估计装置的一种结构示意图；

图9为本申请处理设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的基于彩色图像的三维手部姿态估计方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的基于彩色图像的三维手部姿态估计方法、装置以及计算机可读存储介质，可应用于处理设备，通过设计一种更为新颖的、以彩色图像为输入的三维手部姿态估计网络，实现高精度且高效的处理效果，可以满足高质量的三维手部姿态估计需求。

本申请提及的基于彩色图像的三维手部姿态估计方法，其执行主体可以为基于彩色图像的三维手部姿态估计装置，或者集成了该基于彩色图像的三维手部姿态估计装置的服务器、物理主机或者用户设备（User Equipment，UE）等不同类型的处理设备。其中，基于彩色图像的三维手部姿态估计装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理（Personal Digital Assistant，PDA）等终端设备，处理设备可以通过设备集群的方式设置。

可以理解的是，进行手部姿态估计的设备，在具体应用中是较为灵活的，例如可以是专门在现场提供手部姿态估计服务并且具备摄像头的PDA，又例如可以是只负责进行数据处理并未配置摄像头的服务器或者物理主机，又例如包括现场摄像头和云端服务器的设备集群，如此，执行本申请基于彩色图像的三维手部姿态估计方法的处理设备，或者说搭载了本申请基于彩色图像的三维手部姿态估计方法的应用服务的处理设备，其具体设备类型可以随实际情况进行灵活调整，本申请并不做具体限定。

下面，开始介绍本申请提供的基于彩色图像的三维手部姿态估计方法。

首先，参阅图1，图1示出了本申请基于彩色图像的三维手部姿态估计方法的一种流程示意图，本申请提供的基于彩色图像的三维手部姿态估计方法，具体可包括如下步骤S101至步骤S103：

步骤S101，获取通过拍摄得到的、含用户手部的目标彩色图像；

容易理解，本申请面对的是彩色图像的三维手部姿态估计任务，对此，前期需要对含用户手部的场景进行图像采集，其中，所采集的图像具体为具有颜色信息的彩色图像，例如可以通过RGB相机来进行图像采集。

其中，为方便说明，将当前获取的用来进行三维手部姿态估计的彩色图像，记为目标彩色图像。

对于目标彩色图像的获取处理，可以是现成图像的获取处理，例如调取或者接收目标彩色图像，或者，也可以是通过摄像头的实时采集处理，这涉及到摄像头的联动，其中，摄像头既可以是本地设备的，也可以是设备外部的。

步骤S102，将目标彩色图像输入到训练好的三维手部姿态估计网络，三维手部姿态估计网络包括特征提取部分和姿态估计部分，特征提取部分用于从输入的彩色图像中提取不同尺度的特征图，并融合不同尺度的特征图形成多尺度融合特征，姿态估计部分用于对多尺度融合特征一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络获取左手和右手假设下的三维热力图，接着搜索三维热力图中的关键点，然后通过坐标系变换得到关键点对应的手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果；

可以理解，面向彩色图像的三维手部姿态估计任务，本申请设计一种更为新颖的、以彩色图像为输入的三维手部姿态估计网络（卷积神经网络），其涉及到特征提取部分和姿态估计部分两大部分。

对于特征提取部分，其涉及了不同尺度的特征提取处理，并配置了相应的不同尺度的特征提取部分，如此可以对三维手部姿态估计网络输入的彩色图像数据提取出不同尺度的特征图，接着对提取出的不同尺度的特征图进行融合，形成多尺度融合特征。

在该设置下，则可以将多个不同尺度的特征图进行融合，以充分利用不同尺度下的特征信息，且相比于原骨干网络，如ResNet50，新增的多尺度特征图融合非常简单，几乎未额外增加计算量，对计算效率造成的影响可忽略不计。

对于姿态估计部分，以特征提取部分输出的多尺度融合特征为输入，在前面设计了卷积处理，在中间设计了两分支的处理回路，从而在对多尺度融合特征卷积后一方面可以进行手性估计，获得手部为左手或右手的概率，另一方面可以通过引入融合注意力的三维姿态估计网络来获得三维热力图，接着搜索三维热力图的关键点，再进行坐标系变换获得手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果。

在该设置下，则可以通过引入融合注意力，更好地学习到数据中的空间信息，减小因遮挡问题造成的精度损失，以得到更精准的姿态估计效果。且相比于常用的高复杂度注意力计算模块，如Transformer，该融合注意力非常简单，未额外增加三维姿态估计网络的计算复杂度，对计算效率造成的影响极其有限。

在该情况下，则可以将当前需要进行三维手部姿态估计处理的目标彩色图像，输入到三维手部姿态估计网络，让其展开相应的处理。

步骤S103，获取三维手部姿态估计网络输出的三维手部姿态估计结果。

而在通过三维手部姿态估计网络进行了当前目标彩色图像对应的三维手部姿态估计处理后，则可以提取网络输出的三维手部姿态估计结果，此时，则可以对该三维手部姿态估计结果进行存储，或者根据预设的处理策略，展开进一步的数据使用，该环节显然是可以随实际情况进行灵活调整的。

例如，步骤S103获取三维手部姿态估计网络输出的三维手部姿态估计结果之后，本申请方法还可以包括：

展示三维手部姿态估计结果；

或者，

确定并执行三维手部姿态估计结果适配的响应操作。

可以理解，三维手部姿态估计结果的实时展示对应的是可视化场景，如此便于现场用户可以直观地获悉机器推理得到的手部姿态估计情况，响应操作的执行对应的是智能化使用场景，如此可以在具体所处的应用场景中自动执行相应的操作，这方面是对具体的应用需求进行配置的，并且也属于现有技术的范畴，因此此处不再做具体的说明。

对于此处实施例，总体来说，针对面向彩色图像的三维手部姿态估计任务，本申请设计一种更为新颖的、以彩色图像为输入的三维手部姿态估计网络，其具体包括特征提取部分和姿态估计部分，特征提取部分用于对输入的彩色图像中提取不同尺度的特征图，并融合不同尺度的特征图形成多尺度融合特征，如此可以更加充分利用不同尺度下的特征信息，且相比于原骨干网络，如ResNet50，新增的多尺度特征图融合非常简单，几乎未额外增加计算量，对计算效率造成的影响可忽略不计，姿态估计部分用于对多尺度融合特征卷积后一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络来获得三维热力图，接着搜索三维热力图的关键点，再进行坐标系变换得到手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果，如此引入融合注意力，能更好地学习到数据中的空间信息，减小因遮挡问题造成的精度损失，且相比于常用的高复杂度注意力计算模块，如Transformer，该融合注意力非常简单，未额外增加三维姿态估计网络的计算复杂度，对计算效率造成的影响极其有限，从而基于特征提取部分和姿态估计部分均实现高精度且高效的处理效果，可以满足高质量的三维手部姿态估计需求。

下面则继续对上述图1所示实施例的各个步骤及其在实际应用中可能的实现方式进行详细阐述。

对于本申请设计的三维手部姿态估计网络，还可以在图2示出的本申请三维手部姿态估计网络的一种整体架构示意图的基础上，进行各细节方面的说明。

具体的，参考图3示出的本申请特征提取部分的一种架构示意图，输入网络的目标彩色图像的尺寸可以为24×256×256，对于特征提取部分，本申请具体可以提取四种尺度的特征图：、/>、/>以及/>。

其中，对于特征提取部分，采用的是级联金字塔结构，可以采用ResNet50等类型的网络架构来作为主干网络，在该网络架构的基础上进行修改，以可以从输入图像中提取出所需的各种尺寸的特征图，或者，也可以直接配置相关的网络架构来实现此处所涉及的特征提取目标。

接着对所有尺度的特征图进行卷积操作，卷积核大小为，步长为1，其目的在于更改所有尺度的特征图的通道数（channel，一般记为C），确保所有尺度的特征图通道数一致。

此外，本申请还对不同于目标特征尺寸的特征图（即、/>和/>共三个尺度的特征图）进行相应的双线性上采样操作（分为是2倍、4倍和8倍的双线性上采样操作），以保证所有的特征图尺寸大小一致，便于后续操作。

最后将此时所有的特征图在“通道”这一维度上进行拼接，完成融合，得到多尺度融合特征。

通过该特征融合方法使获取的特征，同时包含了不同尺度平面特征的空间信息，从而提高利用二维图像进行三维姿态估计的准确度。

与单一尺度特征提取的通常设计思路相比，在上述的网络设计下，网络在高层网络学习得到的大尺度特征图可以更好地获取目标位置信息，且高层网络的感受野较大，这就伴随着较强的语义信息表征能力和较弱的几何信息表征能力；而在低层网络学习得到的小尺度特征图能更好地获取目标的细节信息，且低层网路的感受野较小，其信息表征能力与高层网络正好相反；采用多尺度特征融合方法就能更好地学习局部信息和全局信息，进而得到更好的处理效果。

同时，相比于原骨干网络，如ResNet50，多尺度特征图融合非常简单，仅包含卷积核大小为的卷积和双线性上采样操作，几乎未额外增加计算量，对计算效率造成的影响可忽略不计。

对应的，作为一种示例性的实施例，在三维手部姿态估计网络中，特征提取部分具体可以包括以下处理内容：

对输入的彩色图像提取、/>、/>和/>共四个尺度的特征图，其中，N代表最后热力图回归的尺度；

对、/>、/>和/>共四个尺度的特征图进行/>卷积以统一通道数并记为C，并在后三者卷积后各自进行相应的双线性上采样操作，以统一四个尺度的特征图的尺寸为/>；

对当前四个尺度的特征图按照通道进行拼接，得到维多尺度特征，作为多尺度融合特征。

对于三维手部姿态估计网络中的姿态估计部分，在前面已经提及了，其中还设计了一个上下两部分的引入融合注意力的三维姿态估计网络，从而可以通过引入融合注意力的三维姿态估计网络来获得三维热力图，对此，则可以在图2的基础上，参考图4示出的本申请三维姿态估计网络的一种架构示意图。

结合前面的图3可以看到，在前面特征提取部分获得的维多尺度特征（多尺度融合特征）的基础上，姿态估计部分会先做/>卷积，再进行具体的三维热力图的处理。

三维姿态估计网络在热力图回归之前，先将输入的数据（卷积后的维多尺度融合特征数据）进行整形重塑，得到/>维多通道三维数据，之后利用上下两部分的引入融合注意力的三维姿态估计网络来进行特征学习与热力图回归，其中，分为上下两部分的目的是对左手和右手进行分开处理，有助于在左手和右手假设下实现更高精度的姿态估计，最后对两者进行拼接得到/>维多通道三维热力图进行三维热力图的输出。

通过该设置，对于输入的多尺度融合特征，通过三维卷积操作调整通道数，再对特征图进行分组堆叠形成三维特征数据，这样可以充分地利用各个尺度的特征信息，有利于最终多通道三维热力图的高质量构建。

对应的，作为又一种示例性的实施例，在三维手部姿态估计网络中，姿态估计部分包括以下处理内容：

对维多尺度融合特征进行/>卷积，得到/>维多尺度融合特征数据；

对维多尺度融合特征数据进行整形，得到/>维多通道三维数据；

将维多通道三维数据并行输入两个引入融合注意力的三维姿态估计网络，得到左手和右手假设下的/>维三维热力图；

将左手和右手假设下的维三维热力图进行拼接，得到维多通道三维热力图，作为三维热力图。

此外，从图2还可以看出，对于维多通道三维热力图，可以选取每一个/>空间中的热值最大点对应的坐标作为估计三维坐标，得到42个/>维索引值（对应一只手的关键点数为21的情况），这对应了手部关键点在/>空间中的三维坐标，并通过相机内外参数以及一些辅助信息进行世界坐标系与像素坐标系之间的变换，并结合手性概率来得到/>维的估计值，即单手的三维姿态估计结果。

其中，对于获得手部为左手或右手的概率的手性估计，还可以参考图5示出的本申请手性估计的一种架构示意图来帮助理解。

与此同时，对于姿态估计部分在处理过程中涉及的融合注意力的处理方面，参考图6示出的本申请融合注意力的一种处理架构示意图，在本申请中，融合注意力的功能是适配本申请所设计的网络结构学习而得到三维数据中的空间权重信息，该融合注意力由一个空间注意力机制和一个通道注意力机制组成，具体的，有：

1）通道注意力利用最大池化和平均池化，分别在通道维度对数据进行处理，将维特征数据压缩成1个实数（H为height的缩写，表示高度；W为width的缩写，表示宽度），从而得到两个/>维通道描述（C、H、W是通用说明，在本设计中，C、H、W的数值都设置为N），接着利用一个多层感知器对两个/>维通道描述先降维再升维处理，最后通过学习参数k和学习参数b进行加权求和，并通过Sigmoid激活函数得到通道权重。

2）空间注意力通过最大池化和平均池化，对二维特征的每个位置所有通道的特征进行压缩处理，得到两个维的空间描述并进行拼接，然后利用一个卷积操作将此时的特征数据的通道数压缩成1，最后经过一个Sigmoid激活函数操作得到空间注意力权重。

空间注意力和通道注意力的权重均扩展成统一大小，再以逐元素相乘的方式进行融合，得到最终的权重。

在此设置下，融合注意力巧妙地结合了通道注意力和空间注意力，这样既可以处理好各深度层次上的整体重要性，又可以捕捉不同位置的局部结构信息，从而增强了模型捕捉特征在三维空间维度上的重要性和相关性的能力，有助于模型更好地处理遮挡问题。

对应的，作为又一种示例性的实施例中，姿态估计部分中涉及的融合注意力，具体可以包括以下处理内容：

将维多通道三维数据，经过/>三维卷积得到/>维数据；

将维数据进行相应的最大池化处理和平均池化处理，得到2个/>维通道描述，再分别输入多层感知器、动态加权求和以及激活函数，得到/>维通道权重；

将维数据进行相应的最大池化处理和平均池化处理，并拼接得到维空间描述，再分别输入卷积操作以及激活函数，得到/>维空间权重；

将维通道权重和/>维空间权重均扩展成/>维数据，再以逐元素相乘的方式进行融合，得到/>维三维空间权重数据，作为融合注意力。

其中，在通道注意力权重与空间注意力权重扩展后以逐元素相乘的方式进行融合，可以得到满足该网络数据结构的三维空间权重信息，有助于模型更加充分地利用数据的三维信息，如此后续基于融合注意力可以更好地解决遮挡问题，实现更佳的姿态估计精度。

同时，相比于常用的高复杂度注意力计算模块，如计算复杂度为的Transformer，融合注意力非常简单，计算复杂度仅为/>，与引入融合注意力前的三维姿态估计网络的计算复杂度相同，因此未额外增加三维姿态估计网络的计算复杂度，对计算效率造成的影响极其有限。

此外，从前面提及的图4中还可以看到的是，本申请在引入融合注意力的三维姿态估计网络，对于融合注意力的应用，还可以涉及到残差模块的应用，并通过注意力残差模块来实现。

对此，还可以继续参考图7示出的本申请引入融合注意力的特征学习模块的一种架构示意图，引入融合注意力的特征学习模块的功能是捕获更加丰富的特征数据，每个融合注意力的特征学习模块（注意力残差模块）涉及了残差结构，分为主路径和跳跃连接，主路径中输入的多通道三维数据通过三维卷积、归一化、ReLU激活函数等操作，最后与输入的原数据进行跳跃连接，再通过融合注意力和ReLU激活函数得到与输入数据相同大小的特征数据。

在此设置下，通过利用三维卷积残差结构对特征进行学习，得到通道注意力权重和空间注意力权重，从而实现对三维特征数据中每一个关键点进行权重评估，优化模型对关键特征的学习和捕捉，而ReLU激活函数被应用于融合后的特征映射，引入非线性，使得模型能够学习和表示更加复杂的特征关系。

需要注意的是，该特征学习模块一般两个为一组，前者卷积操作通道扩张，后者通道收缩，这样的结构在确保通道平衡的基础上能捕获更丰富的特征信息。

对应的，作为又一种示例性的实施例，本申请引入融合注意力的三维姿态估计网络，具体可以包括多个注意力残差模块和一个三维卷积。

而对于注意力残差模块的残差结构，具体有：

注意力残差模块的残差结构中，主路径的输入数据依次通过第一三维卷积、第一归一化、第一ReLU激活激活函数、第二三维卷积和第二归一化，最后与输入数据进行跳跃连接，再通过融合注意力和第二ReLU激活函数得到与输入数据相同大小的特征数据。

如此，本申请三维手部姿态估计网络在结合了上述各细节的设置后，整体来说，可以将特征融合、三维卷积残差结构结合，有效捕获三维特征数据中不同通道不同位置之间的三维空间关联性以及同一通道不同位置之间的二维平面关联性，旨在学习更全面更深层的特征信息，并利用巧妙结合了通道注意力和空间注意力的融合注意力机制，不仅增强了模型捕捉特征在三维空间维度上的重要性和相关性的能力，有助于模型更好地处理遮挡问题，而且计算简单，未额外增加三维手部姿态估计网络的计算复杂度，从而最终可以实现显著高效、高精度的三维手部姿态估计效果。

以上是本申请提供的基于彩色图像的三维手部姿态估计方法的介绍，为便于更好的实施本申请提供的基于彩色图像的三维手部姿态估计方法，本申请还从功能模块角度提供了一种基于彩色图像的三维手部姿态估计装置。

参阅图8，图8为本申请基于彩色图像的三维手部姿态估计装置的一种结构示意图，在本申请中，基于彩色图像的三维手部姿态估计装置800具体可包括如下结构：

图像获取单元801，获取通过拍摄得到的、含用户手部的目标彩色图像；

估计处理单元802，用于将目标彩色图像输入到训练好的三维手部姿态估计网络，三维手部姿态估计网络包括特征提取部分和姿态估计部分，特征提取部分用于从输入的彩色图像中提取不同尺度的特征图，并融合不同尺度的特征图形成多尺度融合特征，姿态估计部分用于对多尺度融合特征一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络获取左手和右手假设下的三维热力图，接着搜索三维热力图中的关键点，然后通过坐标系变换得到关键点对应的手部关节点坐标，最后基于手性估计结果和手部关节点坐标得到三维手部姿态估计结果；

结果获取单元803，用于获取三维手部姿态估计网络输出的三维手部姿态估计结果。

在一种示例性的实施例中，特征提取部分包括以下处理内容：

对、/>、/>和/>共四个尺度的特征图进行/>卷积以统一图像通道数并记为C，并在后三者卷积后进行各自相应的双线性上采样操作，以统一四个尺度的特征图的尺寸为/>；

对当前四个尺度的特征图按照通道进行拼接，得到维多尺度融合特征，作为多尺度融合特征。

在又一种示例性的实施例中，姿态估计部分包括以下处理内容：

对多尺度融合特征数据进行整形，得到/>维多通道三维数据；

将维多通道三维数据并行输入两个引入融合注意力的三维姿态估计网络，得到左手和右手假设下的/>维三维热力图；/>

在又一种示例性的实施例中，融合注意力包括以下处理内容：

将维多通道三维数据，经过/>三维卷积得到/>维数据；

在又一种示例性的实施例中，引入融合注意力的三维姿态估计网络包括多个注意力残差模块和一个三维卷积。

在又一种示例性的实施例中，注意力残差模块的残差结构中，主路径的输入数据依次通过第一三维卷积、第一归一化、第一ReLU激活激活函数、第二三维卷积和第二归一化，最后与输入数据进行跳跃连接，再通过融合注意力和第二ReLU激活函数得到与输入数据相同大小的特征数据。

在又一种示例性的实施例中，装置还包括结果处理单元804，用于：

展示三维手部姿态估计结果；

或者，

确定并执行三维手部姿态估计结果适配的响应操作。

本申请还从硬件结构角度提供了一种处理设备，参阅图9，图9示出了本申请处理设备的一种结构示意图，具体的，本申请处理设备可包括处理器901、存储器902以及输入输出设备903，处理器901用于执行存储器902中存储的计算机程序时实现如图1对应实施例中基于彩色图像的三维手部姿态估计方法的各步骤；或者，处理器901用于执行存储器902中存储的计算机程序时实现如图8对应实施例中各单元的功能，存储器902用于存储处理器901执行上述图1对应实施例中基于彩色图像的三维手部姿态估计方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器902中，并由处理器901执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

处理设备可包括，但不仅限于处理器901、存储器902、输入输出设备903。本领域技术人员可以理解，示意仅仅是处理设备的示例，并不构成对处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如处理设备还可以包括网络接入设备、总线等，处理器901、存储器902、输入输出设备903等通过总线相连。

处理器901可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是处理设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器902可用于存储计算机程序和/或模块，处理器901通过运行或执行存储在存储器902内的计算机程序和/或模块，以及调用存储在存储器902内的数据，实现计算机装置的各种功能。存储器902可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据处理设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（SecureDigital，SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器901用于执行存储器902中存储的计算机程序时，具体可实现以下功能：

获取通过拍摄得到的、含用户手部的目标彩色图像；

获取三维手部姿态估计网络输出的三维手部姿态估计结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于彩色图像的三维手部姿态估计装置、处理设备及其相应单元的具体工作过程，可以参考如图1对应实施例中基于彩色图像的三维手部姿态估计方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中基于彩色图像的三维手部姿态估计方法的步骤，具体操作可参考如图1对应实施例中基于彩色图像的三维手部姿态估计方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（Read Only Memory，ROM）、随机存取记忆体（Random Access Memory，RAM）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中基于彩色图像的三维手部姿态估计方法的步骤，因此，可以实现本申请如图1对应实施例中基于彩色图像的三维手部姿态估计方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的基于彩色图像的三维手部姿态估计方法、装置、处理设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于彩色图像的三维手部姿态估计方法，其特征在于，所述方法包括：

获取通过拍摄得到的、含用户手部的目标彩色图像；

将所述目标彩色图像输入到训练好的三维手部姿态估计网络，所述三维手部姿态估计网络包括特征提取部分和姿态估计部分，所述特征提取部分用于从输入的彩色图像中提取不同尺度的特征图，并融合所述不同尺度的特征图形成多尺度融合特征，所述姿态估计部分用于对所述多尺度融合特征一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络获取左手和右手假设下的三维热力图，接着搜索所述三维热力图中的关键点，然后通过坐标系变换得到所述关键点对应的手部关节点坐标，最后基于手性估计结果和所述手部关节点坐标得到三维手部姿态估计结果；

获取所述三维手部姿态估计网络输出的所述三维手部姿态估计结果。

2.根据权利要求1所述的方法，其特征在于，所述特征提取部分包括以下处理内容：

对所述输入的彩色图像提取、/>、/>和/>共四个尺度的特征图，其中，N代表最后热力图回归的尺度；

对所述、/>、/>和/>共四个尺度的特征图进行/>卷积以统一图像通道数并记为C，并在后三者卷积后进行各自相应的双线性上采样操作，以统一四个尺度的特征图的尺寸为/>；

对当前四个尺度的特征图按照通道进行拼接，得到维多尺度融合特征，作为所述多尺度融合特征。

3.根据权利要求2所述的方法，其特征在于，所述姿态估计部分包括以下处理内容：

对所述维多尺度融合特征进行/>卷积，得到/>维多尺度融合特征数据；

对所述多尺度融合特征数据进行整形，得到/>维多通道三维数据；

将所述维多通道三维数据并行输入两个所述引入融合注意力的三维姿态估计网络，得到所述左手和右手假设下的/>维三维热力图；

将所述左手和右手假设下的维三维热力图进行拼接，得到/>维多通道三维热力图，作为所述三维热力图。

4.根据权利要求3所述的方法，其特征在于，所述融合注意力包括以下处理内容：

将所述维多通道三维数据，经过/>三维卷积得到/>维数据；

将所述维数据进行相应的最大池化处理和平均池化处理，得到2个/>维通道描述，再分别输入多层感知器、动态加权求和以及激活函数，得到/>维通道权重；

将所述维数据进行相应的最大池化处理和平均池化处理，并拼接得到维空间描述，再分别输入卷积操作以及激活函数，得到/>维空间权重；

将所述维通道权重和所述/>维空间权重均扩展成/>维数据，再以逐元素相乘的方式进行融合，得到/>维三维空间权重数据，作为所述融合注意力。

5.根据权利要求3所述的方法，其特征在于，所述引入融合注意力的三维姿态估计网络包括多个注意力残差模块和一个三维卷积。

6.根据权利要求5所述的方法，其特征在于，所述注意力残差模块的残差结构中，主路径的输入数据依次通过第一三维卷积、第一归一化、第一ReLU激活激活函数、第二三维卷积和第二归一化，最后与所述输入数据进行跳跃连接，再通过所述融合注意力和第二ReLU激活函数得到与所述输入数据相同大小的特征数据。

7.根据权利要求1所述的方法，其特征在于，所述获取所述三维手部姿态估计网络输出的三维手部姿态估计结果之后，所述方法还包括：

展示所述三维手部姿态估计结果；

或者，

确定并执行所述三维手部姿态估计结果适配的响应操作。

8.一种基于彩色图像的三维手部姿态估计装置，其特征在于，所述装置包括：

估计处理单元，用于将所述目标彩色图像输入到训练好的三维手部姿态估计网络，所述三维手部姿态估计网络包括特征提取部分和姿态估计部分，所述特征提取部分用于从输入的彩色图像中提取不同尺度的特征图，并融合所述不同尺度的特征图形成多尺度融合特征，所述姿态估计部分用于对所述多尺度融合特征一方面进行手性估计，获得手部为左手或右手的概率，另一方面通过引入融合注意力的三维姿态估计网络获取左手和右手假设下的三维热力图，接着搜索所述三维热力图中的关键点，然后通过坐标系变换得到所述关键点对应的手部关节点坐标，最后基于手性估计结果和所述手部关节点坐标得到三维手部姿态估计结果；

结果获取单元，用于获取所述三维手部姿态估计网络输出的所述三维手部姿态估计结果。

9.一种处理设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的方法。