CN110147767B

CN110147767B - 基于二维图像的三维手势姿态预测方法

Info

Publication number: CN110147767B
Application number: CN201910431349.3A
Authority: CN
Inventors: 杨艺; 李达; 王好谦; 王强锋; 曾义
Original assignee: Shenzhen Weilai Media Technology Research Institute; Shenzhen Lingyun Shixun Technology Co ltd
Current assignee: Shenzhen Weilai Media Technology Research Institute; Shenzhen Lingyun Shixun Technology Co ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-07-18
Anticipated expiration: 2039-05-22
Also published as: CN110147767A

Abstract

本申请实施例提供了一种基于二维图像的三维手势姿态预测方法，包括：建立标记有手势关键点的二维图像数据集；通过手掌分割神经网络对二维图像数据集中的第一训练样本进行分割，得到手势轮廓区域；将手势轮廓区域和手势关键点进行匹配训练，得到二维手势预测模型；根据二维图像数据集中的第二训练样本对二维手势预测模型进行手势关键点打分训练，得到姿态评估神经网络；将待测图像中提取的手势轮廓区域输入姿态评估神经网络，得到二维手势预测图和手势关键点分数图；通过姿态先验网络将二维手势预测图与预存储的三维手势姿态图进行匹配，根据手势关键点分数图输出三维手势预测图。本申请实现了基于二维手势图像预测三维手势姿态，预测准确性高。

Description

基于二维图像的三维手势姿态预测方法

技术领域

本申请涉及计算机视觉技术领域，尤其涉及基于二维图像的三维手势姿态预测方法。

背景技术

手势在体态语言中占有重要的地位，随着人工智能的兴起，通过向人机交互设备输入手势图像进行手势识别的技术在机器人物体拾取、手语学习等领域得到愈发广泛地应用。由于许多遮挡、关节连接和手指间的咬合普遍存在于手势图像中，因此从二维的手势图像中估计完整的三维手势姿态具有很大的难度。

相关技术中，通过深度相机采集的深度图像进行三维手势姿态预测为一种可行的方法。在深度相机采集的深度图像中，包含了反映物体到镜头的距离信息，即深度信息，根据深度信息能够实现对物体的三维信息预测。

然而，深度相机采集的深度信息通过像素的灰度值来反映，因此深度相机严重依赖环境的光照条件，通常只能在室内特定环境下采集深度图像进行分析，应用场景局限性较高，并且，像不同品牌的深度相机的参数差异会直接反映到图像数据中，导致根据一种品牌的深度相机研发出的三维手势姿态预测算法，在应用到其他品牌的深度相机时会出现兼容性问题，预测准确性较差，另外，深度相机的成本也较高，不利于推广和应用。

发明内容

本申请提供了一种基于二维图像的三维手势姿态预测方法，以解决用二维图像预测三维手势姿态的问题。

本申请提供了一种基于二维图像的三维手势姿态预测方法，该方法包括：

建立标记有手势关键点的二维图像数据集；

通过手掌分割神经网络对所述二维图像数据集中的第一训练样本进行分割，得到手势轮廓区域；

将所述手势轮廓区域和手势关键点进行匹配训练，得到二维手势预测模型；

根据所述二维图像数据集中的第二训练样本对所述二维手势预测模型进行手势关键点打分训练，得到姿态评估神经网络；

将待测图像中提取的手势轮廓区域输入所述姿态评估神经网络，得到二维手势预测图和手势关键点分数图；

通过姿态先验网络将所述二维手势预测图与预存储的三维手势姿态图进行匹配，根据所述手势关键点分数图输出三维手势预测图。

可选地，通过姿态先验网络计算所述二维手势预测图与预存储的三维手势姿态图进行匹配，根据所述手势关键点分数图输出三维手势预测图，之前还包括：构建姿态先验网络。

可选地，构建姿态先验网络，包括：

建立标记有手势关键点的三维手势姿态图数据集；

将所述三维手势姿态图数据集中的每个手势关键点均投影为一维向量；

根据所述手势关键点的编号将所述手势关键点的一维向量编码为二维向量，得到三维手势姿态图编码集。

可选地，通过姿态先验网络计算所述二维手势预测图与预存储的三维手势姿态图进行匹配，根据所述手势关键点分数图输出三维手势预测图，包括：

将所述二维手势预测图的每个手势关键点均投影为一维向量；

比较所述二维手势预测图中的一维向量与所述三维手势姿态图编码集中的一维向量，将相似度为预设范围内的多个三维手势姿态图作为候选三维手势姿态图；

以所述手势关键点分数图为条件，从所述候选三维手势姿态图中选取并输出一个三维手势姿态图。

可选地，将所述三维手势姿态图数据集中的每个手势关键点均投影为一维向量，包括：

计算三维手势姿态图中一对手势关键点间距量化为1时的量化系数；

将所述三维手势姿态图中的手势关键点根据所述量化系数进行归一化，得到归一化坐标；

将节点关键点的归一化坐标与根关键点的归一化坐标做差，得到相对归一化坐标；

根据所述相对归一化坐标得到所述节点关键点的一维向量，其中，所述节点关键点和根关键点均为所述手势关键点。

可选地，所述根关键点为根关键点，所述节点关键点为手指关节关键点或手指端部关键点。

可选地，根据所述相对归一化坐标得到所述节点关键点的一维向量，包括：

建立包括X轴、Y轴和Z轴的标准坐标系；

利用视点估计法将所述相对归一化坐标转换为标准坐标；

将所述标准坐标进行投影得到所述节点关键点的一维向量。

可选地，利用视点估计法将所述相对归一化坐标转换为标准坐标，包括：

估算将所述手势关键点绕所述X轴和Z轴旋转至与所述Y轴对齐的第一旋转矩阵；

根据所述第一旋转矩阵估算将所述手势关键点绕所述Y轴旋转的第二旋转矩阵；

将所述相对归一化坐标根据所述第一旋转矩阵、第二旋转矩阵进行转换得到所述手势关键点的标准坐标。

可选地，将所述相对归一化坐标根据所述第一旋转矩阵、第二旋转矩阵进行转换得到所述手势关键点的标准坐标，包括：

将所述相对归一化坐标与所述第一旋转矩阵、第二旋转矩阵相乘得到标准伴随矩阵；

判断所述手势关键点是否为左手的手势关键点；

如果所述手势关键点为左手的手势关键点，将所述标准伴随矩阵进行转置得到标准坐标；

如果所述手势关键点不是左手的手势关键点，将所述标准伴随矩阵绕所述Z轴旋转后进行转置得到标准坐标。

可选地，所述手掌分割神经网络通过基于肤色的边缘检测算法识别所述手势轮廓区域。

本申请提供的基于二维图像的三维手势姿态预测方法的有益效果包括：

本申请提供的基于二维图像的三维手势姿态预测方法，根据标注有手势关键点的二维手势图像数据集进行手势关键点识别的训练和手势关键点打分训练，使得通过姿态评估神经网络能够对一张普通的二维RGB图像能够预测出二维手势，并得到手势关键点分数图，利用姿态先验网络存储的三维手势姿态图与姿态评估神经网络预测出的二维手势预测图进行匹配，根据手势关键点分数图输出一个三维手势预测图。本申请实施例通过手势关键点分数图，能够对预测出的二维手势进行反馈，使得在预测三维手势图时能够进行参考，从而输出一个最可能的三维手势；本申请实施例通过将三维手势图中的手势关键点坐标进行归一化表示，使得手势具有尺度不变性；通过将节点关键点与根关键点作差得到相对位置坐标，使得手势具有平移不变形；将手势关键点的三维坐标转换为标准坐标系的坐标，具有横纵深度三个轴的坐标尺度一致，便于模型学习的优点。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于二维图像的三维手势姿态预测方法的流程示意图；

图2为本申请实施例提供的一种手势轮廓区域识别示意图；

图3为本申请实施例提供的一种姿态评估示意图；

图4为本申请实施例提供的手势预测对比图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

参见图1，为本申请实施例提供的一种基于二维图像的三维手势姿态预测方法的流程示意图，如图1所示，本申请实施例提供的基于二维图像的三维手势姿态预测方法，包括以下步骤：

步骤S110：建立标记有手势关键点的二维图像数据集。

利用相机拍摄多个人在不同视角下不同手的二维RGB姿态图，将这些姿态图上传到计算机中进行处理。

对姿态图中手掌骨骼的不同位置分别打上标记，作为手势关键点，本申请实施例中，手势关键点包括根关键点和节点关键点，其中，根关键点位于手掌根部中心位置，节点关键点包括手指关节关键点和手指端部关键点，手指关节关键点位于手指的关节处，手指端部关键点位于手指末端。每只手的手势关键点数量共计21个。

建立三维坐标系，姿态图在三维坐标系中用I表示，I∈R^N×M×3，其中，N，M为图片的横竖尺像素个数，3表示RGB三通道。

手势关键点的坐标用w_i＝(x_iy_i，z_i)表示，其中，i∈[1，J]，J＝21。

步骤S120：通过手掌分割神经网络对二维图像数据集中的第一训练样本进行分割，得到手势轮廓区域。

将S110中的二维图像数据集选取一定数量的姿态图作为第一训练样本，利用手掌分割神经网络分别对第一训练样本中的每个姿态图进行分割。

手掌分割神经网络为一种分割功能模型，只要能够实现在姿态图中识别出手势轮廓区域即可，例如，基于肤色的边缘检测算法对手势轮廓区域进行识别。

参见图2，为本申请实施例提供的一种手势轮廓区域识别示意图，如图2所示，利用手掌分割神经网络，实现将一张姿态图中的手势轮廓区域识别出来，大幅降低了后续步骤进行手势识别的数据处理复杂度。

步骤S130：将手势轮廓区域和手势关键点进行匹配训练，得到二维手势预测模型。

通过第一训练样本对手势轮廓区域和手势轮廓区域内标注的手势关键点进行匹配训练，形成能够根据手势轮廓区域自动确定手势关键点位置，并将多个手势关键点连接成二维手势预测图的二维手势预测模型。

步骤S140：根据二维图像数据集中的第二训练样本对二维手势预测模型进行手势关键点打分训练，得到姿态评估神经网络。

第一训练样本的数量越大，得到的二维手势预测模型预测越准确，但是手势姿态是多种多样的，看似相同的两个手势姿态往往也会有细微差别，本申请实施例提供了一种打分机制，以实现对二维手势预测模型的预测结果进行评估。

将S110中的二维图像数据集选取一定数量的姿态图作为第二训练样本，利用手掌分割神经网络分别对第二训练样本中的每个姿态图进行分割，得到手势轮廓区域。将第二训练样本的手势轮廓区域输入到二维手势预测模型进行手势关键点预测，然后将第二训练样本中手动标记的手势关键点与预测出的手势关键点进行相似度比较，相似度越高，即手势关键点的位置坐标越接近，则分值越高。利用第二训练样本对二维手势预测模型进行打分训练后，得到姿态评估神经网络。

本申请实施例中，手势关键点分数图用c＝{c₁(u，v)，...，c_J(u，v)}来表示，其中，c_J(u，v)表示第j个手势关键点的得分，其中u，v分别表示手势关键点分数图中关键点的横纵位置坐标。

步骤S150：将待测图像中提取的手势轮廓区域输入姿态评估神经网络，得到二维手势预测图和手势关键点分数图。

将包含手势的待测图像通过步骤S120进行分割得到手势轮廓区域后，将待测图像的手势轮廓区域输入到姿态评估神经网络中，姿态评估神经网络根据手势轮廓区域，预测出手势关键点位置，根据手势关键点位置生成二维手势预测图，并通过打分机制生成手势关键点分数图。

待测图像为包含手势的普通RGB二维图像，没有标注手势关键点位置，经过姿态评估网络预测出的二维手势预测图参见图3，为本申请实施例提供的一种姿态评估示意图，如图3所示，利用姿态评估网络，根据手势轮廓区域生成二维手势预测图。图3中，折线的折点位置为手势关键点位置。

参见图4，为本申请实施例提供的手势预测对比图，如图4所示，经过姿态评估网络预测的部分手势可能与实际手势存在偏差，例如，图4中，手势关键点A的位置估测偏差较大，利用本申请实施例提供的打分机制，在手势关键点分数图中，A点与实际手势关键的偏差较大。

将二维手势预测图中的二维手势转换为三维手势通过姿态先验网络来进行。因此，需要预先构建好姿态先验网络。姿态先验网络的构建包括以下步骤：

1)、建立标记有手势关键点的三维手势姿态图数据集。

将大量标记有手势关键点的标准三维手势姿态图构建为三维手势姿态图数据集。

2)、将所述三维手势姿态图数据集中的每个手势关键点均投影为一维向量。

2.1)计算三维手势姿态图中一对手势关键点间距量化为1时的量化系数；

在步骤S110中，我们指出，手势关键点的坐标用w_i来表示，手势关键点的归一化坐标用来表示：

(1)式中，i为j个手势关键点中第i个手势关键点，s为量化系数。通过标准化每两个关键点之间的距离，来保证手势轮廓区域尺度不变。s是一个依赖于样本的常数，例如，被拍摄人的手指长短，距离相机的远近，都会影响到两个手势关键点的间距，为将某对关键点间的距离标准化到一定数量的单位长度，本申请实施例选取一个k值，使得食指的第一根骨头的s＝1，即食指根部的手势关键点到食指第一个关节处的手势关键点间距标准化为1。

2.2)将三维手势姿态图中的手势关键点根据量化系数进行归一化，得到归一化坐标；

根据步骤2.1)得到的量化系数s，将每个手势关键点都进行归一化，得到归一化坐标

2.3)将节点关键点的归一化坐标与根关键点的归一化坐标做差，得到相对归一化坐标；

为了使手势具有平移不变形，即手势不会受到由于拍摄位置引起的同样的手在不同图片上产生的位置偏左、偏右、偏上或偏下类似平移的影响，本申请实施例通过将节点关键点的归一化坐标与根关键点的归一化坐标做差，得到相对归一化坐标

2.4)根据相对归一化坐标得到节点关键点的一维向量，其中，节点关键点和根关键点均为手势关键点。

本申请将相对归一化坐标转换为标准坐标系内的坐标，具有横纵深度三个轴的坐标尺度一致，便于模型学习的优点。

2.41)建立包括X轴、Y轴和Z轴的标准坐标系；

2.42)利用视点估计法将相对归一化坐标转换为标准坐标；

标准坐标系的坐标w_c与相对归一化坐标之间的关系为：

(3)式中，R(w^rel)∈R^3×3为通过两个步骤得到的三维旋转矩阵，计算方法如下：

2.421)估算将手势关键点绕X轴和Z轴旋转至与Y轴对齐的第一旋转矩阵；

第一旋转矩阵记为R_xz，本步骤中，由于手势姿态各异，能够与Y轴对齐的手势关键点通常不会是全部的手势关键点。

(4)式中，λ表示一个二维系数矩阵，根据手势姿态不同，λ也不相同。

2.422)根据第一旋转矩阵估算将2.421)中与Y轴对齐的手势关键点绕Y轴旋转的第二旋转矩阵；

第二旋转矩阵记为R_y，第二旋转矩阵与第一旋转矩阵之间的关系为：

(5)式中，η≥0表示指定的关键点索引o(即手势的第o个关键点)，η≥0和ζ分别表示第o个关键点的两个角度系数)。

2.423)将相对归一化坐标根据第一旋转矩阵、第二旋转矩阵进行转换得到手势关键点的标准坐标。

正则与原坐标系之间的总变换为：

R(w^rel)＝R_y·R_xz (6)

2.4231)将相对归一化坐标与第一旋转矩阵、第二旋转矩阵相乘得到标准伴随矩阵；

根据(6)式计算出三维旋转矩阵R(w^rel)后，可根据(3)式得到标准坐标系的坐标w_c的标准伴随矩阵进而可得到每一个手势关键点在标准坐标系内的坐标/>

为了处理左手和右手之件的对称关系，本申请实施例还提供了以下处理步骤：

2.4232)判断手势关键点是否为左手的手势关键点；

本申请实施例以左手的手势为标准手势，对右手的手势进行转换，因此，需要判断手势图是否为左手手势图，具体可通过指定关键点的相对位置关系判断左右手，比如通过拇指和小指的相对位置来判断。

2.4233)如果手势关键点为左手的手势关键点，将标准伴随矩阵进行转置得到标准坐标；

2.4234)如果手势关键点不是左手的手势关键点，将标准伴随矩阵绕Z轴旋转后进行转置得到标准坐标。

步骤2.4233)和2.4234)的处理过程可参见下式：

2.43)将标准坐标进行投影得到节点关键点的一维向量。

3)、根据所述手势关键点的编号将所述手势关键点的一维向量编码为二维向量，得到三维手势姿态图编码集。

步骤S160：通过姿态先验网络将二维手势预测图与预存储的三维手势姿态图进行匹配，根据手势关键点分数图输出三维手势预测图。

训练好姿态先验网络后，将二维手势预测图输入到姿态先验网络中进行处理，处理步骤如下：

步骤S601：将所述二维手势预测图的每个手势关键点均投影为一维向量；

步骤S602：比较所述二维手势预测图中的一维向量与所述三维手势姿态图编码集中的一维向量，将相似度为预设范围内的多个三维手势姿态图作为候选三维手势姿态图；

步骤S603：以所述手势关键点分数图为条件，从所述候选三维手势姿态图中选取并输出一个三维手势姿态图。

由上述实施例可见，本申请实施例提供的基于二维图像的三维手势姿态预测方法，根据标注有手势关键点的二维手势图像数据集进行手势关键点识别的训练和手势关键点打分训练，使得通过姿态评估神经网络能够对一张普通的二维RGB图像能够预测出二维手势，并得到手势关键点分数图，利用姿态先验网络存储的三维手势姿态图与姿态评估神经网络预测出的二维手势预测图进行匹配，根据手势关键点分数图输出一个三维手势预测图。本申请实施例通过手势关键点分数图，能够对预测出的二维手势进行反馈，使得在预测三维手势图时能够进行参考，从而输出一个最可能的三维手势；本申请实施例通过将三维手势图中的手势关键点坐标进行归一化表示，使得手势具有尺度不变性；通过将节点关键点与根关键点作差得到相对位置坐标，使得手势具有平移不变形；将手势关键点的三维坐标转换为标准坐标系的坐标，具有横纵深度三个轴的坐标尺度一致，便于模型学习的优点。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种基于二维图像的三维手势姿态预测方法，其特征在于，包括：

建立标记有手势关键点的二维图像数据集；

构建姿态先验网络；通过姿态先验网络将所述二维手势预测图与预存储的三维手势姿态图进行匹配，根据所述手势关键点分数图输出三维手势预测图；

其中，构建姿态先验网络，包括：

建立标记有手势关键点的三维手势姿态图数据集；

2.如权利要求1所述的基于二维图像的三维手势姿态预测方法，其特征在于，通过姿态先验网络计算所述二维手势预测图与预存储的三维手势姿态图进行匹配，根据所述手势关键点分数图输出三维手势预测图，包括：

3.如权利要求1所述的基于二维图像的三维手势姿态预测方法，其特征在于，将所述三维手势姿态图数据集中的每个手势关键点均投影为一维向量，包括：

4.如权利要求3所述的基于二维图像的三维手势姿态预测方法，其特征在于，所述根关键点为根关键点，所述节点关键点为手指关节关键点或手指端部关键点。

5.如权利要求3所述的基于二维图像的三维手势姿态预测方法，其特征在于，根据所述相对归一化坐标得到所述节点关键点的一维向量，包括：

建立包括X轴、Y轴和Z轴的标准坐标系；

利用视点估计法将所述相对归一化坐标转换为标准坐标；

将所述标准坐标进行投影得到所述节点关键点的一维向量。

6.如权利要求5所述的基于二维图像的三维手势姿态预测方法，其特征在于，利用视点估计法将所述相对归一化坐标转换为标准坐标，包括：

7.如权利要求6所述的基于二维图像的三维手势姿态预测方法，其特征在于，将所述相对归一化坐标根据所述第一旋转矩阵、第二旋转矩阵进行转换得到所述手势关键点的标准坐标，包括：

判断所述手势关键点是否为左手的手势关键点；

8.如权利要求1所述的基于二维图像的三维手势姿态预测方法，其特征在于，所述手掌分割神经网络通过基于肤色的边缘检测算法识别所述手势轮廓区域。