CN107992858A

CN107992858A - 一种基于单一rgb帧的实时三维手势估计方法

Info

Publication number: CN107992858A
Application number: CN201711424695.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-04

Abstract

本发明中提出的一种基于单一RGB帧的实时三维手势估计方法，其主要内容包括：2D关节估计和从2D关节到3D姿势，其过程为，先以彩色图像作为输入，然后使用手部检测器定位手部并产生一个似然估计值和手部边界框的坐标，接着运行预训练网络来估计手关节的二维位置，并产生手部2D关节位置的热点图，最后非线性平方最小化将手部的3D模型拟合到估计的2D关节位置，恢复3D手部姿态。本发明解决了手部快速移动、自遮挡或在操作过程中受到来自其他物体遮挡的影响，同时不需要初始化，实现了高质量的检测率，还可以拓展到其它人类三维姿势的检测应用中。

Description

一种基于单一RGB帧的实时三维手势估计方法

技术领域

本发明涉及手势估计领域，尤其是涉及了一种基于单一RGB帧的实时三维手势估计方法。

背景技术

人手作为人体的重要部位之一，对人们在现实生活、工作和学习等各个方面都很重要。人手不仅仅在执行方面能够灵活地完成操作任务，在人际交流方面也起着辅助作用，如挥手、敬礼、邀请、牵手等动作，还可以作为感官来达到认知目的。基于自然人手的交互界面摒弃传统的键盘、鼠标等交互设备，转而利用摄像头、数据手套等设备作为交互工具，用自由灵活的人手进行控制，达到了以人为中心的现代人机交互的要求。手势的识别和估计作为虚拟现实中人与计算机互动的主要辅助手段，可以帮助人们在购物中完成试衣、下单、购买等任务；在智能家居领域，人们可以通过在摄像头前做出手势即可控制家具，也可以控制视频的快进、快退、暂停和播放；在游戏领域，根据手势完成各种动作，将大大提高用户的体验效果。除此之外，提高手势的识别和估计效率，将有利于手语识别的发展，使正常人与聋哑人的沟通更加便捷准确。然而，传统的手势估计方法容易受到手部快速移动、自遮挡的影响或在操作过程中受到来自其他物体遮挡的影响，检测敏感性和准确性都不高。

本发明提出了一种基于单一RGB帧的实时三维手势估计方法，先以彩色图像作为输入，然后使用手部检测器定位手部并产生一个似然估计值和手部边界框的坐标，接着运行预训练网络来估计手关节的二维位置，并产生手部2D关节位置的热点图，最后非线性平方最小化将手部的3D模型拟合到估计的2D关节位置，恢复3D手部姿态。本发明解决了手部快速移动、自遮挡或在操作过程中受到来自其他物体遮挡的影响，同时不需要初始化，实现了高质量的检测率，还可以拓展到其它人类三维姿势的检测应用中。

发明内容

针对容易受到手部快速移动、自遮挡的影响或在操作过程中受到来自其他物体遮挡的影响等问题，本发明的目的在于提供一种基于单一RGB帧的实时三维手势估计方法，先以彩色图像作为输入，然后使用手部检测器定位手部并产生一个似然估计值和手部边界框的坐标，接着运行预训练网络来估计手关节的二维位置，并产生手部2D关节位置的热点图，最后非线性平方最小化将手部的3D模型拟合到估计的2D关节位置，恢复3D手部姿态。

为解决上述问题，本发明提供一种基于单一RGB帧的实时三维手势估计方法，其主要内容包括：

(一)2D关节估计；

(二)从2D关节到3D姿势。

其中，所述的实时三维手势估计方法，首先以彩色图像作为输入，使用最先进的探测器来定位手部；对于输入图像中的每一只手，手部检测器产生一个似然估计值和手部边界框的坐标，运行OpenPose(肢体语言识别系统)的预训练网络来估计手关节的二维位置，产生手部2D关节位置的热点图；最后，非线性平方最小化将手部的3D模型拟合到估计的2D关节位置，恢复3D手部姿态。

进一步地，所述的手部检测器，检测器原形是完全卷积结构，包含19个卷积层，并且最大的合并操作将288×288的输入图像缩小为7×7的分数图；通过使用批量标准化来加快和稳定训练过程，接着改进原检测器，除了双手之外，关于身体部位的额外信息可以作为区分左手和右手的简单方法，并为观察到的手部所进行的任务提供线索；同时创建一个数据集来训练检测器。

进一步地，所述的数据集，包含12个不同室内环境的项目，使用OpenPose自动注释帧；在训练网络之前，将数据集分成约12000帧的训练集和约1000帧的验证集；网络训练了20000次迭代；重新训练的网络在验证集上的检测率为92.8％，误报率为1.7％；给定一个输入图像，最终的检测器可以在恒定的时间内检测两个指定的类以及边界框。

其中，所述的2D关节估计，根据检测到的边界框裁剪图像，将其馈送到2D关键点检测器；由于关键点检测器仅在左手进行训练，通过沿着Y轴镜像图像来处理右手；检测器的输出是21个热点图，对应于20个手关键点(每个手指四个)和一个手腕点的估计值。

其中，所述的从2D关节到3D姿势，包括手部模型、单相机视图和立体声或多路摄像机输入。

进一步地，所述的手部模型，具有26个自由度，由27个参数表示；手的全局平移和旋转需要6个自由度(DoF)，由7个值编码，因为采用了四元数表示三维旋转；每个手指根部的关节使用两个DoFs建模，其余的手指关节各需要一个DoF；手指关节受到真实关节限制的约束；确定模型骨架上与2D联合检测器估计的关节位置相对应的关键点。

进一步地，所述的单相机视图，给定手部模型F的27个参数和正向运动学函数定义的手部姿态P，在坐标系中使用K^P＝F(P)计算联合关键点的3D位置；

通过应用相机视图矩阵C_v和相机投影矩阵C_p，将这些点转换成相机的坐标系，然后将它们投影到相机平面上：

其中，是关节i在像平面上的投影(x_i，y_i)；在使用单个视图/相机的情况下，可以选择将模型保持在相机框架中；在这种情况下，C_v是单位矩阵；

令J_i＝(u_i，v_i，p_i)，i∈[1，21]表示21个检测到的2D手关节；(u_i，v_i)是输入图像上关节的二维坐标，p_i是关节i的网络置信度，(p_i∈[0，1])；为了避免在逆运动学(IK)步骤中的错误检测，不考虑具有低于实验确定的值p^th＝0.1的置信度p_i的关节J_i。

进一步地，所述的关节，对于一个给定的姿势P，量化观察到的关节J_i和计算出的M_i之间的差异s(P，M_i，J_i)：

类似地，观测和模型关节之间的总差异S(P，M，J)可以计算为：

可以通过最小化公式(3)的目标函数来估计与可用观测(观察到的2D关节)最相容的3D手姿态P^*：

这是通过使用列文伯格-马夸尔特优化器实现的，该优化器在残差自动分化之后使这个目标函数最小化。

进一步地，所述的立体声或多路摄像机输入，在3D关键点生成之后，使用相应的C_v和C_p将公式(1)分别应用于每个相机；这产生了每个摄像头的一组2D关键点，对应于由相应的摄像头图像上的OpenPose检测到的关键点；继续制定非线性最小二乘问题，定义并最小化所有视图中的二维残差之和：

其中，假定C为可用照相机的集合；实验结果表明，更多视图的可用性显著提高了手姿态估计的准确性，因为其为IK问题提供了额外的约束。

附图说明

图1是本发明一种基于单一RGB帧的实时三维手势估计方法的系统框架图。

图2是本发明一种基于单一RGB帧的实时三维手势估计方法的实时三维手势估计方法。

图3是本发明一种基于单一RGB帧的实时三维手势估计方法的关节。

图4是本发明一种基于单一RGB帧的实时三维手势估计方法的实例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于单一RGB帧的实时三维手势估计方法的系统框架图。主要包括2D关节估计和从2D关节到3D姿势。

2D关节估计，根据检测到的边界框裁剪图像，将其馈送到2D关键点检测器；由于关键点检测器仅在左手进行训练，通过沿着Y轴镜像图像来处理右手；检测器的输出是21个热点图，对应于20个手关键点(每个手指四个)和一个手腕点的估计值。

从2D关节到3D姿势包括手部模型、单相机视图和立体声或多路摄像机输入。

手部模型具有26个自由度，由27个参数表示；手的全局平移和旋转需要6个自由度(DoF)，由7个值编码，因为采用了四元数表示三维旋转；每个手指根部的关节使用两个DoFs建模，其余的手指关节各需要一个DoF；手指关节受到真实关节限制的约束；确定模型骨架上与2D联合检测器估计的关节位置相对应的关键点。

单相机视图，给定手部模型F的27个参数和正向运动学函数定义的手部姿态P，在坐标系中使用K^P＝F(P)计算联合关键点的3D位置；

立体声或多路摄像机输入，在3D关键点生成之后，使用相应的C_v和C_p将公式(1)分别应用于每个相机；这产生了每个摄像头的一组2D关键点，对应于由相应的摄像头图像上的OpenPose检测到的关键点；继续制定非线性最小二乘问题，定义并最小化所有视图中的二维残差之和：

图2是本发明一种基于单一RGB帧的实时三维手势估计方法的实时三维手势估计方法。首先以彩色图像作为输入，使用最先进的探测器来定位手部；对于输入图像中的每一只手，手部检测器产生一个似然估计值和手部边界框的坐标，运行OpenPose(肢体语言识别系统)的预训练网络来估计手关节的二维位置，产生手部2D关节位置的热点图；最后，非线性平方最小化将手部的3D模型拟合到估计的2D关节位置，恢复3D手部姿态。

手部检测器原形是完全卷积结构，包含19个卷积层，并且最大的合并操作将288×288的输入图像缩小为7×7的分数图；通过使用批量标准化来加快和稳定训练过程，接着改进原检测器，除了双手之外，关于身体部位的额外信息可以作为区分左手和右手的简单方法，并为观察到的手部所进行的任务提供线索；同时创建一个数据集来训练检测器。

数据集包含12个不同室内环境的项目，使用OpenPose自动注释帧；在训练网络之前，将数据集分成约12000帧的训练集和约1000帧的验证集；网络训练了20000次迭代；重新训练的网络在验证集上的检测率为92.8％，误报率为1.7％；给定一个输入图像，最终的检测器可以在恒定的时间内检测两个指定的类以及边界框。

图3是本发明一种基于单一RGB帧的实时三维手势估计方法的关节。对于一个给定的姿势P，量化观察到的关节J_i和计算出的M_i之间的差异s(P，M_i，J_i)：

可以通过最小化公式(4)的目标函数来估计与可用观测(观察到的2D关节)最相容的3D手姿态P^*：

图4是本发明一种基于单一RGB帧的实时三维手势估计方法的实例图。如图所示为一些简单的手势动作，通过本方法即可实现有效准确的识别和估计。手势的识别和估计作为虚拟现实中人与计算机互动的主要辅助手段，可以帮助人们在购物中完成试衣、下单、购买等任务；在智能家居领域，人们可以通过在摄像头前做出手势即可控制家具，也可以控制视频的快进、快退、暂停和播放；在游戏领域，根据手势完成各种动作，将大大提高用户的体验效果。除此之外，提高手势的识别和估计效率，将有利于手语识别的发展，使正常人与聋哑人的沟通更加便捷准确。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于单一RGB帧的实时三维手势估计方法，其特征在于，主要包括2D关节估计(一)；从2D关节到3D姿势(二)。

2.基于权利要求书1所述的实时三维手势估计方法，其特征在于，首先以彩色图像作为输入，使用最先进的探测器来定位手部；对于输入图像中的每一只手，手部检测器产生一个似然估计值和手部边界框的坐标，运行OpenPose(肢体语言识别系统)的预训练网络来估计手关节的二维位置，产生手部2D关节位置的热点图；最后，非线性平方最小化将手部的3D模型拟合到估计的2D关节位置，恢复3D手部姿态。

3.基于权利要求书2所述的手部检测器，其特征在于，检测器原形是完全卷积结构，包含19个卷积层，并且最大的合并操作将288×288的输入图像缩小为7×7的分数图；通过使用批量标准化来加快和稳定训练过程，接着改进原检测器，除了双手之外，关于身体部位的额外信息可以作为区分左手和右手的简单方法，并为观察到的手部所进行的任务提供线索；同时创建一个数据集来训练检测器。

4.基于权利要求书3所述的数据集，其特征在于，数据集包含12个不同室内环境的项目，使用OpenPose自动注释帧；在训练网络之前，将数据集分成约12000帧的训练集和约1000帧的验证集；网络训练了20000次迭代；重新训练的网络在验证集上的检测率为92.8％，误报率为1.7％；给定一个输入图像，最终的检测器可以在恒定的时间内检测两个指定的类以及边界框。

5.基于权利要求书1所述的2D关节估计(一)，其特征在于，根据检测到的边界框裁剪图像，将其馈送到2D关键点检测器；由于关键点检测器仅在左手进行训练，通过沿着Y轴镜像图像来处理右手；检测器的输出是21个热点图，对应于20个手关键点(每个手指四个)和一个手腕点的估计值。

6.基于权利要求书1所述的从2D关节到3D姿势(二)，其特征在于，包括手部模型、单相机视图和立体声或多路摄像机输入。

7.基于权利要求书6所述的手部模型，其特征在于，手部模型具有26个自由度，由27个参数表示；手的全局平移和旋转需要6个自由度(DoF)，由7个值编码，因为采用了四元数表示三维旋转；每个手指根部的关节使用两个DoFs建模，其余的手指关节各需要一个DoF；手指关节受到真实关节限制的约束；确定模型骨架上与2D联合检测器估计的关节位置相对应的关键点。

8.基于权利要求书6所述的单相机视图，其特征在于，给定手部模型F的27个参数和正向运动学函数定义的手部姿态P，在坐标系中使用K^P＝F(P)计算联合关键点的3D位置；

<mrow> <msubsup> <mi>M</mi> <mi>i</mi> <mi>P</mi> </msubsup> <mo>=</mo> <msub> <mi>C</mi> <mi>p</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>C</mi> <mi>v</mi> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>K</mi> <mi>i</mi> <mi>P</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，是关节i在像平面上的投影(x_i,y_i)；在使用单个视图/相机的情况下，可以选择将模型保持在相机框架中；在这种情况下，C_v是单位矩阵；

令J_i＝(u_i,v_i,p_i)，i∈[1,21]表示21个检测到的2D手关节；(u_i,v_i)是输入图像上关节的二维坐标，p_i是关节i的网络置信度，(p_i∈[0,1])；为了避免在逆运动学(IK)步骤中的错误检测，不考虑具有低于实验确定的值p^th＝0.1的置信度p_i的关节J_i。

9.基于权利要求书8所述的关节，其特征在于，对于一个给定的姿势P，量化观察到的关节J_i和计算出的M_i之间的差异s(P,M_i,J_i)：

<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>,</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mn>3</mn> </msubsup> <mo>&CenterDot;</mo> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mn>3</mn> </msubsup> <mo>&CenterDot;</mo> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

类似地，观测和模型关节之间的总差异S(P,M,J)可以计算为：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>,</mo> <mi>M</mi> <mo>,</mo> <mi>J</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>21</mn> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>,</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

10.基于权利要求书6所述的立体声或多路摄像机输入，其特征在于，在3D关键点生成之后，使用相应的C_v和C_p将公式(1)分别应用于每个相机；这产生了每个摄像头的一组2D关键点，对应于由相应的摄像头图像上的OpenPose检测到的关键点；继续制定非线性最小二乘问题，定义并最小化所有视图中的二维残差之和：