CN113269158A

CN113269158A - 基于广角相机和深度相机的增强现实手势识别方法

Info

Publication number: CN113269158A
Application number: CN202110773620.9A
Authority: CN
Inventors: 谢良; 陈志华; 印二威; 闫慧炯; 罗治国; 马闯; 闫野
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-09-29
Filing date: 2021-07-08
Publication date: 2021-08-17
Anticipated expiration: 2041-07-08
Also published as: CN113269158B; CN112183389A

Abstract

本发明公开了一种基于广角相机和深度相机的增强现实手势识别方法，其步骤包括：通过AR眼镜正中央的深度相机获取视线正前方锥体范围内的深度图像，通过眼镜两侧的广角相机获取广角范围内的彩色图像；识别锥体范围内深度图像手部关节点3D坐标；预测广角范围内彩色图像手部关节点3D坐标；将椎体范围内的手势识别和广角范围手势识别结果进行融合，输出最后识别结果。本发明克服了深度相机手势识别范围小的问题，利用深度信息识别网络模型参数优化彩色信息识别网络，克服了广角相机手势识别精度不高的问题。

Description

基于广角相机和深度相机的增强现实手势识别方法

技术领域

本发明涉及人机交互、增强现实、计算机视觉领域，尤其涉及到一种结合广角相机和深度相机的增强现实手势识别方法。

背景技术

增强现实(Augmented Reality，简称AR)技术是一种将虚拟信息与真实世界融合在一起并可以产生互动的技术。随着人机交互的发展，利用人体的自然属性来实现增强现实技术已经成为一大研究热点。基于手势的交互方式因其自然、直观、便捷、易于学习等特点，成为增强现实领域的主流研究方向之一。

利用手势识别进行交互时，其手势信息的获取方式是多样的，目前主流的方法包括数据手套、加速度传感器和基于视觉的手势识别等。尽管关于前两种的手势识别效果较好，数据获取也更为准确，但其设备的连接线给使用者带来了诸多不便，影响人机交流的便捷性。基于视觉的增强现实手势识别方法能够克服这些缺点，在提高用户超现实体验感的同时，也节约了部分硬件成本。

随着一些相对成熟的深度摄像头产品相继上市，三维手势识别技术逐渐成为研究热点。使用深度相机获取深度图像的方法，可以克服传统RGB相机获取图像时易受到光照及复杂背景等因素影响的问题。但深度相机的视角范围比较小，这对于AR来说是致命的缺点。另外，手部运动的复杂性以及严重的遮挡问题，也是手势识别面临的一大难点问题。由于深度学习具有推测功能，经过不断的训练和积累，可以从不完全的信息中推测出完全的信息，从而能得到更优化的手势识别效果。所以，应用AR眼镜所具备的硬件设施，结合广角相机和深度相机，使用深度学习完成手势识别，不仅能扩大手势交互范围而且能提高手势识别准确度。

发明内容

为解决用户在使用AR眼镜进行手势交互时由于设备硬件设施造成的识别范围小的问题，同时提高广角范围内的手势识别准确度，本发明提出了一种结合广角相机和深度相机的增强现实手势识别方法。

本发明给出了一种基于广角相机和深度相机的增强现实手势识别方法，包括如下步骤：

S1、数据采集：通过AR眼镜正中央的深度相机获取视线正前方锥体范围内的深度图像，通过AR眼镜两侧的广角相机获取广角范围内的彩色图像；

S2、手势识别：通过深度信息手势识别模块识别深度图像中的手部关节点3D坐标，从而得到锥体范围内的手势识别结果；通过彩色信息手势识别模块预测彩色图像中的手部关节点2D坐标，并利用2D坐标估计得到3D坐标，从而得到广角范围内的手势识别结果；使用深度信息手势识别模块参数对彩色信息手势识别模块进行优化；

S3、信息融合：将深度信息手势识别模块输出的椎体范围内的手势识别和彩色信息手势识别模块输出的广角范围手势识别结果进行融合，输出最后识别结果。

所述的步骤S1具体包括：

S11，深度相机获取锥体范围内深度图像；

深度相机放置于AR眼镜的正中央，其视角只包含视线正前方以深度相机为顶点的锥体范围，深度相机捕获此区域内的深度图像。

所述的深度相机捕获深度图像，深度相机通过AR眼镜正中央的深度相机的传感器发出经调制的近红外光，遇物体后反射，传感器通过计算光线发射和反射时间差或相位差，来计算被拍摄景物的距离，以产生深度信息，从而得到视线正前方深度相机视角的锥体范围内的深度图像。

S12，广角相机获取广角范围内的彩色图像；

广角相机分布在AR眼镜的两侧，其水平方向视角范围大于180度，且两侧广角相机的部分视野与深度相机重叠，广角相机利用光学原理获取广角范围内的彩色图像。

步骤S2中，所述的手部关节点为手部骨架的关节点，用21个3D关键点来描述，包括每根手指的三个指节和指尖4个点以及手腕处的一个关键点，每个3D关键点有3个自由度，输出维度是21×3。

所述的步骤S2具体包括：

S21，深度信息手势识别模块通过提取深度图像中的手部关节点3D坐标对手势进行识别；

将深度相机获取的视线正前方椎体范围内的深度图像输入深度信息手势识别模块，该模块采用深度神经网络来实现，该模块采用残差网络(ResNet)结构，然后连接一个自编码层，该模块自动提取特征，输出手部关节点的三维坐标点序列，在不断地训练和学习中提高网络识别准确率和效率，同时增强模型泛化能力。

残差网络使用跳跃连接结构，可以从某一层网络层获取激活，然后迅速反馈给同深度的另外一层网络层，或者神经网络的更深层，从而缓解深度神经网络增加深度而导致的梯度消失问题，残差网络的表达式为：

H(x)＝F(x)+x，

其中，x是输入，F(x)是卷积分支的输出，H(x)是整个结构的输出。

S22，彩色信息手势识别模块用于预测彩色图像中的手部关节点2D坐标，然后以分层的方式从2D姿态估计中恢复深度信息，从而实现3D手势识别；

将AR眼镜两侧广角相机获取的广角范围内的彩色图像输入彩色信息手势识别模块，该模块由图像特征提取网络和自适应三维坐标转换网络串联构成，图像特征提取网络用于估计二维坐标下的手部关节点位置，自适应三维坐标转换网络用于将2D坐标转换为3D坐标。

所述的彩色信息手势识别模块通过预测彩色图像中的手部关节点2D坐标，然后以分层的方式从2D姿态估计中恢复深度信息，从而实现手势识别，具体包括：

S221，图像特征提取网络估计二维坐标下的手部关节点位置；

图像特征提取网络包含ResNet10残差网络以及一个全连接层，使用残差网络对图像特征进行提取，从广角相机输入的每个RGB图像帧中提取得到2048维的特征向量；使用全连接层对关节点的2D坐标的x和y坐标值进行初步预测。然后，将残差网络得到的特征向量与全连接层预测得到的关节点的2D坐标连接起来，从而为每个关节点生成了具有2050个特征的图形，图像特征与每个关节点的预测坐标之间进行串联可以使卷积网络根据图像特征对预测的初始关节点2D坐标进行修正。最后，将得到的最终的关节点修正2D坐标传递到自适应三维坐标转换网络。

S222，自适应三维坐标转换网络将手部关节点2D坐标转换为3D坐标；

自适应三维坐标转换网络使用一系列卷积、池化和解池操作将广角范围内手的坐标从2D转换为3D。自适应三维坐标转换网络包括编码器部分和解码器部分，编码器部分和解码器部分之间采用跳跃连接，由编码阶段的特征连接到解码阶段的特征：编码部分通过卷积层学习手部特征，通过池化层简化输入图；在解码部分，再利用上采样添加这些节点；在每个解码卷积中使用跳跃连接，从编码阶段的特征连接到解码阶段的特征，从而找到节点的连通性。

所述的自适应三维坐标转换网络，其编码器部分包含四个子模块，每个子模块包含两个串联的卷积层，其后连接一个通过最大池化实现的下采样层，四个子模块依次连接。

所述的自适应三维坐标转换网络，其解码器部分包含四个子模块，每个子模块包含两个串联的卷积层，其后连接一个上采样层，使得图像的分辨率依次上升，直至与输入图像的分辨率一致，四个子模块依次连接。

所述的自适应三维坐标转换网络使用的跳跃连接，将上采样所得结果与编码器中具有相同分辨率的子模块进行连接。所连接的上采样层的相应要素与解码器上一子模块的输出要素串联在一起，共同作为解码器下一个子模块的输入。

所述的自适应三维坐标转换网络，其使用一系列卷积，池化和解池操作将广角范围内手的坐标从2D转换为3D，具体包括：

所述的卷积采用valid模式；所述的池化，在每个下采样层中通过采用最大池化，将节点数量大致减少一半；所述的解池，在每个上采样层中通过上采样操作将节点数量增加一倍。

所述的步骤S3，对于深度相机和广角相机的视角重叠部分，视角重叠部分会出现两组手势关节点3D坐标，把深度信息手势识别模块的输出作为标准值3D'，把彩色信息手势识别模块估计得到的3D坐标记为待校正的3D”，然后用深度信息手势识别模块所得的模型参数去修正、优化彩色信息手势识别网络，得到修正后的关节点坐标3D”'，并使用优化后的彩色信息手势识别网络模型对锥形区域外的手势进行特征提取和识别，从而得到整个视线范围内的手势识别结果，并提高广角范围内的手势识别准确度。将深度信息手势识别模块输出的椎体范围内的手势识别和彩色信息手势识别模块输出的广角范围手势识别结果进行融合，当手势出现在锥形区域内时，使用深度相机为基础的深度信息手势识别模块输出；当手势出现在锥形区域外时，使用彩色相机为基础的深度信息手势识别模块输出。

本发明的优点在于：

(1)结合深度相机和广角相机，克服了深度相机手势识别范围小的问题；利用深度信息识别网络模型参数优化彩色信息识别网络，克服了广角相机手势识别精度不高的问题；

(2)由于整个网络架构是基于手部关节点完成手势识别的，所以不仅可以用带注释的真实图像对网络进行训练，还可以使用人工合成的手部模型三维手部姿态图像对网络进行训练。克服了真实的、带注释的手势数据集数量较少的问题，有助于更好地训练手部姿态估计模型。

(3)本发明方法不需要事先设定参数，将训练好的网络应用到AR眼镜上即可进行手势交互，具有应用效率高的优点。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明的总体框架图。

图2为本发明的具体流程图。

图3为AR眼镜深度相机和广角相机视角侧视范围图。

图4为AR眼镜深度相机和广角相机视角俯视范围图。

图5为彩色信息手势识别模块图。

图6为自适应三维坐标转换网络架构图。

图7为信息融合流程图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

鉴于AR眼镜手动交互实际应用问题，本发明的目的在于提供一种结合广角相机和深度相机的增强现实手势识别方法，能够在使用AR眼镜时，扩大手势交互的三维可视化范围，为用户提供更好的视觉呈现效果。

图1给出了本发明的总体框架图，其中包含4个主要模块，分别为数据采集模块、深度信息手势识别模块、彩色信息手势识别模块以及信息融合模块。本实施例将对上述主要模块进行细节描述。

具体的，本发明提供一种结合广角相机和深度相机的增强现实手势识别方法及系统，具体实现流程如图2所示，关键步骤如下：

S4、将训练后的模型部署到AR眼镜，利用AR眼镜完成手势交互。

所述的步骤S1具体包括：

S11，深度相机获取锥体范围内深度图像；

深度相机放置于AR眼镜的正中央，其视角只包含视线正前方以深度相机为顶点的锥体范围，深度相机捕获此区域内的深度图像。图3为AR眼镜深度相机和广角相机视角侧视范围图。

S12，广角相机获取广角范围内的彩色图像；

广角相机分布在AR眼镜的两侧，其水平方向视角范围大于180度，且两侧广角相机的部分视野与深度相机重叠，视角俯视图如图4所示，广角相机利用光学原理获取广角范围内的彩色图像。

所述的步骤S2具体包括：

残差网络使用跳跃连接结构，可以从某一层网络层获取激活，然后迅速反馈给同深度的另外一层网络层，或者神经网络的更深层，从而缓解深度神经网络增加深度而导致的梯度消失问题。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。残差网络的表达式为：

H(x)＝F(x)+x，

S22，彩色信息手势识别模块用于预测彩色图像中的手部关节点2D坐标，然后以分层的方式从2D姿态估计中恢复深度信息，从而实现手势识别，网络实现如图5所示；

所述的彩色信息手势识别模块用于预测彩色图像中的手部关节点2D坐标，然后以分层的方式从2D姿态估计中恢复深度信息，从而实现手势识别，具体包括：

S221，图像特征提取网络估计二维坐标下的手部关节点位置；

自适应三维坐标转换网络使用一系列卷积、池化和解池操作将广角范围内手的坐标从2D转换为3D。自适应三维坐标转换网络包括编码器部分和解码器部分，编码器部分和解码器部分之间采用跳跃连接，由编码阶段的特征连接到解码阶段的特征，其结构如图6所示：编码部分通过卷积层学习手部特征，通过池化层简化输入图；在解码部分，再利用上采样添加这些节点；在每个解码卷积中使用跳跃连接，从编码阶段的特征连接到解码阶段的特征，从而找到节点的连通性。该网络可以简化图形，并获得手的全局特征，还可以通过跳跃连接获得手部的局部特征。

步骤S1中深度相机视角的锥体范围与广角相机的广角范围有重叠部分，而且，步骤S2中的深度信息手势识别模块直接采用深度信息进行手势识别，其准确度要高于彩色信息手势识别模块采用彩色图像估计2D坐标，再转换到3D坐标的间接方法。

所述的步骤S3，对于深度相机和广角相机的视角重叠部分，视角重叠部分会出现两组手势关节点3D坐标，把深度信息手势识别模块的输出作为标准值3D'，把彩色信息手势识别模块估计得到的3D坐标记为待校正的3D”，然后用深度信息手势识别模块所得的模型参数去修正、优化彩色信息手势识别网络，得到修正后的关节点坐标3D”'，并使用优化后的彩色信息手势识别网络模型对锥形区域外的手势进行特征提取和识别，从而得到整个视线范围内的手势识别结果，并提高广角范围内的手势识别准确度。将深度信息手势识别模块输出的椎体范围内的手势识别和彩色信息手势识别模块输出的广角范围手势识别结果进行融合，融合规则如图7所示，当手势出现在锥形区域内时，使用深度相机为基础的深度信息手势识别模块输出；当手势出现在锥形区域外时，使用彩色相机为基础的深度信息手势识别模块输出。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于广角相机和深度相机的增强现实手势识别方法，其特征在于，包括如下步骤：

2.一种如权利要求1所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，所述的步骤S1具体包括：

S11，深度相机获取锥体范围内深度图像；

深度相机放置于AR眼镜的正中央，其视角只包含视线正前方以深度相机为顶点的锥体范围，深度相机捕获此区域内的深度图像；

所述的深度相机捕获深度图像，深度相机通过AR眼镜正中央的深度相机的传感器发出经调制的近红外光，遇物体后反射，传感器通过计算光线发射和反射时间差或相位差，来计算被拍摄景物的距离，以产生深度信息，从而得到视线正前方深度相机视角的锥体范围内的深度图像；

S12，广角相机获取广角范围内的彩色图像；

3.一种如权利要求1所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，步骤S2中，所述的手部关节点为手部骨架的关节点，用21个3D关键点来描述，包括每根手指的三个指节和指尖4个点以及手腕处的一个关键点，每个3D关键点有3个自由度，输出维度是21×3。

4.一种如权利要求1所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，所述的步骤S2具体包括：

将深度相机获取的视线正前方椎体范围内的深度图像输入深度信息手势识别模块，该模块采用深度神经网络来实现，该模块采用残差网络(ResNet)结构，然后连接一个自编码层，该模块自动提取特征，输出手部关节点的三维坐标点序列，在不断地训练和学习中提高网络识别准确率和效率，同时增强模型泛化能力；

H(x)＝F(x)+x，

其中，x是输入，F(x)是卷积分支的输出，H(x)是整个结构的输出；

5.一种如权利要求4所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，所述的彩色信息手势识别模块用于预测彩色图像中的手部关节点2D坐标，然后以分层的方式从2D姿态估计中恢复深度信息，从而实现手势识别，具体包括：

S221，图像特征提取网络估计二维坐标下的手部关节点位置；

图像特征提取网络包含ResNet10残差网络以及一个全连接层，使用残差网络对图像特征进行提取，从广角相机输入的每个RGB图像帧中提取得到2048维的特征向量；使用全连接层对关节点的2D坐标的x和y坐标值进行初步预测；然后，将残差网络得到的特征向量与全连接层预测得到的关节点的2D坐标连接起来，从而为每个关节点生成了具有2050个特征的图形，图像特征与每个关节点的预测坐标之间进行串联可以使卷积网络根据图像特征对预测的初始关节点2D坐标进行修正；最后，将得到的最终的关节点修正2D坐标传递到自适应三维坐标转换网络；

自适应三维坐标转换网络使用一系列卷积、池化和解池操作将广角范围内手的坐标从2D转换为3D；自适应三维坐标转换网络包括编码器部分和解码器部分，编码器部分和解码器部分之间采用跳跃连接，由编码阶段的特征连接到解码阶段的特征：编码部分通过卷积层学习手部特征，通过池化层简化输入图；在解码部分，再利用上采样添加这些节点；在每个解码卷积中使用跳跃连接，从编码阶段的特征连接到解码阶段的特征，从而找到节点的连通性。

6.一种如权利要求5所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，所述的自适应三维坐标转换网络，其编码器部分包含四个子模块，每个子模块包含两个串联的卷积层，其后连接一个通过最大池化实现的下采样层，四个子模块依次连接；

7.一种如权利要求5所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，所述的自适应三维坐标转换网络使用跳跃连接，自适应三维坐标转换网络将上采样所得结果与编码器中具有相同分辨率的子模块进行连接；所连接的上采样层的相应要素与解码器上一子模块的输出要素串联在一起，共同作为解码器下一个子模块的输入。

8.一种如权利要求1所述的基于广角相机和深度相机的增强现实手势识别方法，其特征在于，所述的步骤S3，对于深度相机和广角相机的视角重叠部分，视角重叠部分会出现两组手势关节点3D坐标，把深度信息手势识别模块的输出作为标准值3D'，把彩色信息手势识别模块估计得到的3D坐标记为待校正的3D”，然后用深度信息手势识别模块所得的模型参数去修正、优化彩色信息手势识别网络，得到修正后的关节点坐标3D”'，并使用优化后的彩色信息手势识别网络模型对锥形区域外的手势进行特征提取和识别，从而得到整个视线范围内的手势识别结果，并提高广角范围内的手势识别准确度；将深度信息手势识别模块输出的椎体范围内的手势识别和彩色信息手势识别模块输出的广角范围手势识别结果进行融合，当手势出现在锥形区域内时，使用深度相机为基础的深度信息手势识别模块输出；当手势出现在锥形区域外时，使用彩色相机为基础的深度信息手势识别模块输出。