CN111488791A

CN111488791A - 将指尖运动模式实时地设备上分类为手势

Info

Publication number: CN111488791A
Application number: CN202010075751.5A
Authority: CN
Inventors: 拉米雅·苏戈纳纳·穆尔蒂·赫巴拉古佩; 瓦伦·亚伊; 戈拉夫·加尔葛
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2019-01-25
Filing date: 2020-01-22
Publication date: 2020-08-04
Also published as: KR20200092894A; JP2020119510A; EP3686772A1; US20200241646A1

Abstract

本申请涉及将指尖运动模式实时地设备上分类为手势。手势在增强现实/混合现实应用中形成直观的交互手段。然而，可以通过深度学习模型或使用昂贵的传感器来实现精确的手势识别。虽然这些深度学习模型具有鲁棒性，但是它们通常从计算上讲是昂贵的，并且获得实时性能仍然是一个挑战。本公开实施例提供了用于将指尖运动模式分类为不同手势的系统和方法。将红绿蓝图像作为输入馈送到对象检测器(MobileNetV2)以输出手候选边界框，然后缩小该手候选以减少处理时间而不损害图像特征的质量。然后，将检测到的手候选馈送到指尖回归器，该指尖回归器输出表示运动模式的指尖的空间位置，其中将指尖的坐标馈送到用于将运动模式分类为不同手势的双向长期短期记忆网络。

Description

将指尖运动模式实时地设备上分类为手势

相关申请和优先权的交叉引用

本专利申请要求2019年1月25日提交的印度专利申请201921003256的优先权，其全部内容通过引用并入本文。

技术领域

本文中的内容总体上涉及分类技术，并且更具体地，涉及将指尖运动模式实时地设备上分类为手势。

背景技术

在过去的几十年中，信息技术已经从台式机过渡到移动计算。智能手机、平板电脑、智能手表和头戴式设备(HMD)正在(或已经)缓慢地替代基于台式机的计算。就从办公室和家庭办公室环境到随时随地活动的计算而言，已经有了明显的变化。移动电话构成了生活的很大一部分：互联网上由它们产生的通信量的百分比正在超过其台式机对应物。自然地，随着这种过渡，人与这些设备交互的方式也从键盘/鼠标演变为手势、语音和脑机接口。在嘈杂的户外环境中，语音接口往往不够精确，并且因此大多数HCI研究者都对手势接口和语音的组合感兴趣。实时馈送或视频上的手势识别是活动识别的形式。手势在混合现实(MR)应用中形成直观的交互手段。然而，只有通过深度学习模型或使用昂贵的传感器才能实现精确的手势识别。尽管这些深度学习模型具有鲁棒性，但是它们通常在计算上是昂贵的，并且获得实时性能仍然是一个挑战。

发明内容

本公开的实施例提出了技术改进，作为发明人认识到的常规系统中的一个或多个上述技术问题的解决方案。例如，一方面，一种用于将指尖运动模式实时地设备上分类为手势的处理器实现的方法。在经由移动通信设备的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中，实时接收来自图像获取设备的多个红、绿和蓝(RGB)输入图像，其中，多个RGB输入图像中的每个RGB输入图像包括手势；使用包括在经由移动通信设备上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的对象检测器，实时检测来自所接收的多个RGB输入图像的多个手候选边界框，其中，多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像中的相应RGB图像，其中，多个手候选边界框中的每个手候选边界框包括手候选；实时缩小来自多个手候选边界框中的每个手候选边界框的手候选，以获得缩小的手候选集合；使用包括在经由移动通信设备上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的指尖回归器，实时检测来自缩小的手候选集合中的每个缩小的手候选的指尖的空间位置，其中，来自缩小的手候选集合的指尖的空间位置表示指尖运动模式；以及使用来自指尖的空间位置的第一坐标和第二坐标，经由包括在经由移动通信设备上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络，将指尖运动模式实时分类为一个或多个手势。

在一个实施例中，包括手候选的手候选边界框中的每个手候选边界框描述了用于分类为一个或多个手势的指向手势姿态。

在一个实施例中，将指尖运动模式分类为一个或多个手势的步骤包括将回归技术应用于指尖的第一坐标和第二坐标。

在一个实施例中，基于在多个RGB输入图像中的一组连续帧上存在正指向手指手检测来检测指尖的空间位置，并且其中，正指向手指手检测的存在指示手势的开始。

在一个实施例中，在多个RGB输入图像中的一组连续帧上不存在正指向手指手检测指示手势的结束。

在另一方面，提供了一种用于将指尖运动模式实时分类为手势的系统。该系统包括存储指令的存储器；一个或多个通信接口；以及经由一个或多个通信接口耦接到存储器的一个或多个硬件处理器，其中，一个或多个硬件处理器由指令配置为：在级联深度学习模型(CDLM)中，实时接收包括在存储器中并经由系统的一个或多个硬件处理器执行的来自图像获取设备的多个红、绿和蓝(RGB)输入图像，其中，多个RGB输入图像中的每个RGB输入图像包括手势；使用包括在经由系统上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的对象检测器，实时检测来自所接收的多个RGB输入图像的多个手候选边界框，其中，多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像中的相应RGB图像，其中，多个手候选边界框中的每个手候选边界框包括手候选；实时缩小来自多个手候选边界框中的每个手候选边界框的手候选，以获得缩小的手候选集合；使用包括在经由系统上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的指尖回归器，实时检测来自缩小的手候选集合中的每个缩小的手候选的指尖的空间位置，其中，来自缩小的手候选集合的指尖的空间位置表示指尖运动模式；以及使用来自指尖的空间位置的第一坐标和第二坐标，经由包括在经由系统上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络，将指尖运动模式实时分类为一个或多个手势。

在一个实施例中，通过将回归技术应用于指尖的第一坐标和第二坐标，将指尖运动模式分类为一个或多个手势。

在又一方面，提供了一种或多种非暂时性机器可读信息存储介质，其包括一个或多个指令，该指令在由一个或多个硬件处理器执行时使得：在经由移动通信设备的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中，实时接收来自图像获取设备的多个红、绿和蓝(RGB)输入图像，其中，多个RGB输入图像中的每个RGB输入图像包括手势；使用包括在经由移动通信设备上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的对象检测器，实时检测来自所接收的多个RGB输入图像的多个手候选边界框，其中，多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像中的相应RGB图像，其中，多个手候选边界框中的每个手候选边界框包括手候选；实时缩小来自多个手候选边界框中的每个手候选边界框的手候选，以获得缩小的手候选集合；使用包括在经由移动通信设备上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的指尖回归器，实时检测来自缩小的手候选集合中的每个缩小的手候选的指尖的空间位置，其中，来自缩小的手候选集合的指尖的空间位置表示指尖运动模式；以及使用来自指尖的空间位置的第一坐标和第二坐标，经由包括在经由移动通信设备上的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络，将指尖运动模式实时分类为一个或多个手势。

应当理解，前面的一般描述和下面的详细描述都仅仅是示例性和说明性的，而不是对所要求保护的本发明的限制。

附图说明

并入并构成本公开的一部分的附图示出了示例性实施例，并且与说明书一起用于解释所公开的原理：

图1示出了根据本公开的实施例的用于将指尖运动模式实时地设备上分类为手势的系统的示例性框图。

图2示出了根据本公开的实施例的用于将指尖运动模式实时地设备上分类为手势的系统的示例性框图。

图3示出了根据本公开的实施例的使用图1的系统将指尖运动模式实时地设备上分类为手势的方法的示例性流程图。

图4描述了根据本公开的示例性实施例的由图1的系统实现的用于指尖定位的指尖回归器架构。

图5描述了根据本公开的示例性实施例在数据收集之前向用户示出的手势序列。

图6描述了根据本公开的示例性实施例的本公开与常规方法的图像比较，本公开与常规方法分别指示检测器(手候选边界框)在诸如光照差、渲染模糊、室内和室外环境的不同条件下的结果。

图7A至图7B示出了根据本公开的示例性实施例的描述本公开与常规技术的的手指定位比较的图形表示。

图8描述了根据本公开的示例性实施例的图3的方法在使用基于智能手机的

虚拟纸盒(

Cardboard)头戴式设备获取的240个第一人称视频(egocentric video)上的总体性能。

具体实施方式

参照附图描述示例性实施例。在附图中，附图标记的最左边的数字标识该附图标记首次出现的附图。只要方便，在所有附图中使用相同的附图标记来表示相同或相似的部件。虽然本文描述了所公开的原理的示例和特征，但是在不脱离所公开的实施例的精神和范围的情况下，修改、适配和其他实现是可以的。下面的详细描述仅被认为是示例性的，真正的范围和精神由所附权利要求表示。

昂贵的增强现实(AR)/混合现实(MR)设备(例如，

HoloLens、Daqri和Meta Glass)通过使用最近的硬件改进来提供丰富的用户界面。它们配备有各种机载传感器，包括多个照相机、深度传感器和专有处理器。这使得它们昂贵且无法大规模采用。

为了通过手势提供用户友好的界面，检测用户视野(FoV)中的手；定位手上的某些关键点；以及理解它们的运动模式是近年来视觉领域的重要工作。尽管具有使用现有技术的对象检测器和序列跟踪方法的鲁棒的深度学习模型来解决这些问题，但是由于对存储器和处理的资源限制，获得实时性能，特别是在例如设备上的系统上获得实时性能仍然是一个挑战。

在本公开中，实施例描述了一种计算上有效的手势识别框架，其在不需要深度信息和专用硬件的情况下工作，从而提供了手势接口对最可负担的视频透视HMD的大量可访问性。这些设备通过使用智能手机相机馈送的立体呈现来提供虚拟现实(VR)/MR体验，但是具有有限的用户交互能力。

工业检查和维修、远程呈现和数据可视化是本公开的实施例所描述的框架的一些直接应用，并且其可以实时工作并且具有能够在远程环境中工作而不需要互联网连接的益处。为了说明在本公开中实现的框架的一般性质，已经用示例Android应用说明了使用指向手势来执行10个复杂手势的检测。

为此，本公开的实施例提供了实现用于可穿戴设备的在第一人称视图中工作的手势识别框架的系统和方法。模型在图形处理单元(GPU)机器上进行训练并且移植到Android智能手机上以供其与例如

Cardboard和VR Box的经济型可穿戴设备一起使用。本公开实现了由级联深度学习模型驱动的手势识别框架：用于手定位的MobileNetV2，跟随有用于手势分类的Bi-LSTM模型的指尖回归架构。

现参照附图，并且更具体地参照图1至图8，其中相似的附图标记始终表示相应的特征，示出了优选实施例，并且在以下示例性系统和/或方法的上下文中描述这些实施例。

图1示出了根据本公开的实施例的用于将指尖运动模式实时地设备上分类为手势的系统100的示例性框图。系统100还可以称为“分类系统”或“移动通信设备”或“通过头戴式设备观看的视频”，并且在下文中可互换地使用。在一个实施例中，系统100包括一个或多个处理器104、通信接口设备或输入/输出(I/O)接口106以及可操作地耦接到一个或多个处理器104的一个或多个数据存储设备或存储器102。一个或多个处理器104可以是一个或多个软件处理模块和/或硬件处理器。在一个实施例中，硬件处理器可以实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任何设备。在其他功能中，处理器经配置获取和执行存储在存储器中的计算机可读指令。在一个实施例中，设备100可以在各种计算系统中实现，诸如膝上型计算机、笔记本、手持设备、工作站、大型计算机、服务器、网络云等。

I/O接口设备106可以包括各种软件和硬件接口，例如web接口、图形用户接口等，并且可以促进多种网络N/W和协议类型(包括有线网络(例如LAN、电缆等)以及无线网络(例如WLAN、蜂窝或卫星))内的多个通信。在一个实施例中，I/O接口设备可以包括用于将多个设备彼此连接或连接到另一服务器的一个或多个端口。

存储器102可以包括本领域已知的任何计算机可读介质，包括例如易失性存储器，诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)；和/或非易失性存储器，诸如只读存储器(ROM)、可擦除可编程ROM、闪存存储器、硬盘、光盘和磁带。在一个实施例中，数据库108可以存储在存储器102中，其中，数据库108可以包括例如从一个或多个计算设备获取的红、绿和蓝(RGB)输入图像(例如，通过头戴式设备观看的视频)、涉及边界框的数据(包括手候选、缩小的手候选、从缩小的手候选检测的指尖的空间位置、从指尖的空间位置导出的x坐标和y坐标以及被分类为一个或多个手势的指尖的运动模式)等的信息。在一个实施例中，存储器102可以存储一种或多种技术(例如，特征提取器或特征检测器，也称为MobileNetV2、图像处理技术(诸如缩小)、指尖回归/回归器、双向长期短期记忆(Bi-LSTM)网络等)，其在由一个或多个硬件处理器104执行时执行本文所述的方法。存储器102进一步包括(或可以进一步包括)关于由本公开的系统和方法执行的每个步骤的输入/输出的信息。在一个实施例中，MobileNetV2(特征提取器或特征检测器)、图像处理技术、指尖回归/回归器和双向长期短期记忆(Bi-LSTM)网络一起耦接形成级联深度学习模型(CDLM)，其在由一个或多个硬件处理器104执行时执行本文所述的方法。

参考图1，图2示出了根据本公开的实施例的用于将指尖运动模式实时地设备上分类为手势的系统100的示例性框图。可选地，图2示出了根据本公开的实施例的用于将指尖运动模式实时地设备上分类为手势的系统100的示例性实现。图2中所示的架构经配置识别具有单目RGB相机输入的经济型AR可穿戴设备的各种手势，该单目RGB相机输入仅需要有限量的标记分类数据用于将指尖运动模式分类为不同手势。

参考图1至图2，图3示出了根据本公开的实施例的用于使用图1的系统100将指尖运动模式实时地设备上分类为手势的方法的示例性流程图。在一个实施例中，系统100包括可操作地耦接到一个或多个硬件处理器104的一个或多个数据存储设备或存储器102，并且经配置存储用于由一个或多个处理器104执行该方法的步骤的指令。现将参考图1的系统100的组件、图2和图4的框图以及图3中所描述的流程图来解释本公开的方法的步骤。在本公开的实施例中，在步骤302处，一个或多个硬件处理器104在经由移动通信设备100的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中实时接收来自图像获取设备的多个红、绿和蓝(RGB)输入图像，其中，多个RGB输入图像中的每个RGB输入图像包括手势。换言之，移动通信设备100包括级联深度学习模型，其具有将单个RGB图像作为输入的特征提取器/对象检测器(例如，本公开中的MobileNetV2)。

在本公开的实施例中，在步骤304处，一个或多个硬件处理器104使用包括在移动通信设备100上执行的级联深度学习模型(CDLM)中的对象检测器实时检测来自所接收的多个RGB输入图像的多个手候选边界框。在一个实施例中，多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像的相应RGB图像，并且每个手候选边界框包括手候选。换言之，MobileNetV2输出包括手候选的手候选边界框。包括手候选的每个手候选边界框描述了用于分类为一个或多个手势的指向手势姿态。图2描述了由在图1的系统100上执行的级联深度学习模型的对象检测器输出的手候选。

MobileNetV2是一种流线型架构，其使用深度方向上可分离的卷积来构建轻量的深度神经网络。深度方向可分离卷积将标准卷积分解成深度方向卷积和也称为点方向卷积的1×1卷积，从而减少网络中参数的数量。它建立在MobileNetV1(对象检测器的早期版本)的思想之上，但是它将两个新特性结合到架构中：(i)各层之间的线性瓶颈，以及(ii)跳过瓶颈之间的连接。瓶颈对模型的中间输入和输出进行编码，而内层封装了模型从诸如像素的低层概念转换到诸如图像类别的高层描述符的能力。跳过连接，类似于常规的残差连接，在没有任何精度损失的情况下实现更快的训练。

在本公开为了检测从可穿戴设备获得的RGB输入图像中的手候选而进行的实验中，本公开的系统和方法使用常规系统和方法/技术(例如，常规技术1-SSDLite-对象检测模块)来评估MobileNetV2特征提取器。实验和结果部分强调了与具有预训练的VGG-16模型的现有技术相比的结果，该预训练的VGG-16模型包括13个共享卷积层以及其他紧凑模型，例如ZF(例如，Zeiler和Fergus 2014)和VGG1024(Chatfield等人，2014)通过修改最后一个完全连接层以检测手类别(指向手势姿态)。

返回参考图3的步骤，在本公开的实施例中，在步骤306处，一个或多个硬件处理器104实时缩小来自多个手候选边界框的每个手候选边界框的手候选，以获得缩小的手候选集合。换言之，首先将包括手候选的输入图像缩小到特定分辨率(例如，在本公开中对于特定用例场景为640×480分辨率)，以减少处理时间而不损害图像特征的质量。

在本公开的实施例中，在步骤308处，一个或多个硬件处理器104使用包括在移动通信设备100上执行的级联深度学习模型(CDLM)中的指尖回归器实时检测来自缩小的手候选集合中的每个缩小的手候选的指尖的空间位置。在一个实施例中，来自缩小的手候选集合的指尖的空间位置表示指尖运动模式。换言之，然后将检测到的手候选馈送到如图2所示的指尖回归器，该指尖回归器输出指尖运动模式(或也称为指尖)的空间位置。

在本公开中，系统100基于卷积神经网络(CNN)架构实现指尖回归器以定位指尖的(x，y)坐标。先前讨论的手候选检测(指向手势姿态)触发用于指尖定位的回归CNN。在将手候选边界框馈送到图4所示的网络之前，首先剪切手候选边界框并将其调整大小到99×99分辨率。更具体地，参照图1至图3，图4示出了根据本公开的示例实施例的由图1的系统100实现的用于指尖定位的指尖回归器架构。

由系统100和图4中的本公开实现的CNN架构包括两个卷积块，每个卷积块具有三个卷积层，其后是最大合并层。最后，使用三个完全连接的层对最后一层的指尖点的两个坐标值进行回归。在本公开中，图4描述用于指尖定位的指尖回归器架构。Bi-LSTM/LSTM分类网络的输入是3×99×99大小的RGB图像。2个卷积块中的每一个具有3个卷积层，每个卷积层之后是最大合并层。3个完全连接的层在指尖空间位置上回归。因为目的是确定对应于指尖位置的连续值输出，所以均方误差(MSE)测量被用于计算最后完全连接层的损耗。对该模型进行鲁棒定位训练，并与常规技术提出的架构进行比较。

在本公开的实施例中，在步骤310处，一个或多个硬件处理器104使用来自指尖的空间位置的第一坐标和第二坐标，经由包括在移动通信设备上执行的级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络将指尖运动模式实时分类为一个或多个手势。换句话说，这些(例如，空间位置-指尖运动模式的x和y坐标)的集合接着馈送到Bi-LSTM网络，用于将运动模式分类为不同的手势。更具体地，通过在指尖的第一坐标(例如，假定“x”坐标)和第二坐标(例如，假定“y”坐标)上应用回归技术，将每个指尖运动模式分类为一个或多个手势。在一个实施例中，对于由用户执行的动作(例如手势)，如图2所示的指尖(或指尖运动模式)的‘x’和‘y’坐标分别是45和365。在另一实施例中，对于用户正在执行的另一动作，如图2所示的指尖的‘x’和‘y’坐标分别是290和340。在又一实施例中，对于用户正在执行的又一动作，如图2所示的指尖的‘x’和‘y’坐标分别是560和410。另外，在描述Bi-LSTM/LSTM分类网络的图2的部分(c)中，本公开还描述了将后续帧上的指尖检测分类为不同手势(例如，复选标记、右、矩形、X(或删除)等)。此外，特定指尖运动模式被分类到的这些手势中的每一个，系统100或Bi-LSTM/LSTM分类网络计算(或提供)指示特定指尖运动模式被识别/分类为候选手势的概率的概率得分(例如，可以使用现有技术中已知的技术来计算概率得分)。例如，在一个示例实施例中，对于分别为45和365的指尖的‘x’和‘y’坐标，Bi-LSTM/LSTM分类网络已经将指尖运动模式分类为“复选标记手势”，并且已经计算了作为复选标记手势的指尖运动模式的概率得分0.920。换句话说，在一个示例实施例中，概率得分0.920指示特定指尖运动模式是基于其相关联的空间位置(或x’和‘y’坐标)的可能的复选标记手势并且被分类。类似地，如图4所示，为其他指尖运动模式计算概率得分以分类为其他手势。

如上所述，指尖定位网络(或指尖回归器)输出指尖的空间位置(x，y)，然后将其作为输入馈送到手势分类网络(或Bi-LSTM网络)。为了降低计算成本，输入(x，y)坐标由系统100调整，而不是由Bi-LSTM网络的整个帧调整，从而有助于实现实时性能。通过本公开所进行的实验观察到，对于特定分类任务，由系统100实现的Bi-LSTM网络比LSTM网络性能更好，因为它们在前向和反向均处理序列。LSTM的使用固有地意味着整个框架也适用于具有可变长度帧序列的视频和实况馈送。这一点尤其重要，因为手势的长度取决于用户执行手势的时间以及前两个网络的性能。

常规技术已经进行了可行性研究，用于对针对经济型

Cardboard设置的可用交互模式进行排名，并且报告了磁性触发器和导电杆的频繁使用导致该装置的磨损和撕裂并且其在可用性上得分很差。因此，本公开实现了表示用户输入序列的开始和结束的自动和隐式触发。在五个连续帧上正指向手指手检测的情况下，触发框架以开始记录指尖的空间位置。换句话说，基于在多个RGB输入图像中的一组连续帧上正指向手指手检测的存在来检测指尖的空间位置，并且正指向手指手检测的存在表示手势的开始。

类似地，(5个)连续帧上不存在任何手检测表示手势的结束。换句话说，在多个RGB输入图像中的一组连续帧上不存在正指向手指手检测表示手势的结束。然后将记录的序列作为输入馈送到由30个单元组成的Bi-LSTM层。向前和向后激活在被传递到使数据成为一维的下一个平坦层之前被倍增。随后是具有10个输出得分的完全连接层，该10个输出得分对应于10个手势中的每一个。由于任务是对10个手势类进行分类，所以使用softmax激活函数将输出分数解释为未归一化的对数概率，并且使用以下等式将输出分数压制为在0和1之间：

其中K表示类的数目，s是K×1得分向量，softmax函数的输入，并且j是从1到K变化的指数。σ(s)是表示与每个手势相关联的后验概率的K×1输出向量。在训练中使用交叉熵损失来更新网络反向传播中的模型。

数据集

本公开使用SCUT-Ego-Finger数据集(例如，参考Deepfinger：一种级联卷积神经元网络方法，用于移动相机自中心视觉中的手指关键点检测)。在2015年IEEE国际会议《系统、人力和控制论学报》(SMC)，第2944-2949页，IEEE(也可参考Huang等人，2015)，用于训练图2所示的手检测和指尖定位模块。数据集包括93729个指向手势帧，包括手候选边界框和食指关键点坐标。

(EgoGestAR)数据集

在识别时间手势的任务中，阻碍深度学习的主要因素是缺乏可用的大规模数据集来训练神经网络。因此，为了训练和评估手势分类网络，本公开使用AR/MR可穿戴物的自中心视觉手势数据集。数据集包括10个手势模式。为了在数据中引入可变性，借助于随机(来自实验室)选择的50名年龄从21至50岁的受试者收集数据集。受试者的平均年龄为27.8岁。数据集由2500个手势模式组成，其中每个受试者记录每个手势的5个样本。通过将平板式个人计算机PC安装到墙壁上来记录手势。存储由用户的食指在具有位置感测区域的触摸接口应用上绘制的图案。以640×480的分辨率获取数据。图5描述了在数据收集之前显示给用户的标准输入序列。来自受试者(或用户)的这些手势主要被分成3类，以便在本公开的混合现实(MR)应用中数据可视化的上下文中有效利用。更具体地，图5参照图1至图4描绘了根据本公开的示例性实施例在数据收集之前向用户示出的手势序列。这3个类别不应被解释为限制本发明的范围，并且本文通过示例的方式呈现并且用于更好地理解本文描述的实施例：

1.4种滑动手势模式(向上、向下、向左和向右)以浏览图形可视化/列表。

2.2种手势模式(矩形和圆形)，用于在用户的FoV中突出显示感兴趣的区域(RoI)以及进行放大和缩小操作。

3.4种手势模式(复选标记：是；插入符号：否；X：删除；星形：书签)，用于在与诸如工业检查的应用程序交互时回答上下文问题(Ramakrishna等人，2016年)。

此外，为了测试由本公开的系统和方法实现的整个框架，240个视频由执行每个手势22次的上述受试者的随机子集记录。还记录了随机手部运动的另外20个视频。使用安装在

Cardboard上的

设备记录视频。以640×480的分辨率和每秒30帧(FPS)获取高质量视频。

实验和结果

由于本公开的系统100所实现的框架包括三个网络，因此每个网络的性能被单独评估以达到本公开所提出的应用的网络的最佳组合。实验使用8核

Core^TM i7-6820HQ CPU、32GB存储器和

Quadro M5000M GPU机器。使用了

845芯片组智能手机，该芯片组智能手机使用以Linksys EA6350 802.11ac兼容无线路由器上托管的局域网与服务器连接(需要时：评估在设备上运行的方法)。

对于本公开所进行的涉及手检测和指尖定位的所有实验，使用如上所述的手数据集。在数据集中存在的24个受试者中，选择17个受试者的数据进行训练，验证分割为70：30，并且7个受试者的数据(24；155幅图像)用于测试网络。

手检测

表1报告了用于手候选检测的平均绝对精度(mAP)和帧速率的百分比。更具体地，表1描述了SCUT-Ego-Finger手检测数据集上各种方法的性能。报告了随IoU变化的mAP分数、帧速率和模型大小。

表1

虽然MobileNetV2实现了比其他更高的帧速率，但它产生了很高的误报，因此导致较差的分类性能。可以观察到现有技术(例如，由虚线描绘的YOLOv2)也可以在设备上运行，尽管它与MobileNetV2相比输出更少的帧。在交并比(IoU)为0.5时，YOLOv2(由虚线描绘)在SCUT-Ego-Finger手数据集上达到93.9％mAP，而MobileNetV2只达到89.1％mAP。然而，还观察到，与MobileNetV2相比，现有技术(例如，由虚线描绘的YOLOv2)在将手候选定位在包括指尖所需的较高IoU时性能较差。图6参照图1至图5描绘了根据本公开的示例性实施例的本公开与常规方法的图像比较，本公开与常规方法分别指示检测器(手候选边界框)在诸如光照差、渲染模糊、室内和室外环境的不同条件下的结果。值得注意的是，即使两个检测器都不可能在背景中预测误报，现有技术(例如，由虚线描绘的YOLOv2)使得更多的定位误差证明MobileNetV2更好地适合本公开的使用情况。

还值得注意的是，MobileNetV2的模型大小明显小于其余模型。它使得本公开能够将模型移植到移动设备上并且消除框架对远程服务器的依赖性。这有助于减少由网络引入的等待时间，并可以使经济型设备更广泛地应用于MR应用。

指尖定位

本公开评估了用于在24155幅图像的测试集上进行指尖定位的模型。当与常规技术的网络(例如，参考基于指向手势的自中心交互系统：数据库、方法和应用。IEEE会议论文集中有关计算机视觉与模式识别研讨，第16-23页，由Huang,Y.、Liu,X.、Zhang,X.和Jin,L.也称为Huang等人著，2016)相比较时，将与在最后一层估计的手指坐标相对应的2×1连续值输出与地面真值进行比较，以计算误差阈值(以像素为单位)和合成图，如图7A至图7B所示。更具体地，参照图1至图6，图7A至图7B示出了根据本公开的示例性实施例的描述本公开的手指定位与常规技术的比较的图形表示。

本公开已经使用了学习速度为0：001的Adam优化器。该模型在99×99分辨率的输入图像上实现了89.06％的精度，误差容限为10像素。对于本公开的方法，平均绝对误差为2.72像素，而对于常规技术中提出的网络，平均绝对误差为3.59像素。从图7A至图7B的图形表示中明显看出，由本发明实现的模型在任何给定误差阈值下实现了更高的成功率(参见图7B)。对于本发明的方法，具有低定位误差的图像的比例更高。

手势分类

本公开利用专有数据集来训练和测试手势分类网络。在与Bi-LSTM相同的训练和测试环境中尝试/试图利用LSTM网络进行分类。在训练期间，使用训练集的2000个手势模式。总共8230个网络参数用批量64和验证分割80：20训练。已经使用了学习速度为0：001的Adam优化器。网络训练900个周期，LSTM和Bi-LSTM的验证准确率分别为95.17％和96.5％。LSTM和Bi-LSTM分别达到92.5％和94.3％的分类精度，优于用于类似分类任务的常规方法(或常规技术)。该系统的LSTM和Bi-LSTM方法与常规技术分类的比较示于下表2中。

表2

方法	精度	召回	F1分数
				常规技术/研究X	0.741	0.76	0.734
常规技术/研究Y	0.860	0.842	0.851
				LSTM	0.975	0.920	0.947
Bi-LSTM(本公开)	0.956	0.940	0.948

常规技术/研究包括，例如，常规技术/研究X-比较涉及立体照相机、深度照相机和惯性传感器的两个实时手势识别系统。在SPIE光子学欧洲，91390C-91390C中，国际光学与光子学会，由Liu，K.、Kehtarnavaz，N.和Carlsohn，M，2014年4著与常规技术/研究Y-‘Liblinear：一个大型线性分类库’，机器学习研究期刊，8月9日：1871-1874，由Fan，R.-E.、Chang，K.-W.、Hsieh，C.-J.、Wang，X.-R.和Lin，C.-J，2008.-也称为Fan等人著。更具体地，表2描述了不同分类方法在本公开的专有数据集上的性能。计算所有类的精度和召回值的平均值以得到单个数。

另外，观察到传统方法(或表2中所示的常规技术)的性能在没有足够数据点的情况下显著恶化。因此，它们依赖于复杂的插值技术(导致额外的处理时间和存储器消耗)来给出一致的结果。

框架评估

因为本公开的方式/方法是用一系列不同的网络来实现或执行的，所以实时的总分类精度可以根据流水线中使用的每个网络的性能而变化。因此，使用利用基于智能手机的

Cardboard头戴式设备获取的240个自中心视频来评估整个框架。在本公开进行的实验中使用MobileNetV2模型，因为它实现了精确度和性能之间的最佳折衷。由于模型可以在使用TF-Lite引擎的智能手机上独立工作，因此它消除了框架对远程服务器和质量网络连接的依赖。

该框架在FPV中获取的240个自中心视频的数据集上实现80.00％的总体精度，如图8所示的矩阵(也称为混淆矩阵)。更具体地，图8参照图1至图7B描绘了根据本发明的示例实施例的图3的方法在使用基于

Cardboard头戴式设备的智能手机获取的240个自中心视频上的总体性能。当预测概率大于0.85时检测到手势。本公开的方法的准确度为0.8(不包括未分类的类)。

由系统100实现的MobileNetV2网络以9FPS在640×480分辨率视频上工作，并且由系统100实现的指尖回归器经配置传递以99×99的分辨率工作的高达166FPS的帧速率。由系统100实现的手势分类网络在小于100ms内处理给定数据流。结果，在由

845芯片组供电的智能手机上，发现框架的平均响应时间为0：12s。整个模型具有16.3MB的(非常小的)存储器占用。

本公开的系统和方法进一步与端到端训练手势分类常规技术(TGCCAT)进行比较，并且结果在表3中示出。更具体地，表3描述了针对本公开的方法的各种常规模型/技术的手势识别准确度和等待时间的分析。从表3可以看出，本公开的方法在设备上工作，并且有效地具有最高的精度和最小的响应时间。

表3

方法	准确度	耗时	设备上
				TGCCAT 1	32.27	0.76	否
TGCCAT 2	58.18	0.69	否
				TGCCAT 3	66.36	1.19	否
本公开	80.00	0.12	是

常规技术TGCCAT 1提出了一种网络，其与输入到卷积LSTM的差分图像一起工作，以获取在第二人称视图中执行的手势中涉及的身体部分的运动。即使在微调了本公开的视频数据集上的模型之后，由于本公开的数据涉及动态背景并且没有对相机的静态参考，所以它产生了仅32.14％的精度。

常规技术TGCCAT 2使用2D CNN从每个帧中提取特征。这些逐帧特征然后经编码为时间深度视频描述符，其被馈送到LSTM网络用于分类。类似地，3D CNN方法(常规技术TGCCAT 3)使用3D CNN直接从视频剪辑中提取特征。表3表明，这两种常规方法的性能都不好。对此的一个可能的直观原因是网络在训练时可能正在学习噪声和不良特征。由于高类间相似性，诸如基于注意力的视频分类的其他常规技术也执行得很差。由于只需要来自整个框架的一小部分的特征，即指尖，由于指尖位置是已知的，所以这种注意力模型显得多余。

另外的现有/常规技术和系统通过将指尖放置在其上而使用出现在立体视图中的虚拟按钮来实现，这类似于基于空中指尖的用户交互。这种常规技术采用快速区域卷积神经网络(RCNN)来分类手势，并且还实现了功能强大且未被充分利用的联网GPU服务器，并且成本更高。常规技术和系统还依赖于设备和上述服务器之间的高带宽、低等待时间的网络连接。与如上所述的常规系统和方法/技术不同，本公开的实施例提供了用于设备(例如，智能手机)和视频透视头戴式耳机(VSTH)或视频透视头戴式设备的基于设备上指向手指的手势接口的系统和方法。通过使用本公开的视频透视头戴式设备，使得本公开的系统100成为由用户纯粹在设备(特别是智能手机和视频透视头戴式耳机)上执行的用于对指向手势分类的轻量手势接口。此外，本公开的系统100实现并执行存储器并计算有效的MobileNetv2架构以定位手候选和不同的指尖回归器框架以跟踪用户的指尖和双向长期短期记忆(Bi-LSTM)模型来对手势分类。由本公开的系统100实施的此类架构或级联深度学习模型(CDLM)的优点在于，系统100不依赖于功能强大且联网的GPU服务器。由于所有的计算都是在设备本身上进行的，所以系统100可以在无网络环境中部署，并且在远程位置的应用方面进一步开辟了新的途径。

本书面描述描述了本文的主题以使得本领域技术人员能够制作和使用实施例。主题实施例的范围由权利要求限定，并且可以包括本领域技术人员想到的其他修改。如果这样的其他修改具有不与权利要求的字面语言不同的类似元件，或者如果它们包括与权利要求的字面语言无实质差异的等同元件，则这些其他修改旨在落入权利要求的范围内。

应当理解，保护范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外；当程序在服务器或移动设备或任何适当的可编程设备上运行时，这种计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。硬件设备可以是被编程的任何类型的设备，包括例如像服务器或个人计算机等的任何类型的计算机，或其任何组合。该设备还可以包括装置，该装置可以是例如硬件装置，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者硬件和软件装置的组合，例如ASIC和FPGA，或者至少一个微处理器和至少一个存储器以及位于其中的软件模块。因此，该装置可以包括硬件装置和软件装置。这里描述的方法实施例可以用硬件和软件来实现。该设备还可以包括软件装置。可选地，实施例可以在不同的硬件设备上实现，例如使用多个CPU。

本文的实施例可以包括硬件和软件元件。以软件实现的实施例包括但不限于固件、驻留软件、微码等。本文描述的由各种模块执行的功能可以在其他模块或其他模块的组合中实现。出于此描述的目的，计算机可用或计算机可读介质可以是能够包括、存储、通信、传播或传输供指令执行系统、装置或设备使用或与其结合使用的程序的任何装置。

阐述所说明的步骤以解释所示出的示例性实施例，并且应当预期正在进行的技术发展将改变执行特定功能的方式。本文提供这些实施例是为了说明而非限制的目的。此外，为了便于描述，本文已经任意定义了功能构建块的边界。只要适当地执行指定的功能及其关系，就可以定义替换的边界。基于本文包含的教导，替换(包括本文描述的那些的等价物、扩展、变化、偏差等)对于相关领域的技术人员将是显而易见的。这些替代方案落入所公开的实施例的范围和精神内。此外，词语“包括”、“具有”、“含有”和“包括”以及其他类似形式旨在在含义上是等同的并且是开放式的，因为这些词语中的任一个之后的一个或多个项目不旨在是这样的一个或多个项目的穷举性列表，或者旨在仅限于所列出的一个或多个项目。还必须注意，如本文和所附权利要求中所使用的，单数形式“一”、“一个”和“该”包括复数引用，除非上下文另外清楚地指示。

此外，一个或多个计算机可读存储介质可用于实现根据本公开的实施例。计算机可读存储介质是指可以在其上存储处理器可读的信息或数据的任何类型的物理存储器。因此，计算机可读存储介质可以存储由一个或多个处理器执行的指令，包括用于使处理器执行与本文描述的实施例一致的步骤或阶段的指令。术语“计算机可读介质”应当被理解为包括有形的项目并且排除载波和瞬态信号，即是非暂时的。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、磁盘和任何其他已知的物理存储介质。

本公开和示例仅被认为是示例性的，所公开的实施例的真实范围和精神由所附权利要求指示。

Claims

1.一种用于将指尖运动模式实时地设备上分类为手势的处理器实现的方法，所述方法包括：

在经由移动通信设备的一个或多个硬件处理器执行的级联深度学习模型(CDLM)中，实时接收来自图像获取设备的多个红、绿和蓝(RGB)输入图像(302)，其中，所述多个RGB输入图像中的每个RGB输入图像包括手势；

使用包括在经由所述移动通信设备上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的对象检测器，实时检测来自所接收的多个RGB输入图像的多个手候选边界框(304)，其中，所述多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像的相应RGB图像，其中，所述多个手候选边界框中的每个手候选边界框包括手候选；

实时缩小来自所述多个手候选边界框中的每个手候选边界框的所述手候选，以获得缩小的手候选集合(306)；

使用包括在经由所述移动通信设备上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的指尖回归器，实时检测来自所述缩小的手候选集合的每个缩小的手候选的指尖的空间位置(308)，其中，来自所述缩小的手候选集合的所述指尖的所述空间位置表示指尖运动模式；以及

使用来自所述指尖的所述空间位置的第一坐标和第二坐标，经由包括在经由所述移动通信设备上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络，将所述指尖运动模式实时分类为一个或多个手势(310)。

2.根据权利要求1所述的处理器实现的方法，其中，包括所述手候选的所述手候选边界框中的每个手候选边界框描述要用于分类为所述一个或多个手势的指向手势姿态。

3.根据权利要求1所述的处理器实现的方法，其中，将所述指尖运动模式分类为一个或多个手势的步骤包括将回归技术应用于所述指尖的所述第一坐标和所述第二坐标。

4.根据权利要求1所述的处理器实现的方法，其中，基于在所述多个RGB输入图像中的一组连续帧上存在正指向手指手检测来检测所述指尖的所述空间位置，并且其中，所述正指向手指手检测的存在指示所述手势的开始。

5.根据权利要求1所述的处理器实现的方法，其中，在所述多个RGB输入图像中的一组连续帧上不存在正指向手指手检测指示所述手势的结束。

6.一种用于将指尖运动模式实时分类为手势的系统(100)，所述系统包括：

存储器(102)，所述存储器(102)存储指令；

一个或多个通信接口(106)；以及

一个或多个硬件处理器(104)，所述一个或多个硬件处理器(104)经由所述一个或多个通信接口(106)耦接到所述存储器(102)，其中，所述一个或多个硬件处理器(104)由所述指令配置为：

在经由所述系统的所述一个或多个硬件处理器执行的级联深度学习模型(CDLM)中，实时接收来自图像获取设备的多个红、绿和蓝(RGB)输入图像，其中，所述多个RGB输入图像中的每个RGB输入图像包括手势；

使用包括在经由所述系统上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的对象检测器，实时检测来自所接收的多个RGB输入图像的多个手候选边界框，

其中，所述多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像的相应RGB图像，其中，所述多个手候选边界框中的每个手候选边界框包括手候选；

实时缩小来自所述多个手候选边界框中的每个手候选边界框的所述手候选，以获得缩小的手候选集合；

使用包括在经由所述系统上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的指尖回归器，实时检测来自所述缩小的手候选集合中的每个缩小的手候选的指尖的空间位置，其中，来自所述缩小的手候选集合的所述指尖的所述空间位置表示指尖运动模式；以及

使用来自所述指尖的所述空间位置的第一坐标和第二坐标，经由包括在通过所述系统上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络，将所述指尖运动模式实时分类为一个或多个手势。

7.根据权利要求6所述的系统，其中，包括所述手候选的所述手候选边界框中的每个手候选边界框描述要用于分类为所述一个或多个手势的指向手势姿态。

8.根据权利要求6所述的系统，其中，通过将回归技术应用于所述指尖的所述第一坐标和所述第二坐标，将所述指尖运动模式分类为一个或多个手势。

9.根据权利要求6所述的系统，其中，基于在所述多个RGB输入图像中的一组连续帧上存在正指向手指手检测来检测所述指尖的所述空间位置，并且其中，所述正指向手指手检测的存在指示所述手势的开始。

10.根据权利要求6所述的系统，其中，在所述多个RGB输入图像中的一组连续帧上不存在正指向手指手检测指示所述手势的结束。

11.一个或多个非暂时性机器可读信息存储介质，所述一个或多个非暂时性机器可读信息存储介质包括一个或多个指令，所述一个或多个指令在由一个或多个硬件处理器执行时通过以下方式将指尖运动模式实时分类为手势：

在经由移动通信设备的所述一个或多个硬件处理器执行的级联深度学习模型(CDLM)中，实时接收来自图像获取设备的多个红、绿和蓝(RGB)输入图像，其中，所述多个RGB输入图像中的每个RGB输入图像包括手势；

使用包括在经由所述移动通信设备上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的对象检测器，实时检测来自所接收的多个RGB输入图像的多个手候选边界框，其中，所述多个手候选边界框中的每个手候选边界框特定于来自所接收的多个RGB输入图像的相应RGB图像，其中，所述多个手候选边界框中的每个手候选边界框包括手候选；

使用包括在经由所述移动通信设备上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的指尖回归器，实时检测来自所述缩小的手候选集合中的每个缩小的手候选的指尖的空间位置，其中，来自所述缩小的手候选集合的所述指尖的所述空间位置表示指尖运动模式；以及

使用来自所述指尖的所述空间位置的第一坐标和第二坐标，经由包括在经由所述移动通信设备上的所述一个或多个硬件处理器执行的所述级联深度学习模型(CDLM)中的双向长期短期记忆(Bi-LSTM)网络，将所述指尖运动模式实时分类为一个或多个手势。

12.根据权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中，包括所述手候选的所述手候选边界框中的每个手候选边界框描述用于分类为所述一个或多个手势的指向手势姿态。

13.根据权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中，将所述指尖运动模式分类为一个或多个手势的步骤包括将回归技术应用于所述指尖的所述第一坐标和所述第二坐标。

14.根据权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中，基于在所述多个RGB输入图像中的一组连续帧上存在正指向手指手检测来检测所述指尖的所述空间位置，并且其中，所述正指向手指手检测的存在指示所述手势的开始。

15.根据权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中，在所述多个RGB输入图像中的一组连续帧上不存在正指向手指手检测指示所述手势的结束。