CN111124117A

CN111124117A - 基于手绘草图的增强现实交互方法和设备

Info

Publication number: CN111124117A
Application number: CN201911318807.9A
Authority: CN
Inventors: 朱海超; 张兆辉; 陈一鸣
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111124117B

Abstract

本发明涉及一种基于手绘草图的交互方法。该方法包括：通过深度相机，获取手的深度图像的帧序列，通过关节分析模块，识别所述深度图像中的手的一个或多个关节，通过手势类型判断模块，确定所述一个或多个关节代表的手势类型，根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。通过本发明公开的一个或多个实施例，可以降低手势识别输入过程中的计算力需求、提升计算效力、提升输入复杂图像的用户体验。

Description

基于手绘草图的增强现实交互方法和设备

技术领域

本发明涉及软件系统领域，尤其涉及一种增强现实的手势交互方法和设备。

背景技术

增强现实技术(Augmented Reality)是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。

常见的增强现实的设备包括AR眼镜。AR眼镜的输入一般分成两类，第一类是被动式输入，这种方法是利用相机或者麦克风分析用户的行为，用户不会有意识地主动地做一些事情或者说一些话专门给眼镜做输入，比如AR眼镜上人眼跟踪模块。第二类就是主动式输入，也就是用户会有意识地主动去做一些事情，然后让AR眼镜系统进行分析。目前主动式的输入方式包括两大类：一个是语音输入，另一个是手势输入。

现有的手势输入存在以下缺点：

1.手势的数量都是预先定义的。而预先定义的手势数量的个数都是比较少的，比如10。无法定义输入任意多的手势。

2.对于比较复杂的输入，普通手势输入无法完成。比如需要输入汉字，而汉字一般都是由多个笔划组成的一个序列过程，普通手势识别一般只能识别一个动作，一般对应于一个笔划。这个时候普通手势识别完全无法识别复杂的输入结果。

3.对于预先定义的每一种手势都必须预先得训练。而且在实际用中因为要对全手势进行跟踪和建模，计算量也会比较大。

发明内容

本发明的目的在于提供一种主动式的增强现实交互方法和设备。

一方面，本发明的一个或多个实施方式提供了一种基于手绘草图的交互方法，包括，通过深度相机，获取手的深度图像的帧序列，通过关节分析模块，识别所述深度图像中的手的一个或多个关节，通过手势类型判断模块，确定所述一个或多个关节代表的手势类型，根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。由此，用户可以基于根据不同的手势类型，对手绘草图的绘制过程进行控制，可以提高手绘草图输入的准确性，提升用户体验。

在其中一个实施例中，基于手绘草图的交互方法还包括，将所述手绘草图传输到远程服务器的神经网络进行分析，获取所述神经网络的分析结果，展示所述分析结果。由此，通过用户输入的手绘草图的输入，可以向用户输出其感兴趣的信息，并进行后续的交互，提升用户体验。

在另一个实施例中，将所述手绘草图进行分析之前，对所述手绘草图进行滤波处理。由此，可以减少因为用户手势输入中，由手的抖动造成的噪音。

在另一个实施例中，所述执行模块包括：启动绘制模块、点位确认模块、结束绘制模块。进一步，当所述启动绘制模块运行时，追踪所述一个或多个关节的移动轨迹，当所述点位确认模块运行时，记录所述移动轨迹的当前位置，设为关键点，当所述结束绘制模块运行时，停止记录所述移动轨迹。由此，用户可以通过不同执行模块，完成关键点的选取，提升用户体验。进一步，根据所述关键点进行拟合，形成所述手绘草图。通过关键点的拟合，可以减少手绘草图中因为抖动而产生的噪音，提升手绘草图的准确性，提升识别率。

在另一个实施例中，关节分析模块包括手部区分模块和手势回归模块。由此，可以提高关节分析的计算效率，节约算力资源，使得关节分析模块可以在增强现实的交互设备本地运行，提升交互效率，提高用户体验。

另一方面，本发明的一个或多个实施方式提供了一种增强现实的交互设备，包括：深度相机，用于拍摄手的深度图像的帧序列，处理器，计算机可读介质，用于存储计算机指令，所述计算机指令包含关节分析模块、手势类型判断模块和执行模块，当所述计算机指令被所述处理器执行时，使得所述交互设备：通过所述深度相机，获取手的深度图像的帧序列，通过所述关节分析模块，识别所述深度图像中的手的一个或多个关节，通过所述手势类型判断模块，确定所述一个或多个关节代表的手势类型，根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。

本发明的优点是：

第一，通过绘图输入比较复杂的内容，这些内容用语言无法描述。

第二，因为是通过素描实现的，也可以在无声的环境下使用。

第三，可以实现任意的输入，而不是局限于有限的手势数量。

第四，可以实现复杂的输入内容。

第五，不需要预训练，计算量小，便于在设备中部署。

附图说明

图1是根据本发明一个或多个实施例的基于手绘草图的交互方法的流程图；

图2是根据本发明的一个或多个实施例的手模型的示意图；

图3是根据本发明的一个或多个实施例的适用于基于手绘草图的交互方法的神经网络模型的示例；

图4是根据本发明的一个或多个实施例的神经网络训练的结构图；

图5是根据本发明的一个或多个实施例的手绘草图识别结果的示意图；

图6是根据本发明的一个或多个实施例的交互设备的架构图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及一个或多个实施例，对依据本发明提出的增强现实的手势交互方法和设备的具体实施方式、结构、特征及其功效，详细说明如后。

一方面，如图1所示，示出了根据根据本发明的一个或多个实施方式的基于手绘草图的交互方法的流程图，该交互方法包括以下步骤：

S1、通过深度相机，获取手的深度图像的帧序列，

S2、通过关节分析模块，识别所述深度图像中的手的一个或多个关节，

S3、通过手势类型判断模块，确定所述一个或多个关节代表的手势类型，

S4、根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。

在步骤S1中，通过深度相机，获取手的深度图像的帧序列。其中深度图像为包含深度信息的图像。深度图像可以通过深度相机得到。深度相机可以是基于TOF、双目立体视觉、结构光等原理的相机，只要深度相机可以获得包含深度信息的图像，即可以实现本发明的一个或多个实施例中的功能，因此深度相机的类型在本发明中不作限制。帧序列为相机拍摄的连续图像或具有固定间隔的图像的集合。帧序列可以是相机拍摄的第1、2、3、4、5……帧图像或是相机拍摄的第1、3、5、7……帧图像。

在步骤S2中，通过关节分析模块，识别所述深度图像中的手的一个或多个关节。其中关节分析模块为预先写入计算机可读介质的可以实现关节分析的代码，通过计算机的处理器执行该模块的代码，可以识别深度图像中的手的一个或多个关节。关节分析模块可以位于增强现实设备的本地的计算机可读介质中，也可以位于与增强现实设备可通信连接的远程服务器的计算机可读介质中。在其中一个实施例中，关节分析模块可以包含经过训练的一个或多个神经网络，神经网络的示例性结构和训练方法将在下面进行详细描述。如图2所示，在其中一个实施例中，经过关节分析模块的分析，可以将手的关节以21点模型进行表示。在另一些实施例中，也可以将手的关节以其他模型进行表示。

在其中一个实施例中，在步骤S2中，可以先对深度图像进行前景提取，确定手所在的区域。由于增强现实设备(例如眼镜、头盔)通常在人的头部位置，因此其拍摄的图像是以用户为中心的，此时用户的手的位置通常位于深度相机拍摄的前景区域，因此可以先对深度图像进行前景提取，从而提升计算效率。对于一个特定的深度图像，可以基于泛洪填充算法(Flood Fill Algorithm)将其按区域划分，然后可以选取深度的平均值最低的区域作为前景区域。由此，可以降低手势识别中的算力消耗，提高计算速度。

关节分析模块的示例模型

在一个示例中，所述关节分析模块可以包含两个神经网络，一个为手部区分模块(简称为C-NET)，另一个为手势回归模块(简称为R-NET)。

C-NET用来对手部进行分类。C-NET包含三个深度卷积区块(depthwiseconvolutional blocks,DWConv BLK)和两个全连接层(Fully-connected layers,FC层)。DWConv BLK的一个示例结构如图3中的(A)所示。在其中一个实施例中，可以采用深度可分离卷积(depthwise separable convolutions)来提供移动设备的计算/能耗效率。三个DWConv BLK的输出通道分别为12，24，48。第一个FC层后接ReLU激活函数，而第二个FC层通过三维输出连接到softmax层。通过三维输出的结果代表手的三种类别，即左手、右手、无手。换句话说，通过C-NET，可以判别输入的图片左手手势、右手手势和没有手势。

C-NET可以通过Mean Squared Error或Cross Entropy Loss等手段进行训练。例如，在一个实施例中，通过Cross Entropy Loss对C-NET进行训练，损失函数如下所示：

其中M＝3，代表类别的数量，y_i,l代表类别标签l对于输入i是否准确，p_i,l代表预测的类别标签。

R-NET用于对手的关键进行3D位置的建模。R-NET由两个DWConv BLK、两个深度残差块(depthwise residual blocks,DWRes BLK)和两个FC BLK组成，FC BLK和DWRes BLK的一个示例结构如图3中的(B)和(C)所示。和C-NET类似，也可以采用深度可分离卷积来提供移动设备的计算/能耗效率。两个DWConv BLK、两个DWRes BLK的输出通道的数量分别为12、12、24、48。对于两个FC BLK来说，每一个都包含两个FC层、一个PReLU和一个dropout层。第二个FC block最后连接到具有63维输出的FC层，该63维输出用来代表手的21个关节的3D位置。所有的最大池化层(max pooling layer)的步长(stride)为2。在本发明的一个实施例中，R-NET设计为针对右手手势回归，如果C-NET检测到的是左手手势，则将左手手势沿着垂直轴进行翻转，然后作为右手手势进行处理。在另一个实施例中，R-NET可以设计为针对左手手势回归。

可以采用多种损失函数对R-NET进行训练。在其中一个实施例中，由于Wing Loss对于小的和大的姿态偏差都具有较好的鲁棒性，可以使用Wing Loss对R-NET进行训练。对于预测的手势p_i和对应的结论q_i，Wing Loss的定义如下：

其中，x_i＝p_i-q_i，ω控制非线性部分在[-ω,ω]范围内，ε限制非线性部分的曲率，并且C＝ω-ωln(1+x_i/ε)将线性和非线性部分连接起来。参数ω和ε可以根据经验设置为一定初始值，例如分别为10和1。

在本发明的一些实施方式中，可以采用完全标注的手的照片进行训练，这些照片都是以自拍方式进行拍摄。此外，还可以将训练数据在一定的范围内(例如[-30,30]毫米)进行平移，以及在一定的范围内(例如在[-π/18,π/18])进行旋转，以增强数据。对于C-NET和R-NET，可以设置不同的批量大小和学习率。在一些实施方式中，可以采用Adam作为优化器。

在步骤S3中，通过手势类型判断模块，确定所述一个或多个关节代表的手势类型。其中手势类型判断模块为预先写入计算机可读介质的可以实现手势类型判断的代码，通过计算机的处理器执行该模块的代码，可以识别步骤S2中确定的手势所代表的的功能类型。手势类型判断模块可以位于增强现实设备的本地的计算机可读介质中，也可以位于与增强现实设备可通信连接的远程服务器的计算机可读介质中。在其中一个实施例中，手势类型包括点击手势、移动手势和结束手势。如图4所示，示出了其中一套手势表示方法，其中采用大拇指和食指的两根手指表示点击手势，用单根食指表示移动手势，用拳头手势表示结束手势。在另一些实施方式中，也可以指定更多的手势类型，例如暂停手势以暂停当前操作，返回手势以取消上一个手势指令。手势所代表的指令可以任意指定，本发明不做限制。

在步骤S4中，根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。执行模块根据不同手势类型的设定的功能模块，其可以为系统或用户预先设定。传统的手势识别根据有限的手势类型，直接获得对应的指令，使用执行模块可以将手势转化为更复杂的信息，例如使用手势进行绘制草图。在本发明的一个实施方式中，执行模块包括启动绘制模块、点位确认模块和结束绘制模块，分别对应移动手势、点击手势和结束手势。当所述启动绘制模块运行时，记录所述一个或多个关节的移动轨迹；在其中一个实施例中，还可以在增强现实设备的显示装置中显示关节的移动轨迹。当所述点位确认模块运行时，在所述移动轨迹中设立关键点；在其中一个实施例中，可以在增强显示设备中以不同于移动轨迹的颜色显示设立的关键点，以区分关键点和移动轨迹，提高用户交互体验。当所述结束绘制模块运行时，停止记录所述移动轨迹；当结束绘制模块运行后，保留当前绘制的草图共用户进行确认是否删除或进行下一步交互；若用户未进行确认，则系统可以保留当前草图，并进入等待状态，重新等待启动绘制模块运行。记录的关键点的位置可以为手势的食指的指尖位置(图2中的18)，也可以是其它指定的位置。执行模块还可以包括其它类型的执行模块，例如暂停绘制模块，即暂停手势绘制的过程，或撤销模块，即撤销上一个绘制的动作。

在基于增强现实的交互过程中，根据手势类型绘制草图的时候，可以将绘制过程中的草图通过设备的显示装置同步在用户面前，由此用户可以实时预览其绘制的草图，确保绘制草图准确表达了用户的意图。例如，在一个具体的实施例中，当确定当前的手势为移动手势，则启动绘制模块，并在显示装置的屏幕上出现一个蓝色的点，当手移动到合适的位置的时候，如果检测到当前的手势变为点击手势，则这个点的颜色变为红色，且该点的位置坐标被记录下来。接下来，又检测到移动手势，即继续随着用户的手势的移动，在屏幕上的点也随之移动，但是并不做记录，直到再次检测到点击手势。类似操作下去，直到用户的手势变为结束手势，则启动结束绘制模块，获得并保存通过用户点击手势确认的点阵图。在一个实施方式中，可以直接直线连接点阵图中的离散点而形成草图。在另一个实施方式中，也可以对点阵图中的点进行曲线拟合，以得到由拟合成的光滑曲线构成的草图。在某些情况下，若希望获得更为精确的曲线，用户可以一直保持并且移动点击手势，由此获得的离散点的数量会和相机的帧率一致，从而可以生成光滑曲线构成的草图。

在基于增强显示的交互过程中，还可以进行汉字的输入。例如，在其中一个具体的实施例中，使用本发明提供的方法进行汉字“十”的输入。用户先通过两个点击手势，输入两个关键点，形成横线“一”，当用户手势在横线“一”的最后侧时，在移动到“一”的上方准备输入竖线“〡”之前，手势变为拳头，则停止当前的移动轨迹的绘制，则“一”的右侧和“〡”的上方的关键点断开，不会进行直线或曲线的连接。当用户的食指位于“一”的上方的合适位置，用户的手势变为输入手势，则开始启动竖线“〡”的绘制。由此，用户可以完成汉字“十”的手势输入。

尽管通过本发明上述的一个或多个实施例，通过记录手势中的关键点，可以大幅降低因为用户的手抖动而产生的深度图像中的深度数据的噪音影响，但由于关键点的记录中也存在手的抖动，是该噪音仍然不可避免的存在。为了进一步提升手绘草图的精度，可以对步骤S4中获得的草图进行滤波处理。可以采用图像处理中常用的滤波方式对手绘草图进行平滑，例如双边滤波、均值滤波、高斯滤波等。在其中一个实施例中，可以采用L₀平滑对每个手绘草图进行平滑处理。

相比于直接记录手势轨迹形成手绘草图的方式，通过点击手势记录手势轨迹中的关键点，可以大幅减少因人手抖动而在深度图像中造成的噪音而对最后形成草图的影响，从而减少图像计算力的需求，提高计算效率。根据本发明的一个或多个实施例，由于算力要求降低，关节分析模块、手势类型判断模块中的一个或多个可以放到增强现实设备的本地处理器进行，而无需传输到远程服务器进行处理，从而节省计算时间，提升用户交互的体验。

接下来，可以将得到的手绘草图传输到远程服务器的图像识别神经网络进行分析，并且返回这张图片的分析结果。手绘草图先输入到神经网络中提取特征，然后将提取的特征和数据库中的特征进行比对，然后将最接近的数据进行返回。如图5所示，用户画了一只鞋子，图像识别神经网络就会返回和数据库中存储的与该手绘草图最接近的鞋子的数据，并展示在用户的显示装置上，供用户进行后续交互使用。

后续的交互可以有多种形式。例如，所述分析结果还包含链接，可以直接引导用户点击后进行购物操作。又例如，所述分析结果包含物体的三维模型，在增强现实交互的场景下，用户可以直接对该三维模型进行移动、旋转等操作，此交互方式特别有利于进行虚拟物品的展示。又例如，若用户输入的是汉字，则可以以输入的汉字进行系统搜索或互联网搜索。

另一方面，如图6所示，示出了根据本发明的一个或多个实施方式的增强现实设备。所述增强现实设备包括深度相机、一个或多个现实装置(显示装置1、现实装置2)、处理器、存储器和通讯模块。

深度相机可以是基于TOF、双目立体视觉、结构光等原理的相机，只要深度相机可以获得包含深度信息的图像，即可以实现本发明的一个或多个实施例中的功能，因此深度相机的类型在本发明中不作限制。

该增强现实设备可以包括一个或多个现实装置。例如，对于增强现实眼镜，通常可以包含一个或两个显示装置，该显示装置为半透半反显示器，用户即可以看到真实世界，也能够看到增强信息。

通讯模块可以为蓝牙模块、WIFI模块、4G模块、5G模块等具有与外界设备交换信息的模块中的一个或多个。作为非限制性的实施例，增强现实设备至少包含一个WIFI模块用于和远程服务器进行数据交换，例如将形成的手绘草图发送到远程服务器，并接收远程服务器返回的分析结果。

增强现实设备还包括计算机可读介质，用于存储计算机指令，当所述计算机指令被处理器执行时，使得：所述深度相机获取手的深度图像的帧序列，关节分析模块识别所述深度图像中的手的一个或多个关节，手势类型判断模块确定所述一个或多个关节代表的手势类型，根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。关于该增强现实设备的交互方法已经在前述根据图1-5的描述中进行详细阐述，在此不再赘述。

应理解，所公开的过程中的步骤的特定顺序或层次是示例性方法的说明。基于设计偏好，应理解，可以重新排列过程中的步骤的特定顺序或层次。此外，可以组合或省略一些步骤。所附方法要求保护以样本顺序呈现各个步骤的元素，并不意味着限于所呈现的特定顺序或层次。

提供先前的描述是为了使所属领域的技术人员能够实践本文中所描述的各个方面。对于本领域技术人员来说，对这些方面的各种修改是显而易见的，并且本文定义的一般原理可以应用于其他方面。因此，权利要求不旨在对本文所示的方面进行限制，而是与符合语言权利要求的完整范围相一致，其中而是应被授予与语言上的权利要求相一致的全部范围，其中对要素的单数形式的引述除非特别声明，否则并非旨在表示“有且仅有一个”，而是“一个或多个”。除非另外特别说明，否则术语“一些”是指一个或多个。本公开通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。此外，本公开中所公开的任何内容都并非旨在贡献给公众，无论这样的公开是否在权利要求书中被显式地叙述。没有任何权利要求元素应被解释为装置加功能，除非该元素是使用短语“用于……的装置”来明确叙述的。

此外，术语“或”旨在表示包含性的“或”而不是排他性的“或”。也就是说，除非另有说明或从上下文中清楚，否则短语“X使用A或B”旨在表示任何自然的包含性排列。也就是说，通过以下任何一种情况满足短语“X使用A或B”：X使用A；X使用B；或者X使用A和B。另外，本申请和所附权利要求中使用的冠词“一”和“一个”通常应理解为表示“一个或多个”，除非另有说明或从上下文中清楚地指向单数形式。

Claims

1.一种基于手绘草图的交互方法，包括，

通过深度相机，获取手的深度图像的帧序列，

通过关节分析模块，识别所述深度图像中的手的一个或多个关节，

通过手势类型判断模块，确定所述一个或多个关节代表的手势类型，

根据不同的手势类型，运行对应的执行模块，完成手绘草图的绘制。

2.根据权利要求1所述的交互方法，还包括，

将所述手绘草图传输到远程服务器的神经网络进行分析，

获取所述神经网络的分析结果，

展示所述分析结果。

3.根据权利要求2所述的交互方法，还包括，

将所述手绘草图进行分析之前，对所述手绘草图进行滤波处理。

4.根据权利要求1所述的交互方法，其中所述执行模块包括，

启动绘制模块、点位确认模块、结束绘制模块。

5.根据权利要求4所述的交互方法，其中，

当所述启动绘制模块运行时，追踪所述一个或多个关节的移动轨迹，

当所述点位确认模块运行时，记录所述移动轨迹的当前位置，设为关键点，

当所述结束绘制模块运行时，停止记录所述移动轨迹。

6.根据权利要求5所述的交互方法，其中，

根据所述关键点进行拟合，形成所述手绘草图。

7.根据权利要求1所述的交互方法，

其中所述关节分析模块包括手部区分模块和手势回归模块。

8.一种增强现实的交互设备，包括：

深度相机，用于拍摄手的深度图像的帧序列，

处理器，

计算机可读介质，用于存储计算机指令，所述计算机指令包含关节分析模块、手势类型判断模块和执行模块，当所述计算机指令被所述处理器执行时，使得所述交互设备：

通过所述深度相机，获取手的深度图像的帧序列，

通过所述关节分析模块，识别所述深度图像中的手的一个或多个关节，

通过所述手势类型判断模块，确定所述一个或多个关节代表的手势类型，

9.一种根据权利要求8所述的交互设备，还包括：

显示装置，

当所述计算机指令被所处处理器执行时，进一步使得所述交互设备：

传输所述手绘草图到远程服务器的神经网络进行分析，

获取所述神经网络的分析结果，

所述显示装置展示所述分析结果。

10.一种根据权利要求9所述的交互设备，当所述计算机指令被所处处理器执行时，还使得所述交互设备：

11.一种根据权利要求8所述的交互设备，其中所述执行模块包括，启动绘制模块、点位确认模块、结束绘制模块。

12.一种根据权利要求11所述的交互设备，其中，

当所述结束绘制模块运行时，停止记录所述移动轨迹。

13.一种根据权利要求12所述的交互设备，当所述计算机指令被所处处理器执行时，还使得所述交互设备：

根据所述关键点进行拟合，形成所述手绘草图。

14.一种根据权利要求1所述的交互设备，

其中所述关节分析模块包括手部区分模块和手势回归模块。