CN108874126B

CN108874126B - 基于虚拟现实设备的交互方法及系统

Info

Publication number: CN108874126B
Application number: CN201810538724.XA
Authority: CN
Inventors: 马康智; 吴全磊; 张宇; 齐立文; 郭志奇
Original assignee: Beijing Zhizhen Zhizao Technology Co ltd
Current assignee: Beijing Zhizhen Zhizao Technology Co ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2021-08-31
Anticipated expiration: 2038-05-30
Also published as: CN108874126A

Abstract

本发明公开了基于虚拟现实设备的交互方法及系统，涉及虚拟现实领域。交互方法包括：对用户的裸手进行识别，得到用户的裸手的手势交互数据；获取交互设备的控制交互数据；根据手势交互数据和控制交互数据对虚拟场景进行处理，使虚拟场景进入中间交互状态；采集用户的语音，对语音进行识别和处理，得到语音交互数据；根据语音交互数据对进入中间交互状态后的虚拟场景进行处理，使显示设备显示处理后的虚拟场景。本发明丰富了交互的种类，能够对虚拟场景进行更多类型的控制和操作，实现了多种交互功能的统一，能够满足用户的多种交互需求，提升了用户的体验感，实用性强。

Description

基于虚拟现实设备的交互方法及系统

技术领域

本发明涉及虚拟现实领域，尤其涉及基于虚拟现实设备的交互方法及系统。

背景技术

现有虚拟现实设备包括沉浸式头戴设备、增强现实头戴设备、桌面式沉浸系统以及CAVE沉浸式系统等。

然而，现有的虚拟现实设备的交互方式单一，都是基于单一的交互方式进行交互，如手柄交互、交互笔交互、手势交互等。用户体验感差，可实现的交互功能少，无法满足用户的多种交互需求。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于虚拟现实设备的交互方法和一种基于虚拟现实设备的交互系统。

本发明解决上述技术问题的技术方案如下：

一种基于虚拟现实设备的交互方法，所述虚拟现实设备包括：用于显示虚拟场景的显示设备，以及与所述虚拟场景进行交互的交互设备，所述交互方法包括：

对用户的裸手进行识别，得到所述用户的裸手的手势交互数据；

获取所述交互设备的控制交互数据；

根据所述手势交互数据和所述控制交互数据对所述虚拟场景进行处理，使所述虚拟场景进入中间交互状态；

采集所述用户的语音，对所述语音进行识别和处理，得到语音交互数据；

根据所述语音交互数据对进入所述中间交互状态后的所述虚拟场景进行处理，使所述显示设备显示处理后的所述虚拟场景。

本发明的有益效果是：本发明提供的交互方法，协同了裸手交互、设备交互和语音交互，在设备交互的基础上，加入了裸手交互和语音交互，丰富了交互的种类，能够对虚拟场景进行更多类型的控制和操作，实现了多种交互功能的统一，能够满足用户的多种交互需求，提升了用户的体验感，实用性强。

本发明解决上述技术问题的另一种技术方案如下：

一种基于虚拟现实设备的交互系统，所述虚拟现实设备包括：用于显示虚拟场景的显示设备，以及与所述虚拟场景进行交互的交互设备，所述交互系统包括：

手势识别模块，用于对用户的裸手进行识别，得到所述用户的裸手的手势交互数据；

交互设备识别模块，用于获取所述交互设备的控制交互数据；

第一处理模块，用于根据所述手势交互数据和所述控制交互数据对所述虚拟场景进行处理，使所述虚拟场景进入中间交互状态；

语音识别模块，用于采集所述用户的语音，对所述语音进行识别和处理，得到语音交互数据；

第二处理模块，用于根据所述语音交互数据对进入所述中间交互状态后的所述虚拟场景进行处理，使所述显示设备显示处理后的所述虚拟场景。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明一种基于虚拟现实设备的交互方法的一个实施例提供的流程示意图；

图2为本发明一种基于虚拟现实设备的交互方法的其他实施例提供的流程示意图；

图3为本发明一种基于虚拟现实设备的交互方法的其他实施例提供的流程示意图；

图4为本发明一种基于虚拟现实设备的交互方法的其他实施例提供的流程示意图；

图5为本发明一种基于虚拟现实设备的交互方法的其他实施例提供的流程示意图；

图6为本发明一种基于虚拟现实设备的交互系统的一个实施例提供的结构示意图；

图7为本发明一种基于虚拟现实设备的交互系统的一个实施例提供的结构框架图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明一种基于虚拟现实设备的交互方法的一个实施例提供的流程示意图，虚拟现实设备包括：用于显示虚拟场景的显示设备，以及与虚拟场景进行交互的交互设备，交互方法包括：

S1，对用户的裸手进行识别，得到用户的裸手的手势交互数据。

需要说明的是，对用户的裸手进行识别，指的是对用户没有穿戴或使用交互设备的手进行识别。

例如，可以采用基于视觉的手势识别方法对用户的裸手进行识别，下面具体说明。

对用户的裸手进行识别，就是对用户的手势进行识别，可以分为二维手势识别和三维手势识别。二维手势识别将输入的二维图像数据作为基本信息，二维的手势识别不仅可以识别手型，还可以识别二维动作。二维手势识别拥有了动态的特征，可以追踪手势的运动，进而识别将手势和手部运动结合在一起的复杂动作。二维手势识别可以使用单个RGB摄像头

三维手势识别输入的是包含有深度的图像信息，可以在三维空间内识别各种手型、手势和动作。相比于二维的手势识别，三维手势识别可以使用可以测量深度信息的结构光相机、TOF或者双目相机。

又例如，还可以采用传统的深度手势识别方法对用户的裸手进行识别，下面具体说明。

将获取的二维图像数据变换成三维图像数据变换，基于距离分割得到的图像，再通过最近邻法进行手势提取，对手势进行分析，例如，方向校正，特征提取，特征训练等，最后对识别的结果进行验证。

又例如，还可以在用户的裸手上设置mark点，通过对mark点的追踪，实现对用户裸手的识别。

具体地，可以让用户带上戒指、手环等，上面设置有多个红外发光点作为mark点，通过对这些红外发光点进行识别，就可以得到用户的手势和动作了。

需要说明的是，在获得用用户的手势后，就可以根据用户的手势，与预设的手势进行比对匹配，然后得出用户想要交互的操作。

S2，获取交互设备的控制交互数据。

需要说明的是，交互设备与显示设备连接，可以实现控制显示设备所显示的虚拟场景。例如，交互设备可以为交互笔、交互指套等，用户通过控制这些交互设备的位置，以及操作交互设备上的按键，就可以实现对虚拟场景的控制。

例如，在Zspace等沉浸式产品中，可以借助于追踪笔、手套等的实现与虚拟长场景的交互。

S3，根据手势交互数据和控制交互数据对虚拟场景进行处理，使虚拟场景进入中间交互状态。

需要说明的是，在交互设备或用户裸手对虚拟场景进行操作时，向虚拟现实设备发出控制指令，虚拟现实设备就会响应该控制指令，然后根据控制指令更新显示设备显示的虚拟场景。在显示设备对虚拟场景进行更新之前，可以使虚拟场景对交互指令暂不响应控制指令，进入等待响应的一种中间状态，即中间交互状态。在中间交互状态，还可以接收其他的控制指令，然后根据全部的控制指令对虚拟场景进行更新。

S4，采集用户的语音，对语音进行识别和处理，得到语音交互数据。

需要说明的是，在基于PC的桌面式虚拟现实设备中，语音交互可以响应一定的预定义指令和语义，还可以结合云处理和语音理解模块准确地做出操作响应，解放部分协同交互的功能和指令。

例如，当用户想要放大一张图片时，使用交互设备进行拖拽，会需要操作很多次，但是当用户选定某张图片后，说出“放大10倍”，这个语音就会被采集，然后对语音进行识别和分析，得到计算机可以执行的{放大10倍}的控制指令。

还可以包括如{移动A}，{打开B}，{拖拽C}，{点击A}，{旋转B沿着X轴n度}，{以n倍的尺度放大C}等语音控制指令。

应理解，语音数据通过常用的麦克风采集系统、无线的麦克风采集终端或者用户自备的有限采集设备，通过声卡控制模块，将声音通过系统级调用传输给最终的场景处理终端。

S5，根据语音交互数据对进入中间交互状态后的虚拟场景进行处理，使显示设备显示处理后的虚拟场景。

需要说明的是，需要处理的数据包括裸手追踪的数据、交互设备数据以及语音数据，这些数据均可以操作最终的场景对象。基于数据的多样性以及最终操作对象的复杂多变性，可以通过基于实时更新的数据协同方法，兼容和处理不同帧率的实时信号数据，最终结合三维场景处理操作过程和反馈操作结果。

裸手的识别数据按照帧率可以划分成两种：一种是基于识别算法处理后的左右手追踪数据，一种是基于动作识别的模式数据。左右手的追踪数据帧率较高，根据不同平台的追踪硬件和追踪算法，可以达到30-50fps，该部分数据用于实时的手势追踪和虚拟端内容渲染，作用对象为包括位置和姿态数据的刚体对象。同时，裸手识别还包括手势动作识别和模式识别，利用基于RGBD的手势识别算法，在检测和识别出特定的交互手势后，将结果反馈给数据协同和处理系统，再通过三维场景逻辑事件响应手势识别的结果，改变场景内容和状态。

RGBD数据通过连接到本地的RGBD摄像头读取和输入数据传输协议遵循USB协议。硬件采集数据通过底层DLL调用的方式，通过C++代码结合手势识别的SDK，开发基于windows、mac平台的底层RGBD数据处理和传输框架，然后发布成DLL等执行代码部署到相应的平台，最终通过三维工业引擎和渲染机器进行本地的指令整合和逻辑控制。

交互笔的数据同裸手识别的数据相比较，其相应速率相对于手势有明显的提高。交互笔数据同样可以分为实时传输的数据以及动作结果数据：按键动作响应。处理和分析同手势数据。

交互笔的数据通过普通网线接口输入到计算机处理系统，通过RJ45接口，将交互笔的交互数据、信号数据以及陀螺仪数据，通过有线传输给PC处理系统，最终整合到C++协同交互系统中。传输的数据包括交互笔按键响应数据、交互笔显示反馈数据以及交互笔三轴陀螺仪数据。

语音数据是数据协同系统中最为复杂的数据结构。首先，语音数据受限于语音采集设备硬件的采样率，采样率通常从8KHz，44KHz，48KHz，96KHz，192KHz不等。在多交互协同系统中，语音数据一方面作为实时的输入，一方面作为场景内交互对象的驱动，需要实时记录和语义理解同步进行和处理。

一方面，实时采集的语音经过编解码以后直接输入到虚拟现实设备的输出端播放，作为用户语音输入的实时反馈和提示。

另一方面，对于实时采集的语音信息，虚拟现实设备会进行语音识别和记录一定语境时间内的语音和语义信息，同时进行识别和理解，当识别出交互动作和进行相关语义解析以后，再更新指令动作模块的指令和操作对象，等待系统协同处理模块处理语音动作指令，进行场景内容的交互更改场景对象的状态等相关信息。

语言的数据流向主要分为两块，一块用于实时的数据播放和反馈，一块用于缓存处理和语义分析。

这三种交互方式的数据和处理结果，最终交付给三维协同引擎处理和融合，下面进一步说明。

数据根据更新和响应的速率，分为实时数据(update)和事件响应(event)，在三维场景中，update负责更新和检测所有的状态数据，包括每个对象的实时位置、姿态、状态以及交互对象属性，update的速率根据处理平台CPU性能、频率等决定，并且设置为可以调整和优化的融合系统参数，update的作用对象为场景中的三维对象、指令和事件的响应对象、虚拟的作用对象、对象的集合以及对象的属性。

event作用的对象为固定属性类的对象，如手势识别的作用对象为交互对象或者可碰撞对象，event的作用对象必须有对应的初始状态，event作用后，相应的作用对象更行其相应属性状态，每一时刻实时更新和事件响应后，三维场景内其他属性机制如物理引擎、碰撞检测以及属性检测再次对场景三维内容进行更新，实时更新的系统和事件响应系统，分别是基于时间和事件的响应，最终实现虚拟场景更新。

本实施例提供的交互方法，协同了裸手交互、设备交互和语音交互，在设备交互的基础上，加入了裸手交互和语音交互，丰富了交互的种类，能够对虚拟场景进行更多类型的控制和操作，实现了多种交互功能的统一，能够满足用户的多种交互需求，提升了用户的体验感，实用性强。

可选地，在一些实施例中，如图2所示，步骤S1具体可以包括：

S11，获取用户的裸手的深度图像。

优选地，可以使用SR300等深度摄像头获取深度信息，获取的场景中深度信息不受物体颜色、纹理以及背景环境光线强弱的影响。

S12，对深度图像进行手势区域分割处理，得到手势区域。

S13，从手势区域中提取用户的裸手手势的特征，得到手势特征。

需要说明的是，提取手势区域后，可以通过几何方法提取手势表观特征并分类，得到手势特征。

S14，对手势特征进行识别，得到手势交互数据。

可选地，在一些实施例中，如图3所示，步骤S12具体可以包括：

S121，将深度图像转换为灰度图像。

S122，将灰度图像转换为灰度直方图。

S123，对灰度直方图进行阈值分割处理，得到手势区域。

可选地，在一些实施例中，如图4所示，步骤S2具体可以包括：

S21，获取交互设备的控制指令。

需要说明的是，控制指令可以为交互设备按键响应数据、交互设备显示反馈数据等。

S22，获取交互设备的空间位置数据。

需要说明的是，空间位置数据可以由交互设备内置的三轴陀螺仪产生，可以是x、y、z三个方向的向量数据。

S23，根据控制指令和空间位置数据得到控制交互数据。

需要说明的是，根据控制指令和空间位置数据得出对虚拟场景所要进行的操作，即控制交互数据。

可选地，在一些实施例中，如图5所示，步骤S4具体可以包括：

S41，采集用户的语音，将语音转换为文字。

S42，对文字进行语义解析处理，识别出文字中包含的交互动作，得到交互动作的词条数据。

例如，当用户想要删除图片A时，说出了“把图片A删掉”或者“删了图片A”，对于机器而言这些不是可以执行的控制指令，因此，在对文字进行语义解析处理后，可以得到文字中所包含的词条数据，即{删除图片A}，这个指令就是计算机可以识别并执行的指令。

S43，根据词条数据得到语音交互数据。

可以理解，可选地，在一些实施例中，可以包含如上述各实施例中的部分或全部步骤。

如图6所示，为本发明一种基于虚拟现实设备的交互系统的一个实施例提供的结构示意图，虚拟现实设备包括：用于显示虚拟场景的显示设备100，以及与虚拟场景进行交互的交互设备200。

如图7所示，交互系统包括：

手势识别模块1，用于对用户的裸手进行识别，得到用户的裸手的手势交互数据。

交互设备识别模块2，用于获取交互设备的控制交互数据。

第一处理模块3，用于根据手势交互数据和控制交互数据对虚拟场景进行处理，使虚拟场景进入中间交互状态。

语音识别模块4，用于采集用户的语音，对语音进行识别和处理，得到语音交互数据。

第二处理模块5，用于根据语音交互数据对进入中间交互状态后的虚拟场景进行处理，使显示设备显示处理后的虚拟场景。

可选地，在一些实施例中，手势识别模块可以包括：

手势获取子模块，用于获取用户的裸手的深度图像。

手势分割子模块，用于对深度图像进行手势区域分割处理，得到手势区域。

特征提取子模块，用于从手势区域中提取用户的裸手手势的特征，得到手势特征。

特征识别子模块，用于对手势特征进行识别，得到手势交互数据。

可选地，在一些实施例中，手势分割子模块具体用于将深度图像转换为灰度图像，并将灰度图像转换为灰度直方图，并对灰度直方图进行阈值分割处理，得到手势区域。

可选地，在一些实施例中，交互设备识别模块可以包括：

控制指令获取子模块，用于获取交互设备的控制指令。

空间位置数据获取子模块，用于获取交互设备的空间位置数据。

控制交互数据识别子模块，用于根据控制指令和空间位置数据得到控制交互数据。

可选地，在一些实施例中，语音识别模块可以包括：

语音采集子模块，用于采集用户的语音，将语音转换为文字。

语义解析子模块，用于对文字进行语义解析处理，识别出文字中包含的交互动作，得到交互动作的词条数据。

词条数据处理子模块，用于根据词条数据得到语音交互数据。

需要说明的是，本实施例是与上述各方法实施例对应的产品实施例，对于本实施例中各结构装置及可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于虚拟现实设备的交互方法，所述虚拟现实设备包括：用于显示虚拟场景的显示设备，以及与所述虚拟场景进行交互的交互设备，其特征在于，所述交互方法包括：

获取所述交互设备的控制交互数据；

根据所述语音交互数据对进入所述中间交互状态后的所述虚拟场景进行处理，使所述显示设备显示处理后的所述虚拟场景；

其中，所述中间交互状态为所述虚拟场景对控制指令暂不响应，并接收其他控制指令的状态。

2.根据权利要求1所述的交互方法，其特征在于，所述对用户的裸手进行识别，得到所述用户的裸手的手势交互数据，具体包括：

获取用户的裸手的深度图像；

对所述深度图像进行手势区域分割处理，得到手势区域；

从所述手势区域中提取所述用户的裸手手势的特征，得到手势特征；

对所述手势特征进行识别，得到手势交互数据。

3.根据权利要求2所述的交互方法，其特征在于，所述对所述深度图像进行手势区域分割处理，得到手势区域，具体包括：

将所述深度图像转换为灰度图像；

将所述灰度图像转换为灰度直方图；

对所述灰度直方图进行阈值分割处理，得到手势区域。

4.根据权利要求1至3中任一项所述的交互方法，其特征在于，所述获取所述交互设备的控制交互数据，具体包括：

获取所述交互设备的控制指令；

获取所述交互设备的空间位置数据；

根据所述控制指令和所述空间位置数据得到控制交互数据。

5.根据权利要求1至3中任一项所述的交互方法，其特征在于，所述采集所述用户的语音，对所述语音进行识别和处理，得到语音交互数据，具体包括：

采集所述用户的语音，将所述语音转换为文字；

对所述文字进行语义解析处理，识别出所述文字中包含的交互动作，得到所述交互动作的词条数据；

根据所述词条数据得到语音交互数据。

6.一种基于虚拟现实设备的交互系统，所述虚拟现实设备包括：用于显示虚拟场景的显示设备，以及与所述虚拟场景进行交互的交互设备，其特征在于，所述交互系统包括：

第二处理模块，用于根据所述语音交互数据对进入所述中间交互状态后的所述虚拟场景进行处理，使所述显示设备显示处理后的所述虚拟场景；

7.根据权利要求6所述的交互系统，其特征在于，所述手势识别模块包括：

手势获取子模块，用于获取用户的裸手的深度图像；

手势分割子模块，用于对所述深度图像进行手势区域分割处理，得到手势区域；

特征提取子模块，用于从所述手势区域中提取所述用户的裸手手势的特征，得到手势特征；

特征识别子模块，用于对所述手势特征进行识别，得到手势交互数据。

8.根据权利要求7所述的交互系统，其特征在于，所述手势分割子模块具体用于将所述深度图像转换为灰度图像，并将所述灰度图像转换为灰度直方图，并对所述灰度直方图进行阈值分割处理，得到手势区域。

9.根据权利要求6至8中任一项所述的交互系统，其特征在于，所述交互设备识别模块包括：

控制指令获取子模块，用于获取所述交互设备的控制指令；

空间位置数据获取子模块，用于获取所述交互设备的空间位置数据；

控制交互数据识别子模块，用于根据所述控制指令和所述空间位置数据得到控制交互数据。

10.根据权利要求6至8中任一项所述的交互系统，其特征在于，所述语音识别模块包括：

语音采集子模块，用于采集所述用户的语音，将所述语音转换为文字；

语义解析子模块，用于对所述文字进行语义解析处理，识别出所述文字中包含的交互动作，得到所述交互动作的词条数据；

词条数据处理子模块，用于根据所述词条数据得到语音交互数据。