CN109739353A

CN109739353A - 一种基于手势、语音、视线追踪识别的虚拟现实交互系统

Info

Publication number: CN109739353A
Application number: CN201811614361.XA
Authority: CN
Inventors: 杨琦海; 郭正
Original assignee: Chongqing Cheng Technology Co Ltd
Current assignee: Chongqing Cheng Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-10

Abstract

本发明公开了一种基于手势、语音、视线追踪识别的虚拟现实交互系统，包括语音交互识别模块、手势交互识别模块、视觉追踪识别模块和协同处理模块：语音交互识别模块用于获取语音，基于获取的语音生成对应的语音操作指令；手势交互识别模块用于获取手势，基于获取的手势生成对应的手势操作指令；视觉追踪识别模块用于获取视线落点，基于获取的视线落点生成对应的视觉选取操作指令；协同处理模块解析语音操作指令、手势操作指令和视觉选取操作指令中的一个或多个，实现用户交互功能。这样，上述系统可以实现三个维度操作指令的识别解析，这样用户可以在虚拟空间中执行多个维度操作命令操作，实现协同操作，更加便捷高效的完成用户交互操作。

Description

一种基于手势、语音、视线追踪识别的虚拟现实交互系统

技术领域

本发明涉及虚拟现实交互技术领域，具体的说涉及一种基于手势、语音、视线追踪识别的虚拟现实交互系统。

背景技术

虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统，它利用计算机生成一种模拟环境，是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真，使用户沉浸到该系统中。

用户沉浸在虚拟现实空间中，需要与系统进行交互，在虚拟空间执行各种指令。例如利用虚拟显示技术构件家装环境，使用户自由挑选摆放家具，构建自己喜欢的风格。但现有与系统交互的方式多是单一方式进行，如通过单一手势执行命令，这样首先是交互手势命令较多，需要前期学习，且单一命令种类的表达解析效率较低。

发明内容

为解决以上技术问题，本发明提供了一种可在虚拟现实场景下进行用户交互时，能够通过手势、语音、视线多维度控制的协同，更加便捷高效的完成用户交互操作的基于手势、语音、视线追踪识别的虚拟现实交互系统。

为解决上述问题，本发明提供了如下的技术方案。

一种基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，包括语音交互识别模块、手势交互识别模块、视觉追踪识别模块和协同处理模块：

所述语音交互识别模块用于获取语音，基于获取的语音生成对应的语音操作指令；

所述手势交互识别模块用于获取手势，基于获取的手势生成对应的手势操作指令；

所述视觉追踪识别模块用于获取视线落点，基于获取的视线落点生成对应的视觉选取操作指令；

所述协同处理模块解析语音操作指令、手势操作指令和视觉选取操作指令中的一个或多个，实现用户交互功能。

作为优选，所述语音交互识别模块包括：

语音获取单元，语音获取单元通过麦克风采集连续语音；

语音文本转换单元，将获取的连续语音转换为文本内容；

文本匹配调用单元，将文本内容在数据库中匹配，基于匹配结果生成语音操作指令；

作为优选，还包括语音训练记录单元，记录未匹配到答案的连续语音对应的无应答文本内容，并将无应答文本内容加入到数据库中。

作为优选，所述手势交互识别模块包括：

手势识别单元，获取用户手部图像进行手势识别；

手势匹配单元，将识别到的手势与指令手势进行匹配，生成对应的手势操作指令；

作为优选，所述视觉追踪识别模块包括：

眼部图像获取单元，拍摄包含用户瞳孔的RGB-D参考图像；

定位单元，定位用户瞳孔在虚拟空间中的位置；

视线识别单元，基于RGB-D参考图像获取用户瞳孔的视线，获取所述视线投射到虚拟空间的落点的坐标，基于落点的坐标生成视觉选取操作指令；

作为优选，视线识别单元基于RGB-D参考图像获取用户瞳孔的视线，获取所述视线投射到虚拟空间的落点的坐标，当落点在间隔时长内处于预设空间范围内时，基于落点的坐标生成视觉选取操作指令。

从上述技术方案可以看出，本申请公开了一种基于手势、语音、视线追踪识别的虚拟现实交互系统，上述系统可以实现三个维度操作指令的识别解析，这样用户可以在虚拟空间中执行多个维度操作命令操作，实现协同操作，更加便捷高效的完成用户交互操作。

附图说明

图1为本发明实施例部分公开的一种基于手势、语音、视线追踪识别的虚拟现实交互系统的电路结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。

请参阅图1，图1为本发明实施例部分公开的一种基于手势、语音、视线追踪识别的虚拟现实交互系统的电路结构框图。

这样，上述系统可以实现三个维度操作指令的识别解析，这样用户可以在虚拟空间中执行多个维度操作命令操作，实现协同操作，更加便捷高效的完成用户交互操作。具体可将语音交互识别模块、手势交互识别模块、视觉追踪识别模块和协同处理模块设置在同一芯片上实现功能集成。协同处理模块通过时间先后顺序依次解析接收到的操作指令，完成对应的语音操作，手势操作和视线操作。

在本实施例中，所述语音交互识别模块包括：

语音获取单元，语音获取单元通过麦克风采集连续语音；

语音文本转换单元，将获取的连续语音转换为文本内容；

文本匹配调用单元，将文本内容在数据库中匹配，基于匹配结果生成语音操作指令。

其中，将语音转换为文本内容为现有技术。通过的文本内容的转换可以实现更加准确应答匹配。同时可以对数据库进行不同文本内容的增添和删除，得到不同的连续语音对应的操作指令，方便对语音命令的更新设置。上述数据库中预先储存多种交互模板，对于连续语音一般通过提取关键词的方式与，交互模板中的字段匹配，调取匹配率最高的模板对应的应答内容实现语音交互。语音交互指令结果可以是在空间中选取模型，缩放模型，放置模型，也可以是语音播报与虚拟空间相关的信息。

在本实施例中，还包括语音训练记录单元，记录未匹配到答案的连续语音对应的无应答文本内容，并所述无应答文本内容加入到数据库中。

这样，上述可以实现机器学习，后期可以就无应答文本内容人为导入答案，扩展数据库。

在本实施例中，所述手势交互识别模块包括：

手势识别单元，获取用户手部图像进行手势识别；

手势匹配单元，将识别到的手势与指令手势进行匹配，生成对应的手势操作指令。

这样，上述涉及到的手势识别，手势匹配为现有技术内容，通过摄像机采集手势，然后对RGB视频流进行特征提取，实现手势识别。预设有特定手势，特定手势对应特定操作指令。通过匹配特定手势得到特定操作指令，解析操作指令，完成手势操作。具体手势操作指令可以是在虚拟空间中选取放置模型的操作指令，缩放模型的操作指令，选取放置位置的操作指令。

在本实施例中，所述视觉追踪识别模块包括：

眼部图像获取单元，拍摄包含用户瞳孔的RGB-D参考图像；

定位单元，定位用户瞳孔在虚拟空间中的位置；

视线识别单元，基于RGB-D参考图像获取用户瞳孔的视线，获取所述视线投射到虚拟空间的落点的坐标，基于落点的坐标生成视觉选取操作指令。

其中，眼部图像获取单元可以是RGB-D相机。RGB-D参考图像是两幅图像:一个是普通的RGB三通道彩色图像,另一个是深度图像，通过RGB三通道彩色图像识别瞳孔，通过深度图象得到瞳孔对应像素点的距离构件眼球弧面，通过黑色像素点拟合得到瞳孔对应的椭圆边界，基于椭圆边界在眼球弧面上的分布位置得到一个过椭圆圆心与眼球弧面相切的平面，从原点发出垂直所述平面的射线，该射线即为视线，将视线另一端投射到虚拟空间的边界墙面上或虚拟空间中遮挡物的平面上，得到所述落点。对应获取落点的在虚拟空间中的坐标信息，便于后期交互。视线追踪通过落点实现选取功能，通过落点对空间的已有物品模型的选取，具体通过落点的编标匹配虚拟空间中已有物体或已有平面的坐标，若两者坐标出现重合，即可视为选取，或选定。这样通过看的方式实现选取，高效，操作难度小，交互更加体验好。同时还可以通过视线追踪实现空间物品放置，落点处即是选取的放置处，这样效率高，交互体验好。

在本实施例中，视线识别单元，基于RGB-D参考图像获取用户瞳孔的视线，获取所述视线投射到虚拟空间的落点的坐标，当落点在间隔时长内处于预设空间范围内时，基于落点的坐标生成视觉选取操作指令。

这样，预设空间范围为一个坐标集合，当落点坐标在预设时长内处于坐标集合中时，对应生产该操作指令。其中预设时长可以是5秒，或根据用户喜好进行设定。避免系统频繁选取落点，降低系统负载。通过凝视一定时长得到空间位置选取指令，符合普通用户操作习惯。

上述系统特别适用于在虚拟空间中放置家具模型，通过语音交互识别模块，手势交互识别模块，可以使得用户可以通过语音或手势等命令对家具模型进行选取调用、放置或缩放，通过视觉追踪识别模块实现放置位置的选取，通过协同处理模块协同处理多维度指令执行的先后顺序，这样更加便捷高效的完成用户交互操作

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，包括语音交互识别模块、手势交互识别模块、视觉追踪识别模块和协同处理模块：

2.如权利要求1所述的基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，所述语音交互识别模块包括：

语音获取单元，语音获取单元通过麦克风采集连续语音；

语音文本转换单元，将获取的连续语音转换为文本内容；

3.如权利要求2所述的基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，还包括语音训练记录单元，记录未匹配到答案的连续语音对应的无应答文本内容，并将无应答文本内容加入到数据库中。

4.如权利要求1所述的基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，所述手势交互识别模块包括：

手势识别单元，获取用户手部图像进行手势识别；

手势匹配单元，将识别到的手势与指令手势进行匹配，基于匹配结果生成手势操作指令。

5.如权利要求1所述的基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，所述视觉追踪识别模块包括：

眼部图像获取单元，拍摄包含用户瞳孔的RGB-D参考图像；

定位单元，定位用户瞳孔在虚拟空间中的位置；

视线识别单元，基于RGB-D参考图像获取用户瞳孔的视线，获取所述视线投射到虚拟空间的落点的坐标，基于落点在坐标生成视觉选取操作指令。

6.如权利要求5所述的基于手势、语音、视线追踪识别的虚拟现实交互系统，其特征在于，视线识别单元基于RGB-D参考图像获取用户瞳孔的视线，获取所述视线投射到虚拟空间的落点的坐标，当落点在间隔时长内处于预设空间范围内时，基于落点的坐标生成视觉选取操作指令。