CN109841217A

CN109841217A - 一种基于语音识别的ar交互系统和方法

Info

Publication number: CN109841217A
Application number: CN201910049725.2A
Authority: CN
Inventors: 刘雨松
Original assignee: Suzhou Yi Neng Tong Information Technology Co Ltd
Current assignee: Suzhou Yi Neng Tong Information Technology Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-06-04

Abstract

本发明涉及信息技术领域，且公开了一种基于语音识别的AR交互系统，包括运算处理器终端和AR端，所述运算处理器终端独立于AR端并进行数据传输连接，所述AR端用于采集实景数据和用户交互信息并用于音频与视频信号的输出，所述运算处理器终端用于处理用户交互信息以及将处理结果结合AR端传来的实景图像生成虚拟‑现实图像。本发明通过数据采集模块采集包括用户语音信息在内的多项交互信息，并由运算处理器终端的语音处理模块和数据处理模块对采集的语音交互信息进行处理，最终实现由语音交互完成AR图像生成，填补AR交互技术在语音交互方面的技术空白，增强用户的AR体验性。

Description

一种基于语音识别的AR交互系统和方法

技术领域

本发明涉及信息技术领域，具体为一种基于语音识别的AR交互系统和方法。

背景技术

AR是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。这种技术由1990年提出。随着随身电子产品CPU运算能力的提升，预期增强现实的用途将会越来越广，AR技术在医疗、教育、房地产、设计方面等都有广阔的前景。

语音识别技术现在主要的分为两个方向，即传统声学模型和深度学习模型。传统的语音识别技术即声学模型(GMM-HMM)，通过提取说话者的音频特征，在一些算法的模拟下，生成一个模型；深度学习模型，是近几年来迅速崛起的技术，目前比较火的是基于深度神经网络的隐马尔可夫模型，该技术基于数据的计算模拟出一个鉴别性模型。

目前AR的交互技术主要还是靠动作捕捉，手势识别，用户的体验性并不好，AR产品交互性差，抽离感强，所以在此情况下，语音交互就成为一个用户很强的诉求，为此提出一种基于语音识别的AR交互系统，旨在实现人和虚拟场景人物更自然的交互体验。

发明内容

针对背景技术中提出的现有AR交互方法在使用过程中存在的不足，本发明提供了一种基于语音识别的AR交互系统和方法，具备AR产品交互性强、用户体验性好的优点，解决了上述背景技术中提出的因单一的动作捕捉与手势识别交互方式导致交互性差、抽离感强的问题。

本发明提供如下技术方案：一种基于语音识别的AR交互系统，包括运算处理器终端和AR端，所述运算处理器终端独立于AR端并进行数据传输连接，所述AR端用于采集实景数据和用户交互信息并用于音频与视频信号的输出，所述运算处理器终端用于处理用户交互信息以及将处理结果结合AR端传来的实景图像生成虚拟-现实图像，并将所述虚拟-现实图像和音频信息分别反馈给AR端的视频与音频输出设备。

优选的，所述采集实景数据和用户交互信息包括：采集AR端实时场景图像、周围环境信息、用户的动作信息和用户的语音信息。

优选的，所述AR端包括：数据采集模块、实景采集模块、实景处理模块、语音输出模块和显示模块，其中，

所述数据采集模块用于收集周围空间环境信息、用户的动作和语音信息，所述数据采集模块将采集的信息通过信号连接传输给运算处理器终端处理；

所述实景采集模块连接所述实景处理模块，所述实景采集模块用于采集周围空间的实景图像；

所述实景处理模块用于对采集的空间实景图像进行调整处理，将调整处理后的空间实景图像通过信号连接传输给运算处理器终端作图像生成处理；

所述语音输出模块用于将运算处理器终端中的结果进行语音输出；

所述显示模块用于将运算处理器终端中最终生成的虚拟-现实结合的立体图像作视频输出。

进一步的，所述运算处理器终端由数据预处理模块、语音处理模块、数据处理模块、场景生成模块、图像生成模块和存储模块构成，其中，

所述数据预处理模块用于将数据采集模块传来的数据进行实时的跟踪定位，并进行分析处理；

所述语音处理模块用于对数据预处理模块传来的用户语音数据通过基于深度学习的算法进行语音模型的生成和检验；

所述数据处理模块用于分析语音处理模块的结果，根据结果，从存储模块调取相应的知识库和对话库分别作图像输出和语音输出；

所述场景生成模块用于将数据处理模块的结果生成一个虚拟的场景；

所述图像生成模块用于将所述虚拟的场景与所述实景处理模块传来的空间实景图像进行叠加处理并输出给显示模块；

所述存储模块用于存储知识库和对话库，所述知识库和对话库用于存储相关应用场景的数据信息和对话信息。

一种基于语音识别的AR交互系统的交互方法，包含以下步骤：

S1、构建知识库与对话库，将相关应用场景的对话库存储于存储模块中；

S2、开启运算处理器终端和AR端，并且保证二者通信模块之间的可靠传输；

S3、用户佩戴AR设备，用户调整位置，如行走等，能够感受到虚拟场景和真实场景；

S4、用户根据虚拟场景提示或者主动通过音频输入外设，输入语音指令；

S5、通过在运算处理器终端的语音语义等一系列场景控制的处理，用户就会在AR端音频输出设备，通过耳机接收到应答信息，同时从显示设备获取虚拟场景的应答动作和表情。

本发明具备以下有益效果：

1、本发明通过数据采集模块采集包括用户语音信息在内的多项交互信息，并由运算处理器终端的语音处理模块和数据处理模块对采集的语音交互信息进行处理，最终实现由语音交互完成AR图像生成，填补AR交互技术在语音交互方面的技术空白，增强用户的AR体验性。

2、本发明通过在语音交互完成AR图像生成的基础上，进一步通过调用存储模块中的知识库与对话库，将对话信息通过AR端语音输出设备进行音频输出，使得用户通过显示设备与音频设备，获得视觉与听觉的双重反馈，更加具备沉浸感，进一步提高用户体验。

附图说明

图1为本发明实例AR交互的系统场景示意图。

图中：1、显示模块；2、数据采集模块；3、实景处理模块；4、实景采集模块；5、语音输出模块；6、图像生成模块；7、场景生成模块；8、数据预处理模块；9、语音处理模块；10、数据处理模块；11、存储模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于语音识别的AR交互系统，针对运算处理器独立于AR外设端，包括运算处理器终端和AR端，其中，运算处理器终端包括有数据预处理模块8、语音处理模块9、数据处理模块10、场景生成模块7、图像生成模块6和存储模块11，AR端包括有数据采集模块2、实景采集模块4、实景处理模块3、语音输出模块5和显示模块1，具体的，

数据采集模块2包括环境监测传感器、手势识别传感器、语音输入设备等，采集用户交互信息，并将信息数据传输给数据预处理模块8；

实景采集模块4可采用深度摄像头等其他图像摄录设备采集周围空间的实景图像，并将采集的图像数据传至实景处理模块3进行数据处理；

实景处理模块3对采集的实景图像进行一定的调整处理，如背景虚化、提取特征点等，并将处理后的数据传给图像生成模块6；

语音输出模块5将数据处理模块10从存储模块11调取对话库的结果进行语音输出，设备可采用耳机、功放等；

显示模块1输出由图像生成模块6最终产生的虚实结合的立体图像；

数据预处理模块8包括一些全息处理设备，主要对数据采集模块2的数据进行实时的跟踪定位，并进行初步的分析处理，比如提取捕捉数据的特征点等；

语音处理模块9主要对用户的语音先进行初步的处理，即在数据预处理模块8的基础上，通过基于深度学习的算法进行语音模型的生成和检验，如进行NLP处理、语义分析等等，在此基础上推断出用户意图；

数据处理模块10对语音处理模块9的结果进行分析，根据结果，从存储模块11调取相应的知识库和对话库，调用知识库的数据生成一个虚拟的场景，调用对话库中的数据输出语音；

场景生成模块7将数据处理模块10传来的结果生成一个虚拟的场景；

图像生成模块6将虚拟场景与空间实景图像进行叠加处理，并将处理结果反馈给显示模块1；

存储模块11存储知识库和对话库，这里的知识库和对话库存储了大量相关的应用场景的数据信息和对话信息，比如说：“我要听林俊杰的歌曲”，存储模块11就会从中抽出相关的知识库歌曲信息，并随即播放，数据处理模块10根据语音处理模块9的结果，将调用存储在存储模块11中的所需的对话库和知识库并进行输出。

需要说明的是，运算处理器作为核心处理器而独立于AR外设端，是因为，加入语音交互及相应的语音处理功能后，需要大量的计算数据，故需要一个计算性能强大的处理器，那种处理器和外设于一体的一体机无法满足计算需求，本发明的运算处理器是指那些场景控制系统和智能语音系统集成于独立于AR的一切设备，也可以是云端，基于分体式设计，运算处理器终端与AR端的信号连接可以是通过通信模块实现网络连接传输，也可以是光缆实现光电信号传输，作为优选的实施例，本申请采用将一些处理过程置于云端计算处理，此外，运算处理器终端采用云端计算，还有一个好处，就是可以有更好的组网性能，更适合大数据的处理。下面，运算处理器以云端为例进行说明。

首先，AR会通过数据采集模块2将周围环境信息、用户的动作和语音进行收集，具体的通过环境监测传感器采集环境信息，通过动作捕捉传感器捕捉用户动作，通过语音输入设备，如mic，采集用户的语音信息；然后，通过数据线或者其他方式如WiFi将采集的数据传输给云端，会先在数据预处理模块8中进行预处理，具体的，根据数据采集模块2中的环境信息和用户坐标姿势，通过相应的算法进行初步的三维建模，实时的将虚拟物体的坐标转换成真实场景中的坐标，初步的绘出一个立体空间模型。

然后在语音处理模块9中对用户的语音信息进行语音识别，分析用户语音信息内容和指令信息，在此基础上，进行NLP分词，关键词分析等，进而推断出用户可能的意图，从而做出相应的应答和场景的生成调整。

然后由数据处理模块10综合数据预处理模块8和语音处理模块9的结果，处理器会进行如下动作：

一方面在数据预处理模块8的基础上，在场景生成模块7中生成一个虚拟场景，同时会结合用户的语音指令信息对场景做出实时调整，调整的指令会通过数据线、WiFi等传输给云端的场景生成模块7，此外位于AR端的实景采集模块4和实景处理模块3会输出一个实景。该实景和场景生成模块7中的虚拟场景在图像处理模块中进行叠加融合等处理，最后通过显示模块1输出到用户的视网膜上面。另一方面，云端根据语音处理模块9中的结果，进行对话信息的调用，对话信息存储在存储模块11中，这里的存储模块11，包括知识图库，对话库等。

最后云端将会从存储模块11的知识库、对话库中，返回应答会话，这些应答会话将会传输给AR上的语音输出模块5，用户就会从语音输出模块5，如耳机接收到应答回话。同时AR端将会在显示模块1输出相关场景处理的结果，如实时做出应答的表情或者动作，配合语音反馈，从而能够达到视觉听觉的双重感知，用户沉浸感大大增强。

本发明系统的交互方法如下：

构建知识库对话库，首先要把相关应用场景的对话库存储于存储模块11中；

开启云端和外设，并且保证通信模块的可靠传输；

用户佩戴AR设备，用户调整位置，如行走等，能够感受到虚拟场景和真实场景；

用户根据虚拟场景提示或者主动通过音频输入外设，输入语音；

通过在云端语音语义等一系列场景控制的处理，用户就会在AR端音频输出设备，通过耳机接收到应答信息，同时从显示设备获取虚拟场景的应答动作和表情。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于语音识别的AR交互系统，其特征在于，包括运算处理器终端和AR端，所述运算处理器终端独立于AR端并进行数据传输连接，所述AR端用于采集实景数据和用户交互信息并用于音频与视频信号的输出，所述运算处理器终端用于处理用户交互信息以及将处理结果结合AR端传来的实景图像生成虚拟-现实图像，并将所述虚拟-现实图像和音频信息分别反馈给AR端的视频与音频输出设备。

2.根据权利要求1所述的一种基于语音识别的AR交互系统，其特征在于，所述采集实景数据和用户交互信息包括：采集AR端实时场景图像、周围环境信息、用户的动作信息和用户的语音信息。

3.根据权利要求1所述的一种基于语音识别的AR交互系统，其特征在于，所述AR端包括：数据采集模块、实景采集模块、实景处理模块、语音输出模块和显示模块，其中，

4.根据权利要求3所述的一种基于语音识别的AR交互系统，其特征在于，所述运算处理器终端由数据预处理模块、语音处理模块、数据处理模块、场景生成模块、图像生成模块和存储模块构成，其中，

5.一种基于语音识别的AR交互系统的交互方法，其特征在于，包含以下步骤：