CN108363556A

CN108363556A - 一种基于语音与增强现实环境交互的方法和系统

Info

Publication number: CN108363556A
Application number: CN201810090559.6A
Authority: CN
Inventors: 谢高喜; 滕禹桥; 任大韫; 姚淼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-03
Also published as: US20190235833A1; US11397559B2

Abstract

本申请提供了一种基于语音与增强现实环境交互的方法和系统，所述方法包括，获取用户的语音数据，得到所述语音数据对应的操作指令；根据所述操作指令，对增强现实环境进行处理，显示所述增强现实处理结果。能够通过语音与增强现实环境交互，提高增强现实环境的交互效率。

Description

一种基于语音与增强现实环境交互的方法和系统

【技术领域】

本申请涉及自动控制领域，尤其涉及一种基于语音与增强现实环境交互的方法和系统。

【背景技术】

增强现实技术(Augmented Reality，简称AR)，是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术，增强现实技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。

随着手机移动设备及手持移动设备的普及,基于移动设备的增强现实(AR环境)越来越被用户所认知。

但是，基于移动设备的增强现实环境的互动手段单一，仅支持手势交互或移动设备自带GPS+姿态Sensor能力，使用手势交互或移动设备姿态交互，将增加不必要的动作，影响交互效率。

【发明内容】

本申请的多个方面提供一种基于语音与增强现实环境交互的方法和系统，用于提高增强现实环境的交互效率。

本申请的一方面，提供一种基于语音与增强现实环境交互的方法，包括：

获取用户的语音数据，得到所述语音数据对应的操作指令；

根据所述操作指令，对增强现实环境进行处理，显示所述增强现实处理结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，获取用户的语音数据，得到所述语音数据对应的操作指令包括：

启动语音监听服务，监听用户的语音数据；

对所述语音数据进行语音识别，得到所述语音数据对应的识别文本；

对所述识别文本进行语义分析，得到所述识别文本对应的操作指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对所述识别文本进行语义分析，得到所述识别文本对应的操作指令包括：

在预设的操作指令中对所述识别文本进行精确匹配，查找对应的操作指令；和/或，

对所述识别文本进行分词处理，生成关键词，查找与所述关键词匹配的操作指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，当所述关键词与至少两个操作指令匹配成功时，根据用户的进一步选择，得到对应的操作指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述增强现实环境包括：预设的增强现实子环境场景；或者，通过对摄像头获取的现实场景进行特征分析得到的增强现实子环境场景。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，根据所述操作指令，对增强现实环境进行处理包括：

根据所述操作指令，对增强现实子环境场景中的增强现实信息进行对应的增强现实控制操作。

本申请的另一方面，提供一种基于语音与增强现实环境交互的系统，包括：

操作指令获取模块，用于获取用户的语音数据，得到所述语音数据对应的操作指令；

增强现实处理模块，用于根据所述操作指令，对增强现实环境进行增强现实处理，显示所述增强现实处理结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述操作指令获取模块，具体包括：

语音获取子模块，用于启动用户的语音数据；

语音识别子模块，用于对所述语音数据进行语音识别，得到所述语音数据对应的识别文本；

语义分析子模块，用于对所述识别文本进行语义分析，得到所述识别文本对应的操作指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语义分析子模块，具体用于：

当所述关键词与至少两个操作指令匹配成功时，根据用户的进一步选择，得到对应的操作指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述增强现实处理模块，具体用于：

本发明的另一方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

由所述技术方案可知，本申请实施例可以提高增强现实环境的交互效率。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的基于语音与增强现实环境交互的方法的流程示意图；

图2为本申请一实施例提供的基于语音与增强现实环境交互的系统的结构示意图；

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的基于语音与增强现实环境交互的方法的示意图，如图1所示，包括以下步骤：

步骤S11、获取用户的语音数据，得到所述语音数据对应的操作指令；

步骤S12、根据所述操作指令，对增强现实环境进行处理，显示所述增强现实处理结果。

本实施例所述方法可以由增强现实的控制装置来执行，该装置可以由软件和/或硬件来实现，并集成在具有增强现实功能的移动终端中。其中，移动终端包括但不限定于手机、平板电脑等用户持有的设备。

在步骤S11的一种优选实现方式中，

优选地，获取用户的语音数据，得到所述语音数据对应的操作指令包括以下子步骤：

子步骤S111、启动语音监听服务，监听用户的语音数据；

优选地，音频监听设备可以是手持设备，例如手机或平板电脑的MIC。其中，监听用户的语音数据。其中，监听用户的语音数据可以是实时监听用户的语音数据，也可以是在完成上一项操作后监听用户的语音数据。例如，可以是在开启增强现实功能后监听用户的语音数据，或者完成增强现实内容的显示后监听用户的语音数据。

优选地，若当前场景为预设增强现实子环境场景，则可以引导用户输入预设的语音操作指令。例如，所述增强现实子环境场景为汽车3D模型子环境场景，则在场景中，显示如“旋转模型”、“放大模型”、“缩小模型”等提示，用户可以根据上述提示输入格式化的固定语音，识别准确率较高。其中，预设增强现实子环境场景是通过增强现实的控制装置的特定入口进入，例如，控制装置的APP上预设了汽车3D模型、人物3D模型等多个入口，用户点击特定入口，即进入了预设增强现实子环境场景，在预设增强现实子环境场景中显示汽车3D模型。

子步骤S112、对所述语音数据进行语音识别，得到所述语音数据对应的识别文本；

优选地，调用自动语音识别(Automatic Speech Recognition，ASR)服务，对用户的语音数据进行解析，得到所述语音对应的语音识别结果，所述语音识别结果为语音对应的识别文本。

所述语音识别的过程可以采用现有的一些语音识别技术，主要包括：对语音数据进行特征提取，利用提取的特征数据以及预先训练的声学模型和语言模型进行解码，在解码的时候可以确定语音数据对应的语法单元，语法单元如音素或音节，根据解码结果得到当前语音对应的识别文本。

子步骤S113、对所述识别文本进行语义分析，得到所述识别文本对应的操作指令。

优选地，由于在预设增强现实子环境场景，用户可以根据引导输入的是格式化的固定语音，因此，可以在预设的操作指令中对所述识别文本进行精确匹配，查找对应的操作指令。

优选地，对于预设增强现实子环境场景以外的其他增强现实子环境场景，用户也可以输入格式化的固定语音，因此，可以在预设的操作指令中对所述识别文本进行精确匹配，查找对应的操作指令。

如果没有查找到所述识别文本精确匹配的操作指令，则对所述识别文本进行分词处理，生成关键词；根据所述关键词，在预设的操作指令中查找与所述关键词匹配的操作指令。

优选地，可以基于语义识别技术，将所述识别文本与预设的操作指令进行匹配。例如，基于语义识别技术对所述识别文本与预设的操作指令进行处理，并计算二者之间的相似度，若二者之间的相似度大于相似度阈值，则确定匹配成功；否则，确定匹配不成功。本实施例中对相似度阈值不作具体限定，如相似度阈值可以为0.8。

优选地，当所述关键词与至少两个操作指令匹配成功时，根据用户的进一步选择，得到对应的操作指令。例如，根据匹配成功的多个操作指令，在增强现实环境中给出多种选择，通过用户做出的选择操作，进一步对应的操作指令。

在步骤S12的一种优选实现方式中，

优选地，所述增强现实环境包括：预设的增强现实子环境场景；或者，通过对摄像头获取的现实场景进行特征分析得到的增强现实子环境场景。

优选地，在预设的增强现实子环境场景中，根据用户输入的格式化的固定操作指令，执行预设操作，例如，在预设的汽车3D模型增强现实子环境场景中，对所显示的汽车3D模型进行旋转、放大、缩小等操作。

优选地，通过对摄像头获取的现实场景进行特征分析，当摄像头捕捉到特定物体，则加载对应的增强现实子环境场景，例如，当摄像头捕捉到某广告位，则加载对应的广告增强现实子环境场景。根据所述操作指令，对增强现实子环境场景中的增强现实信息进行对应的增强现实控制操作。例如，用户可以输入“重复播放”的控制指令，控制广告增强现实自环境场景中的广告增强现实信息进行重复播放；还可以输入“旋转”的控制指令，控制广告增强现实自环境场景中的广告增强现实信息进行旋转，选择最合适的观看角度观看广告增强现实信息。

优选地，当摄像头没有捕捉到特定物体，则进入默认增强现实子环境场景，等待用户的操作指令，例如，用户输入的语音为“请推荐我一款适合我家空间及装修风格搭配的沙发”，对所述识别文本进行分词处理，生成关键词“空间”、“风格”、“沙发”；根据所述关键词，查找到与所述关键词匹配的操作指令“显示沙发”。则在当前增强现实子环境场景中显示沙发的增强现实信息。用户可以通过多轮次的语音输入对沙发的增强现实信息进行调整，如，改变沙发类型、改变沙发颜色、改变沙发大小、改变沙发角度等。

优选地，根据所述操作指令，对增强现实环境进行处理后，将处理后的增强现实信息绘制在摄像头获取的图像帧或视频流中。

具体地，使用计算机图形处理技术，在图像帧或视频流上绘制AR信息。

将将处理后的增强现实信息和图像帧或视频流进行渲染操作，最后得出用于输出的图像帧或视频流；

将渲染得到的图像帧或视频流绘制到用于显示的内存中；

将绘制在内存中的图像帧或视频流，显示具有增强现实功能的移动终端的屏幕上。

根据本实施例，可以通过语音与增强现实环境交互，提高了增强现实环境的交互效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图2为本申请一实施例提供的基于语音与增强现实环境交互的系统的结构示意图，如图2所示，包括：

操作指令获取模块21，用于获取用户的语音数据，得到所述语音数据对应的操作指令；

增强现实处理模块22，用于根据所述操作指令，对增强现实环境进行处理，显示所述增强现实处理结果。

本实施例所述系统可以是增强现实的控制装置来执行，该装置可以由软件和/或硬件来实现，并集成在具有增强现实功能的移动终端中。其中，移动终端包括但不限定于手机、平板电脑等用户持有的设备。

在操作指令获取模块21的一种优选实现方式中，

优选地，获取用户的语音数据，得到所述语音数据对应的操作指令包括以下子模块：

语音获取子模块211，用于启动语音监听服务，监听用户的语音数据；

语音识别子模块212，用于对所述语音数据进行语音识别，得到所述语音数据对应的识别文本；

语义分析子模块213，用于对所述识别文本进行语义分析，得到所述识别文本对应的操作指令。

优选地，由于在预设增强现实子环境场景，用户根据引导输入的是格式化的固定语音，因此，可以在预设的操作指令中对所述识别文本进行精确匹配，查找对应的操作指令。

在增强现实处理模块22的一种优选实现方式中，

增强现实处理模块22根据所述操作指令，对增强现实环境进行处理，显示所述增强现实处理结果。

将渲染得到的图像帧或视频流绘制到用于显示的内存中；

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于语音与增强现实环境交互的方法，其特征在于，包括以下步骤：

获取用户的语音数据，得到所述语音数据对应的操作指令；

2.根据权利要求1所述的方法，其特征在于，获取用户的语音数据，得到所述语音数据对应的操作指令包括：

启动语音监听服务，监听用户的语音数据；

3.根据权利要求2所述的方法，其特征在于，对所述识别文本进行语义分析，得到所述识别文本对应的操作指令包括：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，所述增强现实环境包括：预设的增强现实子环境场景；或者，通过对摄像头获取的现实场景进行特征分析得到的增强现实子环境场景。

6.根据权利要求1所述的方法，其特征在于，根据所述操作指令，对增强现实环境进行处理包括：

7.一种基于语音与增强现实环境交互的系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述操作指令获取模块，具体包括：

语音获取子模块，用于启动用户的语音数据；

9.根据权利要求8所述的系统，其特征在于，所述语义分析子模块，具体用于：

10.根据权利要求9所述的系统，其特征在于，所述语义分析子模块，具体用于：

11.根据权利要求7所述的系统，其特征在于，

所述增强现实环境包括：预设的增强现实子环境场景；或者，通过对摄像头获取的现实场景进行特征分析得到的增强现实子环境场景。

12.根据权利要求7所述的系统，其特征在于，所述增强现实处理模块，具体用于：

13.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。