CN108877791B

CN108877791B - 基于视图的语音交互方法、装置、服务器、终端和介质

Info

Publication number: CN108877791B
Application number: CN201810501073.7A
Authority: CN
Inventors: 沈洲; 谭待; 吕晟; 吴开放; 李裕东
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2021-10-08
Anticipated expiration: 2038-05-23
Also published as: CN108877791A; JP2020527753A; WO2019223351A1; US11727927B2; US20200294505A1; JP6952184B2

Abstract

本发明实施例公开了一种基于视图的语音交互方法、装置、服务器、终端和介质，其中，该方法包括：获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息；依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图；依据语音指令描述信息，从语音指令列表中定位出与用户操作意图相匹配的指令序列；将指令序列下发到终端执行。本发明实施例解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，实现了语音交互功能和产品的业务逻辑的解耦合，提高了语音交互功能的通用性。

Description

基于视图的语音交互方法、装置、服务器、终端和介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种基于视图的语音交互方法、装置、服务器、终端和介质。

背景技术

人工智能的发展，使得语音交互成为了极具竞争力的交互方式。对于互联网产品而言，将传统的交互方式与语音交互相结合，可以为用户带来更好的体验。

但是，现有的语音交互方法存在以下缺点：

1)语音交互的功能和产品的业务逻辑耦合度较高，无法分开维护；

2)每个开发者都需要关注语音交互全流程，需要自己实现相关的细节和过程，导致不同的语音交互开发程序实现的功能很难统一；

3)语音交互开发过程无法标准化，使得语音交互不能快速扩展到不同的应用场景。

发明内容

本发明实施例提供一种基于视图的语音交互方法、装置、服务器、终端和介质，以解决现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题。

第一方面，本发明实施例提供了一种基于视图的语音交互方法，应用于服务器，该方法包括：

获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息，其中，所述语音指令描述信息包括语音指令列表和所述语音指令列表中每个语音指令的配置信息，所述语音指令用于描述对视图中元素可执行的语音操作；

依据所述可语音操作的元素的视图描述信息对所述语音信息进行语义识别，得到用户的操作意图；

依据所述语音指令描述信息，从所述语音指令列表中定位出与所述操作意图相匹配的指令序列；

将所述指令序列下发到终端执行。

第二方面，本发明实施例还提供了一种基于视图的语音交互方法，应用于终端，该方法包括：

将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，所述语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，所述语音指令用于描述对视图中元素可执行的语音操作；

接收来自服务器根据所述语音信息和语音指令描述信息确定的指令序列，并执行所述指令序列中语音指令对应的指令处理逻辑。

第三方面，本发明实施例还提供了一种基于视图的语音交互装置，配置于服务器，该装置包括：

语音及指令信息获取模块，用于获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息，其中，所述语音指令描述信息包括语音指令列表和所述语音指令列表中每个语音指令的配置信息，所述语音指令用于描述对视图中元素可执行的语音操作；

语义识别模块，用于依据所述可语音操作的元素的视图描述信息对所述语音信息进行语义识别，得到用户的操作意图；

指令序列确定模块，用于依据所述语音指令描述信息，从所述语音指令列表中定位出与所述操作意图相匹配的待执行的指令序列；

指令下发模块，用于将所述待执行的指令序列下发到终端执行。

第四方面，本发明实施例还提供了一种基于视图的语音交互装置，配置于终端，该装置包括：

语音及指令信息发送模块，用于将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，所述语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，所述语音指令用于描述对视图中元素可执行的语音操作；

指令序列执行模块，用于接收来自服务器根据所述语音信息和语音指令描述信息确定的指令序列，并执行所述指令序列中语音指令对应的指令处理逻辑。

第五方面，本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的应用于服务器的基于视图的语音交互方法。

第六方面，本发明实施例还提供了一种终端，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的应用于终端的基于视图的语音交互方法。

第七方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的应用于服务器的基于视图的语音交互方法。

第八方面，本发明实施例还提供了另一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的应用于终端的基于视图的语音交互方法。

本发明实施例基于标准化的语音编程语言实现，首先获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息；依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图；进而从语音指令列表中定位出与用户操作意图相匹配的指令序列；最后将该指令序列下发到终端执行。本发明实施例解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，在语音交互功能开发过程中，开发人员对视图上可语音操作的元素进行语音指令描述信息的配置即可，实现了语音交互功能和产品的业务逻辑的解耦合，便于分开进行维护；实现了语音交互功能开发的统一性和标准化，进而提高了语音交互功能的通用性，可以快速扩展到不同的应用场景。

附图说明

图1是本发明实施例一提供的基于视图的语音交互方法的流程图；

图2是本发明实施例二提供的基于视图的语音交互方法的流程图；

图3是本发明实施例三提供的基于视图的语音交互方法的流程图；

图4是本发明实施例四提供的基于视图的语音交互方法的流程图；

图5是本发明实施例五提供的基于视图的语音交互装置的结构示意图；

图6是本发明实施例六提供的基于视图的语音交互装置的结构示意图；

图7是本发明实施例七提供的一种服务器的结构示意图；

图8是本发明实施例八提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的基于视图的语音交互方法的流程图，本实施例可适用于应用在服务器中实现基于视图的语音交互的情况，该方法可以由基于视图的语音交互装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器中。如图1所示，该方法具体包括：

S110、获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作。

本实施例中的视图包括终端上可以通过用户的语音进行操作的视图，视图上显示的元素包括可语音操作的元素和不可语音操作的元素，因此，语音指令(voice-action)是针对视图中可以被语音操作的元素，语音指令是决定能不能操作视图元素的核心部分。

语音指令描述信息是开发人员基于标准化的语音编程语言，根据终端的视图元素对应的操作预先设定的语音交互配置信息，在视图中，每个可语音操作的元素均有对应的语音指令及相关配置信息。所述语音编程语言是本实施例中开发人员为了实现语音交互功能的标准化和通用性而专门开发的计算机程序语言，开发主要目的在于：把语音交互功能和视图展现逻辑分开，简化语音交互功能的编程复杂度，通用化语音交互流程以及语音交互功能的代码逻辑；通过封装语音交互核心技术，为产品开发者提供一套规范和基础框架，即一套通用的处理过程，基于简单实用的高级应用程序编程接口(ApplicationProgramming Interface，API)，实现产品开发者在视图上，例如html视图、xml视图或者jsx视图，快速增加丰富的语音交互功能的效果。

语音指令描述信息中的语音指令作为视图元素的属性存在，用来描述用户可以执行的语音操作，并且可以通过脚本对其功能进行扩展，同时，语音指令具有通用性，可以与视图中的组件进行灵活组合。语音指令的相关配置信息，可以通过语音属性(voice-config)来配置。语音指令描述信息中的语音指令列表是指当前显示视图上所有的语音指令，可以通过收集并以列表的形式进行组织。

S120、依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图。

元素的视图描述信息包括与视图具体构成相关的元素名称、文本标签和元素在视图上的坐标分布等展现场景信息，服务器根据元素的视图描述信息对用户的语音信息进行语义识别，可以将用户语音中关键信息与视图中元素进行匹配，得到符合当前显示视图的用户操作意图。

S130、依据可语音操作的元素的语音指令描述信息，从语音指令列表中定位出与用户操作意图相匹配的指令序列。

当用户的操作意图确定之后，通过用户操作意图和可语音操作的元素的语音指令描述信息之间的匹配，便可以定位出需要执行的指令序列。

在上述技术方案基础上，可选地，服务器获取的终端当前显示视图中可语音操作的元素的语音指令描述信息还包括语音标签，其中，语音标签用于描述视图上可语音操作的元素信息。

语音标签可以用于辅助识别和理解视图内容，更准确地找到对应的语音指令。根据视图布局的复杂程度，语音编程语言的开发人员可以对语音标签进行适应性设置。例如，对于简单的视图，语音指令与视图中的操作存在确定的一对一关系，可以不设置语音标签；对于复杂的视图，考虑可能会存在语音指令相同，但是实质对应视图中的不同操作元素的情形，便需要设置语音标签。例如，用户通过语音进行购票时，若用户的语音信息是买地点X到地点Y的票，无论是火车票或者飞机票，在视图中，都需要在地址输入框中输入起始地和终点，在时间框中选择出发时间等，这些操作对应的语音指令是相同的，这时便可以利用语音标签来做出区分。当用户说购买飞机票，则可以根据对应购买飞机票的可操作元素的语音标签，定位出具体要执行的购买地点X到地点Y的飞机票的语音指令。

此外，对于不同的视图，也存在相同的语音指令对应不同操作的情况，例如，视图B和视图K中均有点击操作，对应于语音指令是提交，在视图B中提交对应的是暂停操作，而在视图K中提交对应的是列表选择操作，这时，通过开发人员基于本实施例中的提出的语音编程语言，在语音交互功能开发过程中配置上语音标签，添加对应的语音指令，即可实现对不同视图中的语音指令的功能区分，而不需要对视图B和视图K分别进行单独的语音交互功能开发，减少了语音交互功能开发的难度，增加了语音交互的通用性，可以快速扩展到不同的应用场景。

需要说明的是，在现有技术中，语音交互的实现通常是将用户输入的语音信息进行语义识别后与展示页面的可控控件对象的信息进行匹配，触发对应的页面操作，其中的可控控件对象并没有被语音指令化，没有统一形成标准化的语音编程语言；尤其是对于视图的可语音操作的元素的数据描述，需要前端研发工程师和策略研发工程师一起，把对应的数据和语音操作内容，通过代码逐个实现，对于后续的升级与迭代都非常复杂。

而本实施例中是将用户输入的语音信息与视图元素语音指令化后的语音指令描述信息进行相匹配，其中，语音指令描述信息是基于标准化的语音编程语言设置的语音指令及其配置信息。相当于，本实施例技术方案在指令匹配过程中服务器将用户输入的语音信息直接与视图元素指令化后的具体指令和指令配置信息相对应，开发人员不需要具体处理视图中的组件，只需要关注视图上可语音操作的元素对应的语音指令及指令配置信息，实现了语音交互功能和产品的业务逻辑的解耦合，便于分开进行维护。显然的，现有技术方案并没有实现此解耦合功能，语音交互开发中仍需要开发人员针对要实现的语音交互功能同时对视图组件进行处理。

S140、将定位的指令序列下发到终端执行。

服务器将与用户操作意图相匹配的指令序列下发到终端，终端根据接收的指令序列执行对应的操作，完成用户的需求。

本实施例技术方案基于标准化的语音编程语言实现，首先获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息；依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图；进而从语音指令列表中定位出与用户操作意图相匹配的指令序列；最后将该指令序列下发到终端执行。本实施例解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，在语音交互功能开发过程中，开发人员对视图上可语音操作的元素进行语音指令描述信息的配置即可，尤其是可以标签的形式添加语音指令，实现了语音交互功能和产品的业务逻辑的解耦合，便于分开进行维护；实现了语音交互功能开发的统一性和标准化，进而提高了语音交互功能的通用性，可以快速扩展到不同的应用场景。

实施例二

图2是本发明实施例二提供的基于视图的语音交互方法的流程图，本实施例是在上述实施例的基础上进一步进行优化。如图2所示，该方法具体包括：

S210、获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息。

S220、根据可语音操作的元素的视图描述信息对用户的语音信息进行语音识别，得到对应的查询文本。

可选地，根据可语音操作的元素的视图描述信息对用户的语音信息进行语音识别，得到对应的查询文本，包括：

利用预先训练的声学模型预测用户语音信息的音频信号的声学特征；

利用预先训练的语言模型，基于可语音操作的元素的视图描述信息对预测得到的声学特征进行动态解码，生成对应的查询文本。

其中，由于语言文字的丰富性，经常会出现同音多义等情形，因此，结合视图描述信息对声学特征进行动态解码，即结合视图结构及视图中各元素之间的关系对声学特征进行动态解码，从而有针对性地识别出语音信息对应的查询文本，从而更精准地识别用户意图。

服务器可以利用声学模型和语言模型，通过特征预测与动态解码，生成用户语音信息对应的查询文本，也可以利用本领域中的其他语音识别方法得到查询文本，本实施例对此不做限制。声学模型包括但不限于隐马尔科夫模型，动态解码也可以利用语音解码器实现。

S230、从可语音操作的元素的视图描述信息中抽取出可语音操作的元素的文本标签，其中，文本标签包括可语音操作的元素的类型和属性。

根据视图的构建，视图元素可以包括多种类型，文本标签可以实现对视图元素的区分。服务器在对用户的语音信息进行语音识别的过程中，可以同时抽取出元素的文本标签，以便对用户语音信息对应的查询文本进行语义标注，从而结合视图显示的内容更好地理解用户的意图。

需要说明的是，操作S220和操作S230的执行顺序不加限定，只要保证在进行语义标注之前，成功得到用户语音信息对应的查询文本和元素的文本标签即可。

S240、利用预先训练的标注模型，根据抽取的文本标签对查询文本进行语义标注，得到查询文本的语义标注结果，即作为用户的操作意图。

声学模型、语言模型和标注模型在语义识别过程中可以进行周期性地更新，以确保语义识别的准确性。服务器利用标注模型得到用户的操作意图，便可以在语音指令列表中进行语音指令的确定。

S250、根据预先配置的语义与语音指令的对应关系和语音指令描述信息，从语音指令列表中定位出与用户操作意图相匹配的指令序列，其中，指令序列中包括至少一个语音指令的ID及其配置信息中的关键值。

语音编程语言的开发人员在语音功能的开发过程中，预先配置语义与语音指令之间的对应关系，当确定用户的操作意图之后，利用该对应关系和视图上可语音操作元素的语音指令描述信息逐步定位出语音指令，进而形成包括语音指令的ID和指令配置信息的关键值的指令序列，其中，语音指令的ID是语音指令的唯一标识，如可以用来标识每一个语音指令在序列中的位置，关键值用来标识语音指令对应的具体执行特征。例如，对于提交操作，包括确认或取消两种情况，对应的语音指令是提交，指令配置信息的关键值便是确认(OK)或取消(cancel)；对于快进到2分30s的播放操作，对应的语音指令是快进，指令配置信息的关键值是2分30s；又如，当前视图上显示的内容是演员A的电影排行榜，排行分类包括最热、最新和好评，视图中的语音指令包括三个列表切换(listchage)指令，列表切换指令的配置信息中的关键值分别是：最热、最新和好评。

可选地，定位指令序列的过程可以包括：利用预先配置的语义与语音指令的对应关系，从语音指令列表中确定出目标语音指令集合；根据语音指令描述信息，例如语音标签和指令配置信息的关键值，从该目标语音指令集合中定位出与用户操作意图匹配的指令序列。

示例性的，终端当前视图上显示的音乐播放器的主界面，当用户输出的语音信息为“想听勇气、后来、当爱已成往事”等多首歌曲时，服务器根据识别出的用户操作意图，首先确定当前视图中选择歌曲操作的语音指令是选择，根据语音标签-歌单，确定出包括多个歌曲名称的目标语音指令集合，在目标语音指令集合中，每一个歌曲名称对应一个选择的语音子指令；然后根据用户语音信息中具体的歌曲名称，分别将勇气、后来、当爱已成往事这三个歌曲名称作为语音指令的配置信息的关键值，从目标语音指令集合中确定出选择勇气、后来、当爱已成往事这三首歌曲的语音指令序列。此外，根据语音标签-歌单，也可以不确定目标语音指令集合，而是直接根据用户语音信息中的歌曲名称，逐个确定选择具体歌曲名称的语音指令，然后以列表形式下发至终端。

S260、将定位的指令序列下发到终端执行。

本实施例的技术方案通过获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息；依据可语音操作的元素的视图描述信息对用户的语音信息依次进行语音识别与语义标注后得到用户的操作意图；进而从语音指令列表中定位出与用户操作意图相匹配的指令序列；最后将该指令序列下发到终端执行。本实施例解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，在语音交互功能开发过程中，开发人员对视图上可语音操作的元素进行语音指令描述信息的配置即可，实现了语音交互功能和产品的业务逻辑的解耦合，便于分开进行维护；实现了语音交互功能开发的统一性和标准化，进而提高了语音交互功能的通用性，可以快速扩展到不同的应用场景。

实施例三

图3是本发明实施例三提供的基于视图的语音交互方法的流程图，本实施例可适用于应用在终端中实现基于视图的语音交互的情况，与本发明上述实施例中应用于服务器的基于视图的语音交互方法配合执行。该方法可以由基于视图的语音交互装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在终端中，例如手机、平板电脑和个人电脑等智能终端。如图3所示，该方法具体包括：

S310、将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作。

可选地，语音指令描述信息还包括语音标签，其中，语音标签用于描述视图上可语音操作的元素信息。

终端对用户的语音信息进行监听，具体可以通过麦克风或者与终端连接的外部声音采集装置等采集用户的语音信息，然后，发送至服务器。在终端处理器监听到用户的语音输入事件时，终端处理器同时将当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器。终端与服务器之间可以通过网络通信实现信息与数据的共享。

需要说明的是，当终端监听到语音信息后，需要对当前显示视图上的语音指令进行初始化，其流程可以包括三个环节：语音对象初始化、语音指令初始化和语音指令数据收集。示例性地，语音对象初始化包括监听用户语音输入、注册语音对象配置和初始化视图页面语音对象；语音指令初始化包括视图的文档对象模型(Document Object Model，DOM)解析、构建指令配置和初始化指令配置；语音指令数据收集包括：配置数据提供指令、构建指令处理器和更新数据信息。

S320、接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列，并执行指令序列中语音指令对应的指令处理逻辑。

当服务器根据用户语音信息和可语音操作的元素的语音指令描述信息，进行指令分析，确定出匹配的指令序列之后，将指令序列下发到终端。终端接收到服务器的响应，把对应的指令序列发送到终端的指令路由器。指令路由器根据指令序列，决策到要执行的语音指令，并初始化对应的语音指令，然后执行对应的指令处理逻辑。

可选地，执行指令序列中语音指令对应的指令处理逻辑，包括：

执行指令序列中语音指令对应的指令处理逻辑，并在执行过程中，获取与指令处理逻辑对应的语音事件，执行该语音事件，其中，语音事件用于定义语音指令执行过程中需要处理的产品逻辑。

语音事件可以用于根据视图上具体的指令处理逻辑，定义个性化的产品逻辑，例如语音指令的执行方式或者产品展示效果等。例如，当前视图上显示的内容是演员A的最热电影排行榜，排行分类还包括最新和好评，视图中的语音指令包括三个列表切换(listchage)指令，列表切换指令的配置信息中的关键值分别是：最热、最新和好评，当用户输入的语音信息是：想看演员A的电影好评排行榜上的第二个电影时，终端根据接收到的指令序列，将当前显示的最热电影排行榜切换到好评电影排行榜，同时锁定好评电影排行榜上的第二个电影进行播放，在播放之前，可以根据与播放第二个电影相关的语音事件，例如将第二个电影的海报进行特效显示，具体为将该电影的海报图标进行放大与高亮展示，然后进行电影的播放。因此，语音事件的设置可以增加语音交互功能的多样化和趣味性，使用户产生更好的产品使用体验。

本实施例技术方案通过将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，然后接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列，并执行对应处理逻辑，解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，实现了语音交互功能和产品的业务逻辑的解耦合；实现了语音交互功能的标准化，进而提高了语音交互功能的通用性，可以快速扩展到不同的应用场景。

实施例四

图4是本发明实施例四提供的基于视图的语音交互方法的流程图，本实施例是在上述实施例的基础上进一步进行优化。如图4所示，该方法具体包括：

S410、将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作。

S420、接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列，其中，指令序列中包括至少一个语音指令的ID及其配置信息中的关键值。

S430、如果指令序列中包括一个语音指令的ID及其配置信息中的关键值，则根据语音指令ID和关键值执行对应的指令处理逻辑。

当用户输入的语音信息与可语音操作的元素对应的语音指令存在一对一的对应关系时，便可以根据用户的当前语音信息匹配出唯一的语音指令，不需要与用户进行多次的交互。例如，用户的语音信息时确认，对应的语音指令是提交，语音指令的关键值即确认(OK)，终端根据提交指令执行确认操作。

S440、如果指令序列中包括两个以上语音指令的ID及其配置信息中的关键值，则通过与终端交互确定指令序列中的目标语音指令，并根据目标语音指令的ID和关键值执行对应的指令处理逻辑。

当用户输入的语音信息与可语音操作的元素对应的语音指令存在一对多的对应关系时，便需要通过用户与终端的交互，确定最终的目标语音指令。例如，在当前显示的播放器视图中，用户输入的语音信息是听歌，对应的语音指令是选择，根据语音标签-歌单，可以确定出包括多首歌曲的播放语音指令的指令序列，这时需要用户继续输入关于歌曲名称R的语音信息，才可以确定出用户具体要听的歌曲名称R的播放语音指令，进而终端根据该语音指令播放歌曲R。

本实施例技术方案通过将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，并接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列，最后根据指令序列中包括的指令数量，通过与用户的交互确定目标语音指令，并执行对应处理逻辑，解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，实现了语音交互功能和产品的业务逻辑的解耦合；实现了语音交互功能的标准化，进而提高了语音交互功能的通用性，可以快速扩展到不同的应用场景。

以下是本发明实施例提供的基于视图的语音交互装置的实施例，该装置与上述各实施例的基于视图的语音交互方法属于同一个发明构思，在基于视图的语音交互装置的实施例中未详尽描述的细节内容，可以参考上述基于视图的语音交互方法的实施例。

实施例五

图5是本发明实施例五提供的基于视图的语音交互装置的结构示意图，可配置于服务器中，本实施例可适用于实现基于视图的语音交互的情况。本发明实施例所提供的基于视图的语音交互装置可执行本发明任意实施例所提供的应用于服务器的基于视图的语音交互方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置具体包括语音及指令信息获取模块510、语义识别模块520、指令序列确定模块530和指令下发模块540，其中：

语音及指令信息获取模块510，用于获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作。

可选地，语音及指令信息获取模块510中获取的语音指令描述信息中还包括语音标签，其中，语音标签用于描述视图上可语音操作的元素信息。

语义识别模块520，用于依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图。

指令序列确定模块530，用于依据可语音操作的元素的语音指令描述信息，从语音指令列表中定位出与用户操作意图相匹配的指令序列。

可选地，指令序列确定模块530具体用于：

根据预先配置的语义与语音指令的对应关系和语音指令描述信息，从语音指令列表中定位出与用户操作意图相匹配的指令序列，其中，指令序列中包括至少一个语音指令的ID及其配置信息中的关键值。

指令下发模块540，用于将定位的指令序列下发到终端执行。

在上述技术方案基础上，可选地，语义识别模块520包括查询文本确定单元、文本标签抽取单元和操作意图确定单元，其中：

查询文本确定单元，用于根据可语音操作的元素的视图描述信息对用户的语音信息进行语音识别，得到对应的查询文本；

文本标签抽取单元，用于从可语音操作的元素的视图描述信息中抽取出可语音操作的元素的文本标签，其中，文本标签包括可语音操作的元素的类型和属性；

操作意图确定单元，用于利用预先训练的标注模型，根据抽取的文本标签对查询文本进行语义标注，得到查询文本的语义标注结果，即作为用户的操作意图。

可选地，查询文本确定单元包括声学特征预测子单元和文本生成子单元，其中：

声学特征预测子单元，用于利用预先训练的声学模型预测用户语音信息的音频信号的声学特征；

文本生成子单元，用于利用预先训练的语言模型，基于可语音操作的元素的视图描述信息对预测得到的声学特征进行动态解码，生成对应的查询文本。

本实施例技术方案基于标准化的语音编程语言实现，首先获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息；依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图；进而从语音指令列表中定位出与用户操作意图相匹配的指令序列；最后将该指令序列下发到终端执行。本实施例解决了现有技术中语音交互功能和产品的业务逻辑耦合度较高、语音交互功开发缺乏统一性以及通用性较差的问题，在语音交互功能开发过程中，开发人员对视图上可语音操作的元素进行语音指令描述信息的配置即可，实现了语音交互功能和产品的业务逻辑的解耦合，便于分开进行维护；实现了语音交互功能开发的统一性和标准化，进而提高了语音交互功能的通用性，可以快速扩展到不同的应用场景。

实施例六

图6是本发明实施例六提供的基于视图的语音交互装置的结构示意图，可配置于终端中，本实施例可适用于实现基于视图的语音交互的情况。本发明实施例所提供的基于视图的语音交互装置可执行本发明任意实施例所提供的应用于终端的基于视图的语音交互方法，具备执行方法相应的功能模块和有益效果。如图6所示，该装置具体包括语音及指令信息发送模块610和指令序列执行模块620，其中：

语音及指令信息发送模块610，用于将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作。

可选地，语音及指令信息发送模块610中发送的语音指令描述信息中还包括语音标签，其中，语音标签用于描述视图上可语音操作的元素信息。

指令序列执行模块620，用于接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列，并执行指令序列中语音指令对应的指令处理逻辑。

可选地，指令序列执行模块620包括接收单元和执行单元，其中：

接收单元，用于接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列；

执行单元，用于执行接收的指令序列中语音指令对应的指令处理逻辑。

可选地，执行单元具体用于：

执行所述指令序列中语音指令对应的指令处理逻辑，并在执行过程中，获取与所述指令处理逻辑对应的语音事件，执行所述语音事件，其中，所述语音事件用于定义语音指令执行过程中需要处理的产品逻辑。

可选地，指令序列执行模块620中接收的指令序列中包括至少一个语音指令的ID及其配置信息中的关键值；

相应的，执行单元包括第一执行子单元和第二执行子单元，其中：

第一执行子单元，用于如果指令序列中包括一个语音指令的ID及其配置信息中的关键值，则根据语音指令ID和关键值执行对应的指令处理逻辑；

第二执行子单元，用于如果指令序列中包括两个以上语音指令的ID及其配置信息中的关键值，则通过与终端交互确定指令序列中的目标语音指令，并根据目标语音指令的ID和关键值执行对应的指令处理逻辑。

实施例七

图7是本发明实施例七提供的一种服务器的结构示意图。图7示出了适于用来实现本发明实施方式的示例性服务器712的框图。图7显示的服务器712仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，服务器712以通用服务器的形式表现。服务器712的组件可以包括但不限于：一个或者多个处理器716，存储装置728，连接不同系统组件(包括存储装置728和处理器716)的总线718。

总线718表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器712访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)730和/或高速缓存存储器732。服务器712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统734可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线718相连。存储装置728可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块742的程序/实用工具740，可以存储在例如存储装置728中，这样的程序模块742包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块742通常执行本发明所描述的实施例中的功能和/或方法。

服务器712也可以与一个或多个外部设备714(例如键盘、指向终端、显示器724等)通信，还可与一个或者多个使得用户能与该服务器712交互的终端通信，和/或与使得该服务器712能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口722进行。并且，服务器712还可以通过网络适配器720与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器720通过总线718与服务器712的其它模块通信。应当明白，尽管图中未示出，可以结合服务器712使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器716通过运行存储在存储装置728中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的应用于服务器的基于视图的语音交互方法，该方法包括：

获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作；

依据可语音操作的元素的视图描述信息对用户的语音信息进行语义识别，得到用户的操作意图；

依据可语音操作的元素的语音指令描述信息，从语音指令列表中定位出与用户操作意图相匹配的指令序列；

将定位的指令序列下发到终端执行。

实施例八

图8是本发明实施例八提供的一种终端的结构示意图。图8示出了适于用来实现本发明实施方式的示例性终端812的框图。图8显示的终端812仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，终端812以通用终端的形式表现。终端812的组件可以包括但不限于：一个或者多个处理器816，存储装置828，连接不同系统组件(包括存储装置828和处理器816)的总线818。

总线818表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

终端812典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端812访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置828可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)830和/或高速缓存存储器832。终端812可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统834可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线818相连。存储装置828可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块842的程序/实用工具840，可以存储在例如存储装置828中，这样的程序模块842包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块842通常执行本发明所描述的实施例中的功能和/或方法。

终端812也可以与一个或多个外部设备814(例如键盘、指向终端、显示器824等)通信，还可与一个或者多个使得用户能与该终端812交互的终端通信，和/或与使得该终端812能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口822进行。并且，终端812还可以通过网络适配器820与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器820通过总线818与终端812的其它模块通信。应当明白，尽管图中未示出，可以结合终端812使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器816通过运行存储在存储装置828中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的应用于终端的基于视图的语音交互方法，该方法包括：

将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，语音指令用于描述对视图中元素可执行的语音操作；

接收来自服务器根据用户语音信息和语音指令描述信息确定的指令序列，并执行指令序列中语音指令对应的指令处理逻辑。

实施例九

本发明实施例九还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的应用于服务器的基于视图的语音交互方法，该方法包括：

将定位的指令序列下发到终端执行。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例还提供了另一种计算机可读存储介质，其上存储的计算机程序在由处理器执行时用于实现一种应用于终端的基于视图的语音交互方法，该方法包括：

当然，本发明实施例所提供的一种计算机可读存储介质，其计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的应用于终端的基于视图的语音交互方法的相关操作。对存储介质的介绍可参见实施例九中的内容解释。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于视图的语音交互方法，应用于服务器，其特征在于，包括：

获取用户的语音信息，和终端当前显示视图中可语音操作的元素的语音指令描述信息，其中，所述语音指令描述信息包括语音指令列表和所述语音指令列表中每个语音指令的配置信息，所述语音指令用于描述对视图中元素可执行的语音操作，所述语音指令的配置信息用于标识语音指令的执行特征；

依据所述可语音操作的元素的视图描述信息对所述语音信息进行语义识别，得到用户的操作意图；所述视图描述信息包括如下至少一项：元素名称、文本标签、元素在所述当前显示视图中的展现场景信息；所述文本标签包括如下至少一项：元素的类型和属性；所述展现场景信息包括坐标分布；

将所述指令序列下发到终端执行。

2.根据权利要求1所述的方法，其特征在于，所述语音指令描述信息还包括语音标签，其中，所述语音标签用于描述视图上可语音操作的元素信息。

3.根据权利要求1或2所述的方法，其特征在于，依据所述可语音操作的元素的视图描述信息对所述语音信息进行语义识别，得到用户的操作意图，包括：

根据所述可语音操作的元素的视图描述信息对所述语音信息进行语音识别，得到对应的查询文本；

从所述可语音操作的元素的视图描述信息中抽取出所述可语音操作的元素的文本标签，其中，所述文本标签包括所述可语音操作的元素的类型和属性；

利用预先训练的标注模型，根据所述文本标签对所述查询文本进行语义标注，得到所述查询文本的语义标注结果，即作为用户的操作意图。

4.根据权利要求3所述的方法，其特征在于，根据所述可语音操作的元素的视图描述信息对所述语音信息进行语音识别，得到对应的查询文本，包括：

利用预先训练的声学模型预测所述语音信息的音频信号的声学特征；

利用预先训练的语言模型，基于所述可语音操作的元素的视图描述信息对所述声学特征进行动态解码，生成对应的查询文本。

5.根据权利要求1或2所述的方法，其特征在于，依据所述语音指令描述信息，从所述语音指令列表中定位出与所述操作意图相匹配的指令序列，包括：

根据预先配置的语义与语音指令的对应关系和所述语音指令描述信息，从所述语音指令列表中定位出与所述操作意图相匹配的指令序列，其中，所述指令序列中包括至少一个语音指令的ID及其配置信息中的关键值。

6.一种基于视图的语音交互方法，应用于终端，其特征在于，包括：

将监听到的用户的语音信息和终端当前显示视图中可语音操作的元素的语音指令描述信息发送至服务器，其中，所述语音指令描述信息包括语音指令列表和语音指令列表中每个语音指令的配置信息，所述语音指令用于描述对视图中元素可执行的语音操作，所述语音指令的配置信息用于标识语音指令的执行特征；

接收来自服务器根据所述语音信息、所述语音指令描述信息和所述可语音操作的元素的视图描述信息确定的指令序列，并执行所述指令序列中语音指令对应的指令处理逻辑；所述视图描述信息包括如下至少一项：元素名称、文本标签、元素在所述当前显示视图中的展现场景信息；所述文本标签包括如下至少一项：元素的类型和属性；所述展现场景信息包括坐标分布。

7.根据权利要求6所述的方法，其特征在于，所述语音指令描述信息还包括语音标签，其中，所述语音标签用于描述视图上可语音操作的元素信息。

8.根据权利要求6或7所述的方法，其特征在于，所述指令序列中包括至少一个语音指令的ID及其配置信息中的关键值；

相应的，执行所述指令序列中语音指令对应的指令处理逻辑，包括：

如果所述指令序列中包括一个语音指令的ID及其配置信息中的关键值，则根据所述ID和关键值执行对应的指令处理逻辑；

如果所述指令序列中包括两个以上语音指令的ID及其配置信息中的关键值，则通过与终端交互确定所述指令序列中的目标语音指令，并根据目标语音指令的ID和关键值执行对应的指令处理逻辑。

9.根据权利要求6或7所述的方法，其特征在于，执行所述指令序列中语音指令对应的指令处理逻辑，包括：

10.一种基于视图的语音交互装置，配置于服务器，其特征在于，所述装置包括：

语义识别模块，用于依据所述可语音操作的元素的视图描述信息对所述语音信息进行语义识别，得到用户的操作意图；所述视图描述信息包括如下至少一项：元素名称、文本标签、元素在所述当前显示视图中的展现场景信息；所述文本标签包括如下至少一项：元素的类型和属性；所述展现场景信息包括坐标分布；

11.一种基于视图的语音交互装置，配置于终端，其特征在于，所述装置包括：

指令序列执行模块，用于接收来自服务器根据所述语音信息、语音指令描述信息和所述可语音操作的元素的视图描述信息确定的指令序列，并执行所述指令序列中语音指令对应的指令处理逻辑；所述视图描述信息包括如下至少一项：元素名称、文本标签、元素在所述当前显示视图中的展现场景信息；所述文本标签包括如下至少一项：元素的类型和属性；所述展现场景信息包括坐标分布。

12.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～5中任一所述的基于视图的语音交互方法。

13.一种终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求6～9中任一所述的基于视图的语音交互方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5中任一所述的基于视图的语音交互方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求6～9中任一所述的基于视图的语音交互方法。