CN113539254A

CN113539254A - 一种基于动作引擎的语音交互方法、系统及存储介质

Info

Publication number: CN113539254A
Application number: CN202110614330.XA
Authority: CN
Inventors: 朱渊; 谢志华; 王斌; 何川延; 银建军; 王武斌
Original assignee: Huizhou Desay SV Automotive Co Ltd
Current assignee: Huizhou Desay SV Automotive Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-10-22

Abstract

本发明涉及语音交互技术领域，提供一种基于动作引擎的语音交互方法、系统及存储介质，从动作引擎的驱动基础上着手，先根据用户的语音指令确定其目标动作，并在设置本地仲裁规则判断目标动作的技能属性，从而通过确定目标动作是否适用当前界面，来进一步的判断用户意图，进而控制根据技能属性响应目标动作。如此，使得用户可以借由语音指令在任何界面完成对应的实用操作，实现全局所见即可说、可说即可实现的语音交互控制，大幅度地扩大了设备可识别的语音指令集；另外，从动作引擎上响应目标动作，无需额外增加第三方应用适配，降低了设备的开发成本，提高了语音交互的可移植性与兼容性。

Description

一种基于动作引擎的语音交互方法、系统及存储介质

技术领域

本发明涉及语音交互技术领域，尤其涉及一种基于动作引擎的语音交互方法、系统及存储介质。

背景技术

目前的语音功能交互是基于预先设计好的场景和语法，也就是说某个应用对应的语音指令是相对固定的。同时语音指令和界面存在分离现象，语音指令无法跟随界面变化，缺乏沉浸式体验。不管是离线还是云端语义识别，用户能说的指令都是预先训练好，然后通过语音识别模块进行匹配。这种模式下，用户是有一定学习成本，需要了解哪些指令是支持的，要按什么语法来说。如果用户在界面获取到信息并想当然地发出语音指令，通常得到的回复是“对不起，我没听懂”、“暂不支持改功能”等回复，用户体验差。而扩展不支持的指令，需要通过更新版本来修复，代价较大。

同时，由于功能代码是提前预置的，支持该功能的应用也相对固定，需要提前适配好。如果是从市场下载的第三方应用，基本是不支持任何指令的。在这种模式下，语音功能的兼容性和扩展性很差。例如：用户设备上预置了QQ音乐，所有音乐控制是通过QQ音乐的定制接口实现的。如果用户不喜欢QQ音乐的体验，换成网易云音乐，这时之前的音乐控制接口会全部失效，相当于功能缺失。

即，现有的语音交互方法存在以下问题：

1)语音指令固定，指令和界面分离，用户体验感较差；

2)语音功能对应的应用需要提前适配，对非预置的第三方应用基本不支持，兼容性和扩展性差。

发明内容

本发明提供一种基于动作引擎的语音交互方法、系统及存储介质，解决了现有的语音交互功能因语音指令固定导致指令和界面分离，以及兼容性和扩展差无法兼容非预置的第三方应用的技术问题。

为解决以上技术问题，本发明提供一种基于动作引擎的语音交互方法，包括步骤：

S1、获取用户的语音指令；

S2、识别所述语音指令，确定对应的目标动作；

S3、获取并识别当前界面，根据本地仲裁规则和当前界面，判断所述目标动作的技能属性；

S4、动作引擎根据所述技能属性响应所述目标动作。

本基础方案从动作引擎的驱动基础上着手，先根据用户的语音指令确定其目标动作，并在设置本地仲裁规则判断目标动作的技能属性，从而通过确定目标动作是否适用当前界面，来进一步的判断用户意图，进而控制根据技能属性响应目标动作。如此，使得用户可以借由语音指令在任何界面完成对应的实用操作，实现全局所见即可说、可说即可实现的语音交互控制，大幅度地扩大了设备可识别的语音指令集；另外，从动作引擎上响应目标动作，无需额外增加第三方应用适配程序，降低了设备的开发成本，提高了语音交互功能的可移植性与兼容性。

在进一步的实施方式中，所述步骤S1包括：

S11、获取唤醒指令唤醒语音交互模块；

S12、获取用户发出的语音指令并输出至语音交互模块。

在进一步的实施方式中，所述步骤S2包括：

S21、识别所述语音指令得到语音文本；

S22、解析所述语音文本，确认用户意图并确定对应的目标动作。

在进一步的实施方式中，所述步骤S3包括：

S31、获取语音识别前的应用界面标记为当前界面；

S32、识别所述当前界面确定其对应的应用界面，根据本地仲裁规则判断所述目标动作是否属于所述应用界面的可操作动作，若是则进入步骤S4，若否则判断为其它场景动作。

本方案对语音识别前的当前界面进行识别，判断出当前用户界面的实际应用界面，随后根据本地仲裁规则判断目标动作是否属于当前用户界面，即确定了用户是否是对当前应用界面的控制，不再局限于有限的指令库，语音指令可跟随界面同步变化，从而提高语音交互的效率，给予用户更好的沉浸式体验。

在进一步的实施方式中，在所述步骤S32中，所述本地仲裁规则具体为：根据所述目标动作对应的用户意图，在界面操控类中进行控件定位，若定位到适配的目标界面控件，则判断所述目标动作属于所述应用界面的可操作动作，否则判断为其它场景动作。

本方案设置本地仲裁规则作为所见即可说语音交互方案的核心，在获取到用户语音指令后，根据解析得到的用户意图，直接在界面操控类中进行控件定位，根据定位的成功与否即可判断出当前语音指令是否为对当前界面的控制。直接从界面操控类出着手进行控件定位，可有效提高语音指令的识别准确率与识别效率。

在进一步的实施方式中，所述步骤S4包括：

S41、根据所述目标动作在界面操控类中匹配对应的目标界面控件、解析得到对应的操控意图；

S42、根据所述操控意图生成对应的动作脚本并控制动作引擎执行。

本方案设计通过动作引擎响应目标动作，当确定语音指令为当前界面的控制操作时，直接在界面操控类中匹配对应的目标界面控件、解析得到对应的操控意图，根据所述操控意图控制动作引擎生成对应的动作脚本并执行，基本上可兼容市面上所有的第三方应用，而无需提前适配和额外的定制接口，语音功能的兼容性和扩展性得到大幅度提升。

在进一步的实施方式中，所述应用界面包括音乐场景界面、导航场景界面、车控设置场景界面；所述目标动作包括在界面上的滑动翻页意图、点击文本意图、文本输入意图。

本发明还提供一种基于动作引擎的语音交互系统，包括依次连接的收音模块、语音识别模块、语音交互模块；

所述收音模块用于获取用户的唤醒指令、语音指令；

所述语音识别模块用于识别所述唤醒指令、所述语音指令，得到对应的语音文本；

所述语音交互模块用于响应所述唤醒指令，启动语音交互功能；

所述语音交互模块还用于响应所述语音指令，确定目标动作；获取并识别当前界面，判断所述目标动作的技能属性；并根据所述技能属性响应所述目标动作。

在进一步的实施方式中，所述语音交互模块包括依次连接的语义理解模块、本地仲裁模块、脚本生成模块和动作引擎；

所述语义理解模块用于解析所述语音文本，确认用户意图及对应的目标动作；

所述本地仲裁模块用于识别所述当前界面确定其对应的应用界面，根据本地仲裁规则判断所述目标动作是否属于所述应用界面的可操作动作；

所述脚本生成模块用于根据所述用户意图生成对应的动作脚本；

所述动作引擎用于执行所述动作脚本。

本基础方案利用设备现有的语义理解模块、脚本生成模块和动作引擎，和新增的本地仲裁模块，建立全局可见即可说机制；通过语音指令与当前界面的场景识别，抛开传统指令集合的桎梏，使得用户的语音指令可随应用界面同时变化，从而使得语音交互功能更为智能化；而在识别到语音指令后直接从脚本生成模块生成对应的动作脚本由动作引擎执行实现，则使得本语音交互系统基本上可兼容市面上的所有的第三方应用，而无需提前适配或定制接口，产品的兼容性和扩展性得到大幅度的提升。

本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序用于被上述基于动作引擎的语音交互系统加载，以实现上述基于动作引擎的语音交互方法。其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)或者随机存取器(RandomAccess Memory，RAM)等。

附图说明

图1是本发明实施例1提供的一种基于动作引擎的语音交互方法的工作流程图；

图2是本发明实施例2提供的一种基于动作引擎的语音交互系统的系统框架图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

实施例1

本发明实施例提供的一种基于动作引擎的语音交互方法，如图1所示，在本实施例中，包括步骤S1～S4：

S1、获取用户的语音指令，包括步骤S11～S12：

S11、获取唤醒指令唤醒语音交互模块；

S12、获取用户发出的语音指令并输出至语音交互模块。

S2、识别语音指令，确定对应的目标动作，包括步骤S21～S22：

S21、识别语音指令得到语音文本；

S22、解析语音文本，确认用户意图并确定对应的目标动作。

S3、获取并识别当前界面，根据本地仲裁规则和当前界面，判断目标动作的技能属性，包括步骤S31～S32：

S31、获取语音识别前的应用界面标记为当前界面；

S32、识别当前界面确定其对应的应用界面，根据本地仲裁规则判断目标动作是否属于应用界面的可操作动作，若是则进入步骤S4，若否则判断为其它场景动作，由其它应用响应处理(响应其它场景动作进入其它应用界面并执行对应操作)。

本地仲裁规则具体为：根据目标动作对应的用户意图，在界面操控类中进行控件定位，若定位到适配的目标界面控件，则判断目标动作属于应用界面的可操作动作，否则判断为其它场景动作。

本实施例：

对语音识别前的当前界面进行识别，判断出当前用户界面的实际应用界面，随后根据本地仲裁规则判断目标动作是否属于当前用户界面，即确定了用户是否是对当前应用界面的控制，不再局限于有限的指令库，语音指令可跟随界面同步变化，从而提高语音交互的效率，给予用户更好的沉浸式体验。

设置本地仲裁规则作为所见即可说语音交互方案的核心，在获取到用户语音指令后，根据解析得到的用户意图，直接在界面操控类中进行控件定位，根据定位的成功与否即可判断出当前语音指令是否为对当前界面的控制。直接从界面操控类出着手进行控件定位，可有效提高语音指令的识别准确率与识别效率。

S4、控制动作引擎根据技能属性响应目标动作，包括S41～S42：

S41、根据目标动作在界面操控类中匹配对应的目标界面控件、解析得到对应的操控意图；

S42、根据操控意图生成对应的动作脚本并控制动作引擎执行。

本实施例设计通过动作引擎响应目标动作，当确定语音指令为当前界面的控制操作时，直接在界面操控类中匹配对应的目标界面控件、解析得到对应的操控意图，根据操控意图控制动作引擎生成对应的动作脚本并执行，基本上可兼容市面上所有的第三方应用，而无需提前适配和额外的定制接口，语音功能的兼容性和扩展性得到大幅度提升。

在本实施例中，应用界面包括但不限于音乐场景界面、导航场景界面、车控设置场景界面；目标动作包括但不选育在界面上的滑动翻页意图、点击文本意图、文本输入意图。

本发明实施例从动作引擎的驱动基础上着手，先根据用户的语音指令确定其目标动作，并在设置本地仲裁规则判断目标动作的技能属性，从而通过确定目标动作是否适用当前界面，来进一步的判断用户意图，进而控制根据技能属性响应目标动作。如此，使得用户可以借由语音指令在任何界面完成对应的实用操作，实现全局所见即可说、可说即可实现的语音交互控制，大幅度地扩大了设备可识别的语音指令集；另外，从动作引擎上响应目标动作，无需额外增加第三方应用适配程序，降低了设备的开发成本，提高了语音交互功能的可移植性与兼容性。

实施例2

在本发明实施例附图中出现的附图标记包括：收音模块1；语音识别模块2；语音交互模块3，语义理解模块31、本地仲裁模块32、脚本生成模块33、动作引擎34。

本发明实施例还提供一种基于动作引擎34的语音交互系统，包括依次连接的收音模块1、语音识别模块2、语音交互模块3；

收音模块1用于获取用户的唤醒指令、语音指令；在本实施例中，收音模块1为收音麦克风。

语音识别模块2用于识别唤醒指令、语音指令，得到对应的语音文本；

语音交互模块3用于响应唤醒指令，启动语音交互功能；

语音交互模块3还用于响应语音指令，确定目标动作；获取并识别当前界面，判断目标动作的技能属性；并根据技能属性响应目标动作。

在本实施例中，语音交互模块3包括依次连接的语义理解模块31、本地仲裁模块32、脚本生成模块33和动作引擎34；

语义理解模块31用于解析语音文本，确认用户意图及对应的目标动作；

本地仲裁模块32用于识别当前界面确定其对应的应用界面，根据本地仲裁规则判断目标动作是否属于应用界面的可操作动作；

脚本生成模块33用于根据用户意图生成对应的动作脚本；

动作引擎34用于执行动作脚本。

以音乐列表界面为例，其具体的语音交互实现过程如下：

预设特定的唤醒关键词，收音模块1获取用户语音输入后，通过语音识别模块2识别到包含唤醒关键词的唤醒指令，唤醒语音交互模块3。

此时，用户根据当前界面的发出对应的语音指令“下一页”，经由收音模块1、语音识别模块2后处理后，由语义理解模块31解析出对应的语音文本，并确认用户意图及对应的目标动作。

随后，本地仲裁模块32在识别当前界面确定其对应的应用界面后，根据本地仲裁规则判断目标动作是否属于应用界面的可操作动作。具体的根据目标动作对应的用户意图“滑动翻页意图”，在界面操控类中进行控件定位，若定位到适配的目标界面控件，则判断目标动作属于应用界面的可操作动作，否则判断为其它场景动作。

当本地仲裁模块32确定目标动作属于应用界面的可操作动作时，直接在界面操控类中匹配对应的目标界面控件、解析得到对应的操控意图，根据操控意图脚本生成模块33生成对应的动作脚本，并输出到动作引擎34执行“翻页”，使得当前音乐列表界面跳转到下一页。

如此，即完成了用户与音乐列表界面的“下一页”指令交互。

本发明实施例利用设备现有的语义理解模块31、脚本生成模块33和动作引擎34，和新增的本地仲裁模块32，建立全局可见即可说机制；通过语音指令与当前界面的场景识别，抛开传统指令集合的桎梏，使得用户的语音指令可随应用界面同时变化，从而使得语音交互功能更为智能化；而在识别到语音指令后直接从脚本生成模块33生成对应的动作脚本由动作引擎34执行实现，语音交互功能和具体的应用解耦合，使得本语音交互系统基本上可兼容市面上的所有的第三方应用，而无需提前适配或定制接口，产品的兼容性和扩展性得到大幅度的提升。

实施例3

本发明实施例还提供一种存储介质，其上存储有计算机程序，计算机程序用于被上述基于动作引擎的语音交互系统加载，以实现上述基于动作引擎的语音交互方法。其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)或者随机存取器(RandomAccess Memory，RAM)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于动作引擎的语音交互方法，其特征在于，包括步骤：

S1、获取用户的语音指令；

S2、识别所述语音指令，确定对应的目标动作；

S4、控制动作引擎根据所述技能属性响应所述目标动作。

2.如权利要求1所述的一种基于动作引擎的语音交互方法，其特征在于，所述步骤S1包括：

S11、获取唤醒指令唤醒语音交互模块；

S12、获取用户发出的语音指令并输出至语音交互模块。

3.如权利要求1所述的一种基于动作引擎的语音交互方法，其特征在于，所述步骤S2包括：

S21、识别所述语音指令得到语音文本；

4.如权利要求3所述的一种基于动作引擎的语音交互方法，其特征在于，所述步骤S3包括：

S31、获取语音识别前的应用界面标记为当前界面；

5.如权利要求4所述的一种基于动作引擎的语音交互方法，其特征在于，在所述步骤S32中，所述本地仲裁规则具体为：根据所述目标动作对应的用户意图，在界面操控类中进行控件定位，若定位到适配的目标界面控件，则判断所述目标动作属于所述应用界面的可操作动作，否则判断为其它场景动作。

6.如权利要求1所述的一种基于动作引擎的语音交互方法，其特征在于，所述步骤S4包括：

7.如权利要求5所述的一种基于动作引擎的语音交互方法，其特征在于：所述应用界面包括音乐场景界面、导航场景界面、车控设置场景界面；所述目标动作包括在界面上的滑动翻页意图、点击文本意图、文本输入意图。

8.一种基于动作引擎的语音交互系统，其特征在于：包括依次连接的收音模块、语音识别模块、语音交互模块；

所述收音模块用于获取用户的唤醒指令、语音指令；

9.如权利要求8所述的一种基于动作引擎的语音交互系统，其特征在于：所述语音交互模块包括依次连接的语义理解模块、本地仲裁模块、脚本生成模块和动作引擎；

所述动作引擎用于执行所述动作脚本。

10.一种存储介质，其上存储有计算机程序，其特征在于：所述计算机程序用于被权利要求8-9所述一种基于动作引擎的语音交互系统加载，以实现权利要求1-7所述的一种基于实车的语音唤醒率测试方法。