CN115810354A

CN115810354A - 语音控制方法、装置、设备及介质

Info

Publication number: CN115810354A
Application number: CN202111084298.5A
Authority: CN
Inventors: 胡明国; 徐超
Original assignee: Beijing CHJ Automotive Information Technology Co Ltd
Current assignee: Beijing CHJ Automotive Information Technology Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-03-17
Also published as: WO2023040692A1

Abstract

本公开涉及一种语音控制方法、装置、设备及介质。其中，语音控制方法包括：显示目标交互界面；加载目标交互界面对应的目标控制指令集，目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令；当接收到用户控制语音时，在目标控制指令集中查询与用户控制语音相匹配的目标控制指令；若查询到目标控制指令，执行目标控制指令对应的目标控制操作。根据本公开实施例，能够使用户对其见到的目标交互界面内的界面控件进行全面的语音控制。

Description

语音控制方法、装置、设备及介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音控制方法、装置、设备及介质。

背景技术

随着技术不断进步，越来越多的场景引入了具有语音控制功能的电子设备，例如在车辆中引入具有语音控制功能的车载终端。

一般情况下，电子设备内会预先存储有每个交互界面对应的一些控制指令，用户可以通过说出这些控制指令实现对电子设备的各个交互界面的操作控制。但是，由于预先存储的控制指令的数量有限，用户无法基于这些控制指令完全实现对各个交互界面的全部语音控制。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音控制方法、装置、设备及介质。

第一方面，本公开提供了一种语音控制方法，包括：

显示目标交互界面；

加载目标交互界面对应的目标控制指令集，目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令；

当接收到用户控制语音时，在目标控制指令集中查询与用户控制语音相匹配的目标控制指令；

若查询到目标控制指令，执行目标控制指令对应的目标控制操作。

第二方面，本公开提供了一种语音控制装置，包括：

界面显示模块，配置为显示目标交互界面；

指令加载模块，配置为加载目标交互界面对应的目标控制指令集，目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令；

指令匹配模块，配置为当接收到用户控制语音时，在目标控制指令集中查询与用户控制语音相匹配的目标控制指令；

指令执行模块，配置为若查询到目标控制指令，执行目标控制指令对应的目标控制操作。

第三方面，本公开提供了一种语音控制设备，包括：

处理器；

存储器，用于存储可执行指令；

其中，处理器用于从存储器中读取可执行指令，并执行可执行指令以实现第一方面所述的语音控制方法。

第四方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面所述的语音控制方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的语音控制方法、装置、设备及介质，能够在显示目标交互界面之后，对目标交互界面对应的目标控制指令集进行加载，进而在接收到用户控制语音时，在目标控制指令集中查询与接收到的用户控制语音相匹配的目标控制指令，并执行该查询到的目标控制指令，进而实现用户对目标交互界面的语音控制，由于加载的目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令，该界面控件数据可以涵盖目标交互界面内的全部界面控件，因此，可以完全实现对目标交互界面的全部语音控制，进而达到了对目标交互界面的可见即可说(Display Can be Said，DCS)的效果，提升用户的使用体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种语音控制方法的流程示意图；

图2为本公开实施例提供的一种车载终端的主界面的示意图；

图3A为本公开实施例提供的一种车载终端的应用界面的示意图；

图3B为本公开实施例提供的另一种车载终端的应用界面的示意图；

图4为本公开实施例提供的一种动态控件数据的处理过程的流程示意图；

图5为本公开实施例提供的另一种语音控制方法的流程示意图；

图6为本公开实施例提供的一种语音控制装置的结构示意图；

图7为本公开实施例提供的一种语音控制设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

随着技术不断进步，越来越多的场景引入了具有语音控制功能的电子设备。

一般情况下，电子设备内会预先存储有每个交互界面对应的一些控制指令，用户可以通过说出这些控制指令实现对电子设备的各个交互界面的操作控制。

例如，在基于唤醒的语音控制中，控制指令可以为唤醒词，每个交互界面可以注册有固定数量的唤醒词，用户可以通过说出这些唤醒词来满足对各个交互界面的语音控制需求。

但是，控制指令需要预先设置，意为各个交互界面上的唤醒词都需要被提前设计，如果交互界面上的内容是动态加载，由于预先存储的控制指令的数量有限，会导致用户无法基于这些控制指令完全实现对各个交互界面的全部语音控制。

此外，基于唤醒词形成的唤醒模型往往较小，无法做到一个场景上支持多个复杂和较多数量的唤醒词，如果一个交互界面上注册的唤醒词过多，也会导致唤醒模型出现误唤醒的问题。

为了解决上述的问题，本公开实施例提供了一种能够实现可见即可说的语音控制方法、装置、设备及介质。

下面首先结合图1-图5对本公开实施例提供的语音控制方法进行说明。

在本公开实施例中，该语音控制方法可以由电子设备执行。其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、智能家居设备等具有语音控制功能的设备。

图1示出了本公开实施例提供的一种语音控制方法的流程示意图。

如图1所示，该语音控制方法可以包括如下步骤。

S110、显示目标交互界面。

在本公开实施例中，目标交互界面可以为通过电子设备的显示屏幕直观展示的界面。

可选地，目标交互界面内可以显示有至少一个界面控件。界面控件可以为界面中的按钮、选项、图标或者链接等能够被用户操控的控件，在此不作限制。

在一些实施例中，目标交互界面可以包括电子设备开机后或者处于待机状态时所显示的主界面。

在这些实施例中，目标交互界面中所显示的界面控件可以为应用程序的图标。

图2示出了本公开实施例提供的一种车载终端的主界面的示意图。

如图2所示，该车载终端可以显示有主界面201，在主界面201中可以显示有多个界面控件，例如“设置应用”图标202、“文件应用”图标203、“浏览器应用”图标204和“音乐应用”图标205。

在另一些实施例中，目标交互界面可以包括电子设备中安装的任意应用程序的应用界面。

在这些实施例中，目标交互界面中所显示的界面控件可以为应用界面中的按钮、选项、图标或者链接等。

图3A示出了本公开实施例提供的一种车载终端的应用界面的示意图。

如图3A所示，该车载终端可以显示有设置应用程序的应用主界面301，在应用界面301可以显示有多个界面控件，例如“我的设备”按钮302、“控制中心”按钮303和“更多设置”按钮304。

图3B示出了本公开实施例提供的另一种车载终端的应用界面的示意图。

如图3B所示，该车载终端可以显示有音乐应用程序的应用主界面305，在应用界面305中可以显示有多个界面控件，例如“每日推荐”选项306、“歌单”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310、各个歌单链接311和“返回”按钮312。

S120、加载目标交互界面对应的目标控制指令集，目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令。

在本公开实施例中，在电子设备显示目标交互界面之后，可以加载目标交互界面对应的目标控制指令集，该目标控制指令集中的各个控制指令均为根据目标交互界面的界面控件数据所生成的，界面控件数据可以包含全部界面控件对应的控件数据，即目标交互界面内的全部界面控件分别具有相应的控制指令。

具体地，目标控制指令集可以为目标交互界面内的各个界面控件对应的控制指令的集合。

在一些实施例中，控制指令可以包括根据界面控件数据中的静态控件数据生成的第一控制指令。第一控制指令即静态控件的控制指令。

其中，静态控件数据可以为目标交互界面中的静态控件对应的控件数据。静态控件可以为始终固定显示的界面控件，即静态控件不会随着用户喜好或者设置而改变。

以目标交互界面为主界面为例，静态控件可以为设备出厂时自带的、不会动态更新也不可被用户更改的界面控件。

继续参见图2，由于设置应用、文件应用和浏览器应用为设备出厂时主界面201内自带的应用程序，因此，这些应用程序对应的“设置应用”图标202、“文件应用”图标203和“浏览器应用”图标204属于主界面201的静态控件，基于“设置应用”图标202、“文件应用”图标203和“浏览器应用”图标204对应的控件数据生成的控制指令即为主界面201对应的第一控制指令。

以目标交互界面为应用界面为例，静态控件可以为界面框架内固定显示且不会随着用户喜好更改的界面控件，例如被预置在界面工程内的内置资源，这些内置资源可以在应用界面的界面内容推送给用户之前被提前感知。

继续参见图3A，由于我的设备、控制中心和更多设置为设置应用程序的应用主界面301内固定的设置功能，因此，这些设置功能对应的“我的设备”按钮302、“控制中心”按钮303和“更多设置”按钮304属于应用主界面301的静态控件，基于“我的设备”按钮302、“控制中心”按钮303和“更多设置”按钮304对应的控件数据生成的控制指令即为应用主界面301对应的第一控制指令。

继续参见图3B，由于每日推荐、排行、本地音乐、设置为音乐应用程序的应用主界面305内固定的模块功能，并且返回、各种播放控制为音乐应用程序的应用主界面301内固定的界面功能，因此，这些功能对应的“每日推荐”选项306、“歌单”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310和“返回”按钮312属于应用主界面305的静态控件，基于“每日推荐”选项306、“排行”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310和“返回”按钮312对应的控件数据生成的控制指令即为应用主界面305对应的第一控制指令。

在另一些实施例中，控制指令还可以包括根据界面控件数据中的动态控件数据生成的第二控制指令。第一控制指令即动态控件的控制指令。

其中，动态控件数据可以为目标交互界面中的动态控件对应的控件数据。动态控件可以为能够动态更新、或者随着用户喜好或设置而改变的界面控件。

以目标交互界面为主界面为例，动态控件可以为用户自行添加的界面控件。

继续参见图2，由于音乐应用为用户可以自主下载的应用程序，因此，音乐应用对应的“音乐应用”图标205属于主界面201的动态控件，基于“音乐应用”图标205对应的控件数据生成的控制指令即为主界面201对应的第二控制指令。

以目标交互界面为应用界面为例，动态控件可以为界面框架内会动态更新的界面控件，例如基于网络信源检索之后填充的资源。

继续参见图3B，由于“歌单”选项307的选项卡内所显示的各个歌单名称可以动态更新，因此，这些歌单名称对应的歌单链接311属于应用主界面305的动态控件，基于各个歌单链接311对应的控件数据生成的控制指令即为应用主界面305对应的第二控制指令。

需要说明的是，在目标交互界面为应用界面的情况下，动态控件还可以为界面框架内会随着用户喜好而改变的界面控件，在此不做赘述。

在本公开实施例中，所加载的目标交互界面对应的目标控制指令集，既可以用于控制目标交互界面内的静态控件，又可以用于控制目标交互界面内的动态控件。由此，电子设备可以通过加载目标交互界面对应的目标控制指令集，使得目标交互界面中的各界面控件都分别具有对应的控制指令，以使用户能够更全面的对目标交互界面进行语音控制。

S130、当接收到用户控制语音时，在目标控制指令集中查询与用户控制语音相匹配的目标控制指令。

在本公开实施例中，在电子设备加载目标控制指令集之后，可以对用户控制语音进行监测，并且在接收到用户控制语音之后，在目标控制指令集的各个控制指令中查询与用户控制语音相匹配的目标控制指令。

可选地，S130可以具体包括：将用户控制语音转换为目标语音文本；在目标控制指令集中查询与目标语音文本相匹配的目标控制指令。

具体地，电子设备可以将用户控制语音输入离线设置的自动语音识别(AutomaticSpeech Recognition，ASR)引擎中，得到ASR引擎输出的目标语音文本，进而在目标控制指令集的各个控制指令中查询与目标语音文本相匹配的目标控制指令。

其中，目标控制指令与目标语音文本相匹配可以为目标语音文本包含目标控制指令中的任一动词和任一控件文本分词，也可以为目标语音文本中的动词与目标控制指令中的任一动词相同且目标语音文本中的名词与目标控制指令中的任一控件文本分词的相似度大于或等于预设的相似度阈值。

由此，电子设备可以通过在目标控制指令集中查询与用户控制语音相匹配的目标控制指令，来确定用户的语音控制意图。

S140、若查询到目标控制指令，执行目标控制指令对应的目标控制操作。

在本公开实施例中，如果电子设备确定其查询到与用户控制语音相匹配的目标控制指令，则可以执行该目标控制指令对应的目标控制操作；如果电子设备确定未查询到与用户控制语音相匹配的目标控制指令，则可以继续对用户语音进行检测，等待下一个用户控制语音。

可选地，S140可以具体包括：针对目标控制指令所涉及的目标界面控件，执行目标控制操作。

由于每个控制指令是根据对应界面控件的控件数据生成的，因此，每个控制指令能够用于触发对该控制指令所涉及的目标界面控件执行目标控制操作，即每个控制指令能够用于触发生成该控制指令的控件数据所属的目标界面控件执行目标控制操作。

进一步地，目标控制操作可以按照目标控制指令所指示的目标控制方式来实现的控制操作。

具体地，电子设备可以在查询到目标控制指令之后，按照目标控制指令所指示的目标控制方式，对生成该控制指令的控件数据所属的目标界面控件进行控制操作。

在本公开实施例中，可选地，在S140之后，电子设备可以进入新的交互界面，也可以保留在目标交互界面中。

在一些实施例中，在电子设备保留在目标交互界面中的情况下，电子设备无需重新加载控制指令集，可以继续基于目标控制指令集实现用户对目标交互界面的语音控制。

在另一些实施例中，在电子设备进入新的交互界面的情况下，电子设备需要重新加载新的交互界面对应的控制指令集，以基于重新加载的控制指令集实现用户对目标交互界面的语音控制。

继续参见图2，当用户控制电子设备执行“打开音乐应用”这一控制操作时，电子设备可以进入音乐应用程序的应用主界面，因此，在由主界面201跳转至音乐应用程序的应用主界面之后，需要重新获取音乐应用程序的应用主界面对应的控制指令集，以基于重新加载的控制指令集实现用户对音乐应用程序的应用主界面的语音控制。

继续参见图3B，当用户控制电子设备执行“播放每日推荐”这一控制操作时，电子设备可以在音乐应用程序的应用主界面305内直接播放每日推荐的歌曲，而无需跳转至其他的界面，因此，无需重新加载控制指令集，可以继续基于音乐应用程序的应用主界面305对应的控制指令集实现用户对音乐应用程序的应用主界面305的语音控制。

在本公开实施例中，能够在显示目标交互界面之后，对目标交互界面对应的目标控制指令集进行加载，进而在接收到用户控制语音时，在目标控制指令集中查询与接收到的用户控制语音相匹配的目标控制指令，并执行该查询到的目标控制指令，进而实现用户对目标交互界面的语音控制，由于加载的目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令，该界面控件数据可以涵盖目标交互界面内的全部界面控件，因此，可以完全实现对目标交互界面的全部语音控制，进而达到了对目标交互界面的DCS的效果，提升用户的使用体验。

在本公开另一种实施方式中，在控制指令包括根据界面控件数据中的静态控件数据生成的第一控制指令的情况下，电子设备可以直接获取预先生成的第一控制指令。

可选地，S120可以具体包括：确定目标交互界面所属的目标应用；在预先存储的多个预设控制指令集中，查询目标应用对应的控制指令集；在目标应用对应的控制指令集中，提取第一控制指令。

在本公开实施例中，电子设备内可以预先存储有多个预设控制指令集，每个预设控制指令集可以对应一个应用程序，即每个预设控制指令集可以包含有对应应用程序所涉及的全部静态控件的控制指令。

进一步地，目标应用可以为目标交互界面所属的应用程序。电子设备可以将显示目标交互界面时所需运行的应用程序作为目标交互界面所属的目标应用。

具体地，电子设备可以将显示目标交互界面时所需运行的应用程序作为目标应用，然后在多个预设控制指令集中查询目标应用对应的控制指令集，最后在目标应用对应的控制指令集中提取目标交互界面对应的第一控制指令，第一控制指令可以包括目标交互界面所涉及的全部静态控件的控制指令。

在本公开实施例中，电子设备在S110之前，可以首先接收服务器发送的预设控制指令集。

在一些实施例中，针对每个应用程序，服务器可以接收开发者输入的该应用程序的各个交互界面所对应的全部静态控件的控制指令和每个控制指令对应的控制方式。其中，每个静态控件的控制指令均包含有动词集合和该静态控件对应的控件文本分词集合，该静态控件对应的控件文本分词集合为开发者从该静态控件的控件数据即静态控件数据内的静态控件文本中提取的分词集合，该静态控件文本可以为该静态控件能够被用户看见的控件名，该控制指令中的动词集合包含有多个语义近似的动词。

在另一些实施例中，针对每个应用程序的每个交互界面内的每个静态控件，服务器可以从该静态控件的控件数据即静态控件数据内的静态控件文本中提取控件文本分词集合，然后利用预先设置的不同动词集合与控件文本分词集合进行组合，得到该静态控件的多个控制指令，每个控制指令中的动词集合包含有多个语义近似的动词。针对每个静态控件的每个控制指令，服务器还可以利用该控制指令中的动词集合对应的控制指令和控件文本分词集合对应的静态控件的控件功能，确定该控制指令对应的控制方式。

其中，控件文本分词集合内的各个分词可以通过“|”进行连接，动词集合中的各个动词也可以通过“|”进行连接。

由此，在本公开实施例中，可以得到符合扩展巴科斯范式(Extended Backus–NaurForm，EBNF)语法范式的分词集合内容，使得第一控制指令可以加载到语法(Grammar)引擎的语言模型中。

继续参考图2，以“音乐应用”图标205对应的控制指令为例，如果一个控制指令用于打开音乐应用，则动词集合可以为“打开|开|进入|进|点|点击”，控件文本分词集合可以为“音乐|音乐应用|音乐的|音乐图标”。

在本公开实施例中，可选地，由于目标交互界面内的静态控件可能因版本升级等原因进行更新，因此，电子设备内存储的预设控制指令集也需要进行更新，以保证用户可以对更新后的目标交互界面内的全部静态控件进行语音控制。

在一些实施例中，在目标应用对应的控制指令集中，提取第一控制指令之前，该语音控制方法还可以包括：检测目标应用对应的控制指令集的指令集版本。

具体地，电子设备可以检测目标应用对应的控制指令集的指令集版本，得到目标应用对应的控制指令集的版本号。

相应地，在目标应用对应的控制指令集中，提取第一控制指令可以具体包括：若检测到指令集版本为最新版本，则在目标应用对应的控制指令集中，提取第一控制指令。

具体地，电子设备可以通过判断检测到的版本号是否为最新版本号，以确定目标应用对应的控制指令集的指令集版本是否为最新版本，如果电子设备确定版本号是最新版本号，则可以确定指令集版本为最新版本，此时无需更新目标应用对应的控制指令集，可以直接在目标应用对应的控制指令集中提取目标交互界面对应的第一控制指令。

在另一些实施例中，在检测目标应用对应的控制指令集的指令集版本之后，该语音控制方法还可以包括：若检测到指令集版本不是最新版本，则从服务器下载目标应用对应的待更新控制指令集；利用待更新控制指令集替换目标应用对应的控制指令集；在待更新控制指令集中，提取第一控制指令。

具体地，如果电子设备确定版本号不是最新版本号，则可以确定指令集版本不是最新版本，此时需要更新目标应用对应的控制指令集，电子设备可以向服务器发送针对目标应用的控制指令集更新请求，使服务器响应于接收到控制指令集更新请求，向电子设备反馈目标应用对应的最近版本的控制指令集即目标应用对应的待更新控制指令集，以从服务器下载目标应用对应的待更新控制指令集，进而利用待更新控制指令集替换目标应用对应的控制指令集，即将待更新控制指令集作为目标应用对应的新的控制指令集，并且删除不是最新版本的目标控制指令集，然后在待更新控制指令集即目标应用对应的新的控制指令集中提取目标交互界面对应的第一控制指令。

由此，在本公开实施例中，可以预先为各个应用程序的各个交互界面整理出全部静态控件的控制指令，进而在电子设备内预先存储其所安装的全部应用程序对应的全部静态控件的控制指令，并将这些控制指令作为静态预设内容，实现对目标交互界面的第一控制指令的快速加载。

在本公开又一种实施方式中，在控制指令包括根据界面控件数据中的动态控件数据生成的第二控制指令的情况下，电子设备可以根据动态控件数据生成第二控制指令。

在这些实施例中，加载目标交互界面对应的目标控制指令集可以具体包括：对动态控件数据进行处理，以生成第二控制指令。

具体地，动态控件为在动态内容预留字段内填充控件数据所形成的控件。

下面参考图4对本公开实施例提供的动态控件数据的处理过程进行详细说明。

图4示出了本公开实施例提供的一种动态控件数据的处理过程的流程示意图。

如图4所示，该动态控件数据的处理过程可以包括如下步骤。

S410、在动态控件数据中，提取动态控件文本。

在本公开实施例中，无论是静态控件数据还是动态控件数据，都可以包括控件的控件文本、控件显示参数等等。每个静态控件数据可以属于一个静态控件，每个动态控件数据可以属于一个动态控件。

具体地，电子设备可以从在目标交互界面对应的动态控件数据中提取该动态控件数据所属的动态控件的动态控件文本，该动态控件文本可以为该动态控件能够被用户看见的控件名。

继续参见图3B，歌单链接311属于应用主界面305的动态控件，以“氛围钢琴曲当灵魂与无尽虚空对话”的歌单链接311为例，其动态控件文本为“氛围钢琴曲当灵魂与无尽虚空对话”。

S420、对动态控件文本进行分词处理，得到动态控件文本对应的分词集合。

在本公开实施例中，电子设备可以在提取到任一动态控件的动态控件文本之后，对该动态控件文本进行分词处理，得到动态控件文本对应的分词集合即动态控件的控件文本分词集合。

具体地，电子设备可以利用任意的分词处理算法，将动态控件文本拆分为多个控件文本分词，然后将任意多个相邻的控件文本分词进行组合，得到多个分词组合，最后得到包含多个控件文本分词和多个分词组合的动态控件文本对应的分词集合。

可选地，将多个控件文本分词和多个分词组合进行组合得到分词集合的方法可以包括多个控件文本分词和多个分词组合利用“|”进行连接，得到分词集合。

由此，在本公开实施例中，可以得到符合EBNF语法范式的分词集合内容，使得生成的第二控制指令可以加载到Grammar引擎的语言模型中。

S430、根据分词集合生成第二控制指令。

在本公开实施例中，电子设备在得到动态控件文本对应的分词集合之后，可以基于预设的控制指令生成方式，根据分词集合生成第二控制指令。

可选地，S430可以具体包括：根据预设的动词集合和分词集合，生成第二控制指令。

电子设备可以利用预先设置的不同动词集合与分词集合进行组合，得到该动态控件的多个控制指令，每个控制指令中的动词集合包含有多个语义近似的动词。针对每个动态控件的每个控制指令，电子设备还可以利用该控制指令中的动词集合对应的控制指令和分词集合对应的动态控件的控件功能，确定该控制指令对应的控制方式。

在本公开一些实施例中，在S420之前，该语音控制方法还可以包括：对动态控件文本进行预处理。

在本公开实施例中，电子设备在提取到动态控件文本之后，在对动态控件文本进行分词处理，得到动态控件文本对应的分词集合之前，还可以先对动态控件文本进行预处理，得到能够用于进行文本处理的动态控件文本。

可选地，预处理可以包括符号剔除处理、数字转换处理。

符号剔除处理可以用于剔除动态控件文本中的符号，例如标点符号、特殊符号、数学符号等任意不具有语义的符号。

数字转换处理可以用于将动态控件文本中的阿拉伯数字转换为中文数字。其中，如果阿拉伯数字有两位以上的数字，则可以将整个阿拉伯数字转换为一个中文数字，也可以将每个数字分别转换为一个数字。

由此，在本公开实施例中，电子设备在显示目标交互界面之后，可以基于目标交互界面内的各个动态控件数据生成目标交互界面内的全部动态控件的控制指令即第二控制指令，进而将这些控制指令作为动态加载内容，实现对目标交互界面的第二控制指令的可靠、高效地加载。

下面以一个示例，对本公开实施例所提供的语音控制方法进行详细说明。

图5示出了本公开实施例提供的另一种语音控制方法的流程示意图。

S510、显示目标交互界面。

在本公开实施例中，具备语音控制功能的电子设备可以显示目标交互界面，使用户可以对目标交互界面进行语音控制。

S520、加载目标交互界面对应的目标控制指令集。

在本公开实施例中，在显示目标交互界面之后，电子设备可以对ASR引擎进行初始化，并且加载指令内容为空的语言模型。然后，向语言模型中加载目标交互界面对应的目标控制指令集。在ASR引擎启动、初始化以及目标控制指令集的加载过程中，电子设备不接收用户语音。

其中，电子设备需要向语言模型中加载目标控制指令集中的第一控制指令和第二控制指令。

电子设备可以首先判断预加载的语言模型所属的应用程序是否为目标交互界面所属的目标应用，如果是，则将目标控制指令集加载到语言模型中；如果不是，则重新加载目标应用对应的空的语言模型，再将目标控制指令集加载到重新加载的语言模型中。

在一些实施例中，电子设备可以首先确定目标交互界面所属的目标应用，然后在多个预设控制指令集中查询目标应用对应的控制指令集，进而确定目标应用对应的控制指令集的指令集版本是否为最新版本，如果确定指令集版本为最新版本，此时无需更新目标应用对应的控制指令集，可以直接在目标应用对应的控制指令集中提取目标交互界面对应的第一控制指令；如果确定指令集版本不是最新版本，此时需要更新目标应用对应的控制指令集，可以从服务器下载目标应用对应的待更新控制指令集，并利用待更新控制指令集替换目标应用对应的控制指令集，以在待更新控制指令集中提取目标交互界面对应的第一控制指令。在电子设备获取的第一控制指令之后，可以将第一控制指令加载到语言模型中。

在另一些实施例中，电子设备可以获取目标交互界面中的全部动态控件对应的动态控件数据。针对每个动态控件对应的动态控件数据，电子设备可以从动态控件数据中提取该动态控件的动态控件文本，然后剔除动态控件文本中的符号并将动态控件文本中的阿拉伯数字转换为中文数字，得到预处理后的动态控件文本，接着对该动态控件文本进行分词处理，得到动态控件文本对应的分词集合，最后根据预设的动词集合和分词集合，生成第二控制指令。在电子设备获取的第二控制指令之后，可以将第二控制指令加载到语言模型中。

其中，在根据预设的动词集合和分词集合，生成第二控制指令之前，然后将不同的语法内容加入语言模型对应的代码位置，最后将更新后的语言模型编译为二进制的语言模型资源文件，并发给音频识别模型。

进一步地，电子设备还可以将第一控制指令和第二控制指令转化为二进制代码后，加载到语音模型中。

S530、接收用户控制语音。

在本公开实施例中，电子设备在完成对目标控制指令集的加载之后，可以等待用户输入语音。若基于语音端点检测(Voice Activity Detection，VAD)识别到人声开始时，持续录音。若基于VAD识别到人声结束时，则停止录音。电子设备可以将录音得到的音频作为用户控制语音。电子设备进而可以将用户控制语音输入ASR引擎，得到用户控制语音对应的目标语音文本。

S540、根据用户控制语音对应的目标语音文本，在目标控制指令集中查找与用户控制语音相匹配的目标控制指令。

在本公开实施例中，电子设备可以在目标控制指令集中查询与目标语音文本相匹配的目标控制指令。

S550、判断是否查找到目标控制指令。

在本公开实施例中，电子设备可以判断是否查找到目标控制指令，如果查询到目标控制指令，则执行S560，否则返回执行S530。

S560、执行目标控制指令对应的目标控制操作。

在本公开实施例中，电子设备可以按照目标控制指令所指示的目标控制方式，对生成该控制指令的控件数据所属的目标界面控件进行控制操作。

综上所述，在本公开实施例中，由于利用动词集合和分词集合生成控制指令，可以支持单个交互界面的数千级别说法的语音控制，同时控制指令包括了基于交互界面中的静态控件生成的静态控制指令和基于交互界面中的动态控件生成的动态控制指令，因此在能够支撑足够大的语法量级的基础上，还可以任意扩充控制指令，实现对交互界面的可见即可说的效果。另外，对控制指令的加载过程和对用户控制语音的识别过程相互独立，互不干扰，能够提高识别的准确率。

进一步地，在本公开实施例中，ASR引擎和Grammar引擎均为离线的引擎，可以做到运行在端侧(即在电子设备内实现运行)，不依赖网络。并且，引擎的模型足够小，对算力要求较低，可以让交互界面内需要支撑的控制指令以较快的速度被响应(平均比云端识别结果要快1.2s左右，比离线通用识别结果快500ms左右)，在车辆场景下，可以带来较高的收益。

图6示出了本公开实施例提供的一种语音控制装置的结构示意图。

在本公开一些实施例中，图6所示的装置可以应用于电子设备中。其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、智能家居设备等具有语音控制功能的设备。

如图6所示，该语音控制装置600可以包括界面显示模块610、指令加载模块620、指令匹配模块630和指令执行模块640。

该界面显示模块610可以配置为显示目标交互界面。

该指令加载模块620，可以配置为加载目标交互界面对应的目标控制指令集，目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令。

该指令匹配模块630，可以配置为当接收到用户控制语音时，在目标控制指令集中查询与用户控制语音相匹配的目标控制指令。

该指令执行模块640，可以配置为若查询到目标控制指令，执行目标控制指令对应的目标控制操作。

在本公开实施例中，能够在显示目标交互界面之后，对目标交互界面对应的目标控制指令集进行加载，进而在接收到用户控制语音时，在目标控制指令集中查询与接收到的用户控制语音相匹配的目标控制指令，并执行该查询到的目标控制指令，进而实现用户对目标交互界面的语音控制，由于加载的目标控制指令集包括根据目标交互界面的界面控件数据生成的控制指令，该界面控件数据可以涵盖目标交互界面内的全部界面控件，因此，可以完全实现对目标交互界面的全部语音控制，进而达到了对目标交互界面的可见即可说的效果，提升用户的使用体验。

在本公开一些实施例中，控制指令可以包括根据界面控件数据中的静态控件数据生成的第一控制指令。

在本公开一些实施例中，界面显示模块620还可以包括应用确定单元、第一查询单元和第一提取单元。

该应用确定单元可以配置为确定目标交互界面所属的目标应用。

该第一查询单元可以配置为在预先存储的多个预设控制指令集中，查询目标应用对应的目标控制指令集。

该第一提取单元还可以配置为在目标应用对应的控制指令集中，提取第一控制指令。

在本公开一些实施例中，界面显示模块620还可以包括版本检测单元，该版本检测单元可以配置为在目标控制指令集中提取第一控制指令之前，检测目标应用对应的控制指令集的指令集版本。

该第一提取单元可以进一步配置为在版本检测单元检测到指令集版本为最新版本时，则在目标控制指令集中，提取第一控制指令。

在本公开一些实施例中，界面显示模块620还可以包括指令集下载单元、第一处理单元和第二提取单元。

该指令集下载单元可以配置为在检测目标应用对应的控制指令集的指令集版本之后，若检测到指令集版本不是最新版本，则从服务器下载目标应用对应的待更新控制指令集。

该第一处理单元可以配置为利用待更新控制指令集替换目标控制指令集。

该第二提取单元可以配置为在待更新控制指令集中，提取第一控制指令。

在本公开一些实施例中，控制指令可以包括根据界面控件数据中的动态控件数据生成的第二控制指令。

在本公开一些实施例中，界面显示模块620还可以包括第三提取单元、第二处理单元和指令生成单元。

该第三提取单元可以配置为在动态控件数据中，提取动态控件文本。

该第二处理单元可以配置为对动态控件文本进行分词处理，得到动态控件文本对应的分词集合。

该指令生成单元可以配置为根据分词集合生成第二控制指令。

在本公开一些实施例中，界面显示模块620还可以包括第三处理单元，该第三处理单元可以配置为在对动态控件文本进行分词处理，得到动态控件文本对应的分词集合之前，对动态控件文本进行预处理，其中，预处理包括符号剔除处理、数字转换处理。

在本公开一些实施例中，该指令生成单元可以进一步配置为根据预设的动词集合和分词集合，生成第二控制指令。

在本公开一些实施例中，界面显示模块630可以包括文本转换单元和第二查询单元。

该文本转换单元可以配置为将用户控制语音转换为目标语音文本。

该第二查询单元可以配置为在目标控制指令集中查询与目标语音文本相匹配的目标控制指令。

在本公开一些实施例中，指令执行模块640可以进一步配置为针对目标控制指令所涉及的目标界面控件，执行目标控制操作。

需要说明的是，图6所示的语音控制装置600可以执行图1至图5所示的方法实施例中的各个步骤，并且实现图1至图5所示的方法实施例中的各个过程和效果，在此不做赘述。

图7示出了本公开实施例提供的一种语音控制设备的结构示意图。

在本公开一些实施例中，图7所示的语音控制设备可以为电子设备中。

其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、智能家居设备等具有语音控制功能的设备。

如图7所示，该语音控制设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器702可以包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器(Read-OnlyMemory，ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableROM，PROM)、可擦除PROM(ElectricalProgrammable ROM，EPROM)、电可擦除PROM(Electrically Erasable Programmable ROM，EEPROM)、电可改写ROM(Electrically Alterable ROM，EAROM)或闪存，或者两个或及其以上这些的组合。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以执行本公开实施例所提供的语音控制方法的步骤。

在一个示例中，该语音控制设备还可包括收发器703和总线704。其中，如图7所示，处理器701、存储器702和收发器703通过总线704连接并完成相互间的通信。

总线704包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture，EISA)总线、前端总线(Front Side BUS，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industrial Standard Architecture，ISA)总线、无限带宽互连、低引脚数(Low Pin Count，LPC)总线、存储器总线、微信道架构(MicroChannel Architecture，MCA)总线、外围控件互连(Peripheral Component Interconnect，PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment，SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus，VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线704可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本公开实施例还提供了一种计算机可读存储介质，该存储介质可以存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现本公开实施例所提供的语音控制方法。

上述的存储介质可以例如包括计算机程序指令的存储器702，上述指令可由语音控制设备的处理器701执行以完成本公开实施例所提供的语音控制方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact DiscROM，CD-ROM)、磁带、软盘和光数据存储设备等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音控制方法，其特征在于，包括：

显示目标交互界面；

加载所述目标交互界面对应的目标控制指令集，所述目标控制指令集包括根据所述目标交互界面的界面控件数据生成的控制指令；

当接收到用户控制语音时，在所述目标控制指令集中查询与所述用户控制语音相匹配的目标控制指令；

若查询到所述目标控制指令，执行所述目标控制指令对应的目标控制操作。

2.根据权利要求1所述的方法，其特征在于，所述控制指令包括根据所述界面控件数据中的静态控件数据生成的第一控制指令。

3.根据权利要求2所述的方法，其特征在于，所述加载所述目标交互界面对应的目标控制指令集，包括：

确定所述目标交互界面所属的目标应用；

在预先存储的多个预设控制指令集中，查询所述目标应用对应的控制指令集；

在所述目标应用对应的控制指令集中，提取所述第一控制指令。

4.根据权利要求3所述的方法，其特征在于，在所述在所述目标应用对应的控制指令集中，提取所述第一控制指令之前，所述方法还包括：

检测所述目标应用对应的控制指令集的指令集版本；

其中，所述在所述目标应用对应的控制指令集中，提取所述第一控制指令，包括：

若检测到所述指令集版本为最新版本，则在所述目标应用对应的控制指令集中，提取所述第一控制指令。

5.根据权利要求4所述的方法，其特征在于，在所述检测所述目标应用对应的控制指令集的指令集版本之后，所述方法还包括：

若检测到所述指令集版本不是最新版本，则从服务器下载所述目标应用对应的待更新控制指令集；

利用所述待更新控制指令集替换所述目标应用对应的控制指令集；

在所述待更新控制指令集中，提取所述第一控制指令。

6.根据权利要求1所述的方法，其特征在于，所述控制指令包括根据所述界面控件数据中的动态控件数据生成的第二控制指令。

7.根据权利要求6所述的方法，其特征在于，所述加载所述目标交互界面对应的目标控制指令集，包括：

在所述动态控件数据中，提取动态控件文本；

对所述动态控件文本进行分词处理，得到所述动态控件文本对应的分词集合；

根据所述分词集合生成所述第二控制指令。

8.根据权利要求7所述的方法，其特征在于，在所述对所述动态控件文本进行分词处理，得到所述动态控件文本对应的分词集合之前，所述方法还包括：

对所述动态控件文本进行预处理；

其中，所述预处理包括符号剔除处理、数字转换处理。

9.根据权利要求7所述的方法，其特征在于，所述根据所述分词集合生成所述第二控制指令，包括：

根据预设的动词集合和所述分词集合，生成所述第二控制指令。

10.根据权利要求1所述的方法，其特征在于，所述在所述目标控制指令集中查询与所述用户控制语音相匹配的目标控制指令，包括：

将所述用户控制语音转换为目标语音文本；

在所述目标控制指令集中查询与所述目标语音文本相匹配的所述目标控制指令。

11.根据权利要求1所述的方法，其特征在于，所述执行所述目标控制指令对应的目标控制操作，包括：

针对所述目标控制指令所涉及的目标界面控件，执行所述目标控制操作。

12.一种语音控制装置，其特征在于，包括：

界面显示模块，配置为显示目标交互界面；

指令加载模块，配置为加载所述目标交互界面对应的目标控制指令集，所述目标控制指令集包括根据所述目标交互界面的界面控件数据生成的控制指令；

指令匹配模块，配置为当接收到用户控制语音时，在所述目标控制指令集中查询与所述用户控制语音相匹配的目标控制指令；

指令执行模块，配置为若查询到所述目标控制指令，执行所述目标控制指令对应的目标控制操作。

13.一种语音控制设备，其特征在于，包括：

处理器；

存储器，用于存储可执行指令；

其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-11中任一项所述的语音控制方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现上述权利要求1-11中任一项所述的语音控制方法。