CN115440213A

CN115440213A - 语音控制方法、装置、设备、车辆及介质

Info

Publication number: CN115440213A
Application number: CN202210790863.8A
Authority: CN
Inventors: 安庆涵; 林晓鹭; 周君宜; 王涛; 冯贝
Original assignee: Beijing Rockwell Technology Co Ltd
Current assignee: Beijing Rockwell Technology Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-12-06

Abstract

本公开涉及一种语音控制方法、装置、设备、车辆及介质，包括：显示目标交互界面，其中，目标交互界面包括至少一个可交互的动态控件以及动态控件对应的序列编号；生成目标交互界面对应的目标控制指令集，目标控制指令集包括根据动态控件对应的序列编号生成的控制指令；基于目标控制指令集在所述目标交互界面显示引导信息，引导信息用于引导用户可基于序列编号语音控制目标交互界面的动态控件；响应于用户第一控制语音，在目标控制指令集中查询与用户第一控制语音相匹配的目标控制指令；根据目标控制指令，执行目标控制指令对应的目标控制操作。根据本公开实施例，实现对动态控件描述的简易化，能够有效提升用户使用语音操控时的便捷性。

Description

语音控制方法、装置、设备、车辆及介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音控制方法、装置、设备、车辆及介质。

背景技术

随着技术不断进步，越来越多的场景引入了具有语音控制功能的电子设备，例如在车辆中引入具有语音控制功能的车载终端。

一般情况下，电子设备内会预先存储有每个交互界面对应的一些控制指令，例如，预先存储交互界面上显示的控件数据对应的控制指令，用户可以通过说出这些控制指令实现对电子设备的各个交互界面的操作控制。但是，当交互界面上显示的控件数据是动态加载，例如交互界面上显示的动态控件数据实时加载变化，此时当实时加载的动态控件数据比较复杂时，用户说出的与动态控件数据对应的控制指令是比较复杂的，影响了用户使用感受。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音控制方法、装置、设备、车辆及介质。

第一方面，本公开提供了一种语音控制方法，包括：

显示目标交互界面，其中，所述目标交互界面包括至少一个可交互的动态控件以及所述动态控件对应的序列编号；

生成所述目标交互界面对应的目标控制指令集，所述目标控制指令集包括根据所述动态控件对应的序列编号生成的控制指令；

基于所述目标控制指令集在所述目标交互界面显示引导信息，所述引导信息用于引导用户可基于序列编号语音控制所述目标交互界面的动态控件；

响应于用户第一控制语音，在所述目标控制指令集中查询与所述用户第一控制语音相匹配的目标控制指令；

根据所述目标控制指令，执行所述目标控制指令对应的目标控制操作。

可选的，所述生成所述目标交互界面对应的目标控制指令集，包括：

确定所述目标交互界面所属的目标应用；

提取所述目标应用中动态控件对应的序列编号；

根据所述序列编号生成控制指令。

可选的，所述根据所述序列编号生成控制指令之前，还包括：

对提取的所述目标应用中动态控件对应的序列编号进行第一格式转换处理，得到与所述序列编号对应的第一文本数据，其中，所述第一格式转换处理为将阿拉伯数字格式的序列编号转换为中文小写格式的第一文本数据。

可选的，所述根据所述序列编号生成控制指令，包括：

根据所述序列编号对应的第一文本数据生成控制指令；或，

根据预设动词和所述序列编号对应的第一文本数据生成控制指令。

可选的，所述在所述目标控制指令集中查询与所述用户第一控制语音相匹配的目标控制指令，包括：

将所述用户第一控制语音转换为语音文本数据；

对所述语音文本数据进行第二格式转换处理，得到与所述语音文本数据对应的第二文本数据，其中，所述第二格式转换处理包括将语音文本数据包括的中文大写格式的文本转换为中文小写格式的文本；

在所述目标控制指令集中查询与所述第二文本数据相匹配的所述目标控制指令。

可选的，所述显示目标交互界面，包括：

响应于用户第二控制语音或用户在所述目标交互界面的触发操作，动态显示所述目标交互界面，其中，所述动态显示包括滑动显示和悬停显示。

可选的，所述动态显示所述目标交互界面，包括：

若存在第一动态控件的序列编号在所述目标交互界面的显示尺寸小于预设尺寸时，取消显示所述第一动态控件的序列编号，并对所述目标交互界面显示的除第一动态控件外的其它动态控件进行重新编号。

可选的，还包括：

当滑动显示所述目标交互界面时，滑动到所述目标交互界面边界位置处的动态控件的序列编号沿所述目标交互界面的滑动方向渐变消失；

当由滑动显示转变为悬停显示所述目标交互界面时，滑动到所述目标交互界面边界位置处的动态控件的序列编号沿所述目标交互界面的滑动方向渐变显示。

可选的，所述显示目标交互界面，包括：

在检测到语音模块处于激活状态时，显示目标交互界面。

第二方面，本公开提供了一种语音控制装置，包括：

界面显示模块，用于显示目标交互界面，其中，所述目标交互界面包括至少一个可交互的动态控件以及所述动态控件对应的序列编号；

指令生成模块，用于生成所述目标交互界面对应的目标控制指令集，所述目标控制指令集包括根据所述动态控件对应的序列编号生成的控制指令；

引导信息显示模块，用于基于所述目标控制指令集在所述目标交互界面显示引导信息，所述引导信息用于引导用户可基于序列编号语音控制所述目标交互界面的动态控件；

指令匹配模块，用于响应于用户第一控制语音，在所述目标控制指令集中查询与所述用户第一控制语音相匹配的目标控制指令；

指令执行模块，用于根据所述目标控制指令，执行所述目标控制指令对应的目标控制操作。

第三方面，本公开提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的方法。

第四方面，本公开实施例提供一种车辆，包括第三方面所述的电子设备。

第五方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面所述的语音控制方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的语音控制方法、装置、设备、车辆及介质，能够在显示目标交互界面之后，对目标交互界面对应的目标控制指令集进行生成，并基于生成的目标控制指令集在目标交互界面显示引导信息，引导用户基于序列编号语音控制目标交互界面的动态控件，进而在接收到用户第一控制语音时，在目标控制指令集中查询与接收到的用户第一控制语音相匹配的目标控制指令，并执行该查询到的目标控制指令，进而实现用户对目标交互界面的语音控制，由于目标交互界面包括的动态控件上显示对应的序列编号，且生成的目标控制指令集包括根据动态控件对应的序列编号生成的控制指令，即通过使用序列编号指代动态控件，从而实现对动态控件简易化描述，进而保证动态控件对应的控制指令的简易化，能够有效提升用户使用语音操控时的便捷性，方便用户描述，节省用户时间，提升用户体验以及提升语音交互的准确率。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本公开实施例提供的一种语音控制方法的流程示意图；

图2A-2E是本公开实施例提供的一种车载终端的主界面的示意图；

图3是本公开实施例提供的另一种语音控制方法的流程示意图；

图4A-4B是本公开实施例提供的又一种语音控制方法的流程示意图；

图5A-5C是本公开实施例提供的另一种车载终端的主界面的示意图；

图6为本公开实施例提供的一种语音控制装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

随着技术不断进步，越来越多的场景引入了具有语音控制功能的电子设备。

一般情况下，电子设备内会预先存储有每个交互界面对应的一些控制指令，用户可以通过说出这些控制指令实现对电子设备的各个交互界面的操作控制。

例如，在基于唤醒的语音控制中，控制指令可以为唤醒词，每个交互界面可以注册有固定数量的唤醒词，用户可以通过说出这些唤醒词来满足对各个交互界面的语音控制需求。

但是，当交互界面上显示的控件数据是动态生成，例如交互界面上显示的动态控件数据实时生成变化，此时当交互界面上显示的动态控件数据比较复杂时，用户说出的与动态控件数据对应的控制指令是比较复杂的，影响了用户使用感受。

为了解决上述的问题，本公开实施例提供了一种能够实现可见即可说的语音控制方法、装置、设备及介质。

下面首先结合图1-图5对本公开实施例提供的语音控制方法进行说明。

在本公开实施例中，该语音控制方法可以由电子设备执行。其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、智能家居设备等具有语音控制功能的设备。

图1示出了本公开实施例提供的一种语音控制方法的流程示意图。

如图1所示，该语音控制方法可以包括如下步骤。

S10、显示目标交互界面。

其中，目标交互界面包括至少一个可交互的动态控件以及动态控件对应的序列编号。

在本公开实施例中，目标交互界面可以为通过电子设备的显示屏幕直观展示的界面。

目标交互界面内可以显示有至少一个可交互的动态控件以及动态控件对应的序列编号，其中，动态控件可以为界面中的选项、图标或者链接等能够被用户操控的控件，且动态控件中包括的动态控件数据是实时变化的，在此不作限制。

在一些实施例中，动态控件对应的序列编号可基于动态控件的排列顺序进行排序，示例性的，图2示出了本公开实施例提供的一种车载终端的主界面的示意图，如图2A所示，车载终端可以显示有音乐应用程序的应用主界面305，在应用界面305中可以显示有多个界面控件，例如“每日推荐”选项306、“每日推荐歌单”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310、各个歌单链接311和“返回”按钮312，其中，歌单链接311上显示的控件数据(即歌单名称)是实时变化的，因此，歌单链接311为可交互的动态控件，“每日推荐”选项306、“每日推荐歌单”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310和“返回”按钮312显示的控件数据是保持不变的，因此，“每日推荐”选项306、“每日推荐歌单”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310和“返回”按钮312为可交互的静态控件，此时，在每日推荐歌单中各个歌单链接上显示序列编号313，每日推荐歌单中各个歌单链接上显示的序列编号可基于各个歌单链接的排列顺序进行排序并编号。

需要说明的是，图2A示例性表示一种每日推荐歌单中各个歌单链接的排布方式，即首选沿第一方向X对位于每日推荐歌单第一排的歌单链接进行排序，然后沿第二方向Y获取每日推荐歌单第二排的歌单链接，并在每日推荐歌单第一排的歌单链接排序的基础上，沿第一方向X对位于每日推荐歌单第二排的歌单链接进行排序，以此类推，实现对每日推荐歌单中各个歌单链接的排序。在其它可实施方式中，歌单中各个歌单链接的排布方式也可以如图2B所示的排序，此时，首选沿第二方向Y对位于每日推荐歌单第一列的歌单链接进行排序，然后沿第一方向X获取每日推荐歌单第二列的歌单链接，并在每日推荐歌单第一列的歌单链接排序的基础上，沿第二方向Y对位于每日推荐歌单第二列的歌单链接进行排序，以此类推，实现对每日推荐歌单中各个歌单链接的排序。

此外，上述实施例中，应用界面305显示的多个界面控件中，动态控件仅仅包括歌单链接311，即仅仅包括一种类型的动态控件。

在其它可实施方式中，应用界面305中显示的多个界面控件中，包括多种类型的动态控件，具体的，参见图2C，动态控件包括歌单链接311以及歌曲链接313，当应用界面305中显示的界面控件中，包括多种类型的动态控件时，此时，对子节点对应的动态控件上显示序列编号，结合图2C，歌单1链接是歌曲链接的父节点，歌曲链接是歌单1链接的子节点，此时，对歌曲链接313对应的动态控件进行编号并在歌曲链接上显示序列编号。

需要说明的是，图2C对应的实施例中，示例性应用界面显示的界面控件包括两种类型的动态控件时，在对应动态控件显示序列编号的方式，当应用界面显示的界面包括三种类型的动态控件时，例如动态控件1、动态控件2和动态控件3，且动态控件1是动态控件2的父节点，动态控件2是动态控件1的子节点，动态控件2是动态控件3的父节点，动态控件3是动态控件2的子节点，此时，在动态控件3上显示序列编号，即选取页面上最小的子节点对应的动态控件，并在最小子节点对应的动态控件上显示序列编号。

作为又一种可实施方式，当应用界面305中显示的多个界面控件中，包括多种类型的动态控件，具体的，参见图2D，动态控件包括歌单链接311以及歌曲链接313，此时，先对根节点对应的动态控件进行编号，并在根节点对应的动态控件上显示序列编号，然后在根节点对应的动态控件的序列编号的基础上，对子节点对应的动态控件进行编号，并在子节点对应的动态控件上显示序列编号，如图2D所示，歌单1链接是歌曲链接的父节点，歌曲链接是歌单1链接的子节点，此时，首选对歌单链接对应的动态控件进行编号并在歌单链接上显示序列编号，然后在歌单链接编号的基础上，对歌曲链接对应的动态控件进行编号，即歌单链接对应的序列编号为①、②、③、④，此时，歌曲链接对应的序列编号在编号④的基础上进行编号。

图2D对应实施例中，当应用界面显示的多个界面控件中包括多种不同类型的动态控件，通过对不同类型的动态控件分别进行编号，且不同类型的动态控件编号不重复，保证基于动态控件对应的序列编号生成的控制指令不相同，进而使得目标交互界面中的各界面控件都分别具有对应的控制指令，以使用户能够更全面的对目标交互界面进行语音控制。

本公开实施例中，当生成显示目标交互界面时，生成显示的目标交互界面上包括的至少一个可交互的动态控件上显示对应的序列编号，通过在目标交互界面上显示的动态控件进行编号并显示序列编号，即使用序列编号指代动态控件，从而实现对动态控件描述的简易化，能够有效提升用户使用语音操控时的便捷性，方便用户描述，节省用户时间，提升用户体验以及提升语音交互的准确率。

S20、生成目标交互界面对应的目标控制指令集，目标控制指令集包括根据动态控件对应的序列编号生成的控制指令。

在本公开实施例中，在电子设备显示目标交互界面之后，可以生成目标交互界面对应的目标控制指令集，该目标控制指令集中的各个控制指令包括根据目标交互界面的静态控件的界面控件数据所生成的控制指令，也包括根据动态控件对应的序列编号生成的控制指令，其中，静态控件的界面控件数据为目标交互界面中静态控件对应的控件数据，动态控件对应的序列编号为目标交互界面中动态控件生成显示的序列编号，即目标交互界面内的全部界面控件分别具有相应的控制指令。

其中，静态控件可以为始终固定显示的界面控件，即静态控件的界面控件数据不会随着用户喜好或者设置而改变，以目标交互界面为主界面为例，静态控件可以为设备出厂时自带的、不会动态更新也不可被用户更改的界面控件。动态控件可以为能够动态更新、或者随着用户喜好或设置而改变的界面控件，即动态控件数据可以为目标交互界面中的动态控件对应的控件数据。

以目标交互界面为应用界面为例，静态控件可以为界面框架内固定显示且不会随着用户喜好更改的界面控件，例如被预置在界面工程内的内置资源，这些内置资源可以在应用界面的界面内容推送给用户之前被提前感知。

继续参见图2A或图2B，由于每日推荐、排行、本地音乐、设置为音乐应用程序的应用主界面305内固定的模块功能，并且返回、各种播放控制为音乐应用程序的应用主界面301内固定的界面功能，因此，这些功能对应的“每日推荐”选项306、“歌单”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310和“返回”按钮312属于应用主界面305的静态控件，此时，可基于“每日推荐”选项306、“排行”选项307、“本地音乐”选项308、“设置”选项309、各种播放控制按钮310和“返回”按钮312对应的控件数据生成控制指令。

以目标交互界面为应用界面为例，动态控件可以为界面框架内会动态更新的界面控件，例如基于网络信源检索之后填充的资源。

继续参见图2A和图2B，由于“每日推荐歌单”选项307的选项卡内所显示的各个歌单链接名称可以动态更新，因此，这些歌单名称对应的歌单链接311属于应用主界面305的动态控件，此时，可基于各个歌单链接311对应的序列编号生成控制指令。

需要说明的是，在目标交互界面为应用界面的情况下，动态控件还可以为界面框架内会随着用户喜好而改变的界面控件或用户下载的界面控件，在此不做赘述。

在本公开实施例中，所生成的目标交互界面对应的目标控制指令集，既可以用于控制目标交互界面内的静态控件，又可以用于控制目标交互界面内的动态控件。由此，电子设备可以通过生成目标交互界面对应的目标控制指令集，使得目标交互界面中的各界面控件都分别具有对应的控制指令，以使用户能够更全面的对目标交互界面进行语音控制。

S30、基于目标控制指令集在目标交互界面显示引导信息。

引导信息用于引导用户可基于序列编号语音控制目标交互界面的动态控件。

当生成目标交互界面对应的目标控制指令集后，可基于目标控制指令集的控制指令确定可基于序列编号进行控制的动态控件，通过在引导信息中显示目标交互界面可基于序列编号对应的语音进行控制的动态控件，引导用户基于语音对目标交互界面的包括序列编号的动态控件进行控制。

具体的，在生成目标交互界面对应的目标控制指令集后，目标交互界面显示的引导信息320，如图2E所示，此时，用户可以基于引导信息，确定该页面基于序列编号对应的语音进行控制的动态控件包括：歌单，序列编号包括1-9。

S40、响应于用户第一控制语音，在目标控制指令集中查询与用户第一控制语音相匹配的目标控制指令。

在本公开实施例中，在电子设备生成目标控制指令集之后，可以对用户第一控制语音进行监测，并且在接收到用户第一控制语音之后，在目标控制指令集的各个控制指令中查询与用户第一控制语音相匹配的目标控制指令。

具体地，电子设备可以将用户第一控制语音输入离线设置的自动语音识别(Automatic Speech Recognition，ASR)引擎中，得到ASR引擎输出的目标语音文本，进而在目标控制指令集的各个控制指令中查询与目标语音文本相匹配的目标控制指令。

其中，目标控制指令与用户第一控制语音相匹配可以为用户第一控制语音包含目标控制指令中的任一动词和任一控件文本分词，也可以为用户第一控制语音的动词与目标控制指令中的任一动词相同且用户第一控制语音中的名词与目标控制指令中的任一控件文本分词的相似度大于或等于预设的相似度阈值。

由此，电子设备可以通过在目标控制指令集中查询与用户第一控制语音相匹配的目标控制指令，来确定用户的语音控制意图。

S50、根据目标控制指令，执行目标控制指令对应的目标控制操作。

在本公开实施例中，如果电子设备确定其查询到与用户第一控制语音相匹配的目标控制指令，则可以执行该目标控制指令对应的目标控制操作；如果电子设备确定未查询到与用户第一控制语音相匹配的目标控制指令，则可以继续对用户语音进行检测，等待下一个用户第一控制语音。

可选地，S50可以具体包括：

根据目标控制指令，确定目标控制指令对应的动态控件。

对目标控制指令对应的动态控件执行目标控制操作。

控制指令是基于静态控件对应的控件数据生成的以及基于动态控件对应的序列编号生成的，因此，每个控制指令能够用于触发对该控制指令所涉及的目标界面控件执行目标控制操作，即每个控制指令能够用于触发生成该控制指令所属的目标界面控件执行目标控制操作。

进一步地，目标控制操作可以按照目标控制指令所指示的目标控制方式来实现的控制操作。

具体地，电子设备可以在查询到目标控制指令之后，按照目标控制指令所指示的目标控制方式，对生成该控制指令所属的目标界面控件进行控制操作。

作为一种具体的可实施方式，电子设备接收到用户第一控制语音后，在目标控制指令集中查询与用户第一控制语音相匹配的目标控制指令，电子设备基于查找到的目标控制指令，首选确定目标控制指令对应的动态控件，然后基于目标控制指令对动态控件执行目标控制操作。

在本公开实施例中，能够在显示目标交互界面之后，对目标交互界面对应的目标控制指令集进行生成，进而在接收到用户第一控制语音时，在目标控制指令集中查询与接收到的用户第一控制语音相匹配的目标控制指令，并执行该查询到的目标控制指令，进而实现用户对目标交互界面的语音控制，由于目标交互界面包括的动态控件上显示对应的序列编号，且生成的目标控制指令集包括根据动态控件对应的序列编号生成的控制指令，即通过使用序列编号指代动态控件，从而实现对动态控件简易化描述，进而保证动态控件对应的控制指令的简易化，能够有效提升用户使用语音操控时的便捷性，方便用户描述，节省用户时间，提升用户体验以及提升语音交互的准确率。

图3是本公开实施例提供的另一种语音控制方法的流程示意图，本公开实施例是在上述实施例的基础上，如图3所示，步骤S20的一种具体可实施方式包括：

S21、确定目标交互界面所属的目标应用。

生成目标交互界面对应的目标控制指令集包括根据目标交互界面的静态控件的界面控件数据所生成的控制指令，也包括根据动态控件对应的序列编号生成的控制指令，其中根据目标交互界面的静态控件的界面控件数据生成的控制指令为语音控制领域常规设置，本公开实施例在此不进行具体举例说明，以下将通过具体的实施例说明根据动态控件对应的序列编号生成控制指令的过程。

结合图2A，首先确定目标交互界面所属的目标应用，图2A中，目标交互界面为音乐应用程序的应用主界面，因此，图2A所示的目标交互界面所属的目标应用为音乐应用程序。

S22、提取目标应用中动态控件对应的序列编号。

当确定目标交互界面所属的目标应用后，提取目标应用中动态控件对应的序列编号，示例性的，参见图2A，音乐应用程序的应用主界面上，“每日推荐歌单”选项307的选项卡内所显示的各个歌单名称可以动态更新，因此，这些歌单名称对应的歌单链接311属于应用主界面305的动态控件，此时，提取音乐应用程序的应用主界面上各个歌单链接311对应的序列编号，各个歌单链接311对应的序列编号与歌单链接存在对应关系，一个序列编号对应一个歌单链接。

S24、根据序列编号生成控制指令。

在提取到目标应用中动态控件对应的序列编号后，基于提取的序列编号生成控制指令。

本公开实施例提供的语音控制方法，通过预先确定目标交互界面所属的目标应用，然后提取目标应用中动态控件对应的序列编号，最后根据序列编号生成控制指令，即确定的目标交互界面包括的动态控件的控制指令一方面包括动态控件所属的目标应用，另一方面包括动态控件在所属的应用中的序列编号，实现对目标交互界面的控制指令的快速生成，提升用户体验以及提升语音交互的准确率。

图4是本公开实施例提供的又一种语音控制方法的流程示意图，本公开实施例是在图3对应的实施例的基础上，如图4A和图4B所示，步骤S23之前，还包括：

S23、对提取的目标应用中动态控件对应的序列编号进行第一格式转换处理，得到与序列编号对应的第一文本数据。

结合图2A，动态控件对应的序列编号为阿拉伯数字，通过对提取的目标应用中动态控件对应的序列编号进行第一格式转化处理，将序列编号转换为第一文本数据，例如将阿拉伯数字转换为中文小写格式的文本，即阿拉伯数字1对应的中文小写格式的文本为一，阿拉伯数字2对应的中文小写格式的文本为二等。

当语音控制方法包括步骤S23时，步骤S24的一种可实现方式包括：

S241、根据序列编号对应的第一文本数据生成控制指令。

在一些实施例中，针对每个应用程序，服务器可以接收该应用程序的各个交互界面所对应的全部动态控件的控制指令和每个控制指令对应的控制方式。其中，每个动态控件的控制指令包含各动态控件对应的序列编号，该动态控件对应的序列编号为开发者从该动态控件提取的动态控件显示的序列编号，基于对各动态控件包括的序列编号进行第一格式化转换处理得到的第一文本数据生成控制指令。

当语音控制方法包括步骤S23时，步骤S24的另一种可实现方式包括：

S241'、根据预设动词和序列编号对应的第一文本数据生成控制指令。

在另一些实施例中，针对每个应用程序的每个交互界面内的每个动态控件，服务器可以从该动态控件提取动态控件显示的序列编号，然后利用预设动词与动态控件的序列编号进行组合，得到该动态控件的多个控制指令，每个控制指令中的预设动词包含有多个语义近似的动词。针对每个动态控件的每个控制指令，服务器还可以利用该控制指令中的预设动词对应的控制指令和动态控件对应的控件功能，确定该控制指令对应的控制方式。

其中，预设动词可以为“打开|开|进入|进|点|点击”，序列编号对应的第一文本数据示例性可以为“一|二|三|四”。

此时，步骤S40的一种具体可实施方式包括：

S41、将用户第一控制语音转换为语音文本数据。

用户第一控制语音为电子设备接收到的语音数据，通过将用户第一控制语音进行识别，可以将语音数据转换为语音文本数据。示例性的，用户第一控制语音为“da kai yi”，此时，电子设备接收到用户第一控制语音后，将用户第一控制语音转换为对应的语音文本数据为“打开壹”。

具体地，电子设备可以将用户第一控制语音输入离线设置的自动语音识别(Automatic Speech Recognition，ASR)引擎中，得到ASR引擎输出的语音文本数据。

在本公开实施例中，ASR引擎为离线的引擎，可以做到运行在端侧(即在电子设备内实现运行)，不依赖网络。并且，引擎的模型足够小，对算力要求较低，可以让交互界面内需要支撑的控制指令以较快的速度被响应(平均比云端识别结果要快1.2s左右，比离线通用识别结果快500ms左右)，在车辆场景下，可以带来较高的收益。

S42、对语音文本数据进行第二格式转换处理，得到与语音文本数据对应的第二文本数据。

由于转换生成的语音文本数据与控制指令集的控制指令的合适不相匹配，为保证能够在目标控制指令集中查询到用与用户第一控制语音相匹配的目标控制指令，需要对语音文本数据进行第二格式转换处理，得到与语音文本数据对应的第二文本数据，此时，转换得到的第二文本数据与序列编号对应的第一文本数据格式相同。示例性的，音文本数据为“打开壹”，对语音文本数据“打开壹”进行第二格式转换处理得到第二文本数据为“打开一”，即第二格式转换处理包括将语音文本数据包括的中文大写格式的文本例如“壹”转换为中文小写格式的文本“一”。

S43、在目标控制指令集中查询与第二文本数据相匹配的目标控制指令。

目标控制指令与第二文本数据相匹配可以为第二文本数据包含目标控制指令中的任一动词和任一控件文本分词，也可以为第二文本数据中的动词与目标控制指令中的任一动词相同且第二文本数据中的名词与目标控制指令中的任一控件文本分词的相似度大于或等于预设的相似度阈值。

作为一种可实施方式，语音控制方法还包括：

响应于用户第二控制语音或用户在目标交互界面的触发操作，动态显示目标交互界面。

用户第二控制语音示例性可以为“滑动每日推荐歌单”，“悬停每日推荐歌单”，触发操作示例性可以为用户滑动每日推荐歌单列表，或者用户在滑动过程中暂停滑动每日推荐歌单，此时，每日推荐歌单处于悬停状态，车载终端在接收到用户第二控制语音或用户在目标交互界面的触发操作后，车载终端的主界面动态显示。

具体的，动态显示包括滑动显示和悬停显示。

其中，滑动显示指的是主界面包括的动态控件沿某一个方向滑动，且在动态控件滑动的过程中，若动态控件未被滑出主界面，则该动态控件在主界面上显示，若动态控件被滑出主界面，则该动态控件在主界面不显示。

悬停显示指的是主界面包括的动态控件沿某一个方向滑动过程中，用户基于第二控制语音控制主界面停止滑动，此时主界面处于停留时的显示状态。

当滑动显示目标交互界面时，滑动到目标交互界面边界位置处的动态控件的序列编号沿目标交互界面的滑动方向渐变消失。

当车载终端接收到用户第二控制语音“向上滑动每日推荐歌单”，此时目标交互界面中每日推荐歌单包括的各个歌单链接向上滑动，且沿各个歌单链接的滑动方向，滑动到目标交互界面边界位置处的歌单链接对应的序列编号渐变消失，如图5A所述，目标交互界面的滑动方向为Y方向，当部分歌单链接对应的序列编号滑动至每日推荐歌单列表400所在区域之外时，图5A示例性表示歌单1、歌单2和歌单3对应的序列编号滑动到每日推荐歌单列表400边界位置处，位于每日推荐歌单列表400所在区域内，歌单1、歌单2和歌单3对应的序列编号正常显示，位于每日推荐歌单列表400区域之外，歌单1、歌单2和歌单3对应的序列编号不显示。

当由滑动显示转变为悬停显示目标交互界面时，滑动到目标交互界面边界位置处的动态控件的序列编号沿目标交互界面的滑动方向渐变显示。

当车载终端接收到用户第二控制语音“停止滑动每日推荐歌单”，此时目标交互界面中每日推荐歌单包括的各个歌单链接由向上滑动显示转变为悬停显示状态，且沿目标交互界面由滑动显示转变为悬停显示之前对应的各个歌单链接的滑动方向，滑动到目标交互界面边界位置处的歌单链接对应的序列编号渐变显示，如图5B所述，歌单1、歌单2和歌单3滑动到每日推荐歌单列表400的边界位置处，则歌单1、歌单2和歌单3对应的序列编号，位于每日推荐歌单列表400区域之内的序列编号显示，位于每日推荐歌单列表400区域之外的序列编号以低饱和度显示。

需要说明的，图5B示例性表示位于每日推荐歌单列表400区域之内的歌单链接对应的序列编号显示，位于每日推荐歌单列表400区域之外的歌单链接对应的序列编号以低饱和度显示，在具体的实施方式中，动态控件的序列编号渐变显示指的是沿目标交互界面的滑动方向，动态控件的序列编号对应的颜色饱和度逐渐降低。

作为一种具体的可实施方式，若存在第一动态控件的序列编号在目标交互界面的显示尺寸小于预设尺寸时，消失显示第一动态控件的序列编号，并对目标交互界面显示的除第一动态控件外的其它动态控件进行重新编号。

具体的，如图5C，当车载终端接收到用户第二控制语音“向上滑动每日推荐歌单”，此时目标交互界面中每日推荐歌单包括的各个歌单链接向上滑动，当沿各个歌单链接的滑动方向，每日推荐歌单中位于第一行的歌单链接对应的序列编号在每日推荐歌单列表400所在区域的显示尺寸小于预设尺寸时，消失显示每日推荐歌单中位于第一行的歌单链接对应的序列编号，并对目标交互界面显示的除第一行的歌单链接外的其它歌单链接进行重新编号，实现在动态显示目标交互界面的过程中，当部分动态控件滑出页面后，对目标交互界面显示的动态控件进行重新编号，进而保证动态控件对应的控制指令的简易化，能够有效提升用户使用语音操控时的便捷性，方便用户描述。

作为一种具体的可实施方式，每日推荐歌单中歌单链接对应的序列编号在每日推荐歌单列表400所在区域的显示尺寸小于该歌单链接对应的序列编号的二分之一时，消失显示每日推荐歌单中该歌单链接对应的序列编号。

上述实施例中，示例性表示目标交互界面可以包括电子设备开机后或者处于待机状态时所显示的主界面。

其中，当电子设备开机后或者处于待机状态时，在检测到语音模块处于激活状态时，显示目标交互界面。

图6示出了本公开实施例提供的一种语音控制装置的结构示意图。

在本公开一些实施例中，图6所示的装置可以应用于电子设备中。其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、智能家居设备等具有语音控制功能的设备。

如图6所示，该语音控制装置600可以包括界面显示模块610、指令生成模块620、指令匹配模块630和指令执行模块640。

该界面显示模块610可以配置为显示目标交互界面，其中，目标交互界面包括至少一个可交互的动态控件以及动态控件对应的序列编号。

该指令生成模块620，可以配置为生成目标交互界面对应的目标控制指令集，目标控制指令集包括根据动态控件对应的序列编号生成的控制指令。

该引导信息显示模块630，可以配置为基于目标控制指令集在目标交互界面显示引导信息，引导信息用于引导用户可基于序列编号语音控制目标交互界面的动态控件；

该指令匹配模块640，可以配置为响应于用户第一控制语音，在目标控制指令集中查询与用户第一控制语音相匹配的目标控制指令。

该指令执行模块650，可以配置为根据目标控制指令，执行目标控制指令对应的目标控制操作。

在本公开一些实施例中，指令生成模块包括：

目标应用确定模块，用于确定目标交互界面所属的目标应用；

序列编号提取模块，用于提取目标应用中动态控件对应的序列编号；

控制指令生成模块，用于根据序列编号生成控制指令。

在本公开一些实施例中，指令生成模块还包括：

第一格式转换模块，用于对提取的目标应用中动态控件对应的序列编号进行第一格式转换处理，得到与序列编号对应的第一文本数据，其中，第一格式转换处理为将阿拉伯数字格式的序列编号转换为中文小写格式的第一文本数据。

在本公开一些实施例中，控制指令生成模块的一种可实现方式包括：

根据序列编号对应的第一文本数据生成控制指令；或，

根据预设动词和序列编号对应的第一文本数据生成控制指令。

在本公开一些实施例中，指令匹配模块的一种可实现方式包括：

将用户第一控制语音转换为语音文本数据；

对语音文本数据进行第二格式转换处理，得到与语音文本数据对应的第二文本数据，其中，第二格式转换处理包括将语音文本数据包括的中文大写格式的文本转换为中文小写格式的文本；

在目标控制指令集中查询与第二文本数据相匹配的目标控制指令。

在本公开一些实施例中，指令执行模块的一种可实现方式包括：

根据目标控制指令，确定目标控制指令对应的动态控件；

对目标控制指令对应的动态控件执行目标控制操作。

在本公开一些实施例中，还包括：

响应于用户第二控制语音或用户在目标交互界面的触发操作，动态显示目标交互界面，其中，所述动态显示包括滑动显示和悬停显示。

在本公开一些实施例中，还包括：

当滑动显示目标交互界面时，滑动到目标交互界面边界位置处的动态控件的序列编号沿目标交互界面的滑动方向渐变消失；

在本公开一些实施例中，还包括：

若存在第一动态控件的序列编号在目标交互界面的显示尺寸小于预设尺寸时，消失显示第一动态控件的序列编号，并对目标交互界面显示的除第一动态控件外的其它动态控件进行重新编号。

在本公开一些实施例中，还包括：

在检测到语音模块处于激活状态时，显示目标交互界面。

本发明实施例所提供的装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本公开还提供一种电子设备，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现上述方法实施例的步骤。

图7为本公开提供的一种电子设备的结构示意图，图7示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图7显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：一个或者多个处理器710，系统存储器720，连接不同系统组件(包括系统存储器720和处理器)的总线730。

总线730表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备700典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备700访问的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器720可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)640和/或高速缓存存储器750。电子设备700可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统760可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线730相连。系统存储器720可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块770的程序/实用工具780，可以存储在例如系统存储器720中，这样的程序模块770包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块770通常执行本发明实施例所描述的实施例中的功能和/或方法。

处理器710通过运行存储在系统存储器720中的多个程序中的至少一个程序，从而执行各种功能应用以及信息处理，例如实现本发明实施例所提供的方法实施例。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的步骤。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本公开还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行实现上述方法实施例的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述生成所述目标交互界面对应的目标控制指令集，包括：

确定所述目标交互界面所属的目标应用；

提取所述目标应用中动态控件对应的序列编号；

根据所述序列编号生成控制指令。

3.根据权利要求2所述的方法，其特征在于，所述根据所述序列编号生成控制指令之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述序列编号生成控制指令，包括：

根据所述序列编号对应的第一文本数据生成控制指令；或，

5.根据权利要求1所述的方法，其特征在于，所述在所述目标控制指令集中查询与所述用户第一控制语音相匹配的目标控制指令，包括：

将所述用户第一控制语音转换为语音文本数据；

6.根据权利要求1所述的方法，其特征在于，所述显示目标交互界面，包括：

7.根据权利要求6所述的方法，其特征在于，所述动态显示所述目标交互界面，包括：

8.根据权利要求6所述的方法，其特征在于，还包括：

9.根据权利要求1所述的方法，其特征在于，所述显示目标交互界面，包括：

在检测到语音模块处于激活状态时，显示目标交互界面。

10.一种语音控制装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～9中任一所述的方法。

12.一种车辆，其特征在于，包括权利要求11所述的电子设备。

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现上述权利要求1-9中任一项所述的语音控制方法。