CN107424609A

CN107424609A - 一种语音控制方法及装置

Info

Publication number: CN107424609A
Application number: CN201710638353.8A
Authority: CN
Inventors: 龚杰
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-01

Abstract

本发明公开了一种语音控制方法及装置。方法包括：接收针对目标应用输入的语音；根据预先获得的至少一个应用的预设命令集，判断语音的属性是否为语音命令；当语音的属性为语音命令时，根据语音对应的目标语音命令对目标应用进行控制。通过本发明的技术方案，可实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率，以更好地使用语音对执行主体上的第三方应用进行控制，从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题，这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能，有利于提高上述语音输入法的通用性。

Description

一种语音控制方法及装置

技术领域

本发明涉及语音技术领域，特别涉及一种语音控制方法及装置。

背景技术

目前，为了方便对应用进行控制等操作，用户常常会选择通过语音完成对该应用的控制等操作，但在使用语音操作的过程中，常常会出现由于用于识别语音的语音输入法无法解析或者较为准确地解析出针对上述应用的语音控制命令等原因而无法与上述应用兼容的问题，从而导致无法很好地利用语音控制上述应用(其中，上述应用相对应该语音输入法往往是第三方应用)，而相关技术中却没有相应的解决方案。

发明内容

本发明提供一种语音控制方法及装置，用以在接收到针对目标应用输入的语音时，通过利用预先获得的至少一个应用的预设命令集，可准确地判断语音的属性是否为语音命令，进而当语音的属性为语音命令时，可根据语音对应的目标语音命令对目标应用进行自动控制，从而实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率，以更好地使用语音对执行主体上的第三方应用进行控制，从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题，这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能，有利于提高上述语音输入法的通用性。

本发明提供一种语音控制方法，包括：

接收针对所述目标应用输入的语音；

根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令；

当所述语音的属性为语音命令时，根据所述语音对应的目标语音命令对所述目标应用进行控制，其中，所述至少一个应用至少包括所述目标应用。

在一个实施例中，在根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令之前，所述方法还包括：

获取所述至少一个应用的命令配置文件；

对所述命令配置文件进行解析，获得所述至少一个应用的预设命令集。

在一个实施例中，所述至少一个应用的预设命令集包括：

所述至少一个应用中各应用的命令配置文件对应的总命令集，或者

所述至少一个应用中各应用的各页面的命令配置文件对应的命令集。

在一个实施例中，所述根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令，包括：

当所述预设命令集包括所述至少一个应用中各应用的各页面的命令配置文件对应的命令集时，获取所述目标应用发送的接收所述语音时其当前运行页面的标识；

根据所述目标应用的各页面的命令配置文件对应的命令集和所述当前运行页面的标识，确定所述当前运行页面对应的命令集；

判断所述语音对应的识别结果与所述当前运行页面对应的命令集是否匹配；

当所述语音对应的识别结果与所述当前运行页面对应的命令集中的若干条命令相匹配时，确定所述语音的属性为语音命令，且所述目标语音命令为所述若干条命令。

在一个实施例中，所述当所述语音的属性为语音命令时，根据所述语音对应的目标语音命令对所述目标应用进行控制，包括：

当所述语音的属性为所述语音命令时，将所述目标语音命令发送至所述目标应用，以使所述目标应用执行所述目标语音命令；或者

当所述语音的属性为所述语音命令时，识别接收所述语音时所述目标应用的当前运行页面，获得所述当前运行页面的页面识别结果；

根据所述页面识别结果在所述目标应用中执行所述目标语音命令。

本发明还提供一种语音控制装置，包括：

接收模块，用于接收针对所述目标应用输入的语音；

判断模块，用于根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令；

控制模块，用于当所述语音的属性为语音命令时，根据所述语音对应的目标语音命令对所述目标应用进行控制，其中，所述至少一个应用至少包括所述目标应用。

在一个实施例中，所述装置还包括：

获取模块，用于在根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令之前，获取所述至少一个应用的命令配置文件；

解析模块，用于对所述命令配置文件进行解析，获得所述至少一个应用的预设命令集。

在一个实施例中，所述至少一个应用的预设命令集包括：

在一个实施例中，所述判断模块包括：

获取子模块，用于当所述预设命令集包括所述至少一个应用中各应用的各页面的命令配置文件对应的命令集时，获取所述目标应用发送的接收所述语音时其当前运行页面的标识；

第一确定子模块，用于根据所述目标应用的各页面的命令配置文件对应的命令集和所述当前运行页面的标识，确定所述当前运行页面对应的命令集；

判断子模块，用于判断所述语音对应的识别结果与所述当前运行页面对应的命令集是否匹配；

第二确定子模块，用于当所述语音对应的识别结果与所述当前运行页面对应的命令集中的若干条命令相匹配时，确定所述语音的属性为语音命令，且所述目标语音命令为所述若干条命令。

在一个实施例中，所述控制模块包括：

发送子模块，用于当所述语音的属性为所述语音命令时，将所述目标语音命令发送至所述目标应用，以使所述目标应用执行所述目标语音命令；或者

识别子模块，用于当所述语音的属性为所述语音命令时，识别接收所述语音时所述目标应用的当前运行页面，获得所述当前运行页面的页面识别结果；

执行子模块，用于根据所述页面识别结果在所述目标应用中执行所述目标语音命令。

本公开的实施例提供的技术方案可以包括以下有益效果：

由于设置至少一个应用的预设命令集后，有利于该语音输入法更好地识别针对该目标应用的语音命令，因而，在接收到针对目标应用输入的语音时，通过利用预先获得的至少一个应用的预设命令集，可准确地判断语音的属性是否为语音命令，进而当语音的属性为语音命令时，可根据语音对应的目标语音命令对目标应用进行自动控制，从而实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率，以更好地使用语音对执行主体上的第三方应用进行控制，从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题，这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能，有利于提高上述语音输入法的通用性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据一示例性实施例示出的一种语音控制方法的流程图。

图2是根据一示例性实施例示出的另一种语音控制方法的流程图。

图3是根据一示例性实施例示出的又一种语音控制方法的流程图。

图4是根据一示例性实施例示出的一种语音控制装置的框图。

图5是根据一示例性实施例示出的另一种语音控制装置的框图。

图6是根据一示例性实施例示出的又一种语音控制装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

为了解决上述技术问题，本公开实施例提供了一种语音控制方法，该方法适用于语音控制程序、系统或装置中，其执行主体可以是手机、计算机等安装有语音输入法的终端，其中，该语音输入法可对语音进行识别和转换，如图1所示，步骤S101至步骤S103，其中：

在步骤S101中，接收针对目标应用输入的语音；

在步骤S102中，根据预先获得的至少一个应用的预设命令集，判断语音的属性是否为语音命令；

上述至少一个应用与上述语音输入法是不同商家提供的应用，因而，上述至少一个应用相对于上述语音输入法而言属于第三方应用，其中，上述语音输入法可以是云知声、讯飞语音输入法等。

在步骤S103中，当语音的属性为语音命令时，根据语音对应的目标语音命令对目标应用进行控制，其中，至少一个应用至少包括目标应用。

另外，语音的属性除了为语音命令之外，还有可能为普通的需向目标应用中输入的语音信息，而当该语音的属性为需向目标应用中输入的语音信息时，可识别该语音信息获得该语音信息的识别结果(即文字、数字等字符)，进而将该识别结果输入至该目标应用中光标所在的输入框中。

另外，由于预先获得了至少一个应用的预设命令集，因而，对于同一语音将其识别为语音命令的优先级高于需向目标应用中输入的语音信息，如当该语音为“kaishi”时，语音输入法会将其优先识别为“开始”命令而非需向目标应用中输入的“开始”二字，以避免遗漏针对该目标应用的语音命令，当然，至于最后是否确实为语音命令，语音输入法会结合前后语音的语义进行再次确认，以尽可能避免误识别。

如图2所示，在一个实施例中，在根据预先获得的至少一个应用的预设命令集，判断语音的属性是否为语音命令之前，方法还包括：

在步骤S201中，获取至少一个应用的命令配置文件；

在步骤S202中，对命令配置文件进行解析，获得至少一个应用的预设命令集。

在判断语音的属性是否为语音命令之前，需要获取至少一个应用的命令配置文件，进而对命令配置文件进行解析，分析出相应的命令的具体语句，以获得上述至少一个应用的预设命令集；

另外，在对命令配置文件进行解析时，可通过相关的命令解析模型(如使用命令配置文件预先训练的卷积神经网络模型，Convolutional Neural Network，简称CNN)进行解析，进而利用获得的预设命令集对该解析模型再次进行不断训练，以便之后对新的命令配置文件进行更为准确的解析；或者

在对命令配置文件进行解析时，还可以分别建立与至少一个应用中各应用分别对应的命令解析模型，进而再不断进行训练。

在一个实施例中，至少一个应用的预设命令集包括：

至少一个应用中各应用的命令配置文件对应的总命令集，或者

至少一个应用中各应用的各页面的命令配置文件对应的命令集。

至少一个应用中各应用的命令配置文件对应的总命令集即该应用的所有命令配置文件对应的命令集，而各应用的命令配置文件可以包括各应用中所有页面的通用命令配置文件和各应用中每个页面的特有命令配置文件，相应地，各应用对应的总命令集可以包括各应用中所有页面的通用命令和各应用中不同页面的特有命令，当然，也可以对上述各应用的命令配置文件对应的总命令集进行分类，如按照命令所针对的页面，将各应用中不同页面的命令集进行分类。

如图3所示，在一个实施例中，根据预先获得的至少一个应用的预设命令集，判断语音的属性是否为语音命令，包括：

在步骤S301中，当预设命令集包括至少一个应用中各应用的各页面的命令配置文件对应的命令集时，获取目标应用发送的接收语音时其当前运行页面的标识；

在步骤S302中，根据目标应用的各页面的命令配置文件对应的命令集和当前运行页面的标识，确定当前运行页面对应的命令集；

当前运行页面的标识可以是当前运行页面的名称、编号等唯一标识。

在步骤S303中，判断语音对应的识别结果与当前运行页面对应的命令集是否匹配；

在步骤S304中，当语音对应的识别结果与当前运行页面对应的命令集中的若干条命令相匹配时，确定语音的属性为语音命令，且目标语音命令为若干条命令。

当预设命令集包括上述各应用的各页面的命令配置文件对应的命令集时，通过获取目标应用发送的接收语音时其当前运行页面的标识，进而根据目标应用的各页面的命令配置文件对应的命令集和当前运行页面的标识，确定当前运行页面对应的命令集，可判断语音对应的识别结果与当前运行页面对应的命令集是否匹配，进而当语音对应的识别结果与当前运行页面对应的命令集中的若干条命令相匹配时，可准确确定语音的属性为语音命令，且目标语音命令为若干条命令，以便于利用该若干条命令对目标应用进行控制。

在一个实施例中，当语音的属性为语音命令时，根据语音对应的目标语音命令对目标应用进行控制，包括：

当语音的属性为语音命令时，将目标语音命令发送至目标应用，以使目标应用执行目标语音命令；或者

当语音的属性为语音命令时，识别接收语音时目标应用的当前运行页面，获得当前运行页面的页面识别结果；

根据页面识别结果在目标应用中执行目标语音命令。

当语音的属性为语音命令时，上述语音输入法可将目标语音命令发送至目标应用，以使目标应用解析该目标语音命令(即获得该目标语音命令对应的具体语句)后自动执行目标语音命令；

另外，由于预设命令集中的各通用命令往往分别包括多个子命令、分别对应不同的重复性操作(如登录命令中可能包括点击登录按钮命令、输入用户名命令、输入密码命令等多个子命令)，因而，当接收到的语音对应的目标语音命令为某个通用命令一个子命令时，语音输入法可直接将该通用命令中的其他子命令一起返回至目标应用以使目标应用解析该通用命令后快速完成相关操作；或者语音输入法也可以在接收到第三方应用发送的“请求发送该通用命令的其他子命令”的指示后再向第三方应用返回该通用命令中的其他子命令，以节省语音输入。

或者

当语音的属性为语音命令时，上述语音输入法可识别接收语音时目标应用的当前运行页面，如对该当前运行页面进行文字、图片识别等，以获得当前运行页面的页面识别结果，然后根据页面识别结果在目标应用中执行目标语音命令，例如：当目标语音命令为“点击插入”命令时，语音输入法可对当前运行页面进行文字、图像识别等，以定位当前运行页面上“插入”二字所在的位置，然后模拟鼠标点击“插入”控件，即可自动执行完“点击插入”命令。

最后，下面将举例说明本发明中的命令配置文件和对第三方应用的具体控制步骤：

其中，执行主体上安装的某个可通过语音控制的第三方应用的命令配置文件可以如下：

生成上述第三方应用的预设命令集和“当语音的属性为语音命令时，将目标语音命令发送至该第三方应用，以使该第三方应用执行目标控制命令”的步骤如下：

语音输入法接收到上述第三方应用的配置文件以后，解析配置文件的内容，生成该第三方应用中每个页面的命令集合，包括命令的名称以及命令对应具体语句(该语句可以包括需向该目标应用返回的内容)；

将命令集合进行语音识别优化；

第三方应用运行时，通知语音输入法当前的页面id(identification，即该页面的标识)，进而语音输入法将输入的语音对应的识别结果与该id的页面对应的命令集进行匹配，返回与该语音对应的命令，例如：第三方应用处于编辑页面时，通知语音输入法页面id为1001，此时如果语音对应的命令为“字体设置为宋体”，则语音输入法会向该第三方应用返回命令:{“name”:”font”,“value”:”songti”}；

第三方应用解析返回值，执行该命令。

当然，对于上述第三方应用的通用命令集(通用命令集为预设的该第三方应用的固定命令集合，如登陆模块”的命令集等)其对第三方应用的控制与上述步骤相同：

当第三方应用正在运行对应的通用模块时，通知语音输入法，则语音输入法识别输入的语音后向该第三方应用返回对应的预设命令。

如图4所示，本发明还提供一种语音控制装置，包括：

接收模块401，用于接收针对目标应用输入的语音；

判断模块402，用于根据预先获得的至少一个应用的预设命令集，判断语音的属性是否为语音命令；

控制模块403，用于当语音的属性为语音命令时，根据语音对应的目标语音命令对目标应用进行控制，其中，至少一个应用至少包括目标应用。

如图5所示，在一个实施例中，装置还包括：

获取模块501，用于在根据预先获得的至少一个应用的预设命令集，判断语音的属性是否为语音命令之前，获取至少一个应用的命令配置文件；

解析模块502，用于对命令配置文件进行解析，获得至少一个应用的预设命令集。

在一个实施例中，至少一个应用的预设命令集包括：

如图6所示，在一个实施例中，判断模块402可以包括：

获取子模块4021，用于当预设命令集包括至少一个应用中各应用的各页面的命令配置文件对应的命令集时，获取目标应用发送的接收语音时其当前运行页面的标识；

第一确定子模块4022，用于根据目标应用的各页面的命令配置文件对应的命令集和当前运行页面的标识，确定当前运行页面对应的命令集；

判断子模块4023，用于判断语音对应的识别结果与当前运行页面对应的命令集是否匹配；

第二确定子模块4024，用于当语音对应的识别结果与当前运行页面对应的命令集中的若干条命令相匹配时，确定语音的属性为语音命令，且目标语音命令为若干条命令。

在一个实施例中，控制模块包括：

发送子模块，用于当语音的属性为语音命令时，将目标语音命令发送至目标应用，以使目标应用执行目标语音命令；或者

识别子模块，用于当语音的属性为语音命令时，识别接收语音时目标应用的当前运行页面，获得当前运行页面的页面识别结果；

执行子模块，用于根据页面识别结果在目标应用中执行目标语音命令。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

最后，本发明中的语音控制装置适用于终端设备。例如，可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音控制方法，用于安装在终端上的语音输入法，且所述终端上还安装有目标应用，其特征在于，包括：

接收针对所述目标应用输入的语音；

2.根据权利要求1所述的方法，其特征在于，在根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令之前，所述方法还包括：

获取所述至少一个应用的命令配置文件；

3.根据权利要求2所述的方法，其特征在于，

所述至少一个应用的预设命令集包括：

4.根据权利要求3所述的方法，其特征在于，

所述根据预先获得的至少一个应用的预设命令集，判断所述语音的属性是否为语音命令，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，

所述当所述语音的属性为语音命令时，根据所述语音对应的目标语音命令对所述目标应用进行控制，包括：

6.一种语音控制装置，用于安装在终端上的语音输入法，且所述终端上还安装有目标应用，其特征在于，包括：

接收模块，用于接收针对所述目标应用输入的语音；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，

所述至少一个应用的预设命令集包括：

9.根据权利要求8所述的装置，其特征在于，

所述判断模块包括：

10.根据权利要求6至9中任一项所述的装置，其特征在于，

所述控制模块包括：