CN111048078A

CN111048078A - 语音复合指令处理方法和系统及语音处理设备和介质

Info

Publication number: CN111048078A
Application number: CN201811199029.1A
Authority: CN
Inventors: 郑志辉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2020-04-21

Abstract

本发明公开了语音复合指令处理方法和系统及语音处理设备和介质。一种语音复合指令处理方法，包括：接收语音输入；对接收的语音输入进行语音识别以转换成文字；对所述语音识别的结果进行解析，以得到作为多个原子指令的组合的意图，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；以及根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中的各个原子指令，其中，所述原子指令是不能再分割的指令。在本发明中，通过能够动态地组合任意的语音原子指令功能，使得本发明的语音指令处理方法和系统以及语音处理设备能够支持更多更复杂的语音控制功能。

Description

语音复合指令处理方法和系统及语音处理设备和介质

技术领域

本发明涉及语音控制，尤其涉及语音复合指令处理方法和系统及语音处理设备和介质。

背景技术

随着语音识别技术的发展，语音控制的功能也开始应用得越来越广泛，比如通过语音控制打开某个app，控制app中的某些功能，从而为用户提供便利，节省了用户的手动操作。

但是，目前的语音控制技术虽然支持语音操作的某些特定功能，但是支持的功能既少又简单，不能一次完成多个指令。

发明内容

为了解决以上问题之一，本发明提供了语音复合指令处理方法和系统及语音处理设备和介质。

本提案提供一些原子的指令功能接口，替代传统手动操作，并在此基础上提供可编程的接口完成一系列指令的组合，以完成一项复杂的功能，例如，在浏览器中通过指令控制夜间模式和白天模式的切换、通过打开书签并且删除书签这样的复合指令完成对书签的管理等。

本发明提供一种语音复合指令处理方法，包括：接收语音输入；对接收的语音输入进行语音识别以转换成文字；对所述语音识别的结果进行解析，以得到作为多个原子指令的组合的意图，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；以及根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中的各个原子指令，其中，所述原子指令是不能再分割的指令。

本发明提供一种语音复合指令处理系统，包括：语音接收模块，被配置为接收用户的语音输入，然后将接收的语音输入发送到语音识别模块；语音识别模块，被配置为对接收的来自语音接收模块的语音输入进行语音识别，从而将其转换成文字；指令解析模块，被配置为对语音识别的结果进行解析，以得到作为多个原子指令的组合的意图，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；执行模块，被配置为根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中各个原子指令，其中，所述原子指令是不能再分割的指令。

本发明提供一种语音复合指令处理系统，包括：客户端，被配置为接收用户的语音输入，然后将接收的语音输入发送到语音服务端；语音服务端，被配置为对接收到的语音输入进行语音识别，将其转换成文字；指令服务端，被配置为对语音识别结果进行解析，以得到作为多个原子指令的组合的意图，其中，指令服务端或客户端根据得到的意图从脚本数据库得到该意图所对应的包含指令调用的脚本，客户端根据得到的脚本的类型来启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中各个原子指令，其中，所述原子指令是不能再分割的指令。

可选地，客户端包括原子指令接口，用来提供原子的不可再分的功能接口调用。

可选地，通过协议解析来将用户意图转换为指令调用。

本发明提供一种语音复合指令处理方法，包括：在客户端接收用户的语音输入，然后将接收的语音输入发送给语音服务端；在语音服务端对从客户端发来的语音输入进行语音识别，将其转换成文字；在指令服务端对语音识别结果进行解析，以得到作为多个原子指令的组合的意图；在指令服务端和客户端之一，根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；以及在客户端根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中的各原子指令。

可选地，从语音服务端将作为语音识别结果的文字直接发送给指令服务端，或者从语音服务端将作为语音识别结果的文字发送给客户端，再由客户端发送给指令服务端。

可选地，所述脚本数据库保存在服务端上或者保存在客户端上，或者保存在一个公共区域由服务端或客户端共享。

本发明提供一种语音处理设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上述的方法之一。

本发明提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被语音处理设备的处理器执行时，使所述处理器执行上述的方法之一。

在本发明中，通过能够动态地组合任意的语音原子指令功能，使得本发明的语音指令处理方法和系统以及语音处理设备能够支持更多更复杂的语音控制功能。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的附图标记通常代表相同部件。

图1给出了根据本发明的一个示例性实施例的语音复合指令处理方法的示意性流程图。

图2给出了根据本发明的一个示例性实施例的语音复合指令处理系统的示意性框图。

图3给出了根据本发明的另一个示例性实施例的语音复合指令处理系统的示意性框图。

图4给出了根据本发明的另一个示例性实施例的语音复合指令处理方法的示意性流程图。

图5给出了根据本发明的一个示例性实施例的语音处理设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是，本申请中的数字、序号以及附图标记仅是为了方便描述而出现的，对于本发明的步骤、顺序等等均不构成任何限制，除非在说明书中明确指出了步骤的执行有特定的先后顺序。

在详细介绍本发明的技术方案之前，先对相关技术术语进行解释。

语音识别：将语音数据转换成文字。

原子的指令：最小单位的指令，只完成一项功能，该功能不能再分割。

意图：用户需要执行的功能，包含一个或多个原子指令，可以认为是一个或多个原子指令的组合，也可称之为“复合指令”。

这里，根据本发明的一个示例性实施例，提供一种语音复合指令处理方法，如图1所示。

其中，在步骤S101，接收用户的语音输入(其中包含一个或多个语音指令，即“语音复合指令”)。

在步骤S102，对接收的语音输入数据进行语音识别，以将其转换成文字。

在步骤S103，对前述语音识别的结果(从语音转换成的文字)进行解析，以得到意图(即，一个或多个指令的组合)，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本(执行程序)。

在步骤S104，根据得到的脚本的类型(例如，js，python，lua等)，启动对应的脚本执行引擎，从而执行前述的用户的语音输入中给出的语音指令中各个原子指令(这里，“原子指令”为不能再分割的指令)的组合(即“意图”)。

这里，上述的脚本执行引擎(本文也可称为“指令执行引擎”)用来执行脚本(也即执行指令)，它可以是内嵌的脚本解释器，比如javascript引擎V8、Python/Lua等脚本解释器。

由此，通过在本发明中提供原子指令的功能，代替之前的手动操作，并且在此基础上提供可编程功能，使用者可以动态地组合任意的原子指令功能，完成自己想做的操作，灵活性更好，并且在本发明中，通过脚本语言进行编程组合原子指令，从而使得不用更新就可以支持新的功能组合。

图2示出了根据本发明的一个示例性实施例的语音指令系统的框图。

如图2所示，根据本发明的示例性实施例的语音复合指令处理系统100包括语音接收模块101、语音识别模块102、指令解析模块103以及执行模块104。

这里，根据本发明的一个示例性实施例，语音接收模块101被配置为接收用户的语音输入(其中包含一个或多个语音指令，即“语音复合指令”)，然后将接收的语音数据发送到语音识别模块102。

根据本发明的一个示例性实施例，语音识别模块102被配置为接收来自语音接收模块的语音数据，然后解码该语音数据以进行识别，从而将其转换成文字，并将识别结果发送给指令解析模块103。

可选地，语音识别模块102也可以将语音识别结果发送给语音接收模块101，再由语音接收模块102将语音识别结果发送给指令解析模块103。

根据本发明的一个示例性实施例，指令解析模块103被配置为对接收的前述语音识别结果进行解析，以得到意图(即，一个或多个指令的组合)，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本，然后将得到的对应的脚本返回给执行模块104。

根据本发明的一个示例性实施例，执行模块104根据从指令解析模块103返回的脚本的类型(例如，js，python，lua等)，启动对应的脚本执行引擎，从而执行前述的用户的语音输入中给出的语音指令中各个原子指令的组合(即“意图”)。

另外，本发明还可提供作为另一示例性实施例的语音复合处理系统200，如图3所示。

如图3所示，根据本发明的一个示例性实施例的语音复合指令处理系统200包括客户端201、语音服务端202和指令服务端203。

这里，根据本发明的一个示例性实施例，客户端201被配置为接收用户的语音输入(其中包含一个或多个语音指令，即“语音复合指令”)，然后将接收的语音输入数据发送到语音服务端202。

这里，可选地，客户端201可以包括原子指令接口，用来提供原子的不可再分的功能接口调用。

可选地，客户端201包括浏览器。

根据本发明的一个示例性实施例，语音服务端202被配置为解码所接收到的前述语音输入数据以进行识别，从而将其转换成文字，并将识别结果发送给指令服务端203，如图3所示。

另外，可选地，语音服务端202也可以将语音识别结果发送给客户端201，再由客户端201将语音识别结果发送给指令服务端203。

根据本发明的一个示例性实施例，指令服务端203被配置为对接收的前述语音识别结果进行解析，以得到意图(即，一个或多个指令的组合)，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本，然后将得到的对应的脚本返回给客户端201。

这里，可以通过例如协议解析来将用户意图转换为指令调用，例如将客户端之间的通信协议解析为对应的客户端的函数调用(指令函数)，从而能够知道具体需要执行的脚本。

根据本发明的一个示例性实施例，客户端201根据从指令服务端203返回的脚本的类型(例如，js，python，lua等)，启动对应的脚本执行引擎，从而执行前述的用户的语音输入中给出的语音指令中各个原子指令的组合(即“意图”)。

这里，使用者(例如程序开发人员)可以编写脚本，并在脚本中调用客户端提供的原子指令接口。编写脚本之后可以动态下发脚本，并可以在客户端本地保存脚本，从而不需要升级客户端，就可以在客户端使用最新的语音复合指令功能。

由此，通过在本发明中为客户端提供原子指令的功能，代替之前的手动操作，并且在此基础上提供可编程功能，使用者可以动态地组合任意的原子指令功能，完成自己想做的操作，灵活性更好，并且在本发明中，通过脚本语言进行编程组合原子指令，从而使得不用更新客户端就可以支持新的功能组合。

进一步地，根据本发明的一个示例性实施例，还提供一种语音复合指令处理方法，如图4所示。

其中，在步骤S401，在客户端接收用户的语音输入(其中包含一个或多个语音指令，即“语音复合指令”)，然后将接收的语音输入发送给语音服务端。

在步骤S402，在语音服务端对从客户端发来的语音输入数据进行语音识别，以将其转换成文字，并发送语音识别结果。

这里，可以将作为语音识别结果的转换成的文字从语音服务端直接发送给指令服务端，也可以将作为语音识别结果的转换成的文字从语音服务端发送给客户端，再由客户端发送给指令服务端。本发明对此不作任何限制。

在步骤S403，在指令服务端对前述语音识别结果(从语音转换成的文字)进行解析，以得到意图(即，一个或多个指令的组合)。

在步骤S404，由指令服务端或客户端根据步骤S403得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本(该脚本中有一系列的原子指令)。

这里，如果是指令服务端从脚本数据库得到与该意图对应的脚本，则可能需要其将该脚本下发给客户端。而如果是需要客户端自己从脚本数据库得到与该意图对应的脚本，则需要指令服务端先将该意图传送给客户端。

请注意，脚本数据库可以保存在指令服务端上或者保存在客户端上，也可以在客户端和指令服务端两者上都保存。此时，两者处的脚本数据库应该保持一致。

或者，脚本数据库可以保存在一个公共存储器，由指令服务端和客户端共享。

另外，脚本数据库的维护和更新可以由程序开发人员、用户人为地进行，或者由框架自动进行，本发明对此不作任何限制。

这里，可以通过例如协议解析来将用户意图转换为指令调用，例如将客户端之间的通信协议的内容解析为对应的客户端的函数调用(指令函数)，从而能够知道具体需要执行的脚本。

在步骤S405，在客户端根据得到的脚本的类型(例如，js，python，lua等)，启动对应的脚本执行引擎，从而执行前述的用户的语音输入中给出的语音指令中各个原子指令(这里，“原子指令”为不能再分割的指令)的组合(即“意图”)。

另外，对于脚本的管理，客户端可以本地保存之前获取到的脚本，定期或者不定期更新(比如每次启动客户端时)来替换本地旧版本。

另一方面，需要系统对脚本的版本进行管理，以管理不同版本的脚本，从而兼容不同版本的客户端。

以下将给出一个具体的示例来对比现有技术与本发明。

例如，在现有技术中，针对单个语音指令例如“打开书签”。

------------------------------------

意图(单个原子指令)：打开书签

指令(对应脚本)：excute_instruction_a()

------------------------------------

在根据本发明的一个示例性实施例中，针对含有语音复合指令例如“打开书签，找到某条记录，并且删除”的语音输入。

------------------------------------

意图(多个原子指令的组合)：打开书签，找到某条记录，并且删除

指令(对应以下脚本)：

通过上面的示例可以看出，通过在本发明中为客户端提供原子指令的功能，代替之前的手动操作，并且在此基础上提供可编程功能，使用者可以动态地组合任意的原子指令功能，完成自己想做的操作，灵活性更好，并且在本发明中，通过脚本语言进行编程组合原子指令，从而使得不用更新客户端就可以支持新的功能组合。

图5示出了根据本发明的一种实施方式的语音处理设备的结构示意图。

参见图5，语音处理设备1包括存储器10和处理器20。

处理器20可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器20可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器10可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器10可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器10上存储有可处理代码，当可处理代码被处理器20处理时，可以使处理器20执行上文述及的方法。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图等等显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音复合指令处理方法，其特征在于，包括：

接收语音输入；

对接收的语音输入进行语音识别以转换成文字；

对所述语音识别的结果进行解析，以得到作为多个原子指令的组合的意图，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；以及

根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中的各个原子指令，

其中，所述原子指令是不能再分割的指令。

2.一种语音复合指令处理系统，其特征在于，包括：

语音接收模块，被配置为接收用户的语音输入，然后将接收的语音输入发送到语音识别模块；

语音识别模块，被配置为对接收的来自语音接收模块的语音输入进行语音识别，从而将其转换成文字；

指令解析模块，被配置为对语音识别的结果进行解析，以得到作为多个原子指令的组合的意图，并根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；

执行模块，被配置为根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中各个原子指令，

其中，所述原子指令是不能再分割的指令。

3.一种语音复合指令处理系统，其特征在于，包括：

客户端，被配置为接收用户的语音输入，然后将接收的语音输入发送到语音服务端；

语音服务端，被配置为对接收到的语音输入进行语音识别，将其转换成文字；

指令服务端，被配置为对语音识别结果进行解析，以得到作为多个原子指令的组合的意图，

其中，指令服务端或客户端根据得到的意图从脚本数据库得到该意图所对应的包含指令调用的脚本，客户端根据得到的脚本的类型来启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中各个原子指令，

其中，所述原子指令是不能再分割的指令。

4.根据权利要求3所述的语音复合指令处理系统，其特征在于，客户端包括原子指令接口，用来提供原子的不可再分的功能接口调用。

5.根据权利要求3所述的语音复合指令处理系统，其特征在于，通过协议解析来将用户意图转换为指令调用。

6.一种语音复合指令处理方法，其特征在于，包括：

在客户端接收用户的语音输入，然后将接收的语音输入发送给语音服务端；

在语音服务端对从客户端发来的语音输入进行语音识别，将其转换成文字；

在指令服务端对语音识别结果进行解析，以得到作为多个原子指令的组合的意图；

在指令服务端和客户端之一，根据得到的意图来从脚本数据库得到该意图所对应的包含指令调用的脚本；以及

在客户端根据得到的脚本的类型，启动对应的脚本执行引擎，从而执行所述语音输入中给出的语音指令中的各原子指令。

7.根据权利要求6所述的语音复合指令处理方法，其特征在于，从语音服务端将作为语音识别结果的文字直接发送给指令服务端，或者从语音服务端将作为语音识别结果的文字发送给客户端，再由客户端发送给指令服务端。

8.根据权利要求6所述的语音复合指令处理方法，其特征在于，所述脚本数据库保存在服务端上或者保存在客户端上，或者保存在一个公共区域由服务端或客户端共享。

9.一种语音处理设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1以及权利要求6～8中任何一项所述的方法。

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被语音处理设备的处理器执行时，使所述处理器执行如权利要求1以及权利要求6～8中任何一项所述的方法。