CN103442138A

CN103442138A - 语音控制方法、装置及终端

Info

Publication number: CN103442138A
Application number: CN2013103755723A
Authority: CN
Inventors: 樊艳梅; 蒋洪睿
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2013-12-11
Also published as: WO2015027789A1

Abstract

本发明实施例公开了语音控制方法、装置及终端，所述方法包括：接收用户对第一应用的语音指令；将所述语音指令与所述第一应用的语音UI资源进行匹配，获得与所述语音指令对应的动作指令，所述第一应用的语音UI资源包含所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息；对所述第一应用执行与所述动作指令对应的操作。本发明实施例扩展了终端内的语音助理框架的处理能力，可以实现语音操作各种第三方应用，从而可以满足用户随时安装应用随时使用语音交互的需求，提高了终端用户的使用体验。

Description

语音控制方法、装置及终端

技术领域

本发明涉及通信技术领域，特别涉及语音控制方法、装置及终端。

背景技术

智能终端通常采用图形用户界面（Graphical User Interface，GUI）向终端用户输出信息。GUI是指采用图形方式显示的计算机操作用户界面，在现有GUI架构下，当启动一个应用时，该应用的图形运行结果在屏幕上呈现，通过视觉向用户解释意图，包括图形内展示的文字、颜色、组件、区域划分等，用户通过视觉获知图形界面上能够实施的操作，并通过向屏幕输入触摸手势实施相应的操作。

随着机器语音自动识别技术的日趋成熟，为了简化用户对GUI的使用，可以通过输入语音命令完成原来由手势输入的操作。现有智能终端上设置的语音助理可以对终端内自带的各种应用进行语音操作，这些应用包括电话、短信、搜索、日程、闹钟等。其中，语音助理预设了每个应用可以接收的命令，当用户开启了某个应用后，就进入该应用的对话场景中，通过对话输入语音指令，完成用户希望的操作。

但是，发明人在对现有技术的研究过程中发现，现有智能终端内的语音助理框架仅针对终端的自带应用，当终端内下载了各种第三方应用后，无法应用终端内的语音助理进行语音操作。由此可知，现有语音助理框架的开放程度有限，难以满足用户随时安装应用随时使用语音交互的需求，导致用户体验不高。

发明内容

本发明实施例中提供了语音控制方法、装置及终端，以解决现有技术无法随时安装应用随时使用语音交互，从而导致智能终端的用户体验不高的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

第一方面，提供一种语音控制方法，所述方法包括：

接收用户对第一应用的语音指令；

将所述语音指令与所述第一应用的语音用户接口UI资源进行匹配，获得与所述语音指令对应的动作指令，所述第一应用的语音UI资源包含所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息；

对所述第一应用执行与所述动作指令对应的操作。

结合第一方面，在第一方面的第一种可能的实现方式中，

所述组件的语音属性信息为触发所述组件的语音指令对应的文本内容；

所述组件的动作属性信息为触发所述组件后执行的操作；

所述组件的上下文属性信息为所述组件的语音指令生效时的运行状态，所述运行状态包括全局状态、应用状态或页面状态。

结合第一方面，或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述接收用户对第一应用的语音指令后，所述方法还包括：获得所述终端当前的第一运行状态；

所述将所述语音指令与所述第一应用的语音UI资源进行匹配，获得与所述语音指令对应的动作指令，包括：

通过语音引擎识别所述语音指令对应的第一文本内容；将所述第一运行状态和所述第一文本内容与所述语音UI资源进行匹配，获得与所述第一运行状态和所述第一文本内容对应的第一上下文属性信息和第一语音属性信息；获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令；或者，

通过语音引擎识别所述语音指令对应的第一文本内容；将所述第一文本内容与所述语音UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息；当所述第一运行状态与所述第一上下文属性信息一致时，获得与所述第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。

结合第一方面，或第一方面的第一种可能的实现方式，或第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述接收用户对第一应用的语音指令，包括：

接收用户开启第一应用的语音指令；或者，

接收用户在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

结合第一方面，或第一方面的第一种可能的实现方式，或第一方面的第二种可能的实现方式，或第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，

所述接收用户对第一应用的语音指令前，所述方法还包括：当接收到用户的应用开启语音指令对应至少两个应用时，输出所述至少两个应用的选项；所述接收用户对所述第一应用的语音指令包括：接收用户根据所述选项对从所述至少两个应用中选择的第一应用的语音指令；

或者，

所述接收用户对第一应用的语音指令包括：接收用户对第一应用的应用开启语音指令，所述第一应用为所述应用开启语音指令对应的至少两个应用中预设优先级最高的应用。

第二方面，提供一种语音控制装置，所述装置包括：

接收单元，用于接收用户对第一应用的语音指令；

匹配单元，用于将所述接收单元接收到的语音指令与所述第一应用的语音UI资源进行匹配，获得与所述语音指令对应的动作指令，所述第一应用的语音UI资源包含所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息；

执行单元，用于对所述第一应用执行与所述匹配单元获得的动作指令对应的操作。

结合第二方面，在第二方面的第一种可能的实现方式中，

所述组件的动作属性信息为触发所述组件后执行的操作；

结合第二方面，或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述装置还包括：

获得单元，用于所述接收单元接收到所述语音指令后，获得所述终端当前的第一运行状态；

所述匹配单元包括：

第一指令识别子单元，用于通过语音引擎识别所述语音指令对应的第一文本内容；第一信息匹配子单元，用于将所述获得单元获得的第一运行状态和所述第一指令识别子单元识别出的第一文本内容与所述语音UI资源进行匹配，获得与所述第一运行状态和所述第一文本内容对应的第一上下文属性信息和第一语音属性信息；第一指令获得子单元，用于获得与所述第一信息匹配子单元获得的第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令；或者，

第二指令识别子单元，用于通过语音引擎识别所述语音指令对应的第一文本内容；第二信息匹配子单元，用于将所述第二指令识别子单元识别出的第一文本内容与所述语音UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息；第二指令获得子单元，用于当所述第一运行状态与所述第二信息匹配子单元获得的第一上下文属性信息一致时，获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。

结合第二方面，或第二方面的第一种可能的实现方式，或第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述接收单元，具体用于接收用户开启第一应用的语音指令，或者，接收用户在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

结合第二方面，或第二方面的第一种可能的实现方式，或第二方面的第二种可能的实现方式，或第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，

所述装置还包括：输出单元，用于当接收到用户的应用开启语音指令对应至少两个应用时，输出所述至少两个应用的选项；所述接收单元，具体用于接收用户根据所述输出单元输出的选项对从所述至少两个应用中选择的第一应用的语音指令；

或者，

所述接收单元，具体用于接收用户对第一应用的应用开启语音指令，所述第一应用为所述应用开启语音指令对应的至少两个应用中预设优先级最高的应用。

第三方面，提供一种终端，所述终端包括：麦克风、存储器和处理器，其中，

所述存储器，用于存储语音引擎；

所述麦克风，用于接收用户的语音指令；

所述处理器，用于当所述麦克风接收用户对第一应用的语音指令后，将所述语音指令与所述第一应用的语音用户接口UI资源进行匹配，获得与所述语音指令对应的动作指令，所述第一应用的语音UI资源包含所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息，并对所述第一应用执行与所述动作指令对应的操作。

结合第三方面，在第三方面的第一种可能的实现方式中，

所述组件的动作属性信息为触发所述组件后执行的操作；

结合第三方面，或第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述处理器，还用于获得所述终端当前的第一运行状态；

所述处理器，具体用于通过语音引擎识别所述语音指令对应的第一文本内容，将所述第一运行状态和所述第一文本内容与所述语音UI资源进行匹配，获得与所述第一运行状态和所述第一文本内容对应的第一上下文属性信息和第一语音属性信息，获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令；或者，通过语音引擎识别所述语音指令对应的第一文本内容；将所述第一文本内容与所述语音UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息；当所述第一运行状态与所述第一上下文属性信息一致时，获得与所述第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。

结合第三方面，或第三方面的第一种可能的实现方式，或第三方面的第二种可能的实现方式，在第三方面的第三种可能的实现方式中，所述麦克风，具体用于接收用户开启第一应用的语音指令，或者，接收用户在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

结合第三方面，或第三方面的第一种可能的实现方式，或第三方面的第二种可能的实现方式，或第三方面的第三种可能的实现方式，在第三方面的第四种可能的实现方式中，

所述处理器，还用于当通过所述麦克风接收到用户的应用开启语音指令对应至少两个应用时，输出所述至少两个应用的选项；所述麦克风，具体用于接收用户根据所述选项对从所述至少两个应用中选择的第一应用的语音指令；

或者，

所述麦克风，具体用于接收用户对第一应用的应用开启语音指令，所述第一应用为所述应用开启语音指令对应的至少两个应用中预设优先级最高的应用。

本发明实施例中，接收用户对第一应用的语音指令时，将语音指令与第一应用的语音UI资源进行匹配，获得与语音指令对应的动作指令，第一应用的语音UI资源包含第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息，并对第一应用执行与动作指令对应的操作。本发明实施例扩展了终端内的语音助理框架的处理能力，由于在每个应用内增加了对不同组件的语音属性信息、动作属性信息和上下文属性信息，使得终端在解析应用后可以获得应用的语音UI资源，当接收到应用的语音指令时，通过匹配应用的语音UI资源能够得到对应的动作指令，以此可以实现语音操作各种第三方应用，从而可以满足用户随时安装应用随时使用语音交互的需求，提高了终端用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音控制方法的一个实施例流程图；

图2为本发明语音控制方法的另一个实施例流程图；

图3为本发明语音控制装置的一个实施例框图；

图4为本发明语音控制装置的另一个实施例框图；

图5为本发明语音控制装置的另一个实施例框图；

图6为本发明终端的实施例框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

参见图1，为本发明语音控制方法的一个实施例流程图：

步骤101：接收用户对第一应用的语音指令。

终端上通常可以通过设置麦克风获得用户发出的语音指令，本实施例中，当用户要操作终端内安装的第一应用时，可以向终端发出语音指令。其中，对第一应用的语音指令可以包括开启该第一应用的语音指令，例如，当第一应用为邮件应用时，用户对第一应用的语音指令可以是开启该邮件应用的语音指令；或者，对第一应用的语音指令也可以包括在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令，例如，当第一应用为邮件应用时，对第一应用的语音指令可以是邮件应用开启后，在邮件查看页面上进行转发邮件，或者回复邮件的语音指令。

本实施例中，如果终端接收到用户发出的应用开启语音指令，且该应用开启语音指令对应至少两个应用时，则可以通过显示界面输出上述至少两个应用的选项，并接收用户对从至少两个应用中选择的第一应用的语音指令。例如，用户发出的应用开启语音指令为“发短信”，而终端内的短消息应用，以及安装的天天聊应用都可以实现发短信的功能，则终端可以输出“短消息应用”和“天天聊应用”的选项，用户可以从上述选项中选择一个应用作为第一应用，假设用户选择了“天天聊应用”，则发出天天聊应用的语音指令即可。

或者，如果终端接收到用户发出的应用开启语音指令，且该应用开启语音指令对应至少两个应用时，则终端可以根据预先设置的至少两个应用的优先级，从中选择一个优先级最高的应用作为第一应用。例如，用户发出的应用开启语音指令为“发短信”，而终端内的短消息应用，以及安装的天天聊应用都可以实现发短信的功能，且“短消息应用”的优先级高于“天天聊应用”，则终端根据优先级将“短消息应用”作为第一应用。

步骤102：将语音指令与第一应用的语音UI资源进行匹配，获得与语音指令对应的动作指令，该第一应用的语音UI资源包含第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息。

本实施例中，每个应用都可以预先定义语音用户接口（User Interface，UI）资源，该语音UI资源可以包括应用中的每个组件的语音属性信息（VoiceCommandText）、动作属性信息（VoiceCommandAction）和上下文属性信息（VoiceCommandContext）。其中，应用的组件可以包括启动该应用的LayOut组件，和应用启动后的各种控件，例如，按钮（Button）、复选框（CheckBox）等。其中，组件的语音属性信息为触发所述组件的语音指令对应的文本内容；组件的动作属性信息为触发所述组件后执行的操作；组件的上下文属性信息为所述组件的语音指令生效时的运行状态，所述运行状态包括全局状态、应用状态或页面状态。其中，全局状态指终端在任何运行状态下接收到组件的语音指令都能够生效；应用状态指终端在当前已开启应用的运行过程中接收到组件的语音指令才能够生效；页面状态指终端在当前某个应用的页面下接收到组件的语音指令才能生效。

终端可以通过对每个应用的语音UI资源进行解析，获得该应用中不同组件的语音属性信息、动作属性信息和上下文属性信息。需要说明的是，本发明实施例中终端可以在安装某个应用时，就对该应用的语音UI资源进行解析，或者也可以在首次使用某个应用时，对该应用的语音UI资源进行解析，对此本发明实施例不进行限制。

终端可以将解析出的应用的每个组件的语音属性信息、动作属性信息和上下文属性信息与所述每个组件的组件名称之间的对应关系保存到语音引擎；其中，对于同一类型的组件，可以有多个不同组件实例，同一类型组件的不同组件实例之间通过组件名称进行区别，即每个组件实例的组件名称对应了该组件的语音属性信息（VoiceCommandText）、动作属性信息（VoiceCommandAction）和上下文属性信息（VoiceCommandContext）。

当终端接收到语音指令后，可以获得终端当前的第一运行状态，通过语音引擎识别语音指令对应的第一文本内容。然后，将第一运行状态和第一文本内容与第一应用的语音UI资源进行匹配，获得与第一运行状态和第一文本内容对应的第一上下文属性信息和第一语音属性信息，并获得与第一上文属性信息和第一语音属性信息所对应的第一动作属性信息，将该第一动作属性信息对应的操作作为与用户发出的语音指令对应的动作指令；或者，也可以先将所述第一文本内容与第一应用的语音UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息，当所述第一运行状态与所述第一上下文属性信息一致时，获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。

步骤103：对第一应用执行与动作指令对应的操作。

由上述实施例可见，该实施例扩展了终端内的语音助理框架的处理能力，由于在每个应用内增加了对不同组件的语音属性信息、动作属性信息和上下文属性信息，使得终端在解析应用后可以获得应用的语音UI资源，当接收到应用的语音指令时，通过匹配应用的语音UI资源能够得到对应的动作指令，以此可以实现语音操作各种第三方应用，从而可以满足用户随时安装应用随时使用语音交互的需求，提高了终端用户的使用体验。

参见图2，为本发明语音控制方法的另一个实施例流程图：

步骤201：终端获得应用的语音UI资源。

当终端内安装某个应用时，或者终端内开启某个应用后，终端可以对该应用的语音UI资源进行解析，获得该应用中不同组件的语音属性信息、动作属性信息和上下文属性信息，并将每个组件的语音属性信息、动作属性信息和上下文属性信息与所述每个组件的组件名称之间的对应关系保存到语音引擎；其中，对于同一类型的组件，可以有多个不同组件实例，同一类型组件的不同组件实例之间通过组件名称进行区别，即每个组件实例的组件名称对应了该组件的语音属性信息（VoiceCommandText）、动作属性信息（VoiceCommandAction）和上下文属性信息（VoiceCommandContext），例如，对于按钮组件，可能分为“下一页”按钮，“上一页”按钮等。

例如，对于电子邮件应用的LayOut组件，其语音属性信息（VoiceCommandText）可以定义为“VoiceCommandText=启动电子邮件应用”，其动作属性信息（VoiceCommandAction）可以定义为“VoiceCommandAction=Open”，其上下文属性信息（VoiceCommandContext）可以定义为“VoiceCommandContext=全局”，即终端在任何运行状态下接收到开启电子邮件应用的语音指令都可以生效。又例如，对于开启电子邮件应用后的浏览邮件页面上的“下一页”Button组件，其语音属性信息（VoiceCommandText）可以定义为“VoiceCommandText=下一页”，其动作属性信息（VoiceCommandAction）可以定义为“VoiceCommandAction=onClick”，其上下文属性信息（VoiceCommandContext）可以定义为“VoiceCommandContext=页面”，即终端仅在浏览邮件页面时接收到的“下一页”语音指令才能生效，而在例如邮件编辑页面时接收到该“下一页”指令时不能生效。

步骤202：终端接收用户对第一应用的语音指令。

终端上通常可以通过设置麦克风获得用户发出的语音指令，本实施例中，当用户要操作终端内安装的第一应用时，可以向终端发出语音指令。其中，对第一应用的语音指令可以包括开启该第一应用的语音指令，例如，当第一应用为邮件应用时，用户对第一应用的语音指令可以是开启该邮件应用的语音指令；对第一应用的语音指令也可以包括在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令，例如，当邮件应用开启后，在邮件查看页面上进行转发邮件，或者回复邮件的语音指令。

步骤203：获得终端当前的第一运行状态。

本实施例中，仍然以第一应用是电子邮件应用为例，假设步骤202中接收到用户开启电子邮件的语音指令，该语音指令可以具体为“打开电子邮件”，或者“启动email”等。此时，终端获得当前的第一运行状态，该第一运行状态指终端当前处于全局状态，或应用状态，或某个应用的页面状态。

步骤204：通过语音引擎识别语音指令对应的第一文本内容。

本实施例中，语音引擎对语音指令采用语义识别方式进行识别，语义识别方式对语音指令进行模糊识别，例如，无论用户发出的语音指令为“打开电子邮件”，或者“启动email”，通过语义分析都可以获知该语音指令对应的第一文本内容为“开启电子邮件应用”。

步骤205：将第一运行状态和第一文本内容与第一应用的语音UI资源进行匹配，获得与第一运行状态和第一文本内容对应的第一上下文属性信息和第一语音属性信息。

根据步骤201可知，语音引擎保存了应用的每个组件的语音属性信息、动作属性信息和上下文属性信息与每个组件的组件名称之间的对应关系，因此本步骤中，当获得了第一运行状态和第一文本内容后，可以在对应关系中匹配该第一运行状态和第一文本内容，获得与第一运行状态和第一文本内容对应的第一上下文属性信息和第一语音属性信息。

例如，当语音指令对应的第一文本内容为“开启电子邮件应用”，当前终端的第一运行状态为全局状态时，则语音引擎匹配保存的对应关系获得了VoiceCommandContext和VoiceCommandText分别为“全局”和“开启电子邮件应用”。

步骤206：获得与第一上文属性信息和第一语音属性信息所对应的第一动作属性信息，将该第一动作属性信息对应的操作作为与语音指令对应的动作指令。

结合步骤205，当VoiceCommandContext和VoiceCommandText分别为“全局”和“开启电子邮件应用”后，通过语音引擎可以获得对应的组件下的VoiceCommandAction为“Open”，即用户发出的语音指令“打开电子邮件”，或者“启动email”对应的动作指令为“Open”触发的操作，即打开邮件应用。

需要说明的是，除了上述步骤205和步骤206示出的语音UI资源的匹配方式外，在实际应用中，也可以先将所述第一文本内容与第一应用的语音UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息，当所述第一运行状态与所述第一上下文属性信息一致时，获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。在实际应用中，对于采用何种语音UI资源的匹配方式，本发明实施例不进行限制。

步骤207：对第一应用执行与该动作指令对应的操作。

与本发明语音控制方法的实施例相对应，本发明还提供了语音控制装置和终端的实施例。

参见图3，为本发明语音控制装置的一个实施例框图：

该装置包括：接收单元310、匹配单元320和执行单元330。

其中，接收单元310，用于接收用户对第一应用的语音指令；

匹配单元320，用于将所述接收单元310接收到的语音指令与所述第一应用的语音UI资源进行匹配，获得与所述语音指令对应的动作指令，所述第一应用的语音UI资源包含所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息；

执行单元330，用于对所述第一应用执行与所述匹配单元320获得的动作指令对应的操作。

可选的，所述接收单元310，可以具体用于接收用户开启第一应用的语音指令，或者，接收用户在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

其中，所述组件的语音属性信息为触发所述组件的语音指令对应的文本内容；所述组件的动作属性信息为触发所述组件后执行的操作；所述组件的上下文属性信息为所述组件的语音指令生效时的运行状态，所述运行状态包括全局状态、应用状态或页面状态。

可选的，所述接收单元310，可以具体用于接收用户对第一应用的应用开启语音指令，所述第一应用为所述应用开启语音指令对应的至少两个应用中预设优先级最高的应用

参见图4，为本发明语音控制的另一个实施例框图：

该装置包括：解析单元410、保存单元420、接收单元430、获得单元440、匹配单元450和执行单元460。

其中，解析单元410，用于通过解析第一应用，获得所述第一应用的不同组件的语音属性信息、动作属性信息和上下文属性信息；

保存单元420，用于将所述第一应用的语音UI资源保存到语音引擎，所述语音UI资源包含所述解析单元410获得的所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息；

接收单元430，用于接收用户对所述第一应用的语音指令；

获得单元440，用于所述接收单元430接收到所述语音指令后，获得所述终端当前的第一运行状态；

匹配单元450，用于将所述获得单元440获得的第一运行状态和所述接收单元430接收的语音指令与所述保存单元420保存的第一应用的语音UI资源进行匹配，获得与所述语音指令对应的动作指令；

执行单元460，用于对所述第一应用执行与所述匹配单元450获得的动作指令对应的操作。

在一个可选的实现方式中，所述匹配单元450可以包括（图4中未示出）：

第一指令识别子单元，用于通过语音引擎识别所述语音指令对应的第一文本内容；

第一信息匹配子单元，用于将所述获得单元获得的第一运行状态和所述第一指令识别子单元识别出的第一文本内容与所述保存单元保存的第一应用的UI资源进行匹配，获得与所述第一运行状态和所述第一文本内容对应的第一上下文属性信息和第一语音属性信息；

第一指令获得子单元，用于获得与所述第一信息匹配子单元获得的第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令；

在另一个可选的实现方式中，所述匹配单元450也可以包括（图4中未示出）：

第二指令识别子单元，用于通过语音引擎识别所述语音指令对应的第一文本内容；

第二信息匹配子单元，用于将所述第二指令识别子单元识别出的第一文本内容与所述保存单元保存的第一应用的UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息；

第二指令获得子单元，用于当所述第一运行状态与所述第二信息匹配子单元获得的第一上下文属性信息一致时，获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。

可选的，所述接收单元430，可以具体用于接收用户开启所述第一应用的语音指令，或者，接收用户在所述第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

可选的，所述接收单元430，可以具体用于接收用户对第一应用的应用开启语音指令，所述第一应用为所述应用开启语音指令对应的至少两个应用中预设优先级最高的应用

参见图5，为本发明语音控制装置的另一个实施例框图：

该装置包括：解析单元510、保存单元520、输出单元530、接收单元540、匹配单元550和执行单元560。

其中，解析单元510，用于通过解析第一应用，获得所述第一应用的不同组件的语音属性信息、动作属性信息和上下文属性信息；

保存单元520，用于将所述第一应用的语音UI资源保存到语音引擎，所述语音UI资源包含所述解析单元510获得的所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息；

输出单元530，用于当接收到用户的应用开启语音指令对应至少两个应用时，输出所述至少两个应用的选项；

接收单元540，用于接收用户根据所述输出单元530输出的选项对从所述至少两个应用中选择的第一应用的语音指令；

匹配单元550，用于将所述接收单元540接收的语音指令与所述保存单元520保存的第一应用的语音UI资源进行匹配，获得与所述语音指令对应的动作指令；

执行单元560，用于对所述第一应用执行与所述匹配单元550获得的动作指令对应的操作。

可选的，所述接收单元540，可以具体用于接收用户开启所述第一应用的语音指令，或者，接收用户在所述第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

参见图6，为本发明终端的实施例框图：

该终端包括：麦克风610、存储器620和处理器630。

其中，所述存储器620，用于存储语音引擎；

所述麦克风610，用于接收用户的语音指令；

所述处理器630，用于当所述麦克风610接收用户对第一应用的语音指令后，将所述语音指令与所述第一应用的语音用户接口UI资源进行匹配，获得与所述语音指令对应的动作指令，所述第一应用的语音UI资源包含所述第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息，并对所述第一应用执行与所述动作指令对应的操作。

在一个可选的实现方式中：

所述麦克风610，可以具体用于接收用户开启所述第一应用的语音指令，或者，接收用户在所述第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

在另一个可选的实现方式中：

所述处理器630，还可以用于获得所述终端当前的第一运行状态；

所述处理器630，可以具体用于通过语音引擎识别所述语音指令对应的第一文本内容，将所述第一运行状态和所述第一文本内容与所述语音UI资源进行匹配，获得与所述第一运行状态和所述第一文本内容对应的第一上下文属性信息和第一语音属性信息，获得与所述第一上下文属性信息和第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令；或者，通过语音引擎识别所述语音指令对应的第一文本内容；将所述第一文本内容与所述语音UI资源进行匹配，获得与所述第一文本内容对应的第一语音属性信息和第一上下文属性信息；当所述第一运行状态与所述第一上下文属性信息一致时，获得与所述第一语音属性信息所对应的第一动作属性信息，将所述第一动作属性信息对应的操作作为与所述语音指令对应的动作指令。

在另一个可选的实现方式中：

所述处理器630，还可以用于当通过所述麦克风接收到用户的应用开启语音指令对应至少两个应用时，输出所述至少两个应用的选项；

所述麦克风610，可以具体用于接收用户根据所述选项对从所述至少两个应用中选择的第一应用的语音指令。

在另一个可选的实现方式中：

所述麦克风610，可以具体用于接收用户对第一应用的应用开启语音指令，所述第一应用为所述应用开启语音指令对应的至少两个应用中预设优先级最高的应用。

上述实施例中，所述组件的语音属性信息为触发所述组件的语音指令对应的文本内容；所述组件的动作属性信息为触发所述组件后执行的操作；所述组件的上下文属性信息为与执行所述组件匹配的运行状态，所述运行状态包括全局状态、应用状态或页面状态。

由上述实施例可见，接收用户对第一应用的语音指令时，将语音指令与第一应用的语音UI资源进行匹配，获得与语音指令对应的动作指令，第一应用的语音UI资源包含第一应用的每个组件的语音属性信息、动作属性信息和上下文属性信息，并对第一应用执行与动作指令对应的操作。本发明实施例扩展了终端内的语音助理框架的处理能力，由于在每个应用内增加了对不同组件的语音属性信息、动作属性信息和上下文属性信息，使得终端在解析应用后可以获得应用的语音UI资源，当接收到应用的语音指令时，通过匹配应用的语音UI资源能够得到对应的动作指令，以此可以实现语音操作各种第三方应用，从而可以满足用户随时安装应用随时使用语音交互的需求，提高了终端用户的使用体验。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

接收用户对第一应用的语音指令；

对所述第一应用执行与所述动作指令对应的操作。

2.根据权利要求1所述的方法，其特征在于，

所述组件的动作属性信息为触发所述组件后执行的操作；

3.根据权利要求1或2所述的方法，其特征在于，所述接收用户对第一应用的语音指令后，所述方法还包括：获得所述终端当前的第一运行状态；

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述接收用户对第一应用的语音指令，包括：

接收用户开启第一应用的语音指令；或者，

5.根据权利要求1至4任意一项所述的方法，其特征在于，

或者，

6.一种语音控制装置，其特征在于，所述装置包括：

接收单元，用于接收用户对第一应用的语音指令；

7.根据权利要求6所述的装置，其特征在于，

所述组件的动作属性信息为触发所述组件后执行的操作；

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

所述匹配单元包括：

9.根据权利要求6至8任意一项所述的装置，其特征在于，

所述接收单元，具体用于接收用户开启第一应用的语音指令，或者，接收用户在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

10.根据权利要求6至9任意一项所述的装置，其特征在于，

或者，

11.一种终端，其特征在于，所述终端包括：麦克风、存储器和处理器，其中，

所述存储器，用于存储语音引擎；

所述麦克风，用于接收用户的语音指令；

12.根据权利要求11所述的终端，其特征在于，

所述组件的动作属性信息为触发所述组件后执行的操作；

13.根据权利要求11或12所述的终端，其特征在于，

所述处理器，还用于获得所述终端当前的第一运行状态；

14.根据权利要求11至13任意一项所述的终端，其特征在于，

所述麦克风，具体用于接收用户开启第一应用的语音指令，或者，接收用户在第一应用开启后的页面上对第一应用进行的进一步操作的语音指令。

15.根据权利要求11至14任意一项所述的终端，其特征在于，

或者，