CN108733343A

CN108733343A - 生成语音控制指令的方法、装置及存储介质

Info

Publication number: CN108733343A
Application number: CN201810524736.7A
Authority: CN
Inventors: 张艺弘
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-02
Anticipated expiration: 2038-05-28
Also published as: CN108733343B

Abstract

本公开揭示了一种生成语音控制指令的方法，属于语音控制技术领域。所述方法包括：记录应用程序中的指定页面对应的控件触发信息，控件触发信息用于指示在进入指定页面的过程中依次接收到触发操作的各个可操作控件；根据控件触发信息生成第一语音控制指令，第一语音控制指令用于在接收到对应的指令语音时，控制展示指定页面。通过上述方案，终端可以记录进入指定页面的过程中接收到触发操作的可操作控件，并根据记录的信息主动生成控制终端展示指定页面的语音控制指令，也就是说，不需要不需要开发人员预先设置，用户即可以自主生成控制终端打开某个指定页面的语音控制功能，从而极大的扩展了语音控制功能的应用范围，提高语音控制效果。

Description

生成语音控制指令的方法、装置及存储介质

技术领域

本公开涉及语音控制技术领域，特别涉及一种生成语音控制指令的方法、装置及存储介质。

背景技术

随着语音识别技术的不断发展，语音控制功能也在终端中逐渐普及，并给用户的日常使用带来了很大的便利。

在相关技术中，语音控制功能通过预先设置的语音控制指令来实现。比如，开发人员预先在终端中设置若干条语音控制指令，每条语音控制指令对应有语音匹配的关键词。当用户输入一条指令语音时，终端识别指令语音获得识别文本，查询并执行对应的关键词与该识别文本相匹配的语音控制指令。

发明内容

本公开提供一种生成语音控制指令的方法、装置及存储介质。所述技术方案如下：

根据本公开实施例的第一方面，提供了一种生成语音控制指令的，所述方法包括：

记录应用程序中的指定页面对应的控件触发信息，所述控件触发信息用于指示在进入所述指定页面的过程中依次接收到触发操作的各个可操作控件；

根据所述控件触发信息生成第一语音控制指令，所述第一语音控制指令用于在接收到对应的指令语音时，控制展示所述指定页面。

可选的，所述根据所述控件触发信息生成第一语音控制指令，包括：

根据所述控件触发信息生成所述各个可操作控件各自对应的触发指令，所述触发指令用于指示所述终端模拟触发对应的可操作控件；

按照在进入所述指定页面的过程中依次接收到触发操作的顺序，将所述各个可操作控件各自对应的触发指令依次排序，获得所述第一语音控制指令。

可选的，所述方法还包括：接收到所述第一语音控制指令对应的指令语音时，依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述依次执行所述第一语音控制指令中包含各个所述触发指令之前，还包括：

获取所述第一语音控制指令的关键词；

建立所述第一语音控制指令与所述第一语音控制指令的关键词之间的对应关系；

所述接收到所述第一语音控制指令对应的指令语音时，依次执行所述第一语音控制指令中包含的各个所述触发指令，包括：

接收到一指令语音时，对所述指令语音进行语音识别，获得语音识别文本；

当所述语音识别文本与所述第一语音控制指令的关键词相匹配时，根据所述第一语音控制指令与所述第一语音控制指令的关键词之间的对应关系获取所述第一语音控制指令；

依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述获取所述第一语音控制指令的关键词，包括：

获取对输入语音进行识别获得的所述第一语音控制指令的关键词；

或者，

获取所述各个可操作控件的描述文本，从所述各个可操作控件的描述文本中提取所述第一语音控制指令的关键词。

可选的，所述依次执行所述第一语音控制指令中包含的各个所述触发指令，包括：

在展示第一触发指令对应的页面的过程中，每隔预设时长对进入所述第一触发指令对应的页面后接收到的系统事件进行一次过滤，获得满足预设条件的最后一次有效系统事件；所述第一触发指令是所述第一语音控制指令中包含的各个所述触发指令中的任意触发指令；

当连续两次过滤获得的最后一次有效系统事件是同一系统事件时，在所述第一触发指令对应的页面中执行所述第一触发指令。

可选的，所述预设条件包括：

系统事件对应的页面为所述当前页面；

系统事件对应在所述当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

可选的，所述记录应用程序中的指定页面对应的控件触发信息，包括：

在接收到开始记录的操作时，进入指定状态；

在所述指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将所述控件触发操作对应的可操作控件的控件信息添加入控件信息列表；

在接收到结束记录的操作时，将所述控件信息列表中包含的各个控件信息获取为所述控件触发信息；

其中，接收到所述结束记录的操作时展示的页面为所述指定页面。

可选的，所述方法还包括：

获取第一控件所在的页面中，除所述第一控件之外的其它可操作控件的控件信息；所述第一控件是所述各个可操作控件中的任意可操作控件；

获取所述第一控件所在的页面的各级入口控件的控件信息，所述各级入口控件是依次被触发以进入所述第一控件所在的页面的可操作控件；

根据所述各级入口控件的控件信息，以及所述其它可操作控件的控件信息，生成所述其它可操作控件对应第二语音控制指令，所述第二语音控制指令用于在接收到对应的指令语音时，控制展示通过所述其它可操作控件触发进入的页面。

可选的，所述控件信息包括以下信息中的至少一种：

对应的可操作控件的页面层级路径、对应的可操作控件在页面中的位置、对应的可操作控件的控件类型以及对应的可操作控件的描述文本。

根据本公开实施例的第二方面，提供了一种生成语音控制指令的装置，所述装置包括：

信息记录模块，用于记录应用程序中的指定页面对应的控件触发信息，所述控件触发信息用于指示在进入所述指定页面的过程中依次接收到触发操作的各个可操作控件；

第一指令生成模块，用于根据所述控件触发信息生成第一语音控制指令，所述第一语音控制指令用于在接收到对应的指令语音时，控制展示所述指定页面。

可选的，所述第一指令生成模块，包括：

触发指令生成子模块，用于根据所述控件触发信息生成所述各个可操作控件各自对应的触发指令，所述触发指令用于指示所述终端模拟触发对应的可操作控件；

指令获得子模块，用于按照在进入所述指定页面的过程中依次接收到触发操作的顺序，将所述各个可操作控件各自对应的触发指令依次排序，获得所述第一语音控制指令。

可选的，所述装置还包括：

执行模块，用于接收到所述第一语音控制指令对应的指令语音时，依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述装置还包括：

关键词获取模块，用于在所述执行模块依次执行所述第一语音控制指令中包含各个所述触发指令之前，获取所述第一语音控制指令的关键词；

关系建立模块，用于建立所述第一语音控制指令与所述第一语音控制指令的关键词之间的对应关系；

所述执行模块，包括：

识别子模块，用于接收到一指令语音时，对所述指令语音进行语音识别，获得语音识别文本；

指令获取子模块，用于当所述语音识别文本与所述第一语音控制指令的关键词相匹配时，根据所述第一语音控制指令与所述第一语音控制指令的关键词之间的对应关系获取所述第一语音控制指令；

执行子模块，用于依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述关键词获取模块，包括：第一获取子模块或者第二获取子模块；

所述第一获取子模块，用于获取对输入语音进行识别获得的所述第一语音控制指令的关键词；

所述第二获取子模块，用于获取所述各个可操作控件的描述文本，从所述各个可操作控件的描述文本中提取所述第一语音控制指令的关键词。

可选的，所述执行模块，用于，

可选的，所述预设条件包括：

系统事件对应的页面为所述当前页面；

系统事件对应在所述当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

可选的，所述信息记录模块，包括：

状态进入子模块，用于在接收到开始记录的操作时，进入指定状态；

添加子模块，用于在所述指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将所述控件触发操作对应的可操作控件的控件信息添加入控件信息列表；

第三获取子模块，用于在接收到结束记录的操作时，将所述控件信息列表中包含的各个控件信息获取为所述控件触发信息；

可选的，所述装置还包括：

第一控件信息获取模块，用于获取第一控件所在的页面中，除所述第一控件之外的其它可操作控件的控件信息；所述第一控件是所述各个可操作控件中的任意可操作控件；

第二控件信息获取模块，用于获取所述第一控件所在的页面的各级入口控件的控件信息，所述各级入口控件是依次被触发以进入所述第一控件所在的页面的可操作控件；

第二指令生成模块，用于根据所述各级入口控件的控件信息，以及所述其它可操作控件的控件信息，生成所述其它可操作控件对应第二语音控制指令，所述第二语音控制指令用于在接收到对应的指令语音时，控制展示通过所述其它可操作控件触发进入的页面。

可选的，所述控件信息包括以下信息中的至少一种：

根据本公开实施例的第三方面，提供了一种生成语音控制指令的装置，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中包含可执行指令，终端中的处理器调用所述可执行指令以实现上述第一方面或者第一方面的任一可选方案所述的生成语音控制指令的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

终端可以记录进入指定页面的过程中接收到触发操作的可操作控件，并根据记录的信息主动生成控制终端展示指定页面的语音控制指令，也就是说，不需要不需要开发人员预先设置，用户即可以自主生成控制终端打开某个指定页面的语音控制功能，从而极大的扩展了语音控制功能的应用范围，提高语音控制效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的生成语音控制指令的方法的流程图；

图2是根据一示例性实施例示出的生成语音控制指令的方法的流程图；

图3是根据一示例性实施例示出的生成语音控制指令的方法的流程图；

图4至图6是图3所示实施例涉及的生成语音控制指令的示意图；

图7是根据一示例性实施例示出的一种生成语音控制指令的装置的框图；

图8是根据一示例性实施例示出的另一种生成语音控制指令的装置的框图；

图9是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本公开实施例所示的方案可以应用于具有语音控制功能的终端中。比如，该终端可以是智能手机、平板电脑、电子书阅读器等移动终端；或者，该终端也可以是笔记本电脑、个人计算机或者个人工作站等固定式计算机设备；或者，该终端也可以是智能手表、智能眼镜或者智能手环等智能可穿戴设备。

为了便于理解，下面对本公开各个实施例涉及到的部分名词进行解释：

可操作控件：终端的屏幕所显示的界面中，可以接收用户操作(比如鼠标点击操作、触控点击操作以及触摸滑动操作等)的控件。比如，可操作控件可以是操作系统桌面上的功能图标、文件夹图标或者应用程序图标，或者，该可操作控件也可以是应用程序界面中的下级页面链接或者功能按钮(比如关闭按钮、最小化按钮以及动作条按钮等)。

语音控制指令：语音控制指令是响应于用户输入的指令语音的功能指令。在本公开实施例中，语音控制指令可以是单条功能指令，或者，语音控制指令也可以由多条依次执行的功能指令组成。

指令语音：指令语音是用户在终端处于特定状态(比如语音指令接收状态)下时，向终端输入的语音。终端在接收到指令语音之后，通常在本地识别或者通过网络侧识别获得指令语音中的语音文本，并根据识别出的语音文本查询相应的语音控制指令。

图1是根据一示例性实施例示出的一种生成语音控制指令的方法的流程图，如图1所示，该生成语音控制指令的方法应用于终端中，该方法可以包括以下步骤。

在步骤101中，记录应用程序中的指定页面对应的控件触发信息，该控件触发信息用于指示在进入该指定页面的过程中依次接收到触发操作的各个可操作控件。

在步骤102中，根据该控件触发信息生成第一语音控制指令，该第一语音控制指令用于在接收到对应的指令语音时，控制展示该指定页面。

可选的，该根据该控件触发信息生成第一语音控制指令，包括：

根据该控件触发信息生成该各个可操作控件各自对应的触发指令，该触发指令用于指示该终端模拟触发对应的可操作控件；

按照在进入该指定页面的过程中依次接收到触发操作的顺序，将该各个可操作控件各自对应的触发指令依次排序，获得该第一语音控制指令。

可选的，该方法还包括：接收到该第一语音控制指令对应的指令语音时，依次执行该第一语音控制指令中包含的各个该触发指令。

可选的，该依次执行该第一语音控制指令中包含各个该触发指令之前，还包括：

获取该第一语音控制指令的关键词；

建立该第一语音控制指令与该第一语音控制指令的关键词之间的对应关系；

该接收到该第一语音控制指令对应的指令语音时，依次执行该第一语音控制指令中包含的各个该触发指令，包括：

接收到一指令语音时，对该指令语音进行语音识别，获得语音识别文本；

当该语音识别文本与该第一语音控制指令的关键词相匹配时，根据该第一语音控制指令与该第一语音控制指令的关键词之间的对应关系获取该第一语音控制指令；

依次执行该第一语音控制指令中包含的各个该触发指令。

可选的，该获取该第一语音控制指令的关键词，包括：

获取对输入语音进行识别获得的该第一语音控制指令的关键词；

或者，

获取该各个可操作控件中最后一个被触发的可操作控件的描述文本，从该最后一个被触发的可操作控件的描述文本中提取该第一语音控制指令的关键词。

可选的，该记录应用程序中的指定页面对应的控件触发信息，包括：

在接收到开始记录的操作时，进入指定状态；

在该指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将该控件触发操作对应的可操作控件的控件信息添加入控件信息列表；

在接收到结束记录的操作时，将该控件信息列表中包含的各个控件信息获取为该控件触发信息；

其中，接收到该结束记录的操作时展示的页面为该指定页面。

可选的，该在该指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将该控件触发操作对应的可操作控件的控件信息添加入控件信息列表，包括：

在该指定状态下展示该当前页面的过程中，每隔预设时长对进入该当前页面后接收到的系统事件进行一次过滤，获得满足预设条件的最后一次有效系统事件；

当连续两次过滤获得的最后一次有效系统事件是同一系统事件时，将该连续两次过滤获得的最后一次有效系统事件对应的可操作控件的控件信息添加入该控件信息列表。

可选的，该预设条件包括：

系统事件对应的页面为该当前页面；

系统事件对应在该当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

可选的，该方法还包括：

获取第一控件所在的页面中，除该第一控件之外的其它可操作控件的控件信息；该第一控件是该各个可操作控件中的任意可操作控件；

获取该第一控件所在的页面的各级入口控件的控件信息，该各级入口控件是依次被触发以进入该第一控件所在的页面的可操作控件；

根据该各级入口控件的控件信息，以及该其它可操作控件的控件信息，生成该其它可操作控件对应第二语音控制指令，该第二语音控制指令用于在接收到对应的指令语音时，控制展示通过该其它可操作控件触发进入的页面。

可选的，该控件信息包括以下信息中的至少一种：

综上所述，本公开实施例所示的方案，终端可以记录进入指定页面的过程中接收到触发操作的可操作控件，并根据记录的信息主动生成控制终端展示指定页面的语音控制指令，也就是说，不需要不需要开发人员预先设置，用户即可以自主生成控制终端打开某个指定页面的语音控制功能，从而极大的扩展了语音控制功能的应用范围，提高语音控制效果。

图2是根据一示例性实施例示出的一种生成语音控制指令的方法的流程图，如图2所示，该生成语音控制指令的方法应用于终端中。该方法可以包括以下步骤。

在步骤201中，在接收到开始记录的操作时，进入指定状态。

在本公开实施例中，用户可以主动触发生成上述语音控制指令，比如，用户可以通过终端中的设置页面中语音控制指令生成入口触发生成语音控制指令的流程。或者，用户也可以在程序指引下触发上述生成语音控制指令的流程，比如，用户在进行语音控制时，若终端未能查找到与用户输入的指令语音相匹配的语音控制指令，则可以展示指引信息，以指引用户触发生成语音控制指令的流程。

在本公开实施例中，用户触发生成语音控制指令的流程后，终端即进入指定状态，比如，该指定状态可以是录屏状态。

比如，用户启动终端的语音控制功能，并输入一指令语音，以打开一指定页面，终端识别该指令语音获得识别文本后，未能查询到识别文本对应的语音控制指令，此时，终端可以展示一指令设置指引，该指令设置指引提示用户是否选择触发生成新的语音控制指令，当用户选择确定触发生成新的语音控制指令后，终端进入录屏状态。

在步骤202中，在该指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将该控件触发操作对应的可操作控件的控件信息添加入控件信息列表。

以指定状态是录屏状态为例，终端进入录屏状态后，用户在该录屏状态下，从终端的系统桌面开始，逐级点击相应的可操作控件进入指定页面。在此过程中，终端在展示每一个页面时，可以获取用户在当前页面中触发(比如点击)的可操作控件，并将该可操作控件添加入一个控件信息列表中。

其中，上述控件信息可以包括对应的可操作控件的页面层级路径、对应的可操作控件在页面中的位置、对应的可操作控件的控件类型以及对应的可操作控件的描述文本。

上述可操作控件的页面层级路径，可以指示可操作控件在应用程序中的哪一级页面，以及进入该级页面所经过的其它各级页面。比如，该页面层级路径可以是进入该级页面时触发的各级入口控件，该各级入口控件是依次被触发以进入该级页面的可操作控件。比如，以某个可操作控件所在的页面是某购物类应用程序中账户设置页面为例，进入该账户设置页面需要经过应用程序的首页页面和账户页面，而进入该账户设置页面时触发的各级入口控件依次为：系统桌面上的购物类应用程序图标(用于触发进入首页页面)、首页页面中的账户控件(用于触发进入账户页面)以及账户页面中的账户设置控件(用于触发进入账户设置页面)。

上述可操作控件在页面中的位置，可以是可操作控件在对应的页面中的区域坐标。

可操作控件的控件类型可以是可操作控件的触发类型，比如按钮、复选框、组合框以及快捷菜单等等。

可操作控件的描述文本可以是可操作控件的名称文本，或者，可操作控件的描述文本可以是可操作控件触发进入的页面的描述信息文本，或者可操作控件的描述文本可以包括可操作控件的名称文本以及可操作控件触发进入的页面的描述信息文本。

在步骤203中，在接收到结束记录的操作时，将该控件信息列表中包含的各个控件信息获取为控件触发信息。

其中，接收到该结束记录的操作时展示的页面为指定页面。

在本公开实施例中，当用户进入想要的指定页面后，可以执行结束记录的操作，比如，终端在录屏状态下时，可以在屏幕顶层展示一个结束按钮，用户逐级点击进入指定页面后，可以点击该结束按钮来发出结束记录的指令，此时，终端将上述控件信息列表中包含的各个控件信息获取为控件触发信息。

在步骤204中，根据该控件触发信息生成该各个可操作控件各自对应的触发指令，该触发指令用于指示该终端模拟触发对应的可操作控件。

在本公开实施例中，当一个控件触发信息中涉及到多个可操作控件时，终端可以针对每一个可操作控件生成对应的触发指令。

比如，以指定页面是上述购物类应用程序中账户设置页面为例，进入该账户设置页面时触发的各级可操作控件依次为：购物类应用程序图标、账户控件以及账户设置控件，则终端对与上述购物类应用程序图标、账户控件以及账户设置控件分别生成对应的触发指令。

在步骤205中，按照在进入该指定页面的过程中依次接收到触发操作的顺序，将该各个可操作控件各自对应的触发指令依次排序，获得该第一语音控制指令。

在生成上述各个可操作控件各自对应的触发指令后，终端将各个可操作控件各自对应的触发指令，按照终端在录屏状态下记录的用户操作的先后顺序进行排列，比如，上述用户进入购物类应用程序中账户设置页面的顺序为：触发购物类应用程序图标、触发账户控件以及触发账户设置控件，则获得的第一语音控制指令中的各个触发指令的顺序为：购物类应用程序图标对应的触发指令、账户控件对应的触发指令以及账户设置控件对应的触发指令。

在步骤206中，接收到该第一语音控制指令对应的指令语音时，依次执行该第一语音控制指令中包含的各个该触发指令。

在生成上述第一语音控制指令后，当终端再次接收到进入上述指定页面的指令语音时，终端可以依次执行上述第一语音控制指令中包含的各个该触发指令。比如，以各个触发指令的顺序为：购物类应用程序图标对应的触发指令、账户控件对应的触发指令以及账户设置控件对应的触发指令为例，终端再次接收到进入账户设置页面的指令语音后，终端首先执行上述购物类应用程序图标对应的触发指令，在进入购物类应用程序的首页页面后，终端执行账户控件对应的触发指令，在进入账户页面后，终端再执行账户设置控件对应的触发指令，以进入账户设置页面。

图3是根据一示例性实施例示出的一种生成语音控制指令的方法的流程图，如图3所示，该生成语音控制指令的方法应用于终端中。该方法可以包括以下步骤。

在步骤301中，在接收到开始记录的操作时，进入指定状态。

在步骤302中，在该指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将该控件触发操作对应的可操作控件的控件信息添加入控件信息列表。

在步骤303中，在接收到结束记录的操作时，将该控件信息列表中包含的各个控件信息获取为控件触发信息。

在步骤304中，根据该控件触发信息生成该各个可操作控件各自对应的触发指令，该触发指令用于指示该终端模拟触发对应的可操作控件。

在步骤305中，按照在进入该指定页面的过程中依次接收到触发操作的顺序，将该各个可操作控件各自对应的触发指令依次排序，获得该第一语音控制指令。

上述步骤301至步骤305的执行过程可以参考图2所示实施例中的步骤201至步骤205下的描述，此处不再赘述。

在步骤306中，获取该第一语音控制指令的关键词。

在一种可能的实现方式中，终端可以获取对输入语音进行识别获得的该第一语音控制指令的关键词。

比如，用户进行语音控制，且终端未能查找到与用户输入的指令语音相匹配的语音控制指令后，指引用户触发生成语音控制指令的流程，并按照上述步骤310至步骤305的流程生成上述第一语音控制指令后，获取对用户触发生成语音控制指令之前输入的指令语音进行识别获得的识别文本，并根据该识别文本获取第一语音控制指令的关键词。比如，终端可以对该识别文本进行关键词提取，将提取到的关键词获取为第一语音控制指令的关键词。

或者，终端在生成第一语音控制指令后，可以提示用户输入该第一语音控制指令对应的指令语音，用户点击确定输入指令语音后，终端进入语音接收状态，并通过麦克风组件采集用户输入的指令语音，并对采集到的指令语音进行文本识别，获得识别文本，再根据识别获得的识别文本获取第一语音控制指令的关键词。

在另一种可能的实现方式中，终端还可以接收用户输入的，该第一语音控制指令的关键词。比如，终端在生成第一语音控制指令后，可以提示用户输入第一语音控制指令的关键词，用户点击确定输入关键词后，终端展示一文本输入框，并接收在该文本输入框中输入的文本，再根据在输入框中接收到的文本获取第一语音控制指令的关键词。

在又一种可能的实现方式中，终端也可以获取上述各个可操作控件的描述文本，并从各个可操作控件的描述文本中提取该第一语音控制指令的关键词。

在本公开实施例中，终端也可以在生成第一语音控制指令后，根据生成第一语音控制指令的过程中涉及到的各个可操作控件，自动生成第一语音控制指令的关键词。

比如，在一种可能的实现方式中，终端可以获取上述各个可操作控件中的最后一个被触发的可操作控件的描述文本，并从该最后一个被触发的可操作控件的描述文本中提取关键词，再将提取到的关键词获取为第一语音控制指令的关键词。例如，以上述各个可操作控件是某购物类应用程序涉及的购物类应用程序图标、账户控件以及账户设置控件为例，终端生成第一语音控制指令后，可以获取上述三个可操作控件中的最后一个可操作控件(即账户设置控件)的描述文本(比如，该描述文本为“账户设置”)，并对该描述文本进行关键词提取，获得关键词“账户”和“设置”，并将该关键词“账户”和“设置”获取为第一语音控制指令的关键词。

或者，在另一种可能的实现方式中，终端可以获取上述各个可操作控件中的第一个和最后一个被触发的可操作控件的描述文本，并从该第一个和最后一个被触发的可操作控件的描述文本中提取关键词，再将提取到的关键词获取为第一语音控制指令的关键词。例如，以上述各个可操作控件是某购物类应用程序涉及的购物类应用程序图标、账户控件以及账户设置控件为例，终端生成第一语音控制指令后，可以获取上述三个可操作控件中的第一个和最后一个可操作控件(即购物类应用程序图标和账户设置控件)的描述文本(比如，该描述文本为“X东”和“账户设置”)，并对该描述文本进行关键词提取，获得关键词“X东”、“账户”和“设置”，并将该关键词“X东”、“账户”和“设置”获取为第一语音控制指令的关键词。

在步骤307中，建立该第一语音控制指令与该第一语音控制指令的关键词之间的对应关系。

终端获取到第一语音控制指令的关键词后，即可以在终端中建立第一语音控制指令与该第一语音控制指令的关键词之间的对应关系，比如，将第一语音控制指令与该第一语音控制指令的关键词对应存储入语音指令索引列表中，以便后续接收到的指令语音后，可以从该语音指令索引列表中查找到对应的语音控制指令。

在步骤308中，接收到一指令语音时，对该指令语音进行语音识别，获得语音识别文本。

在生成上述第一语音控制指令后，终端后续再次接收到指令语音时，对指令语音进行识别，获得语音识别文本。

在步骤309中，当该语音识别文本与该第一语音控制指令的关键词相匹配时，根据该第一语音控制指令与该第一语音控制指令的关键词之间的对应关系获取该第一语音控制指令。

终端对新接收到的指令语音进行识别获得上述语音识别文本后，将获得的语音识别文本与终端中已经存储的各个语音控制指令对应的关键词进行匹配，当查询到与该语音识别文本相匹配的关键词是第一语音控制指令的关键词时，终端根据查询结果获取该第一语音控制指令。

在步骤310中，依次执行该第一语音控制指令中包含的各个该触发指令。

其中，终端依次执行第一语音控制指令中包含的各个该触发指令的过程可以如下：

在展示第一触发指令对应的页面的过程中，每隔预设时长对进入该第一触发指令对应的页面后接收到的系统事件进行一次过滤，获得满足预设条件的最后一次有效系统事件；该第一触发指令是该第一语音控制指令中包含的各个该触发指令中的任意触发指令；当连续两次过滤获得的最后一次有效系统事件是同一系统事件时，在该第一触发指令对应的页面中执行该第一触发指令。

其中，该预设条件包括：系统事件对应的页面为该当前页面；系统事件对应在该当前页面中的位置包含可操作控件；以及，系统事件的事件类型为指定事件类型。

在本公开实施例中，执行触发指令时，可以通过终端自带的辅助模式来模拟点击相应的可操作控件来实现，其中，辅助模式作为一个系统服务运行在终端的操作系统中，辅助模式本身是非常消耗电量和内存的。相关技术中，在模拟点击时，辅助服务每次检测到窗口变化(即接收到系统事件)都会进行一次点击，而窗口的变化非常多，在通常情况下，辅助服务在1s内可以接收到100次以上的系统事件。在本公开实施例中，终端可以对接收到的系统事件进行一次剪枝，直到确认窗口不再发生变化时，才会在当前窗口中进行可操作控件的搜索，从而减少耗电量和处理器计算量，其中，上述的剪支方式，可以通过窗口(即页面)的标识、间隔时间、窗口变化的区域(rect)和系统事件的类型来实现。比如，一个窗口发生变化的过程，通常发生在2s内，因此，终端通过辅助模式每收到一次系统事件，就将接收到的事件推送到一个事件队列中，每间隔500ms(不同终端的时间间隔可以不一样)在队列里面进行一次快速过滤，将无效的事件去除(即去除窗口类型对应的窗口不是当前窗口、窗口中发生变化的区域不存在可操作控件以及事件类型不属于点击事件的系统事件，都属于无效的时间)，然后终端取最后一次有效的事件，当连续两次过滤后得到的有效事件相同，即认为窗口不再发生变化，此时，通过辅助模式在窗口中模拟点击相应的可操作控件。

在步骤311中，在上述指定状态下，获取第一控件所在的页面中，除该第一控件之外的其它可操作控件的控件信息；该第一控件是该各个可操作控件中的任意可操作控件。

在记录应用程序中的指定页面对应的控件触发信息的过程中，对于每一级页面，终端除了记录用户触发的可操作控件之外，还可以记录该页面中未被用户触发的其它可操作控件的控件信息。比如，以上述各个可操作控件是某购物类应用程序涉及的购物类应用程序图标、账户控件以及账户设置控件为例，终端在记录用户操作的过程中，对于其中账户控件所在的页面，该页面中除了包含账户控件之外，还包含其他可操作控件，比如购物车控件、发现控件以及多个商品分类控件等等，终端除了记录账户控件的控件信息，还可以分别记录购物车控件、发现控件以及多个商品分类控件的控件信息(即上述第一控件之外的其它可操作控件的控件信息)。相应的，对于其中的账户设置控件所在的页面，该页面中除了包含账户设置控件之外，还包含其它诸如优惠券控件、代金券控件以及余额控件等，终端除了记录账户设置控件的控件信息，还可以分别记录优惠券控件、代金券控件以及余额控件等可操作控件的控件信息。

在步骤312中，获取该第一控件所在的页面的各级入口控件的控件信息，该各级入口控件是依次被触发以进入该第一控件所在的页面的可操作控件。

在本公开实施例中，一个页面的入口控件可以是在该页面的上一级页面中，用于触发进入该页面的可操作控件。

比如，以上述各个可操作控件是某购物类应用程序涉及的购物类应用程序图标、账户控件以及账户设置控件为例，假设第一控件为账户设置控件，则该第一控件的各级入口控件分别为购物类应用程序图标和账户控件。

在步骤313中，根据该各级入口控件的控件信息，以及该其它可操作控件的控件信息，生成该其它可操作控件对应第二语音控制指令，该第二语音控制指令用于在接收到对应的指令语音时，控制展示通过该其它可操作控件触发进入的页面。

在本公开实施例中，终端在生成第二语音控制指令时，可以生成上述各级入口控件分别对应的触发指令，以及该其它可操作控件对应的触发指令，并将上述各级入口控件分别对应的触发指令以及该其它可操作控件对应的触发指令，按照对应的控件的层级顺序进行排列，获得上述第二语音控制指令。

对于上述第二语音控制指令，终端还可以进一步获得该第二语音控制指令的关键词，并建立第二语音控制指令和第二语音控制指令的关键词之间的对应关系。

其中，在获取上述第二语音控制指令的关键词时，终端可以获取第二语音控制指令涉及的各个可操作控件的描述文本，并从第二语音控制指令涉及的各个可操作控件的描述文本中提取该第二语音控制指令的关键词。

本公开实施例上述方案可以应用于对终端中的语音控制功能进行教学的场景。比如，用户触发生成新的语音控制指令后，终端开始进行教学，并进入录屏状态，当用户点开一应用程序，语音控制功能服务通过终端内置的辅助功能抓取应用程序页面上的可点击按钮(对应上述可操作控件)的位置和按钮的信息(例如按钮相对于屏幕的控件层级路径、按钮区域、类型、以及文字等，对应上述控件信息)，然后将获取到的可点击按钮的位置和按钮的信息放入用户节点列表(User node list)中。同时，终端记录用户点击的按钮的信息，当用户点击完成后，生成用户依次点击的按钮对应的触发指令列表(对应上述第一语音控制指令)。同时，对于放入用户节点列表中的按钮的信息，终端可以主动生成相应的语音控制指令和索引，当用户下一次通过语音控制触发雷同的功能时，可以从建立的索引寻找中寻找相应的语音控制指令，不用再让用户进行教学。

请参考图4至图6，其示出了本公开实施例涉及的生成语音控制指令的示意图。如图4所示，首先，在用户触发生成新的语音控制指令后，终端进入录屏状态，同时在屏幕顶层覆盖一层透明或半透明控件，该透明或半透明控件的作用是拦截用户的点击事件(onTouchEvent)，比如action_down事件等。当终端判定本次点击事件是有效的点击事件(比如，当该点击事件对应的位置处存在可操作控件时，确认该点击事件是有效的点击事件)时，终端将该有效的点击事件的坐标(x，y)添加到用户点击列表(click List)中。

如图5所示，在将该有效的点击事件的坐标添加到用户点击列表的同时，终端通过辅助功能开始对坐标(x，y)进行控件匹配，并且，将当前页面(比如actvity页面)的所有控件中，涉及到点击(click)事件的按钮控件都添加到概要信息列表(btnList)中，该btnList中每个单元存储对应的一个按钮的概要信息，例如按钮的标识、按钮的区域(rect)、标题(text)、无障碍描述、按钮的路径以及页面层级等等。之后，终端将按钮的概要信息，结合按钮的位置信息、按钮类型以及所在页面的名称，一并存入用户节点列表。

同时，终端将上述坐标(x，y)匹配到的控件(即用户触发的可操作控件)的信息，结合位置信息存入用户点击节点列表(clicknodelist)。终端重复执行上述步骤，直到结束录屏。

在结束录屏后，终端可以根据用户点击节点列表生成进入用户最后一次点击进入的页面的语音控制指令(即上述第一语音控制指令)。此外，如图6所示，终端还根据用户节点列表进行指令扩展，组合生成其他可用的语音控制指令(即上述第二语音控制指令)。

此外，本公开实施例所示的方案，终端可以根据记录用户触发的可操作控件的过程所涉及的各个页面中的其它控件，扩展生成其他可用的语音控制指令，从而实现了通过一次教学生成多条语音控制指令，提高了语音控制指令的生成效率。

图7是根据一示例性实施例示出的一种生成语音控制指令的装置的框图，如图7所示，该生成语音控制指令的装置可以通过硬件或者软硬结合的方式实现为终端的全部或者部分，以执行图1至图3任一所示实施例所示的步骤。该生成语音控制指令的装置可以包括：

信息记录模块701，用于记录应用程序中的指定页面对应的控件触发信息，所述控件触发信息用于指示在进入所述指定页面的过程中依次接收到触发操作的各个可操作控件；

第一指令生成模块702，用于根据所述控件触发信息生成第一语音控制指令，所述第一语音控制指令用于在接收到对应的指令语音时，控制展示所述指定页面。

基于图7所示的生成语音控制指令的装置，请参考图8，其是根据一示例性实施例示出的另一种生成语音控制指令的装置的框图。如图8所示，所述第一指令生成模块702，包括：

触发指令生成子模块702a，用于根据所述控件触发信息生成所述各个可操作控件各自对应的触发指令，所述触发指令用于指示所述终端模拟触发对应的可操作控件；

指令获得子模块702b，用于按照在进入所述指定页面的过程中依次接收到触发操作的顺序，将所述各个可操作控件各自对应的触发指令依次排序，获得所述第一语音控制指令。

可选的，所述装置还包括：

执行模块703，用于接收到所述第一语音控制指令对应的指令语音时，依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述装置还包括：

关键词获取模块704，用于在所述执行模块依次执行所述第一语音控制指令中包含各个所述触发指令之前，获取所述第一语音控制指令的关键词；

关系建立模块705，用于建立所述第一语音控制指令与所述第一语音控制指令的关键词之间的对应关系；

所述执行模块703，包括：

识别子模块703a，用于接收到一指令语音时，对所述指令语音进行语音识别，获得语音识别文本；

指令获取子模块703b，用于当所述语音识别文本与所述第一语音控制指令的关键词相匹配时，根据所述第一语音控制指令与所述第一语音控制指令的关键词之间的对应关系获取所述第一语音控制指令；

执行子模块703c，用于依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述关键词获取模块704，包括：第一获取子模块704a或者第二获取子模块704b；

所述第一获取子模块704a，用于获取对输入语音进行识别获得的所述第一语音控制指令的关键词；

所述第二获取子模块704b，用于获取所述各个可操作控件的描述文本，从所述各个可操作控件的描述文本中提取所述第一语音控制指令的关键词。

可选的，所述执行模块703，用于，

可选的，所述预设条件包括：

系统事件对应的页面为所述当前页面；

系统事件对应在所述当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

可选的，所述信息记录模块701，包括：

状态进入子模块701a，用于在接收到开始记录的操作时，进入指定状态；

添加子模块701b，用于在所述指定状态下，每次接收到在当前页面中的有效的控件触发操作时，将所述控件触发操作对应的可操作控件的控件信息添加入控件信息列表；

第三获取子模块701c，用于在接收到结束记录的操作时，将所述控件信息列表中包含的各个控件信息获取为所述控件触发信息；

可选的，所述装置还包括：

第一控件信息获取模块706，用于获取第一控件所在的页面中，除所述第一控件之外的其它可操作控件的控件信息；所述第一控件是所述各个可操作控件中的任意可操作控件；

第二控件信息获取模块707，用于获取所述第一控件所在的页面的各级入口控件的控件信息，所述各级入口控件是依次被触发以进入所述第一控件所在的页面的可操作控件；

第二指令生成模块708，用于根据所述各级入口控件的控件信息，以及所述其它可操作控件的控件信息，生成所述其它可操作控件对应第二语音控制指令，所述第二语音控制指令用于在接收到对应的指令语音时，控制展示通过所述其它可操作控件触发进入的页面。

可选的，所述控件信息包括以下信息中的至少一种：

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开一示例性实施例提供了一种生成语音控制指令的装置，能够实现本公开上述图1至图3任一所示实施例中的全部或部分步骤，该生成语音控制指令的装置包括：处理器、用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

可选的，所述处理器还被配置为：接收到所述第一语音控制指令对应的指令语音时，依次执行所述第一语音控制指令中包含的各个所述触发指令。

可选的，所述处理器还被配置为：在依次执行所述第一语音控制指令中包含各个所述触发指令之前，获取所述第一语音控制指令的关键词；

可选的，所述获取所述第一语音控制指令的关键词，包括：

或者，

可选的，所述预设条件包括：

系统事件对应的页面为所述当前页面；

系统事件对应在所述当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

在接收到开始记录的操作时，进入指定状态；

可选的，所述处理器还被配置为：

可选的，所述控件信息包括以下信息中的至少一种：

图9是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述终端。该计算机设备可以实现为本公开上述方案中具有语音控制功能的终端设备。所述计算机设备900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本公开的各种实施例，所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器901通过执行该一个或一个以上程序来实现图1至图3所示的方法的全部或者部分步骤。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本公开实施例还提供了一种计算机存储介质，用于储存为上述终端所用的计算机软件指令，其包含用于执行上述生成语音控制指令的方法所设计的程序。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种生成语音控制指令的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述控件触发信息生成第一语音控制指令，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

接收到所述第一语音控制指令对应的指令语音时，依次执行所述第一语音控制指令中包含的各个所述触发指令。

4.根据权利要求3所述的方法，其特征在于，所述依次执行所述第一语音控制指令中包含各个所述触发指令之前，还包括：

获取所述第一语音控制指令的关键词；

5.根据权利要求4所述的方法，其特征在于，所述获取所述第一语音控制指令的关键词，包括：

或者，

6.根据权利要求3或4所述的方法，其特征在于，所述依次执行所述第一语音控制指令中包含的各个所述触发指令，包括：

7.根据权利要求6所述的方法，其特征在于，所述预设条件包括：

系统事件对应的页面为所述当前页面；

系统事件对应在所述当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

8.根据权利要求1所述的方法，其特征在于，所述记录应用程序中的指定页面对应的控件触发信息，包括：

在接收到开始记录的操作时，进入指定状态；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求6或9所述的方法，其特征在于，所述控件信息包括以下信息中的至少一种：

11.一种生成语音控制指令的装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述第一指令生成模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13任一所述的装置，其特征在于，所述装置还包括：

所述执行模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述关键词获取模块，包括：第一获取子模块或者第二获取子模块；

16.根据权利要求13或14所述的装置，其特征在于，所述执行模块，用于，

17.根据权利要求16所述的装置，其特征在于，所述预设条件包括：

系统事件对应的页面为所述当前页面；

系统事件对应在所述当前页面中的位置包含可操作控件；

以及，系统事件的事件类型为指定事件类型。

18.根据权利要求11所述的装置，其特征在于，所述信息记录模块，包括：

19.根据权利要求11所述的装置，其特征在于，所述装置还包括：

20.根据权利要求16或19所述的装置，其特征在于，所述控件信息包括以下信息中的至少一种：

21.一种生成语音控制指令的装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含可执行指令，终端中的处理器调用所述可执行指令以实现上述权利要求1至10任一所述的生成语音控制指令的方法。