CN112530433B

CN112530433B - 一种通用语音指令生成方法、装置和增强现实显示设备

Info

Publication number: CN112530433B
Application number: CN202011399164.8A
Authority: CN
Inventors: 刘伟明
Original assignee: Hangzhou Companion Technology Co ltd
Current assignee: Hangzhou Companion Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2023-11-07
Anticipated expiration: 2040-12-01
Also published as: US20240021197A1; CN112530433A; WO2022116969A1

Abstract

本公开涉及一种语音指令生成方法及装置，该方法包括：获取应用程序的显示界面的View树内容；遍历所述View树内容中各信息节点，并根据信息节点的属性，为不同的信息节点配置不同的语音指令；将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合。

Description

一种通用语音指令生成方法、装置和增强现实显示设备

技术领域

本公开涉及软件技术领域,特别是涉及一种通用语音指令生成方法及装置。

背景技术

增强现实显示设备通常不具备可直接触控屏幕的人机交互界面，因此语音交互成为增强现实显示设备的首选交互方式。现有的语音指令设置需要应用先集成指令插件SDK，然后通过SDK来设置当前页面的各种语音指令及功能回调实现，同时实现操控提示UI及帮助UI。系统自有应用集成语音插件SDK较为容易，但第三方开发者及第三方应用集成使用起来较为繁琐，同时也难以将语音控制推广运用到广大第三方横屏应用中，集成语音插件SDK常常需要对第三方应用进行代码入侵，也无法实现根据不同语音指令操控不同控件。

发明内容

本公开的目的在于提供一种通用语音指令生成方法以及装置。

本公开的目的是采用以下的技术方案来实现的。依据本公开提出的一种通用语音指令生成方法包括：获取应用程序的显示界面的View树内容；遍历所述View树内容中各信息节点，并根据信息节点的属性，为不同的信息节点配置不同的语音指令；将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合。

本公开的目的还可以采用以下的技术措施来进一步实现。

前述的通用语音指令生成方法，所述获取应用程序的显示界面的View树内容通过Android系统无障碍服务功能实现。

前述的通用语音指令生成方法，其中所述遍历所述View树内容中各信息节点，并根据信息节点的属性，为不同的信息节点配置不同的语音指令包括：逐级逐节点递归遍历所述View树内容中的各信息节点，并在遍历过程中，对每个信息节点给与每个策略挑选器逐个挑选；将经过挑选后生成的指令存储在所述每个策略挑选器中，并配置相应的语音指令类型。

前述的通用语音指令生成方法，其中所述策略挑选器包括：点击策略挑选器、文字策略挑选器、列表策略挑选器、遥控器策略挑选器、以及自定义协议策略挑选器。

前述的通用语音指令生成方法，其中采用点击策略挑选器、文字策略挑选器、列表策略挑选器、遥控器策略挑选器、自定义协议策略挑选器的顺序依次对所述View树内容进行遍历。

前述的通用语音指令生成方法，其中所述将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合包括：对重复的语音指令采用“占位优先原则”进行去重，即，先遍历出的语音指令被保留，后遍历出的语音指令被过滤。

前述的通用语音指令生成方法，其中所述将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合还包括：将所述最终语音指令集合与上一次设置的语音指令集合进行比对，若所述最终语音指令集合没有变化，则视为无效设置；否则，将所述最终语音指令集合发送至语音助手，以完成语音指令集合设置。

前述的通用语音指令生成方法，其中还包括：根据用户发出的语音指令做具体的功能执行。

前述的通用语音指令生成方法，其中所述根据用户发出的语音指令做具体的功能执行包括：对用户进行语音指令提示，并对用户发出的语音指令进行命中判定，并根据判定结果做具体的功能执行。

前述的通用语音指令生成方法，其中，所述对用户进行语音指令提示包括：在设备显示视图最上层添加轻量级系统浮层，根据每个语音指令的指令类型来进行指令提示。

本公开的目的还采用以下技术方案来实现。依据本公开提出的语音指令生成装置，包括处理器和存储器，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，执行前述的任一种语音指令生成方法。

本公开的目的还可以采用以下的技术方案来进一步实现。

依据本公开提出的增强现实显示设备，包括处理器和存储器，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，执行前述的任一种语音指令生成方法。

本发明的有益效果至少包括：不会对第三方应用做任何代码侵入即可为第三方应用在系统上运行时附加各种语音指令控制功能，方便用户通过语音使用第三方应用，此外，无代码入侵的方式更加快捷、方便，能够提升系统应用开发效率，扩大系统应用市场应用收入范围，完善系统全语音控制应用场景，方便硬件推广；本方案支持不同类型的策略挑选器，方便后续定制更各种类型的复杂指令，同时整体架构预留出不同类型的指令提示、指令功能实现，并且能够根据不同语音指令类型实现例如，点击、滑动等不同控件操控。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。

附图说明

图1是本公开一个实施例的一种通用语音指令生成方法的流程示意图；

图2是本公开一个实施例的View节点树概念图；

图3是本公开一个实施例的策略挑选中心指令探索逻辑图。

具体实施方式

为更进一步阐述本公开为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本公开提出的一种通用语音指令生成方法及装置的具体实施方式、结构、特征及其功效，详细说明如后。

图1为本公开的一个实施例的一种通用语音指令生成方法的流程示意图；图2是本公开一个实施例的View节点树概念图；图3是本公开一个实施例的策略挑选中心指令探索逻辑图。

请参阅图1，本公开示例的一种通用语音指令生成方法，主要包括以下步骤：

步骤S11，获取应用程序的显示界面的View树内容。

具体地，通过Android系统无障碍服务功能获取应用程序的显示界面的View树内容，该Android系统无障碍服务功能具有辅助功能(Accessbility),此功能是Android官方推出帮助身体不便或者操作不灵活的人来辅助操作设备的。本申请中通过辅助功能接收设备中应用程序的显示界面的View树(也即，控件树)内容。设备当前显示界面的View树内容为节点树的形式，View节点树的概念如图2所示。需要说明的是，View树内容包括根信息节点(RootNodeInfo)、以及每个ViewGroup下的各种信息节点(NodeInfo)，各种信息节点(NodeInfo)具有属性，例如，带有可点击属性的AccessibilityNodeInfo、带有可点击属性并且text内容不为空的AccessibilityNodeInfo、继承ListView、GridView、RecyclerView的AccessibilityNodeInfo、带有可聚焦属性的AccessibilityNodeInfo等，此后处理进入步骤S12。

步骤S12，遍历所述View树内容中各信息节点，并根据信息节点的属性，为不同的信息节点配置不同的语音指令。

具体地，在后台辅助服务进程内部建立一个指令创建中心，用于遍历View树内容中各信息节点，并通过策略管理中心的各个策略挑选器对各信息节点的各种策略挑选，以生成语音指令。其中，策略管理中心的策略挑选器采用组合遍历模式，跟随指令创建中心一起创建。如图3所示，该指令创建中心从根信息节点(RootNodeInfo)开始指令探索，对View树内容中各信息节点采用逐级逐节点递归遍历，对遍历过程中的每个信息节点给予策略管理中心的策略挑选器逐个挑选，以生成语音指令，经过挑选后生成的语音指令存储在各个策略挑选器中，并配置相应的指令类型例如，点击、文字、滑动、遥控、翻页等指令类型。

在一个或多个实施例中，用到的策略挑选器包括：点击策略挑选器、文字策略挑选器、列表策略挑选器、遥控器策略挑选器、以及自定义协议策略挑选器。具体地，点击策略挑选器：挑选带有可点击属性的AccessibilityNodeInfo并汇总成集合，根据View中心点离屏幕左上角距离进行排序，生成“打开第*个”的中英文指令。文字策略挑选器：挑选带有可点击属性并且text内容不为空的AccessibilityNodeInfo，生成text文字内容的语音指令。在其中一个实施例中，当text内容为中文且字符数大于8时，选择前4-8个字符作为指令，当text内容为英文且单词数大于4时，选择前2-4个单词作为指令。在另一个实施例中，若中文字的字符数小于8时或英文的单词数小于4时，则可以在text内容前加入“打开”、“Open”、“点击”等辅助词语，以增加语音指令的长度，避免语音指令在过段的情况下的识别率下降。列表策略挑选器：挑选继承ListView、GridView、RecyclerView的AccessibilityNodeInfo，根据滑动策略，生成“向上滑”、“向下滑”、“向左滑”、“向右滑”等滑动指令，同时做探索标记，联合后续子节点遍历流程，可生成“选择N项”指令。遥控器策略挑选器：当AccessibilityNodeInfo存在具有可聚焦属性时，整体可以支持关键节点操控，可以开启遥控器操作指令，如“遥控向上”来模拟关键节点上移事件。自定义协议策略挑选器:当AccessibilityNodeInfo中内容描述属性内容不为空的时候，可以进行自定义协议的探测，如内容中包含一个特殊字符串的前缀，例如[前缀：后缀](其中后缀可以包括多个内容，并用逗号间隔)，具体示例可以为：[rokid:name＝下一页，pingyin＝xiayi ye]，在这个具体示例中，“rokid”为某自定义协议的名称，为系统开发者集成在系统的语音指令协议。在检测到该特殊字符的前缀的时候，则视为自定义协议设置，提取其中内容，依照自定义协议的定义，生成对应指令。如“name＝下一页”，生成“下一页”指令。本发明技术方案能够支持不同类型的策略挑选器，方便后续定制更各种类型的复杂指令。同时整体架构预留出不同类型的指令提示、指令功能实现，方便后续扩展。在其中一个实施例中，可以采用顺序的方式使用不同的策略挑选器对View树进行遍历，即可以按照点击策略挑选器、文字策略挑选器、列表策略挑选器、遥控器策略挑选器、自定义协议策略挑选器的顺序对View树进行遍历。此后处理进入步骤S13。

步骤S13，将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合。

具体地，对重复的语音指令进行去重。在其中一个实施例中，去重会采用“占位优先原则”对指令名称进行去重，即先遍历出现的语音指令会被优先保留，后面出现的语音指令会被过滤掉。在另一个实施例中，可以由用户手动对语音指令去重，以去掉用户不常用或不需要的控件对应的语音指令。

具体地，步骤S13还包括：将所述最终语音指令集合与上一次设置的语音指令集合进行比对，若

所述最终语音指令集合没有变化，则视为无效设置；

否则，将所述最终语音指令集合发送至语音助手，以完成语音指令集合设置。

最终语音指令集合被发送到常驻系统的语音助手，由语音助手根据语音指令集合中的具体指令的标准发音生成对应的语音指令特征，并对这些语音指令生效、和监听用户发出的语音信号，以判断用户发出的语音信号是否和语音指令特征匹配。需要说明的是，语音助手是整个设备系统语音所有功能相关的主要后台系统服务应用，内部运行中文、英文语音算法模型，支持各种语音识别运算。能够接收硬件麦克风声音数据输入，运算后输出正确的语音识别内容。同时能够接收各种语音指令设置，输出语音指令识别结果。支持使用端与其进行IPC跨进程交互。

可选地，所述语音指令生成方法还包括：步骤S14，根据用户发出的语音指令做具体的功能执行。

具体地，所述根据用户发出的语音指令做具体的功能执行包括：

建立指令交互中心，对用户进行语音指令提示，并对用户发出的语音指令进行命中判定，并根据判定结果做具体的功能执行。

具体地，步骤S14中对用户进行语音指令提示包括：最终语音指令集合设置成功后，UI提示中心对正在使用第三方应用的用户进行指令提示，UI提示中心在设备显示视图层次最上层，添加一个轻量级系统浮层，根据每个语音指令的指令类型来进行指令提示。以下给出示例性指令提示策略；

点击指令：所在View树内容的左上角会以白色圆圈为背景，中间黑色指令数字为标记；

文字指令：所在View树内容底部会用绿色横线标记；

滑动指令：所在View树内容会闪烁一次滑动标记；

遥控指令：所在View树内容中部具有圆环聚焦点。

具体地，步骤S14中对用户发出的语音指令进行命中判定，并根据判定结果做具体的功能执行包括：

语音助手对用户发出的语音指令进行命中判定，如果在当前设置的最终语音指令集合中，语音助手会通过IPC跨进程交互将指令命中结果发送至指令交互中心进行处理；

指令交互中心在最终语音指令集合中根据判定结果查找相关语音指令信息，

若存在，则当前语音指令是有效指令，在找到的语音指令信息中根据指令类型做具体的功能执行；

若不存在，则忽略处理。以下给出指令功能执行示例：

点击指令：通过系统无障碍服务，控制指令对应的AccessibilityNodeInfo模拟点击事件；

文字指令：通过系统无障碍服务，控制指令对应的AccessibilityNodeInfo模拟文字内容；

滑动指令：通过系统无障碍服务，控制指令对应的AccessibilityNodeInfo模拟滑动事件；

遥控指令：通过系统无障碍服务，控制指令对应的AccessibilityNodeInfo模拟移动事件。

以上，根据本公开实施例的一种语音指令生成方法，不会对第三方应用做任何代码侵入即可为第三方应用在系统上运行时附加各种语音指令控制功能，方便用户通过语音使用第三方应用，此外，无代码入侵的方式更加快捷、方便，能够提升系统应用开发效率，扩大系统应用市场应用收入范围，完善系统全语音控制应用场景，方便硬件推广；本方案支持不同类型的策略挑选器，方便后续定制更各种类型的复杂指令，同时整体架构预留出不同类型的指令提示、指令功能实现，并且能够根据不同语音指令实现例如，点击、滑动、遥控、文字等不同控件操控。

在本发明的另一方面，本发明的一个或多个实施方式还提供了一种语音指令生成装置，包括处理器和存储器，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，执行以下步骤：

获取应用程序的显示界面的View树内容；

遍历所述View树内容中各信息节点，并根据信息节点的属性，为不同的信息节点配置不同的语音指令；

将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合。

可以理解，上述语音指令生成装置还可以实现前文所述的一个或多个步骤，在此不再赘述。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

1.一种通用语音指令生成方法，所述方法包括：

获取应用程序的显示界面的View树内容；

遍历所述View树内容中各信息节点，并根据信息节点的属性，为不同的信息节点配置不同的语音指令，包括：

逐级逐节点递归遍历所述View树内容中的各信息节点，并在遍历过程中，对每个信息节点给与每个策略挑选器逐个挑选，将经过挑选后生成的指令存储在所述每个策略挑选器中，并配置相应的语音指令类型，为不同的信息节点配置不同的语音指令；

2.根据权利要求1所述的通用语音指令生成方法，其中，所述获取应用程序的显示界面的View树内容通过Android系统无障碍服务功能实现。

3.根据权利要求1所述的通用语音指令生成方法，其中，所述策略挑选器包括：点击策略挑选器、文字策略挑选器、列表策略挑选器、遥控器策略挑选器、以及自定义协议策略挑选器。

4.根据权利要求3所述的通用语音指令生成方法，其中，采用点击策略挑选器、文字策略挑选器、列表策略挑选器、遥控器策略挑选器、自定义协议策略挑选器的顺序依次对所述View树内容进行遍历。

5.根据权利要求1所述的通用语音指令生成方法，其中，所述将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合包括：对重复的语音指令采用“占位优先原则”进行去重，即，先遍历出的语音指令被保留，后遍历出的语音指令被过滤。

6.根据权利要求5所述的通用语音指令生成方法，其中，所述将显示界面内的所有的语音指令汇总，并进行指令混合和过滤，以形成最终语音指令集合还包括：

将所述最终语音指令集合与上一次设置的语音指令集合进行比对，若所述最终语音指令集合没有变化，则视为无效设置；

7.根据权利要求1所述的通用语音指令生成方法，其中，还包括：根据用户发出的语音指令做具体的功能执行。

8.根据权利要求7所述的通用语音指令生成方法，其中，所述根据用户发出的语音指令做具体的功能执行包括：

对用户进行语音指令提示，并对用户发出的语音指令进行命中判定，并根据判定结果做具体的功能执行。

9.根据权利要求8所述的通用语音指令生成方法，其中，所述对用户进行语音指令提示包括：

在设备显示视图最上层添加轻量级系统浮层，根据每个语音指令的指令类型来进行指令提示。

10.一种通用语音指令生成装置，包括处理器和存储器，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，执行所述权利要求1-9中任一项所述的一种语音指令生成方法。

11.一种增强现实显示设备，包括处理器和存储器，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，执行所述权利要求1-9中任一项所述的一种语音指令生成方法。