CN113641280A

CN113641280A - 无障碍模式下的设备控制方法、控制方法及设备

Info

Publication number: CN113641280A
Application number: CN202110796462.9A
Authority: CN
Inventors: 张建锋; 张怡远; 金雅博; 黄刚
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-12

Abstract

本申请实施例提供了一种无障碍模式下的设备控制方法、控制方法及设备。其中，采集用户语音数据；识别所述用户语音数据中的控制指令；模拟执行所述控制指令对应的界面控制操作，以便基于所述界面控制操作实现对应的控制处理；输出控制处理结果的第一提示信息。本申请实施例提供的技术方案提高了操作便利性，提高了信息输入效率。

Description

无障碍模式下的设备控制方法、控制方法及设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种无障碍模式下的设备控制方法、控制方法、电子设备及音频采集设备。

背景技术

为了帮助视障用户或者暂时无法使用眼睛进行视觉交互的用户或者无法理解屏幕信息的用户等，可以更加方便的使用手机等智能设备，目前智能设备通常均支持无障碍模式，在无障碍模式下，智能设备可以采用语音形式实现信息的输出反馈，并借助语音反馈信息用户可以对用户界面进行界面控制操作实现信息输入，以实现控制处理。但是，现有的这种无障碍交互方式可能需要用户遍历查找用户界面中的所有可操作元素，再逐一基于每一次用户交互操作的语音反馈内容确定是否操作正确或者执行语音指示的特定操作才能实现信息输入，输入难度大操作很不便利，输入效率低。

发明内容

本申请实施例提供一种无障碍模式下的控制方法、控制方法及设备，用以解决现有技术中设备操作不便利，信息输入效率低的技术问题。

第一方面，本申请实施例中提供了一种控制方法，包括：

采集用户语音数据；

识别所述用户语音数据中的控制指令；确定所述控制指令命中的至少一个节点

模拟执行生成所述控制指令用户所需执行的界面控制操作，以便基于所述界面控制操作实现对应的控制处理；

输出控制处理结果的第一提示信息。

可选地，所述模拟用户执行所述控制指令对应的界面控制操作，以便基于所述界面控制操作实现对应的控制处理包括：

查找应用节点树，确定所述控制指令所命中的至少一个节点及所述至少一个节点的层级关系；其中，所述应用节点树为由桌面、桌面索引的多个应用程序、所述应用程序提供的多个可操作元素分别作为节点、并根据节点之间的索引关系构建的树形结构；

按照至少一个节点之间的层级关系，依次模拟执行所述至少一个节点分别对应的界面控制操作，以便基于所述界面控制操作实现对应的控制处理。

可选地，所述查找应用节点树，确定所述控制指令所命中的至少一个节点及所述至少一个节点的层级关系包括：

确定所述控制指令包含的目标节点；

查找应用节点树，从叶子节点开始向上查找，确定所述目标节点及所述目标节点关联的节点，作为所述控制指令所命中的至少一个节点；

确定所述至少一个节点之间的层级关系；

按照所述至少一个节点之间的层级关系，依次模拟执行所述至少一个节点分别对应的界面控制操作。

可选地，该方法还包括：

确定系统接入的多个应用程序及所述多个应用程序分别提供的多个可操作元素；

将桌面、所述多个应用程序以及多个应用程序分别提供的多个可操作元素分别作为节点，并根据节点之间的索引关系构建所述应用节点树。

可选地，该方法还包括：

建立与音频采集设备的通信连接；

所述采集用户语音数据包括：

利用所述音频采集设备采集用户语音数据；其中，所述音频采集设备设置有按键，所述用户语音数据为所述音频采集设备检测到针对第一按键的第一触发操作时启动采集，并在检测到针对第二按键的第二触发操作时结束采集而获得。

可选地，所述控制指令对应控制处理结果为显示目标页面；所述方法还包括：

确定所述目标页面中符合用户操作意图的焦点；

在所述目标页面在用户界面中载入完成，聚焦至所述焦点。

可选地，所述确定所述目标页面中符合用户操作意图的目标节点包括：

根据所述目标页面的历史操作数据和/或用户历史行为数据，确定所述目标页面中的目标节点。

可选地，所述模拟执行生成所述控制指令用户所需执行的界面控制操作包括：

调用无障碍服务模拟执行生成所述控制指令用户所需执行的界面控制操作。

可选地，该方法还包括：

查找指令集合中是否存在所述控制指令；

若是，执行所述模拟执行所述控制指令对应的界面控制操作的步骤；

若否，输出错误提示信息。

可选地，输出控制处理结果对应的第一提示信息包括

以语音形式输出控制处理结果对应的第一提示信息。

可选地，所述识别所述用户语音数据中的控制指令包括：

将所述用户语音数据解析为语音识别文本；

按照过滤规则，对所述语音识别文本进行过滤修正，获得控制指令。

可选地，该方法还包括：

接收服务端下发的应用节点树的更新信息，以更新所述应用节点树。

可选地，该方法还包括：

接收服务端下发的指令集的更新信息，以更新所述指令集。

可选地，该方法还包括：

针对应用节点树中的任一节点，配置生成启动所述节点的控制指令；

将所述控制指令保存至所述指令集中。

可选地，从叶子节点开始向上查找，确定所述目标节点以及所述目标节点关联的节点，作为所述控制指令所命中的至少一个节点包括：

查找应用节点树，从叶子节点开始向上查找；

若同一层级存在多个目标节点，选择优先级高的目标节点作为命中节点；

查找与所述目标节点关联的节点，作为命中节点。

可选地，所述模拟执行所述控制指令对应的界面控制操作包括：

判断所述控制指令是否包括目标节点；

若是，模拟执行所述控制指令对应的界面控制操作；

若否，调用无障碍服务响应所述控制指令。

可选地，所述按照所述至少一个节点之间的层级关系依次模拟执行所述至少一个节点分别对应的界面控制操作包括：

按照所述至少一个节点之间的层级关系，针对当前待处理节点，获取当前界面的页面节点树；

根据所述页面节点树确定所述节点所在的页面位置，基于所述页面位置模拟执行对应的界面控制操作。

可选地，所述采集用户语音数据包括：

检测到针对第三按键的第三触发操作，启动语音采集；

检测到针对第四按键的第四触发操作，结束语音采集，以获得用户语音数据。

可选地，所述采集用户语音数据包括：

检测电子设备处于无障碍模式，采集用户语音数据。

第二方面，本申请实施例中提供了一种无障碍模式下的设备控制方法，包括：

启动所述无障碍模式；

采集用户语音数据；

识别所述用户语音数据中的控制指令；

若控制处理结果为显示目标页面，确定所述目标页面中符合用户操作意图的焦点；

在所述目标页面在用户界面中载入完成，聚焦至所述焦点；

输出第二提示信息。

可选地，所述确定所述目标页面中符合用户操作意图的焦点包括：

第三方面，本申请实施例中提供了一种控制方法，包括：

检测到针对第一按键的第一触发操作，启动语音采集；

检测到针对第二按键的第二触发操作，结束语音采集，以获得用户语音数据；

将所述用户语音数据发送至电子设备，以供所述电子设备识别所述用户语音数据中的控制指令；模拟执行生成所述控制指令用户所需执行的界面控制操作，以便于基于所述界面控制操作实现对应的控制处理；输出控制处理结果对应的第一提示信息。

第四方面，本申请实施例中提供了一种电子设备，包括存储组件、显示组件以及处理组件；所述存储组件存储一条或多条计算机程序指令；所述显示组件提供用户界面；所述一条或多条计算机程序指令以供所述处理组件调用并执行，以实现如上述第一方面所述的控制方法，或者如上述第二方面所述的无障碍模式下的设备控制方法。

第五方面，本申请实施例中提供一种音频采集设备，包括设备本体，内置于所述设备本体中的音频采集组件、通信组件及控制组件，以及嵌于所述设备本体表面的按键；

所述控制组件利用所述通信组件建立与电子设备的通信连接；检测到针对第一按键的第一触发操作，触发所述音频采集组件启动语音采集，以及检测到针对第二按键的第二触发操作，触发所述音频采集组件结束语音采集，以获得所述音频采集组件采集得到的用户语音数据；并将所述用户语音数据利用所述通信组件发送至所述电子设备。

可选地，所述设备本体设置有容纳所述电子设备的容纳槽，或者所述设备本体为所述电子设备的组成配件，可拆卸安装于所述电子设备中；或者所述设备本体具有粘性部件，通过所述粘性部件粘贴与所述电子设备上。

本申请实施例中，采集用户语音数据；识别用户语音数据中的控制指令；模拟执行生成该控制指令用户所需执行的界面控制操作，以便于基于界面控制操作实现对应的控制处理；输出控制处理结果的第一提示信息。本申请实施例中，用户可以采用语音形式作为信息输入方式，实现设备控制，提高了设备操作便利性，提高了信息输入效率，且通过识别用户语音数据中的控制指令，采用模拟执行控制指令对应的界面控制操作的方式，以模拟对用户界面的用户执行操作，实现对应的控制处理，无需应用程序进行适配，可以实现对所有应用程序的控制。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种控制方法一个实施例的流程图；

图2示出了本申请实施例在一个实际应用中的应用节点树的示意图；

图3示出了本申请提供的一种无障碍模式下的设备控制方法一个实施例的流程图；

图4示出了本申请提供的一种控制方法又一个实施例的流程图；

图5示出了本申请提供的一种音频采集设备一个实施例的结构示意图；

图6示出了本申请实施例在一个实际应用中的场景示意图；

图7a～图7c分别示出了本申请实施例在一个实际应用中的界面示意图；

图8示出了本申请提供的一种用户端一个实施例的结构示意图；

图9示出了本申请提供的一种电子设备一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案主要提供了一种无障碍交互方式，可以提高视障用户等视觉使用受限用户操作设备的便利性。

随着电子技术和计算机技术的发展，智能设备越来越普及，智能设备通常具有用户界面，通过用户界面可以实现信息的输出反馈，并可以接收用户针对用户界面的控制操作实现对电子设备的控制处理等，特别是触摸屏技术的发展，用户通过触摸操作即可以实现对用户界面的控制操作，提高了交互便利性。

由于用户界面往往需要借助用户视觉能力才可以实现有效交互，然而，视障用户或者暂时无法使用眼睛进行视觉交互的用户或者无法理解屏幕信息的用户等也存在使用智能设备的需求，为了帮助这类用户更好的使用智能设备，正如背景技术中所述，目前的智能设备通常可以支持无障碍模式，在无障碍模式下，智能设备可以以语音形式实现用户界面中的信息的输出反馈，并借助语音反馈信息通过对用户界面的控制操作实现信息输入，例如无障碍模式下，在用户界面显示某一个页面时，会以语音形式播放该页面中的可操作元素，用户可以通过特定交互操作方式对用户界面进行操作，对用户界面中的每一次选中操作，例如单击屏幕，会相应输出语音反馈信息，以提示用户所选中的内容，用户针对所选中内容执行打开操作，例如在屏幕任意位置双击屏幕等，可以打开所选中内容等。由此可知，这种无障碍交互方式需要用户遍历查找用户界面中的所有可操作元素，再逐一基于每一次用户交互操作的语音反馈内容确定是否操作正确或者执行语音指示的特定操作以实现信息输入，操作很不便利。

发明人在实现本申请的过程中发现，智能设备的使用本质是信息的交换，智能设备借助用户界面可以向用户输出信息，并可以感知用户的输入信息。目前的无障碍交互方式中，视觉受限用户采用操作用户界面的信息输入方式，输入效率低、难度大，导致操作不够便利。发明人想到，语音作为一种信息输入方式是否可以应用于无障碍交互中，然而发明人又发现，智能设备是通过安装的各种应用程序来提供不同功能，虽然目前一些应用程序可以支持语音输入，但是仅限于应用程序内部实现，需要单独开发应用程序，实现难度更大；也存在语音助手类的应用程序，但是这类语音助手只能实现简单的问答交互，无法实现对应用程序的控制。

为了提高视觉受限用户的操作便利性，提高信息输入效率，发明人经过一系列研究提出了本申请的技术方案，在本申请实施例中，采集用户语音数据；识别用户语音数据中的控制指令；模拟执行生成控制指令用户所需执行的界面控制操作，以便于基于界面控制操作实现对应的控制处理；输出控制处理结果的第一提示信息。本申请实施例中，用户可以采用语音形式作为信息输入方式，实现设备控制，通过识别用户语音数据中的控制指令，采用模拟执行控制指令对应的界面控制操作的方式，以模拟对用户界面的用户操作，这样系统检测到界面控制操作，即可以执行对应的控制处理，无需应用程序进行适配，可以实现对所有应用程序的控制。

需要说明的是，本文中所指的用户交互操作是通过用户借助手或者其它操作物对电子设备进行接触式操作，如利用手指或者触摸笔对显示屏幕的触摸操作，以实现对用户界面的界面控制操作等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种控制方法一个实施例的流程图，本实施例的技术方案可以由电子设备中的用户端执行，该电子设备可以是手机、平板电脑等智能设备，该方法可以包括以下几个步骤：

101：采集用户语音数据。

可选地，为了不影响电子设备正常模式使用，可以是在电子设备启动无障碍模式之后，检测到电子设备处于无障碍模式，采集用户语音数据。

无障碍模式是目前电子设备支持，可以提供一些辅助功能的服务模式，其可以通过操作系统提供的Accessibility Service(无障碍服务)实现。本申请实施例中，在无障碍模式下，不仅可以支持本实施例的技术方案，也支持用户可以采用传统交互方式进行信息输入。

为了能及时准确获得用户语音数据，作为一种可选方式，可以利用音频采集设备采集用户语音数据；该音频采集设备设置有按键，用户语音数据可以是音频采集设备检测到针对第一按键的第一触发操作时启动采集，并在检测到针对第二按键的第二触发操作时结束采集而获得。

音频采集设备可以与电子设备建立通信连接，例如基于短距离通信协议建立的通信连接，比如蓝牙连接等，并可以基于该通信连接传输该用户语音数据。

其中，第一按键与第二按键可以是同一个按键，以进一步方便用户操作。第一触发操作例如可以是指按住按键的操作，第二触发操作可以是松开按键的操作。

音频采集设备可以实现为电子设备的保护套或者电子设备的后盖或者具有粘贴部件可以粘贴在电子设备，或者其它方便用户携带的任意形式，在下文相应实施例会详细进行描述。

通过音频采集设备可以给视觉受限用户提供可感知的输入状态，使得用户语音数据更加准确。

作为另一种可选方式，也可以借助电子设备提供的按键提供用户可感知的输入状态，因此，采集用户语音数据可以包括：

检测到针对第三按键的第三触发操作，启动语音采集；

其中，第三按键与第四按键可以是同一个按键，以进一步方便用户操作。第三触发操作例如可以是指按住按键的操作，第四触发操作可以是松开按键的操作等。

当然，作为其它可选方式，也可以采用语音唤醒方式实现用户语音数据的采集，例如采集用户语音数据可以是：检测到唤醒关键词，启动语音采集，可以是检测到结束关键词，结束语音采集或者一定时长内未采集到任意语音数据则结束语音采集，则从语音采集的启动时刻到结束时刻采集获得的语音数据即作为用户语音数据。

102：识别用户语音数据中的控制指令。

首先可以对用户语音数据进行ASR(Automatic Speech Recognition，自动语音识别技术)解析，转换为语音识别文本，该语音识别文本可以直接作为控制指令，或者，为了进一步提高控制指令的准确性，可选地，识别用户语音数据中的控制指令包括：

将用户语音数据解析为语音识别文本；

按照过滤规则，对语音识别文本进行过滤修正，获得控制指令。

意即可以对语音识别文本进行修正，以获得控制指令。

可以是对语音识别文本进行文本修正，以获得控制指令，过滤规则例如可以包括同义词替换规则，语气词删除规则、口语化词消除规则、标点符号添加规则等等。以将语音识别文本修正为标准文本，方便系统对指令识别和执行。

例如，假设用户语音数据为“打开XXX”，语音识别文本即为“打开XXX”，设置有将“XXX”替换为同义词“YYY”的过滤规则，则控制指令即为“打开YYY”。又如用户语音数据为“打开XXX啊”，语音识别文本即为“打开XXX啊”，设置与删除语气词“啊”的过滤规则，则控制指令即为“打开XXX”。

当然，上述过滤规则仅是举例说明，不作为对本申请技术方案的具体限制。

实际应用中，结合上述描述可知，用户可以基于需要控制的节点和/或需要控制的动作发出相应的语音数据，节点可以是指用户界面中的可操作元素，因此，控制指令中可以包括控制动作和/或目标节点。

103：模拟执行生成该控制指令用户所需执行的界面控制操作，以便于基于界面控制操作实现对应的控制处理。

根据控制指令所涉及的节点，可以模拟执行针对节点的界面控制操作，其中，节点可以是指用户界面中的可操作元素。界面控制操作即是指对用户界面的用户交互操作，包括针对该节点的用户打开操作，例如传统方式中，用户在触摸屏幕中通常是采用点击节点方式实现对节点的打开操作，该界面控制操作即可以是指点击操作，意即采用本申请实施例的技术方案，基于控制指令，可以模拟产生该控制指令的用户点击操作。

通过模拟执行界面控制操作，系统检测到该界面控制操作，可以按照用户触发操作的处理方式进行相应的控制处理。

可以具体调用系统提供的无障碍服务模拟执行控制指令对应的界面控制操作，以便于系统响应于界面控制操作实现对应的控制处理。本文中所指的系统意即是指电子设备的操作系统。

此外，可选地，可以首先判断控制指令中是否包括目标节点；

若是，模拟执行控制指令对应的界面控制操作；

若否，调用无障碍服务响应控制指令。

实际应用中，用户除了存在对用户界面中的节点进行操作的需求，还存在不针对特定节点的操作需求，比如返回、关闭、关机、加快音频输出速度等特定操作需求，可以直接调用无障碍服务提供的相应接口响应该控制指令即可，用于处理不同控制处理的接口可以预先配置。

其中，控制指令中可能包括至少一个目标节点，比如控制指令为“打开应用X”，则目标节点即为应用X，控制指令为“打开应用X中的Y”，则包括两个目标节点，应用X以及应用X中的Y。

104：输出控制处理结果的第一提示信息。

为了方便用户了解控制处理结果，还可以输出控制处理结果对应的第一提示信息。例如控制指令为“打开XX”，第一提示信息可以是“XX已打开”，又如控制指令为“返回”，第一提示信息可以是“已返回上一个页面”等。

可选地，可以采用语音形式输出该第一提示信息，以进一步提高视觉受限用户的操作便利性，能够及时有效获得反馈输出的信息。

本实施例中，用户可以采用语音形式作为信息输入方式，降低信息输入难度，提高了信息输入效率，且通过识别用户语音数据中的控制指令，采用模拟执行控制指令对应的界面控制操作的方式，模拟对用户界面的用户交互操作，这样系统检测到界面控制操作，即可以执行对应的控制处理，无需应用程序进行适配，可以实现对所有应用程序的控制。

在一个实际应用中，用户对目标节点的控制需求，可能会触发显示相应的页面，比如，控制指令为“打开应用X”，其中，应用X为应用程序名称，则会运行该应用程序，并显示应用程序的首页；又如控制指令为“打开YY”，其中，“YY”为应用程序“应用X”提供的节点，则会显示该YY对应的页面。

目前，通常是将页面中的第一个节点作为聚焦的焦点，页面在界面中载入完成时，是自动聚焦至该焦点，但是，实际应用中，该第一个节点并非用户想要操作的节点，用户需要在页面中遍历查找才能选中目标节点，这对于视觉受限用户来讲非常不便利，为了进一步简化设备操作，提高设备操作便利性，在某些实施例中，若控制指令对应控制处理结果为显示目标页面；该方法还可以包括：

确定目标页面中符合用户操作意图的焦点；

在目标页面在用户界面中载入完成，聚焦至目焦点。

其中，本实施例中焦点也即符合用户操作意图的节点，聚焦至该焦点可以是指在目标页面中针对该焦点执行选中操作，如将该焦点所在页面位置标记为特定颜色或者将光标类的焦点标识移动至焦点所在页面位置等，实际处理过程中，选中节点之后，可以直接执行对节点的控制，比如打开该节点；聚焦至该焦点也可以是将焦点在用户界面中优先展示，如会将包含焦点所在区域的页面内容展示在用户界面中。

可选地，还可以输出聚焦结果对应的聚焦提示信息，以提示用户目标页面中所选中的节点，从而用户可以在用户界面中执行对节点控制操作，如启动操作等，或者以语音形式直接输入控制动作，再采用模拟执行该控制动作对应的界面控制操作，如启动操作，从而实现对该节点的控制。

在某些实施例中，确定目标页面中符合用户操作意图的焦点可以包括：

根据目标页面的历史操作数据和/或用户历史行为数据，确定目标页面中的焦点。

作为一种可选方式，可以根据目标页面的历史操作数据，确定目标页面中的焦点。

其中，目标页面的历史操作数据例如可以包括各个节点的历史操作次数等，其可以通过对不同用户针对目标页面的界面控制操作来统计获得。从而焦点例如可以是指目标页面中历史操作次数最高的节点。

作为另一种可选方式，也可以根据用户历史行为数据，确定目标页面中的焦点。

例如焦点可以是该用户最近一次对该目标页面执行界面控制操作所针对的节点等。

作为又一种可选方式，可以结合目标页面的历史操作数据以及用户历史数据来确定，比如，焦点可以是从基于目标页面的历史操作数据所确定的历史操作次数大于预定次数的多个节点中，所选择的用户最近一次所操作的节点。

在一个实际应用中，用户可以是针对电子设备提供的多个应用程序、应用程序提供可操作元素，以语音形式输入控制需求，进而系统可以识别获得控制指令。

为了进一步提高信息输入效率，提高操作便利性，在某些实施例中，模拟执行控制指令对应的界面控制操作可以包括：

查找应用节点树，确定控制指令所命中的至少一个节点及至少一个节点的层级关系；其中，应用节点树由桌面、桌面索引的多个应用程序、应用程序提供的多个可操作元素分别作为节点、根据节点之间的索引关系构建的树形结构。

按照至少一个节点之间的层级关系，依次模拟执行至少一个节点分别对应的界面控制操作。

其中，节点之间的索引关系包括桌面与应用程序的索引关系，从桌面中可以索引至某个应用程序，还可以包括应用程序提供的多个可操作元素之间的索引关系，例如，多个可操作元素可以包括页面标签，每个页面标签可以索引至一个标签页面，而每个标签页面可能提供可操作元素，页面标签与标签页面提供的可操作元素即具备索引关系，标签页面提供的可操作元素也可能索引至某个页面，该索引页面中也可能提供可操作元素，标签页面提供的可操作元素与其索引页面提供的可操作元素也具备索引关系，据此类推，每个可操作元素与其索引的页面提供的可操作元素具备索引关系。因此，应用节点树中，桌面为根节点，桌面索引的应用程序为桌面的子节点，应用程序直接索引的可操作元素为应用程序的子节点，之后每个可操作元素索引的可操作元素为其子节点，据此构建应用节点树。在应用节点树中以节点标识表示节点。

可选地，可以是结合用户常用的节点来构建应用节点树，比如可以由桌面、桌面索引的至少部分应用程序、应用程序索引的至少部分页面标签、页面标签索引的至少部分操作元素分别作为节点，来构建应用节点树即可，以减少树的深度，减少查找计算量。

为了便于理解，如图2示出了在一个实际应用中的应用节点树的示意图，该应用节点树可以预先配置获得，其由根节点“桌面”，以及桌面的孩子节点“应用A”以及“应用B”，以及应用A的子节点例如可以包括“首页”、“我的”、“消息”等页面标签；应用B的子节点可以包括“首页”、“购物车”等页面标签页面D；应用A的首页的子节点可以包括其提供的“卡包”、“付款码”、“转账”等可操作元素；应用A的我的子节点可以包括“账单”、“银行卡”，应用B的子节点的首页的子节点可以包括“今日爆款”、“会员店”、“充值中心”等。

其中，作为一种可选方式，应用节点树可以预先构建获得并可以进行更新，因此，在某些实施例中，该该方法还可以包括：

接收服务端下发的应用节点树的更新信息，以更新应用节点树。

利用更新信息可以更新应用节点树。例如，该更新信息可以是结合实际情况新建的应用节点树，可以具体利用该新建的应用节点树替换历史的应用节点树。应用节点树的更新过程无需重新下载用户端的安装包并安装更新，可以直接以补丁形式进行更新等。

作为一种可选方式，应用节点树可以由用户端自动生成，用户端可以为插件应用或者第三方应用，可以是集成在其它应用程序中的目标程序，在某些实施例中，该方法还可以包括：

用户端可以根据不同应用程序的应用描述信息等，来确定用于构建应用节点树的应用程序以及每个应用程序中的可操作元素等。

该应用描述信息中可以包括应用程序可以提供的可操作元素的相关信息，以及该应用程序可以提供的功能等相关信息。

其中，系统接入的应用程序即是指在电子设备中所安装的应用程序。可以是在每新接入一个应用程序或者每卸载一个应用程序，即触发执行确定系统接入的多个应用程序及所述多个应用程序分别提供的多个可操作元素的操作，以实现对应用节点树的更新，保持应用节点树的准确性等。

当然，也可以是定期执行确定系统接入的多个应用程序及所述多个应用程序分别提供的多个可操作元素及其后续操作，以定期对应用节点树进行更新等。

也可以是在检测启动无障碍模式之后，执行确定系统接入的多个应用程序及所述多个应用程序分别提供的多个可操作元素及其后续操作，使得应用节点树在每一次无障碍模式启动之后可以保持最新状态。

另外，在某些实施例中，可以首先确定控制指令中包含的目标节点；查找应用节点树时，可以从叶子节点开始向上查找，确定目标节点及目标节点关联的节点，作为控制指令所命中的至少一个节点，再确定至少一个节点之间的层级关系。

其中，控制指令中可以包括一个或多个目标节点，控制指令包括多个目标节点时，该多个目标节点在应用节点树中具体父子关系。

目标节点关联的节点可以包括目标节点所在分支上的包括目标节点的父节点在内的所有节点。例如，结合图2所示的应用节点树，假设控制指令中为“打开充值中心”。目标节点即为“充值中心”，则通过查找应用节点树可以确定，该目标节点的关联节点包括“首页”、“应用B”及“桌面”，命中的节点即包括“充值中心”、“首页”、“应用B”及“桌面”。

其中，至少一个节点之间的层级关系可以是指至少一个节点的父子关系，还可以包括每个节点在应用节点树中的所在层次等。

可选地，该控制指令命中的至少一个节点的控制动作与目标节点的控制动作可以相同。实际应用中，在控制指令存在目标节点的情况下，控制动作也即是指打开该节点，意即启动该节点，以触发显示节点对应的相应页面的控制动作。

可以按照该至少一个节点之间的层级关系，可以从根节点开始，依次模拟执行至少一个节点分别对应的界面控制操作。

比如，上例中，控制指令为“打开充值中心”。模拟的界面控制操作依次包括：打开桌面；在桌面上执行打开应用B的触发操作，如模拟执行针对应用B图标的点击操作；显示应用B的首页；在首页中执行打开充值中心的触发操作，如针对充值中心图标的点击操作。

其中，控制指令是否命中节点例如可以通过文本匹配或者语言分析等方式确定，若控制指令中包含应用节点树中的某个节点的节点标识，则可以确定该节点为控制指令命中的节点。

其中，依次模拟执行至少一个节点分别对应的界面控制操作时，该至少一个节点可以按照父子关系进行排序，父节点优先处理。模拟执行过程中，可以是基于前一个节点的界面控制操作进行控制处理之后再模拟执行下一个节点的界面控制操作。

在某些实施例中，按照至少一个节点之间的层级关系依次模拟执行至少一个节点分别对应的界面控制操作可以包括：

按照至少一个节点之间的层级关系，针对当前待处理节点，获取当前界面的页面节点树；

根据页面节点树确定节点所在的页面位置，基于页面位置模拟执行对应的界面控制操作。

其中，当前界面的页面节点树意即是指当前待处理节点的父节点所对应页面的页面节点树。会优先模拟执行当前待处理节点的父节点对应的界面控制操作，并获得对应的控制处理结果，意即会显示父节点对应页面。此时可以获取当前界面的页面节点树，该页面节点树由页面中的可操作元素构成，基于该页面节点树可以确定待处理节点所在的页面位置，进而可以针对该页面位置执行对应的界面控制操作。

可选地，针对当前待处理节点，若当前待处理节点为桌面，可以直接模拟执行针对桌面的界面控制操作；若当前待处理节点为非桌面，则再获取当前界面的页面节点树；并根据页面节点树确定节点所在的页面位置，基于页面位置模拟执行对应的界面控制操作。

其中，当前界面的页面节点树可以通过调用无障碍服务获取，例如无障碍服务为谷歌提供的Accessibility Service(无障碍服务)时，可以是调用该AccessibilityService获得AccessibilityNodeInfo信息(一个视图状态的快照，代表当前视图中包含的节点信息)，该AccessibilityNodeInfo信息与页面节点树一致，描述了当前视图的结构信息。

此外，由于查找应用节点树的过程中，同一层级可能存在多个目标节点，因此，在某些实施例中，查找应用节点树，从叶子节点开始向上查找，确定目标节点以及目标节点关联的节点，作为控制指令所命中的至少一个节点包括：

查找应用节点树，从叶子节点开始向上查找；

查找与目标节点关联的节点，作为命中节点。

可选地，应用节点树中，同一层级中相同节点标识的多个节点的优先级可以预先配置确定。

在某些实施例中，该方法还可以包括：

查找指令集合中是否存在控制指令；

若是，执行模拟执行控制指令对应的界面控制操作的步骤；

若否，输出错误提示信息。

意即可以预先配置指令集，用户语音输入的控制指令若在指令集中才可以实现对应控制。

该错误提示信息例如可以是提示用户指令错误或者重新输入指令等，可选地，可以是以语音形式输出第二提示信息，以方便视觉受限用户感知设备输出信息。

该指令集中针对节点的指令可以自动生成，不针对节点的指令可以预先配置获得，因此，在某些实施例中，该方法还可以包括：

接收服务端下发的指令集的更新信息，以更新指令集。

其中，该更新信息中例如可以包括新增指令，可以将新增指令加入指令集中实现对指令机的更新。

在某些实施例中，该方法还可以包括：

针对应用节点树中的任一节点，配置生成启动节点的控制指令；

将控制指令保存至指令集中。

针对节点指令通常即是启动指令，因此可以获得应用节点树之后，即可以针对应用节点树中的任一节点，自动生成启动节点的控制指令；比如节点“应用A”，启动该节点的控制指令可以为“打开应用A”或者“启动应用A”等，具体可以结合用户使用习惯进行启动动作的指令配置等。

图3为本申请实施例提供的一种无障碍模式下的设备控制方法一个实施例的流程图，该方法可以包括以下几个步骤：

301：启动无障碍模式。

302：采集用户语音数据。

303：识别用户语音数据中的控制指令。

304：模拟执行生成所述控制指令用户所需执行的界面控制操作，以便基于所述界面控制操作实现对应的控制处理。

305：若控制处理结果为显示目标页面，确定所述目标页面中符合用户操作意图的焦点。

306：在所述目标页面在用户界面中载入完成，聚焦至所述焦点。

其中，步骤301～步骤306的相关操作可以详见前文相应实施例中所述，在此不再赘述。

在无障碍模式显示目标页面的情况下，确定目标页面中符合用户操作意图的焦点。

聚焦至该焦点可以是指在目标页面中针对该焦点执行选中操作，实际处理过程中，选中节点之后，可以直接执行对节点的控制，比如打开该节点；也可以是指将节点在用户界面中优先展示，如将包含节点所在区域的页面内容展示在用户界面中。

307：输出第二提示信息。

该第二提示信息可以用于提示基于界面控制操作进行控制处理获得的控制处理结果，此外还可以提示聚焦结果等。

可选地，可以是以语音形式输出第二提示信息，以提示用户控制处理结果以及目标页面中所选中的节点，从而用户可以在用户界面中执行对节点的控制操作，如启动操作等，或者以语音形式直接输入控制动作，再采用模拟执行该控制动作对应的界面控制操作，如启动操作，从而实现对该节点的控制。

本实施例中，通过确定符合用户操作意图的焦点，并在目标页面载入完成时聚焦至该焦点，可以省去用户在目标页面中遍历想要操作的节点的时间，从而可以提高操作便利性，提高信息输入效率。

图4为本申请实施例提供的一种控制方法又一个实施例的流程图，本实施例从音频采集设备的角度对本申请技术方案进行介绍，该方法可以包括以下几个步骤：

401：检测到针对第一按键的第一触发操作，启动语音采集。

402：检测到针对第二按键的第二触发操作，结束语音采集，以获得用户语音数据。

该音频采集设备中设置有按键，其中，第一按键与第二按键可以是不同按键，也可以是指同一个按键，因此音频采集设备可以设置有至少一个按键，为了进一步方便用户操作，该音频采集设备可以设置一个按键，该第一按键和该第二按键意即为同一个按键。第一触发操作例如可以是指按住按键的用户操作，第二触发操作可以是松开按键的用户操作。

403：将用户语音数据发送至电子设备。

其中，音频采集设备可以预先与电子设备建立通信连接，例如基于短距离通信协议建立的通信连接，比如蓝牙连接等，基于该通信连接将用户语音数据发送至电子设备。

其中，电子设备可以识别用户语音数据中的控制指令；模拟执行控制指令对应的界面控制操作，以便于基于界面控制操作实现对应的控制处理；输出控制处理结果对应的第一提示信息，具体实现方式可以详见前文图1所示实施例中所述，在此不再赘述。

本实施例中，通过音频采集设备可以给视觉受限用户提供可感知的输入状态，使得用户语音数据更加准确。

其中，音频采集设备可以实现为电子设备的保护套或者电子设备的后盖或者具有粘贴部件可以粘贴在电子设备，或者其它方便用户携带的任意形式。

下面从结构组成上对该音频采集设备进行介绍，作为又一个实施例，如图5所示提供的音频采集设备，可以包括设备本体501，内置于设备本体501中的音频采集组件502、通信组件503及控制组件504，以及嵌于设备本体表面的按键；

控制组件504可以利用通信组件503建立与电子设备的通信连接；检测到针对第一按键505的第一触发操作，触发音频采集组件502启动语音采集，以及检测到针对第二按键506的第二触发操作，触发音频采集组件502结束语音采集，以获得音频采集组件502采集得到的用户语音数据；并将用户语音数据利用通信组件503发送至电子设备。

实际应用中，该第一按键与第二按键可以为同一个按键，音频采集设备可以仅设置一个按键，以方便视觉受限用户操作，实际应用中，用户可以按一个按键，即可以开始说话，以语音形式输入控制指令，控制组件感知该按键操作开始采集声音，用户说话结束之后，可以再按一下按键，音频采集设备即结束采集声音，从而得到用户语音数据。

其中，该按键可以是音频采集设备设置的物理按键，当然也可以是指在触摸屏上的虚拟按键，在该虚拟按键所在位置可以形成特定形状，以方便用户感知该按键，例如可以凸出设备表面，或者形成凹槽等。

其中，控制组件例如可以为MCU或者其它集成电路或者电子元件构成。音频采集组件例如可以为麦克风，通信组件例如可以为蓝牙组件等。

此外，该音频采集设备中还可以设置有存储组件，用以存储一条或多条计算机指令，控制组件具体调用该一条或多条计算机指令并执行，从而实现上述操作。当然，该一条或多条计算机指令也可以存储在控制组件中。

此外，该音频采集设备还可以包括储能组件等，以为其它电子元件供电。

为了方便用户携带以及使用音频采集设备，作为一种可选方式，该设备本体中可以设置有容纳电子设备的容纳槽。实际应用中，该设备本体即可以是电子设备的保护套，用于罩于电子设备上，音频采集设备中的按键可以设置在设备本体中的第一表面，设备本体罩于电子设备上时，该第一表面暴露在外，以方便用户操作按键。

作为另一种可选方式，该设备本体设置有粘性部件，可以通过粘性部件粘贴与电子设备上。

按键可以设置在于粘性部件对立的表面，从而设备本体粘贴在电子设备上时，按键暴露在外，以方便用户操作。

作为又一种可选方式，该设备本体可以具体为电子设备的组成配件，可拆卸安装于电子设备中。

实际应用中，例如音频采集设备可以为电子设备的设备后盖，该设备本体即为设备后盖的后盖本体，按键设置在后盖本体暴露在外的表面。

当然，设备本体也可以为其它任意形态，本申请对此不进行具体限定、

为了方便理解，如图6所示的场景示意图中，用户601可以操作音频采集设备602，实现语音输入，比如长按音频采集设备的按键之后，输入语音，释放该按键之后结束语音输入，音频采集设备602即可以采集获得按键在长按过程中采集得到用户语音数据，具体采集过程可以详见前文所述。

音频采集设备602与电子设备603之间建立有通信连接，可以基于该通信连接，将用户语音数据发送至电子设备603中的用户端，需要说明的是，实际应用中，音频采集设备可以作为设备保护套或者设备后盖或者以粘贴方式依附在电子设备603中，以方便用户携带和操作，图6中仅是为了方便了解音频采集设备与电子设备之间的交互，音频采集设备与电子设备并未放置在一起。

用户端获得用户语音数据之后，可以进行语音解析识别得到控制指令，之后可以从指令集中查找是否存在该控制指令，若是，则可以结合应用节点树以及页面节点树，模拟执行界面控制操作，并输出系统基于界面控制操作的控制处理结果的反馈信息，如第一提示信息，若指令集中未找到控制指令，也可以输出相应反馈信息，如错误提示信息。

若控制处理结果为显示目标页面，则可以结合目标页面的历史操作操作和/或用户历史行为数据，确定页面焦点，并在页面在用户界面载入完成时，自动聚焦至该焦点。

本申请实施例的技术方案可以服务于视觉受限用户，视觉受限用户无法查看用户界面或者无法了解用户界面的输出信息，但是，用户界面也会基于相应控制操作而发生相应变化，如页面跳转等，为了方便理解本申请技术方案，如图7a～7c所示，以控制指令为“打开YYY”为例，其中，假设YYY为应用A提供的标签页面，通过查找应用节点树，假设该控制指令命中的节点包括：桌面、应用A、YYY，会依次模拟执行：打开桌面、打开应用A以及打开YYY的操作。图7a中，假设用户界面显示应用B提供的某个页面701，执行打开桌面的操作，可以显示桌面702；图7b，用户界面显示桌面702之后，执行打开应用A的操作，可以显示应用A的默认页面703；图7c中，用户界面显示默认页面703情况下，执行打开YYY的操作，即可以显示YYY的页面704，此时，显示YYY页面之后，可以以语音形式输出第一提示信息，以提示用户控制处理结果，如YYY页面已打开等。

通过本申请实施例的技术方案，可以实现快捷打开节点的目的，无需用户在用户界面中遍历查找操作，可以帮助视觉受限用户更加便利的操作设备，减少用手操作设备的次数，提高信息输入效率，且可以适配所有电子设备中的应用程序，无需单独开发不同应用程序，

图8为本申请提供的一种用户端一个实施例的结构示意图，该用户端可以包括：

采集控件801，用于采集用户语音数据；

处理引擎802，识别用户语音数据中的控制指令；调用无障碍服务模拟执行控制指令对应的界面控制操作，以便于基于界面控制操作实现对应的控制处理；输出控制处理结果的第一提示信息。

图8所述的用户端可以执行图1所示实施例所述的控制方法，其实现原理和技术效果不再赘述。对于上述实施例中的用户端中的各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实际应用中，该用户端可以为独立开发的应用程序，作为插件应用或者第三方应用安装于电子设备中，也可以集成在其它应用程序中，其它应用程序可以下载程序包的形式集成该用户端，本申请对其实现形式不进行具体限定。

在一个可能的设计中，该用户端可以集成在一个电子设备运行并实现图1所示的控制方法，因此，如图9所示，作为又一个实施例，本申请实施例还提供了一种电子设备，该电子设备实际应用中例如可以是手机、平板电脑等智能设备，该电子设备可以包括存储组件901、显示组件902、以及处理组件903；

其中，显示组件902用于提供用户界面，存储组件901存储一条或多条计算机指令，其中，该一条或多条计算机指令供处理组件903调用执行，以实现如图1所示的控制方法或者如图3所示的无障碍模式下的设备控制方法。

处理组件903可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件901被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

显示组件902可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。

当然，电子设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。

输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图1所示实施例的控制方法。

此外，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图3所示实施例的控制方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种控制方法，其特征在于，包括：

采集用户语音数据；

识别所述用户语音数据中的控制指令；

输出控制处理结果的第一提示信息。

2.根据权利要求1所述的方法，其特征在于，所述模拟用户执行所述控制指令对应的界面控制操作，以便基于所述界面控制操作实现对应的控制处理包括：

3.根据权利要求2所述的方法，其特征在于，所述查找应用节点树，确定所述控制指令所命中的至少一个节点及所述至少一个节点的层级关系包括：

确定所述控制指令包含的目标节点；

确定所述至少一个节点之间的层级关系；

4.根据权利要求2或3所述的方法，其特征在于，还包括：

将桌面、所述多个应用程序以及多个应用程序分别提供的多个可操作元素分别作为节点，并根据节点之间的索引关系构建生成所述应用节点树。

5.根据权利要求1所述的方法，其特征在于，还包括：

建立与音频采集设备的通信连接；

所述采集用户语音数据包括：

6.根据权利要求2所述的方法，其特征在于，所述按照所述至少一个节点之间的层级关系依次模拟执行所述至少一个节点分别对应的界面控制操作包括：

按照所述至少一个节点之间的层级关系，针对当前待处理的节点，获取当前界面的页面节点树；

7.一种无障碍模式下的设备控制方法，其特征在于，包括：

启动所述无障碍模式；

采集用户语音数据；

识别所述用户语音数据中的控制指令；

在所述目标页面在用户界面中载入完成，聚焦至所述焦点；

输出第二提示信息。

8.根据权利要求7所述的方法，其特征在于，所述确定所述目标页面中符合用户操作意图的焦点包括：

9.一种控制方法，其特征在于，包括：

检测到针对第一按键的第一触发操作，启动语音采集；

10.一种电子设备，其特征在于，包括存储组件、显示组件以及处理组件；所述存储组件存储一条或多条计算机程序指令；所述显示组件提供用户界面；所述一条或多条计算机程序指令以供所述处理组件调用并执行，以实现如权利要求1～6任一项所述的控制方法，或者实现如权利要求7或8所述的无障碍模式下的设备控制方法。

11.一种音频采集设备，其特征在于，包括设备本体，内置于所述设备本体中的音频采集组件、通信组件及控制组件，以及嵌于所述设备本体表面的按键；

12.根据权利要求11所述的音频采集设备，其特征在于，所述设备本体设置有容纳所述电子设备的容纳槽，或者所述设备本体为所述电子设备的组成配件，可拆卸安装于所述电子设备中；或者所述设备本体具有粘性部件，通过所述粘性部件粘贴与所述电子设备上。