CN107608652B

CN107608652B - 一种语音控制图形界面的方法和装置

Info

Publication number: CN107608652B
Application number: CN201710748377.9A
Authority: CN
Inventors: 魏涛; 武永超; 方华
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2020-05-22
Anticipated expiration: 2037-08-28
Also published as: CN107608652A

Abstract

本申请提供了一种语音控制图形界面的方法和装置，该方法包括：接收用户输入的语音指令，将该语音指令识别为语音文本；获取当前界面的截图的缩略图，并将所述缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图和APP的标识匹配对应的页面布局信息；接收到页面布局服务器响应的页面布局信息时，使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；在所述目标操作区域执行所述语音文本所指定的操作。该方案能够提高APP的易用性和用户体验。

Description

一种语音控制图形界面的方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音控制图形界面的方法和装置。

背景技术

随着语音识别和自然语言处理技术的发展，语音助手软件使我们可以通过语音输入来控制程序完成操作。一般通过额外的开发工作，用户可以使用复合的语音指令，调用内置APP或常用的APP的开放接口，从而可以一次性的执行一系列的操作。

目前，大部分语音助手软件，对于海量的第三方应用程序，不能很好的支持，只能做一些简单的打开操作，不能对第三方程序中的每个图形界面进行操作。

现有提供的解决方案，有的需要人工预先定义语音和操作的映射关系库，成本很高，且难以覆盖程序所有的执行路径；有的需要实时的对截图的全图做图像分析，找出可操作区域并识别其中的文本，计算量很大，难以提供流畅的用户体验。

发明内容

有鉴于此，本申请提供一种语音控制图形界面的方法和装置，提高APP的易用性和用户体验。

为解决上述技术问题，本申请的技术方案是这样实现的：

一种语音控制图形界面的方法，该方法包括：

接收用户输入的语音指令，将该语音指令识别为语音文本；

获取当前界面的截图的缩略图，并将所述缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息；

接收到页面布局服务器响应的页面布局信息时，使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；

在所述目标操作区域执行所述语音文本所指定的操作。

一种语音控制图形界面的方法，应用于页面布局服务器上，该方法包括：

接收到终端发送的界面的截图的缩略图和APP的标识时，根据所述缩略图的信息和APP的标识在本地存储的页面布局信息中匹配对应的页面布局信息；

当匹配到对应的页面布局信息时，响应给所述终端，使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行所述语音文本所指定的操作，其中，所述语音文本为终端根据用户输入的语音指令识别出的语音文本。

一种语音控制图形界面的装置，该装置包括：接收单元、识别单元、获取单元、发送单元、匹配单元和操作单元；

所述接收单元，用于接收语音指令，用于接收页面布局服务器响应的信息；

所述识别单元，用于当所述接收单元接收到用户输入的语音指令，将该语音指令识别为语音文本；

所述获取单元，用于获取当前界面的截图的缩略图；

所述发送单元，用于将所述获取单元获取的缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图信息和APP的标识匹配对应的页面布局信息；

所述匹配单元，用于当所述接收单元接收到页面布局服务器响应的页面布局信息时，使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；

所述操作单元，用于在所述匹配单元匹配到的目标操作区域执行所述识别单元识别出的语音文本所指定的操作。

一种语音控制图形界面的装置，应用于页面布局服务器上，该装置包括：接收单元、匹配单元和发送单元；

所述接收单元，接收缩略图和APP的标识

所述匹配单元，用于当所述接收单元接收到终端发送的截图的缩略图和APP的标识时，根据所述缩略图的信息和APP的标识在本地存储的页面布局信息中匹配对应的页面布局信息；

所述发送单元，用于当所述匹配单元匹配到对应的页面布局信息时，响应给所述终端，使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行所述语音文本所指定的操作，其中，所述语音文本为终端根据用户输入的语音指令识别出的语音文本。

由上面的技术方案可知，本申请中将语音指令识别为语音文本，通过当前界面的截图的缩略图，以及当前使用的APP的标识到页面布局服务器上获取对应的布局信息，再根据识别的语音文本在获取的页面布局信息中匹配到目标操作区域，进而在目标操作区域执行所述语音文本所指定的操作。该技术方案能够支持各种APP的图像界面的基础上，快速响应用户的语音指令；进而提高APP的易用性和用户体验。

附图说明

图1为本申请实施例一中语音控制图形界面流程示意图；

图2为本申请实施例二中语音控制图形界面流程示意图；

图3为本申请实施例三中语音控制图形界面流程示意图；

图4为本申请实施例四中语音控制图形界面的流程示意图；

图5为本申请实施例五中语音控制图像界面的流程示意图；

图6为教育应用当前界面示意图；

图7为教育应用中按钮玩对应的下一个页面的示意图；

图8为打开微信后的微信主界面示意图；

图9为点击“李四”后所显示的微信聊天内容示意图；

图10为输入文本内容后更多按钮变为发送按钮后的示意图；

图11为本申请实施例中应用于实施例一到三中的技术的装置结构示意图；

图12为本申请实施例中应用于实施例四和五中的技术的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并举实施例，对本发明的技术方案进行详细说明。

本申请实施例中提供一种语音控制图形界面的方法，将语音指令识别为语音文本，通过当前界面的截图的缩略图，以及当前使用的应用程序(APP)的标识到页面布局服务器上获取对应的布局信息，再根据识别的语音文本在获取的页面布局信息中匹配到目标操作区域，进而在目标操作区域执行所述语音文本所指定的操作。该技术方案能够支持各种APP的图像界面的基础上，快速响应用户的语音指令；进而提高APP的易用性和用户体验。

本申请实施例中应用于包括终端和页面布局服务器的系统中。终端具有语音助手功能。

下面结合附图，详细说明本申请实施例中语音控制图形界面的过程。

针对终端侧，可以包括如下三个实施例：

实施例一

参见图1，图1为本申请实施例一中语音控制图形界面流程示意图。具体步骤为：

步骤101，终端接收用户输入的语音指令，将该语音指令识别为语音文本。

步骤102，该终端获取当前界面的截图的缩略图，并将所述缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息。

在具体实现时，将语音指令识别为语音文本，同获取截图的缩略图并发送给页面布局服务器这两个操作可以同时进行，不分先后顺序。

步骤103，该终端接收到页面布局服务器响应的页面布局信息时，使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域。

步骤104，该终端在所述目标操作区域执行所述语音文本所指定的操作。

实施例二

参见图2，图2为本申请实施例二中语音控制图形界面流程示意图。具体步骤为：

步骤201，终端接收用户输入的语音指令，将该语音指令识别为语音文本。

步骤202，该终端对所述语音文本进行处理，获得目标操作区域的定位描述信息、操作类型和操作内容。

本步骤中需对语音文本进行自然语言处理，进而得到目标操作区域的定位描述信息、操作类型和操作内容。

目标操作区域的定位描述信息用于在页面布局信息中匹配目标操作区域，选择B项，则定位描述的信息为B选项，确定的目标操作区域为B选项所在的区域；

操作类型可以为单击、双击、拖动等。如不存在这些预先配置的操作类型，可以根据语音指定或翻译，如打开，根据GUI平台翻译为单击，选择，翻译为双击。

操作内容可以是输入的文本的内容，如回复短信息时输入的内容：我正在开会；如果是选择选项等语音，操作内容也可以为空。

步骤203，该终端获取当前界面的截图的缩略图，并将所述缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息。

APP的标识可以是APP的名称，或者名称加版本号，能唯一标识当前使用的APP即可。

步骤204，该终端使用所述目标操作区域的定位描述信息在所述页面布局信息中匹配语音指令对应的目标操作区域。

步骤205，该终端在目标操作区域执行所述操作内容和操作类型对应的操作。

该终端在进行相关操作时，调用相应的输入API来模拟用户输入，如遥控器、触摸屏、鼠标等界面输入方式。

实施例三

参见图3，图3为本申请实施例三中语音控制图形界面流程示意图。具体步骤为：

步骤301，终端接收用户输入的语音指令，将该语音指令识别为语音文本。

步骤302，该终端获取当前界面的截图的缩略图，根据该缩略图的信息和当前使用的APP的标识确定本地是否存储对应的页面布局信息，如果是，执行步骤303；否则，执行步骤304。

步骤303，该终端获取本地存储的匹配的页面布局信息。执行步骤307。

步骤304，该终端将所述缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息。

页面布局服务器使用APP的标识和缩略图的信息在本地存储的页面布局信息中查找对应的页面布局：先查找到APP的标识对应的页面布局信息，再在查找到的页面布局信息中查找与缩略图的信息匹配的页面布局信息，如果查找到，则向终端响应查找到的页面布局信息，若未查找到，则不响应终端，或者响应内容为空的页面布局信息，具体如何实现，可以根据实际需要配置实现方式。

在具体实现时，也可以不使用APP的标识匹配，只使用缩略图的信息进行匹配，使用APP的标识匹配会加快匹配速率。

步骤305，该终端当接收到页面布局服务器发送的内容为空的响应，或预设时间到时，未接收到页面布局服务器响应的页面布局信息，则将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器生成页面布局信息并返回，执行步骤306。

页面布局服务器接收到界面的截图后，生成页面布局信息，具体过程如下：

对所述截图进行区域检测，对检测出的区域进行字符识别，或目标识别，生成页面布局信息。

页面布局服务器生成页面布局信息时，将所述页面布局信息与所述APP的标识绑定存储。

步骤306，该终端接收到页面布局服务器响应的页面布局信息，获取页面布局信息。

步骤307，该终端使用所述语音文本在获取的页面布局信息中匹配语音指令对应的目标操作区域。

步骤308，该终端确定是否匹配到对应的目标操作区域，如果是，执行步骤310；否则，执行步骤309。

步骤309，该终端对页面布局信息中的各区域分别进行字符识别，再使用所述语音文本和字符识别结果进行匹配以确定语音文本对应的目标操作区域。

在语音文本和字符识别结果进行匹配时，可以是全相同，也可以是部分相同，即模糊匹配，具体实现根据实际需要确定。

步骤310，该终端在所述目标操作区域执行所述语音文本所指定的操作。

下面针对页面布局服务器侧详细说明语音控制界面的过程。

实施例四

参见图4，图4为本申请实施例四中语音控制图形界面的流程示意图。具体步骤为：

步骤401，页面布局服务器接收到终端发送的界面的截图的缩略图和APP的标识时，根据所述缩略图的信息和APP的标识在本地存储的页面布局信息中匹配对应的页面布局信息。

步骤402，该页面布局服务器当确定匹配到对应的页面布局信息时，响应给所述终端，使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行所述语音文本所指定的操作，其中，所述语音文本为终端根据用户输入的语音指令识别出的语音文本。

当未匹配到对应的页面布局信息时，向所述终端发送内容为空的响应；

或，不响应所述终端，具体实现根据与终端侧的配合使用同一响应方式。

实施例五

参见图5，图5为本申请实施例五中语音控制图像界面的流程示意图。具体步骤为：

步骤501，当页面布局服务器接收到终端发送的界面的截图，以及APP的标识时，根据所述截图生成页面布局信息，并响应给所述终端使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行语音所指定的操作。

本步骤中生成页面布局信息，包括：

页面布局服务器对所述截图进行区域检测，对检测出的区域进行字符识别，或目标识别，生成页面布局信息。

步骤502，该页面布局服务器将所述APP的标识和生成的页面布局信息绑定存储。

在存储页面布局信息时，针对可操作区域布局相同的不同页面存储一份页面布局信息。

如果针对一个APP，存在多个不同版本，还可以为每个版本的APP数据信息建立一个数据库，用于存储对应的所有页面布局信息。

每条页面布局信息的格式见表1，表1为页面布局信息所包含的内容。

LayoutID

RegionID

RegionArea

RegionType

RegionText

RegionPixel

表1

其中，LayoutID字段填充的内容为该版应用中页面布局信息的唯一编号。对于不同的页面，只要布局相同，只存储一个页面布局信息。一般而言，一款APP的不同布局数量不会太多。

RegionID字段填充的内容为可操作区域的编号。

RegionArea字段填充的内容为可操作区域的坐标范围，包含横坐标、纵坐标、宽度、高度。

RegionType字段填充的内容为可操作区域的类型，如按钮Button、文本输入TextInput、选项Option等。对按钮区域，Text字段设为按钮区域内经字符识别OCR或图标识别得到的文本。对选项区域，Text字段设为该选项区域的出现次序，是第几个选项区域就写几。这样，对于复杂的选项，用户可以不用念出选项的文本内容，直接说出选第几项即可匹配Text字段。

RegionText字段填充的内容为可操作区域的语义文本，对button来说，常为按钮上的文字；对图标控件来说，如喇叭图标，为语音输入。

RegionPixel字段填充的内容为该可操作区域的像素信息，用于页面布局信息检索。对按钮区域，存储从页面上切割出的RegionArea部分。对选项区域，存储从页面上切割出的RegionArea部分，因选项的文本内容不断变化，可以仅存储边框区域，将其中文本内容区域的像素值置为0。匹配时，对选项区域，只要边框区域匹配上，即认为页面包含该选项。

基于上述页面布局信息的存储，本申请实施例中给出一种使用缩略图的信息匹配对应的页面布局信息的方式：

具体如下：将该APP标识对应的每个页面布局信息中第一个区域的RegionArea和RegionPixel对应的内容按照截图与缩略图的比例缩小；

使用RegionArea对应的缩小后的内容确定缩略图对应的区域的像素信息，再使用确定的像素信息与RegionPixel对应的缩小后的内容进行匹配，若匹配，匹配到该缩略图的信息对应的页面布局信息。

本申请具体实现时，如果仅在页面布局服务器侧使用缩略图的信息匹配页面布局信息，则可以不将RegionPixel对应的内容发送给终端；如果终端也存储页面布局信息，以备后续页面布局信息的匹配，则需要将RegionPixel对应的内容也发送给终端。

针对终端侧和页面布局服务器侧处理方式相同，但是具体实现时，不限于上述实现方式。

如可以直接存储缩略图与页面布局信息的绑定关系，直接使用缩略图之间的匹配来确定对应的页面布局信息。

下面结合具体实例，详细说明语音控制图形界面的过程。

以在电视上语音控制一款英语教育应用为例，详细说明本发明实现的语音系统的工作流程。

第一步，用户打开一款英文教育应用。

第二步，终端获取当前界面的截图的缩略图，并将该缩略图，以及该教育应用的APP标识发送给页面布局服务器。

参见图6，图6为教育应用当前界面示意图。图4中的界面包括“听”、“看”、“玩”、“读”四个按钮。

第三步，假设该主界面在服务器端已经做过布局分析，存储了该缩略图对应的页面布局信息，则使用对应的APP标识和缩略图的信息匹配到对应的页面布局信息时，返回给终端。

参见表2，表2为教育应用对应图4的页面布局信息。

表2

第四步，终端接收到用户发出的语音指令“玩”，识别出语音文本“玩”。

第五步，终端使用语音文本完在接收到的布局信息中匹配到3号区域。

第六步，终端模拟用户点击3号区域，跳到按钮“玩”对应的下一个页面。由于语音文本中不存在操作类型，则按预设配置默认为“点击”。

参见图7，图7为教育应用中按钮玩对应的下一个页面的示意图。图7中的画面中提问“狼在哪里？”，界面下方有两个选项。

第七步，终端获取图5的截图的缩略图，将该缩略图的信息和该教育APP的标识发送给页面布局服务器请求页面布局信息。

第八步，页面布局服务器使用所述APP标识和缩略图未匹配到页面布局信息时，向终端返回页面布局信息为空的响应。

第九步，终端将图7的截图，以及该教育应用的APP的标识发送给页面布局服务器，进行页面布局分析。

第十步，页面布局服务器对所述截图进行区域检测，对检测出的区域进行字符识别或图像识别，以生成页面布局信息，并响应给终端，以及绑定APP的标识和对应缩略图存储在本地。

参见表3，表3为针对图7进行页面布局分析获得的页面布局信息。

表3

第十一步，终端接收到用户用语音输入的“树后”，识别出语音文本“树后”。

第十二步，终端使用识别出的语音文本在页面布局信息中匹配，未匹配到对应的目标操作区域，则对选项类型的2号和3号区域做OCR，分别得到文本“在树后面”、“在河中”，做模糊匹配最终得到目标2号区域。

第十三步，终端使用模拟用户点击2号区域，跳到选项1对应的下一个页面。结束本流程。

本发明列举的另外一个实施例，在开车的情况下，用户不方便用手操作手机，此时可利用语音控制手机上的微信程序来阅读和发送消息。

用户在开车时，听到微信新消息提示音。用户发出语音指令“打开微信”

第一步，手机接收到用户输入的语音指令“打开微信”，为用户打开微信。

参见图8，图8为打开微信后的微信主界面示意图。在图8中微信列表中有三条相关用户信息。

第二步，手机将图8的界面的缩略图和微信标识发送给页面布局服务器。

第三步，页面布局服务器根据微信标识和缩略图检索对应的页面布局信息，并将匹配到的页面布局信息响应给手机。

参见表4，表4为针对图8的页面布局信息所包含的内容。

表4

第四步，手机接收到用户输入的“李四”语音指令时，识别为“李四”语音文本，并匹配到对应的目标操作区域后，在该目标操作区域模拟用户进行“点击”操作，打开李四对应的内容。

参见图9，图9为点击“李四”后所显示的微信聊天内容示意图。

图9中显示李四对应的聊天内容为“5点在天安门间”。

第五步，手机接收到用户发出语音指令“输入文本：我有事，6点吧”，识别出相应文本。得到操作类型为“输入文本”，内容为“我有事，6点吧”。

第六步，手机将图7的截图的缩略图和微信的标识发送给页面布局服务器，获取页面布局服务器针对图7对应的页面布局信息。

第七步，手机根据获得操作类型和内容在所述页面布局信息中匹配到目标操作区域，即4号文本录入区。

参见表5，表5为图9对应的页面布局信息。

表5

第八步，手机模拟用户在目标操作区域，即文本录入区域输入“我有事，6点吧”，此时界面发生变化，“更多”按钮转变为“发送”按钮。

参见图10，图10为输入文本内容后更多按钮变为发送按钮后的示意图。图10中给出输入内容“我有事，6点吧”，对应的“更多”按钮变化为“发送”按钮。

第九步，手机接收到用户发出语音指令“发送”，语音模块识别出相应文本。

第十步，手机发送更新的界面截图的到页面布局服务器，经过匹配得到新的页面布局信息并响应给手机。

第十一步，手机使用识别出的文本在新的页面布局信息中匹配，匹配到目标操作区域“发送”，则模拟用户点击发送按钮，完成信息发送工作。

基于同样的发明构思，本申请实施例中还提出一种语音控制图形界面的装置。参见图11，图11为本申请实施例中应用于实施例一到三中的技术的装置结构示意图。该装置包括：接收单元1101、识别单元1102、获取单元1103、发送单元1104、匹配单元1105和操作单元1106；

接收单元1101，用于接收语音指令，用于接收页面布局服务器响应的信息；

识别单元1102，用于当接收单元1101接收到用户输入的语音指令，将该语音指令识别为语音文本；

获取单元1103，用于获取当前界面的截图的缩略图；

发送单元1104，用于将获取单元1103获取的缩略图和当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息；

匹配单元1105，用于当接收单元1101接收到页面布局服务器响应的页面布局信息时，使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；

操作单元1106，用于在匹配单元1105匹配到的目标操作区域执行识别单元1102识别出的语音文本所指定的操作。

较佳地，

匹配单元1105，进一步用于使用所述语音文本在所述页面布局信息中未匹配到语音指令对应的目标操作区域时，对页面布局信息中的各区域分别进行字符识别，再使用所述语音文本和字符识别结果进行匹配获得语音文本对应的目标操作区域。

较佳地，

识别单元1102，用于将该语音指令识别为语音文本时，对所述语音文本进行处理，获得目标操作区域的定位描述信息、操作类型和操作内容；

匹配单元1105，具体用于使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域时，使用所述目标操作区域的定位描述信息在所述页面布局信息中匹配语音指令对应的目标操作区域；

操作单元1106，具体用于在所述目标操作区域执行所述语音文本所指定的操作时，在所述目标操作区域执行所述操作内容和操作类型对应的操作。

较佳地，

发送单元1104，进一步用于在将所述缩略图和当前使用的APP的标识发送给页面布局服务器之后，当预设时间到时，接收单元1101未接收到页面布局服务器响应的页面布局信息；将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述截图生成页面布局信息并返回。

较佳地，

发送单元1104，进一步用于在将所述缩略图和当前使用的APP的标识发送给页面布局服务器之后，当接收单元1101接收到页面布局服务器发送的内容为空的响应时，将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述截图生成页面布局信息并返回。

较佳地，该装置进一步包括：存储单元1107和确定单元1108；

存储单元1107，用于当接收单元1101接收到页面布局服务器响应的页面布局信息时，存储所述页面布局信息；

确定单元1108，进一步用于当获取单元1103获取当前界面的截图的缩略图时，确定存储单元1107是否存储所述缩略图的信息对应的页面布局信息，如果是，在所述存储单元获取存储的对应页面布局信息，触发匹配单元1105使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；否则，触发发送单元1104将所述缩略图和当前使用的APP的标识发送给页面布局服务器。

较佳地，

匹配单元1105，具体用于使用缩略图的信息匹配对应的页面布局信息时，将该APP标识对应的每个页面布局信息中第一个区域的RegionArea和RegionPixel对应的内容按照截图与缩略图的比例缩小；使用RegionArea对应的缩小后的内容确定缩略图对应的区域的像素信息，再使用确定的像素信息与RegionPixel对应的缩小后的内容进行匹配，若匹配，匹配到该缩略图的信息对应的页面布局信息；其中，所述页面布局信息包括：LayoutID、RegionID、RegionArea、RegionType、RegionText和RegionPixel；LayoutID为该版应用中页面布局信息的唯一编号；RegionID的内容为可操作区域的编号；RegionArea的内容为可操作区域的坐标范围，包含横坐标、纵坐标、宽度、高度；RegionType的内容为可操作区域的类型；RegionText的内容为可操作区域的语义文本；RegionPixel的内容为可操作区域的像素信息，用于进行页面布局信息的匹配。

基于同样的发明构思，本申请还提出一种语音控制图形界面的装置，应用于页面布局服务器上。参见图12，图12为本申请实施例中应用于实施例四和五中的技术的装置结构示意图。该装置包括：接收单元1201、匹配单元1202和发送单元1203；

接收单元1201，接收缩略图和APP的标识

匹配单元1202，用于当接收单元1201接收到终端发送的截图的缩略图和APP的标识时，根据所述缩略图的信息和APP的标识在本地存储的页面布局信息中匹配对应的页面布局信息；

发送单元1203，用于当匹配单元1202匹配到对应的页面布局信息时，响应给所述终端，使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行所述语音文本所指定的操作，其中，所述语音文本为终端根据用户输入的语音指令识别出的语音文本。

较佳地，

发送单元1203，进一步用于当未匹配到对应的页面布局信息时，向所述终端发送内容为空的响应；或，不响应所述终端。

较佳地，所述装置进一步包括：生成单元1204和存储单元1205；

生成单元1204，用于当接收单元1201接收到终端发送的界面的截图，以及APP的标识时，根据所述截图生成页面布局信息，并触发发送单元1203将所述页面布局信息响应给所述终端使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行语音所指定的操作。

存储单元1205，用于所述APP的标识和生成单元1204生成的页面布局信息绑定存储。

较佳地，

生成单元1204，具体用于生成页面布局信息时，对所述截图进行区域检测，对检测出的区域进行字符识别，或目标识别，生成页面布局信息。

较佳地，

存储单元1205，具体用于在存储页面布局信息时，针对可操作区域布局相同的不同页面存储一份页面布局信息。

较佳地，

匹配单元1202，具体用于使用缩略图的信息匹配对应的页面布局信息时，将该APP标识对应的每个页面布局信息中第一个区域的RegionArea和RegionPixel对应的内容按照截图与缩略图的比例缩小；使用RegionArea对应的缩小后的内容确定缩略图对应的区域的像素信息，再使用确定的像素信息与RegionPixel对应的缩小后的内容进行匹配，若匹配，匹配到该缩略图的信息对应的页面布局信息；其中，所述页面布局信息包括：LayoutID、RegionID、RegionArea、RegionType、RegionText和RegionPixel；LayoutID的内容为该版应用中页面布局信息的唯一编号；RegionID的内容为可操作区域的编号；RegionArea的内容为可操作区域的坐标范围，包含横坐标、纵坐标、宽度、高度；RegionType的内容为可操作区域的类型；RegionText的内容为可操作区域的语义文本；RegionPixel的内容为可操作区域的像素信息，用于进行页面布局信息的匹配。

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

综上所述，本申请通过将语音指令识别为语音文本，通过当前界面的截图的缩略图，以及当前使用的APP的标识到页面布局服务器上获取对应的布局信息，再根据识别的语音文本在获取的页面布局信息中匹配到目标操作区域，进而在目标操作区域执行所述语音文本所指定的操作。该技术方案能够支持各种APP的图像界面的基础上，快速响应用户的语音指令；进而提高APP的易用性和用户体验。

本申请提供的技术方案可以支持对各种设备上图形界面的应用程序做语音控制。特别的，对于教育应用中常见的题目测验，不同的题目，其各选项区域内文本不断变化，预先训练的方法对此无法解决。本方法在检索到页面稳定的布局信息后，语音助手只对选项区域所在的局部图像做OCR识别，再做文本匹配，可以给用户快速响应。

无须预先人工训练的过程。对第一次出现的页面，即时在服务器端做页面布局分析，生成的布局信息存入数据库，供各设备端共享。

对语音输入响应快。界面切换后，即可开始获取布局信息，用缩略图做布局检索，速度相比直接做图形布局分析快得多。

页面布局信息质量高。页面布局数据库在服务器端做统一的维护；布局分析程序接收语音文本，可针对特定应用添加对应的可操作区域识别规则，从而提高布局信息的质量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音控制图形界面的方法，其特征在于，该方法包括：

接收用户输入的语音指令，将该语音指令识别为语音文本；

获取当前界面的截图的缩略图，并将所述缩略图和当前使用的应用程序APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息；

在所述目标操作区域执行所述语音文本所指定的操作。

2.根据权利要求1所述的方法，其特征在于，所述接收到页面布局服务器响应的页面布局信息时，所述方法进一步包括：

使用所述语音文本在所述页面布局信息中未匹配到语音指令对应的目标操作区域时，对页面布局信息中的各区域分别进行字符识别，再使用所述语音文本和字符识别结果进行匹配获得语音文本对应的目标操作区域。

3.根据权利要求1所述的方法，其特征在于，所述将该语音指令识别为语音文本时，所述方法进一步包括：对所述语音文本进行处理，获得目标操作区域的定位描述信息、操作类型和操作内容；

所述使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域时，使用所述目标操作区域的定位描述信息在所述页面布局信息中匹配语音指令对应的目标操作区域；

所述在所述目标操作区域执行所述语音文本所指定的操作时，在所述目标操作区域执行所述操作内容和操作类型对应的操作。

4.根据权利要求1所述的方法，其特征在于，所述将所述缩略图和当前使用的APP的标识发送给页面布局服务器之后，所述方法进一步包括：

当预设时间到时，未接收到页面布局服务器响应的页面布局信息；将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述截图生成页面布局信息并返回。

5.根据权利要求1所述的方法，其特征在于，所述将所述缩略图和当前使用的APP的标识发送给页面布局服务器之后，所述方法进一步包括：

当接收到页面布局服务器发送的内容为空的响应时，将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述截图生成页面布局信息并返回。

6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：接收到页面布局服务器响应的页面布局信息时，存储所述页面布局信息；

所述获取当前界面的截图的缩略图之后，所述将所述缩略图和当前使用的APP的标识发送给页面布局服务器之前，所述方法进一步包括：

确定本地是否存储所述缩略图的信息对应的页面布局信息，如果是，在本地获取存储的对应页面布局信息，使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；否则，将所述缩略图和当前使用的APP的标识发送给页面布局服务器。

7.根据权利要求1-6任一项所述的方法，其特征在于，当所述页面布局信息包括：LayoutID、RegionID、RegionArea、RegionType、RegionText和RegionPixel时，使用缩略图的信息匹配对应的页面布局信息，包括：

将该APP标识对应的每个页面布局信息中第一个区域的RegionArea和RegionPixel对应的内容按照截图与缩略图的比例缩小；

使用RegionArea对应的缩小后的内容确定缩略图对应的区域的像素信息，再使用确定的像素信息与RegionPixel对应的缩小后的内容进行匹配，若匹配，匹配到该缩略图的信息对应的页面布局信息；

其中，LayoutID为该版应用中页面布局信息的唯一编号；

RegionID的内容为可操作区域的编号；

RegionArea的内容为可操作区域的坐标范围，包含横坐标、纵坐标、宽度、高度；

RegionType的内容为可操作区域的类型；

RegionText的内容为可操作区域的语义文本；

RegionPixel的内容为可操作区域的像素信息，用于进行页面布局信息的匹配。

8.一种语音控制图形界面的方法，应用于页面布局服务器上，其特征在于，该方法包括：

接收到终端发送的界面的截图的缩略图和应用程序APP的标识时，根据所述缩略图的信息和APP的标识在本地存储的页面布局信息中匹配对应的页面布局信息；

9.根据权利要求8所述的方法，其特征在于，所述方法进一步包括：

或，不响应所述终端。

10.根据权利要求8所述的方法，其特征在于，所述方法进一步包括：

当接收到终端发送的界面的截图，以及APP的标识时，根据所述截图生成页面布局信息，并将所述APP的标识和生成的页面布局信息绑定存储，以及响应给所述终端使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行语音所指定的操作。

11.根据权利要求10所述的方法，其特征在于，所述生成页面布局信息，包括：

12.根据权利要求10所述的方法，其特征在于，在存储页面布局信息时，针对可操作区域布局相同的不同页面存储一份页面布局信息。

13.根据权利要求8-12任一项所述的方法，其特征在于，当所述页面布局信息包括：LayoutID、RegionID、RegionArea、RegionType、RegionText和RegionPixel时，使用缩略图的信息匹配对应的页面布局信息，包括：

其中，LayoutID为该版应用中页面布局信息的唯一编号；

RegionID的内容为可操作区域的编号；

RegionType的内容为可操作区域的类型；

RegionText的内容为可操作区域的语义文本；

14.一种语音控制图形界面的装置，其特征在于，该装置包括：接收单元、识别单元、获取单元、发送单元、匹配单元和操作单元；

所述获取单元，用于获取当前界面的截图的缩略图；

所述发送单元，用于将所述获取单元获取的缩略图和当前使用的应用程序APP的标识发送给页面布局服务器，使页面布局服务器根据所述缩略图的信息和APP的标识匹配对应的页面布局信息；

15.根据权利要求14所述的装置，其特征在于，

所述匹配单元，进一步用于使用所述语音文本在所述页面布局信息中未匹配到语音指令对应的目标操作区域时，对页面布局信息中的各区域分别进行字符识别，再使用所述语音文本和字符识别结果进行匹配获得语音文本对应的目标操作区域。

16.根据权利要求14所述的装置，其特征在于，

所述识别单元，用于将该语音指令识别为语音文本时，对所述语音文本进行处理，获得目标操作区域的定位描述信息、操作类型和操作内容；

所述匹配单元，具体用于使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域时，使用所述目标操作区域的定位描述信息在所述页面布局信息中匹配语音指令对应的目标操作区域；

所述操作单元，具体用于在所述目标操作区域执行所述语音文本所指定的操作时，在所述目标操作区域执行所述操作内容和操作类型对应的操作。

17.根据权利要求14所述的装置，其特征在于，

所述发送单元，进一步用于在将所述缩略图和当前使用的APP的标识发送给页面布局服务器之后，当预设时间到时，所述接收单元未接收到页面布局服务器响应的页面布局信息；将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述截图生成页面布局信息并返回。

18.根据权利要求14所述的装置，其特征在于，

所述发送单元，进一步用于在将所述缩略图和当前使用的APP的标识发送给页面布局服务器之后，当所述接收单元接收到页面布局服务器发送的内容为空的响应时，将当前界面的截图，以及当前使用的APP的标识发送给页面布局服务器，使页面布局服务器根据所述截图生成页面布局信息并返回。

19.根据权利要求14所述的装置，其特征在于，该装置进一步包括：存储单元和确定单元；

所述存储单元，用于当所述接收单元接收到页面布局服务器响应的页面布局信息时，存储所述页面布局信息；

所述确定单元，进一步用于当所述获取单元获取当前界面的截图的缩略图时，确定所述存储单元是否存储所述缩略图的信息对应的页面布局信息，如果是，在所述存储单元获取存储的对应页面布局信息，触发所述匹配单元使用所述语音文本在所述页面布局信息中匹配到语音指令对应的目标操作区域；否则，触发所述发送单元将所述缩略图和当前使用的APP的标识发送给页面布局服务器。

20.根据权利要求14-19任一项所述的装置，其特征在于时，使用缩略图的信息匹配对应的页面布局信息，包括：

所述匹配单元，具体用于使用缩略图的信息匹配对应的页面布局信息时，将该APP标识对应的每个页面布局信息中第一个区域的RegionArea和RegionPixel对应的内容按照截图与缩略图的比例缩小；使用RegionArea对应的缩小后的内容确定缩略图对应的区域的像素信息，再使用确定的像素信息与RegionPixel对应的缩小后的内容进行匹配，若匹配，匹配到该缩略图的信息对应的页面布局信息；其中，所述页面布局信息包括：LayoutID、RegionID、RegionArea、RegionType、RegionText和RegionPixel；LayoutID为该版应用中页面布局信息的唯一编号；RegionID的内容为可操作区域的编号；RegionArea的内容为可操作区域的坐标范围，包含横坐标、纵坐标、宽度、高度；RegionType的内容为可操作区域的类型；RegionText的内容为可操作区域的语义文本；RegionPixel的内容为可操作区域的像素信息，用于进行页面布局信息的匹配。

21.一种语音控制图形界面的装置，应用于页面布局服务器上，其特征在于，该装置包括：接收单元、匹配单元和发送单元；

所述接收单元，接收缩略图和应用程序APP的标识

22.根据权利要求21所述的装置，其特征在于，

所述发送单元，进一步用于当未匹配到对应的页面布局信息时，向所述终端发送内容为空的响应；或，不响应所述终端。

23.根据权利要求21所述的装置，其特征在于，所述装置进一步包括：生成单元和存储单元；

所述生成单元，用于当所述接收单元接收到终端发送的界面的截图，以及APP的标识时，根据所述截图生成页面布局信息，并触发所述发送单元将所述页面布局信息响应给所述终端使所述终端根据语音文本在响应的页面布局信息中匹配到目标操作区域，并在所述操作区域执行语音所指定的操作；

所述存储单元，用于所述APP的标识和所述生成单元生成的页面布局信息绑定存储。

24.根据权利要求21所述的装置，其特征在于，所述装置进一步包括：生成单元；

所述生成单元，具体用于生成页面布局信息时，对所述截图进行区域检测，对检测出的区域进行字符识别，或目标识别，生成页面布局信息。

25.根据权利要求23所述的装置，其特征在于，

所述存储单元，具体用于在存储页面布局信息时，针对可操作区域布局相同的不同页面存储一份页面布局信息。

26.根据权利要求21-25任一项所述的装置，其特征在于，

所述匹配单元，具体用于使用缩略图的信息匹配对应的页面布局信息时，将该APP标识对应的每个页面布局信息中第一个区域的RegionArea和RegionPixel对应的内容按照截图与缩略图的比例缩小；使用RegionArea对应的缩小后的内容确定缩略图对应的区域的像素信息，再使用确定的像素信息与RegionPixel对应的缩小后的内容进行匹配，若匹配，匹配到该缩略图的信息对应的页面布局信息；其中，所述页面布局信息包括：LayoutID、RegionID、RegionArea、RegionType、RegionText和RegionPixel；LayoutID的内容为该版应用中页面布局信息的唯一编号；RegionID的内容为可操作区域的编号；RegionArea的内容为可操作区域的坐标范围，包含横坐标、纵坐标、宽度、高度；RegionType的内容为可操作区域的类型；RegionText的内容为可操作区域的语义文本；RegionPixel的内容为可操作区域的像素信息，用于进行页面布局信息的匹配。