CN109471678A

CN109471678A - 基于图像识别的语音中控方法及装置

Info

Publication number: CN109471678A
Application number: CN201811320296.XA
Authority: CN
Inventors: 徐鸿; 陈晓锋
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-15

Abstract

本发明公开一种基于图像识别的语音中控方法及装置，其中，所述方法包括：截取当前显示界面以得到待识别图像，并识别出所述待识别图像中所包含的多个控件的信息；接收服务器基于对用户语音指令进行分析所生成的中控指令；根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件；调用系统的辅助服务功能实现对所述目标控件的模拟点击。本发明简化了对第三方应用的语音控制方法，不需要一一适配每一个第三方程序，对于所有安装在设备上能启动能展示出来的应用界面都能控制；不需要第三方程序提供接口，只要是在设备界面上显示出来有文字或图像可识别的控件即可实现中控控制；也不需要对第三方应用程序进行对接调试即可实现语音控制。

Description

基于图像识别的语音中控方法及装置

技术领域

本发明涉及语音控制技术领域，尤其涉及一种基于图像识别的语音中控方法及装置。

背景技术

当前市面上的安卓软件语音中控方案，其实现方案大致如下：前端麦克风接收到语音信号，送到服务端处理，识别出对应的中控指令，下发中控指令到客户端，客户端通过第三方程序暴露的接口操控。这是市面上大多数语音助手类产品采用的方式，但存在以下缺点：(1)只有提供接口的第三方程序才能操控。(2)每种程序都要对接调试才能被中控控制。(3)程序接口设计无法满足复杂中控需求。

发明内容

本发明实施例提供一种基于图像识别的语音中控方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种基于图像识别的语音中控方法，该方法包括：

截取当前显示界面以得到待识别图像，并识别出所述待识别图像中所包含的多个控件的信息；

接收服务器基于对用户语音指令进行分析所生成的中控指令；

根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件；

调用系统的辅助服务功能实现对所述目标控件的模拟点击。

第二方面，本发明实施例提供一种基于图像识别的语音中控装置，包括：

控件信息识别模块，用于截取当前显示界面以得到待识别图像，并识别出所述待识别图像中所包含的多个控件的信息；

指令接收模块，用于接收服务器基于对用户语音指令进行分析所生成的中控指令；

目标控件确定模块，用于根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件；

功能调用模块，用于调用系统的辅助服务功能实现对所述目标控件的模拟点击。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项基于图像识别的语音中控方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项基于图像识别的语音中控方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项基于图像识别的语音中控方法。

本发明实施例的有益效果在于：免适配，不需要一一适配每一个第三方程序，对于所有安装在设备上能启动能展示出来的应用界面都能控制。高性能，不需要第三方程序提供接口，只要是在设备界面上显示出来有文字或图像可识别的控件即可实现中控控制。也不需要对第三方应用程序进行对接调试即可实现语音控制，简化了对第三方应用程序的语音控制的实现方法，降低了开发成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于图像识别的语音中控方法的一实施例的流程图；

图2为本发明的基于图像识别的语音中控方法中的步骤S30的一实施例的流程图；

图3为本发明的基于图像识别的语音中控方法的另一实施例的流程图；

图4为本发明的基于图像识别的语音中控装置的一实施例的原理框图；

图5为本发明的基于图像识别的语音中控装置的一实施例的原理框图；

图6为本发明的基于图像识别的语音中控装置中的目标控件确定模块的一实施例的原理框图；

图7为本发明的基于图像识别的语音中控装置的另一实施例的原理框图；

图8为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例中的基于图像识别的语音中控方法，对应于一种计算机程序产品，该计算机程序产品安装于智能终端设备上，用于实现对安装于智能终端设备上的第三方应用程序的语音控制(在无需对第三方应用程序进行定制或适应性调整或修改的情况下即可实现对其的语音控制)，该智能终端上配置有显示屏或者该终端设备能够投影出显示界面用于用户进行交互操作，例如，智能手机、平板电脑、PC、车载终端、智能家居、投影仪等任何智能硬件，本发明对此不作限定。

如图1所示，本发明的实施例提供一种基于图像识别的语音中控方法，包括：

S10、截取当前显示界面以得到待识别图像，并识别出所述待识别图像中所包含的多个控件的信息。

示例性地，当用户使用智能手机中所安装第三方应用程序时，在该第三方应用程序的每一个界面下都会有多个不同的控件供用户进行操作，本发明实施例中，当该第三方应用程序处于某一界面时，截取该界面，并对所截得的图像进行图像识别处理，以识别出该界面下所包含的控件的信息。

进一步地，本发明实施例中，根据所述待识别图像中所包含的文字信息和/或图像内容信息和/或图标信息识别出多个控件的信息，即可以基于界面中所包含的文字信息、图像内容(例如，电影宣传海报)、图标信息(例如，对于播放器类的第三方应用程序，则可以以特殊的图标为识别对象来识别控件，其中，特殊图标可以是对应于“播放”、“快进”、“下一曲”等的特殊图标)。

S20、接收服务器基于对用户语音指令进行分析所生成的中控指令。示例性地，用户向智能手机发出语音指令，智能手机在接收到语音指令之后将该语音指令转发至服务器，再由服务器对用户的语音指令进行分析处理，以得出相应的中控指令。

S30、根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件。具体地，对于智能手机上安装的音乐播放器，此时，多个控件的信息就可以是“播放”、“暂停”、“下一曲”等内容，中控指令可能就是点击播放按键或者点击暂停按键等内容。

S40、调用系统的辅助服务功能实现对所述目标控件的模拟点击。

辅助功能(AccessibilityService)其实是一个Android系统提供给的一种服务，本身是继承Service类的。这个服务提供了增强的用户界面，旨在帮助残障人士或者可能暂时无法与设备充分交互的人们。

从开发者的角度看，其实就是提供两种功能：查找界面元素，实现模拟点击。实现一个辅助功能服务要求继承AccessibilityService类并实现它的抽象方法。自定义一个服务类AccessibilitySampleService(这个命名可以随意)，继承系统的AccessibilityService并覆写onAccessibilityEvent和onInterrupt方法。编写好服务类之后，在系统配置文件(AndroidManifest.xml)中注册服务。完成前面两个步骤就完成了基本发辅助功能服务注册与配置，具体的功能实现需要在onAccessibilityEvent中完成，根据onAccessibilityEvent回调方法传递过来的AccessibilityEvent对象可以对事件进行过滤，结合AccessibilitySampleService本身提供的查找节点与模拟点击相关的接口即可实现权限节点的查找与点击。

本发明提供了一种新的语音中控技术方案。旨在解决目前大多数语音中控方案中存在的缺点。基本原理是通过AccessibleService辅助功能查找界面控件，实现模拟点击。但是发明人发现AccessibleService是通过控件ID或设定的text文本查找，现有技术中主流开发是运用图片增强设计美感，对于这些图片控件无法准确查定位到。

故而本申请中所提出的新的方案是加入图像识别，识别图像控件的文本或图片信息(例如：电影海报准确识别出对应的电影名)，通过位置信息与AccessibleService的控件匹配。通过语音输入第三方应用程序的界面上显示的文本或图像所表达的信息即可定位到控件，实现模拟点击。

其优势在于：

(1)免适配。不需要一一适配每一个第三方程序，对于所有安装在设备上能启动能展示出来的应用界面都能控制。

(2)高性能，不需要第三方程序提供接口，只要是在设备界面上显示出来有文字或图像可识别的控件即可实现中控控制。

在一些实施例中，所述多个控件的信息包括：多个控件的控件内容信息集和第一控件位置信息集，所述控件内容信息集中的控件内容信息与所述第一控件位置信息集中的控件位置信息一一对应；

如图2所示，在本发明的基于图像识别的语音中控方法的一些实施例中，所述根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件包括：

S31、调用系统的辅助服务功能查找对应于所述当前显示界面的多个控件的第二控件位置信息集；系统辅助功能具有权限能够获取当前页面下所包含的所有的空间的位置信息，并且能够用于对控件进行模拟点击操作，从而实现对控件的控制。

S32、匹配所述第一控件位置信息集与所述第二控件位置信息集中的控件位置信息，以建立所述第二控件位置信息集中的控件位置信息与所述控件内容信息集中的控件内容信息之间的映射关系。

示例性地，一方面第一控件位置信息集是由图像识别的方式得到的，另一方面第二控件位置信息集是由具有权限的辅助服务功能直接获得的，即两个集合中实际上存储了相同控件的位置信息，从而能够基于对对应于同一个控件的位置信息建立第一控件位置信息集合第二控件位置信息集之间的关联；

进一步，由于控件内容信息集中的控件内容信息与第一控件位置信息集中的控件位置信息一一对应，从而能够建立第二位置信息集中的控件位置信息与所述控件内容信息集中的控件内容信息之间的映射关系。

S33、当所述控件内容信息集中存在相应于所述中控指令的控件内容信息时，确定相应于所述中控指令的控件内容信息为目标控件内容信息。

本实施例中，当接收到中控指令之后，可以在控件内容信息集中查找是否存储了对应于该中控指令的空间内容信息(例如，如果中控指令为“播放”，则需要查找控件内容信息集中是否存在对应于“播放”的内容信息，即查找当前界面上是否存在“播放”按键)；如果存在则可以确定当前界面上是存在播放按键的，从而能够用于进一步的确定相应的控件。

S34、根据所述映射关系确定对应于所述目标控件内容信息的目标控件。

如图3所示，在本发明的基于图像识别的语音中控方法的一些实施例中，还包括：

S33′、当所述控件内容信息集中不存在相应于所述中控指令的控件内容信息时，检测用户的点击操作。

示例性地，用于用户是看着软件界面说出的语音指令，所以所说出的语音指令必然都是针对软件界面上的控件的，如果控件内容信息集中不存在对应于相应中控指令的控件内容信息，则表明可能是在构建控件内容信息集时漏掉了对应于当前中控指令的控件的控件内容信息(这可能是由于在进行图像识别阶段，对截图中所存在的某些特征不太突出的控件进行识别时失败了或者根本就没有识别到)。一般情况下，用户采用语音控制时，在说出语音指令之后如果没有得到响应(可能进行了多次尝试都失败了)，则会选择进行手动点击操作，因此本发明实施例中在此种情况下进行了点击操作的检测。

S34′、当检测到用户的点击操作时，将所述点击操作的点击对象识别为新的控件。当检测到用户的点击操作时，表明用户在尝试了多次语音控制失败之后，选择了进行手动操作，这时用户所点击的对象正是用户想要操作的控件(同时也是图像识别阶段没有能够成功识别出的控件)，此时将该点击对象作为新的控件。

S35′、获取所述新的控件的控件内容信息和控件位置信息，并更新所述控件内容信息集和第一控件位置信息集。本实施例中基于用户的手动点击操作所确定的新的控件，对之前建立的控件内容信息集合第一控件位置信息集进行了及时的更新，从而能够当用户再次使用语音指令操作该控件时能够顺利的给出用户响应，使得语音中控方法能够越来越完善，从而提升用户体验。

如图4所示，为本发明的基于图像识别的语音中控方法的另一实施例的流程图，具体包括以下步骤：

(1)监听设备屏幕显示界面变化，将屏幕截屏送去图像识别。

(2)图像识别解析出屏幕上对应的控件，就是文字，海报或通用默认的图标(如：播放，暂停等)，解析出对应控件的位置和文字信息，一一配对。

(3)使用Android的AccessibleService辅助功能，查找屏幕控件，通过控件的位置信息与步骤(2)中图像解析出的控件信息配对，这样就将用户眼中看到的控件信息与AccessibleService中可操控的控件统一起来。

(4)输出语音，云端服务器解析出中控指令传给客户端。

(5)客户端根据收到的中控指令找到控件，执行AccessibleService的点击操作。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图5所示，本发明的实施例还提供一种基于图像识别的语音中控装置500，包括：

控件信息识别模块510，用于截取当前显示界面以得到待识别图像，并识别出所述待识别图像中所包含的多个控件的信息；

指令接收模块520，用于接收服务器基于对用户语音指令进行分析所生成的中控指令；

目标控件确定模块530，用于根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件；

功能调用模块540，用于调用系统的辅助服务功能实现对所述目标控件的模拟点击。

本发明实施例中的基于图像识别的语音中控装置500不需要一一适配每一个第三方程序，对于所有安装在设备上能启动能展示出来的应用界面都能控制；不需要第三方程序提供接口，只要是在设备界面上显示出来有文字或图像可识别的控件即可实现中控控制；也不需要对第三方应用程序进行对接调试即可实现语音控制。

在一些实施例中，多个控件的信息包括：多个控件的控件内容信息集和第一控件位置信息集，所述控件内容信息集中的控件内容信息与所述第一控件位置信息集中的控件位置信息一一对应。

如图6所示，在一些实施例中，基于图像识别的语音中控装置500中的目标控件确定模块530包括：

功能调用单元531，用于调用系统的辅助服务功能查找对应于所述当前显示界面的多个控件的第二控件位置信息集；

信息匹配单元532，用于匹配所述第一控件位置信息集与所述第二控件位置信息集中的控件位置信息，以建立所述第二控件位置信息集中的控件位置信息与所述控件内容信息集中的控件内容信息之间的映射关系；

目标内容确定单元533，用于当所述控件内容信息集中存在相应于所述中控指令的控件内容信息时，确定相应于所述中控指令的控件内容信息为目标控件内容信息；

目标控件确定单元534，用于根据所述映射关系确定对应于所述目标控件内容信息的目标控件。

如图7所示，在一些实施例中，本发明的基于图像识别的语音中控装置500还包括：

检测模块530′，当所述控件内容信息集中不存在相应于所述中控指令的控件内容信息时，检测用户的点击操作；

新控件识别模块540′，用于当检测到用户的点击操作时，将所述点击操作的点击对象识别为新的控件；

更新模块550′，用于获取所述新的控件的控件内容信息和控件位置信息，并更新所述控件内容信息集和第一控件位置信息集。

在一些实施例中，所述识别出所述待识别图像中所包含的多个控件的信息包括：根据所述待识别图像中所包含的文字信息和/或图像内容信息和/或图标信息识别出多个控件的信息。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项基于图像识别的语音中控方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项基于图像识别的语音中控方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行基于图像识别的语音中控方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时基于图像识别的语音中控方法。

上述本发明实施例的基于图像识别的语音中控装置可用于执行本发明实施例的基于图像识别的语音中控方法，并相应的达到上述本发明实施例的实现基于图像识别的语音中控方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图8是本申请另一实施例提供的执行基于图像识别的语音中控方法的电子设备的硬件结构示意图，如图8所示，该设备包括：

一个或多个处理器810以及存储器820，图8中以一个处理器810为例。

执行基于图像识别的语音中控方法的设备还可以包括：输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器820作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于图像识别的语音中控方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于图像识别的语音中控方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于图像识别的语音中控装置的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至基于图像识别的语音中控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息，以及产生与基于图像识别的语音中控装置的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器820中，当被所述一个或者多个处理器810执行时，执行上述任意方法实施例中的基于图像识别的语音中控方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于图像识别的语音中控方法，包括：

调用系统的辅助服务功能实现对所述目标控件的模拟点击。

2.根据权利要求1所述的方法，其中，所述多个控件的信息包括：多个控件的控件内容信息集和第一控件位置信息集，所述控件内容信息集中的控件内容信息与所述第一控件位置信息集中的控件位置信息一一对应；

所述根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件包括：

调用系统的辅助服务功能查找对应于所述当前显示界面的多个控件的第二控件位置信息集；

匹配所述第一控件位置信息集与所述第二控件位置信息集中的控件位置信息，以建立所述第二控件位置信息集中的控件位置信息与所述控件内容信息集中的控件内容信息之间的映射关系；

当所述控件内容信息集中存在相应于所述中控指令的控件内容信息时，确定相应于所述中控指令的控件内容信息为目标控件内容信息；

根据所述映射关系确定对应于所述目标控件内容信息的目标控件。

3.根据权利要求2所述的方法，其中，还包括：

当所述控件内容信息集中不存在相应于所述中控指令的控件内容信息时，检测用户的点击操作；

当检测到用户的点击操作时，将所述点击操作的点击对象识别为新的控件；

获取所述新的控件的控件内容信息和控件位置信息，并更新所述控件内容信息集和第一控件位置信息集。

4.根据权利要求1所述的方法，其中，所述识别出所述待识别图像中所包含的多个控件的信息包括：

根据所述待识别图像中所包含的文字信息和/或图像内容信息和/或图标信息识别出多个控件的信息。

5.一种基于图像识别的语音中控装置，包括：

6.根据权利要求5所述的装置，其中，所述多个控件的信息包括：多个控件的控件内容信息集和第一控件位置信息集，所述控件内容信息集中的控件内容信息与所述第一控件位置信息集中的控件位置信息一一对应；

所述目标控件确定模块包括：

功能调用单元，用于调用系统的辅助服务功能查找对应于所述当前显示界面的多个控件的第二控件位置信息集；

信息匹配单元，用于匹配所述第一控件位置信息集与所述第二控件位置信息集中的控件位置信息，以建立所述第二控件位置信息集中的控件位置信息与所述控件内容信息集中的控件内容信息之间的映射关系；

目标内容确定单元，用于当所述控件内容信息集中存在相应于所述中控指令的控件内容信息时，确定相应于所述中控指令的控件内容信息为目标控件内容信息；

目标控件确定单元，用于根据所述映射关系确定对应于所述目标控件内容信息的目标控件。

7.根据权利要求6所述的装置，其中，还包括：

检测模块，当所述控件内容信息集中不存在相应于所述中控指令的控件内容信息时，检测用户的点击操作；

新控件识别模块，用于当检测到用户的点击操作时，将所述点击操作的点击对象识别为新的控件；

更新模块，用于获取所述新的控件的控件内容信息和控件位置信息，并更新所述控件内容信息集和第一控件位置信息集。

8.根据权利要求5所述的装置，其中，所述识别出所述待识别图像中所包含的多个控件的信息包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。