CN111598128A

CN111598128A - 用户界面的控件状态识别、控制方法、装置、设备及介质

Info

Publication number: CN111598128A
Application number: CN202010275070.3A
Authority: CN
Inventors: 王洁梅; 周大军
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-28
Anticipated expiration: 2040-04-09
Also published as: CN111598128B

Abstract

本申请公开了一种用户界面的控件状态识别、控制方法、装置、设备及介质，该方法包括：接收待识别的用户界面图像，用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应；基于用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像；基于样本图像中所包含的操作区域，确定用户界面图像对应的用户界面状态标识，用户界面状态标识用于表示用户界面图像对应的控件状态。该方案通过基于待识别的用户界面图像与与样本图像库中的样本图像进行操作区域匹配，可以精准地确定用户界面状态标识，无需预先在安装包中放入第三方插件，减少了第三方插件识别用户界面状态标识的操作环节，有效地提高了用户界面状态的识别效率。

Description

用户界面的控件状态识别、控制方法、装置、设备及介质

技术领域

本发明一般涉及图像处理技术领域，具体涉及一种用户界面的控件状态识别、控制方法、装置、设备及介质。

背景技术

随着互联网技术的快速发展，越来越多的终端交互需要通过设计用户界面(UserInterface，简称UI)进行实现，如网页设计、移动端UI设计、游戏界面设计等，其中，游戏界面可以包括游戏的登陆界面、个人装备属性界面等不同界面，从而实现对不同软件的人机交互和操作逻辑。

目前，相关技术将获取到的实时图像与样本库中的所有样本图进行匹配，每个样本图与对应的配置动作相关联，如果实时图像与样本图像匹配成功则执行匹配成功的样本图对应的配置动作；或者通过第三方工具抓取控件信息，通过控件信息确定用户界面当前的状态信息，然后根据状态信息来控制用户界面执行相应的动作。

相关技术通过图像匹配控制用户界面执行配置动作，仅适合简单的界面控制，对于复杂的用户界面则无法执行复杂的逻辑控制操作。另外，有些场景在控制过程中并没有将第三方工具打包在游戏中，导致无法准确的获取到控件状态信息并对控件执行相应的控制，使得用户界面图像识别效率低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种用户界面的控件状态识别、控制方法、装置、设备及介质，能够精准地确定出与待识别的用户界面图像对应的用户界面状态标识，提高了用户界面图像的识别效率。

第一方面，本申请实施例提供了一种用户界面的控件状态识别方法，该方法包括：

接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应；

基于用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像；

基于样本图像中所包含的操作区域，确定用户界面图像对应的用户界面状态标识，该用户界面状态标识用于表示用户界面图像所对应的控件状态。

第二方面，本申请提供了一种用户界面控制方法，该方法包括：

接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的每个控件相对应；

基于第一方面的方法确定待识别的用户界面图像对应的用户界面状态标识；

调用与用户界面状态标识对应的控制脚本，对用户界面的多个控件执行有序地控制。

第三方面，本申请提供了一种用户界面的控件状态识别装置，该装置包括：

接收模块，用于接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个所述操作区域与用户界面的一个控件相对应；

查找模块，用于基于所述用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像；

确定模块，用于基于所述样本图像的所包含的操作区域，确定所述用户界面图像对应的用户界面状态标识，所述用户界面状态标识用于表示所述用户界面图像所对应的控件状态。

第四方面，本申请提供了一种用户界面控制装置，该装置包括：

接收模块，用于接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的每个控件相对应；

确定模块，用于基于第一方面的方法确定待识别的用户界面图像对应的用户界面状态标识；

调用模块，用于调用与所述用户界面状态标识对应的控制脚本，对所述用户界面的多个控件执行有序地控制。

第五方面，本申请实施例提供一种设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上述第一方面的方法或第二方面的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于实现如上第一方面的方法或第二方面的方法。

本申请实施例提供的用户界面的控件状态识别方法、装置、设备及介质，通过接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应，并基于用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像，基于样本图像中所包含的操作区域，确定用户界面图像对应的用户界面状态标识，该用户界面状态标识用于表示用户界面图像对应的控件状态。与相关技术相比，本申请基于待识别的用户界面图像与样本图像库中的样本图像进行操作区域匹配，可以准确地确定用户界面状态标识，无需预先在安装包中放入第三方插件，再通过调用第三方插件来确定用户界面状态标识，其减少了第三方插件识别用户界面状态标识的操作环节，有效地提高了用户界面状态的识别效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的用户界面的控件状态识别或用户界面控制的实施环境架构图；

图2为本申请实施例提供的用户界面的控件状态识别方法的流程示意图；

图3为本申请实施例提供的用户界面的结构示意图；

图4为本申请实施例提供的对待识别的用户界面进行识别方法的流程示意图；

图5为本申请实施例提供的待识别的用户界面图像与样本图像进行特征点比对过程的结构示意图；

图6为本申请另一实施例提供的用户界面图像的控件状态识别方法的流程示意图；

图7为本申请实施例提供的对待识别的用户界面图像的操作区域进行匹配的结构示意图；

图8为本申请实施例提供的用户界面控制方法的流程示意图；

图9为本申请实施例提供的执行控制脚本时用户界面的结构示意图；

图10为本申请实施例提供的执行控制脚本时用户界面的结构示意图；

图11为本申请实施例提供的将模板图像与待识别的用户界面图像进行匹配的结构示意图；

图12为本申请实施例提供的用户界面的控件状态识别装置的结构示意图；

图13为本申请另一实施例提供的用户界面的控件状态识别装置的结构示意图；

图14为本申请又一实施例提供的用户界面的控件状态识别装置的结构示意图；

图15为本申请又一实施例提供的用户界面控制装置的结构示意图；

图16为本申请实施例示出的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了便于理解，下面对本申请实施例涉及的一些技术术语进行解释：

UI控件：用户界面控件，是指用户界面内放置的可视化图形“元件”，如按钮、文件编辑框等。常见的类型包括文件传输，日程管理，网络控件，菜单管理，按钮，窗体控件等。

安卓应用程序包：(Android application package简称apk)，是Android操作系统内使用的应用程序文件格式，用于分发和安装移动应用和中间件。其中，一个apk文件内包含被编译的代码文件(.dex文件)，文件资源(resources)，原生资源文件(assets)，证书(certificates)和清单文件(manifest file)。

如背景技术中提到的，随着互联网技术的快速发展，各种终端设备可以通过用户界面实现人机交互，例如游戏软件的用户界面，可以称为游戏界面，根据游戏需求在用户界面内可能包含的一个控件或者多个控件。相关技术对于用户界面仅包含一个控件的情况，可以通过图像识别来对控件进行控制，或者，通过在apk打包时，将第三方工具和安装包一起打包整理，其中，第三方工具可以是GAutomator，用来抓取UI控件，通过UI控件确定当前的UI状态以执行对应的动作。但是，由于相关技术对用户界面包含多个控件的情况，无法准确地识别多个控件的状态，并基于控件的状态对控件执行相应的控制。

基于上述缺陷，本申请提供了一种用户界面的控件状态识别方法，通过基于待识别的用户界面图像与与样本图像库中的样本图像进行操作区域匹配，可以精准地确定用户界面状态标识，其有效地提高用户界面包含多个控件的识别效率。

可以理解，本申请提出的基于用户界面的控件状态识别方法和用户界面控制方法，可以应用在各种终端展示的包含多个控件的用户界面上，该用户界面可以是pc端展示的用户界面，或者移动终端展示的用户界面。该用户界面控制方法还可以应用于测试领域，对包含多个控件的用户界面进行控件功能测试。

图1是本申请实施例提供的一种用户界面的控件状态识别、控制的实施环境架构图。如图1所示，该实施环境架构包括：终端100和服务器200。

其中，终端100可安装有各种客户端，并通过终端的显示部件展示客户端的界面。比如，安装游戏类客户端，当游戏类客户端启动后，终端100可显示客户端的应用界面，用户可通过应用界面与终端100进行交互。比如，在本申请中，终端100可以显示游戏的登录界面、个人装备属性界面等不同界面，以实现人机交互和不同的操作逻辑。

终端100的类型可以包括但不限于智能手机、平板电脑、电视机、笔记本电脑、台式电脑等，本申请实施例对此不进行具体限定。

其中，服务器200具有数据处理功能，并将数据处理结果发送给终端100，以使终端100通过应用程序的应用界面显示相关数据。

服务器200可以是一台服务器，也可以是由若干台服务器构成的服务器集群，或者服务器200可以包含一个或多个虚拟化平台，或者服务器200可以是一个云计算服务中心。

终端100与服务器200之间通过有线或无线网络建立通信连接。可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan AreaNetwork，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

为了便于理解和说明，下面通过图2至图16详细阐述本申请实施例提供的用户界面的控件状态识别、控制方法、装置、设备及介质。

图2所示为本申请实施例的基于用户界面的控件状态识别方法的流程示意图，该方法可以由终端设备执行。如图2所示，该方法包括：

S101、接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应。

具体的，用户界面是指应用程序提供的人机交互接口。用户界面可以包括网页界面、图形用户界面、游戏界面等。用户界面内可以包括标题、菜单、控制按钮、滚动条、边框、控件等元素，其中控件是可以提供给用户输入操作指令的区域。其中，游戏界面是指向游戏参与者展示的用户界面，该用户界面是在游戏画面上设置一个或者多个控件，例如操作选项按钮、路径选择图像区域、或者技能切换功能图标等。用户界面图像是采集得到的与用户界面对应的图像。

上述用户界面图像可以包括多个操作区域，每个操作区域与用户界面的一个控件相对应。其中，该操作区域用于接收用户输入的指令，其中，用户输入的指令可以是针对操作区域对应的控件执行点击动作，或者是针对操作区域对应的控件执行滑动动作，或者是针对操作区域对应的控件输入的语音指令等。

上述用户界面图像可以是某游戏的登录界面，或者某游戏的个人装备属性界面，或者某游戏的场景选择界面等。例如该用户界面图像可以是游戏的场景选择界面。如图3所示，其为获取到的待识别的用户界面图像的示意图。在图3示出的用户界面图像中包括多个操作区域，如“随机地图”、“度假村”、“炼钢厂”、“商业中心”、“十字街”、“遗迹”、“城寨”、“确定”等，每个操作区域对应一个控件，即在用户界面图像中每个操作区域对应的位置，与用户界面中的控件相对应，用户可以通过对控件输入操作指令，实现对控件的控制。

可选的，该待识别的用户界面图像可以是从手机端实时获取，或者从pc端实时获取的，或者从平板电脑等移动设备端实时获取的，本实施例对此不做限定。

S102、基于用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像。

本申请实施例中，在对待识别的用户界面图像进行识别之前，可以预先建立样本图像库，该样本图像库中包括多个标准的用户界面图像以及与标准的用户界面图像对应的用户界面状态标识。其中，每个标准的用户界面图像中可以包括多个操作区域，例如图3所示，在某个标准的用户界面图像中，用户已经对“商业中心”和“确定”执行相应的操作，这时对应的用户界面状态标识可以用“UI_11”表示，也可以用户其他格式的状态标识来表示，例如数字组合作为标识等。

具体的，在接收到待识别的用户界面图像之后，分别提取待识别的用户界面图像和样本图像库中每张样本图像所包含的多个特征点，并将待识别的用户界面图像的特征点与每张样本图像的特征点逐一进行比对，得到匹配点对数量。再根据匹配点对数量，查找得到至少一张样本图像。

可选的，图4为本申请实施例提供的对待识别的用户界面图像进行识别方法的流程示意图，如图4所示，步骤102可以包括如下步骤：

S1021、分别提取待识别的用户界面图像和样本图像库中每张样本图像所包含的多个特征点。

S1022、将待识别的用户界面图像的特征点与每张样本图像的特征点逐一进行比对，得到匹配点对数量。

S1023、基于匹配点对数量查找得到至少一张样本图像。

需要说明的是，待识别的用户界面图像的特征点，是指用户界面图像所包含的具有代表性的像素点。其中，具有代表性的特征点可以是用户界面图像中主体框架对应的关键像素点，或者用户界面图像中主要游戏角色对应的关键像素点，或者用户界面图像的边缘角点，边缘角点是指用户界面图像的外轮廓的边缘对应的像素点，这些像素点附近像素值变化剧烈，可以用于表征用户界面图像的外轮廓。

样本图像中的特征点也是标准的用户界面图像中的具有代表性的像素点。

其中，特征点通过调用OpenCV工具提取得到，也可以通过调用ORB(Oriented FASTand Rotated BRIEF)特征提取算法来提取得到。

可选地，采用ORB特征提取算法分别提取待识别的用户界面图像和样本图像库中每张样本图像所包含的多个特征点，可以包括：

对待识别的用户界面图像和样本图像库中的任意一个样本图像进行特征点识别，该特征点可以是用户界面图像和样本图像中的关键特征点。

例如，对用户界面图像或者样本图像中的任意一个像素点p，判断该像素点p是否为FAST关键特征点。确定像素点p为中心，在其邻域范围内确定多个像素点；再确定多个像素点中是否存在连续N个点的灰度值与像素点p的灰度值的差值超出预设的阈值的像素点。N取值为正整数。若存在，则确定像素点p为FAST关键特征点。若不存在，则确定像素点p为普通特征点。

在确定待识别的用户界面图像所包含的关键特征点和样本图像库中每张样本图像的关键特征点之后，将待识别的用户界面图像的特征点与样本图像库中的每张样本图像所包含的多个特征点逐一进行比对，从而得到匹配点对数量，并将匹配点对数量与预设阈值进行比较，确定出匹配点对数量达到预设阈值的样本图像。其中，该样本图像为与待识别的用户界面图像匹配最优的样本图像，其与待识别的用户界面图像具有相同的尺寸、方向和图标等元素。

可选地，还可以通过预先安装在终端设备中OpenCV工具来实现用户界面图像与样本图像的匹配判断。例如，调用OpenCV工具获取待识别的用户界面图像和样本图像库中的样本图像，进一步调用匹配算法接口，对用户界面图像和样本图像库中的样本图像进行特征点匹配，其特征点匹配效果示意图，如图5所示。图5中，左边为待识别的用户界面图像，右边所示为样本图像库中的某个样本图像，图中示出的连线是指待识别的用户界面图像与样本图像库中的样本图像的特征点匹配点对。

将用户界面图像的特征点与每张样本图像的特征点逐一进行比对，得到匹配点对数量，包括：获取用户界面图像和每张样本图像中的关键特征点，并保存关键特征点；将每个关键特征点采用二元特征向量描述，得到与每个关键特征点对应的描述符；调用匹配函数对于每个关键特征点对应的描述符进行比较，得到匹配点数量。

匹配函数例如可以根据两个关键特征点之间的标准欧几里得距离的相似值作为匹配质量标准。或者可以使用汉明距离作为匹配质量标准，例如计算二元特征向量定义的描述符之间的不同位的数量，作为判断两个关键点之间的匹配质量。在比较待识别的用户界面图像和样本图像的关键特征点时，差异数最少的关键特征点对认为是匹配点对。在匹配点对数量满足预设数量值时，确定样本图像与用户界面图像是匹配图像对。

优选地，通过上述方式可以有效提高关键点匹配效率，进而提升控件识别效率。

S103、基于样本图像中所包含的操作区域，确定用户界面图像对应的用户界面状态标识，该用户界面状态标识用于表示用户界面图像对应的控件状态。

在将待识别的用户界面图像与样本图像库中的样本图像进行特征点匹配之后，得到至少一张样本图像。为了进一步确定待识别的样本图像是否与样本图像对应的控件状态相同，则通过模板匹配算法对样本图像中所包含的操作区域，与待识别的用户界面图像进行局部匹配。

模板匹配算法是指在通过模板图像遍历查找待识别的用户界面图像，以确定待识别的图像中是否包含模板图像。

可选的，可以调用平方差匹配法、标准平方差匹配法、相关匹配法、标准相关匹配法、灰度值匹配法等来实现模板图像与待识别的用户界面图像之间的匹配。以平方差匹配法为例，通过计算待识别用户界面图像的局部区域与模板图像之间的平方差进行匹配，匹配值为零表明匹配效果最好，匹配值越大表明匹配效果最差。

图6为本申请实施例提供的基于样本图像中所包含的操作区域确定待识别的用户界面图像对应的用户界面状态标识方法的流程示意图，可以参见图6所示，步骤103可以包括如下步骤：

S1031、获取样本图像所包含的操作区域。

具体的，在确定至少一张样本图像之后，可以获取到该样本图像所包含的多个操作区域，每个操作区域与对应的控件相对应。例如，样本图像如图3所示，其中“仓库”对应的区域为黄色，“确定”对应的区域也为黄色，表示用户在图3示出的用户界面上针对“仓库”和“确定”分别输入操作指令，针对这种操作存储与之对应的标准的用户界面图像为一个样本图像。同理，针对图3示出的用户界面在不同的操作区域输入不同的操作指令会产生多张不同的样本图像。从样本图像中获取的操作区域也是不同的。从样本图像中获取操作区域可以通过像素值确定，或者预先标注操作区域的像素信息。通过识别像素信息来获取操作区域。

S1032、在确定样本图像所包含的操作区域与用户界面图像所包含的目标区域匹配时，确定样本图像的用户界面状态标识作为用户界面图像对应的用户界面状态标识。

可选地，步骤1032还可以包括：

指定多个操作区域中每一个分别作为模板图像；在待识别的用户界面图像中分别查找与每个模板图像对应的目标区域；在每个模板图像和与每个模板图像对应的目标区域之间的相似度满足匹配条件时，确定样本图像所包含的操作区域与用户界面图像所包含的目标区域匹配。

在上述步骤中，可以从样本图像中指定多个操作区域中的每一个作为模板图像，例如图10示出的标准的用户界面图像中显示的多个操作区域，每个操作区域对应一个地图选项。图10中示意的标准的用户界面图像是用户针对“商业中心”对应的控件输入操作指令的标准图。

获取“商业中心”对应的操作区域作为模板图像，在待识别的用户界面图像中查找与模板图像对应的目标区域，如图10左侧的待识别的用户界面图像中的虚线框指示的区域。

然后，确定每个模板图像和与每个模板图像对应的目标区域之间的相似度矩阵，并在每个相似度矩阵中分别确定最优匹配值，当每个最优匹配值均满足匹配条件时，确定样本图像所包含的操作区域与用户界面图像所包含的目标区域匹配。

对于样本图像中包括多个操作区域的场景中，每个操作区域可以分别作为一个模板图像，分别针对每个模板图像，在待识别的用户界面图像中获取与之对应的目标区域，该目标区域对应的像素区域大于模板图像对应的像素区域。例如目标区域是模板图像的4倍。

可选地，在每个模板图像和与每个模板图像对应的目标区域之间的相似度满足匹配条件时，确定样本图像所包含的操作区域与用户界面图像所包含的目标区域匹配，包括：确定每个模板图像和与每个模板图像对应的目标区域之间的相似度矩阵；在每个相似度矩阵中分别确定最优匹配值；在每个最优匹配值均满足匹配条件时，确定用户界面图像中与最优匹配值对应的像素区域与样本图像所包含的操作区域匹配。

其中，确定每个模板图像与其对应的目标区域值之间的相似度矩阵，例如可以：在与每个模板图像对应的所述目标区域中提取多个窗口子图像；计算每个窗口子图像和与其对应的模板图像之间的相似度值；基于相似度值构建与模板图像对应的相似度矩阵。如图7所示，在待识别的用户界面图像中确定目标区域为图7中从左至右显示的第二张图像，在该图像中按照预设步长得到多个窗口子图像，如加粗点划线示意的区域。然后，计算每个窗口子图像与模板图像之间的相似度值。模板图像为图7中从左至右显示的第一张图像。

下面以图7为例，图7示意出某游戏场景中技能操作区域的局部匹配过程，结合图7进一步描述模板图像局部匹配的原理。图7为样本图像中的操作区域与待识别的用户界面图像中的目标区域进行匹配的过程示意图。如图7所示，在样本图像中获取技能键对应的操作区域，如图7左上角示意的技能键。

在待识别的用户界面图像中获取目标区域为图7中从左至右显示的第二张图像。然后计算模板图像与目标区域的多个窗口子图像之间的相似度值，得到与模板图像对应的相似度矩阵。基于相似度矩阵的最优匹配值确定目标区域内的最佳匹配位置，如图7中，从左至右的第三张图所示，基于最佳匹配位置确定目标区域内的操作区域。

由于样本图像和待识别的用户界面图像具有相同的尺寸，则可以先确定模板图像的在样本图像中的像素位置，并在待识别的用户界面图像获取该模板图像对应的位置放大的区域作为目标区域，并根据预设步长从待识别的用户界面图像中的目标区域的左上角开始，从左至右，从上向下，采用滑动窗口的方式得到多个窗口子图像。其中，该预设步长可以为根据经验值设定，可以是1。

从待识别的用户界面图像的目标区域中确定多个窗口子图像，可以通过滑动窗口子图像的方式来确定。例如将初始窗口子图像按照步长滑动得到多个窗口子图像，步长可以是1个像素。计算模板图像与每个窗口子图像之间的相似度度值，并得到与模板图像对应的相似度矩阵。

在得到相似度矩阵后，可以从相似度矩阵中确定出相似度值最大的值为最优匹配值，并将最优匹配值与预设阈值进行比较，当最优匹配值大于预设阈值时，说明该最优匹配值对应的图像区域与模板图像的相似度较高。当最优匹配值小于等于预设阈值时，说明匹配失败，即目标区域中未包含与模板图像近似的图像区域。其中，该预设阈值为根据经验确定的固定值。

可选地，还可以通过预先安装在终端设备中OpenCV工具来实现样本图像中的操作区域与待识别的用户界面图像中目标区域的匹配。例如，可以通过调用opencv中的接口函数cv2.matchTemplate(src,tmpl,method)将样本图像中的多个操作区域与待识别的用户界面图像中的目标区域进行模板匹配，该接口函数中method表示匹配方法的选择，src为待识别的用户界面图像中的目标区域，tmpl为操作区域。

具体的，将样本图像所包含的操作区域与待识别的用户界面图像所包含的目标区域匹配，得到匹配结果，当匹配结果为匹配成功时，可以基于匹配结果确定待识别的用户界面图像对应的用户界面状态标识；另外，当得到的匹配结果为匹配失败时，则不能将该样本图像作为匹配到的样本图像，需再次从样本图像库中确定出同时满足特征点匹配和模板匹配的界面图像作为样本图像，并获取到用户界面图像对应的用户界面状态标识。

本实施例中提供的基于用户界面图像的控件状态识别方法，通过识别图像中包含的与控件对应的图像区域，来提高用户界面状态的识别效率。与相关技术相比，该技术方案无需通过在安装包中打包第三方插件，也可以准确地识别出用户界面状态，其有效地提高了用户界面状态的识别效率。

在上述实施例的基础上，图8为本申请一实施例提供的基于用户界面图像的用户界面控制方法的流程示意图。如图8所示，该方法包括：

S201、接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的每个控件相对应。

S202、基于图2所示的方法确定待识别的用户界面图像对应的用户界面状态标识。

具体的，用户界面图像中不同的控件状态对应有控件状态标识，该控件状态标识用于唯一的表示对应的控件状态。终端设备在获取到待识别的用户界面图像后，可以是通过采用机器学习算法对待识别的用户界面图像进行图像识别，也可以是采用基于神经网络的图像识别算法对待识别的用户界面图像进行图像识别，从而得到待识别的用户界面图像对应的用户界面状态标识。

S203、调用与用户界面状态标识对应的控制脚本，对用户界面的多个控件执行有序地控制。

优选地，样本图像库存储的样本图像可以挂载控制脚本，其中，该控制脚本为用户根据需求使用编程语言预先编写的脚本，编程语言例如可以是采用python等。

其中，控制脚本可以是针对同一张样本图像实现多个逻辑动作，根据用户需求可以对样本图像配置控制脚本，该控制脚本配置有用户界面对应的动作逻辑，该控制脚本用于对用户界面图像所包含的操作区域执行有序地控制。

其中，对用户界面的多个控件执行有序地控制，可以包括：读取与多个控件分别对应的操作区域的执行顺序标识，并获取与执行顺序标识对应的动作标识；按照执行顺序标识调用与动作标识对应的操作指令，操作指令用于对动作标识对应的控件执行操作。其中，该动作标识可以包括动作类型和动作位置，动作位置由像素区间表示。

下面结合图9和图10，以游戏场景中的用户界面为例，对本申请进一步展开说明。

在图9示出在样本图像库中存在的样本图像，自上而下第一张标准的用户界面图像，其对应的用户界面状态标识为UI_11，其表示用户对用户界面中“商业中心”执行点击操作，并对“确定”执行点击操作。

与用户界面状态标识UI_11对应的控制脚本，用于实现两个有序的动作逻辑，执行顺序标识用于指示动作执行的顺序。例如动作A1对应的执行顺序标识为1，动作A为点击“商业中心”；动作B1对应的执行顺序标识为2，动作B为点击“确定”。

在图9示出在样本图像库中存在的样本图像，自上而下第二张标准的用户界面图像，其对应的用户界面状态标识为UI_12，其表示用户对用户界面中“炼钢厂”执行点击操作，并对“确定”执行点击操作。

与用户界面状态标识UI_12对应的控制脚本，用于实现两个有序的动作逻辑，执行顺序标识用于指示动作执行的顺序。例如动作A2对应的执行顺序标识为1，动作A2为点击“炼钢厂”；动作B2对应的执行顺序标识为2，动作B2为点击“确定”。

在图9示出在样本图像库中存在的样本图像，自上而下第三张标准的用户界面图像，其对应的用户界面状态标识为UI_13，其表示用户对用户界面中“仓库”执行点击操作，并对“确定”执行点击操作。

与用户界面状态标识UI_13对应的控制脚本，用于实现两个有序的动作逻辑，执行顺序标识用于指示动作执行的顺序。例如动作A3对应的执行顺序标识为1，动作A3为点击“仓库”；动作B3对应的执行顺序标识为2，动作B3为点击“确定”。

在图9示出在样本图像库中存在的样本图像，自上而下第四张标准的用户界面图像，其对应的用户界面状态标识为UI_14，其表示用户对用户界面中“度假村”执行点击操作，并对“确定”执行点击操作。

与用户界面状态标识UI_14对应的控制脚本，用于实现两个有序的动作逻辑，执行顺序标识用于指示动作执行的顺序。例如动作A4对应的执行顺序标识为1，动作A4为点击“度假村”；动作B4对应的执行顺序标识为2，动作B4为点击“确定”。

在图10中显示接收到待识别的用户界面图像，假设该用户界面图像中用户针对“商业中心”和“确定”输入操作指令，则获取用户界面图像之后，提取该待识别的用户界面图像和样本图像库中每个样本图像中的多个特征点，将用户界面图像的特征点与每张样本图像的特征点逐一比对，确定匹配点对数量，并从样本图像库中确定出匹配点对数量大于预设阈值的多张样本图像，如图9中所示的多个样本图像。

为了进一步确定待识别的用户界面图像对应的控件状态，需要将获取的样本图像所包含的操作区域与待识别的用户界面图像的目标区域进行匹配。可以参见图11所示，假设指定与用户界面状态标识UI_11对应样本图像中所包含的“商业中心”对应的图像区域为模板图像，在待识别的用户界面图像中确定该模板图像对应的目标区域，如图11从左至右中第二张图像所示为目标区域。

按照预设步长为1个像素，初始窗口子图像对应的像素区域与模板图像的像素区域相同，在目标区域中提取多个窗口子图像，得到与“商业中心”对应的相似度矩阵，从该相似度矩阵中确定出最佳匹配值，该最佳匹配值对应的像素位置即为最佳匹配位置，该匹配位置可以参见图11中从左至右所示的第三张图像，即可以得到该样本图像中“商业中心”与待识别的用户界面图像匹配成功。

然后，通过同样的匹配方式将样本图像中“确定”与待识别的用户界面图像进行匹配，从而确定与用户界面状态标识UI_11对应的样本图像，与待识别的用户界面图像为相似度最高的图像，则将用户界面状态标识UI_11作为待识别的用户界面图像对应的用户界面状态标识。

在获取用户界面状态标识之后，可以调用与用户界面状态标识UI_11对应的控制脚本，根据该控制脚本控制“商业中心”和“确定”对应的控件执行相应的操作。

在上述实施例基础上，本申请提供的基于用户界面图像的用户界面控制方法，还可以应用在测试领域，用于实现人工智能测试。

假设对如图10所示的待识别的用户界面图像对应的用户界面的控件功能进行测试。预先定义测试需求，测试需求定义对用户界面执行操作的顺序，例如按照商业中心-炼钢厂-仓库-度假村的执行顺序依次进入相应的地图。

在获取待识别的用户界面图像之后，通过在待识别用户界面图像中修改像素值的方式，来匹配与样本图像库中的样本图像进行匹配。

当匹配到用户界面状态标识为UI_11对应的样本图像时，调用对应的控制脚本逻辑对用户点击“商业中心”的功能进行控制，若脚本逻辑执行“确定”则进行下一个“商业中心”对应的游戏场景中，如果未点击确定，按照测试顺序依次移动选择框对“炼钢厂”进行选择，得到新的待识别图像。然后，对新的待识别的用户界面图像进行第二次识别，若新的待识别的用户界面图像，与用户界面状态标识为UI_12的样本图像匹配，则调用对应的控制脚本对“炼钢厂”执行点击操作进行控制。

其中，在执行用户界面状态标识为UI_11对应的控制脚本时，确定与“商业中心”对应的像素区间(376，564)，并对该像素区间执行点击动作，以及对“确定”执行点击动作。在执行用户界面状态标识为UI_12对应的控制脚本时，确定与“炼钢厂”对应的像素区间(1119，183)，并对该像素区间执行点击动作，以及对“确定”执行点击动作。在执行用户界面状态标识为UI_13对应的控制脚本时，确定与“仓库”对应的像素区间(561，16)，并对该像素区间执行点击动作，以及对“确定”执行点击动作。在执行用户界面状态标识为UI_14对应的控制脚本时，确定与“度假村”对应的像素区间(654，245)，并对该像素区间执行点击动作，以及对“确定”执行点击动作。依次类推，依次对该选择地图场景的界面上的操作区域进行控制。另外，当需要对多个用户界面进行控制时，可通过运行控制脚本的方式对游戏界面的功能逻辑进行逐个控制。

本申请通过基于接收的待识别的用户界面图像确定出对应的用户界面状态标识，并调用用户界面状态标识对应的控制脚本，从而对用户界面图像所包含的操作区域执行有序地控制，可以通过控制脚本灵活地实现各种复杂逻辑动作，从而能够快速便捷地对用户界面所包含的控件进行有序地控制，有效地提高了用户界面的操作效率。

另一方面，图12为本申请实施例提供的一种用户界面的控件状态识别装置的结构示意图。该装置可以为终端或服务器内的装置，如图12所示，该装置500包括：

接收模块510，用于接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应；

查找模块520，用于用于基于所述用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像；

确定模块530，用于基于所述样本图像的所包含的操作区域，确定所述用户界面图像对应的用户界面状态标识，所述用户界面状态标识用于表示所述用户界面图像所对应的控件状态。

可选的，参见图13，查找模块520，包括：

提取单元5201，用于分别提取待识别的用户界面图像和样本图像库中每张样本图像所包含的多个特征点；

比对单元5202，用于将待识别的用户界面图像的特征点与每张样本图像的特征点逐一进行比对，得到匹配点对数量；

查找单元5203，用于基于匹配点对数量查找至少一张样本图像。

可选的，查找单元5203，具体用于：

将所述匹配点对数量与预设阈值进行比较；

确定满足所述匹配点对数量大于预设阈值条件的样本图像，作为查找得到的所述样本图像。

可选的，参见图14，所述确定模块530，包括：

获取单元5301，用于获取所述样本图像所包含的多个第一操作区域；

确定单元5302，用于在确定所述样本图像所包含的操作区域与所述用户界面图像所包含的目标区域匹配时，确定所述样本图像的用户界面状态标识作为所述用户界面图像对应的用户界面状态标识。

可选的，确定单元5302，具体用于：

指定所述多个操作区域中每一个分别作为模板图像；

在所述待识别的用户界面图像中分别查找与每个所述模板图像对应的目标区域；

在每个所述模板图像和与每个所述模板图像对应的所述目标区域之间的相似度满足匹配条件时，确定所述样本图像所包含的操作区域与所述用户界面图像所包含的目标区域匹配。

可选的，确定单元5302，具体用于：

确定每个所述模板图像和与每个所述模板图像对应的所述目标区域之间的相似度矩阵；

在每个所述相似度矩阵中分别确定最优匹配值；

在每个所述最优匹配值均满足所述匹配条件时，确定所述用户界面图像中与所述最优匹配值对应的像素区域与所述样本图像所包含的操作区域匹配。

可选的，确定单元5302，具体用于：

在与每个所述模板图像对应的所述目标区域中提取多个窗口子图像；

计算每个所述窗口子图像和与其对应的所述模板图像之间的相似度值；

基于所述相似度值构建与所述模板图像对应的相似度矩阵。

可以理解的是，本实施例的用户界面的控制状态识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，在此不再赘述。

综上所述，本申请实施例提供的用户界面图像的控件状态识别装置，接收模块通过接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应，查找模块用于基于用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像，确定模块用于基于样本图像中所包含的操作区域，确定待识别的用户界面图像对应的用户界面状态标识，该用户界面状态标识用于表示待识别的用户界面图像对应的控件状态。与相关技术相比，本装置基于待识别的用户界面图像与样本图像库中的样本图像进行操作区域匹配，可以准确地确定用户界面状态标识，无需预先在安装包中放入第三方插件，再通过调用第三方插件来确定用户界面状态标识，其减少了第三方插件识别用户界面状态标识的操作环节，有效地提高了用户界面状态的识别效率。

另一方面，图15为本申请实施例提供的一种用户界面控制装置的结构示意图。该装置可以为终端或服务器内的装置，如图15所示，该装置600包括：

接收模块610，用于接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个所述操作区域与用户界面的每个控件相对应；

确定模块620，用于基于用户界面图像的控制状态识别方法确定所述待识别的用户界面图像对应的用户界面状态标识；

调用模块630，用于调用与所述用户界面状态标识对应的控制脚本，对所述用户界面的多个控件执行有序地控制。

可选的，所述调用模块630，具体用于：

读取与所述多个控件分别对应的所述操作区域的执行顺序标识；

获取与所述执行顺序标识对应的动作标识；

按照所述执行顺序标识调用与所述动作标识对应的操作指令，所述操作指令用于对所述动作标识对应的控件执行操作。

可以理解的是，本实施例的用户界面控制装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，在此不再赘述。

另一方面，本申请实施例提供的设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上述的用户界面的控件状态识别方法或用户界面控制方法。

下面参考图16，图16为本申请实施例的终端设备的计算机系统的结构示意图。

如图16所示，计算机系统300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分303加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有系统300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分303从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括：接收模块、查找模块及确定模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，接收模块还可以被描述为“用于接收待识别的用户界面图像，该用户界面图像包括包括多个操作区域，每个所述操作区域与用户界面的一个控件相对应”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的用户界面的控件状态识别方法：

接收待识别的用户界面图像，所述用户界面图像包括多个操作区域，每个所述操作区域与用户界面的一个控件相对应；

基于所述用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像；

基于所述样本图像中所包含的操作区域，确定所述用户界面图像对应的用户界面状态标识，所述用户界面状态标识用于表示所述用户界面图像对应的控件状态。

综上所述，本申请实施例中提供的用户界面图像的控件状态识别方法、装置、设备及介质，通过接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个操作区域与用户界面的一个控件相对应，并基于用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像，基于样本图像中所包含的操作区域，确定待识别的用户界面图像对应的用户界面状态标识，该用户界面状态标识用于表示待识别的用户界面图像对应的控件状态。与相关技术相比，本申请基于待识别的用户界面图像与样本图像库中的样本图像进行操作区域匹配，可以准确地确定用户界面状态标识，无需预先在安装包中放入第三方插件，再通过调用第三方插件来确定用户界面状态标识，其减少了第三方插件识别用户界面状态标识的操作环节，有效地提高了用户界面状态的识别效率。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用户界面的控件状态识别方法，其特征在于，该方法包括：

基于所述样本图像中所包含的操作区域，确定所述用户界面图像对应的用户界面状态标识，所述用户界面状态标识用于表示所述用户界面图像所对应的控件状态。

2.根据权利要求1所述的方法，其特征在于，基于所述用户界面图像中的多个特征点查找样本图像库，得到至少一张样本图像，包括：

分别提取所述用户界面图像和所述样本图像库中每张样本图像所包含的多个特征点；

将所述用户界面图像的特征点与所述每张样本图像的特征点逐一进行比对，得到匹配点对数量；

基于所述匹配点对数量查找得到所述至少一张样本图像。

3.根据权利要求2所述的方法，其特征在于，基于所述匹配点对数量查找得到所述至少一张样本图像，包括：

将所述匹配点对数量与预设阈值进行比较；

4.根据权利要求1所述的方法，其特征在于，所述基于所述样本图像的所包含的操作区域，确定所述用户界面图像对应的用户界面状态标识，包括：

获取所述样本图像所包含的操作区域；

在确定所述样本图像所包含的操作区域与所述用户界面图像所包含的目标区域匹配时，确定所述样本图像的用户界面状态标识作为所述用户界面图像对应的用户界面状态标识。

5.根据权利要求4所述的方法，其特征在于，所述样本图像包含的多个所述操作区域，则确定所述样本图像所包含的操作区域与所述用户界面图像所包含的目标区域匹配，包括：

指定所述多个操作区域中每一个分别作为模板图像；

6.根据权利要求5所述的方法，其特征在于，所述在每个所述模板图像和与每个所述模板图像对应的所述目标区域之间的相似度满足匹配条件时，确定所述样本图像所包含的操作区域与所述用户界面图像所包含的目标区域匹配，包括：

在每个所述相似度矩阵中分别确定最优匹配值；

7.根据权利要求6所述的方法，其特征在于，所述确定每个所述模板图像和与每个所述模板图像对应的所述目标区域之间的相似度矩阵，包括：

基于所述相似度值构建与所述模板图像对应的相似度矩阵。

8.一种用户界面控制方法，其特征在于，包括：

接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个所述操作区域与用户界面的每个控件相对应；

基于权利要求1-7中任意一项所述的方法确定所述待识别的用户界面图像对应的用户界面状态标识；

调用与所述用户界面状态标识对应的控制脚本，对所述用户界面的多个控件执行有序地控制。

9.根据权利要求8所述的方法，其特征在于，对所述用户界面的多个控件执行有序地控制，包括：

获取与所述执行顺序标识对应的动作标识；

10.一种用户界面的控件状态识别装置，其特征在于，该装置包括：

11.根据权利要求10所述的装置，其特征在于，所述查找模块，包括：

提取单元，用于分别提取所述用户界面图像和所述样本图像库中每张样本图像所包含的多个特征点；

比对单元，用于将所述用户界面图像的特征点与每张所述样本图像的特征点逐一进行比对，得到匹配点对数量；

查找单元，用于基于所述匹配点对数量查找得到所述至少一张样本图像。

12.根据权利要求10所述的装置，其特征在于，所述确定模块，包括：

获取单元，用于获取所述样本图像所包含的操作区域；

确定单元，用于在确定所述样本图像所包含的操作区域与所述用户界面图像所包含的目标区域匹配时，确定所述样本图像的用户界面状态标识作为所述用户界面图像对应的用户界面状态标识。

13.一种用户界面控制装置，其特征在于，包括：

接收模块，用于接收待识别的用户界面图像，该用户界面图像包括多个操作区域，每个所述操作区域与用户界面的每个控件相对应；

确定模块，用于基于权利要求1-7中任意一项所述的方法确定所述待识别的用户界面图像对应的用户界面状态标识；

14.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序，所述处理器用于执行所述程序时实现如权利要求1-7中任一项所述的方法或权利要求8-9中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如权利要求1-7中任一项所述的方法或权利要求8-9中任一项所述的方法。