CN116403199B

CN116403199B - 基于深度学习的屏幕图标语义识别方法及系统

Info

Publication number: CN116403199B
Application number: CN202310668770.2A
Authority: CN
Inventors: 曹为华; 孙林君
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-08
Anticipated expiration: 2043-06-07
Also published as: CN116403199A

Abstract

本发明属于元素拾取技术领域，具体涉及基于深度学习的屏幕图标语义识别方法及系统。方法包括：S1，采用原生拾取或CV拾取的方式，拾取屏幕界面的图标元素及图标元素的相关信息；所述图标元素的相关信息包括元素标签和元素的坐标；S2，将拾取到的图标元素送入元素分类模型，获得最终图标元素的类别；S3，根据先验知识，对最终图标元素的类别进行校验，判断分类是否正确；S4，将步骤S3中最终确定的分类结果用于下游任务。本发明具有能够拾取并理解元素含义，配合智能推荐等下游的任务，降低原有流程的开发复杂度，提高开发效率的特点。

Description

基于深度学习的屏幕图标语义识别方法及系统

技术领域

本发明属于元素拾取技术领域，具体涉及基于深度学习的屏幕图标语义识别方法及系统。

背景技术

随着RPA（机器人流程自动化）技术的成熟和人工智能（AI）技术的发展，基于智能流程自动化（IPA）技术的产品逐渐崭露头角。IPA技术的核心是将RPA与AI有机结合，通过AI辅助处理更复杂的任务，从而解放更多人力，能够从事更具价值和创造性的工作。这种技术的直接影响是根本性地提高效率、降低操作风险和改善客户体验。

在IPA产品的落地中，屏幕图标语义识别作为AI的一种具体应用具有重要意义。屏幕语义识别利用AI技术能够自动识别屏幕上的图标，使机器能像人一样准确理解图标背后的含义，从而降低原有流程的开发复杂度，提高开发效率。同时，结合根据图标语义，智能推荐相应RPA功能组件的下游任务，其应用场景更加广泛。

当前元素拾取技术，可以支持常见软件、网页的元素拾取；使用深度学习目标检测算法之后，更进一步扩展了其使用范围，支持远程桌面、Flash界面以及操作系统指令未能覆盖到的软件。然而，当前元素拾取技术存在以下几点问题：

1.当前原生的元素类别不足以支撑实际应用场景。元素的类别判断依赖操作系统指令或者网页的html标签，但是无论是指令还是标签，都存在类别模糊的情况，限制了其在RPA中的使用。举例来说，勾选框分为“已勾选”和“未勾选”2种状态，类别标签都是“checkbox”，无法分清是否被勾选上。如果将类别标签定义为“已勾选”和“未勾选”，则可以根据勾选状态调整RPA流程的逻辑，例如登录网站时如相关勾选框已勾选，则可无需再次进行勾选框操作，所开发的RPA流程将更简洁和高效；同时进一步扩大起使用范围。

2.RPA元素CV拾取的结果不带有类型信息。如中国专利申请号为CN2022109443974的专利文献描述的一种离线RPA元素拾取方法及系统以及中国专利申请号为CN2022103765230的专利文献描述的一种RPA元素拾取同屏切换方法及系统，对于使用深度学习检测的智能拾取而言，由于将界面视为一张图片，缺乏指令及HTML标签的提示，也就无法获取元素的类别。

3.RPA元素CV拾取带有类别信息，但是元素只针对UI元素，无法处理复杂元素（如登录界面），如中国专利申请号为CN2021105645421的专利文献描述的一种RPA系统中基于目标检测技术的UI元素拾取方法和系统。其他一些非RPA领域的元素识别方法，虽然能够解析元素，但是由于神经网络结构复杂，参数多，进一步限制了在RPA领域的应用，如中国专利申请号为CN2017110429816的专利文献描述的一种基于卷积神经网络的图标识别方法和装置以及中国专利申请号为CN2019101232653的专利文献描述的一种基于图标表示和软件行为一致性分析的恶意程序识别方法及装置。

综合上述原因，缺乏清晰、明确的元素类别、模型参数等因素，限制了拾取到的元素在下游的使用，如RPA组件推荐等任务。从整体来看，屏幕图标语义识别层面的拾取目前还属于空白阶段。

因此，设计一种能够拾取并理解元素含义，配合智能推荐等下游的任务，降低原有流程的开发复杂度，提高开发效率的基于深度学习的屏幕图标语义识别方法及系统，就显得十分重要。

发明内容

本发明是为了克服现有技术中，现有的元素拾取技术，存在缺乏清晰、明确的元素类别、模型参数等因素，限制了拾取到的元素在下游使用的问题，提供了一种能够拾取并理解元素含义，配合智能推荐等下游的任务，降低原有流程的开发复杂度，提高开发效率的基于深度学习的屏幕图标语义识别方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于深度学习的屏幕图标语义识别方法，包括如下步骤；

S1，采用原生拾取或CV拾取的方式，拾取屏幕界面的图标元素及图标元素的相关信息；所述图标元素的相关信息包括元素标签和元素的坐标；

S2，将拾取到的图标元素送入元素分类模型，获得最终图标元素的类别；

S3，根据先验知识，对最终图标元素的类别进行校验，判断分类是否正确；

S4，将步骤S3中最终确定的分类结果用于下游任务。

作为优选，步骤S1中，所述原生拾取方式为通过从操作系统的软件界面或者网页HTML界面，获取元素的标签以及根据拾取的元素坐标，使用屏幕截图的方式获取元素的图片。

作为优选，步骤S2中，对于原生拾取方式，结合获得的元素标签与元素分类模型得到的最终图标元素的类别，确定最终的元素语义。

作为优选，步骤S1中，所述CV拾取方式为针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件，将整个屏幕界面视为一张图片，并根据拾取的元素坐标，使用屏幕截图的方式获取元素的图片。

作为优选，步骤S2中，对于CV拾取方式，直接根据元素分类模型得到的最终图标元素的类别，确定最终的元素语义。

作为优选，步骤S3中，图标元素的分类类别包括文字、已勾选框、未勾选框、输入栏、前进、后退、按钮、登录、文字验证码。

作为优选，所述元素分类模型选用轻量级的MobilenetV3网络作为骨干网络；所述MobileNetV3网络循环使用6次block基本单元，堆叠成最终的模型结构，最后通过全连接层输出最终的分类结果。

作为优选，步骤S3中，所述先验知识包括基于原生拾取的自带属性和基于特定类别的先验知识。

本发明还提供了基于深度学习的屏幕图标语义识别系统包括；

智能拾取模块，用于采用原生拾取或CV拾取的方式，拾取屏幕界面的图标元素及图标元素的相关信息；所述图标元素的相关信息包括元素标签和元素的坐标；

分类识别模块，用于将拾取到的图标元素送入元素分类模型，获得最终图标元素的类别；

校验模块，用于根据先验知识，对最终图标元素的类别进行校验，判断分类是否正确；

下游任务应用模块，用于将最终确定的分类结果用于下游任务。

本发明与现有技术相比，有益效果是：（1）本发明通过屏幕语义识别技术，能够自动识别屏幕上的图标，使得机器能够像人一样能够理解图标背后的含义，从原先的“获取元素”升级到“获取并理解元素”，配合智能推荐等下游的任务，降低原有流程的开发复杂度，提高开发效率；举例来说，在IM软件的对话框中需要输入一句话并发送，使用传统的方式，需要拾取到输入窗口，即“获取元素”，然后再元素所在的位置上偏移一定的距离，输入文字，最终再发送，整个过程较为繁琐；而使用屏幕图标语义理解的方式，在拾取到输入窗口的同时，能够理解其是输入窗口，即“获取并理解元素”；在理解的基础上，结合下游的组件推荐功能，直接使用 “输入文本”的推荐组件，能够极大的减少操作步骤。

附图说明

图1为本发明中原生拾取元素解析方式的一种流程示意图；

图2为本发明中CV拾取元素解析方式的一种流程示意图；

图3为本发明中MobileNetV3网络结构的一种构架示意图

图4为本发明实施例所提供的基于深度学习的屏幕图标语义识别方法的一种实际应用流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明在智能拾取的基础上，使用深度学习分类模型，对拾取到的图标进行分类，获取图标的语义信息，进一步的，可以将图标的语义信息用于下游的任务(如组件推荐等)。本发明可同时支持原生拾取（利用操作系统指令或者网页的HTML界面）与CV拾取（使用深度学习检测技术），并针对不同的场景设计了对应的解决方案。

针对原生拾取，通过持操作系统指令的软件界面或者是网页HTML界面，可以获取元素的标签，并结合深度学习的元素分类技术，获取图标的分类结果。结合二者的信息，判断最终图标的类别。

具体方案如下图1所示，举例来说，屏幕界面的网页中存在一个勾选框，通过智能拾取，判断此元素属于可解析的HTML页面，使用原生拾取的方式获取到元素。一方面，可以从HTML页面中获取到元素标签——checkbox；另一方面，根据元素所在的坐标，将元素截图，送入元素分类模型。从分类的结果中判断出是已勾选。结合这两方面的信息相互验证，最终可判断此元素为勾选框的已勾选状态。

针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件，智能拾取选择CV拾取的方式，获取元素的坐标信息。CV拾取将整个界面视为一张图片，并使用深度学习模型，检测出每个元素的具体坐标。结合元素分类模型，识别最终的图标类别。

具体方案如图2所示，举例来说，某软件界面不能被操作系统解析，该软件界面上存在一个勾选框。智能拾取选择CV拾取的方式，检测到该元素并获取该元素的坐标信息。根据元素坐标，通过截图的方式获取该位置元素的图片并送入元素分类模型，最终可判断此元素为勾选框的已勾选状态。

本发明设计了一套分类规则，包含多个常见类别，功能覆盖了用户常见的使用场景，包含软件登录、聊天对话、数据采集、验证码识别等。典型的分类类别有文字、已勾选框、未勾选框、输入栏、前进、后退、按钮、登录、文字验证码。

按照约定的分类规则，训练元素分类模型网络，能够准确识别每个图像块所代表的具体含义，从而实现了页面理解的功能，进一步的，分类的结果可用于下游的各项任务（如组件推荐等）。

在屏幕图标语义识别方案中，考虑到调用频次高，对计算量与耗时的要求比较严格。因此，本发明方案元素分类模型选用轻量级的MobilenetV3作为元素分类模型的骨干网络。整个模型的结构如图3所示。

MobileNetV3 循环使用6次block基本单元，堆叠成最终的模型结构，最后通过全连接层输出最终的分类结果。每个block包含以下特点：

1.使用通道可分离卷积代替传统卷积，降低计算复杂度，是发挥轻量级作用的主要因素。

2.加入SE模块（Squeeze-and-Excitation），核心思想是通过学习来自动获取到每个特征通道的重要程度，然后依照这一结果去提升有用的特征并抑制对当前任务用处不大的特征层。

轻量级的MobilenetV3分类网络，在模型大小上只有2M，在普通PC上也能实现实时的元素理解任务。

为了提高最终的分类准确率，需要最后加入后处理校验，根据先验知识，判断最终是否分类正确。

先验知识有两种来源。一种是基于原生拾取的自带属性，另一种是基于特定类别的先验知识。以下分别举例说明这两种方式如何校验最终的分类结果。

一种是基于原生拾取的自带属性，通过操作系统或者HTML解析获取元素属性，并用于校验。举例来说，在拾取网页中的一个按钮元素时，通过HTLM解析可获知其属性为“Button”，如果分类网络的识别结果不是“按钮”，那么就可以通过后处理，将结果校正为“按钮”。

另一种是基于特定类别的先验知识。举例来说，拾取的元素为登录块。登录一般含有输入栏、按钮等元素，使用边缘检测、文字识别等技术确认输入栏的位置、排布以及按钮上的文字信息，通过这些先验可以判定是否为输入栏。如果分类网络的识别结果不是“登录”，那么就可以通过先验知识，将结果校正为“登录”。

综上，结合这两种先验知识，能够进一步的提高分类的准确率。

得到图标元素分类的结果之后，计算机就能够理解图标本身代表的含义，就可以用于下游任务。举例来说，如果图标的分类结果是“输入栏”，下游任务可以推荐恰当的组件，如“输入文本”等组件，进一步提高了开发的效率。

如图4所示，为本发明基于深度学习的屏幕图标语义识别方法的一种实际应用流程图，其具体实施流程如下所示：

1.智能拾取。拾取屏幕界面的图标元素；如果是支持原生拾取的场景（如网页，操作系统支持的软件），使用原生拾取方案，否则使用CV拾取方案（如远程桌面）。

2.如果是原生拾取，一方面，从操作系统或者是网页的HTML中可获取元素的标签；另一方面，根据拾取的坐标，使用屏幕截图的方式可获取元素的图片，将图片送入元素分类网络可获取元素的类别。结合原生的元素标签与分类网络得到的元素类别，确定最终的元素语义；

3.如果是CV拾取，根据拾取的坐标，使用屏幕截图的方式可获取元素的图片，将图片送入分类网络可获取元素的类别。通过元素本身的先验信息（比如“登录”含有输入栏、按钮等先验信息），校正最终的分类结果。

4.下游应用。将最终确定的分类结果用于下游任务，如组件推荐等。

本发明的创新点如下：

1.本发明设计了一套RPA领域中的完整图标语义识别方案；并能够在普通的PC电脑上高速运行，同时结合先验知识，进一步提高了分类准确率；可以有效应用于多种下游的RPA任务，例如RPA组件推荐、一键网页登录等；

2.在本发明中，结合用户常见的使用场景，设计了一个独特的图标分类规则和标准；能够针对输入栏、登录区域等高频使用的场景，识别拾取到的图标元素所表示的含义，同时不仅在单个图标上能够进行分类，在登录区域等多种图标+文字组合的场景上也能准确识别；

3.为适应仅有CPU的普通PC上的顺畅运行，本发明提出了一种轻量级的分类模型设计，通过结合MobileNetV3和其他创新，使得模型的计算量低、速度快，适合普通PC上的高频词调用，更容易内置到RPA软件中。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于深度学习的屏幕图标语义识别方法，其特征在于，包括如下步骤；

S4，将步骤S3中最终确定的分类结果用于下游任务；

步骤S2中，对于原生拾取方式，结合获得的元素标签与元素分类模型得到的最终图标元素的类别，确定最终的元素语义；

步骤S2中，对于CV拾取方式，直接根据元素分类模型得到的最终图标元素的类别，确定最终的元素语义；

步骤S2中，所述元素分类模型选用轻量级的MobilenetV3网络作为骨干网络；所述MobileNetV3网络循环使用6次block基本单元，堆叠成最终的模型结构，最后通过全连接层输出最终的分类结果。

2.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S1中，所述原生拾取方式为通过从操作系统的软件界面或者网页HTML界面，获取元素的标签以及根据拾取的元素坐标，使用屏幕截图的方式获取元素的图片。

3.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S1中，所述CV拾取方式为针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件，将整个屏幕界面视为一张图片，并根据拾取的元素坐标，使用屏幕截图的方式获取元素的图片。

4.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S3中，图标元素的分类类别包括文字、已勾选框、未勾选框、输入栏、前进、后退、按钮、登录、文字验证码。

5.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S3中，所述先验知识包括基于原生拾取的自带属性和基于特定类别的先验知识。

6.基于深度学习的屏幕图标语义识别系统，用于实现权利要求1-5任一项所述的基于深度学习的屏幕图标语义识别方法，其特征在于，所述基于深度学习的屏幕图标语义识别系统包括；