CN113282215A

CN113282215A - 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统

Info

Publication number: CN113282215A
Application number: CN202110564542.1A
Authority: CN
Inventors: 李肯立; 蔡宇辉; 林灏昶; 杨圣洪; 秦云川; 吴帆
Original assignee: Hunan University; Zhongdian Jinxin Software Co Ltd
Current assignee: Hunan University; Zhongdian Jinxin Software Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-20

Abstract

本发明公开了一种RPA系统中基于目标检测技术的UI元素拾取方法，包括步骤：获取用户界面窗口的截图，将得到的用户界面窗口的截图输入训练好的UI元素目标检测模型，以拾取该用户界面窗口的截图中的UI元素，UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块，特征提取模块采用CSPDarkNet53网络，特征聚合模块包括特征金字塔池化SSP、以及路径聚合网络PANet，特征预测模块采用YoloHead网络。本发明能够解决现有UI元素拾取方法由于必须依赖于操作系统与应用程序的接口，导致对于某些缺乏相关接口的操作系统和应用程序而言，无法拾取UI元素的类型、位置、大小等信息，因此限制了RPA系统的应用范围的技术问题。

Description

一种RPA系统中基于目标检测技术的UI元素拾取方法和系统

技术领域

本发明属于计算机视觉和机器学习技术领域，更具体地，涉及一种RPA系统中基于目标检测技术的UI元素拾取方法和系统。

背景技术

机器人流程自动化(Robotic Process Automation，简称RPA)系统是一种自动化程序，用来模拟人类操作员的行为，在其他软件中自动地进行操作，自动操作包括填写信息、点击按钮等动作。

在RPA系统自动运作之前，需要预先设计好流程，通常通过RPA设计器来完成流程的设计，RPA设计器提供了用户界面(User interface，简称UI)的UI元素拾取器，帮助设计者在其他程序中识别、定位并获取UI元素的基本信息，这些信息包括UI元素类型、坐标、大小等。元素拾取器需要操作系统提供必要的支持，来正确地拾取GUI信息。

传统的RPA领域，进行UI元素拾取的方法主要有三种：第一种是通过操作系统接口拾取UI元素(例如在Windows平台上，是使用操作系统UIA接口)，拾取UI元素的类型、位置、大小等信息；第二种是通过应用程序接口拾取UI元素(以谷歌浏览器为例，其是使用自带的应用程序接口)，获取网页DOM元素，在其基础上拾取UI元素的类型、位置、大小等信息；第三种则是通过图片模式匹配OCR方式拾取UI元素。(例如在Linux平台上，是使用图片模式匹配OCR方式)，拾取UI元素的类型、位置、大小等信息；

然而，上述UI元素拾取方法都均在一些不可忽略的缺陷：首先，上述第一和第二种方法必须依赖于操作系统与应用程序的接口，对于某些缺乏相关接口的操作系统和应用程序而言，则无法拾取UI元素的类型、位置、大小等信息，因此限制了RPA系统的应用范围；其次，上述第三种无法拾取特定种类的UI元素。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种RPA系统中基于目标检测技术的UI元素拾取方法和系统，其目的在于，解决现有UI元素拾取方法由于必须依赖于操作系统与应用程序的接口，导致对于某些缺乏相关接口的操作系统和应用程序而言，无法拾取UI元素的类型、位置、大小等信息，因此限制了RPA系统的应用范围的技术问题；以及现有UI元素拾取方法无法拾取特定种类的UI元素的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种RPA系统中基于目标检测技术的UI元素拾取方法，包括如下步骤：

(1)获取用户界面窗口的截图；

(2)将步骤(1)中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型，以拾取该用户界面窗口的截图中的UI元素。

优选地，步骤(1)具体为，通过应用程序接口或者操作系统接口获取用户界面窗口的起始坐标与用户界面窗口的长宽，从而得到用户界面窗口的截图。

优选地，UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块。

特征提取模块采用CSPDarkNet53网络；

特征聚合模块包括特征金字塔池化SSP、以及路径聚合网络PANet。

特征预测模块采用YoloHead网络。

优选地，UI元素目标检测模型是通过以下步骤训练得到的：

(2-1)获取包含UI元素的用户界面窗口图像数据集，按照2:8的比例把该用户界面窗口图像数据集划分为测试集和训练集；

(2-2)将步骤(2-1)得到的训练集中的每个用户界面窗口图像输入UI元素目标检测模型中的特征提取模块，以得到三个不同尺寸的UI元素初级特征图，其尺寸分别是该用户界面窗口图像尺寸的1/8，1/16和1/32；

(2-3)对于步骤(2-2)获取的三个不同尺寸的UI元素初级特征图而言，将其输入UI元素目标检测模型中特征聚合模块的SSP网络，以得到三个固定尺寸的特征图，并将三个固定尺寸的特征图输入特征聚合模块的PANet网络，以得到UI元素融合特征图。

(2-4)将步骤(2-3)得到的UI元素融合特征图输入UI元素目标检测模型中的特征预测模块，以得到训练集中每个UI元素的预测类别和预测位置(该预测位置是该UI元素的预测边界框)，并将其分别与该UI元素的真实类别和真实位置进行对比，根据对比结果、并使用损失函数对UI元素目标检测模型进行迭代训练，直到该UI元素检测模型收敛为止，从而得到初步训练好的UI元素检测模型。

(2-5)使用步骤(2-1)得到的测试集对步骤(2-4)初步训练好的UI元素目标检测模型进行验证，直到得到的UI元素目标检测模型的检测精度达到最优为止，从而得到训练好的目标检测检测模型。

优选地，损失函数包括回归框损失函数，置信度损失函数、以及分类损失函数；

置信度损失函数与分类损失函数都采用交叉熵函数，用于计算训练集中每一个UI元素的预测类别与真实类别的偏离值；

回归框损失函数采用CIoU函数，其用于计算训练集中每一个UI元素的预测位置(即边界框)与该UI元素的真实位置之间的差异程度。

优选地，置信度损失函数的交叉熵函数为：

其中，O_j∈{0，1}，表示第j个UI元素的边界框内是否存在真实UI元素，0表示不存在，1表示存在。C_j表示第j个UI元素的边界框内存在UI元素的概率，其经过Sigmoid函数处理后变为

其中N表示UI元素的预测位置的总数。

优选地，分类损失函数的交叉熵函数为：

其中O_ij∈{0，1}，表示第j个UI元素的边界框内中是否有第i类UI元素，0表示不存在，1表示存在。

表示第j个UI元素边界框内存在第i类UI元素的概率，经过Sigmoid函数处理后为

其中M表示UI元素的类别总数。

优选地，CIoU函数为：

其中1-ioU表示UI元素的预测位置与其真实位置的差异程度，IoU表示UI元素的预测位置与其真实位置的交并比，表示两者间的相关度。

表示UI元素的位置偏离惩罚项，p²(b，bg^t)为UI元素预测位置的中心值与其真实位置中心值之间的欧式距离，b表示UI元素预测位置的中心点值，bg^t表示UI元素真实位置的中心点值，p(·)表示计算欧式距离。c²为UI元素的预测位置和UI元素的真实位置两者并集的对角线长度，a表示权重系数，v表示UI元素的预测位置与其真实位置的长宽权重比。

优选地，权重系数a等于：

UI元素的预测位置与其真实位置的长宽权重比v等于：

其中w和h分别表示UI元素的预测位置的宽和高，wg^t和hg^t分别表示UI元素的真实位置的宽和高。

按照本发明的另一方面，提供了一种RPA系统中基于目标检测技术的UI元素拾取系统，包括：

第一模块，用于获取用户界面窗口的截图；

第二模块，用于将第二模块中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型，以拾取该用户界面窗口的截图中的UI元素。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(2-1)到步骤(2-4)，其构建了UI元素目标检测模型，因此能够解决现有UI元素拾取方法由于必须依赖于操作系统与应用程序的接口，导致对于某些缺乏相关接口的操作系统和应用程序而言，无法拾取UI元素的类型、位置、大小等信息，并因此限制了RPA系统应用范围的技术问题。

(2)由于本发明采用了步骤(2-2)到步骤(2-3)，其采用了特征提取模块与特征聚合模块，能够深度提取与理解UI元素的特征，这不仅极大地提高了UI元素的识别正确率，而且增强了识别不同UI元素样式的泛化能力，因此能够解决现有UI元素拾取方法无法拾取一些特别设计的UI元素的技术问题。

附图说明

图1是本发明RPA系统中基于目标检测技术的UI元素拾取方法的流程图。

图2是本发明使用的UI元素目标检测模型的结构示意图。

图3是本发明UI元素目标检测模型的训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，构建针对RPA系统中的UI元素目标检测网络，利用网络提取UI窗口中的UI元素特征，从而达到UI元素信息拾取的目标。一方面，构建相关目标模型，进行元素特征提取，另一方面，构建模型成功后，利用模型对窗口元素进行识别。

如图1所示，本发明提供了一种RPA系统中基于目标检测技术的UI元素拾取方法，包括如下步骤：

(1)获取用户界面窗口的截图；

本步骤具体为，通过应用程序接口或者操作系统接口获取用户界面窗口的起始坐标与用户界面窗口的长宽，从而得到用户界面窗口的截图。

如图2所示，本发明的UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块。

特征提取模块采用CSPDarkNet53网络，特征聚合模块包括特征金字塔池化(Spatial Pyramid Pooling，简称SSP)、以及路径聚合网络(Path AggregationNetwork，简称PANet)，特征预测模块则采用YoloHead网络。

其中：特征提取模块深度提取UI元素特征，而且引入了CSP结构，可以保持高层特征与低层特征之间联系。特征聚合模块部分采用SSP+PANet结构，该结构可以对多种层级的特征进行融合，输出统一尺寸的特征图。最后将特征图送入特征预测模块YoloHead网络中进行UI元素位置特征预测。

参考图3所示，本发明中的UI元素目标检测模型是通过以下步骤训练得到的：

上述步骤(2-2)的优点是，特征融合模块可以将不同的尺寸保证模型输入不受图片尺寸影响，对可以多种尺寸的图像进行特征提取。其次，该模块不仅利用了深度提取的高层特征信息，还利用的较为底层的空间特征信息，将两种特征进行融合，从而能够更充分地表达UI元素融合特征。

(2-4)将步骤(2-3)得到的UI元素融合特征图输入UI元素目标检测模型中的特征预测模块，以得到训练集中每个UI元素的预测类别(其具体包括按钮、输入框、文本框、以及文件列表)和预测位置(预测位置是该UI元素的预测边界框)，并将其分别与该UI元素的真实类别和真实位置进行对比，根据对比结果、并使用损失函数对UI元素目标检测模型进行迭代训练，直到该UI元素检测模型收敛为止，从而得到初步训练好的UI元素检测模型。

具体而言，损失函数由三种损失函数所构成：回归框损失函数，置信度损失函数和分类损失函数。其中，置信度损失函数与分类损失函数都采用交叉熵函数，均用于计算训练集中每一个UI元素的预测类别与真实类别的偏离值；回归框损失函数采用了CIoU函数，其计算训练集中每一个UI元素的预测位置(即边界框)与该UI元素的真实位置之间的差异程度。

具体而言，置信度损失函数的交叉熵函数定义为：

其中N表示UI元素的预测位置(即边界框)的总数。

具体而言，分类损失函数的交叉熵函数定义为：

其中M表示UI元素的类别总数。

具体而言，CIoU函数定义为：

CIoU函数分为两个部分。1-IoU表示UI元素的预测位置(即边界框)与其真实位置的差异程度。其中IoU表示UI元素的预测位置与其真实位置的交并比，表示两者间的相关度。

表示UI元素的位置偏离惩罚项。其中p²(b，b^gt)为UI元素预测位置的中心值与其真实位置中心值之间的欧式距离，b表示UI元素预测位置(即边界框)的中心点值，b^gt表示UI元素真实位置的中心点值，p(·)表示计算欧式距离。c²表示UI元素的预测位置和UI元素的真实位置两者并集的对角线长度。

a为权重系数，具体公式为：

v为UI元素的预测位置(即边界框)与其真实位置的长宽权重比，且有：

其中w和h分别表示UI元素的预测位置(即边界框)的宽和高，w^gt和h^gt分别表示UI元素的真实位置的宽和高。

本损失函数的优点在于：1、当IoU为0，即两框不相交的时候，也能保证损失函数是可导的；2、引入了两框的重叠面积，两框中心点距离，两框长宽比这三种图形相对概念元素，更好的表达出预测框与真实框之间的几何位置信息。

可以理解的是，本发明针对通过系统接口获取窗口信息缺失特点，实现了一种RPA系统中基于目标检测技术的UI元素拾取方法，使RPA机器人不受应用程序接口的限制，提高RPA系统的应用范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，包括如下步骤：

(1)获取用户界面窗口的截图；

2.根据权利要求1所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，步骤(1)具体为，通过应用程序接口或者操作系统接口获取用户界面窗口的起始坐标与用户界面窗口的长宽，从而得到用户界面窗口的截图。

3.根据权利要求1或2所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，

UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块。

特征提取模块采用CSPDarkNet53网络；

特征预测模块采用YoloHead网络。

4.根据权利要求1至3中任意一项所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，UI元素目标检测模型是通过以下步骤训练得到的：

5.根据权利要求1至4中任意一项所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，

损失函数包括回归框损失函数，置信度损失函数、以及分类损失函数；

6.根据权利要求5所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，置信度损失函数的交叉熵函数为：

其中N表示UI元素的预测位置的总数。

7.根据权利要求5所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，

分类损失函数的交叉熵函数为：

其中O_ij∈{0，h}，表示第j个UI元素的边界框内中是否有第i类UI元素，0表示不存在，1表示存在。

其中M表示UI元素的类别总数。

8.根据权利要求5所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，CIoU函数为：

表示UI元素的位置偏离惩罚项，p²(b，b^gt)为UI元素预测位置的中心值与其真实位置中心值之间的欧式距离，b表示UI元素预测位置的中心点值，b^gt表示UI元素真实位置的中心点值，p(·)表示计算欧式距离。c²为UI元素的预测位置和UI元素的真实位置两者并集的对角线长度，a表示权重系数，v表示UI元素的预测位置与其真实位置的长宽权重比。

9.根据权利要求8所述的RPA系统中基于目标检测技术的UI元素拾取方法，其特征在于，

权重系数a等于：

UI元素的预测位置与其真实位置的长宽权重比v等于：

其中w和h分别表示UI元素的预测位置的宽和高，w^gt和h^gt分别表示UI元素的真实位置的宽和高。

10.一种RPA系统中基于目标检测技术的UI元素拾取系统，其特征在于，包括：

第一模块，用于获取用户界面窗口的截图；