CN113282215A - 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统 - Google Patents

一种rpa系统中基于目标检测技术的ui元素拾取方法和系统 Download PDF

Info

Publication number
CN113282215A
CN113282215A CN202110564542.1A CN202110564542A CN113282215A CN 113282215 A CN113282215 A CN 113282215A CN 202110564542 A CN202110564542 A CN 202110564542A CN 113282215 A CN113282215 A CN 113282215A
Authority
CN
China
Prior art keywords
target detection
feature
user interface
interface window
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110564542.1A
Other languages
English (en)
Inventor
李肯立
蔡宇辉
林灏昶
杨圣洪
秦云川
吴帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Zhongdian Jinxin Software Co Ltd
Original Assignee
Hunan University
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University, Zhongdian Jinxin Software Co Ltd filed Critical Hunan University
Priority to CN202110564542.1A priority Critical patent/CN113282215A/zh
Publication of CN113282215A publication Critical patent/CN113282215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种RPA系统中基于目标检测技术的UI元素拾取方法,包括步骤:获取用户界面窗口的截图,将得到的用户界面窗口的截图输入训练好的UI元素目标检测模型,以拾取该用户界面窗口的截图中的UI元素,UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块,特征提取模块采用CSPDarkNet53网络,特征聚合模块包括特征金字塔池化SSP、以及路径聚合网络PANet,特征预测模块采用YoloHead网络。本发明能够解决现有UI元素拾取方法由于必须依赖于操作系统与应用程序的接口,导致对于某些缺乏相关接口的操作系统和应用程序而言,无法拾取UI元素的类型、位置、大小等信息,因此限制了RPA系统的应用范围的技术问题。

Description

一种RPA系统中基于目标检测技术的UI元素拾取方法和系统
技术领域
本发明属于计算机视觉和机器学习技术领域,更具体地,涉及一种RPA系统中基于目标检测技术的UI元素拾取方法和系统。
背景技术
机器人流程自动化(Robotic Process Automation,简称RPA)系统是一种自动化程序,用来模拟人类操作员的行为,在其他软件中自动地进行操作,自动操作包括填写信息、点击按钮等动作。
在RPA系统自动运作之前,需要预先设计好流程,通常通过RPA设计器来完成流程的设计,RPA设计器提供了用户界面(User interface,简称UI)的UI元素拾取器,帮助设计者在其他程序中识别、定位并获取UI元素的基本信息,这些信息包括UI元素类型、坐标、大小等。元素拾取器需要操作系统提供必要的支持,来正确地拾取GUI信息。
传统的RPA领域,进行UI元素拾取的方法主要有三种:第一种是通过操作系统接口拾取UI元素(例如在Windows平台上,是使用操作系统UIA接口),拾取UI元素的类型、位置、大小等信息;第二种是通过应用程序接口拾取UI元素(以谷歌浏览器为例,其是使用自带的应用程序接口),获取网页DOM元素,在其基础上拾取UI元素的类型、位置、大小等信息;第三种则是通过图片模式匹配OCR方式拾取UI元素。(例如在Linux平台上,是使用图片模式匹配OCR方式),拾取UI元素的类型、位置、大小等信息;
然而,上述UI元素拾取方法都均在一些不可忽略的缺陷:首先,上述第一和第二种方法必须依赖于操作系统与应用程序的接口,对于某些缺乏相关接口的操作系统和应用程序而言,则无法拾取UI元素的类型、位置、大小等信息,因此限制了RPA系统的应用范围;其次,上述第三种无法拾取特定种类的UI元素。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种RPA系统中基于目标检测技术的UI元素拾取方法和系统,其目的在于,解决现有UI元素拾取方法由于必须依赖于操作系统与应用程序的接口,导致对于某些缺乏相关接口的操作系统和应用程序而言,无法拾取UI元素的类型、位置、大小等信息,因此限制了RPA系统的应用范围的技术问题;以及现有UI元素拾取方法无法拾取特定种类的UI元素的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种RPA系统中基于目标检测技术的UI元素拾取方法,包括如下步骤:
(1)获取用户界面窗口的截图;
(2)将步骤(1)中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型,以拾取该用户界面窗口的截图中的UI元素。
优选地,步骤(1)具体为,通过应用程序接口或者操作系统接口获取用户界面窗口的起始坐标与用户界面窗口的长宽,从而得到用户界面窗口的截图。
优选地,UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块。
特征提取模块采用CSPDarkNet53网络;
特征聚合模块包括特征金字塔池化SSP、以及路径聚合网络PANet。
特征预测模块采用YoloHead网络。
优选地,UI元素目标检测模型是通过以下步骤训练得到的:
(2-1)获取包含UI元素的用户界面窗口图像数据集,按照2:8的比例把该用户界面窗口图像数据集划分为测试集和训练集;
(2-2)将步骤(2-1)得到的训练集中的每个用户界面窗口图像输入UI元素目标检测模型中的特征提取模块,以得到三个不同尺寸的UI元素初级特征图,其尺寸分别是该用户界面窗口图像尺寸的1/8,1/16和1/32;
(2-3)对于步骤(2-2)获取的三个不同尺寸的UI元素初级特征图而言,将其输入UI元素目标检测模型中特征聚合模块的SSP网络,以得到三个固定尺寸的特征图,并将三个固定尺寸的特征图输入特征聚合模块的PANet网络,以得到UI元素融合特征图。
(2-4)将步骤(2-3)得到的UI元素融合特征图输入UI元素目标检测模型中的特征预测模块,以得到训练集中每个UI元素的预测类别和预测位置(该预测位置是该UI元素的预测边界框),并将其分别与该UI元素的真实类别和真实位置进行对比,根据对比结果、并使用损失函数对UI元素目标检测模型进行迭代训练,直到该UI元素检测模型收敛为止,从而得到初步训练好的UI元素检测模型。
(2-5)使用步骤(2-1)得到的测试集对步骤(2-4)初步训练好的UI元素目标检测模型进行验证,直到得到的UI元素目标检测模型的检测精度达到最优为止,从而得到训练好的目标检测检测模型。
优选地,损失函数包括回归框损失函数,置信度损失函数、以及分类损失函数;
置信度损失函数与分类损失函数都采用交叉熵函数,用于计算训练集中每一个UI元素的预测类别与真实类别的偏离值;
回归框损失函数采用CIoU函数,其用于计算训练集中每一个UI元素的预测位置(即边界框)与该UI元素的真实位置之间的差异程度。
优选地,置信度损失函数的交叉熵函数为:
Figure BDA0003080441470000031
Figure BDA0003080441470000032
其中,Oj∈{0,1},表示第j个UI元素的边界框内是否存在真实UI元素,0表示不存在,1表示存在。Cj表示第j个UI元素的边界框内存在UI元素的概率,其经过Sigmoid函数处理后变为
Figure BDA0003080441470000041
其中N表示UI元素的预测位置的总数。
优选地,分类损失函数的交叉熵函数为:
Figure BDA0003080441470000042
Figure BDA0003080441470000043
其中Oij∈{0,1},表示第j个UI元素的边界框内中是否有第i类UI元素,0表示不存在,1表示存在。
Figure BDA0003080441470000044
表示第j个UI元素边界框内存在第i类UI元素的概率,经过Sigmoid函数处理后为
Figure BDA0003080441470000045
其中M表示UI元素的类别总数。
优选地,CIoU函数为:
Figure BDA0003080441470000046
其中1-ioU表示UI元素的预测位置与其真实位置的差异程度,IoU表示UI元素的预测位置与其真实位置的交并比,表示两者间的相关度。
Figure BDA0003080441470000047
表示UI元素的位置偏离惩罚项,p2(b,bgt)为UI元素预测位置的中心值与其真实位置中心值之间的欧式距离,b表示UI元素预测位置的中心点值,bgt表示UI元素真实位置的中心点值,p(·)表示计算欧式距离。c2为UI元素的预测位置和UI元素的真实位置两者并集的对角线长度,a表示权重系数,v表示UI元素的预测位置与其真实位置的长宽权重比。
优选地,权重系数a等于:
Figure BDA0003080441470000048
UI元素的预测位置与其真实位置的长宽权重比v等于:
Figure BDA0003080441470000051
其中w和h分别表示UI元素的预测位置的宽和高,wgt和hgt分别表示UI元素的真实位置的宽和高。
按照本发明的另一方面,提供了一种RPA系统中基于目标检测技术的UI元素拾取系统,包括:
第一模块,用于获取用户界面窗口的截图;
第二模块,用于将第二模块中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型,以拾取该用户界面窗口的截图中的UI元素。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(2-1)到步骤(2-4),其构建了UI元素目标检测模型,因此能够解决现有UI元素拾取方法由于必须依赖于操作系统与应用程序的接口,导致对于某些缺乏相关接口的操作系统和应用程序而言,无法拾取UI元素的类型、位置、大小等信息,并因此限制了RPA系统应用范围的技术问题。
(2)由于本发明采用了步骤(2-2)到步骤(2-3),其采用了特征提取模块与特征聚合模块,能够深度提取与理解UI元素的特征,这不仅极大地提高了UI元素的识别正确率,而且增强了识别不同UI元素样式的泛化能力,因此能够解决现有UI元素拾取方法无法拾取一些特别设计的UI元素的技术问题。
附图说明
图1是本发明RPA系统中基于目标检测技术的UI元素拾取方法的流程图。
图2是本发明使用的UI元素目标检测模型的结构示意图。
图3是本发明UI元素目标检测模型的训练流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,构建针对RPA系统中的UI元素目标检测网络,利用网络提取UI窗口中的UI元素特征,从而达到UI元素信息拾取的目标。一方面,构建相关目标模型,进行元素特征提取,另一方面,构建模型成功后,利用模型对窗口元素进行识别。
如图1所示,本发明提供了一种RPA系统中基于目标检测技术的UI元素拾取方法,包括如下步骤:
(1)获取用户界面窗口的截图;
本步骤具体为,通过应用程序接口或者操作系统接口获取用户界面窗口的起始坐标与用户界面窗口的长宽,从而得到用户界面窗口的截图。
(2)将步骤(1)中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型,以拾取该用户界面窗口的截图中的UI元素。
如图2所示,本发明的UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块。
特征提取模块采用CSPDarkNet53网络,特征聚合模块包括特征金字塔池化(Spatial Pyramid Pooling,简称SSP)、以及路径聚合网络(Path AggregationNetwork,简称PANet),特征预测模块则采用YoloHead网络。
其中:特征提取模块深度提取UI元素特征,而且引入了CSP结构,可以保持高层特征与低层特征之间联系。特征聚合模块部分采用SSP+PANet结构,该结构可以对多种层级的特征进行融合,输出统一尺寸的特征图。最后将特征图送入特征预测模块YoloHead网络中进行UI元素位置特征预测。
参考图3所示,本发明中的UI元素目标检测模型是通过以下步骤训练得到的:
(2-1)获取包含UI元素的用户界面窗口图像数据集,按照2:8的比例把该用户界面窗口图像数据集划分为测试集和训练集;
(2-2)将步骤(2-1)得到的训练集中的每个用户界面窗口图像输入UI元素目标检测模型中的特征提取模块,以得到三个不同尺寸的UI元素初级特征图,其尺寸分别是该用户界面窗口图像尺寸的1/8,1/16和1/32;
(2-3)对于步骤(2-2)获取的三个不同尺寸的UI元素初级特征图而言,将其输入UI元素目标检测模型中特征聚合模块的SSP网络,以得到三个固定尺寸的特征图,并将三个固定尺寸的特征图输入特征聚合模块的PANet网络,以得到UI元素融合特征图。
上述步骤(2-2)的优点是,特征融合模块可以将不同的尺寸保证模型输入不受图片尺寸影响,对可以多种尺寸的图像进行特征提取。其次,该模块不仅利用了深度提取的高层特征信息,还利用的较为底层的空间特征信息,将两种特征进行融合,从而能够更充分地表达UI元素融合特征。
(2-4)将步骤(2-3)得到的UI元素融合特征图输入UI元素目标检测模型中的特征预测模块,以得到训练集中每个UI元素的预测类别(其具体包括按钮、输入框、文本框、以及文件列表)和预测位置(预测位置是该UI元素的预测边界框),并将其分别与该UI元素的真实类别和真实位置进行对比,根据对比结果、并使用损失函数对UI元素目标检测模型进行迭代训练,直到该UI元素检测模型收敛为止,从而得到初步训练好的UI元素检测模型。
具体而言,损失函数由三种损失函数所构成:回归框损失函数,置信度损失函数和分类损失函数。其中,置信度损失函数与分类损失函数都采用交叉熵函数,均用于计算训练集中每一个UI元素的预测类别与真实类别的偏离值;回归框损失函数采用了CIoU函数,其计算训练集中每一个UI元素的预测位置(即边界框)与该UI元素的真实位置之间的差异程度。
具体而言,置信度损失函数的交叉熵函数定义为:
Figure BDA0003080441470000081
Figure BDA0003080441470000082
其中,Oj∈{0,1},表示第j个UI元素的边界框内是否存在真实UI元素,0表示不存在,1表示存在。Cj表示第j个UI元素的边界框内存在UI元素的概率,其经过Sigmoid函数处理后变为
Figure BDA0003080441470000083
其中N表示UI元素的预测位置(即边界框)的总数。
具体而言,分类损失函数的交叉熵函数定义为:
Figure BDA0003080441470000084
Figure BDA0003080441470000085
其中Oij∈{0,1},表示第j个UI元素的边界框内中是否有第i类UI元素,0表示不存在,1表示存在。
Figure BDA0003080441470000086
表示第j个UI元素边界框内存在第i类UI元素的概率,经过Sigmoid函数处理后为
Figure BDA0003080441470000087
其中M表示UI元素的类别总数。
具体而言,CIoU函数定义为:
Figure BDA0003080441470000088
CIoU函数分为两个部分。1-IoU表示UI元素的预测位置(即边界框)与其真实位置的差异程度。其中IoU表示UI元素的预测位置与其真实位置的交并比,表示两者间的相关度。
Figure BDA0003080441470000089
表示UI元素的位置偏离惩罚项。其中p2(b,bgt)为UI元素预测位置的中心值与其真实位置中心值之间的欧式距离,b表示UI元素预测位置(即边界框)的中心点值,bgt表示UI元素真实位置的中心点值,p(·)表示计算欧式距离。c2表示UI元素的预测位置和UI元素的真实位置两者并集的对角线长度。
a为权重系数,具体公式为:
Figure BDA0003080441470000091
v为UI元素的预测位置(即边界框)与其真实位置的长宽权重比,且有:
Figure BDA0003080441470000092
其中w和h分别表示UI元素的预测位置(即边界框)的宽和高,wgt和hgt分别表示UI元素的真实位置的宽和高。
本损失函数的优点在于:1、当IoU为0,即两框不相交的时候,也能保证损失函数是可导的;2、引入了两框的重叠面积,两框中心点距离,两框长宽比这三种图形相对概念元素,更好的表达出预测框与真实框之间的几何位置信息。
(2-5)使用步骤(2-1)得到的测试集对步骤(2-4)初步训练好的UI元素目标检测模型进行验证,直到得到的UI元素目标检测模型的检测精度达到最优为止,从而得到训练好的目标检测检测模型。
可以理解的是,本发明针对通过系统接口获取窗口信息缺失特点,实现了一种RPA系统中基于目标检测技术的UI元素拾取方法,使RPA机器人不受应用程序接口的限制,提高RPA系统的应用范围。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,包括如下步骤:
(1)获取用户界面窗口的截图;
(2)将步骤(1)中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型,以拾取该用户界面窗口的截图中的UI元素。
2.根据权利要求1所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,步骤(1)具体为,通过应用程序接口或者操作系统接口获取用户界面窗口的起始坐标与用户界面窗口的长宽,从而得到用户界面窗口的截图。
3.根据权利要求1或2所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,
UI元素目标检测模型包括顺次连接的特征提取模块、特征聚合模块、以及特征预测模块。
特征提取模块采用CSPDarkNet53网络;
特征聚合模块包括特征金字塔池化SSP、以及路径聚合网络PANet。
特征预测模块采用YoloHead网络。
4.根据权利要求1至3中任意一项所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,UI元素目标检测模型是通过以下步骤训练得到的:
(2-1)获取包含UI元素的用户界面窗口图像数据集,按照2:8的比例把该用户界面窗口图像数据集划分为测试集和训练集;
(2-2)将步骤(2-1)得到的训练集中的每个用户界面窗口图像输入UI元素目标检测模型中的特征提取模块,以得到三个不同尺寸的UI元素初级特征图,其尺寸分别是该用户界面窗口图像尺寸的1/8,1/16和1/32;
(2-3)对于步骤(2-2)获取的三个不同尺寸的UI元素初级特征图而言,将其输入UI元素目标检测模型中特征聚合模块的SSP网络,以得到三个固定尺寸的特征图,并将三个固定尺寸的特征图输入特征聚合模块的PANet网络,以得到UI元素融合特征图。
(2-4)将步骤(2-3)得到的UI元素融合特征图输入UI元素目标检测模型中的特征预测模块,以得到训练集中每个UI元素的预测类别和预测位置(该预测位置是该UI元素的预测边界框),并将其分别与该UI元素的真实类别和真实位置进行对比,根据对比结果、并使用损失函数对UI元素目标检测模型进行迭代训练,直到该UI元素检测模型收敛为止,从而得到初步训练好的UI元素检测模型。
(2-5)使用步骤(2-1)得到的测试集对步骤(2-4)初步训练好的UI元素目标检测模型进行验证,直到得到的UI元素目标检测模型的检测精度达到最优为止,从而得到训练好的目标检测检测模型。
5.根据权利要求1至4中任意一项所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,
损失函数包括回归框损失函数,置信度损失函数、以及分类损失函数;
置信度损失函数与分类损失函数都采用交叉熵函数,用于计算训练集中每一个UI元素的预测类别与真实类别的偏离值;
回归框损失函数采用CIoU函数,其用于计算训练集中每一个UI元素的预测位置(即边界框)与该UI元素的真实位置之间的差异程度。
6.根据权利要求5所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,置信度损失函数的交叉熵函数为:
Figure FDA0003080441460000021
其中,Oj∈{0,1},表示第j个UI元素的边界框内是否存在真实UI元素,0表示不存在,1表示存在。Cj表示第j个UI元素的边界框内存在UI元素的概率,其经过Sigmoid函数处理后变为
Figure FDA0003080441460000031
其中N表示UI元素的预测位置的总数。
7.根据权利要求5所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,
分类损失函数的交叉熵函数为:
Figure FDA0003080441460000032
Figure FDA0003080441460000033
其中Oij∈{0,h},表示第j个UI元素的边界框内中是否有第i类UI元素,0表示不存在,1表示存在。
Figure FDA0003080441460000034
表示第j个UI元素边界框内存在第i类UI元素的概率,经过Sigmoid函数处理后为
Figure FDA0003080441460000035
其中M表示UI元素的类别总数。
8.根据权利要求5所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,CIoU函数为:
Figure FDA0003080441460000036
其中1-IoU表示UI元素的预测位置与其真实位置的差异程度,IoU表示UI元素的预测位置与其真实位置的交并比,表示两者间的相关度。
Figure FDA0003080441460000037
表示UI元素的位置偏离惩罚项,p2(b,bgt)为UI元素预测位置的中心值与其真实位置中心值之间的欧式距离,b表示UI元素预测位置的中心点值,bgt表示UI元素真实位置的中心点值,p(·)表示计算欧式距离。c2为UI元素的预测位置和UI元素的真实位置两者并集的对角线长度,a表示权重系数,v表示UI元素的预测位置与其真实位置的长宽权重比。
9.根据权利要求8所述的RPA系统中基于目标检测技术的UI元素拾取方法,其特征在于,
权重系数a等于:
Figure FDA0003080441460000041
UI元素的预测位置与其真实位置的长宽权重比v等于:
Figure FDA0003080441460000042
其中w和h分别表示UI元素的预测位置的宽和高,wgt和hgt分别表示UI元素的真实位置的宽和高。
10.一种RPA系统中基于目标检测技术的UI元素拾取系统,其特征在于,包括:
第一模块,用于获取用户界面窗口的截图;
第二模块,用于将第二模块中得到的用户界面窗口的截图输入训练好的UI元素目标检测模型,以拾取该用户界面窗口的截图中的UI元素。
CN202110564542.1A 2021-05-24 2021-05-24 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统 Pending CN113282215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110564542.1A CN113282215A (zh) 2021-05-24 2021-05-24 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110564542.1A CN113282215A (zh) 2021-05-24 2021-05-24 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统

Publications (1)

Publication Number Publication Date
CN113282215A true CN113282215A (zh) 2021-08-20

Family

ID=77281022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110564542.1A Pending CN113282215A (zh) 2021-05-24 2021-05-24 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统

Country Status (1)

Country Link
CN (1) CN113282215A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461122A (zh) * 2022-04-12 2022-05-10 杭州实在智能科技有限公司 Rpa元素拾取同屏切换方法及系统
CN115455227A (zh) * 2022-09-20 2022-12-09 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN115878003A (zh) * 2022-11-28 2023-03-31 中科曙光南京研究院有限公司 一种基于Transformer的RPA网页操作自动化方法及系统
CN116403199A (zh) * 2023-06-07 2023-07-07 杭州实在智能科技有限公司 基于深度学习的屏幕图标语义识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN112541532A (zh) * 2020-12-07 2021-03-23 长沙理工大学 基于密集连接结构的目标检测方法
US20210103798A1 (en) * 2019-10-08 2021-04-08 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103798A1 (en) * 2019-10-08 2021-04-08 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN112541532A (zh) * 2020-12-07 2021-03-23 长沙理工大学 基于密集连接结构的目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QINGQIANG CHEN等: "《Garbage Classification Detection Based on Improved YOLOV4》", 《美国科研出版社2020年论文汇编IV》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461122A (zh) * 2022-04-12 2022-05-10 杭州实在智能科技有限公司 Rpa元素拾取同屏切换方法及系统
CN114461122B (zh) * 2022-04-12 2022-07-19 杭州实在智能科技有限公司 Rpa元素拾取同屏切换方法及系统
CN115455227A (zh) * 2022-09-20 2022-12-09 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN115878003A (zh) * 2022-11-28 2023-03-31 中科曙光南京研究院有限公司 一种基于Transformer的RPA网页操作自动化方法及系统
CN115878003B (zh) * 2022-11-28 2024-02-23 中科曙光南京研究院有限公司 一种基于Transformer的RPA网页操作自动化方法及系统
CN116403199A (zh) * 2023-06-07 2023-07-07 杭州实在智能科技有限公司 基于深度学习的屏幕图标语义识别方法及系统
CN116403199B (zh) * 2023-06-07 2023-09-08 杭州实在智能科技有限公司 基于深度学习的屏幕图标语义识别方法及系统

Similar Documents

Publication Publication Date Title
CN113282215A (zh) 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统
CN109934115B (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
CN109325538B (zh) 目标检测方法、装置和计算机可读存储介质
CN115061769B (zh) 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统
CN111797769B (zh) 一种小目标敏感的车辆检测系统
CN113052295B (zh) 一种神经网络的训练方法、物体检测方法、装置及设备
Geng et al. An improved helmet detection method for YOLOv3 on an unbalanced dataset
CN111967527B (zh) 一种基于人工智能牡丹品种识别方法及识别系统
CN111353580A (zh) 目标检测网络的训练方法、电子设备及存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN115797736A (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN113496148A (zh) 一种多源数据融合方法及系统
CN115546824B (zh) 禁忌图片识别方法、设备及存储介质
CN111598000A (zh) 基于多任务的人脸识别方法、装置、服务器和可读存储介质
CN117058476A (zh) 一种基于随机不确定性的目标检测方法
CN114972947B (zh) 一种基于模糊语义建模的深度场景文本检测方法和装置
CN115546845A (zh) 一种多视角牛脸识别方法、装置、计算机设备及存储介质
CN115661542A (zh) 一种基于特征关系迁移的小样本目标检测方法
CN115565072A (zh) 一种道路垃圾识别和定位方法、装置、电子设备及介质
CN112232272B (zh) 一种激光与视觉图像传感器融合的行人识别方法
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统
CN111797782B (zh) 基于图像特征的车辆检测方法和系统
CN113903025A (zh) 场景文本检测方法、装置和模型及其训练方法和训练装置
CN114241202A (zh) 着装分类模型的训练方法及装置、着装分类方法及装置
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210820

RJ01 Rejection of invention patent application after publication