CN115061769A - 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统 - Google Patents

用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统 Download PDF

Info

Publication number
CN115061769A
CN115061769A CN202210944399.3A CN202210944399A CN115061769A CN 115061769 A CN115061769 A CN 115061769A CN 202210944399 A CN202210944399 A CN 202210944399A CN 115061769 A CN115061769 A CN 115061769A
Authority
CN
China
Prior art keywords
neural network
deep neural
network model
matching
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210944399.3A
Other languages
English (en)
Other versions
CN115061769B (zh
Inventor
宋志龙
孙林君
张军燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202210944399.3A priority Critical patent/CN115061769B/zh
Publication of CN115061769A publication Critical patent/CN115061769A/zh
Application granted granted Critical
Publication of CN115061769B publication Critical patent/CN115061769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于RPA元素匹配技术领域,具体涉及用于支持跨分辨率的自迭代RPA界面元素匹配方法及系统。方法包括:S1,拾取大量界面元素并按类别标注,同时构建具备多尺度特征融合能力的深度神经网络模型;S2,训练模型,并优化模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;S3,使用深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;S4,导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成在线迭代优化。

Description

用于支持跨分辨率的自迭代RPA界面元素匹配方法及系统
技术领域
本发明属于RPA元素匹配技术领域,具体涉及用于支持跨分辨率的自迭代RPA界面元素匹配方法及系统。
背景技术
RPA(机器人流程自动化,Robotic Process Automation)是一种当前快速发展的计算机软件自动化技术。元素拾取是RPA的重要组成功能,包括元素检测与识别。
目前界面元素匹配的方式可以总结为三种。一种是单纯使用传统计算机视觉模版匹配技术,其泛化能力差,精度低;第二和第三种方式分别引入了目标元素周围的元素(锚点元素或结构元素)信息来辅助定位和匹配,同时对于文字元素使用OCR模型来加强文字信息匹配的准确度,一定程度上提升了准确率,但是整个过程较为繁琐,首先其依赖于目标元素周围元素信息,限制了其使用场景;另外其将文字和图标元素的匹配过程割裂开,增大了流程设计的复杂性和对于检测模型及OCR模型的依赖性;最后由于其匹配算法使用的依旧是模版匹配,对于第一种方案存在的问题,其依然存在。具体来说:
1.传统计算机视觉匹配技术存在局限性:
基于传统计算机视觉特征提取技术,首先对元素特点有要求,比如需要有足够多的特征点、图像要足够清晰等等。其次传统计算机视觉特征提取技术仅能提取到元素像素级特征,无法提取元素中的结构性特征或者语义特征,因此对于元素特征的表达不够充分,从而导致匹配的准确率低。比如RPA流程中经常出现的同一元素不同时期状态不同的情况,单纯使用传统计算机视觉匹配技术就很容易匹配失败,从而影响RPA流程执行效率。
2.基于锚点元素匹配技术具有强依赖性且性能不稳定
基于锚点元素的匹配技术的强依赖性体现在:
对检测模型和OCR模型的强依赖。首先要通过检测模型检测出所有界面元素并且分为文字和图标两种元素类别,对于文字元素使用OCR模型识别文字内容并进行字符串匹配,对于图标使用模版匹配方式进行匹配。这就要求检测模型和OCR模型的准确度足够高,否则会直接造成匹配的失效。比如一个文字目标元素A被识别成了图标,执行匹配时就会将A与当前界面元素中的图标进行模版匹配,而A本身是一个文字,因此无法与当前界面元素中的图标集合匹配成功;同时如果OCR模型识别结果出错,也会导致字符串匹配方案直接失效,从而导致文字元素的匹配失败。
对目标元素周围元素的依赖。此方法需要在目标元素周围为其找到一个锚点元素,借助锚点元素以及目标元素和锚点元素之间的位置关系去匹配。因此当目标元素周围不存在有效锚点元素时,这种方式就退化为基本的模版匹配方案,此外,由于现有的锚点选择需要用户人为选择锚点,而锚点这个概念本身相对抽象,这无疑是增加了用户对RPA的使用和理解成本。
性能不稳定体现在:
在通过锚点元素以及目标元素和锚点元素之间的位置关系去匹配到候选区域之后,需要计算目标元素与候选区域的重叠度,当重叠度达到阈值才算匹配成功,否则匹配失败。而即使是相同的软件界面,不同的电脑或者不同的用户使用习惯也会导致拾取阶段和执行阶段的软件界面分辨率之间也存在尺度的差异,设置的重叠度阈值难以适用于所有的电脑分辨率场景,易导致匹配失效。比如当设置较高的重叠度阈值时,而界面分辨率较低,导致匹配到的候选区域与目标元素虽然是同一个元素但是重叠度低于阈值,就会被认为没有匹配到,从而造成匹配的失败。
对于图标元素的匹配,依然使用传统计算机视觉中的模版匹配技术,第一种方案存在的问题,依然存在。
3.基于结构元素辅助匹配技术具有强依赖性且流程复杂:
基于结构元素辅助匹配技术的强依赖性与基于锚点元素匹配技术的强依赖性基本一致,首先依赖目标检测模型和OCR模型的精度,其次依赖目标元素周围元素。
其流程复杂体现在:
在有足够的周围元素信息的情况下,需要将目标元素与其周边结构元素组成一个基元集合,然后基元集合内两两元素之间位置关系组成位置关系集合。然后要在界面中找出所有近似基元集合,再根据基元集合和各近似基元集合内两两元素之间的匹配相似度,得到第一相似度集合;再根据基元位置关系集合与近似基元位置关系集合对应关系,得到第二相似度;基于这两种相似度,得到基元集合和各相似基元集合的总相似度;选取总相似度大于阈值的作为候选集合;再根据候选集合各元素和基元集合各元素对应关系,找到目标元素在界面上的位置信息,从而完成匹配。整个过程相当繁琐,并且涉及到大量结构元素而非目标元素的匹配过程,无疑是增大了目标元素匹配结果对这些结构元素匹配精度的依赖,同时这种繁琐的过程也相对较耗时,影响了整个流程对执行效率。
4.基于深度学习的元素匹配技术应用不充分:
基于深度学习的元素匹配技术虽然在一定程度上解决了传统计算机视觉模版匹配技术的一些问题,但是在整个RPA元素匹配的系统中,仅仅是替换了特征提取和匹配算法(如使用resnet替换了SIFT),并没有结合RPA的特性在RPA元素匹配的整个系统中充分发挥深度学习的能力,使深度学习在RPA内的优势大大受限。比如基于深度学习的元素匹配技术目前仍只关注图标元素的特征提取和匹配,并没有将图标元素和文字元素的匹配算法进行统一,导致目标检测模型的类别混检错误依旧会直接导致后续匹配过程的失效,且OCR模型对文字匹配的影响仍然存在,同时对于实际场景中普遍存在的多分辨率的问题也没有考虑,另外当深度学习模型不准确时,当前方案也无法实现模型的快速在线优化和更新。
因此,设计一种将文字元素和图标元素的匹配算法进行统一,能提升RPA元素匹配的准确性和流程的高效性的用于支持跨分辨率的自迭代RPA界面元素匹配方法及系统,就显得十分重要。
例如,申请号为CN202011126599.5的中国专利文献描述的结合RPA与AI的软件界面元素的匹配方法及装置。软件界面元素的匹配方法,包括通过采用OCR技术提取当前软件界面中的界面元素;将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;根据所述分布信息,执行对所述目标元素的访问操作。虽然可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠,但是其缺点在于,上述方案采用的是基于锚点元素匹配的技术方式,而基于锚点元素匹配技术存在具有强依赖性且性能不稳定的问题。
发明内容
本发明是为了克服现有技术中,现有界面元素匹配的方式存在泛化能力差,精度低,过程繁琐,对检测模型及OCR模型依赖性强的问题,提供了一种将文字元素和图标元素的匹配算法进行统一,能提升RPA元素匹配的准确性和流程的高效性的用于支持跨分辨率的自迭代RPA界面元素匹配方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
用于支持跨分辨率的自迭代RPA界面元素匹配方法,包括如下步骤;
S1,拾取大量界面元素并按类别标注,同时构建具备多尺度特征融合能力的深度神经网络模型;
S2,训练深度神经网络模型,并优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;
S3,使用步骤S2获得的深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;
S4,导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成模型的在线迭代优化。
作为优选,步骤S1中,所述构建具备多尺度特征融合能力的深度神经网络模型包括如下步骤:
S11,主干网络在对元素图像进行特征提取过程中,提取多级特征;
其中,多级特征的每一级特征均有不同的感受野,每个感受野代表不同尺度的特征;
S12,构建多尺度特征融合网络结构,并与主干网络输出的多个尺度的特征进行融合,得到具有多尺度特征融合能力的深度神经网络模型。
作为优选,步骤S2包括如下步骤:
S21,使用大量标注的界面元素训练深度神经网络模型,并使用分类损失和对比学习损失来优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型。
作为优选,步骤S3包括如下步骤:
S31,将目标元素图片经过预处理后送入深度神经网络模型,提取目标元素特征;
S32,使用目标检测网络检测界面所有元素,将所有元素分别经过预处理后送入到深度神经网络模型,提取界面各元素的特征;
S33,特征匹配时,将目标元素特征与界面各元素特征逐个进行相似度计算;当相似度超过预设阈值时,表示特征匹配成功;如果所有相似度均没有达到预设阈值,则表示当前界面不含和目标元素相同的元素。
作为优选,步骤S33中,所述相似度计算具体为:
计算目标元素特征与界面各元素特征的余弦距离。
作为优选,步骤S4包括如下步骤:
S41,用户执行RPA流程后,系统自动导出匹配错误样例;
S42,用户自行对匹配错误样例进行检查和标注后,导入深度神经网络模型,所述深度神经网络模型对匹配错误样例进行识别训练,完成深度神经网络模型的在线迭代优化。
本发明还提供了用于支持跨分辨率的自迭代RPA界面元素匹配系统,包括:
界面元素拾取模块,用于拾取大量界面元素并按类别标注;
深度神经网络模型训练模块,用于构建具备多尺度特征融合能力的深度神经网络模型,并训练深度神经网络模型,优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;
特征提取和匹配模块,用于通过深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;
匹配模型在线优化模块,用于导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成模型的在线迭代优化。
作为优选,所述深度神经网络模型训练模块包括:
深度神经网络模型构建模块,用于主干网络在对元素图像进行特征提取过程中,提取多级特征,以及构建多尺度特征融合网络结构,并与主干网络输出的多个尺度的特征进行融合,得到具有多尺度特征融合能力的深度神经网络模型。
本发明与现有技术相比,有益效果是:(1)本发明整个系统可分为开发阶段、执行阶段和在线优化阶段;在开发阶段,首先使用目标检测网络拾取软件界面对象库中的大量元素并进行标注,然后针对RPA的多分辨率设备使用场景,在主干网络的基础上增加多尺度特征融合结构,使深度神经网络具备融合多尺度特征的能力,然后将标注后的数据用来训练深度神经网络模型,辅之以分类损失和对比学习损失来优化模型参数,使得深度神经网络模型能够具备强大的特征提取和特征区分能力,且多尺度特征融合的能力使其能够应对各种分辨率差异场景下界面元素匹配问题;(2)本发明将文字元素和图标元素的匹配算法进行统一,检测模型无需具体区分检测出的元素是文字元素还是图标元素,即使目标检测模型出现了类别的混检,也不影响后续的匹配过程,大大提升了RPA元素匹配的准确性和流程的高效性;(3)本发明中的元素匹配过程不需要任何锚点元素或者结构元素的参与,能够应对各种应用场景,且匹配流程更加简单高效;(4)本发明支持导出RPA执行流程的元素匹配错误样例并由用户进行检查标注,然后利用深度神经网络的迁移学习能力,实现对匹配错误样例的在线学习,从而完成匹配模型的在线优化迭代,使其应对特殊场景的能力更强,扩大了RPA元素匹配的应用边界,使整个元素匹配系统的应用更加灵活。
附图说明
图1为本发明中用于支持跨分辨率的自迭代RPA界面元素匹配系统的一种功能结构示意图;
图2为本发明中界面元素拾取模块的一种功能结构示意图;
图3为本发明中具备多尺度特征融合能力的深度神经网络模型的一种结构示意图;
图4为本发明中深度神经网络模型训练模块的一种功能结构示意图;
图5为本发明中特征提取和匹配模块的一种功能结构示意图;
图6为本发明中匹配模型在线优化模块的一种功能结构示意图;
图7为本发明实施例所提供的用于支持跨分辨率的自迭代RPA界面元素匹配方法的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:
如图1所示的用于支持跨分辨率的自迭代RPA界面元素匹配方法,包括如下步骤;
S1,拾取大量界面元素并按类别标注,同时构建具备多尺度特征融合能力的深度神经网络模型;
S2,训练深度神经网络模型,并优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;
S3,使用步骤S2获得的深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;
S4,导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成模型的在线迭代优化。
步骤S1中,所述构建具备多尺度特征融合能力的深度神经网络模型包括如下步骤:
S11,主干网络在对元素图像进行特征提取过程中,提取多级特征;
其中,多级特征的每一级特征均有不同的感受野,每个感受野代表不同尺度的特征;
S12,构建多尺度特征融合网络结构,并与主干网络输出的多个尺度的特征进行融合,得到具有多尺度特征融合能力的深度神经网络模型。
步骤S2包括如下步骤:
S21,使用大量标注的界面元素训练深度神经网络模型,并使用分类损失和对比学习损失来优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型。
步骤S3包括如下步骤:
S31,将目标元素图片经过预处理后送入深度神经网络模型,提取目标元素特征;
S32,使用目标检测网络检测界面所有元素,将所有元素分别经过预处理后送入到深度神经网络模型,提取界面各元素的特征;
S33,特征匹配时,将目标元素特征与界面各元素特征逐个进行相似度计算;当相似度超过预设阈值时,表示特征匹配成功;如果所有相似度均没有达到预设阈值,则表示当前界面不含和目标元素相同的元素。
步骤S33中,所述相似度计算具体为:
计算目标元素特征与界面各元素特征的余弦距离。
步骤S4包括如下步骤:
S41,用户执行RPA流程后,系统自动导出匹配错误样例;
S42,用户自行对匹配错误样例进行检查和标注后,导入深度神经网络模型,所述深度神经网络模型对匹配错误样例进行识别训练,完成深度神经网络模型的在线迭代优化。
基于本实施例,本发明还提供了用于支持跨分辨率的自迭代RPA界面元素匹配系统,包括:
界面元素拾取模块,用于拾取大量界面元素并按类别标注;
界面元素拾取模块所要完成的功能主要包含两个方面,一方面是在模型训练的准备阶段对软件界面对象库中的界面元素进行拾取,这里拾取的大量界面元素经标注之后被用于训练深度神经网络模型。另一方面是在执行阶段,用于拾取执行软件界面元素,这里拾取的元素将被用于和目标元素进行匹配。如图2所示。
深度神经网络模型训练模块,用于构建具备多尺度特征融合能力的深度神经网络模型,并训练深度神经网络模型,优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;
深度神经网络模型训练模块主要包括元素类别标注和模型训练两个部分。在数据标注时,将同一元素或者同一元素的不同状态标注为同一类别。在模型训练阶段,首先构造多尺度特征融合深度神经网络模型,基本结构如图3所示,主干网络在对元素图像进行特征提取过程中提取到多级特征,每一级特征都有不同的感受野代表着不同尺度的特征,设计多尺度特征融合网络结构来融合主干网络输出的多个尺度的特征,从而得到具有多尺度特征融合能力的深度神经网络模型。
以特征图3特征和特征图4特征融合过程为例,特征图4首先经过一个1x1卷积层得到通道数为C的特征图4_1,然后对特征图4_1进行上采样操作,使其与特征图3的长宽保持一致,然后再对特征图3进行1x1卷积操作,得到通道数为C的特征,此时变换后的特征图3和特征图4尺寸即通道数是一致的,将变换后的两特征进行逐元素相加操作得到一个新的特征,然后再经过一个3x3卷积即可得到不同尺度的特征图3和特征图4的融合特征特征图3_1,其他不同尺度特征融合过程与其类似。然后使用标注后的数据训练模型,辅助用分类损失和对比学习损失来优化模型参数,使得训练后的模型具备强大的特征提取和特征区分的能力。整个模型训练模块流程如图4所示。
特征提取和匹配模块,用于通过深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;
如图5所示,特征提取和匹配模块主要功能是使用已经训练好的深度神经网络模型来提取元素特征,并将目标元素特征和执行界面各元素特征进行匹配。特征提取包含两个方面,一方面是对目标元素特征的提取,本发明直接将目标元素图片经过预处理送入同一深度学习模型即可得到相应的特征。另一方面是对执行界面元素特征的提取,需要首先使用目标检测网络检测当前界面所有元素,然后将其分别经过预处理之后送入到网络得到各自的特征。与现有方案中使用不同方法提取图标元素和文字元素特征的做法不同,本发明统一了文字元素和图标元素的特征提取方案,由于所训练的深度神经网络模型已经具备了区分文字和图标特征的能力,因此在特征提取之前无须区分是文字元素还是图标元素,可以直接将元素输入同一模型进行特征提取。特征匹配时,目标元素特征会与执行界面各元素特征逐个进行相似度计算,当相似度超过预设阈值时,即表示匹配成功;如果所有相似度都没有达到预设阈值,则表示当前界面不含和目标元素相同的元素。
其中,预处理过程包括对元素特征进行灰度化、去噪、滤波等操作。
匹配模型在线优化模块,用于导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成模型的在线迭代优化。
如图6所示,匹配模型在线优化模块主要功能是完成深度神经网络模型的在线优化。用户执行一系列RPA流程之后,系统会自动导出匹配失败的元素样例,用户可自行对失败样例进行检查和标注,然后导入模型进行训练,利用深度神经网络模型强大的迁移学习能力增强其对失败样例的识别能力,实现模型的在线迭代优化。
所述深度神经网络模型训练模块包括:
深度神经网络模型构建模块,用于主干网络在对元素图像进行特征提取过程中,提取多级特征,以及构建多尺度特征融合网络结构,并与主干网络输出的多个尺度的特征进行融合,得到具有多尺度特征融合能力的深度神经网络模型。
如图7所示,为本发明通过一个实际使用案例展示本发明的实施方案:
1.开发阶段:首先使用yolo-v5目标检测模型拾取软件界面库中的所有元素并按类别标注。
2.然后设计深度神经网络模型结构:以resnet-50做为主干网络,设计特征多尺度融合结构,用于融合resnet-50主干网络各个stage输出的不同尺度的特征图。元素图片的输入大小为224*224,主干网络输出的特征图大小分别为56*56,28*28,14*14,7*7,通过使用卷积、逐像素相加和上采样等操作,将各特征图由下至上融合,最后将融合后的特征再进经过几个卷积和avgpool操作后输出最后的特征。
3.最后使用标注数据训练多尺度特征融合深度神经网络模型,并将模型集成到RPA元素匹配系统中。
4.执行阶段:首先制定一套工作微信上的自动化操作流程,流程中涉及对图标元 素“消息
Figure DEST_PATH_IMAGE001
”、文字元素“收件箱
Figure 563275DEST_PATH_IMAGE002
”和“日历
Figure DEST_PATH_IMAGE003
”三个元素的匹配。
5.在执行界面运行所制定的RPA流程,首先使用目标检测模型识别出工作微信界 面上所有元素,并无需区分文字元素和图标元素。然后执行流程,其中包含对流程中拾取的 “消息
Figure 434410DEST_PATH_IMAGE004
”、文字元素“收件箱
Figure DEST_PATH_IMAGE005
”和“日历
Figure 932256DEST_PATH_IMAGE006
”三个元素的匹配,执行界面三个元 素的样式有略微变化:“消息
Figure 625668DEST_PATH_IMAGE007
”、文字元素“收件箱
Figure 971198DEST_PATH_IMAGE008
”和“日历
Figure 715032DEST_PATH_IMAGE009
”,可以看到, “消息”图标分辨率变化较大,日历图标色彩变化较大。
6.然后进行特征提取和匹配。使用训练好的多尺度融合深度神经网络模型对流程中的元素进行逐个特征提取和匹配操作,其中匹配时使用余弦距离来计算相似度。对于“消息”图标,由于模型具备多尺度特征融合的能力,因此即使分辨率有较大变化,也能成功匹配;对于“收件箱”元素,由于用户不需要关心元素中具体的文字内容,因此同样可以像普通图标元素一样进行特征提取和匹配;对于“日历”元素,由于流程中和执行界面的元素色彩有了较大变化,因此未能被正确匹配到,即相似度未达到阈值。
7.多段流程执行结束,RPA系统自动导出错误匹配样例,如(
Figure 743250DEST_PATH_IMAGE010
Figure 597943DEST_PATH_IMAGE009
)。经检查发 现其属于统一元素的不同状态,标注之后导入模型,利用深度神经网络的迁移学习能力完 成模型的在线迭代优化。
再次执行之前的流程,当元素对(
Figure 797980DEST_PATH_IMAGE010
Figure 683022DEST_PATH_IMAGE009
)匹配时,由于模型的迁移学习完成了 对类似样例的学习,因此在执行阶段,类似变色的元素对也能成功匹配,完成整个流程的成 功运行。
本发明提出一种支持跨分辨率的自迭代RPA界面元素匹配方法和系统,结合RPA元素匹配的应用特点,将深度神经网络深度融合进了RPA元素匹配系统的各个部分,充分发挥了深度神经网络在RPA元素匹配任务上的优势,扩大了RPA元素匹配的应用边界,提升了RPA元素匹配的准确度,简化了匹配流程,大大提升了RPA软件执行的准确度和效率,优化了用户体验。
本发明提出将RPA元素匹配系统中文字元素和图标元素的匹配算法进行统一,简化了元素匹配流程,降低了对目标检测模型精度和OCR模型的依赖。
本发明将RPA元素匹配的多分辨率设备使用场景和深度神经网络的多尺度特征输出特点相结合,在用于元素特征提取的主干网络上增加多尺度特征融合结构,使得多个尺度的特征信息都能在最终输出的特征上得到表达,增强了模型对不同分辨率设备的适应能力。
本发明提出利用深度神经网络的迁移学习能力实现RPA元素特征提取及匹配算法的在线优化迭代,扩大了RPA元素匹配的应用边界。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (8)

1.用于支持跨分辨率的自迭代RPA界面元素匹配方法,其特征在于,包括如下步骤;
S1,拾取大量界面元素并按类别标注,同时构建具备多尺度特征融合能力的深度神经网络模型;
S2,训练深度神经网络模型,并优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;
S3,使用步骤S2获得的深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;
S4,导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成模型的在线迭代优化。
2.根据权利要求1所述的用于支持跨分辨率的自迭代RPA界面元素匹配方法,其特征在于,步骤S1中,所述构建具备多尺度特征融合能力的深度神经网络模型包括如下步骤:
S11,主干网络在对元素图像进行特征提取过程中,提取多级特征;
其中,多级特征的每一级特征均有不同的感受野,每个感受野代表不同尺度的特征;
S12,构建多尺度特征融合网络结构,并与主干网络输出的多个尺度的特征进行融合,得到具有多尺度特征融合能力的深度神经网络模型。
3.根据权利要求1所述的用于支持跨分辨率的自迭代RPA界面元素匹配方法,其特征在于,步骤S2包括如下步骤:
S21,使用大量标注的界面元素训练深度神经网络模型,并使用分类损失和对比学习损失来优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型。
4.根据权利要求1所述的用于支持跨分辨率的自迭代RPA界面元素匹配方法,其特征在于,步骤S3包括如下步骤:
S31,将目标元素图片经过预处理后送入深度神经网络模型,提取目标元素特征;
S32,使用目标检测网络检测界面所有元素,将所有元素分别经过预处理后送入到深度神经网络模型,提取界面各元素的特征;
S33,特征匹配时,将目标元素特征与界面各元素特征逐个进行相似度计算;当相似度超过预设阈值时,表示特征匹配成功;如果所有相似度均没有达到预设阈值,则表示当前界面不含和目标元素相同的元素。
5.根据权利要求4所述的用于支持跨分辨率的自迭代RPA界面元素匹配方法,其特征在于,步骤S33中,所述相似度计算具体为:
计算目标元素特征与界面各元素特征的余弦距离。
6.根据权利要求1所述的用于支持跨分辨率的自迭代RPA界面元素匹配方法,其特征在于,步骤S4包括如下步骤:
S41,用户执行RPA流程后,系统自动导出匹配错误样例;
S42,用户自行对匹配错误样例进行检查和标注后,导入深度神经网络模型,所述深度神经网络模型对匹配错误样例进行识别训练,完成深度神经网络模型的在线迭代优化。
7.用于支持跨分辨率的自迭代RPA界面元素匹配系统,其特征在于,包括:
界面元素拾取模块,用于拾取大量界面元素并按类别标注;
深度神经网络模型训练模块,用于构建具备多尺度特征融合能力的深度神经网络模型,并训练深度神经网络模型,优化深度神经网络模型参数,获得具有元素特征提取能力和特征区分能力的深度神经网络模型;
特征提取和匹配模块,用于通过深度神经网络模型分别提取目标元素和界面各元素的特征,依次进行相似度计算,并比较计算的相似度和预设相似度阈值,获得匹配结果;
匹配模型在线优化模块,用于导出RPA流程执行过程中的匹配错误样例,用户对匹配错误样例进行检查和标注,并导入深度神经网络模型,完成模型的在线迭代优化。
8.根据权利要求7所述的用于支持跨分辨率的自迭代RPA界面元素匹配系统,其特征在于,所述深度神经网络模型训练模块包括:
深度神经网络模型构建模块,用于主干网络在对元素图像进行特征提取过程中,提取多级特征,以及构建多尺度特征融合网络结构,并与主干网络输出的多个尺度的特征进行融合,得到具有多尺度特征融合能力的深度神经网络模型。
CN202210944399.3A 2022-08-08 2022-08-08 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统 Active CN115061769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210944399.3A CN115061769B (zh) 2022-08-08 2022-08-08 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210944399.3A CN115061769B (zh) 2022-08-08 2022-08-08 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统

Publications (2)

Publication Number Publication Date
CN115061769A true CN115061769A (zh) 2022-09-16
CN115061769B CN115061769B (zh) 2022-11-11

Family

ID=83207515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210944399.3A Active CN115061769B (zh) 2022-08-08 2022-08-08 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统

Country Status (1)

Country Link
CN (1) CN115061769B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455227A (zh) * 2022-09-20 2022-12-09 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN115964027A (zh) * 2023-03-16 2023-04-14 杭州实在智能科技有限公司 基于人工智能的桌面嵌入式rpa流程配置系统及方法
CN116630990A (zh) * 2023-07-21 2023-08-22 杭州实在智能科技有限公司 Rpa流程元素路径智能修复方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241988A (zh) * 2018-07-16 2019-01-18 北京市商汤科技开发有限公司 特征提取方法和装置、电子设备、存储介质、程序产品
CN109871847A (zh) * 2019-03-13 2019-06-11 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN110298266A (zh) * 2019-06-10 2019-10-01 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN112115774A (zh) * 2020-08-07 2020-12-22 北京来也网络科技有限公司 结合rpa和ai的文字识别方法、装置、电子设备和存储介质
CN112231033A (zh) * 2019-12-23 2021-01-15 北京来也网络科技有限公司 结合rpa与ai的软件界面元素的匹配方法及装置
US20210103798A1 (en) * 2019-10-08 2021-04-08 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
CN112633297A (zh) * 2020-12-28 2021-04-09 浙江大华技术股份有限公司 目标对象的识别方法、装置、存储介质以及电子装置
CN114299478A (zh) * 2021-12-14 2022-04-08 北京来也网络科技有限公司 结合rpa和ai的图像处理方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241988A (zh) * 2018-07-16 2019-01-18 北京市商汤科技开发有限公司 特征提取方法和装置、电子设备、存储介质、程序产品
CN109871847A (zh) * 2019-03-13 2019-06-11 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN110298266A (zh) * 2019-06-10 2019-10-01 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法
US20210103798A1 (en) * 2019-10-08 2021-04-08 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
CN112231033A (zh) * 2019-12-23 2021-01-15 北京来也网络科技有限公司 结合rpa与ai的软件界面元素的匹配方法及装置
CN112115774A (zh) * 2020-08-07 2020-12-22 北京来也网络科技有限公司 结合rpa和ai的文字识别方法、装置、电子设备和存储介质
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN112633297A (zh) * 2020-12-28 2021-04-09 浙江大华技术股份有限公司 目标对象的识别方法、装置、存储介质以及电子装置
CN114299478A (zh) * 2021-12-14 2022-04-08 北京来也网络科技有限公司 结合rpa和ai的图像处理方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文峰: "会计信息化流程的效率提升与优化――基于RPA和人工智能视角", 《财务管理研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455227A (zh) * 2022-09-20 2022-12-09 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN115964027A (zh) * 2023-03-16 2023-04-14 杭州实在智能科技有限公司 基于人工智能的桌面嵌入式rpa流程配置系统及方法
CN116630990A (zh) * 2023-07-21 2023-08-22 杭州实在智能科技有限公司 Rpa流程元素路径智能修复方法及系统
CN116630990B (zh) * 2023-07-21 2023-10-10 杭州实在智能科技有限公司 Rpa流程元素路径智能修复方法及系统

Also Published As

Publication number Publication date
CN115061769B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN115061769B (zh) 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统
CN112101357B (zh) 一种rpa机器人智能元素定位拾取方法及系统
Fu et al. From engineering diagrams to engineering models: Visual recognition and applications
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN111399638B (zh) 一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法
CN113391871A (zh) 一种rpa元素智能融合拾取的方法与系统
CN105678322A (zh) 样本标注方法和装置
EP3734496A1 (en) Image analysis method and apparatus, and electronic device and readable storage medium
CN112231033A (zh) 结合rpa与ai的软件界面元素的匹配方法及装置
CN113282215A (zh) 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN111190595A (zh) 基于界面设计图自动生成界面代码的方法、装置、介质及电子设备
CN113705286A (zh) 一种表格检测与识别方法和介质
CN115810197A (zh) 一种多模态电力表单识别方法及装置
CN111275694A (zh) 一种注意力机制引导的递进式划分人体解析模型及方法
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN117115614B (zh) 户外影像的对象识别方法、装置、设备及存储介质
CN116403199B (zh) 基于深度学习的屏幕图标语义识别方法及系统
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
Turk et al. Computer vision for mobile augmented reality
Schäfer et al. Sketch2process: End-to-end bpmn sketch recognition based on neural networks
CN111753618A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN113628113A (zh) 一种图像拼接方法及其相关设备
CN113204333A (zh) 软件界面设计稿前端元素识别方法
Pan et al. Research on functional test of mobile app based on robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant