CN117573006A - 用于rpa屏幕界面元素批量拾取的方法及系统 - Google Patents

用于rpa屏幕界面元素批量拾取的方法及系统 Download PDF

Info

Publication number
CN117573006A
CN117573006A CN202410067158.4A CN202410067158A CN117573006A CN 117573006 A CN117573006 A CN 117573006A CN 202410067158 A CN202410067158 A CN 202410067158A CN 117573006 A CN117573006 A CN 117573006A
Authority
CN
China
Prior art keywords
elements
pick
interface
rpa
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410067158.4A
Other languages
English (en)
Other versions
CN117573006B (zh
Inventor
李隆基
孙林君
高扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202410067158.4A priority Critical patent/CN117573006B/zh
Publication of CN117573006A publication Critical patent/CN117573006A/zh
Application granted granted Critical
Publication of CN117573006B publication Critical patent/CN117573006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于元素拾取技术领域,具体涉及用于RPA屏幕界面元素批量拾取的方法及系统。方法包括:S1,对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;S2,通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;所述拾取规则包括元素属性解析模式、元素相似度模式和元素图像含义模式;S3,按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。本发明具有能够解决传统单个元素拾取的局限性,并且实现对同类元素的高效和准确拾取,进而提高RPA流程的效率和稳定性的特点。

Description

用于RPA屏幕界面元素批量拾取的方法及系统
技术领域
本发明属于元素拾取技术领域,具体涉及用于RPA屏幕界面元素批量拾取的方法及系统。
背景技术
RPA(Robotic Process Automation)技术是一种自动化技术,它使用软件机器人(也称为“机器人”或“机器人软件”)来模拟和自动执行重复性、规则性的人工任务,通常在计算机上运行。这些软件机器人可以模拟用户界面操作、键盘输入、鼠标点击以及数据处理任务,以完成各种业务流程中的操作。
传统RPA元素拾取技术是基于操作系统提供的图形界面操作接口,或者基于网页对应代码的结构解析来完成。
在一些特殊场景中,存在应用软件或者远程桌面等无法通过系统的图形接口或代码解析来定位元素。比如在处理远程桌面时,RPA只能获取到桌面上呈现的图片快照,这种情况下就需要采用其他技术来实现元素的捕捉。目前较为流行的方法是基于计算机视觉(Computer Vision, 简称 CV)技术,这种方法将界面上的各种元素视为图像中的目标,借助 CV 领域的目标检测技术和光学字符识别(Optical Character Recognition, 简称OCR)技术来定位和识别每个元素的位置和类型,从而支持一系列的移动、点击、输入等操作。
RPA设计器中的元素拾取交互模式是一种元素获取功能,用于帮助RPA用户捕获并识别计算机屏幕上的元素和控件,以便将它们用于自动化任务和流程。这个交互模式允许开发人员进入捕获模式,监视用户与目标应用程序的互动,选择需要自动化的元素,如按钮、文本框或下拉菜单,并捕获相关的属性和标识信息,如元素的ID、名称、XPath等。开发人员可以验证和编辑捕获的元素信息,确保其准确性,然后使用这些信息生成自动化脚本,以模拟用户的交互操作,如单击按钮、输入文本等。这简化了RPA开发过程,提高了可维护性和效率,确保机器人能够准确地与目标应用程序交互。
当前的RPA拾取模式存在明显的局限性,主要体现在其仅支持单个元素拾取。传统RPA设计器中,用户需逐个拾取和配置每个元素的操作方式,如点击、获取文本或截图,这使得在处理大量同类型元素时,用户需要不断重复相同的步骤,从而降低了工作效率。而且,这要求用户理解和正确配置元素的属性,如元素的ID、类名、位置等信息,以及代码编程语法中循环的概念,用户需要编写额外的逻辑或使用循环组件来处理多个同类元素,这增加了开发和维护自动化任务的复杂性,对于没有IT基础知识的普通用户来说是一项复杂的任务,增加了学习曲线和使用难度,容易引入错误。
因此,设计一种能够解决传统单个元素拾取的局限性,并且实现对同类元素的高效和准确拾取,进而提高RPA流程的效率和稳定性的用于RPA屏幕界面元素批量拾取的方法及系统,就显得十分重要。
发明内容
本发明是为了克服现有技术中,在传统的RPA流程中,针对大量相似的元素,通常需要逐个进行操作,导致存在操作效率低下、流程复杂且不易扩展的问题,提供了一种能够解决传统单个元素拾取的局限性,并且实现对同类元素的高效和准确拾取,进而提高RPA流程的效率和稳定性的用于RPA屏幕界面元素批量拾取的方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
用于RPA屏幕界面元素批量拾取的方法,包括如下步骤;
S1,对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;
S2,通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;所述拾取规则包括元素属性解析模式、元素相似度模式和元素图像含义模式;
S3,按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。
作为优选,步骤S1中,所述对应用界面或网页中的所有元素进行属性识别包括如下步骤:
S11,使用UI元素选择器获取元素的属性信息。
作为优选,步骤S1中,所述通过计算机视觉技术进行元素图像识别包括如下步骤:
S12,获取应用界面或网页的截图;
S13,对截图进行图像处理和分析,包括边缘检测、颜色分析和形状匹配;
S14,使用图像处理算法和模式识别技术,对处理后的图像进行元素识别和匹配,并获取窗口信息;所述窗口信息包括窗口句柄、窗口标题和类名和窗口层级关系。
作为优选,步骤S1还包括如下步骤:
S15,使用匹配算法和相似度度量来确定识别出的元素是否相似或属于同一类别;所述匹配算法包括字符串匹配算法或基于特征的匹配算法;所述相似度度量则根据元素的属性进行定义,包括位置相似度、大小相似度和颜色相似度。
作为优选,步骤S1中,元素属性包括元素的标识符、位置、大小、文本内容、类别和标签。
作为优选,步骤S2包括如下步骤:
S21,通过设计器中监听鼠标位置的变化,并实时获取当前鼠标所在的屏幕坐标;当用户点击鼠标或触发键盘操作时,系统记录下当前的鼠标位置作为元素的目标位置,并根据目标位置,使用元素识别匹配技术识别所述目标位置上的元素;
S22,用户通过界面上的按钮或快捷键,进行不同拾取规则的切换,并选择需要的拾取规则。
作为优选,步骤S22中,当用户选择拾取规则中的元素属性解析模式时,系统解析目标位置上元素的属性,并且提供属性筛选匹配配置窗口;系统将解析出的属性与其余元素进行比对,确定是否存在与当前目标位置上元素相似的其他元素。
作为优选,步骤S22中,当用户选择元素相似度模式时,系统要求用户手动选择2-3个作为样本的元素;系统使用计算机视觉技术分析用户所选元素图形的相似部分,并识别目标窗口范围中其他相似度一致的元素;最后使用相似度匹配的算法,确定其他元素与样本元素的相似程度。
作为优选,步骤S22中,当用户选择元素图像含义模式时,系统在用户拾取元素后,根据先前的学习数据判断被拾取元素的图像含义;最后系统自动获取界面中所有同类型的元素,用于用户进行批量拾取操作。
本发明还提供了用于RPA屏幕界面元素批量拾取的系统包括;
元素识别匹配模块,用于对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;
元素交互拾取模块,用于通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;
相似元素解析模块,用于按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。
本发明与现有技术相比,有益效果是:(1)本发明通过图形界面和元素拾取模式的设计,使用户能够更加轻松地批量拾取元素;用户只需要在设计器中启动元素拾取模式,系统会自动解析元素对象的属性、图像并根据拾取规则自动拾取元素所在窗口中所有相似元素,从而省去了繁琐的手动选择和操作过程;(2)本发明通过解析元素所在对象中的其他所有元素,判断是否存在与当前同类元素,并批量采集所有该元素及其同类元素;此外,用户还可以基于元素属性批量拾取、元素图像相似度批量拾取、元素图像含义批量拾取这三种规则上进行界面固定区域位置匹配、相似度范围匹配、图像含义范围指定等细化拾取策略,适应更多个性化的业务场景,用户可以通过组件对元素组进行批量操作,这样可以降低流程编排的难度,并大大提高操作效率,节省时间和流程维护成本;(3)本发明通过图形界面的设计,用户可以直观地在设计器中进行元素拾取,并通过系统解析和显示元素属性,使用户更容易理解和使用;用户只需要在界面上进行简单的操作,即可完成元素的批量拾取和操作,无需深入了解元素的概念和属性;(4)本发明中的元素识别匹配和元素交互拾取部分采用了CV技术和AI算法,实现了自动化和智能化的元素拾取功能;通过CV技术识别界面中的形状、颜色、图形区块,或通过元素图像含义的学习和判断,系统能够自动获取界面中所有同类型的元素,使得用户无需手动选择每个元素,系统可以智能地识别和拾取相似的元素,提高了拾取的准确性和效率,并可在更多泛化、抽象的业务场景中适用。
附图说明
图1为本发明中用于RPA屏幕界面元素批量拾取的系统的一种总体功能架构示意图;
图2为本发明中实施例所提供的用于RPA屏幕界面元素批量拾取的方法在实际应用的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明提供了用于RPA屏幕界面元素批量拾取的方法,包括如下步骤;
1.对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;
2.通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;所述拾取规则包括元素属性解析模式、元素相似度模式和元素图像含义模式;
3.按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。
对应的,如图1所示,本发明还提供了用于RPA屏幕界面元素批量拾取的系统包括;
元素识别匹配模块,用于对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;
元素交互拾取模块,用于通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;
相似元素解析模块,用于按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。
对于元素识别匹配中的元素属性识别过程,具体如下:
通过获取应用界面或网页中元素属性的方式识别元素。这可以通过使用RPA框架中提供的现有功能实现,如使用UI元素选择器来获取元素的属性信息。元素属性可以包括元素的标识符、位置、大小、文本内容、类别、标签等。这些属性可以通过调用操作系统图像接口或浏览器提供的API或使用第三方库进行提取。
针对元素识别匹配中的元素图像识别过程,对于传统RPA元素识别匹配,可以使用基于规则的算法。该算法使用预定义的规则和逻辑来匹配元素的属性,例如标识符、文本内容等,以确定元素是否相似或属于同一类别。对于CV技术识别,可以使用图像处理和模式识别算法。这些算法可以通过特征提取、特征匹配、聚类分析等方法,对图像数据进行处理和分析,以识别元素的相似性和类别。通过分析应用界面或网页中的图像数据,可以识别元素的形状、颜色、图形区块等特征。
进一步的,通过CV技术识别元素,可以使用机器学习算法和训练模型来提高元素的识别准确性。需要准备一组已标记的图像数据,其中包含各种类型的元素。可以使用图像标注工具手动标注元素的位置和类别信息。使用这些标记数据来训练机器学习模型,如卷积神经网络(CNN)或其他深度学习模型。训练后的模型可以用于自动识别和分类新的元素图像。
在元素识别过程中,需要使用匹配算法和相似度度量来确定元素是否相似或属于同一类别。可以使用一些常见的匹配算法,如字符串匹配算法(如Levenshtein距离、Jaccard相似度等)或基于特征的匹配算法(如特征向量匹配、轮廓匹配等)。相似度度量可以根据元素的属性进行定义,例如位置相似度、大小相似度、颜色相似度等。
通过计算机视觉技术进行元素图像识别,具体采用以下步骤:
1.获取应用界面或网页的截图。
2.对截图进行图像处理和分析,如边缘检测、颜色分析、形状匹配等。
3.使用图像处理算法和模式识别技术,对处理后的图像进行元素识别和匹配。
4.窗口信息获取:
窗口句柄(Window Handle):每个窗口在操作系统中都有一个唯一的句柄,可以用于标识和访问该窗口。系统可以通过鼠标位置获取所在窗口的句柄。
窗口标题和类名:系统可以通过窗口的标题和类名来确定窗口的信息。通过使用操作系统提供的API函数,可以获取窗口的标题和类名,并根据这些信息来确定窗口类型(如Windows桌面、网页、应用软件窗口)。
窗口层级关系:系统可以通过分析窗口的层级关系来确定元素所在的窗口。操作系统通常提供了相关的API函数来获取窗口的父子关系和层次结构,通过遍历窗口层级,系统可以确定元素所在的窗口类型。
对于元素交互拾取过程,具体如下可以分为以下几个步骤:
1.鼠标位置获取和元素匹配:系统在设计器中监听鼠标位置的变化,并实时获取当前鼠标所在的屏幕坐标。当用户点击鼠标或触发特定的键盘操作时,系统记录下当前的鼠标位置作为元素的目标位置。系统根据目标位置,使用元素识别匹配的技术,比如获取元素属性或使用计算机视觉(CV)技术来识别目标位置上的元素。
2.元素交互拾取规则切换:系统提供多种拾取规则供用户选择,比如元素属性解析、元素相似度和元素图像含义等。用户可以通过界面上的按钮或快捷键来切换不同的拾取规则。
其中,对于拾取规则中的元素属性解析模式,具体如下:
当用户选择元素属性解析模式时,系统会解析目标位置上元素的属性,比如元素的标签、ID、类名、位置等,并且提供属性筛选匹配配置窗口,系统将这些属性与其他元素进行比对,以确定是否存在与当前元素相似的其他元素。
对于拾取规则中的元素相似度模式,具体如下:
当用户选择元素相似度模式时,系统要求用户手动选择2到3个作为样本的元素。系统使用计算机视觉技术分析用户所选元素图形的相似部分,并识别目标窗口中其他相似度一致的元素。使用相似度匹配的算法,如图像特征提取和相似度度量方法,来确定其他元素与样本元素的相似程度。
对于拾取规则中的元素图像含义模式,具体如下:
当用户选择元素图像含义模式时,系统在用户拾取某个元素后,会根据之前的学习数据判断该元素的图像含义,比如判断该元素是文件夹、办公文档、按钮、下拉框等。然后系统会自动获取界面中所有同类型的元素,以便用户进行批量操作。
另外,与以上三种模式结合,用户可以指定界面中的几个位置区域。系统会结合元素属性解析、元素相似度和元素图像含义等方法,在指定区域中获取元素。比如,系统可以根据指定的矩形区域坐标,在该区域内进行元素属性解析或相似度匹配,以获取目标元素。
通过以上的技术方案,用户可以根据鼠标位置结合键盘操作来确定界面中元素目标。系统提供了多种拾取规则,用户可以根据实际需求选择最适合的方式来批量拾取元素,并在设计器中生成元素组,以便进行批量操作。
对于相似元素解析过程,具体如下:
通过元素交互拾取中的拾取模式,系统自动解析界面中所有元素属性。
解析元素属性:如元素标签、类别、ID等属性,获取元素对象及其属性。这种方法可以帮助用户选择特定类型的元素,并将它们添加到元素组中。
元素图像相似拾取:用户手动选择2至3个元素作为样本,AI算法可以分析用户所选元素图像的相似部分,并识别在目标窗口中其他具有相似特征的元素。可以使用图像处理和机器学习算法实现,例如特征提取、特征匹配、图像相似度计算等。
元素图像含义拾取:通过学习图像分类和识别算法来实现,例如卷积神经网络(CNN)等。AI可以根据图像数据判断元素图标的含义,例如文件夹、办公文档、按钮、下拉框、输入框等,批量拾取界面中同类型元素。
结合元素属性解析、元素相似度和元素图像含义,用户可以指定界面中的特定位置区域,系统将使用不同的拾取规则在指定区域中获取元素。这可以通过组合使用元素属性、图像识别和位置识别算法来实现。
整个技术方案将用户需求与智能识别、图像处理和机器学习相结合,以实现批量拾取相似元素的高效操作,实现一个图形界面拾取规则,用户可以通过界面选择元素拾取规则,系统将根据用户的选择和操作,解析元素的属性、相似度和图像含义,并自动拾取所有相似元素并生成元素组。然后,用户可以使用设计器中的组件对元素组进行批量操作,从而简化RPA中对相似元素的操作流程。
图2展示了RPA设计器中打开拾取模式,系统获取元素和元素所在窗口的属性和图像信息,然后按拾取规则与键盘鼠标进行交互,完成拾取多个元素的整个流程。元素批量拾取功能界面主要包括:①拾取操作状态提示窗口;②系统自动拾取目标元素框选标记;③鼠标位置获取,及当前拾取规则下,鼠标所选元素信息提示;④用户手动拾取目标元素,采用虚线框选标记;具体拾取流程如下:
1.用户通过点击拾取拾取。
2.后端启动融合拾取服务,用于通过系统、代码库的图形接口获取元素属性。通过解析界面元素图像,进行CV图像相似度及含义识别。
3.后端加载拾取规则配置文件,默认规则为单个元素拾取模式,及基于元素属性和图形相似度综合判断。
4.后端启动键盘、鼠标事件监听,用于元素拾取规则通过快捷键切换、元素和元素所在窗口通过鼠标所在位置定位、鼠标左键及快捷键拾取元素交互操作。
5.后端启动拾取模式图形界面库。用于在屏幕中显示拾取交互提示:界面类型(桌面、窗口、网页)元素拾取模式(单元素拾取、批量拾取)、拾取规则(元素属性+图形相似度、元素属性、图形相似度)、拾取操作快捷键。拾取目标标识:元素选取框(系统自动框选、手动框选)、元素信息(元素类型:输入框、按钮等,元素图形相似度百分比)。拾取模式进入/退出提示。
6.以上后端进程服务启动成功,前端反馈进入拾取模式。
7.用户通过快捷键,将拾取模式从单个元素拾取切换为批量拾取。
8.系统实时获取鼠标位置信息,并检测所在位置是否存在元素。
9.如果存在元素,如桌面中某个文件夹图标。则系统自动获取文件夹图标的元素属性、元素图像、元素所在窗口(桌面)、元素所在窗口(桌面)中其他元素属性和图像信息。并在前端对当前文件夹元素进行框选和标识其类型。
10.系统根据当前文件夹元素属性和图像信息,对比桌面中所有其他图标元素,从元素属性(元素标识、类型、可见性等)、元素图像相似度和图像算法模型判断是否存在相同元素。
11.如果存在多个相同文件夹元素,则自动框选桌面上所有文件夹元素。
12.如果系统自动框选结果不符合用户预期,则用户可通过切换元素拾取规则(元素属性+图形相似度、元素属性、图形相似度),确保系统正确识别。
13.如果切换元素拾取规则,系统仍无法正确框选目标元素。用户可以手动操作对系统所框选错误的元素取消选择,或框选遗漏元素补充选择。
14.系统对用户取消框选和补充框选的元素进行记录,保存到AI模型学习数据库,便于后续优化。
15.将所有元素信息汇总,生成元素组,以供元素类组件读取。
本发明的创新点如下:
1.图形界面元素拾取模式:通过在设计器中引入元素批量拾取模式,用户可以通过图形界面操作鼠标和键盘,轻松地拾取多个元素。传统方法用户只能每次拾取单个元素,本发明技术方案通过直观的界面引导交互,提供了更友好的拾取体验。
2.元素属性解析批量拾取:利用系统提供的图形接口和Python图形库,获取目标元素的属性信息,并用简单易理解的展示属性勾选配置窗口,根据配置属性筛选匹配界面中所有属性相同元素,进行标识和拾取。传统方法用户只能每次拾取单个元素,本发明技术方案提供了简单易用的元素属性批量拾取体验。
3.智能化元素相似度匹配批量拾取:利用元素属性分析和CV技术,实现了对系统、应用界面或网页中目标元素的图像识别和相似度匹配,并自动拾取界面中所有其他相似的元素,并展示拾取元素图像的相似度。且支持用户手动调整相似度范围。本发明技术方案通过解析元素属性或识别元素的形状、颜色等特征,能够更准确地识别和拾取多个相似元素。
4.智能化元素含义匹配批量拾取:利用AI算法,实现了智能化的元素拾取功能。通过用户手动选择目标元素,系统会自动匹配历史学习数据中的元素图像含义,能够智能地识别和拾取其他相似含义的元素,提高了操作的智能化程度。
5.元素拾取规则调整:用户可以基于元素属性、元素图像相似度、元素图形含义基础上,对系统自动的拾取结果进一步调整,如选定屏幕指定区域、相似度数值范围、指定具体元素含义(如界面中的输入框、确认按钮、文件夹等条件)进行识别,创建泛化拾取规则,以适应更多业务场景。
6.元素组批量操作:本发明通过解析目标元素所在界面或窗口中的其他所有元素,将相似的元素组合成一个元素组。用户可以通过组件对元素组进行批量操作,避免了传统方法中循环操作的繁琐和耗时。这种批量操作的方式大大提高了操作的效率和灵活性。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (10)

1.用于RPA屏幕界面元素批量拾取的方法,其特征在于,包括如下步骤;
S1,对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;
S2,通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;所述拾取规则包括元素属性解析模式、元素相似度模式和元素图像含义模式;
S3,按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。
2.根据权利要求1所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S1中,所述对应用界面或网页中的所有元素进行属性识别包括如下步骤:
S11,使用UI元素选择器获取元素的属性信息。
3.根据权利要求2所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S1中,所述通过计算机视觉技术进行元素图像识别包括如下步骤:
S12,获取应用界面或网页的截图;
S13,对截图进行图像处理和分析,包括边缘检测、颜色分析和形状匹配;
S14,使用图像处理算法和模式识别技术,对处理后的图像进行元素识别和匹配,并获取窗口信息;所述窗口信息包括窗口句柄、窗口标题和类名和窗口层级关系。
4.根据权利要求3所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S1还包括如下步骤:
S15,使用匹配算法和相似度度量来确定识别出的元素是否相似或属于同一类别;所述匹配算法包括字符串匹配算法或基于特征的匹配算法;所述相似度度量则根据元素的属性进行定义,包括位置相似度、大小相似度和颜色相似度。
5.根据权利要求1所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S1中,元素属性包括元素的标识符、位置、大小、文本内容、类别和标签。
6.根据权利要求1所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S2包括如下步骤:
S21,通过设计器中监听鼠标位置的变化,并实时获取当前鼠标所在的屏幕坐标;当用户点击鼠标或触发键盘操作时,系统记录下当前的鼠标位置作为元素的目标位置,并根据目标位置,使用元素识别匹配技术识别所述目标位置上的元素;
S22,用户通过界面上的按钮或快捷键,进行不同拾取规则的切换,并选择需要的拾取规则。
7.根据权利要求6所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S22中,当用户选择拾取规则中的元素属性解析模式时,系统解析目标位置上元素的属性,并且提供属性筛选匹配配置窗口;系统将解析出的属性与其余元素进行比对,确定是否存在与当前目标位置上元素相似的其他元素。
8.根据权利要求6所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S22中,当用户选择元素相似度模式时,系统要求用户手动选择2-3个作为样本的元素;系统使用计算机视觉技术分析用户所选元素图形的相似部分,并识别目标窗口范围中其他相似度一致的元素;最后使用相似度匹配的算法,确定其他元素与样本元素的相似程度;
所述相似度匹配的算法包括图像特征提取和相似度度量方法。
9.根据权利要求6所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,步骤S22中,当用户选择元素图像含义模式时,系统在用户拾取元素后,根据先前的学习数据判断被拾取元素的图像含义;最后系统自动获取界面中所有同类型的元素,用于用户进行批量拾取操作。
10.用于RPA屏幕界面元素批量拾取的系统,用于实现权利要求1-9任一项所述的用于RPA屏幕界面元素批量拾取的方法,其特征在于,所述用于RPA屏幕界面元素批量拾取的系统包括;
元素识别匹配模块,用于对应用界面或网页中的所有元素进行属性识别以及通过计算机视觉技术进行元素图像识别;
元素交互拾取模块,用于通过鼠标位置并结合键盘操作的方式,确定界面中的目标元素,同时提供拾取规则供用户选择进行交互拾取;
相似元素解析模块,用于按照用户选择的拾取规则,在界面指定的区域中批量拾取同类型元素,并生成元素组。
CN202410067158.4A 2024-01-17 2024-01-17 用于rpa屏幕界面元素批量拾取的方法及系统 Active CN117573006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410067158.4A CN117573006B (zh) 2024-01-17 2024-01-17 用于rpa屏幕界面元素批量拾取的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410067158.4A CN117573006B (zh) 2024-01-17 2024-01-17 用于rpa屏幕界面元素批量拾取的方法及系统

Publications (2)

Publication Number Publication Date
CN117573006A true CN117573006A (zh) 2024-02-20
CN117573006B CN117573006B (zh) 2024-05-10

Family

ID=89896012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410067158.4A Active CN117573006B (zh) 2024-01-17 2024-01-17 用于rpa屏幕界面元素批量拾取的方法及系统

Country Status (1)

Country Link
CN (1) CN117573006B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118069000A (zh) * 2024-03-06 2024-05-24 杭州实在智能科技有限公司 基于rpa的数据可视化采集和处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN113391871A (zh) * 2021-08-17 2021-09-14 杭州实在智能科技有限公司 一种rpa元素智能融合拾取的方法与系统
US20220083181A1 (en) * 2020-09-14 2022-03-17 UiPath, Inc. User interface (ui) mapper for robotic process automation
CN114461122A (zh) * 2022-04-12 2022-05-10 杭州实在智能科技有限公司 Rpa元素拾取同屏切换方法及系统
CN114691265A (zh) * 2022-03-07 2022-07-01 达而观信息科技(上海)有限公司 一种软件界面结构化元素的批量抓取方法
CN114707051A (zh) * 2022-02-18 2022-07-05 珠海紫讯信息科技有限公司 一种Web网页相似元素查找方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220083181A1 (en) * 2020-09-14 2022-03-17 UiPath, Inc. User interface (ui) mapper for robotic process automation
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN113391871A (zh) * 2021-08-17 2021-09-14 杭州实在智能科技有限公司 一种rpa元素智能融合拾取的方法与系统
CN114707051A (zh) * 2022-02-18 2022-07-05 珠海紫讯信息科技有限公司 一种Web网页相似元素查找方法及系统
CN114691265A (zh) * 2022-03-07 2022-07-01 达而观信息科技(上海)有限公司 一种软件界面结构化元素的批量抓取方法
CN114461122A (zh) * 2022-04-12 2022-05-10 杭州实在智能科技有限公司 Rpa元素拾取同屏切换方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIN, JIBIN ET AL.: "The Study of A Novel Target Selection Technique in Pen-based Interfaces", 2012 7TH INTERNATIONAL CONFERENCE ON COMPUTING AND CONVERGENCE TECHNOLOGY (ICCCT2012), 31 December 2012 (2012-12-31), pages 21 - 26, XP032421984 *
许欢庆, 赵晨: "面向对象的图形元素拾取技术", 西北纺织工学院学报, no. 02, 30 June 1999 (1999-06-30), pages 220 - 223 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118069000A (zh) * 2024-03-06 2024-05-24 杭州实在智能科技有限公司 基于rpa的数据可视化采集和处理方法及系统

Also Published As

Publication number Publication date
CN117573006B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112101357B (zh) 一种rpa机器人智能元素定位拾取方法及系统
AU2019355933B2 (en) Software testing
CN113391871B (zh) 一种rpa元素智能融合拾取的方法与系统
CN117573006B (zh) 用于rpa屏幕界面元素批量拾取的方法及系统
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
Zhao et al. ActionNet: Vision-based workflow action recognition from programming screencasts
CN113255614A (zh) 一种基于视频分析的rpa流程自动生成方法与系统
CN107092913A (zh) 一种喷印字符在线识别及交互式后处理系统及方法
CN115964027B (zh) 基于人工智能的桌面嵌入式rpa流程配置系统及方法
US20180276471A1 (en) Information processing device calculating statistical information
CN113538631A (zh) 通过基于用户输入所生成的人工智能模型来生成虚拟缺陷图像的计算机程序、方法和装置
CN116168405B (zh) 通用型rpa复选框操作组件的构建方法及系统
CN115268719B (zh) 一种定位界面上目标元素的方法、介质及电子设备
Sun et al. Ui components recognition system based on image understanding
CN115658523A (zh) 一种人机交互界面的自动控制及测试方法和计算机设备
CN110263608B (zh) 基于图像特征空间变阈值度量的电子元器件自动识别方法
Jaganeshwari et al. an Automated Testing Tool Based on Graphical User Interface With Exploratory Behavioural Analysis
CN115546824B (zh) 禁忌图片识别方法、设备及存储介质
CN114430823A (zh) 软件知识捕捉方法、装置和系统
CN115631374A (zh) 控件操作方法、控件检测模型的训练方法、装置和设备
CN116700583A (zh) 一种流程自动化的实现方法、装置和存储介质
CN114332675A (zh) 一种面向增强现实辅助装配的零件拾取感知方法
CN115917446A (zh) 用于机器人过程自动化的系统和方法
Singh et al. Surface automation-interacting with applications using black box approach
Pavoni et al. A Validation Tool For Improving Semantic Segmentation of Complex Natural Structures.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant