CN115964027A - 基于人工智能的桌面嵌入式rpa流程配置系统及方法 - Google Patents
基于人工智能的桌面嵌入式rpa流程配置系统及方法 Download PDFInfo
- Publication number
- CN115964027A CN115964027A CN202310253156.XA CN202310253156A CN115964027A CN 115964027 A CN115964027 A CN 115964027A CN 202310253156 A CN202310253156 A CN 202310253156A CN 115964027 A CN115964027 A CN 115964027A
- Authority
- CN
- China
- Prior art keywords
- rpa
- action
- module
- user
- desktop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明属于RPA流程配置技术领域,具体涉及基于人工智能的桌面嵌入式RPA流程配置系统及方法。系统包括:桌面嵌入式交互模块,用于为用户提供面嵌入式RPA流程配置交互功能;智能屏幕理解模块,用于实时分析桌面元素并理解各个元素间的关系与业务含义;智能动作推荐模块,用于根据所选目标元素推荐当前适用的RPA动作。本发明具有能够降低用户在使用RPA前的学习难度,提升RPA的业务场景使用范围以及提高RPA流程搭建作业效率的特点。
Description
技术领域
本发明属于RPA流程配置技术领域,具体涉及基于人工智能的桌面嵌入式RPA流程配置系统及方法。
背景技术
机器人流程自动化技术(Robotic Process Automation, 后简称RPA)是一种用于企业规则化、重复性工作替代的有效技术,目前正广泛应用于各行各业的财务、税务、审批、风控、运营、物流、广告等业务中。RPA技术提供了可视化的流程编辑器,开发人员可以在流程编辑器上设计和配置出能够在企业业务系统中自动执行的流程脚本;在脚本执行过程中,则通过模拟键盘、鼠标操作、调用操作系统接口、分析网页结构等手段,来模拟人类的按钮点击、键盘输入、文件创建、网页跳转、逻辑判断等动作。
RPA技术的核心是对计算机软件界面上的各类元素,例如按钮、文字、搜索框、输入框、可操作区域等,进行精确的定位(或叫拾取)和操作,进而完成流程执行所需的点击、跳转、输入、复制、粘贴等动作。传统的RPA元素拾取技术是基于操作系统提供的指令接口,或者基于网页的结构解析来完成的。例如对于一般的网页元素拾取,首先会根据其超文本标记语言(Hyper Text Markup Language, 后简称HTML)解析为不同的块、标签或文本,再获取这些元素的位置、内容、索引和层次关系,从而实现各类操作,如点击按钮、点击搜索框并输入文字、移动到某张图片上等。然而在RPA的实际场景中,往往有一些应用软件、远程桌面等,无法通过系统指令或代码解析的方式来定位到元素,比如在遇到远程桌面的场景时,RPA软件所能获取到的仅仅是所呈现的一张桌面镜像的图片,在这种情况下就需要采用其他技术来实现元素拾取。当前比较流行的是基于计算机视觉(Computer Vision, 后简称CV)技术实现的元素拾取,通过将界面上的各类元素作为图片中的一个个目标,借助CV领域的目标检测技术和光学字符识别(Optical Character Recognition, 后简称OCR)技术定位和识别出每个元素的位置和类型,进而支持一系列的移动、点击、输入等操作。
现有的RPA流程搭建技术主要有两种:
一种,是用鼠标拖拽或双击的方式将代码封装好的组件或指令从组件库或指令集添加到列表中,这种技术要求作业人员预先掌握大量的组件或指令知识和前后依赖知识,要求作业人员必须具备较高的RPA流程开发熟练程度和知识技能水平。
另一种,是经由监控鼠标和键盘这两个输入端在操作页面上的操作过程,记录操作,并对鼠标和键盘操作记录生成与之对应的指令的方式。然而这种方式的缺陷在于,录制操作环境的不可控因素以及录制内容与生成结果过于单一,导致录制生成的结果不可用,需要经过巨大的人工修正工作。具体来说:
1.鼠标拖拽或双击添加组件、动作的方式对作业人员技术水平要求过高
这种流程搭建技术是目前主流的RPA流程开发方式;通过对封装组件、指令的鼠标拖拽或双击添加到列表的流程搭建传统方式,这种方式要求流程搭建人员具备一定程度的编码与业务逻辑知识,要求作业人员能必须熟悉掌握既有的数百个组件或指令的功能、适用范围与限制,并且能够基于既有的组件或指令,将一系列业务操作步骤依次拆解成一个个具有前后逻辑关系的组件或指令序列,这要求作业人员必须经过较长时间的知识学习与初阶编程知识基础,并不利于绝大多数普通的用户快速使用。
2.流程录制的方法输出的录制结果兼具不可控与不稳定问题
通过监控鼠标和键盘这两个输入端在操作页面上的操作过程并对鼠标和键盘操作记录生成与之对应的指令的方式。其直观缺陷在于,在实际作业过程中,具体作业的网络环境、硬件性能等环境因素往往不完全可控,当操作网络卡顿导致web端页面载入缓慢时,即有极大可能产生被动误点而导致生成误触对应的冗余组件或指令;同理,硬件卡顿时亦会生成冗余组件或指令。此外,当外部环境相对稳定时,又要求录制作业人员的录制经验均稳定的情况下在录制过程中不能出现诸如:点击空白区域、点击输入框焦点、右键菜单点击等符合操作习惯但与业务流程无关的冗余动作,以防止过多冗余组件或指令的生成,从而影响流程的可用性和效率。从录制结果可用性来看,上述稳定性与可控性问题亦流程录制方法的一大显著缺陷。
另一方面,这种监控输入端的方式仅监控鼠标和键盘的输入动作并生成点击和输入两种单一组件或指令,远远不足以支持RPA流程执行一个完整流程所需的基本的必要组件或指令,导致虽然能成功生成结果但生成的结果往往不可用。
3.流程录制方法生成的RPA流程动作过于单一,缺少业务流程的其他必备要素
在实际部署场景中,绝大多数业务流程往往包含多系统、多窗口、多类型输入的需求,这不仅需要执行鼠标、键盘的输入动作,还需要对各类界面元素的识别、拾取、修改、校验乃至循环、等待、判断等复杂的处理动作。流程录制的方法仅通过监控鼠标和键盘的输入动作生成点击和输入指令,导致作业人员仅能使用此种方式录制业务流程中的少量点击和输入,而其它的界面操作与逻辑操作不得不返回组件或指令拖拽添加的传统模式搭建。例如,用户鼠标右键点击位于桌面的.docx文档,在菜单中找到并点击复制,该案例中上述流程录制方式会记录为“鼠标右键点击”、“鼠标左键点击”两个动作,而实际用户的真实意图是需要把该文件复制或添加到windows剪切板。此时的操作使得作业人员不得不在两种模式下来回切换,同时又需要额外花费时间精力优先校对流程录制生成的冗余组件或指令,反而大幅降低了RPA流程搭建的作业效率。
因此,设计一种能够降低用户在使用RPA前的学习难度,提升RPA的业务场景使用范围以及提高RPA流程搭建作业效率的基于人工智能的桌面嵌入式RPA流程配置系统及方法,就显得十分重要。
发明内容
本发明是为了克服现有技术中,现有的RPA流程搭建技术存在前期准备成本高、录制结果不可控、不稳定以及搭建作业效率低下的问题,提供了一种能够降低用户在使用RPA前的学习难度,提升RPA的业务场景使用范围以及提高RPA流程搭建作业效率的基于人工智能的桌面嵌入式RPA流程配置系统及方法。
为了达到上述发明目的,本发明采用以下技术方案:
基于人工智能的桌面嵌入式RPA流程配置系统,包括:
桌面嵌入式交互模块,用于为用户提供面嵌入式RPA流程配置交互功能;
智能屏幕理解模块,用于实时分析桌面元素并理解各个元素间的关系与业务含义;
智能动作推荐模块,用于根据所选目标元素推荐当前适用的RPA动作。
作为优选,所述桌面嵌入式交互模块包括:
RPA动作浮窗,用于管理当前RPA流程中已添加的所有RPA动作;
顶部功能浮窗,用于实现对当前RPA流程的全局功能操作;
RPA动作推荐窗,用于当用户选中目标元素时,自动在所述目标元素附近展示。
作为优选,所述全局功能操作包括:
发布流程包、导出流程包、切换或新增逻辑流程块、其他全局功能设置或直接切换返回RPA组件或指令拖拽式RPA配置界面中;
其中,所述其他全局功能设置包含IPA运行所需的工具插件管理、软件常规设置、快捷键设置、IPA编辑器设置、流程执行设置和软件的基础全局设置;IPA表示智能流程自动化。
作为优选,所述智能屏幕理解模块包括:
融合拾取模块,用于对屏幕的目标元素进行检测和定位,通过采用目标检测技术,把屏幕上的各个目标元素作为一个个图像中的目标进行检测,并用矩形框标定出所述目标的位置,同时将对应目标的视觉信息通过截图的方式进行传递;
目标元素识别模块,用于接收融合拾取模块传递的视觉信息并采用人工智能计算和接口类型判断的方法输出对应目标元素的类型、位置和场景信息。
作为优选,所述智能屏幕理解模块还包括:
动态元素匹配模块,用于在目标元素的外观发生改变时辅助判断目标元素的类型。
作为优选,所述智能动作推荐模块包括:
动作搜索模块,用于根据用户的检索关键词与预先训练好的同义词与专属名词关系,输出RPA动作检索结果;
AI动作预测模块,用于计算目标元素与RPA组件关系映射规则以及计算训练好的机器学习模型;
RPA动作推荐模块,用于根据目标元素与RPA组件关系映射规则的计算以及训练好的机器学习模型的计算,输出当前目标元素的可用RPA动作列表;
结果召回模块,用于实时计算所述可用RPA动作列表中各个可用RPA动作的召回权重,召回权重排名前6的可用RPA动作传递至桌面嵌入式交互模块展示并提供给用户选用;召回输出排名前20的可用RPA动作作为替补动作备用。
作为优选,所述RPA动作推荐模块中,所述机器学习模型用于收集目标元素信息和对应的RPA动作数据,并经过标注人员打标后进行训练。
本发明还提供了基于人工智能的桌面嵌入式RPA流程配置方法,包括如下步骤;
S1,用户打开基于人工智能的桌面嵌入式RPA流程配置系统,新建流程并开始流程配置;所述智能屏幕理解模块开始实时运行,实时分析并理解用户桌面元素;
S2,当用户鼠标选中一个具体页面元素目标时,所述桌面嵌入式交互模块向后端发起推荐请求,处于后台的智能屏幕理解模块和智能动作推荐模块开始实时工作;
S3,当用户鼠标悬停于一个具体页面元素目标时,将在所述元素目标附近打开RPA动作推荐窗口,并展示智能动作推荐模块返回的RPA动作;
S4,用户点击选择一个RPA动作,所述RPA动作将被添加到RPA动作浮窗中,并携带目标元素的定位信息与RPA动作参数;
S5,当步骤S3中,智能推荐返回的推荐结果不满足用户需求时,删除推荐的RPA动作并重新获取一个新推荐的RPA动作;
S6,当步骤S3和步骤S5中,推荐结果均不满足用户需求时,用户通过动作搜索模块,搜索并点击想要添加的RPA动作;
S7,用户点击顶部功能浮窗中的发布按钮,将已配置的RPA流程保存为流程包。
作为优选,步骤S2还包括如下步骤:
S21,智能屏幕理解模块实时分析并捕获当前的各类桌面元素,同时实时分析各类桌面元素的定位信息和模态信息,并将目标元素识别结果暂存并共享给智能动作推荐模块;
S22,当智能动作推荐模块收到推荐请求时,智能动作推荐模块开始获取当前鼠标选中的目标元素及目标元素的类型、位置和场景信息,并抽取目标元素的多模态特征,再经过AI计算后召回当前目标元素的可用的RPA动作作为推荐结果;
S23,将召回的可用的RPA动作按召回权重排序,同时将结果暂存,并返回给桌面嵌入式交互模块。
本发明与现有技术相比,有益效果是:(1)本发明采用C#、Python及electron框架与人工智能等多种技术的有机结合,构建了全新的桌面嵌入式RPA流程搭建方法和系统中各个模块的基础架构;(2)本发明的交互设计与技术框架设计,使得RPA流程搭建从原有的CUI(Command&Component User Interface)指令行、组件行堆叠的逻辑式人机交互形态,进化为更易使用、易学习的GUI(Graphical User Interface)图形化、桌面嵌入式的全新交互形态,极大简化了用户对RPA流程搭建的认知成本和学习成本;(3)本发明提出了基于深度学习人工智能技术的智能屏幕理解、智能动作推荐模块化技术框架,结合RPA元素智能融合拾取技术,使得作业人员在RPA流程搭建时无需提前大规模学习数百个组件或指令的适用范围、配置方法、依赖关系等复杂知识,而利用本发明所述方法和系统搭建流程时,用户只需选择要操作的目标界面元素,随后即经由智能屏幕理解模块实时分析理解用户界面元素,并由智能推荐模块针对用户选择的目标界面元素自动给出推荐的RPA动作,所有过程均在桌面端完成而无需额外打开或频繁切换窗口;一方面,本发明的桌面嵌入式交互无需占用用户窗口,显著提升了RPA流程的搭建效率,显著提升了用户交互体验;另一方面,本发明结合深度神经网络推荐算法等人工智能技术,针对不同界面元素给出精准的RPA动作推荐,使得用户在使用RPA软件搭建流程前无需预先经过大量组件或指令使用方式和知识的学习;(4)本发明所述方法和系统,极大降低了用户在使用RPA前的学习难度,显著提升了RPA的业务场景使用范围,扩展了潜在用户群范围,使得RPA及RPA流程搭建软件的适用人群进一步扩大。
附图说明
图1为本发明中基于人工智能的桌面嵌入式RPA流程配置系统的一种总体功能架构示意图;
图2为本发明中桌面嵌入式交互模块的一种界面功能示意图;
图3为本发明中智能屏幕理解模块的一种功能示意图;
图4为本发明中智能动作推荐模块的一种功能示意图;
图5为本发明实施例所提供的基于人工智能的桌面嵌入式RPA流程配置方法的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
如图1所示的基于人工智能的桌面嵌入式RPA流程配置系统,包括:
桌面嵌入式交互模块,用于为用户提供面嵌入式RPA流程配置交互功能;
智能屏幕理解模块,用于实时分析桌面元素并理解各个元素间的关系与业务含义;
智能动作推荐模块,用于根据所选目标元素推荐当前适用的RPA动作。
具体的,桌面嵌入式交互模块,是本发明主要用户端功能模块。如图2所示,桌面嵌入式交互模块主要包括:①RPA动作浮窗;②顶部功能浮窗;③RPA动作推荐窗。当用户进入本发明所述的系统中开始配置RPA流程时,打开RPA流程后会自动返回到当前桌面,并在桌面中持续展示RPA动作浮窗与顶部功能浮窗,同时开始调用智能屏幕理解模块,实时识别理解桌面所有元素,当用户暂停或流程配置完成时结束识别。在进入RPA流程配置时,RPA动作推荐窗不会一直显示在桌面中,除非用户鼠标选中某目标元素或以其他方式主动触发。
此外,RPA动作浮窗主要用于管理当前RPA流程中已添加的所有RPA动作,如图2中的④即是一个已添加的RPA示例,该动作被成功添加时,动作执行所必须的各项元素目标信息与动作操作信息已被自动填入,无需人工二次填写,当需要修改某参数时,可以通过双击打开或点击修改按钮打开动作配置窗口修改具体参数。用户亦可在已添加动作列表中插入并搜索某一具体RPA动作,或通过鼠标拖拽改变动作在列表中的顺序及折叠包含关系。在RPA动作浮窗中,用户可以通过点击两个动作之间的「+」号按钮实现逻辑类功能组件的添加,例如判断、循环、异常处理等,实现复杂逻辑的添加和生成;
此外,用户可以通过顶部功能浮窗,实现对当前RPA流程的全局功能操作,如发布、导出流程包、切换或新增逻辑流程块、其他全局功能设置或直接切换返回传统的组件或指令拖拽式RPA配置界面中。
此外,当用户鼠标悬停于某一目标元素并停留若干秒(可配置)后,将自动在目标元素附近展示RPA动作推荐窗。此时,桌面嵌入式交互模块将向智能动作推荐模块发出推荐请求并将智能屏幕理解模块解析得到的当前元素的元素类型、窗口关系、区域元素关系等相关定位信息作为入参共享给智能动作推荐模块,当收到返回的推荐结果数据时,该结果将展示在RPA动作推荐窗中,如图2中⑥所示即是一组典型的RPA动作推荐结果示例。用户点击所需的RPA动作,即可将其添加到RPA动作浮窗中。
此外,当用户认为推荐结果明显不准确时,可以在推荐结果图标中选择【不准确】,如图2中⑦所示,此时该结果将自动删除并替换为新的推荐结果。同时当用户通过位于RPA动作推荐窗的搜索框,如图2中⑤所示,搜索并选择某一RPA动作时,该动作亦会成功被将其添加到RPA动作浮窗中。
智能屏幕理解模块,如图3所示,是本发明的重要后台模块之一,也是用于实时分析桌面元素,理解元素间关系与业务含义的AI模块之一。智能屏幕理解模块将基于深度神经网络技术的智能元素融合拾取技术以及多种可拓展的复杂AI模型系统封装,成为整个框架体系的核心模块。智能屏幕理解模块主要用于分析并理解界面元素。当开始配置RPA流程时,智能屏幕理解模块将被激活并开始实时分析、理解屏幕界面中实时出现的各类界面元素。
首先智能屏幕理解模块中的智能融合拾取模块,将对屏幕的目标元素进行检测和定位,通过采用计算机视觉技术中的目标检测技术,把屏幕上的各个目标元素作为一个个图像中的目标进行检测(例如图2中的“微信图标”),并用矩形框标定出该目标的位置,同时将其视觉信息通过截图的方式传递给目标元素识别模块;
目标元素识别模块接收屏幕视觉信息并输出该目标元素的类型,在目标元素识别模块中,综合采用人工智能技术和接口类型判断的方法,输出目标元素类型、位置、场景等信息;其中动态元素匹配模块可以在元素的外观发生改变时辅助判断元素类型。
相比于智能融合拾取技术,智能屏幕理解模块不仅能无差别地识别屏幕,还能进一步做到智能的理解屏幕、精准的操作预测和自动的算法优化。最终帮助用户实现更精准、无差别的选择任意界面元素,同时获取到足够丰富的数据以支持智能组件推荐的计算需求。
智能动作推荐模块,如图4所示,是本发明另一重要后台模块,也是用于根据所选目标界面元素及相关数据,实时推荐适合当前目标界面元素使用的RPA动作的AI模块。智能动作推荐模块基于深度神经网络技术,并将其封装成整个框架体系的核心模块。智能动作推荐模块能基于目标元素图片、索引、定位信息、窗口信息、业务前后操作记录等各类多源、异构、多模态数据进行综合分析计算。输出当前目标元素在当前操作类型、当前窗口、当前业务需求、当前场景、当前操作环境下最合适的若干个RPA动作(召回数量及阈值可配置)。
其中智能动作推荐模块,采用元素与组件关系映射规则+机器学习算法的方式共同推荐出针对当前目标界面元素适用的RPA动作。首先,智能动作推荐模块实时接收到智能屏幕理解模块的输出数据,包括当前界面的各个元素信息、多模态特征数据与鼠标选择的当前目标元素相关信息。上述数据传递给智能动作推荐模块后,经过元素与组件关系映射规则的计算,(例如,当用户鼠标选择网页中的输入框时,智能动作推荐模块将获取到该网页的包含但不仅限于该网页的URL信息、目标输入框的Html类型和标签及全部编码源码、输入框完整DIV层级结构信息、icon及其他图像数据等信息,并与预先定义好的组件关系映射规则,即预设在系统中的元素-组件关系映射规则表,实时比对,当比对发现URL属于已定义的网站或输入框类型class属于已定义input类型时即视为比对成功,成功后将按照定义好的元素类别关系进行映射计算,输出当前目标元素的可用RPA动作列表)同时,训练好的机器学习模型训练好的机器学习模型(即预先训练一个分类模型,收集标注人员打标后的数据,包括但不仅限于再不同场景和环境下的RPA流程包、RPA动作配置信息、RPA动作上下文信息、RPA动作与界面元素正例的对应关系等,用于训练机器学习初始模型,支持RPA动作列表的计算,该模型在实际使用时能不断收集真实使用时的目标元素信息和对应的RPA动作数据、上下文数据,并已该数据作为增量输入数据供初始机器学习模型进行在线学习自我迭代,不断优化模型表现)的计算并输出当前目标元素的可用RPA动作列表,该机器学习模型以元素相关信息为输入,模型计算后输出该元素对应的RPA动作列表分类结果。
上述经过元素-组件关系映射规则和机器学习算法输出的可用动作列表数据,将共同输入作为结果召回模块的输入数据,经过结合各类特征为依据,实时计算各个可用RPA动作的召回权重,召回输出排名TOP6的RPA动作传递至桌面嵌入式交互模块展示并提供给用户选用;召回输出TOP20可用RPA动作作为替补动作备用。
此外,用户主动输入关键词检索RPA动作时,动作搜索模块,将根据用户的检索关键词与预先训练好的同义词与专属名词关系,输出RPA动作检索结果。
在用户使用RPA配置流程中的关键操作数据,包括但不仅限于RPA动作搜索记录、RPA动作添加记录、推荐结果选择记录、不准确选择记录等操作数据,均会被作为智能动作推荐模块的增量训练数据用于训练模型。
另外,本发明还提供了基于人工智能的桌面嵌入式RPA流程配置方法,包括如下步骤;
S1,用户打开基于人工智能的桌面嵌入式RPA流程配置系统,新建流程并开始流程配置;所述智能屏幕理解模块开始实时运行,实时分析并理解用户桌面元素;
S2,当用户鼠标选中一个具体页面元素目标时,所述桌面嵌入式交互模块向后端发起推荐请求,处于后台的智能屏幕理解模块和智能动作推荐模块开始实时工作;
S3,当用户鼠标悬停于一个具体页面元素目标时,将在所述元素目标附近打开RPA动作推荐窗口,并展示智能动作推荐模块返回的RPA动作;
S4,用户点击选择一个RPA动作,所述RPA动作将被添加到RPA动作浮窗中,并携带目标元素的定位信息与RPA动作参数;
S5,当步骤S3中,智能推荐返回的推荐结果不满足用户需求时,删除推荐的RPA动作并重新获取一个新推荐的RPA动作;
S6,当步骤S3和步骤S5中,推荐结果均不满足用户需求时,用户通过动作搜索模块,搜索并点击想要添加的RPA动作;
S7,用户点击顶部功能浮窗中的发布按钮,将已配置的RPA流程保存为流程包。
其中,步骤S2还包括如下步骤:
S21,智能屏幕理解模块实时分析并捕获当前的各类桌面元素,同时实时分析各类桌面元素的定位信息和模态信息,并将目标元素识别结果暂存并共享给智能动作推荐模块;
S22,当智能动作推荐模块收到推荐请求时,智能动作推荐模块开始获取当前鼠标选中的目标元素及目标元素的类型、位置和场景信息,并抽取目标元素的多模态特征,再经过AI计算后召回当前目标元素的可用的RPA动作作为推荐结果;
S23,将召回的可用的RPA动作按召回权重排序,同时将结果暂存,并返回给桌面嵌入式交互模块。
基于本发明方案,如图5所示,展示了一个桌面嵌入式RPA流程搭建的一个典型操作流程示例,同时展示本发明的实施方案,及如何利用本发明所属方法和系统快速完成RPA流程搭建的交互细节:
1.用户需要先打开所述RPA流程配置系统,新建流程并开始流程配置。用户进入该界面时将会出现如图2中①、②两个桌面嵌入式浮窗。此时,屏幕理解模块开始实时运行,实时分析并理解用户桌面元素;
2.当用户鼠标选中某一个具体页面元素目标时,如桌面浏览器图标,交互模块会向后端发起推荐请求,此时处于后台各个模块即开始实时工作,即该系统的各个功能模块用以实现:
1)屏幕理解模块将实时分析并捕获到当前的各类桌面元素,并实时分析该目标的各类定位信息和模态信息并将目标元素识别结果(包括目标元素类型、位置等)暂存并共享给智能推荐模块;例如,当用户鼠标选择网页中的输入框时,屏幕理解模块将实施分析并捕获当前页面及目标元素的相关信息,包含但不仅限于该网页的窗口对象数据、目标软件进程信息、该网页的URL信息、目标输入框的Html类型和标签及全部编码源码、输入框完整DIV层级结构信息、icon及其他图像数据等数据,将其实时共享给智能动作推荐模块将进行计算。
2)当收到推荐请求时,智能推荐模块开始获取当前鼠标选中的目标元素及相关数据,并抽取其多模态特征,经过AI计算后召回当前目标可用的RPA动作作为推荐结果。例如,智能动作推荐收到推荐请求与该目标网页的数据后,将与预先定义好的组件关系映射规则实时比对,当比对发现URL属于已定义的网站或输入框类型class属于已定义input类型时即视为比对成功,成功后将按照定义好的元素类别关系进行映射计算,输出当前目标元素的可用RPA动作列表;同时,训练好的机器学习模型获取目标输入框编码及html标签数据,并结合当前流程中的RPA动作上下文信息、当前目标软件进程信息等进行分类计算,输出当前目标可用的RPA动作列表。
3)智能推荐模块将两份可用的RPA动作列表(上文提及的映射计算结果与机器学习模型计算结果)召回并将召回的RPA动作按相似度权重排序后将结果暂存,同时返回给交互模块;相似度权重计算可以结合组件使用频次、历史使用记录、预先设定的映射关系以及AI模型计算结果等。
3.当用户鼠标悬停于一个具体页面元素目标时,将在目标附近打开RPA动作推荐窗口,并展示智能推荐模块返回的RPA动作;
4.此时,用户点击选择一个RPA动作,该动作将被添加到RPA动作浮窗中,并携带目标元素的定位信息与RPA动作参数,此时用户已成功完成1个RPA动作的添加;
5.当在第3步时,智能推荐返回的推荐结果不满足用户需求时,可以针对推荐的RPA动作点击【不准确】按钮,此时该RPA动作将从推荐窗口中删除,并重新获取一个新推荐的RPA动作;
6.当在第3、5步时,推荐结果均不满足用户需求,用户可在动作推荐窗上方的搜索框中输入关键字,搜索并点击想要添加的RPA动作。此时该动作将被添加到RPA动作浮窗中,并携带目标元素的定位信息与RPA动作参数,此时用户已成功完成1个RPA动作的添加;
7.用户点击顶部灵动岛浮窗中的发布按钮,可将已配置的RPA流程保存为流程包。RPA流程包中包含了整个流程的代码信息和操作信息,其中每一步操作又包含要操作的目标元素信息或动作信息,当流程运行时,RPA软件获取待操作的元素信息并根据元素信息和RPA动作完成RPA流程的自动执行;
8.至此,利用本发明所述方法从RPA流程的打开、编辑到保存发布的一个典型的实施例流程即已完成。
本发明基于人工智能技术和多种技术框架的有机结合,实现了全新的RPA流程搭建配置方法和系统。本发明还提出了基于人工智能技术的智能屏幕理解、智能RPA动作推荐的AI+RPA模块化框架。一方面,用于构建支撑本发明所述方法的所有交互需求,另一方面,该创新框架性设计也为未来的迭代与技术优化提供了框架性拓展空间。
本发明的技术关键点和保护点如下:
1.本发明提出一种桌面嵌入式流程配置的新方法,区别于传统组件或指令拖拽方式与流程录制方式,新方法能够为用户提供全新的RPA流程配置交互方式与系统,极大提升开发效率,显著降低学习难度,降低对RPA作业人员的知识与技能要求。
2.本发明提出基于人工智能技术的组件推荐方法,区别于人工搜索关键字或拖拽选择组件的方式,新方法能实时分析用户的全局和局部界面元素,根据用户选择的目标元素,自动推荐当前场景下所选目标可适用的RPA动作,能帮助用户快速开始RPA流程配置,无需提前学习数百个组件的使用方法,显著提升用户体验,降低RPA软件使用难度;同时相比于现有的流程录制技术中用户只能选择点击、输入、滚动等少数几种动作或功能组件的缺陷,本发明综合考虑了用户操作动作、界面元素类型、业务场景等,进而实现更丰富、更合理的组件推荐。
3.本发明提出了一种智能理解屏幕信息的技术模块,通过结合人工智能技术,能够实现屏幕目标元素的精准定位和识别,从而判断鼠标所在的目标元素的类型、位置和场景等,为组件的精准推荐提供了准确的数据基础。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (9)
1.基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,包括:
桌面嵌入式交互模块,用于为用户提供面嵌入式RPA流程配置交互功能;
智能屏幕理解模块,用于实时分析桌面元素并理解各个元素间的关系与业务含义;
智能动作推荐模块,用于根据所选目标元素推荐当前适用的RPA动作。
2.根据权利要求1所述的基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,所述桌面嵌入式交互模块包括:
RPA动作浮窗,用于管理当前RPA流程中已添加的所有RPA动作;
顶部功能浮窗,用于实现对当前RPA流程的全局功能操作;
RPA动作推荐窗,用于当用户选中目标元素时,自动在所述目标元素附近展示。
3.根据权利要求2所述的基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,所述全局功能操作包括:
发布流程包、导出流程包、切换或新增逻辑流程块、其他全局功能设置或直接切换返回RPA组件或指令拖拽式RPA配置界面中;
其中,所述其他全局功能设置包含IPA运行所需的工具插件管理、软件常规设置、快捷键设置、IPA编辑器设置、流程执行设置和软件的基础全局设置;IPA表示智能流程自动化。
4.根据权利要求1所述的基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,所述智能屏幕理解模块包括:
融合拾取模块,用于对屏幕的目标元素进行检测和定位,通过采用目标检测技术,把屏幕上的各个目标元素作为一个个图像中的目标进行检测,并用矩形框标定出所述目标的位置,同时将对应目标的视觉信息通过截图的方式进行传递;
目标元素识别模块,用于接收融合拾取模块传递的视觉信息并采用人工智能计算和接口类型判断的方法输出对应目标元素的类型、位置和场景信息。
5.根据权利要求4所述的基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,所述智能屏幕理解模块还包括:
动态元素匹配模块,用于在目标元素的外观发生改变时辅助判断目标元素的类型。
6.根据权利要求1所述的基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,所述智能动作推荐模块包括:
动作搜索模块,用于根据用户的检索关键词与预先训练好的同义词与专属名词关系,输出RPA动作检索结果;
AI动作预测模块,用于计算目标元素与RPA组件关系映射规则以及计算训练好的机器学习模型;
RPA动作推荐模块,用于根据目标元素与RPA组件关系映射规则的计算以及训练好的机器学习模型的计算,输出当前目标元素的可用RPA动作列表;
结果召回模块,用于实时计算所述可用RPA动作列表中各个可用RPA动作的召回权重,召回权重排名前6的可用RPA动作传递至桌面嵌入式交互模块展示并提供给用户选用;召回输出排名前20的可用RPA动作作为替补动作备用。
7.根据权利要求6所述的基于人工智能的桌面嵌入式RPA流程配置系统,其特征在于,所述RPA动作推荐模块中,所述机器学习模型用于收集目标元素信息和对应的RPA动作数据,并经过标注人员打标后进行训练。
8.基于人工智能的桌面嵌入式RPA流程配置方法,应用于权利要求6 所述的基于人工智能的桌面嵌入式RPA 流程配置系统,其特征在于,包括如下步骤;
S1,用户打开基于人工智能的桌面嵌入式RPA流程配置系统,新建流程并开始流程配置;所述智能屏幕理解模块开始实时运行,实时分析并理解用户桌面元素;
S2,当用户鼠标选中一个具体页面元素目标时,所述桌面嵌入式交互模块向后端发起推荐请求,处于后台的智能屏幕理解模块和智能动作推荐模块开始实时工作;
S3,当用户鼠标悬停于一个具体页面元素目标时,将在所述元素目标附近打开RPA动作推荐窗口,并展示智能动作推荐模块返回的RPA动作;
S4,用户点击选择一个RPA动作,所述RPA动作将被添加到RPA动作浮窗中,并携带目标元素的定位信息与RPA动作参数;
S5,当步骤S3中,智能推荐返回的推荐结果不满足用户需求时,删除推荐的RPA动作并重新获取一个新推荐的RPA动作;
S6,当步骤S3和步骤S5中,推荐结果均不满足用户需求时,用户通过动作搜索模块,搜索并点击想要添加的RPA动作;
S7,用户点击顶部功能浮窗中的发布按钮,将已配置的RPA流程保存为流程包。
9.根据权利要求8所述的基于人工智能的桌面嵌入式RPA流程配置方法,其特征在于,步骤S2还包括如下步骤:
S21,智能屏幕理解模块实时分析并捕获当前的各类桌面元素,同时实时分析各类桌面元素的定位信息和模态信息,并将目标元素识别结果暂存并共享给智能动作推荐模块;
S22,当智能动作推荐模块收到推荐请求时,智能动作推荐模块开始获取当前鼠标选中的目标元素及目标元素的类型、位置和场景信息,并抽取目标元素的多模态特征,再经过AI计算后召回当前目标元素的可用的RPA动作作为推荐结果;
S23,将召回的可用的RPA动作按召回权重排序,同时将结果暂存,并返回给桌面嵌入式交互模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310253156.XA CN115964027B (zh) | 2023-03-16 | 2023-03-16 | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310253156.XA CN115964027B (zh) | 2023-03-16 | 2023-03-16 | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115964027A true CN115964027A (zh) | 2023-04-14 |
CN115964027B CN115964027B (zh) | 2023-06-30 |
Family
ID=85905179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310253156.XA Active CN115964027B (zh) | 2023-03-16 | 2023-03-16 | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964027B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128056A (zh) * | 2023-04-18 | 2023-05-16 | 安徽思高智能科技有限公司 | 一种面向rpa的多模态交互实体对齐方法 |
CN117311798A (zh) * | 2023-11-28 | 2023-12-29 | 杭州实在智能科技有限公司 | 基于大语言模型的rpa流程生成系统及方法 |
CN117608565A (zh) * | 2024-01-23 | 2024-02-27 | 杭州实在智能科技有限公司 | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2991005A1 (en) * | 2014-08-26 | 2016-03-02 | Mu Sigma Business Solutions Pvt. Ltd. | Systems and methods for creating and evaluating experiments |
CN106897067A (zh) * | 2017-02-26 | 2017-06-27 | 广州衡昊数据科技有限公司 | 一种基于人机交互技术建模的方法和专家系统 |
CN111158651A (zh) * | 2019-12-26 | 2020-05-15 | 第四范式(北京)技术有限公司 | 构建人工智能应用的方法、装置及系统 |
CN112558954A (zh) * | 2020-12-29 | 2021-03-26 | 北京来也网络科技有限公司 | 结合rpa和ai的信息抽取方法、装置、介质及电子设备 |
EP3809347A1 (en) * | 2019-10-15 | 2021-04-21 | UiPath, Inc. | Media-to-workflow generation using artificial intelligence (ai) |
CN113034095A (zh) * | 2021-01-29 | 2021-06-25 | 北京来也网络科技有限公司 | 结合rpa和ai的人机互动方法、装置、存储介质及电子设备 |
CN113127755A (zh) * | 2021-04-25 | 2021-07-16 | 上海埃阿智能科技有限公司 | 一种人工智能虚拟形象信息推荐算法系统及方法 |
CN113885982A (zh) * | 2021-09-27 | 2022-01-04 | 北京来也网络科技有限公司 | 结合ai和rpa的远程控制方法、装置、电子设备及介质 |
CN113961187A (zh) * | 2021-12-22 | 2022-01-21 | 杭州实在智能科技有限公司 | Rpa组件智能推荐方法及系统 |
US20220024032A1 (en) * | 2020-07-21 | 2022-01-27 | UiPath, Inc. | Artificial intelligence / machine learning model drift detection and correction for robotic process automation |
CN114461122A (zh) * | 2022-04-12 | 2022-05-10 | 杭州实在智能科技有限公司 | Rpa元素拾取同屏切换方法及系统 |
CN114547453A (zh) * | 2022-02-21 | 2022-05-27 | 重庆长安汽车股份有限公司 | 一种通用top-n智能推荐系统及方法 |
CN114637662A (zh) * | 2022-05-13 | 2022-06-17 | 杭州未斯科技有限公司 | 一种rpa流程自动化录制控制方法及系统 |
CN115019029A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 一种基于神经自动机的rpa元素智能定位方法 |
CN115061769A (zh) * | 2022-08-08 | 2022-09-16 | 杭州实在智能科技有限公司 | 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统 |
CN115061679A (zh) * | 2022-08-08 | 2022-09-16 | 杭州实在智能科技有限公司 | 离线rpa元素拾取方法及系统 |
-
2023
- 2023-03-16 CN CN202310253156.XA patent/CN115964027B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2991005A1 (en) * | 2014-08-26 | 2016-03-02 | Mu Sigma Business Solutions Pvt. Ltd. | Systems and methods for creating and evaluating experiments |
CN106897067A (zh) * | 2017-02-26 | 2017-06-27 | 广州衡昊数据科技有限公司 | 一种基于人机交互技术建模的方法和专家系统 |
EP3809347A1 (en) * | 2019-10-15 | 2021-04-21 | UiPath, Inc. | Media-to-workflow generation using artificial intelligence (ai) |
CN111158651A (zh) * | 2019-12-26 | 2020-05-15 | 第四范式(北京)技术有限公司 | 构建人工智能应用的方法、装置及系统 |
US20220024032A1 (en) * | 2020-07-21 | 2022-01-27 | UiPath, Inc. | Artificial intelligence / machine learning model drift detection and correction for robotic process automation |
CN112558954A (zh) * | 2020-12-29 | 2021-03-26 | 北京来也网络科技有限公司 | 结合rpa和ai的信息抽取方法、装置、介质及电子设备 |
CN113034095A (zh) * | 2021-01-29 | 2021-06-25 | 北京来也网络科技有限公司 | 结合rpa和ai的人机互动方法、装置、存储介质及电子设备 |
CN113127755A (zh) * | 2021-04-25 | 2021-07-16 | 上海埃阿智能科技有限公司 | 一种人工智能虚拟形象信息推荐算法系统及方法 |
CN113885982A (zh) * | 2021-09-27 | 2022-01-04 | 北京来也网络科技有限公司 | 结合ai和rpa的远程控制方法、装置、电子设备及介质 |
CN113961187A (zh) * | 2021-12-22 | 2022-01-21 | 杭州实在智能科技有限公司 | Rpa组件智能推荐方法及系统 |
CN114547453A (zh) * | 2022-02-21 | 2022-05-27 | 重庆长安汽车股份有限公司 | 一种通用top-n智能推荐系统及方法 |
CN114461122A (zh) * | 2022-04-12 | 2022-05-10 | 杭州实在智能科技有限公司 | Rpa元素拾取同屏切换方法及系统 |
CN114637662A (zh) * | 2022-05-13 | 2022-06-17 | 杭州未斯科技有限公司 | 一种rpa流程自动化录制控制方法及系统 |
CN115019029A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 一种基于神经自动机的rpa元素智能定位方法 |
CN115061769A (zh) * | 2022-08-08 | 2022-09-16 | 杭州实在智能科技有限公司 | 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统 |
CN115061679A (zh) * | 2022-08-08 | 2022-09-16 | 杭州实在智能科技有限公司 | 离线rpa元素拾取方法及系统 |
Non-Patent Citations (4)
Title |
---|
"‘蝶变•新番’实在智能2022冬季产品发布会", pages 1 - 6, Retrieved from the Internet <URL:https://play.itdks.com/watch/10896235?player=> * |
KRISTINA KALDON等: "Robotic Process Automation (RPA) Workshop", 《SIGITE \'21: PROCEEDINGS OF THE 22ND ANNUAL CONFERENCE ON INFORMATION TECHNOLOGY EDUCATION》 * |
张海华;: "基于大数据和机器学习的大学生选课推荐模型研究", 信息系统工程, no. 04 * |
归思超;王佳星;洪峰;曹斌;: "基于行为的自动化流程建模推荐方法", 计算机集成制造系统, no. 06 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128056A (zh) * | 2023-04-18 | 2023-05-16 | 安徽思高智能科技有限公司 | 一种面向rpa的多模态交互实体对齐方法 |
CN116128056B (zh) * | 2023-04-18 | 2023-07-07 | 安徽思高智能科技有限公司 | 一种面向rpa的多模态交互实体对齐方法 |
CN117311798A (zh) * | 2023-11-28 | 2023-12-29 | 杭州实在智能科技有限公司 | 基于大语言模型的rpa流程生成系统及方法 |
CN117608565A (zh) * | 2024-01-23 | 2024-02-27 | 杭州实在智能科技有限公司 | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 |
CN117608565B (zh) * | 2024-01-23 | 2024-05-10 | 杭州实在智能科技有限公司 | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115964027B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115964027B (zh) | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 | |
CN113391871B (zh) | 一种rpa元素智能融合拾取的方法与系统 | |
US10970097B2 (en) | Adaptive web-based robotic process automation | |
US9424167B2 (en) | Automated testing of an application system | |
US10354225B2 (en) | Method and system for process automation in computing | |
US9274742B2 (en) | Visual-symbolic control of remote devices having display-based user interfaces | |
US8776023B2 (en) | Software testing | |
US20070016615A1 (en) | Method and apparatus for developing composite applications | |
US20090064053A1 (en) | Visualization of Decision Logic | |
US20090276733A1 (en) | Method, system, and graphical user interface for presenting an interactive hierarchy and indicating entry of information therein | |
CN112579852B (zh) | 一种互动式网页数据精确采集方法 | |
CN108681508A (zh) | 一种基于视觉识别的测试方法及终端 | |
US9223647B2 (en) | Automatic classification adjustment of recorded actions for automation script | |
CN104106066A (zh) | 用于查看和操纵在时间参考点处的产物的系统 | |
CN116127203B (zh) | 结合页面信息的rpa业务组件推荐方法及系统 | |
CN105956087A (zh) | 数据及代码版本管理系统及方法 | |
US10922059B2 (en) | Integrating application features into a platform interface based on application metadata | |
CN105243058A (zh) | 一种网页内容翻译方法及电子设备 | |
CN102541282B (zh) | 利用图标移动对已完成词汇再编辑的方法、装置及系统 | |
CN117573006B (zh) | 用于rpa屏幕界面元素批量拾取的方法及系统 | |
CN112948594B (zh) | Rpa知识图谱建立方法、装置、服务器和存储介质 | |
CN114416516A (zh) | 基于截图的测试用例及测试脚本生成方法、系统及介质 | |
CN117311798A (zh) | 基于大语言模型的rpa流程生成系统及方法 | |
US20190087415A1 (en) | Automatic translation of string collections | |
CN109582582A (zh) | 一种Web界面的自动化测试方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |