CN117311798A - 基于大语言模型的rpa流程生成系统及方法 - Google Patents
基于大语言模型的rpa流程生成系统及方法 Download PDFInfo
- Publication number
- CN117311798A CN117311798A CN202311601792.3A CN202311601792A CN117311798A CN 117311798 A CN117311798 A CN 117311798A CN 202311601792 A CN202311601792 A CN 202311601792A CN 117311798 A CN117311798 A CN 117311798A
- Authority
- CN
- China
- Prior art keywords
- module
- flow
- rpa
- language model
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000003993 interaction Effects 0.000 claims abstract description 39
- 238000005516 engineering process Methods 0.000 claims abstract description 38
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004801 process automation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Stored Programmes (AREA)
Abstract
本发明属于RPA流程配置技术领域,具体涉及基于大语言模型的RPA流程生成系统及方法。系统包括:桌面交互模块,用于实现各个功能模块之间的交互;智能屏幕语义理解技术模块,用于实时分析桌面元素,并理解桌面元素间的关系与业务含义;大语言模型模块,用于根据用户输入,实时拆解适合当前目标的RPA流程和RPA组件;流程执行模块,用于对RPA流程生成过程中及生成后的组件或RPA流程进行执行。本发明具有能够将大语言模型和智能屏幕语义理解技术相结合,同时采用可介入式交互模式的特点。
Description
技术领域
本发明属于RPA流程配置技术领域,具体涉及基于大语言模型的RPA流程生成系统及方法。
背景技术
机器人流程自动化(Robotic Process Automation,RPA)是一项自动化技术,它通过模拟人的动作,在计算机中代替人进行点击、输入等一系列操作,能够大大提升工作效率,将人力从繁琐的规则性强且重复性强的任务中解放出来。
现有的RPA设计工具中开发和编辑RPA流程的一般思路是:往往会将针对各类界面元素的操作、拾取、存储、引用、逻辑判断等行为的代码封装成数百个功能组件,并统一展示在设计器的某个功能区域或列表中,RPA用户需要预先知道使用哪个组件,而后通过拖拽该组件到RPA流程画布或列表中,并逐次切换窗口到业务系统中选择待操作的桌面元素、逐条配置功能组件参数等一系列交互动作,来逐步构建一个能执行连续动作的RPA自动化流程。这种交互方式和系统对用户来说,不仅需要用户对所有功能组件均保持较高的熟悉程度,还要求用户预先掌握功能组件之间的搭配与开发逻辑的相关知识,上述特性都不利于RPA流程的快速开发和部署,也不利于RPA向更普适化、更大众化的方向发展和普及。
目前对于RPA的流程配置,主要涉及到以下技术:
1.传统RPA流程配置技术和方法
传统的RPA流程配置技术,是通过RPA编辑器,创建流程项目、组件项目或元素项目,利用Python、JAVA、C#等开发语言(取决于各自的技术选型)开发RPA自动化基础引擎,并通过代码构建大量已封装好的组件或指令,再从组件库或指令集中通过拖拽组件或双击选中方式添加到列表中并加以编辑。当组件或指令通过可视化方法拖拽或双击添加到列表后,可通过点击选中或双击打开的方式针对每个组件或指令进行参数编辑。
2.基于RPA编辑器的智能录制方法
除传统RPA流程配置方式外,市面上还使用一种经由监控鼠标和键盘这两个输入端在操作页面上的操作过程,记录具体操作并对鼠标和键盘操作记录生成与之对应的指令的方式。在此基础上,还衍生出一些基于监控鼠标、键盘机器操作记录并结合操作目标界面元素类型的优化技术方案。该方法通过连续记录鼠标或键盘的操作事件,记录并输出如点击元素、拖拽、输入等固定的几种组件或指令,此外,基于此的优化方案还可以记录点击的目标元素、目标窗口、点击位置、输入的目标输入框等基于MSAA及UIA技术的相关解析结果及元素索引信息,但本质上,此种方式依然是在连续录制输入端(如鼠标、键盘等)的操作记录,并在生成组件或指令的执行参数填写上做了优化,使生成组件或指令的运行稳定性得到提升,但没有改变其只能机械地录制用户的每一步动作(包括错误动作、冗余动作)、以及生成的RPA流程动作过于单一等本质和固有缺陷。
3.大语言模型
大语言模型(Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿乃至数千亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器(Transformer),这有助于它们在各种NLP任务上取得令人印象深刻的表现。
4.智能屏幕语义理解技术
智能屏幕语义理解技术(Intelligence Screen Semantics UnderstandingTechonology,简称ISSUT)是一项用于检测、识别电脑屏幕画面,并准确理解画面上各个图标和区块的含义的人工智能技术,是综合利用机器视觉、自然语言处理等方式进行屏幕画面识别和解析的技术。
然而,上述现有的相关技术却具有如下局限性:
1.RPA流程搭建技术的不足
现有的RPA流程搭建技术主要有两种:一种是用鼠标拖拽或双击的方式将代码封装好的组件或指令从组件库或指令集添加到列表中,这种技术要求作业人员预先掌握大量的组件或指令知识和前后依赖知识,要求作业人员必须具备较高的RPA流程开发熟练程度和知识技能水平;
另一种是经由监控鼠标和键盘这两个输入端在操作页面上的操作过程,记录操作,并对鼠标和键盘操作记录生成与之对应的指令的方式。然而这种方式的缺陷在于,录制操作环境的不可控因素以及录制内容与生成结果过于单一,导致录制生成的结果不可用,需要经过巨大的人工修正工作。
2.大语言模型的不足
大语言模型是指包含千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,目前市面上比较出名的模型有GPT-4、PaLM和LLaMA2等。由于大语言模型是基于大量数据进行训练的,使得大模型能够具备丰富的通用能力。在人机交互的场景下,大语言模型比传统的机器人更加智能。然而大语言模型依然存在一些不足,大型语言模型通常是基于大规模文本数据训练的,但它们并没有真正的常识或深层次的理解,本质上模型是通过模式匹配和统计概率生成文本,而不是真正理解文本的含义。而且由于各个模型训练数据中存在各种不同的偏差,使得大型语言模型可能会反映这些偏差,同时在生成文本时会出现歧视性、偏见性或不公平性。而目前常见的大语言模型都只是注重了常识性数据的验证,缺少对RPA相关知识的专业训练,这使得一般大语言模型都不具备将用户目标拆解成为RPA流程的能力。
因此,设计一种能够将大语言模型和智能屏幕语义理解技术相结合,同时采用可介入式交互模式的基于大语言模型的RPA流程生成系统及方法,就显得十分重要。
发明内容
本发明是为了克服现有技术中,目前RPA流程配置,存在传统RPA组件推荐不准、创建流程门槛过高以及效率过低的问题,提供了一种能够将大语言模型和智能屏幕语义理解技术相结合,同时采用可介入式交互模式的基于大语言模型的RPA流程生成系统及方法。
为了达到上述发明目的,本发明采用以下技术方案:
基于大语言模型的RPA流程生成系统,包括:
桌面交互模块,用于实现各个功能模块之间的交互;
智能屏幕语义理解技术模块,用于实时分析桌面元素,并理解桌面元素间的关系与业务含义;
大语言模型模块,用于根据用户输入,实时拆解适合当前目标的RPA流程和RPA组件;
流程执行模块,用于对RPA流程生成过程中及生成后的组件或RPA流程进行执行;
所述大语言模型模块包括智能流程生成模块、通用知识能力模块和RPA知识能力模块;
所述通用知识能力模块,用于理解用户输入的内容含义,识别用户的输入内容的意图,并将用户的意图进行分解,实现生成流程的拆解;
所述RPA知识能力模块,用于提供RPA专业知识,使得大语言模型模块具备专业的RPA流程构建能力,在流程生成过程中推荐出准确的RPA组件,同时实现对RPA组件属性的准确填充;
所述智能流程生成模块,用于将通用知识能力模块识别的内容按照流程、组件、组件属性进行分类,并结合RPA知识能力模块转换成真实的RPA的流程、组件、组件属性数据,使用户意图转换成需要的RPA流程。
作为优选,所述桌面交互模块包括chat对话模块、可中断交互模块和组件自动添加模块;
所述chat对话模块,用于使用户在对话交互界面中输入需要生成流程的文字描述;
所述可中断交互模块,用于当流程生成出现异常时,用户可选择手动介入选择元素或对组件属性进行编辑;
所述组件自动添加模块,用于将生成的组件添加到流程中。
作为优选,所述智能屏幕语义理解技术模块包括融合拾取模块、目标元素识别模块和动态元素匹配模块;
所述融合拾取模块,用于对操作界面中的目标元素进行检测和定位,输出屏幕视觉信息;
所述目标元素识别模块,接收融合拾取模块输出屏幕视觉信息,输出目标元素类型、位置以及场景信息;
所述动态元素匹配模块,用于元素外观发生变化时辅助判断元素类型。
作为优选,所述大语言模型模块可根据历史的流程生成数据进行自我强化学习。
作为优选,所述流程执行模块的过程具体为:
在流程生成过程中,一边生成流程一边执行组件,使用户实时感知流程的自动生成过程;在流程生成完成后,流程执行模块执行整个流程过程,实现对全流程的执行验证。
本发明还提供了基于大语言模型的RPA流程生成方法,包括如下步骤:
S1,当用户进入系统开始配置RPA流程,完成创建RPA流程后,自动进入chat对话交互界面;
S2,用户在chat对话交互界面中输入要生成流程的文字描述;输入完成后点击发送,进入智能流程生成界面;
S3,在进入智能流程生成界面时,桌面交互模块调用智能屏幕语义理解模块,获取需要操作的目标屏幕信息,并将所述目标屏幕信息提供给大语言模型模块,大语言模型模块结合用户意图和目标屏幕信息生成对应的组件,组件自动添加模块接收到组件后,将组件添加到流程中,同时调用流程执行模块进行操作校验。
作为优选,方法还包括如下步骤:
S4,在流程生成过程中,若出现流程生成异常,则用户可选择手动介入选择元素或对组件属性进行编辑,在介入成功后系统根据原有计划继续生成后续的流程。
本发明与现有技术相比,有益效果是:(1)本发明采用C#、Python及electron框架与人工智能等多种技术的有机结合,构建了全新的Chat模式的RPA流程搭建方法和系统;本发明的交互设计与技术框架设计,使得RPA流程搭建从原有的CUI(Command&ComponentUser Interface)指令行、组件行堆叠的逻辑式人机交互形态,进化为更易使用、易学习的Chat UI交互形态,极大简化了用户对RPA流程搭建的认知成本和学习成本;(2)本发明创新性的提出基于深度学习人工智能技术的大语言模型技术,结合屏幕语义理解技术,使得作业人员在RPA流程搭建时无需提前大规模学习数百个组件或指令的适用范围、配置方法、依赖关系等复杂知识;而利用本发明所述方法和系统搭建流程时,用户只需文字描述需要操作的目标,随后即经由大语言模型模块实时分析理解用户的意图,并将用户意图转换成推荐的RPA动作,同时结合智能屏幕语义理解技术,在生成RPA动作时能够自动填充组件属性,所有过程均由系统自动完成,流程生成过程中无需用户介入即可智能生成整个流程;(3)本发明极大降低了用户在使用RPA前的学习难度,显著提升了RPA的业务场景使用范围,扩展了潜在用户群范围,使得RPA及RPA流程搭建软件的适用人群进一步扩大。
附图说明
图1为本发明中基于大语言模型的RPA流程生成系统的一种总体功能架构示意图;
图2为本发明系统中各个模块配合交互的一种示意图;
图3为本发明中智能屏幕语义理解技术模块的一种构架示意图;
图4为本发明中大语言模型模块的一种构架示意图;
图5为本发明实施例所提供的基于大语言模型的RPA流程生成系统在实际应用中的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
如图1所示,本发明提供了基于大语言模型的RPA流程生成系统,包括:
桌面交互模块,用于实现各个功能模块之间的交互;
智能屏幕语义理解技术模块,用于实时分析桌面元素,并理解桌面元素间的关系与业务含义;
大语言模型模块,用于根据用户输入,实时拆解适合当前目标的RPA流程和RPA组件;
流程执行模块,用于对RPA流程生成过程中及生成后的组件或RPA流程进行执行
本发明通过将C#、Python及electron框架与人工智能技术模块有机结合,共同构建成为AI+RPA桌面交互架构。同时,基于深度神经网络的智能屏幕语义理解技术及系统方案,封装成为智能屏幕理解模块。帮助用户实时识别、解析并理解当前桌面出现的所有界面元素,更精准的理解元素类型和业务场景。此外,基于RPA组件推荐和大语言模型等AI算法与技术方案,封装成为大语言模型模块,为用户提供针对各类网页与应用场景下的RPA流程生成能力,用户只需要输入一句话,就可以自动生成对应的RPA流程。
具体的,桌面交互模块,是本发明所述方法和系统的主要用户端功能模块和各模块交互中枢。桌面交互模块主要包括:chat对话模块;可中断交互模块;组件自动添加模块。
chat对话模块,用于使用户在对话交互界面中输入需要生成流程的文字描述;
可中断交互模块,用于当流程生成出现异常时,用户可选择手动介入选择元素或对组件属性进行编辑;
组件自动添加模块,用于将生成的组件添加到流程中。
智能屏幕语义理解技术模块(ISSUT),是本发明重要后台模块之一,也是用于实时分析桌面元素,理解元素间关系与业务含义的AI模块之一。智能屏幕语义理解技术模块的具体构架如图3所示,智能屏幕语义理解技术模块将基于深度神经网络技术的智能元素融合拾取技术以及多种可拓展的复杂AI模型系统封装,成为整个框架体系的核心模块之一。智能屏幕语义理解技术模块主要用于分析并理解界面元素。当本发明系统开始按照用户目标自动生成RPA流程时,对于流程中组件需要用户填充的元素属性的情况,智能屏幕语义理解技术模块将被激活,根据当前的用户界面实时分析、理解屏幕中出现的各类界面元素。根据组件的需要自动填充对应的组件属性元素。
相比于智能融合拾取技术,智能屏幕语义理解技术模块不仅能无差别地识别屏幕,还能进一步做到智能的理解屏幕、精准的操作预测和自动的算法优化。最终帮助用户实现更精准、无差别的选择任意界面元素,同时获取到足够丰富的数据以支持智能组件的属性填充。
大语言模型模块,是本发明另外一个重要后台模块,也是用于根据用户输入,实时拆解适合当前目标的RPA流程和模块的AI模块。大语言模型模块的具体构架如图4所示,大语言模型模块基于深度神经网络技术,并将其封装成整个框架体系的核心模块。大语言模型模块包含三个核心功能模块和能力:智能流程生成模块、通用知识能力、RPA知识能力。
其中,通用知识能力用于理解用户输入的内容含义,识别用户的输入内容的意图,并将用户的意图进行分解,实现生成流程的拆解;RPA知识能力用于给大语言模型提供RPA专业知识,使得大语言模型具备专业的RPA流程构建能力,在流程生成过程中推荐出准确的RPA组件,同时能够实现对RPA组件属性的准确填充;智能流程生成模块负责将通用知识能力识别的内容进一步处理,同时结合RPA知识能力,将用户意图转换成需要的RPA流程。如此配合,就构成了本发明系统中最重要的大语言模型模块,大语言模型模块在整个系统中,承担了传统流程构建过程中用户决策的角色,赋予了本系统高度智能的自动化生成流程能力。
此外,大语言模型模块可以根据历史的流程生成数据进行自我强化学习,对于流程生成过程中原本需要用户的介入的操作,可以经过反复学习,不断的提升流程生成能力,最终达到不需要用户介入就可以完成流程生成的效果。
流程执行模块,是本发明的重要执行模块。流程执行模块用于流程生成过程中及生成后的组件或流程执行。在流程生成过程中,本系统可以边生成边执行组件,使得用户能够实时感知流程的自动生成过程;在流程生成完成后,流程执行模块能够执行整个流程,实现对全流程的执行验证。
另外,如图2所示,本发明还提供了基于大语言模型的RPA流程生成方法,包括如下步骤:
1.当用户进入系统开始配置RPA流程,完成创建RPA流程后,自动进入chat对话交互界面;
2.用户在chat对话交互界面中输入要生成流程的文字描述;输入完成后点击发送(按回车键),进入智能流程生成界面;
3.在进入智能流程生成界面时,桌面交互模块调用智能屏幕语义理解模块,获取需要操作的目标屏幕信息,并将所述目标屏幕信息提供给大语言模型模块,大语言模型模块结合用户意图和目标屏幕信息生成对应的组件,组件自动添加模块接收到组件后,将组件添加到流程中,同时调用流程执行模块进行操作校验。
组件执行模块根据组件属性自动确认是否需要调用智能屏幕语义理解技术模块。整个流程和组件生成的过程,用户可以完全不需要操作鼠标,智能生成系统能够自动生成流程对应的组件,填充正确的属性并执行对应的组件,按用户意图实现对目标屏幕的操作。
4.在流程生成过程中,若出现流程生成异常,则用户可选择手动介入选择元素或对组件属性进行编辑,在介入成功后系统根据原有计划继续生成后续的流程,实现人工和智能的无缝衔接。
基于本发明方案,如图5所示,展示了一个基于大语言模型的RPA流程生成方法及系统搭建的一个典型操作流程示例,同时展示本发明的实施方案,及如何利用本发明所属系统快速完成RPA流程搭建的交互细节:
1.用户进入Chat UI交互,输入操作描述:“打开企业微信,给张三发送你好”;点击发送后,大语言模型模块根据描述信息进行任务拆解;
2.根据任务拆解,显示对应的流程图:
开始 -> 企业微信发送“你好”给张三;
流程第一步:打开企业微信应用程序;
流程第二步:在搜索框中输入“张三”并回车;
流程第三步:在发送框中输入“你好”;
流程第四步:点击发送按钮;
让用户确认生成的流程图是否使用;
3.用户如果觉得流程生成不合理,不能使用,可以重新输入描述或点击按钮重新生成流程图;
4.用户如果觉得流程图生成的合理,可以使用,进入可中断交互模块,此时桌面交互模块调用智能屏幕语义理解技术模块对目标屏幕进行分析,获取屏幕中企业微信的信息后,调用大语言模型模块;
5.大语言模型模块根据拆解的流程结合屏幕信息生成RPA组件打开企业微信组件,同时填充对应的组件属性;
6.组件生成后,本系统会将当前组件添加入流程中,同时调用流程执行模块自动执行当前组件,运行过程中,执行模块会根据组件属性,选择是否需要调用智能屏幕语义理解技术模块;
7.当组件执行异常时,可中断交互模块暂时用户介入入口,用户操作成功后,生成系统自动重新执行当前组件;
8.当组件执行成功时,企业微信程序被拉起,系统重新获取屏幕中微信程序的搜索框信息,基于当前元素开始生成下一个组件输入文本,填入识别的微信搜索框元素同时填入输入内容“张三”;
9.重复步骤6,当组件执行成功时,重新获取企业微信界面,识别张三联系人的元素信息,生成点击界面元素组件;当组件执行异常时进入7;
10.重复步骤6,当组件执行成功时,重新获取企业微信界面,识别发送框的元素信息,生成输入文本组件;当组件执行异常时进入7;
11.重复步骤6,当组件执行成功时,重新获取企业微信界面,识别发送按钮的元素信息,生成点击界面元素组件;当组件执行异常时进入7;
12.重复步骤6,当组件执行成功时,流程生成完毕,同时反馈数据到大语言模型模块,大语言模型模块能够根据搜集的数据,进行不断的自学习,实现模型推荐的不断完善,随后整个流程配置全部完成;
13.全流程过程中,用户可以在任何时间选择停止操作,停止后,用户可以在输入框内重新输入新的操作要求,整个系统会重新识别用户意图,开始新的流程生成过程。
本发明将大语言模型和智能屏幕语义理解技术相结合,同时采用了可介入式的交互模式,解决了传统RPA组件推荐不准、创建流程门槛过高、效率过低的问题。
本发明的创新点如下:
1.本发明创新性的结合大语言模型+屏幕语义理解技术解决传统RPA组件推荐不准、创建流程门槛过高、效率过低的问题;
2.本发明创造性的引入大语言模型,区别于传统RPA拖拉拽、点选用的操作流程,新的系统只需要用户输入一个目标,就能自动生成对应的RPA动作,整个过程无需提前学习组件使用方法,显著的提升用户体验,降低RPA软件的使用难度。同时由于大模型本身的通用能力,使得用户在输入目标后能够充分理解用户意图,不需要过多的数据辅助就能智能生成对应的RPA流程;
3.本发明流程创建过程中采用了可介入式交互,使得用户在整个流程生成过程中可以动态调整结果,提升了流程生成的灵活性。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (7)
1.基于大语言模型的RPA流程生成系统,其特征在于,包括:
桌面交互模块,用于实现各个功能模块之间的交互;
智能屏幕语义理解技术模块,用于实时分析桌面元素,并理解桌面元素间的关系与业务含义;
大语言模型模块,用于根据用户输入,实时拆解适合当前目标的RPA流程和RPA组件;
流程执行模块,用于对RPA流程生成过程中及生成后的组件或RPA流程进行执行;
所述大语言模型模块包括智能流程生成模块、通用知识能力模块和RPA知识能力模块;
所述通用知识能力模块,用于理解用户输入的内容含义,识别用户的输入内容的意图,并将用户的意图进行分解,实现生成流程的拆解;
所述RPA知识能力模块,用于提供RPA专业知识,使得大语言模型模块具备专业的RPA流程构建能力,在流程生成过程中推荐出准确的RPA组件,同时实现对RPA组件属性的准确填充;
所述智能流程生成模块,用于将通用知识能力模块识别的内容按照流程、组件、组件属性进行分类,并结合RPA知识能力模块转换成真实的RPA的流程、组件、组件属性数据,使用户意图转换成需要的RPA流程。
2.根据权利要求1所述的基于大语言模型的RPA流程生成系统,其特征在于,所述桌面交互模块包括chat对话模块、可中断交互模块和组件自动添加模块;
所述chat对话模块,用于使用户在对话交互界面中输入需要生成流程的文字描述;
所述可中断交互模块,用于当流程生成出现异常时,用户可选择手动介入选择元素或对组件属性进行编辑;
所述组件自动添加模块,用于将生成的组件添加到流程中。
3.根据权利要求1所述的基于大语言模型的RPA流程生成系统,其特征在于,所述智能屏幕语义理解技术模块包括融合拾取模块、目标元素识别模块和动态元素匹配模块;
所述融合拾取模块,用于对操作界面中的目标元素进行检测和定位,输出屏幕视觉信息;
所述目标元素识别模块,接收融合拾取模块输出屏幕视觉信息,输出目标元素类型、位置以及场景信息;
所述动态元素匹配模块,用于元素外观发生变化时辅助判断元素类型。
4.根据权利要求1所述的基于大语言模型的RPA流程生成系统,其特征在于,所述大语言模型模块可根据历史的流程生成数据进行自我强化学习。
5.根据权利要求1所述的基于大语言模型的RPA流程生成系统,其特征在于,所述流程执行模块的过程具体为:
在流程生成过程中,一边生成流程一边执行组件,使用户实时感知流程的自动生成过程;在流程生成完成后,流程执行模块执行整个流程过程,实现对全流程的执行验证。
6.基于大语言模型的RPA流程生成方法,应用于权利要求1-5任一项所述的基于大语言模型的RPA流程生成系统,其特征在于,所述基于大语言模型的RPA流程生成方法包括如下步骤:
S1,当用户进入系统开始配置RPA流程,完成创建RPA流程后,自动进入chat对话交互界面;
S2,用户在chat对话交互界面中输入要生成流程的文字描述;输入完成后点击发送,进入智能流程生成界面;
S3,在进入智能流程生成界面时,桌面交互模块调用智能屏幕语义理解模块,获取需要操作的目标屏幕信息,并将所述目标屏幕信息提供给大语言模型模块,大语言模型模块结合用户意图和目标屏幕信息生成对应的组件,组件自动添加模块接收到组件后,将组件添加到流程中,同时调用流程执行模块进行操作校验。
7.根据权利要求6所述的基于大语言模型的RPA流程生成方法,其特征在于,还包括如下步骤:
S4,在流程生成过程中,若出现流程生成异常,则用户可选择手动介入选择元素或对组件属性进行编辑,在介入成功后系统根据原有计划继续生成后续的流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311601792.3A CN117311798A (zh) | 2023-11-28 | 2023-11-28 | 基于大语言模型的rpa流程生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311601792.3A CN117311798A (zh) | 2023-11-28 | 2023-11-28 | 基于大语言模型的rpa流程生成系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117311798A true CN117311798A (zh) | 2023-12-29 |
Family
ID=89274008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311601792.3A Pending CN117311798A (zh) | 2023-11-28 | 2023-11-28 | 基于大语言模型的rpa流程生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117311798A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634867A (zh) * | 2024-01-26 | 2024-03-01 | 杭州实在智能科技有限公司 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100174583A1 (en) * | 2008-12-05 | 2010-07-08 | Sterelogic Inc. | Systems and methods for business process modelling |
CN112163420A (zh) * | 2020-09-23 | 2021-01-01 | 北京天行有灵科技有限公司 | 一种基于nlp技术的rpa流程自动生成方法 |
WO2022160707A1 (zh) * | 2021-01-29 | 2022-08-04 | 北京来也网络科技有限公司 | 结合rpa和ai的人机互动方法、装置、存储介质及电子设备 |
CN115017271A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 用于智能生成rpa流程组件块的方法及系统 |
CN115964027A (zh) * | 2023-03-16 | 2023-04-14 | 杭州实在智能科技有限公司 | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 |
CN116303982A (zh) * | 2023-05-24 | 2023-06-23 | 杭州实在智能科技有限公司 | 基于rpa和自学习机制的智能应答与业务处理方法及系统 |
CN116562807A (zh) * | 2023-05-05 | 2023-08-08 | 科大讯飞股份有限公司 | 机器人流程自动化方法、装置、电子设备和存储介质 |
CN116738476A (zh) * | 2023-05-12 | 2023-09-12 | 上海淇玥信息技术有限公司 | 一种基于大语言模型的安全交互方法及装置 |
CN117035318A (zh) * | 2023-08-10 | 2023-11-10 | 达观数据有限公司 | 基于大语言模型的机器人自动化流程设计和调度方法及装置 |
-
2023
- 2023-11-28 CN CN202311601792.3A patent/CN117311798A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100174583A1 (en) * | 2008-12-05 | 2010-07-08 | Sterelogic Inc. | Systems and methods for business process modelling |
CN112163420A (zh) * | 2020-09-23 | 2021-01-01 | 北京天行有灵科技有限公司 | 一种基于nlp技术的rpa流程自动生成方法 |
WO2022160707A1 (zh) * | 2021-01-29 | 2022-08-04 | 北京来也网络科技有限公司 | 结合rpa和ai的人机互动方法、装置、存储介质及电子设备 |
CN115017271A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 用于智能生成rpa流程组件块的方法及系统 |
CN115964027A (zh) * | 2023-03-16 | 2023-04-14 | 杭州实在智能科技有限公司 | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 |
CN116562807A (zh) * | 2023-05-05 | 2023-08-08 | 科大讯飞股份有限公司 | 机器人流程自动化方法、装置、电子设备和存储介质 |
CN116738476A (zh) * | 2023-05-12 | 2023-09-12 | 上海淇玥信息技术有限公司 | 一种基于大语言模型的安全交互方法及装置 |
CN116303982A (zh) * | 2023-05-24 | 2023-06-23 | 杭州实在智能科技有限公司 | 基于rpa和自学习机制的智能应答与业务处理方法及系统 |
CN117035318A (zh) * | 2023-08-10 | 2023-11-10 | 达观数据有限公司 | 基于大语言模型的机器人自动化流程设计和调度方法及装置 |
Non-Patent Citations (2)
Title |
---|
实在智能RPA: "2023国内的RPA技术有哪些新的创新?可以举例说明吗?", pages 1 - 10, Retrieved from the Internet <URL:《https://www.zhihu.com/question/618569744》> * |
郭伟佳;葛宁;王有政;李冬冬;陈晓敏;: "航天器自动化任务流程建模语言设计与实现", 计算机工程与设计, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634867A (zh) * | 2024-01-26 | 2024-03-01 | 杭州实在智能科技有限公司 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
CN117634867B (zh) * | 2024-01-26 | 2024-05-24 | 杭州实在智能科技有限公司 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928772B (zh) | 一种测试方法及装置 | |
CN112153165B (zh) | 一种电力业务仿真环境构建方法、系统、设备及存储介质 | |
CN101025686A (zh) | 一种自动化测试系统及测试脚本的生成和运行方法 | |
US20090044110A1 (en) | Graphical User Interface (GUI) Script Generation and Documentation | |
CN105740153A (zh) | 云测试方法及装置 | |
CN117311798A (zh) | 基于大语言模型的rpa流程生成系统及方法 | |
CN115843374A (zh) | 使用人工智能从视频中捕获、索引和提取数字工作流的系统和方法 | |
CN111352826B (zh) | 一种界面测试用例自动生成方法及工具 | |
EP3696745A1 (en) | Intelligent workflow advisor for part design, simulation and manufacture | |
CN115964027B (zh) | 基于人工智能的桌面嵌入式rpa流程配置系统及方法 | |
CN116303982B (zh) | 基于rpa和自学习机制的智能应答与业务处理方法及系统 | |
CN113255373B (zh) | 一种基于Rasa框架的ARM侧离线对话系统、装置及存储介质 | |
CN117634867B (zh) | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 | |
CN111179928A (zh) | 一种基于语音交互的变配电站智能控制方法 | |
JP2001005690A (ja) | プログラムテストシステム | |
CN117909243A (zh) | 大模型智能体驱动的航空文档分析与测试用例生成系统 | |
CN117112769A (zh) | 基于大语言模型的故障维修智能问答系统及方法 | |
Lopes et al. | Towards a conversational agent for remote robot-human teaming | |
CN117371950A (zh) | 机器人流程自动化方法、装置、一体机和存储介质 | |
WO2004051470A1 (ja) | プログラム自動変換方法およびプログラム自動変換装置 | |
CN111898993A (zh) | 操作票管理系统 | |
CN114416533A (zh) | 基于人工智能的车载电子产品的用例生成方法和系统 | |
CN112487170B (zh) | 面向场景配置的人机交互对话机器人系统 | |
CN113515274A (zh) | 一种关于人机交互逻辑的可视化建模设计方法 | |
Chung et al. | Iterative repair of social robot programs from implicit user feedback via bayesian inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |