CN117634867B - 结合大语言模型与强化学习的rpa流程自动构建方法及系统 - Google Patents
结合大语言模型与强化学习的rpa流程自动构建方法及系统 Download PDFInfo
- Publication number
- CN117634867B CN117634867B CN202410110036.9A CN202410110036A CN117634867B CN 117634867 B CN117634867 B CN 117634867B CN 202410110036 A CN202410110036 A CN 202410110036A CN 117634867 B CN117634867 B CN 117634867B
- Authority
- CN
- China
- Prior art keywords
- rpa
- task
- reinforcement learning
- model
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 104
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 31
- 230000000875 corresponding effect Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011269 tar Substances 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000004801 process automation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
Abstract
本发明属于RPA流程配置技术领域,具体涉及结合大语言模型与强化学习的RPA流程自动构建方法及系统。方法包括:S1,训练大语言模型;S2,将待解决的任务描述输入大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;S3,训练强化学习模型,并执行大语言模型生成的每个RPA步骤;S4,将转化的若干个可执行的RPA步骤输入到强化学习模型,强化学习模型自动选择对应的组件和动作并发送给RPA引擎进行执行;S5,完成所有可执行的RPA步骤任务后,强化学习模型接受任务完成指令,整个待解决的任务完成。本发明具有能够将自然语言理解和生成与智能决策相结合,使RPA流程构建过程更加自动化、智能和灵活的特点。
Description
技术领域
本发明属于RPA流程配置技术领域,具体涉及结合大语言模型与强化学习的RPA流程自动构建方法及系统。
背景技术
Robotic Process Automation(RPA),即机器人流程自动化,是一项重要的自动化技术,允许企业以更高效、更精确的方式自动执行重复性任务。RPA系统能够模拟人工用户在计算机上的操作,从而降低了劳动力成本,减少了错误,并提高了生产力。
目前,传统的RPA技术仍然是自动化领域的主流,包括一些知名的RPA平台。这些平台允许用户创建、部署和管理自动化流程,它们提供了一定程度的自动化和可视化流程构建能力,但仍然具有一些缺陷,具体如下:
高度依赖人工:传统RPA流程构建和维护需要大量人工,这导致了高成本和低效率。同时,使用门槛较高,难以大范围推广。
缺乏智能决策:现有技术通常缺乏智能决策能力,无法根据不同情境自动调整流程,导致流程执行效率下降。
难以扩展和适应:传统RPA流程往往难以扩展到新任务或适应数据的多样性和变化,因此对于不断演化的业务需求显得不够灵活。
不足以满足复杂场景:传统RPA技术有时难以处理复杂的业务场景,特别是需要涉及自然语言理解和生成的任务。
综上所述,在当前快速发展的自动化时代,RPA技术已经成为许多企业提高工作效率、降低成本的关键工具。传统的RPA技术虽然在自动化方面取得了一些进展,但仍然面临许多限制,比如传统的RPA流程构建需要专业人员投入大量时间和精力,限制了其应用范围。此外,由于现实工作环境的复杂性,传统的RPA流程难以适应不断变化的数据和任务。
因此,设计一种能够将自然语言理解和生成与智能决策相结合,使RPA流程构建过程更加自动化、智能和灵活的结合大语言模型与强化学习的RPA流程自动构建方法及系统,就显得十分重要。
发明内容
本发明是为了克服现有技术中,传统的RPA流程构建存在高度依赖人工、缺乏智能决策、难以扩展和适应以及不能满足复杂场景应用的问题,提供了一种能够将自然语言理解和生成与智能决策相结合,使RPA流程构建过程更加自动化、智能和灵活的结合大语言模型与强化学习的RPA流程自动构建方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
结合大语言模型与强化学习的RPA流程自动构建方法,包括如下步骤;
S1,训练大语言模型,用于理解RPA任务的自然语言描述和RPA组件的功能;
S2,将待解决的任务描述输入训练完后的大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;
S3,训练强化学习模型,用于进行组件和动作选择,并执行大语言模型生成的每个RPA步骤;
S4,将步骤S2转化的若干个可执行的RPA步骤输入到训练完后的强化学习模型,强化学习模型根据输入的RPA步骤自动选择对应的组件和动作并发送给RPA引擎进行执行;
S5,完成所有可执行的RPA步骤任务后,强化学习模型接受任务完成指令,整个待解决的任务完成。
作为优选,步骤S1中,训练大语言模型包括如下步骤:
S11,收集大量与RPA任务和RPA组件有关的文本数据;
S12,对步骤S11收集的数据进行清洗和预处理;所述清洗和预处理包括去除噪声、去除重复样本以及检验文本数据质量;
S13,选择一个现有的开源大型语言模型,并利用清洗和预处理后的数据进行自回归任务的训练,实现非监督学习;
S14,采用非监督学习任务微调完成的大语言模型为基础,构建监督学习任务;
S15,在无监督与监督学习训练过程中,分别采用对应任务的评估指标对大语言模型的性能进行评估,并根据实际需求进行调整。
作为优选,步骤S11中,所述文本数据包括:
RPA任务的描述和示例;
RPA组件的功能和用法说明;
RPA平台的文档和教程;
与RPA相关的技术文章和博客;
RPA任务的执行记录和日志;
带有注释的HTML代码;
网页HTML代码以及对当前的页面描述。
作为优选,步骤S14中,所述监督学习任务包括:
根据任务描述,生成对应的组件名和组件需要操作的元素描述;
根据组件名生成对应的描述;
命名实体识别任务;
给定一个网页,以及所述网页相关的描述,判定所述描述和网页是否匹配;
给定一个RPA任务指令,生成一段RPA流程,并对每个步骤进行解释。
作为优选,步骤S2中,所述可执行的RPA步骤包括对输入数据、处理方式、当前状态以及输出格式的详细描述。
作为优选,步骤S3中,训练强化学习模型包括如下步骤:
S31,定义强化学习模型中的要素,包括环境、智能体、状态、动作和奖励;
S32,对强化学习模型输入当前的状态以及大语言模型生成的当前RPA步骤的任务目标描述,输出n维的soft_max函数,表示每个维度均为对应动作的概率,n为可选动作的数量;
其中,定义强化学习模型表现为:
;
公式中,为价值函数的表示,/>为每一个状态S在强化学习模型策略/>下的预估价值;/>为强化学习模型参数;/>为初始状态,/>即表示在最优强化学习模型参数/>条件下的最大化价值函数;
S33,根据梯度上升算法更新强化学习模型参数,具体公式如下:
;
公式中,表示在状态/>时选择动作a的回报值的估算方法,/>为学习率;/>表示时序为t+1时的强化学习模型参数;/>表示时序为t时的强化学习模型参数;/>表示所选择的策略;/>表示梯度算子。
作为优选,步骤S4中,RPA引擎执行每一个RPA步骤对应的动作任务后,当前强化学习模型的环境会产生一个状态S',用于确定当前任务是否已完成;若当前任务未完成,则将产生的状态S'与当前的任务目标继续输入给强化学习模型进行下一轮循环,给出能完成当前任务的候选动作;若判定当前任务完成,则将产生的状态S'与下一个任务目标输入给强化学习模型,进行下一轮任务的执行。
本发明还提供了结合大语言模型与强化学习的RPA流程自动构建系统包括:
大语言模型训练模块,用于训练大语言模型,使大语言模型理解RPA任务的自然语言描述和RPA组件的功能;
任务解析和流程构建模块,用于将待解决的任务描述输入训练完后的大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;
强化学习模型训练模块,用于训练强化学习模型,进行组件和动作选择,并执行大语言模型生成的每个RPA步骤;
任务执行和自动优化模块,用于将转化的若干个可执行的RPA步骤输入到训练完后的强化学习模型,强化学习模型根据输入的RPA步骤自动选择对应的组件和动作并发送给RPA引擎进行执行;
指令接受模块,用于完成所有可执行的RPA步骤任务后,使强化学习模型接受任务完成指令,整个待解决的任务完成。
作为优选,所述任务执行和自动优化模块还包括:
状态评分模块,用于在RPA引擎执行动作任务后,对当前强化学习模型环境产生的每一个状态进行判断,以确定当前任务是否已完成。
本发明与现有技术相比,有益效果是:(1)自动化RPA流程构建:本发明利用大型语言模型和强化学习,能够自动解析和分解任务描述,将其转化为多个可执行的RPA步骤,从而大幅减少了流程构建的人工干预;(2)智能决策支持:本发明结合大型语言模型和强化学习,具备智能决策能力,可以根据不同的情境基于强化学习算法自动调整流程,以提高执行效率;(3)适应性强:新数据和任务的出现不再是问题,因为本发明的系统能够自动适应数据多样性和变化,而不需要手动调整流程;(4)降低专业技能门槛:本发明的应用不再需要专业编程和流程设计技能,因为它能够根据用户以自然语言方式输出的任务指令,自动创建和优化RPA流程;这降低了技术的门槛,使更多员工能够参与自动化任务;(5)提高工作效率:通过自动化RPA流程构建和智能决策支持,本发明可以显著提高工作效率,减少错误率,并提高生产力;(6)适用于复杂任务:本发明结合大型语言模型的强大理解和推理能力,因此可以处理复杂的业务场景,特别是需要涉及自然语言理解和生成的任务。
附图说明
图1为本发明中强化学习过程的一种概念示意图;
图2为本发明中强化学习模型的一种构架示意图;
图3为本发明中结合大语言模型与强化学习的RPA流程自动构建方法的一种任务执行流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明结合大语言模型与强化学习的RPA流程自动构建方法,包括如下步骤;
1.训练大语言模型,用于理解RPA任务的自然语言描述和RPA组件的功能;使得系统能够解释和理解用户输入的任务描述;
2.将待解决的任务描述输入训练完后的大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;
3.训练强化学习模型,用于进行组件和动作选择,并执行大语言模型生成的每个RPA步骤;
4.将步骤2转化的若干个可执行的RPA步骤输入到训练完后的强化学习模型,强化学习模型根据输入的RPA步骤自动选择对应的组件和动作并发送给RPA引擎进行执行;
5.完成所有可执行的RPA步骤任务后,强化学习模型接受任务完成指令,整个待解决的任务完成。
对于步骤1,训练大语言模型包括语料准备和训练任务,具体过程如下:
语料准备过程包括如下内容:
数据收集:首先,收集大量与RPA任务和相关组件有关的文本数据。这些数据包括
RPA任务的描述和示例;
RPA组件的功能和用法说明;
RPA平台的文档和教程;
与RPA相关的技术文章和博客;
RPA任务的执行记录和日志;
带有注释的HTML代码;
网页HTML代码以及对当前的页面描述(用于状态判断)。
数据清洗和预处理:收集的数据需要进行清洗和预处理,以确保其质量和一致性。这包括去除噪声、去除重复样本,检验文本质量等常见的自然语言处理预处理步骤。
训练任务过程包括如下内容:
目标:训练大型语言模型的主要目标是使其具备理解RPA任务和相关组件的能力。这包括理解任务的描述、组件的功能和如何将它们结合起来执行任务。
非监督学习:首先,选择一个现有的开源大型语言模型,例如lamma或GLM。在这个基础上利用收集到的数据进行自回归任务的训练,比如续写与文本生成。
监督学习:在监督学习训练部分。采用非监督学习任务微调完成的模型为基础,构建监督学习任务,任务包含:
根据描述,生成对应的组件名和组件需要操作的元素描述;
根据组件名生成对应的描述;
命名实体识别任务;
给定一个网页,以及相关描述,判定描述和网页是否匹配;
给定一个RPA任务指令,生成一段RPA流程,并对每个步骤进行解释。
评估和微调:在无监督与监督学习训练过程中,分别采用对应任务的评估指标对模型的性能进行评估,并根据需要进行微调。比如生成类的任务可采用BLEU分数、ROUGE分数等,分类任务采用准确率或F1值等指标进行评估。
领域适应:根据需要,可以对模型进行领域适应,以提高其在特定RPA领域的性能。这可以通过特定领域的语料以及任务上进一步的训练和微调来实现。
通过这个训练过程,大型语言模型将能够理解RPA任务描述,并将其转化为可执行的指令,为后续的自动化流程生成和优化提供了基础。
对于步骤2,在大型语言模型训练完成后,用户可以输入待解决的任务描述。系统利用大语言模型自动解析和分解任务,将其转化为多个可执行的RPA步骤。这些步骤包括对输入数据、处理方式、当前状态,输出格式等方面的详细描述。
对于步骤3,强化学习模型的训练过程,具体如下:
目标:用于完成大模型生成的每个RPA步骤,进行组件选择与相关动作的执行。
任务描述:首先定义强化学习中的几大要素:如图1所示,包含Environment(环境),Agent(智能体),state(状态),Action(动作),reward(奖励)。具体来讲:此任务中Environment(环境)包含Agent能观察到的内容,比如网页内容以及页面内的相关元素,还有Agent无法感知的环境,包含操作系统,浏览器以及网页远程服务器等底层元素。Agent为动作的执行者, 在此处,即RPA引擎。包含其采用的Policy(策略),以及可执行的动作(Action)。Action 为RPA组件以及对应参数的选择,比如,元素点击,文本输入,点击按钮等具体待执行的步骤。reward 为环境在每一步任务后给定的奖励,此任务中采用稀疏奖励,即成功完成任务,给定reward 100, 在没完成任务之前,每个Action 都给予一个惩罚(负奖励)-1,每个回合中允许的最大操作步数为200,超过步数,则重新开始任务。通过最大化每个回合(episode)的奖励(reward)来优化策略(policy)以完成模型的训练。
又如图1所示,在强化学习中,有一个智能体(Agent)在某个环境(E)内进行操作。智能体做出决策选择某个动作a,环境根据这些决策给出反馈。例如,当前状态为,在动作a作用与环境E时,获得奖励/>,状态更新为/>,按照这个模型循环下去。
任务的训练:强化学习整体模型框架如图2所示,整个策略优化(policy)过程采用Approximate Policy Gradient。在这个深度强化学习任务中,模型的输入为当前的状态(state)以及大模型生成的当前步骤的任务目标描述,输出为n维的soft_max函数,n为可选动作(Action)的数量,即每个维度都为对应动作(action)的概率。
每个回合中,定义模型的表现为:
;
公式中,为每一个状态S在强化学习模型策略/>下的预估价值;/>为强化学习模型参数;/>为初始状态,/>即表示在最优强化学习模型参数/>条件下的最大化价值函数。
梯度上升算法,以下为使用梯度上升算法的公式推导:
;
其中,为状态转移方程,/>表示基于策略/>在k步内从状态/>到状态s的转移概率。/>为状态转移过程中到达s的次数,q为使用策略/>时s状态下动作a的回报值,/>为所有状态的整体概率分布。由于模型参数只跟策略相关,跟状态分布无关,所以可以推导出以下结果:
;
按照上式求出梯度后,根据梯度上升算法更新模型参数:
;
公式中,表示在状态/>时选择动作a的回报值的估算方法,可以训练单独的神经网络对齐进行估算,比如该网络的输入为状态St以及动作a,输出为q,也可以是基于统计的方法,统计多个回合中状态St选择动作a的平均回报值,/>为学习率;/>表示时序为t+1时的强化学习模型参数;/>表示时序为t时的强化学习模型参数;/>表示所选择的策略(比如,在状态/>时选择动作a);/>表示梯度算子。
对于步骤4,根据之前的描述,强化学习模型采用稀疏奖励策略,在每个回合任务完成时给予较大的正奖励,比如100,其余每个步骤选择惩罚-1,加入惩罚的主要作用是为了让模型能够以尽可能少的步数完成任务以获得更多的奖励。那么就需要对RPA引擎执行指令后的每一个状态进行判断以给出合适的奖励。具体来说,在强化学习根据当前的任务指令以及状态选择动作a之后,RPA引擎会执行所选动作a,当前环境在接受动作a后到达状态S'。状态判断模块根据当前的任务目标对状态S'进行判定,确认是否完成当前任务,若完成任务,则给予正向奖励100,否则给予惩罚-1。该模块的训练与大模型同时进行,这部分的任务是一个简单的二分类任务,给定一段任务描述以及一个网页的html,模型判断该网页是否达到任务描述的指定页面。
任务执行和自动优化:在强化学习模型训练完成后,系统将自动应用这些模型来执行每个RPA步骤。模型根据实时数据和任务要求,智能地选择RPA组件和动作,如图3所示,将任务描述与当前状态输入到强化学习模型,模型会选择完成该任务所需的RPA组件与动作,并发送给RPA引擎去执行步骤。每个步骤的执行都是基于当前实时状态,确保整个任务能够顺利进行。
整个任务的执行:在各个模型训练完成以后,系统便可按照要求进行任务的拆解、选择、执行、反馈、选择、执行的循环进行下去,直到完成任务,具体过程如图3所示:
用户输入任务指令;
大模型(大语言模型)对任务指令进行拆解,生成执行该任务所需的若干步骤,每一个步骤都有详细的任务目标以及描述。
将每一个步骤的任务目标与描述,以及当前的状态输入到强化学习模型。模型通过计算,选择动作a,并将指令发送给RPA引擎。
RPA按照接受到指令进行对应的操作。当前环境在接受动作后,产生一个状态S'。
状态评分模块对该状态进行判断,是否完成当前任务。若未完成,则将该状态与当前的任务目标继续输入给强化学习模型进行下一轮循环,给出能完成当前任务的候选动作;若判定当前任务完成,则将该状态与下一个任务目标输入给强化学习模型,进行下一轮任务的执行。
完成所有步骤的任务后,模型接受任务完成指令,整个任务完成。
另外,本发明还提供了结合大语言模型与强化学习的RPA流程自动构建系统包括:
大语言模型训练模块,用于训练大语言模型,使大语言模型理解RPA任务的自然语言描述和RPA组件的功能;
任务解析和流程构建模块,用于将待解决的任务描述输入训练完后的大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;
强化学习模型训练模块,用于训练强化学习模型,进行组件和动作选择,并执行大语言模型生成的每个RPA步骤;
任务执行和自动优化模块,用于将转化的若干个可执行的RPA步骤输入到训练完后的强化学习模型,强化学习模型根据输入的RPA步骤自动选择对应的组件和动作并发送给RPA引擎进行执行;
指令接受模块,用于完成所有可执行的RPA步骤任务后,使强化学习模型接受任务完成指令,整个待解决的任务完成。
其中,任务执行和自动优化模块还包括:
状态评分模块,用于在RPA引擎执行动作任务后,对当前强化学习模型环境产生的每一个状态进行判断,以确定当前任务是否已完成。
基于本发明的技术方案,以如下案例场景来说明本发明在实际应用的实施过程,具体应用实施方案如下:
1.模型微调
该部分主要内容为定制大模型对RPA任务的理解能力以及大模型对每一个RPA引擎执行后的状态进行判定。
1.1任务理解训练数据的构造:
该部分数据为两部分,输入为用户需要执行的任务,输出为每一个任务的拆解步骤以及每一个步骤的任务目标。任务目标主要用于对强化学习模型与RPA引擎执行的反馈。数据包含两个关键任务,样例如下:
任务拆解示例数据一:
任务:查询京东上最畅销的笔记本电脑的品牌。
执行计划:
打开京东网页,该任务的完成标志为京东网页被打开;
在搜索框中输入“笔记本电脑”,并点击搜索按钮。该任务的完成标志为京东网站笔记本商品展示网页;
点击“销量”排序方式。该任务的完成标志为指定页面销量排序按钮被选择;
获取第一款笔记本电脑的品牌信息。该任务的完成标志为排名第一的笔记本电脑品牌信息被获取。
任务拆解示例数据二:
任务:打开百度并搜索TarS大模型。
执行计划:
打开百度网站,该任务的完成标志为进入百度搜索网站;
在搜索框中输“TarS大模型”,点击搜索按钮。该任务的完成标志为Tars大模型的搜索结果页面。
状态判定示例数据一:
输入:淘宝网站手机商品展示页面HTML页面编码数据+该步骤的完成标志为进入手机展示页面(任务目标)。
输出:是。
状态判定示例数据二:
输入:淘宝网站手机商品展示页面HTML页面编码数据+该步骤的完成标志为百度搜索页面(任务目标)。
输出:否。
2.任务执行
任务描述:用户需要打开淘宝网页,搜索最畅销的手机,然后将手机详情页的内容保存到本地文本文档中。
具体流程如下:
任务解析:
用户输入指令:“请帮我打开淘宝网页,并搜索最畅销的手机,并保存该手机详情页的内容到本地文本中。”
大型语言模型解析指令,将其转化为以下任务步骤,并为每个步骤添加完成与否的判断依据:
打开淘宝网页,该任务完成标志为淘宝网页页面被打开;
在搜索栏中输入“手机”并点击搜索按钮。该步骤的完成标志为进入手机展示页面。
点击销量排序按钮。该步骤的完成标志为销量排序按钮被选中。
打开最畅销手机的详情页。该步骤的完成标志为进入最畅销手机的详情页面。
保存详情页内容到本地文本。该步骤的完成标志为文本中保存了与详情页相同的数据。
任务执行:
每个任务步骤将被交给强化学习模型执行。
步骤1:打开淘宝网页:
强化学习模型按照当前的任务指令以及当前状态,选择RPA组件并发送给RPA引擎,RPA引擎通过运行RPA组件执行指令,并更新当前状态。之后大模型会根据当前完成任务目标判断任务是否完成。强化学习模型通过反复与RPA引擎的交互及反馈,正确选择RPA组件“打开网页”,并将淘宝网址作为参数填入。
在RPA引擎执行正确指令,打开淘宝网页。
大模型判定该步骤任务已经完成。进入下一个步骤。
步骤2:搜索手机:
强化学习模型按照当前的任务指令以及当前状态,选择RPA组件并发送给RPA引擎,RPA引擎通过运行RPA组件执行指令,并更新当前状态。之后大模型会根据当前完成任务目标判断任务是否完成。最终模型选择RPA组件“输入文本”并输入“手机”作为搜索内容。
同样的强化学习模型通过交互与反馈选择RPA组件“点击按钮”来模拟点击搜索按钮。
在RPA引擎执行正确指令,进入淘宝手机页面。
大模型判定该步骤任务已经完成。进入下一个步骤
步骤3:点击销量排序按钮:
强化学习模型通过交互与反馈选择RPA组件“点击按钮”,并根据语义的描述,确定要点击的按钮为销量排序按钮,来模拟点击销量排序按钮。
在大模型判定该步骤任务已经完成后,进入下一个步骤。
步骤4:打开手机详情页:
强化学习模型通过交互与反馈选择选择RPA组件“点击元素”,并指定点击排在最前位置的手机的链接。
RPA引擎执行指令,打开手机详情页。
大模型判定该步骤任务已经完成进入下一个步骤。
步骤5:保存内容到本地文本:
强化学习模型通过交互与反馈选择RPA组件“获取界面元素文本”,复制手机详情页的内容。
同样的,模型选择RPA组件“写入文件”并指定文件名“畅销手机详情”。
RPA引擎执行这些指令,将手机详情页的内容保存到本地文本文档中。
任务完成:
强化学习模型检查任务状态,确认任务已完成。
3.实施效果:
通过本发明的这个案例,描述了如何使用大型模型进行微调以及如何结合大模型的理解能力以及RPA的执行能力构建网页操作任务。它可以帮助用户完成一系列复杂的任务,而无需深入了解RPA的技术细节。
本发明通过结合大模型的理解能力与强化学习的探索能力独创性的提出一套智能化的RPA流程生成系统。
本发明的创新点如下:
1.系统架构:本发明包括一个整合的系统,它结合了大型语言模型(LLM)、强化学习模型和自动化流程引擎,用于执行RPA任务。该系统的核心是大型语言模型和强化学习模型,它们协同工作以理解用户的自然语言输入,并生成可执行的RPA任务步骤。
2.任务解析和拆解:本发明涵盖了如何将用户的任务描述分解为多个可执行的RPA步骤。这包括任务拆解示例数据,描述如何将用户输入的任务映射到具体的RPA引擎执行步骤,以及为每个步骤定义任务目标。
3.大型语言模型微调:本发明提出了如何通过对大型语言模型的微调,使其能够更好地理解与RPA任务相关的自然语言输入。这包括数据收集、训练方法和微调的过程,以适应特定领域和任务。
4.强化学习模型训练:本发明独创性地提出了一套强化学习模型的训练,用于执行每个RPA步骤,包括环境定义、状态判断、动作选择和奖励分配。这使系统能够根据反馈不断改进任务执行。
5.状态判断和任务优化:本发明包括一个状态判断模块,用于评估每个RPA引擎执行后的状态,以确定任务是否已完成。系统还具备任务自动优化的能力,以提高任务执行效率。
6.任务执行流程:整个任务执行流程,从用户输入任务指令到大型模型解析、强化学习模型执行RPA步骤,再到任务状态判断和自动优化。该流程能够高效地实现用户任务。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (7)
1.结合大语言模型与强化学习的RPA流程自动构建方法,其特征在于,包括如下步骤;
S1,训练大语言模型,用于理解RPA任务的自然语言描述和RPA组件的功能;
S2,将待解决的任务描述输入训练完后的大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;
S3,训练强化学习模型,用于进行组件和动作选择,并执行大语言模型生成的每个RPA步骤;
S4,将步骤S2转化的若干个可执行的RPA步骤输入到训练完后的强化学习模型,强化学习模型根据输入的RPA步骤自动选择对应的组件和动作并发送给RPA引擎进行执行;
S5,完成所有可执行的RPA步骤任务后,强化学习模型接受任务完成指令,整个待解决的任务完成;
步骤S3中,训练强化学习模型包括如下步骤:
S31,定义强化学习模型中的要素,包括环境、智能体、状态、动作和奖励;
S32,对强化学习模型输入当前的状态以及大语言模型生成的当前RPA步骤的任务目标描述,输出n维的soft_max函数,表示每个维度均为对应动作的概率,n为可选动作的数量;
其中,定义强化学习模型表现为:
公式中,J为价值函数的表示,为每一个状态S在强化学习模型策略πθ下的预估价值;θ为强化学习模型参数;S0为初始状态,Jθ即表示在最优强化学习模型参数θ条件下的最大化价值函数;
S33,根据梯度上升算法更新强化学习模型参数,具体公式如下:
公式中,q表示在状态St时选择动作a的回报值的估算方法,α为学习率;θt+1表示时序为t+1时的强化学习模型参数;θt表示时序为t时的强化学习模型参数;π表示所选择的策略;▽表示梯度算子;
步骤S4中,RPA引擎执行每一个RPA步骤对应的动作任务后,当前强化学习模型的环境会产生一个状态S',用于确定当前任务是否已完成;若当前任务未完成,则将产生的状态S'与当前的任务目标继续输入给强化学习模型进行下一轮循环,给出能完成当前任务的候选动作;若判定当前任务完成,则将产生的状态S'与下一个任务目标输入给强化学习模型,进行下一轮任务的执行。
2.根据权利要求1所述的结合大语言模型与强化学习的RPA流程自动构建方法,其特征在于,步骤S1中,训练大语言模型包括如下步骤:
S11,收集大量与RPA任务和RPA组件有关的文本数据;
S12,对步骤S11收集的数据进行清洗和预处理;所述清洗和预处理包括去除噪声、去除重复样本以及检验文本数据质量;
S13,选择一个现有的开源大型语言模型,并利用清洗和预处理后的数据进行自回归任务的训练,实现非监督学习;
S14,采用非监督学习任务微调完成的大语言模型为基础,构建监督学习任务;
S15,在无监督与监督学习训练过程中,分别采用对应任务的评估指标对大语言模型的性能进行评估,并根据实际需求进行调整。
3.根据权利要求2所述的结合大语言模型与强化学习的RPA流程自动构建方法,其特征在于,步骤S11中,所述文本数据包括:
RPA任务的描述和示例;
RPA组件的功能和用法说明;
RPA平台的文档和教程;
与RPA相关的技术文章和博客;
RPA任务的执行记录和日志;
带有注释的HTML代码;
网页HTML代码以及对当前的页面描述。
4.根据权利要求2所述的结合大语言模型与强化学习的RPA流程自动构建方法,其特征在于,步骤S14中,所述监督学习任务包括:
根据任务描述,生成对应的组件名和组件需要操作的元素描述;
根据组件名生成对应的描述;
命名实体识别任务;
给定一个网页,以及所述网页相关的描述,判定所述描述和网页是否匹配;
给定一个RPA任务指令,生成一段RPA流程,并对每个步骤进行解释。
5.根据权利要求1所述的结合大语言模型与强化学习的RPA流程自动构建方法,其特征在于,步骤S2中,所述可执行的RPA步骤包括对输入数据、处理方式、当前状态以及输出格式的详细描述。
6.结合大语言模型与强化学习的RPA流程自动构建系统,用于实现权利要求1-5任一项所述的结合大语言模型与强化学习的RPA流程自动构建方法,其特征在于,所述结合大语言模型与强化学习的RPA流程自动构建系统包括:
大语言模型训练模块,用于训练大语言模型,使大语言模型理解RPA任务的自然语言描述和RPA组件的功能;
任务解析和流程构建模块,用于将待解决的任务描述输入训练完后的大语言模型,进行自动解析和分解任务,并转化为若干个可执行的RPA步骤;
强化学习模型训练模块,用于训练强化学习模型,进行组件和动作选择,并执行大语言模型生成的每个RPA步骤;
任务执行和自动优化模块,用于将转化的若干个可执行的RPA步骤输入到训练完后的强化学习模型,强化学习模型根据输入的RPA步骤自动选择对应的组件和动作并发送给RPA引擎进行执行;
指令接受模块,用于完成所有可执行的RPA步骤任务后,使强化学习模型接受任务完成指令,整个待解决的任务完成。
7.根据权利要求6所述的结合大语言模型与强化学习的RPA流程自动构建系统,其特征在于,所述任务执行和自动优化模块还包括:
状态评分模块,用于在RPA引擎执行动作任务后,对当前强化学习模型环境产生的每一个状态进行判断,以确定当前任务是否已完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410110036.9A CN117634867B (zh) | 2024-01-26 | 2024-01-26 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410110036.9A CN117634867B (zh) | 2024-01-26 | 2024-01-26 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117634867A CN117634867A (zh) | 2024-03-01 |
CN117634867B true CN117634867B (zh) | 2024-05-24 |
Family
ID=90027276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410110036.9A Active CN117634867B (zh) | 2024-01-26 | 2024-01-26 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117634867B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118114742B (zh) * | 2024-03-19 | 2024-10-01 | 北京智谱华章科技有限公司 | 一种基于大语言模型的网页导航智能体的训练方法 |
CN118070870B (zh) * | 2024-04-19 | 2024-08-13 | 福建亿榕信息技术有限公司 | 基于用户反馈强化学习的电力专业大模型优化方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926151A (zh) * | 2022-06-21 | 2022-08-19 | 中关村科学城城市大脑股份有限公司 | 一种基于强化学习的rpa流程自动生成方法和装置 |
CN116578403A (zh) * | 2023-07-10 | 2023-08-11 | 安徽思高智能科技有限公司 | 一种基于深度强化学习的rpa流程调度方法及系统 |
CN116610082A (zh) * | 2023-07-18 | 2023-08-18 | 安徽思高智能科技有限公司 | 基于深度强化学习的rpa作业工作流冗余调度方法及系统 |
CN116820711A (zh) * | 2023-06-07 | 2023-09-29 | 上海幽孚网络科技有限公司 | 任务驱动的自治代理算法 |
CN116841708A (zh) * | 2023-06-08 | 2023-10-03 | 浙江大学 | 一种基于智能规划的多智能体强化学习方法 |
CN117076640A (zh) * | 2023-08-23 | 2023-11-17 | 成都农村商业银行股份有限公司 | 一种中文推理任务模型构建方法、装置、设备及介质 |
CN117112082A (zh) * | 2023-08-31 | 2023-11-24 | 科大讯飞股份有限公司 | 任务执行方法、装置、系统、设备及存储介质 |
CN117196546A (zh) * | 2023-11-08 | 2023-12-08 | 杭州实在智能科技有限公司 | 基于页面状态理解和大模型驱动的rpa流程执行系统及方法 |
CN117311798A (zh) * | 2023-11-28 | 2023-12-29 | 杭州实在智能科技有限公司 | 基于大语言模型的rpa流程生成系统及方法 |
CN117390336A (zh) * | 2023-11-10 | 2024-01-12 | 太保科技有限公司 | 一种网页流程自动化方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11775860B2 (en) * | 2019-10-15 | 2023-10-03 | UiPath, Inc. | Reinforcement learning in robotic process automation |
-
2024
- 2024-01-26 CN CN202410110036.9A patent/CN117634867B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926151A (zh) * | 2022-06-21 | 2022-08-19 | 中关村科学城城市大脑股份有限公司 | 一种基于强化学习的rpa流程自动生成方法和装置 |
CN116820711A (zh) * | 2023-06-07 | 2023-09-29 | 上海幽孚网络科技有限公司 | 任务驱动的自治代理算法 |
CN116841708A (zh) * | 2023-06-08 | 2023-10-03 | 浙江大学 | 一种基于智能规划的多智能体强化学习方法 |
CN116578403A (zh) * | 2023-07-10 | 2023-08-11 | 安徽思高智能科技有限公司 | 一种基于深度强化学习的rpa流程调度方法及系统 |
CN116610082A (zh) * | 2023-07-18 | 2023-08-18 | 安徽思高智能科技有限公司 | 基于深度强化学习的rpa作业工作流冗余调度方法及系统 |
CN117076640A (zh) * | 2023-08-23 | 2023-11-17 | 成都农村商业银行股份有限公司 | 一种中文推理任务模型构建方法、装置、设备及介质 |
CN117112082A (zh) * | 2023-08-31 | 2023-11-24 | 科大讯飞股份有限公司 | 任务执行方法、装置、系统、设备及存储介质 |
CN117196546A (zh) * | 2023-11-08 | 2023-12-08 | 杭州实在智能科技有限公司 | 基于页面状态理解和大模型驱动的rpa流程执行系统及方法 |
CN117390336A (zh) * | 2023-11-10 | 2024-01-12 | 太保科技有限公司 | 一种网页流程自动化方法、装置、设备及存储介质 |
CN117311798A (zh) * | 2023-11-28 | 2023-12-29 | 杭州实在智能科技有限公司 | 基于大语言模型的rpa流程生成系统及方法 |
Non-Patent Citations (1)
Title |
---|
工商银行自动化机器学习技术探索与实践;王雅欣等;人工智能;20200628;2020年卷(第03期);第54-63页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117634867A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | A survey of human-in-the-loop for machine learning | |
CN117634867B (zh) | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 | |
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN113641586B (zh) | 软件源代码缺陷检测方法、系统、电子设备及储存介质 | |
US20050049913A1 (en) | Method and apparatus for automated feature selection | |
US11423333B2 (en) | Mechanisms for continuous improvement of automated machine learning | |
CN112115264B (zh) | 面向数据分布变化的文本分类模型调整方法 | |
CN110929119A (zh) | 数据标注方法、装置、设备及计算机存储介质 | |
Kapur et al. | Towards a Knowledge warehouse and expert system for the automation of SDLC tasks | |
CN118193711A (zh) | 基于大语言模型的水务行业知识问答系统实现方法和系统 | |
US20240281446A1 (en) | Enhanced searching using fine-tuned machine learning models | |
CN118227106A (zh) | 代码补全方法、装置、电子设备和介质 | |
Mahene et al. | Automated dynamic data generation for safety alignment in large language models | |
CN112181814A (zh) | 一种针对于缺陷报告的多标签标记方法 | |
WO2022253682A1 (en) | System for harnessing knowledge and expertise to improve machine learning | |
CN115292167A (zh) | 生命周期预测模型构建方法、装置、设备及可读存储介质 | |
CN117540012B (zh) | 文本生成方法以及系统 | |
CN112861440B (zh) | 一种面向各类应用的软件机器人系统及其工作方法 | |
CN118276826B (zh) | 一种基于大语言模型的对话式软件功能生成方法及系统 | |
CN113051366B (zh) | 专业领域论文的批量实体抽取方法及系统 | |
CN116932037B (zh) | 一种基于生成式大模型的软件系统配置生成方法与系统 | |
CN118331152B (zh) | 基于自然语言大模型的工业控制系统逻辑优化方法及系统 | |
Ksiksi | FARUL3S: a New Framework for Agile Regulated Ultra-Large-Scale Software Systems | |
CN118227653A (zh) | 全链路的自然语言转换为结构化查询语言的方法 | |
CN116827840A (zh) | 软件系统开发、测试环境智能验证手机验证码的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |