CN114926151A - 一种基于强化学习的rpa流程自动生成方法和装置 - Google Patents
一种基于强化学习的rpa流程自动生成方法和装置 Download PDFInfo
- Publication number
- CN114926151A CN114926151A CN202210704867.XA CN202210704867A CN114926151A CN 114926151 A CN114926151 A CN 114926151A CN 202210704867 A CN202210704867 A CN 202210704867A CN 114926151 A CN114926151 A CN 114926151A
- Authority
- CN
- China
- Prior art keywords
- rpa
- project
- parameters
- reinforcement learning
- control strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 165
- 230000002787 reinforcement Effects 0.000 title claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 123
- 238000011217 control strategy Methods 0.000 claims abstract description 61
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000009471 action Effects 0.000 claims description 35
- 238000004088 simulation Methods 0.000 claims description 35
- 238000011156 evaluation Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 6
- 238000011161 development Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供的一种基于强化学习的RPA流程自动生成方法和装置,该方法获取历史项目中的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数,输入至强化学习模型中训练,得到满足预设要求的控制策略模型,最终应用于可视化RPA流程自动处理平台生成可视化RPA流程。本发明利用强化学习高效的学习能力,最终产生可运行的RPA流程,实现了从流程设计文档到可执行流程文件的直接转化,使用户能够根据业务需求来自动生成RPA流程,减少企业人力、物力、财力的消耗,也节约RPA项目实施中的开发成本。
Description
技术领域
本发明涉及深度学习技术领域,具体涉及一种基于强化学习的RPA流程自动生成方法和装置。
背景技术
RPA是通过特定的“机器人”软件,模拟人在计算机上的操作,按规则自动执行流程任务,通过“机器人”操作替代重复、有规则地、稳定地人工操作的技术,为了通过RPA协助人工进行作业,需要把人工流程挖掘出来,以便RPA机器人执行这些流程,从而实现替代人工作业。目前,基本依靠人工来挖掘这些流程,然而,人工挖掘流程的方式,存在挖掘效率较低的问题。
目前,RPA技术普及程度较低,还需要大量人工来制作RPA流程,容易造成公司人力、物力、财力的消耗,从而增加RPA项目实施中的开发成本。
发明内容
为了解决上述问题,本发明提供一种基于强化学习的RPA流程自动生成方法和装置,该方法利用强化学习高效的学习能力,最终产生可运行的RPA流程,实现了从流程设计文档到可执行流程文件的直接转化,使用户能够根据业务需求来自动生成RPA流程,减少企业人力、物力、财力的消耗,也节约RPA项目实施中的开发成本。其具体技术方案如下:
本发明实施例提供的一种基于强化学习的RPA流程自动生成方法,包括步骤:
选取满足预设要求的可视化RPA流程自动处理平台,即机器人流程自动化,是一种在电脑上通过界面操作的方式编制流程,以方便实现办公自动化的技术。目前多家国内外厂商均提供了各式各样的RPA产品。这些产品虽然功能不尽相同,但几乎都包括流程设计平台。通常,将RPA流程设计平台称为“RPA设计器”。尽管大多数RPA设计器已经对业务用户常用的自动化操作(如鼠标点击,键盘录入等)进行了封装(通常将封装后的组件称为“活动”),以方便用户以界面操作的方式进行流程的编制。本发明选取具备可视化RPA流程的自动处理平台,采用流程生成技术将结果转化为RPA设计器可读的代码文件,借用RPA设计器的代码解析能力,最终实现可运行的自动化流程。从最终用户角度来看,只要输入RPA需求便可得到可运行的RPA流程文件。选择可视化RPA流程自动处理平台,功能化模块包含流程控制模块、系统组件模块、浏览器模块、数据处理模块、代码工具模块等核心模块。其中流程控制模块提供流程控制组件,包括开始、判断、流程、子流程等组件;浏览器模块提供针对浏览器的具体操作,包括浏览器启动、关闭、刷新、前进、后退、获取元素、获取元素值等操作;数据处理模块提供各类数据的相关操作,包括数据库表的增删改查操作、字符串操作、JSON操作等;代码工具模块提供各类代码的编译执行,包括JS代码、Java代码等常用语言;
获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数;
利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练,得到满足预设要求的控制策略模型;
将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台,生成与所述待生成项目相对应的RPA流程。
进一步的,所述利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练,得到满足预设要求的控制策略模型,具体包括步骤:
基于所述可视化RPA流程自动处理平台选定强化学习算法,所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络;
将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络,目标动作网络通过对应目标动作的控制策略模型,使可视化RPA流程自动处理平台生成相应的RPA流程,得到与所述生成的RPA流程对应的仿真结果参数;
当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比,目标评价网络对生成的RPA流程做出评价,然后通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型。
进一步的,所述当前动作网络与目标动作网络之间以及当前评价网络与目标评价网络之间均通过软更新方式传输参数。
进一步的,通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型,具体包括:
将仿真结果参数与真实结果参数的各个参数进行对比,若满足精度要求,则输出控制策略模型;
若不满足要求,根据真实结果参数对仿真结果参数进行三级分层修正,生成奖励数据以及损失函数;
将所述损失函数以及奖励数据反馈至强化学习算法中,更新控制策略模型。
其中涉及的强化学习模型的公式为Qtartget=R+γmaxaQ(s′,a),公式中S’表示当前RPA程序和流程状态,a为当前状态下的流程生成动作,R表示当前状态下的奖励数据,Q表示当前状态下的控制策略模型,γ作为影响因子,Qtarget表示经过强化学习后更新的控制策略模型。
进一步的,所述对仿真结果参数进行三级分层修正,生成奖励数据,包括:第一层奖励以当前步骤参数与逆解步骤参数的绝对值差的相反数作为分级奖励数据;第二层奖励以流程末端与真实结果差距的相反数作为距离奖励数据,以当前步骤参数与实际参数的绝对值差的相反数作为节点奖励并引入log函数控制奖励数据的值域。
本发明的第二方面还提供一种基于强化学习的RPA流程自动生成装置,包括:
选取模块,用于选取满足预设要求的可视化RPA流程自动处理平台;
获取模块,用于获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数;
训练模块,用于利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练,得到满足预设要求的控制策略模型;
生成模块,用于将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台,生成与所述待生成项目相对应的可视化RPA流程。
进一步的,所述训练模块包括:
选取子单元,用于将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数参与训练,基于所述可视化RPA流程自动处理平台选定强化学习算法,所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络;
将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络,目标动作网络通过对应目标动作的控制策略模型,使可视化RPA流程自动处理平台生成相应的RPA流程,得到与所述生成的RPA流程对应的仿真结果参数;
当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比,目标评价网络对生成的RPA流程做出评价,然后通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型。
进一步的,还包括优化模块,用于
将仿真结果参数与真实结果参数的各个参数进行对比,若满足精度要求,则输出控制策略模型;
若不满足要求,根据真实结果参数对仿真结果参数进行三级分层修正,生成奖励数据以及损失函数;
将所述损失函数以及奖励数据反馈至强化学习算法中,更新控制策略模型。
本发明的第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述所述的基于强化学习的RPA流程自动生成方法。
本发明的第四方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的基于强化学习的RPA流程自动生成方法。
本发明实施例提供的一种基于强化学习的RPA流程自动生成方法和装置,该方法获取历史项目中的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数,输入至强化学习模型中训练,得到满足预设要求的控制策略模型,最终输入至可视化RPA流程自动处理平台生成RPA流程。本发明利用强化学习高效的学习能力,最终产生可运行的自动化流程,实现了从流程设计文档到可执行流程文件的直接转化,使用户能够根据业务需求来自动生成RPA流程,减少企业人力、物力、财力的消耗,也节约RPA项目实施中的开发成本。
进一步的,本发明采用强化学习算法对控制策略模型进行训练,使RPA平台生成相应的RPA流程,之后对比正确的预先设置的RPA流程结果对自动产生的RPA流程做出评价,然后通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型,提高了模型参数的准确度,进而提高了学习的效率,能够产生效率更高的RPA流程。
附图说明
图1是本发明一种基于强化学习的RPA流程自动生成方法流程图;
图2是本发明一种基于强化学习的RPA流程自动生成方法强化学习过程流程图;
图3是本发明中用的强化学习模型。
具体实施方式
以下结合附图对本发明进行说明,但不用来限制本发明的范围。
参见图1是本发明一种基于强化学习的RPA流程自动生成方法流程图,包括:
S1:选取满足预设要求的可视化RPA流程自动处理平台。
S2:获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数。
S3:利用所述历史项目的工作流程、项目资料、项目资料、项目参数及所述历史项目的工作流程对应的结果参数对强化学习模型进行训练,得到满足预设要求的控制策略模型。
图2是本发明一种基于强化学习的RPA流程自动生成方法强化学习过程流程图,在本发明实施例中,具体包括步骤:
(1)将RPA软件环境作为初始化状态。
(2)以多个历史项目中的RPA流程节点为参照,记录真实流程中各个节点的参数,包括中间节点参数和最终RPA流程配置参数;中间节点参数包括:历史项目的工作流程、项目资料、项目参数等。
(3)在强化学习算法中生成控制策略;所述控制策略的生成包括步骤:
将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数参与训练,基于所述可视化RPA流程自动处理平台选定强化学习算法,如图3所示,所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络;
将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络,目标动作网络通过对应目标动作的控制策略模型,使可视化RPA流程自动处理平台生成相应的RPA流程,得到与所述生成的RPA流程对应的仿真结果参数;
当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比,目标评价网络对生成的RPA流程做出评价,然后通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型。
(4)设定新的项目目标;该新的项目目标即为待生成项目的项目需求。
S4:将所述待生成项目的项目需求和生成的控制策略模型输入至可视化RPA流程自动处理平台,生成RPA流程。
参见图2,承接上述步骤(5),根据待生成项目的项目需求和生成的控制策略模型,生成与所述待生成项目相对应的RPA流程,并得到生成的RPA流程的仿真结果参数;
在本发明实施例的可选实施方式中,为了能够获得较高精度要求的控制策略模型,本发明将自动产生的仿真结果参数与预先设置的正确结果参数进行对比判断,判断该仿真结果参数是否符合精度要求,符合要求则输出为控制模型;如果不符合要求则对自动产生的结果进行修正,生成奖励数据并将结果参数和奖励数据输入强化学习算法中并对控制策略进行再训练更新,并返回执行(4);
在本发明实施例的可选实施方式中,生成奖励数据时采用三层奖励的方式,第一层奖励以当前RPA流程步骤参数与逆解RPA流程步骤参数的绝对值差的相反数作为分级奖励;第二层奖励以流程末端与真实结果差距的相反数作为距离奖励,以当前步骤参数与实际参数的绝对值差的相反数作为节点奖励并引入log函数控制奖励的值域;第三层奖励为精度奖励。通过三层奖励数据,能够有效地提升强化学习算法的收敛速度。
本发明实施例提供的一种基于强化学习的RPA流程自动生成方法和装置,该方法获取历史项目中的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数,输入至强化学习模型中训练,得到满足预设要求的控制策略模型,最终输入至可视化RPA流程自动处理平台生成RPA流程。本发明利用强化学习高效的学习能力,最终产生可运行的自动化流程,实现了从流程设计文档到可执行流程文件的直接转化,使用户能够根据业务需求来自动生成RPA流程,减少企业人力、物力、财力的消耗,也节约RPA项目实施中的开发成本。
本发明的第二方面还提供一种基于强化学习的RPA流程自动生成装置,包括:
选取模块,用于选取满足预设要求的可视化RPA流程自动处理平台;
获取模块,用于获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数;
训练模块,用于利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数对强化学习模型进行训练,得到满足预设要求的控制策略模型;
生成模块,用于将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台,生成与所述待生成项目相对应的可视化RPA流程。
进一步的,所述训练模块包括:
选取子单元,用于将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数参与训练,基于所述可视化RPA流程自动处理平台选定强化学习算法,所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络;
将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络,目标动作网络通过对应目标动作的控制策略模型,使可视化RPA流程自动处理平台生成相应的RPA流程,得到与所述生成的RPA流程对应的仿真结果参数;
当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比,目标评价网络对生成的RPA流程做出评价,然后通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型。
进一步的,还包括优化模块,用于
将仿真结果参数与真实结果参数的各个参数进行对比,若满足精度要求,则输出控制策略模型;
若不满足要求,根据真实结果参数对仿真结果参数进行三级分层修正,生成奖励数据以及损失函数;
将所述损失函数以及奖励数据反馈至强化学习算法中,更新控制策略模型。
本发明的第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述所述的基于强化学习的RPA流程自动生成方法。
本发明的第四方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的基于强化学习的RPA流程自动生成方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种基于强化学习的RPA流程自动生成方法,其特征在于,包括步骤:
选取满足预设要求的可视化RPA流程自动处理平台;
获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数;
利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练,得到满足预设要求的控制策略模型;
将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台,生成与所述待生成项目相对应的RPA流程。
2.根据权利要求1所述的基于强化学习的RPA流程自动生成方法,其特征在于,所述利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练,得到满足预设要求的控制策略模型,具体包括步骤:
将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数参与训练,基于所述可视化RPA流程自动处理平台选定强化学习算法,所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络;
将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络,目标动作网络通过对应目标动作的控制策略模型,使可视化RPA流程自动处理平台生成相应的RPA流程,得到与所述生成的RPA流程对应的仿真结果参数;
当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比,目标评价网络对生成的RPA流程做出评价,通过三层奖励机制对控制策略模型进行修正,生成满足精度要求的控制策略模型。
3.根据权利要求2所述的基于强化学习的RPA流程自动生成方法,其特征在于,所述当前动作网络与目标动作网络之间以及当前评价网络与目标评价网络之间均通过软更新方式传输参数。
4.根据权利要求2所述的基于强化学习的RPA流程自动生成方法,其特征在于,通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型,具体包括:
将仿真结果参数与真实结果参数的各个参数进行对比,若所述仿真结果参数满足精度要求,则输出控制策略模型;
若所述仿真结果参数不满足要求,则根据真实结果参数对仿真结果参数进行三级分层修正,生成奖励数据以及损失函数;
将所述损失函数以及奖励数据反馈至强化学习算法中,更新控制策略模型。
5.根据权利要求4所述的基于强化学习的RPA流程自动生成方法,其特征在于,所述对仿真结果参数进行三级分层修正,生成奖励数据包括:第一层奖励以当前步骤参数与逆解步骤参数的绝对值差的相反数作为分级奖励数据;第二层奖励以流程末端与真实结果差距的相反数作为距离奖励数据,以当前步骤参数与实际参数的绝对值差的相反数作为节点奖励并引入log函数控制奖励数据的值域;第三层奖励为精度奖励。
6.一种基于强化学习的RPA流程自动生成装置,其特征在于,包括:
选取模块,用于选取满足预设要求的可视化RPA流程自动处理平台;
获取模块,用于获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数;
训练模块,用于利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练,得到满足预设要求的控制策略模型;
生成模块,用于将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台,生成与所述待生成项目相对应的RPA流程。
7.根据权利要求6所述的基于强化学习的RPA流程自动生成装置,其特征在于,所述训练模块包括:
选取子单元,用于将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数参与训练,基于所述可视化RPA流程自动处理平台选定强化学习算法,所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络;
将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络,目标动作网络通过对应目标动作的控制策略模型,使可视化RPA流程自动处理平台生成相应的RPA流程,得到与所述生成的RPA流程对应的仿真结果参数;
当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比,目标评价网络对生成的RPA流程做出评价,然后通过三层奖励机制对控制策略模型进行修正,最终经过不断学习过程生成满足精度要求的控制策略模型。
8.根据权利要求7所述的基于强化学习的RPA流程自动生成装置,其特征在于,还包括优化模块,用于
将仿真结果参数与真实结果参数的各个参数进行对比,若满足精度要求,则输出控制策略模型;
若不满足要求,根据真实结果参数对仿真结果参数进行三级分层修正,生成奖励数据以及损失函数;
将所述损失函数以及奖励数据反馈至强化学习算法中,更新控制策略模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理权利要求1-5任一所述的基于强化学习的RPA流程自动生成方法。
10.一种电子设备,其特征在于,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1-5任一所述的基于强化学习的RPA流程自动生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210704867.XA CN114926151A (zh) | 2022-06-21 | 2022-06-21 | 一种基于强化学习的rpa流程自动生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210704867.XA CN114926151A (zh) | 2022-06-21 | 2022-06-21 | 一种基于强化学习的rpa流程自动生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114926151A true CN114926151A (zh) | 2022-08-19 |
Family
ID=82815158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210704867.XA Pending CN114926151A (zh) | 2022-06-21 | 2022-06-21 | 一种基于强化学习的rpa流程自动生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926151A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057756A (zh) * | 2023-10-11 | 2023-11-14 | 深圳市加推科技有限公司 | 基于rpa技术的客户关系管理方法、装置及相关介质 |
CN117634867A (zh) * | 2024-01-26 | 2024-03-01 | 杭州实在智能科技有限公司 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016889A (zh) * | 2020-08-24 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 流程构建方法、装置、电子设备及存储介质 |
CN112163420A (zh) * | 2020-09-23 | 2021-01-01 | 北京天行有灵科技有限公司 | 一种基于nlp技术的rpa流程自动生成方法 |
CN112528552A (zh) * | 2020-10-23 | 2021-03-19 | 洛阳银杏科技有限公司 | 一种基于深度强化学习的机械臂控制模型构建方法 |
US20210109487A1 (en) * | 2019-10-15 | 2021-04-15 | UiPath, Inc. | Media-to-workflow generation using artificial intelligence (ai) |
US20210125124A1 (en) * | 2019-10-25 | 2021-04-29 | Accenture Global Solutions Limited | Utilizing a machine learning model to manage a project release |
CN114168234A (zh) * | 2021-12-07 | 2022-03-11 | 北京达佳互联信息技术有限公司 | 微服务流程的处理方法、装置、电子设备及存储介质 |
CN114586049A (zh) * | 2019-10-15 | 2022-06-03 | 尤帕斯公司 | 使用机器学习来自动完成机器人流程自动化工作流 |
-
2022
- 2022-06-21 CN CN202210704867.XA patent/CN114926151A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210109487A1 (en) * | 2019-10-15 | 2021-04-15 | UiPath, Inc. | Media-to-workflow generation using artificial intelligence (ai) |
CN112668988A (zh) * | 2019-10-15 | 2021-04-16 | 尤帕斯公司 | 使用人工智能(ai)的媒体到工作流生成 |
CN114586049A (zh) * | 2019-10-15 | 2022-06-03 | 尤帕斯公司 | 使用机器学习来自动完成机器人流程自动化工作流 |
US20210125124A1 (en) * | 2019-10-25 | 2021-04-29 | Accenture Global Solutions Limited | Utilizing a machine learning model to manage a project release |
CN112016889A (zh) * | 2020-08-24 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 流程构建方法、装置、电子设备及存储介质 |
CN112163420A (zh) * | 2020-09-23 | 2021-01-01 | 北京天行有灵科技有限公司 | 一种基于nlp技术的rpa流程自动生成方法 |
CN112528552A (zh) * | 2020-10-23 | 2021-03-19 | 洛阳银杏科技有限公司 | 一种基于深度强化学习的机械臂控制模型构建方法 |
CN114168234A (zh) * | 2021-12-07 | 2022-03-11 | 北京达佳互联信息技术有限公司 | 微服务流程的处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
桑塔努·帕塔纳亚克, 机械工业出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057756A (zh) * | 2023-10-11 | 2023-11-14 | 深圳市加推科技有限公司 | 基于rpa技术的客户关系管理方法、装置及相关介质 |
CN117634867A (zh) * | 2024-01-26 | 2024-03-01 | 杭州实在智能科技有限公司 | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114926151A (zh) | 一种基于强化学习的rpa流程自动生成方法和装置 | |
JP6033891B2 (ja) | 状態図の生成 | |
US20220284286A1 (en) | Method and apparatus for providing recommendations for completion of an engineering project | |
Grif et al. | Methods of desingning and modeling of man-machine systems | |
CN111159951B (zh) | 一种基于abaqus有限元与边界元的耦合方法 | |
Brodsky et al. | A system and architecture for reusable abstractions of manufacturing processes | |
CN113886362A (zh) | 基于工作流引擎及低代码平台的数据存储系统及存储方法 | |
WO2020162884A1 (en) | Parameter suggestion system | |
CN114691148A (zh) | 模型推理加速方法、装置、电子设备及存储介质 | |
CN115562629A (zh) | 一种rpa流程表示方法、系统、装置及存储介质 | |
CN113655996B (zh) | 一种基于需求模型的企业级系统生成方法 | |
CN104462705A (zh) | 一种基于微粒群算法的夹具装配序列规划方法 | |
CN111125451B (zh) | 数据生产加工方法、装置、电子设备及存储介质 | |
Waterman et al. | How much architecture? Reducing the up-front effort | |
Dittmer | Programmer Productivity Enhancement Through Controlled Natural Language Input | |
CN104731700A (zh) | 一种支持表格驱动局部数据的单元测试系统和方法 | |
CN109062556A (zh) | 一种多返回值的函数编程系统 | |
Crăciunean et al. | Conceptualization of modelling methods in the context of categorical mechanisms | |
Lang | A graphical toolkit for ISA-95: empowering end users to develop bridges between ERP and MES | |
US20220414573A1 (en) | Method and system for semi-automatic completion of an engineering project | |
CN109117124A (zh) | 一种多返回值的函数编程方法 | |
Chang et al. | Software Process Selection based upon Abstract Machines for Software Process Models | |
Karniel et al. | Rules for Implementating Dynamic Changes in DSM-Based Plans | |
CN114154249A (zh) | 火箭参数管理方法、装置、终端设备及介质 | |
CN114564181A (zh) | 一种应用层模型与底层c代码的集成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220819 |
|
RJ01 | Rejection of invention patent application after publication |