CN114926151A

CN114926151A - 一种基于强化学习的rpa流程自动生成方法和装置

Info

Publication number: CN114926151A
Application number: CN202210704867.XA
Authority: CN
Inventors: 王�琦; 马亚中; 梅一多; 谷雨明; 徐大鹏; 孙雨辰
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-08-19

Abstract

本发明实施例提供的一种基于强化学习的RPA流程自动生成方法和装置，该方法获取历史项目中的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数，输入至强化学习模型中训练，得到满足预设要求的控制策略模型，最终应用于可视化RPA流程自动处理平台生成可视化RPA流程。本发明利用强化学习高效的学习能力，最终产生可运行的RPA流程，实现了从流程设计文档到可执行流程文件的直接转化，使用户能够根据业务需求来自动生成RPA流程，减少企业人力、物力、财力的消耗，也节约RPA项目实施中的开发成本。

Description

一种基于强化学习的RPA流程自动生成方法和装置

技术领域

本发明涉及深度学习技术领域，具体涉及一种基于强化学习的RPA流程自动生成方法和装置。

背景技术

RPA是通过特定的“机器人”软件，模拟人在计算机上的操作，按规则自动执行流程任务，通过“机器人”操作替代重复、有规则地、稳定地人工操作的技术，为了通过RPA协助人工进行作业，需要把人工流程挖掘出来，以便RPA机器人执行这些流程，从而实现替代人工作业。目前，基本依靠人工来挖掘这些流程，然而，人工挖掘流程的方式，存在挖掘效率较低的问题。

目前，RPA技术普及程度较低，还需要大量人工来制作RPA流程，容易造成公司人力、物力、财力的消耗，从而增加RPA项目实施中的开发成本。

发明内容

为了解决上述问题，本发明提供一种基于强化学习的RPA流程自动生成方法和装置，该方法利用强化学习高效的学习能力，最终产生可运行的RPA流程，实现了从流程设计文档到可执行流程文件的直接转化，使用户能够根据业务需求来自动生成RPA流程，减少企业人力、物力、财力的消耗，也节约RPA项目实施中的开发成本。其具体技术方案如下：

本发明实施例提供的一种基于强化学习的RPA流程自动生成方法，包括步骤：

选取满足预设要求的可视化RPA流程自动处理平台，即机器人流程自动化，是一种在电脑上通过界面操作的方式编制流程，以方便实现办公自动化的技术。目前多家国内外厂商均提供了各式各样的RPA产品。这些产品虽然功能不尽相同，但几乎都包括流程设计平台。通常，将RPA流程设计平台称为“RPA设计器”。尽管大多数RPA设计器已经对业务用户常用的自动化操作(如鼠标点击，键盘录入等)进行了封装(通常将封装后的组件称为“活动”)，以方便用户以界面操作的方式进行流程的编制。本发明选取具备可视化RPA流程的自动处理平台，采用流程生成技术将结果转化为RPA设计器可读的代码文件，借用RPA设计器的代码解析能力，最终实现可运行的自动化流程。从最终用户角度来看，只要输入RPA需求便可得到可运行的RPA流程文件。选择可视化RPA流程自动处理平台，功能化模块包含流程控制模块、系统组件模块、浏览器模块、数据处理模块、代码工具模块等核心模块。其中流程控制模块提供流程控制组件，包括开始、判断、流程、子流程等组件；浏览器模块提供针对浏览器的具体操作，包括浏览器启动、关闭、刷新、前进、后退、获取元素、获取元素值等操作；数据处理模块提供各类数据的相关操作，包括数据库表的增删改查操作、字符串操作、JSON操作等；代码工具模块提供各类代码的编译执行，包括JS代码、Java代码等常用语言；

获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数；

利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练，得到满足预设要求的控制策略模型；

将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台，生成与所述待生成项目相对应的RPA流程。

进一步的，所述利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练，得到满足预设要求的控制策略模型，具体包括步骤：

基于所述可视化RPA流程自动处理平台选定强化学习算法，所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络；

将所述历史项目的工作流程、项目资料、项目参数输入至所述当前动作网络，目标动作网络通过对应目标动作的控制策略模型，使可视化RPA流程自动处理平台生成相应的RPA流程，得到与所述生成的RPA流程对应的仿真结果参数；

当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比，目标评价网络对生成的RPA流程做出评价，然后通过三层奖励机制对控制策略模型进行修正，最终经过不断学习过程生成满足精度要求的控制策略模型。

进一步的，所述当前动作网络与目标动作网络之间以及当前评价网络与目标评价网络之间均通过软更新方式传输参数。

进一步的，通过三层奖励机制对控制策略模型进行修正，最终经过不断学习过程生成满足精度要求的控制策略模型，具体包括：

将仿真结果参数与真实结果参数的各个参数进行对比，若满足精度要求，则输出控制策略模型；

若不满足要求，根据真实结果参数对仿真结果参数进行三级分层修正，生成奖励数据以及损失函数；

将所述损失函数以及奖励数据反馈至强化学习算法中，更新控制策略模型。

其中涉及的强化学习模型的公式为Q_tartget＝R+γmax_aQ(s′，a)，公式中S’表示当前RPA程序和流程状态，a为当前状态下的流程生成动作，R表示当前状态下的奖励数据，Q表示当前状态下的控制策略模型，γ作为影响因子，Q_target表示经过强化学习后更新的控制策略模型。

进一步的，所述对仿真结果参数进行三级分层修正，生成奖励数据，包括：第一层奖励以当前步骤参数与逆解步骤参数的绝对值差的相反数作为分级奖励数据；第二层奖励以流程末端与真实结果差距的相反数作为距离奖励数据，以当前步骤参数与实际参数的绝对值差的相反数作为节点奖励并引入log函数控制奖励数据的值域。

本发明的第二方面还提供一种基于强化学习的RPA流程自动生成装置，包括：

选取模块，用于选取满足预设要求的可视化RPA流程自动处理平台；

获取模块，用于获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数；

训练模块，用于利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练，得到满足预设要求的控制策略模型；

生成模块，用于将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台，生成与所述待生成项目相对应的可视化RPA流程。

进一步的，所述训练模块包括：

选取子单元，用于将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数参与训练，基于所述可视化RPA流程自动处理平台选定强化学习算法，所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络；

进一步的，还包括优化模块，用于

本发明的第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器处理上述所述的基于强化学习的RPA流程自动生成方法。

本发明的第四方面提供一种电子设备，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述的基于强化学习的RPA流程自动生成方法。

本发明实施例提供的一种基于强化学习的RPA流程自动生成方法和装置，该方法获取历史项目中的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数，输入至强化学习模型中训练，得到满足预设要求的控制策略模型，最终输入至可视化RPA流程自动处理平台生成RPA流程。本发明利用强化学习高效的学习能力，最终产生可运行的自动化流程，实现了从流程设计文档到可执行流程文件的直接转化，使用户能够根据业务需求来自动生成RPA流程，减少企业人力、物力、财力的消耗，也节约RPA项目实施中的开发成本。

进一步的，本发明采用强化学习算法对控制策略模型进行训练，使RPA平台生成相应的RPA流程，之后对比正确的预先设置的RPA流程结果对自动产生的RPA流程做出评价，然后通过三层奖励机制对控制策略模型进行修正，最终经过不断学习过程生成满足精度要求的控制策略模型，提高了模型参数的准确度，进而提高了学习的效率，能够产生效率更高的RPA流程。

附图说明

图1是本发明一种基于强化学习的RPA流程自动生成方法流程图；

图2是本发明一种基于强化学习的RPA流程自动生成方法强化学习过程流程图；

图3是本发明中用的强化学习模型。

具体实施方式

以下结合附图对本发明进行说明，但不用来限制本发明的范围。

参见图1是本发明一种基于强化学习的RPA流程自动生成方法流程图，包括：

S1：选取满足预设要求的可视化RPA流程自动处理平台。

S2：获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数。

S3：利用所述历史项目的工作流程、项目资料、项目资料、项目参数及所述历史项目的工作流程对应的结果参数对强化学习模型进行训练，得到满足预设要求的控制策略模型。

图2是本发明一种基于强化学习的RPA流程自动生成方法强化学习过程流程图，在本发明实施例中，具体包括步骤：

(1)将RPA软件环境作为初始化状态。

(2)以多个历史项目中的RPA流程节点为参照，记录真实流程中各个节点的参数，包括中间节点参数和最终RPA流程配置参数；中间节点参数包括：历史项目的工作流程、项目资料、项目参数等。

(3)在强化学习算法中生成控制策略；所述控制策略的生成包括步骤：

将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数参与训练，基于所述可视化RPA流程自动处理平台选定强化学习算法，如图3所示，所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络；

(4)设定新的项目目标；该新的项目目标即为待生成项目的项目需求。

S4：将所述待生成项目的项目需求和生成的控制策略模型输入至可视化RPA流程自动处理平台，生成RPA流程。

参见图2，承接上述步骤(5)，根据待生成项目的项目需求和生成的控制策略模型，生成与所述待生成项目相对应的RPA流程，并得到生成的RPA流程的仿真结果参数；

在本发明实施例的可选实施方式中，为了能够获得较高精度要求的控制策略模型，本发明将自动产生的仿真结果参数与预先设置的正确结果参数进行对比判断，判断该仿真结果参数是否符合精度要求，符合要求则输出为控制模型；如果不符合要求则对自动产生的结果进行修正，生成奖励数据并将结果参数和奖励数据输入强化学习算法中并对控制策略进行再训练更新，并返回执行(4)；

在本发明实施例的可选实施方式中，生成奖励数据时采用三层奖励的方式，第一层奖励以当前RPA流程步骤参数与逆解RPA流程步骤参数的绝对值差的相反数作为分级奖励；第二层奖励以流程末端与真实结果差距的相反数作为距离奖励，以当前步骤参数与实际参数的绝对值差的相反数作为节点奖励并引入log函数控制奖励的值域；第三层奖励为精度奖励。通过三层奖励数据，能够有效地提升强化学习算法的收敛速度。

获取模块，用于获取与待生成项目相关的历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数；

训练模块，用于利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的结果参数对强化学习模型进行训练，得到满足预设要求的控制策略模型；

进一步的，所述训练模块包括：

进一步的，还包括优化模块，用于

本发明的第四方面提供一种电子设备，该电子设备包括：

处理器；以及，

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于强化学习的RPA流程自动生成方法，其特征在于，包括步骤：

选取满足预设要求的可视化RPA流程自动处理平台；

2.根据权利要求1所述的基于强化学习的RPA流程自动生成方法，其特征在于，所述利用所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数对强化学习模型进行训练，得到满足预设要求的控制策略模型，具体包括步骤：

将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数参与训练，基于所述可视化RPA流程自动处理平台选定强化学习算法，所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络；

当前评价网络将生成的RPA流程的仿真结果参数与预先设置的RPA流程的真实结果参数进行对比，目标评价网络对生成的RPA流程做出评价，通过三层奖励机制对控制策略模型进行修正，生成满足精度要求的控制策略模型。

3.根据权利要求2所述的基于强化学习的RPA流程自动生成方法，其特征在于，所述当前动作网络与目标动作网络之间以及当前评价网络与目标评价网络之间均通过软更新方式传输参数。

4.根据权利要求2所述的基于强化学习的RPA流程自动生成方法，其特征在于，通过三层奖励机制对控制策略模型进行修正，最终经过不断学习过程生成满足精度要求的控制策略模型，具体包括：

将仿真结果参数与真实结果参数的各个参数进行对比，若所述仿真结果参数满足精度要求，则输出控制策略模型；

若所述仿真结果参数不满足要求，则根据真实结果参数对仿真结果参数进行三级分层修正，生成奖励数据以及损失函数；

5.根据权利要求4所述的基于强化学习的RPA流程自动生成方法，其特征在于，所述对仿真结果参数进行三级分层修正，生成奖励数据包括：第一层奖励以当前步骤参数与逆解步骤参数的绝对值差的相反数作为分级奖励数据；第二层奖励以流程末端与真实结果差距的相反数作为距离奖励数据，以当前步骤参数与实际参数的绝对值差的相反数作为节点奖励并引入log函数控制奖励数据的值域；第三层奖励为精度奖励。

6.一种基于强化学习的RPA流程自动生成装置，其特征在于，包括：

生成模块，用于将所述待生成项目的项目需求和所述控制策略模型输入至可视化RPA流程自动处理平台，生成与所述待生成项目相对应的RPA流程。

7.根据权利要求6所述的基于强化学习的RPA流程自动生成装置，其特征在于，所述训练模块包括：

选取子单元，用于将所述历史项目的工作流程、项目资料、项目参数及所述历史项目的工作流程对应的RPA流程配置参数参与训练，基于所述可视化RPA流程自动处理平台选定强化学习算法，所述强化学习算法包括当前动作网络、目标动作网络、当前评价网络和目标评价网络；

8.根据权利要求7所述的基于强化学习的RPA流程自动生成装置，其特征在于，还包括优化模块，用于

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器处理权利要求1-5任一所述的基于强化学习的RPA流程自动生成方法。

10.一种电子设备，其特征在于，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-5任一所述的基于强化学习的RPA流程自动生成方法。