CN114239406A

CN114239406A - 一种基于强化学习的财务流程挖掘方法和相关装置

Info

Publication number: CN114239406A
Application number: CN202111562687.4A
Authority: CN
Inventors: 韩存良; 高志超; 于小磊; 袁亮
Original assignee: State Grid Huitong Jincai Beijing Information Technology Co ltd
Current assignee: State Grid Huitong Jincai Beijing Information Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25

Abstract

本申请公开了一种基于强化学习的财务流程挖掘方法和相关装置，采用采样建立环境模型的方式，为决策的整个形成过程提供了更优的环境基础。通过强化学习planning方法的算法迭代，降低决策方案的误差，使决策方案更加精确。以决策规范约束和事实约束做预测，使决策方案能够实际应用于场景中，提高可靠性和实用性。最终为整个决策生成过程进行效能评估，验证决策生成过程的准确性，提高最终决策的精准性和安全性。并突破了以往流程自动挖掘的固化技术、计算依赖模板的局限，使得流程挖掘更易维护，生成的最终决策内容更加专业、安全；规避了当前流程自动挖掘方法对流程可视化数据资源的依赖，在流程可视化数据资源的情况下仍能得出最终决策。

Description

一种基于强化学习的财务流程挖掘方法和相关装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于强化学习的财务流程挖掘方法和相关装置。

背景技术

近年来，科学技术高速发展，我们已经迎来数字信息时代，我国正处于传统产业数字化转化和高度化时期，在新时代背景的推动下，在我国传统行业之一的电力行业进行创新和改革也是必然的发展形势。电网公司的财务管理有大量的重复、机械式处理的基础性任务，如发票与账务数据核对、对账、发票验真等，这类任务占用了财务人员的大量精力，财务处理效率和质量都受到影响。

机器人流程自动化(Robotic Process Automation，RPA)利用数字手段可以取代人工操作中重复的事情，解决财务管理中的中低附加值问题，为促进财务数字化转化是创造有利条件。相关技术中，将已知的财务流程固化在机器人设计器中，生成RPA机器人供财务人员使用，但是财务人员不能明确具体哪些业务可以利用RPA机器人实现，需要通过需求人员和财务人员反复沟通与研究才能够实现业务的梳理与挖掘，效率较低。

发明内容

针对上述问题，本申请提供一种基于强化学习的财务流程挖掘方法和相关装置，用于提高财务流程挖掘的效率。

基于此，本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种基于强化学习的财务流程挖掘方法，所述方法包括：

通过采样获取用户使用信息系统产生的第一事件日志，事件日志中记载所述用户使用所述信息系统进行财务工作对应的财务流程信息；

提取所述第一事件日志中的财务流程信息，构建环境模型，所述环境模型包括表示财务流程的操作背景和操作环境；

获取第二事件日志，根据所述第二事件日志更新所述环境模型；

通过关联型决策分析和因果型决策分析的方法建立初级业务决策要素权重模型，经过计划对更新后的环境模型做策略优化以实现算法迭代；

通过业务准则、仿真推演和形势分析，动态调整所述更新后的环境模型的参数；

针对每一代更新后的环境模型，根据决策规范约束和事实约束做出的预测结果，进行效能评估；

根据每一代更新后的环境模型的效能评估结果，确定选择决策方案。

可选的，所述经过计划对所述更新后的环境模型做策略优化以实现算法迭代，包括：

根据所述更新后的环境模型生成仿真轨迹；

根据所述仿真轨迹估计值函数；

根据所述值函数进行策略优化以实现算法迭代。

可选的，所述获取第二事件日志，包括：

通过平滑处理获取第二事件日志。

可选的，所述事件日志为针对目标财务流程信息，所述用户使用所述信息系统进行财务工作的次数少于预设数量。

另一方面，本申请实施例提供一种基于强化学习的财务流程挖掘装置，所述装置包括：

获取单元，用于通过采样获取用户使用信息系统产生的第一事件日志，事件日志中记载所述用户使用所述信息系统进行财务工作对应的财务流程信息；

构建单元，用于提取所述第一事件日志中的财务流程信息，构建环境模型，所述环境模型包括表示财务流程的操作背景和操作环境；

更新单元，用于根据获取的第二事件日志更新所述环境模型；

迭代单元，用于通过关联型决策分析和因果型决策分析的方法建立初级业务决策要素权重模型，经过计划对更新后的环境模型做策略优化以实现算法迭代；

调整单元，用于通过业务准则、仿真推演和形势分析，动态调整所述更新后的环境模型的参数；

评估单元，用于针对每一代更新后的环境模型，根据决策规范约束和事实约束做出的预测结果，进行效能评估；

确定单元，用于根据每一代更新后的环境模型的效能评估结果，确定选择决策方案。

可选的，所述迭代单元，用于：

根据所述更新后的环境模型生成仿真轨迹；

根据所述仿真轨迹估计值函数；

根据所述值函数进行策略优化以实现算法迭代。

可选的，所述更新单元，用于：

通过平滑处理获取第二事件日志；

根据所述第二事件日志更新所述环境模型。

另一方面本申请提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面本申请提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

相对于现有技术，本申请上述技术方案的优点在于：

通过采样建立环境模型的方式，为决策的整个形成过程提供了更优的环境基础。通过强化学习计划(planning)方法的算法迭代，降低了决策方案的误差，使决策方案更加精确。其次，以决策规范约束和事实约束做预测，使决策方案能够实际应用于场景中，提高可靠性和实用性。最终为整个决策生成过程进行效能评估，验证决策生成过程的准确性，提高最终决策的精准性和安全性。并突破了以往流程自动挖掘的固化技术、计算依赖模板的局限，使得流程挖掘更易维护，生成的最终决策内容更加专业、安全；规避了当前流程自动挖掘方法对流程可视化数据资源的依赖，在流程可视化数据资源的情况下仍能得出最终决策。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种基于强化学习的财务流程挖掘方法的流程图；

图2为本申请提供的一种匹配RPA分析需求业务流程的示意图；

图3为本申请实施例提供的基于强化学习的财务流程挖掘方法的示意图；

图4为本申请实施例提供的一种基于强化学习的财务流程挖掘方法应用层的示意图；

图5为本申请实施例提供的一种财务流程挖掘方法的流程图；

图6为本申请实施例提供的一种财务流程挖掘方法的流程图；

图7为本申请实施例提供的一种基于强化学习的财务流程挖掘装置的示意图；

图8为本申请实施例提供的一种计算机设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

流程挖掘技术在RPA领域可以发挥着多方面的作用。流程挖掘技术给RPA带来的分析价值是明显的，如找到手工处理的业务环节，评估当前流程的自动化比例，构建和验证自动化流程，定量选择自动化流程的优先级和可行性，评估自动化的执行效果。流程挖掘现已成为业务过程管理(BPM)研究中的热门课题之一，越来越多的研究者开始致力于流程挖掘工作。工业界对流程挖掘也表现出浓厚的兴趣，越来越多的软件商将流程挖掘功能添加到软件产品中。对RPA机器人在财务管理方面技术的优化的意义在于能够进一步释放资源，减轻需求人员、财务人员以及技术人员的一系列沟通工作，推动财务转型升级；打牢管理基石，提高电力网企业的核心竞争力，确保企业有序发展；融入智能技术，促进企业智慧运营。

相关技术中，将已知的业务流程固化在RPA机器人中，存在以下三个问题，第一，财务人员与机器人之间的交互仅限于数据输入和结果输出的形式，无法达到按需高频交互的目的。第二，财务人员不能明确具体哪些业务可以利用RPA机器人实现，需要通过需求人员和财务人员反复沟通与研究才能够实现业务的梳理与挖掘，效率较低。第三，RPA机器人的设计技术及算法还没有实现具体优化，不能达到通俗易懂和易于操作的目的，所以必须培训财务人员使用RPA机器人，在演示、培训、推广等人机互动场景下具有较大限制。因此，实施更加智慧的财务管理，更加科学地部署RPA机器人是亟待解决并有重大需求的研究课题和方向。

基于此，本申请实施例提供一种基于强化学习的财务流程挖掘方法，获取用户使用信息系统产生的第一事件日志，事件日志中记载所述用户使用所述信息系统进行财务工作对应的财务流程信息；提取所述第一事件日志中的财务流程信息，构建环境模型，所述环境模型包括表示财务流程的操作背景和操作环境；通过采样获取第二事件日志，根据所述第二事件日志更新所述环境模型；通过关联型决策分析和因果型决策分析的方法建立初级业务决策要素权重模型，经过计划对更新后的环境模型做策略优化以实现算法迭代；通过业务准则、仿真推演和形势分析，动态调整更新后的环境模型的参数；针对每一代更新后的环境模型，根据决策规范约束和事实约束做出的预测结果，进行效能评估；根据每一代更新后的环境模型的效能评估结果，确定选择决策方案。

通过本申请实施例提供的技术方案，可以实现以下目的：(1)从技术和算法的角度改进RPA机器人以适应电网财务要求，优化传统财务机器人的工作模式，节约大量财务人员的宝贵时间。(2)通过事件日志挖掘方法，建立流程发现模型和场景适用模型，解决传统财务机器人流程规划效率较低、业务场景价值受限的问题。(3)突破原有财务思维，建立符合新常态发展的坚强财务组织，制定更加完善有效的财务措施，便成了分析的一种新方式、新思路。

下面结合图1，对本申请实施例提供的一种基于强化学习的财务流程挖掘方法进行介绍。参见图1，该图为本申请实施例提供的一种基于强化学习的财务流程挖掘方法的流程图，该方法可以包括S101-S107。

S101：通过采样获取用户使用信息系统产生的第一事件日志。

其中，事件日志中记载用户使用信息系统进行财务工作对应的财务流程信息。第一事件日志是多个事件日志中的一个或多个日志。

要想实现RPA技术，首先要进行流程挖掘。本申请实施例在强化学习的基础上，从财务管控、ERP、经法、员工报销等信息系统的事件日志中挖掘与财务工作相关业务流程(即财务流程信息)，以便建立电网行业财务机器人流程发现模型。

具体地，将财务业务人员(用户)对信息系统的操作行为作为基础，以常见的财务场景为参考，深入研究流程挖掘技术，建立流程发现模型，实现业务流程的自动化处理。匹配RPA分析需求业务流程如图2所示。

S102：提取第一事件日志中的财务流程信息，构建环境模型。

其中，环境模型包括表示财务流程的操作背景和操作环境。

通过基于强化学习机制中的模型学习(Model-Based)建立高频业务流程自动挖掘模型建立。其中，强化学习是机器学习的一个分支，其原理来源于心理学中的行为主义理论，强调基于环境变化，以取得最大化的预期利益。强化学习设计的内容主要包括人工智能、运筹学及认知科学和心理学等。Model-Based是强化学习机制的一种，先将着重点放在环境模型(environment dynamics)，可以通过采样事件日志得到第一事件日志，从第一事件日志中提取财务流程信息，建立环境模型，再根据学习到的环境模型(更新后的环境模型)做值函数/策略优化。

S103：根据获取的第二事件日志更新环境模型。

第一事件日志与第二事件日志可以相同的事件日志，也可以是不同的事件日志，本申请对此不做具体限定。

例如，若第二事件日志与第一事件日志不同，可以从第二事件日志中提取财务流程信息，让环境模型不断学习新的经验，从而实现环境模型的更新。

作为一种可能的实现方式，可以对事件日志做平滑处理获取第二事件日志，利用平滑处理的方式处理数据冗杂的、业务繁琐的、流程复杂的事件日志，有效提取出正常事件日志。

S104：通过关联型决策分析和因果型决策分析的方法建立初级业务决策要素权重模型，经过计划对更新后的环境模型做策略优化以实现算法迭代。

通过采样建立环境模型的方式，结合财务流程的操作背景和操作环境，并采用业务决策要素权重模型作为决策优化的初级形式，再通过计划(p l anni ng)算法迭代和业务准则等进行模型优化。

在Model-Based方法中，planning步骤至关重要，正是通过在learned model基础上做planning才提高了整个强化学习算法迭代的效率。该方法与传统的mode l-based方法相比能够有效避免正常日志记录产生的随机误差，有效处理具有复杂高低频业务的事件日志，有效解决了传统mode l-based存在的模型优化不精准、决策优化无规律的问题，并且与一般意义上的流程自动挖掘相比，本方法更简单，训练准确度更高，适合处理较大规模的数据。

在完成了对环境模型的构建后，在Model-Based大类方法中同样有两种路径，下面分别进行说明。

第一种：根据环境模型生成仿真轨迹；根据仿真轨迹估计值函数；根据值函数进行策略优化，即通过学到的model生成一些仿真轨迹，通过仿真轨迹估计值函数进而优化策略。例如，根据真实经验构建表格查找模型，然后采样经验，一步一步地采样，不是一次性采样，利用无模型的RL来学习值函数。

第二种：通过学到的model直接优化策略，这也是目前Model-Based方法常走的路线。

其中，比较流行的是Model-Based策略优化系列，如果环境模型已知，该问题就是一个最优控制问题；如果环境模型未知，就通过最小化均方误差训练模型和循环训练模型等算法，逐步缩小误差得到最优解。

依据Model-Based策略优化的方法，设计网络自主体模型。通过设计办公软件自动化、邮件自动化、文件处理自动化及浏览器应用自动化等，对数据流程进行自动化挖掘与分析，以达到智能化效果。对于财务人员，每天要处理大量的流程和业务，网络自主体模型可以从事件日志中抽取财务人员日常操作中重复性高、规则明确的流程，自主进行高强度分析和处理，构建和验证自动化流程，对高频流程发现模型的合理性进行验证。

S105：通过业务准则、仿真推演和形势分析，动态调整更新后的环境模型的参数。

根据planning算法迭代，在知识库中查询决策规范约束、事实约束和以往的成功案例等知识进行预测，根据预设任务样式模板，运用计算机仿真技术对决策方案进行仿真推演，不断调整环境模型的参数并验证模型误差合法性。

S106：针对每一代更新后的环境模型，根据决策规范约束和事实约束做出的预测结果，进行效能评估。

根据决策规范约束和事实约束做出的预测结果，利用预设的效能评估模型,对于每一个决策方案(通过每一代更新后的环境模型得到的结果)进行评估，最终选择决策方案。

S107：根据每一代更新后的环境模型的效能评估结果，确定选择决策方案。

如果所有决策方案均未满足要求，则返回修改决策方案，重复上述流程。完成使命任务后，系统将成功案例作为新的知识存入知识库。

由上述技术方案可知，采用采样建立环境模型的方式，为决策的整个形成过程提供了更优的环境基础。通过强化学习计划(planning)方法的算法迭代，降低了决策方案的误差，使决策方案更加精确。其次，以决策规范约束和事实约束做预测，使决策方案能够实际应用于场景中，提高可靠性和实用性。最终为整个决策生成过程进行效能评估，验证决策生成过程的准确性，提高最终决策的精准性和安全性。并突破了以往流程自动挖掘的固化技术、计算依赖模板的局限，使得流程挖掘更易维护，生成的最终决策内容更加专业、安全；规避了当前流程自动挖掘方法对流程可视化数据资源的依赖，在流程可视化数据资源的情况下仍能得出最终决策。

为了使本申请实施例提供的技术方案更加清楚，下面结合图3以一个实例对本申请实施例提供的一种基于强化学习的财务流程挖掘方法进行说明。

参见图3，该图为本申请实施例提供的基于强化学习的财务流程挖掘方法的示意图。需要说明的是，本申请实施例提供的技术方案可以由一个终端或服务器单独执行，也可以由至少一个终端和/或至少一个服务器交互执行。在图3中，以服务器、终端A和终端B交互进行说明。

在步骤①中，终端A将获得第一事件日志中的财务流程信息数据经过提取和分析构建环境模型，将环境模型发送给服务器。主要解决的问题是建立模型的初始条件。环境模型包括表示业务或流程的操作背景和操作环境，不同的业务流程会具有不同的环境模型。

在步骤②中，服务器根据环境模型(以下可以简称为模型)，对模型进行参数分析和关键点校验，并将模型误差反馈给终端A。这里所述的参数和关键点要根据不同的业务流程中涉及到的不同数据进行确定，例如对于采购订单创建业务，需要根据采购、签约等不同流程中的不同数据进行分析，在通过与环境模型的对比进行校验反馈。

在步骤③中，终端A根据反馈回来的模型误差，更新环境模型，学习出最新的环境模型，将更新的环境模型发送给终端B。

在步骤④和⑤中，终端B与服务器进行交互，终端B在接收到终端A提供最新的环境模型后，根据学习到的最新环境模型，通过planning做值函数/策略优化以实现算法迭代，提高整个强化学习算法迭代的效率。终端B将强化学习planning决策发送给服务器。

在步骤⑥和⑦中，服务器根据planning算法迭代，在知识库中查询决策规范约束、事实约束和以往的成功案例等知识进行预测，根据预设任务样式模板，运用计算机仿真技术对决策方案进行仿真推演，不断调整环境模型的参数，并将调整后的模型数据(包括模型误差)发送给终端B，终端B验证模型误差合法性。

在步骤⑧和⑨中，终端B根据决策规范约束和事实约束做出的预测结果，利用预设的效能评估模型,对于每一个决策方案(通过每一代更新后的环境模型得到的结果)进行评估，将每一代的决策发送给终端A，终端A最终选择决策方案，并将是否采用决策的反馈发送给终端B。

作为一种可能的实现方式，从结构化数据、半结构化数据和非结构化数据出发，以事件日志为主要形式，音频、图像等为辅助形式，通过强化学习以获取知识、适应环境和动态调整参数，以计算机仿真技术、策略优化和模拟退火法等建立模型。

参见图4，该图为本申请实施例提供的一种基于强化学习的财务流程挖掘方法应用层的示意图。首先提取事件日志中的业务流程，即对业务(财务)事件日志信息进行信息提取，得到任务要求，结合环境信息，通过形势分析和仿真推演，以强化学习的理论作为支撑，动态调整环境模型的参数，经过planning进行算法迭代，以决策规范约束和事实约束做预测，最后进行效能评估，对于每一个决策方案进行评估，最终选择决策方案。将得到的决策方案存入财务机器人流程自动挖掘知识库中，以便后续业务事件日志信息可以直接通过财务机器人流程自动挖掘知识库中的指示得到预测，通过效能评估得到最终的决策方案。如果所有决策方案均未满足要求，则返回修改决策方案，重复上述流程。

需要说明的是，通过对强化学习公式算法的研究，强化学习的目标主要是通过动态调整参数，以达到强化信号最大。若已知r/A梯度信息，则直接使用监督学习算法。因为强化信号r和智能体(Agent)产生的动作A没有明确的函数行书描述，所以梯度信息r/A无法得到。为了使Agent能够在动作空间中实现搜索并发现正确的动作，本次研究决定对流程自动发现和流程自动挖掘采用不同的算法。

通过基于强化学习机制中的模型学习(Model-Based)建立高频业务流程自动挖掘模型建立。其中，强化学习是机器学习的一个分支，其原理来源于心理学中的行为主义理论，强调基于环境变化，以取得最大化的预期利益。强化学习设计的内容主要包括人工智能、运筹学及认知科学和心理学等。Model-Based是强化学习机制的一种，先将着重点放在环境模型(environment dynamics)，可以通过采样事件日志得到第一事件日志，从第一事件日志中提取财务流程信息，建立环境模型，再根据学习到的环境模型(更新后的环境模型)做值函数/策略优化在Model-Based方法中，planning步骤至关重要，正是通过在learned model基础上做planning才提高了整个强化学习算法迭代的效率。

事件日志分为高频事件日志和低频事件日志，下面分别进行说明。

(1)高频事件日志：用户使用信息系统时使用次数较多的财务流程对应产生的事件日志数量较多，即针对目标财务流程信息(多种财务流程信息中的任一种)，用户使用信息系统进行财务工作的次数多多于预设数量可以称之为高频事件日志，其可信度较高。

(2)低频事件日志：用户使用信息系统时使用次数较多的财务流程对应产生的事件日志数量较少，即针对目标财务流程信息，用户使用信息系统进行财务工作的次数少于预设数量。

针对不同种类的事件日志，有不同的方式进行挖掘。图5所示为针对高频事件日志的挖掘方法的流程图。图6所示为针对低频事件日志的挖掘方法的流程图。

在和图5的流程对比之下，图6的挖掘方法从接收任务开始。通过分析任务，得到任务要求，再结合传感器获取到的环境信息，进行形势分析，并在知识库中查询决策规范约束、事实约束和以往的成功案例等知识进行预测，自主生成若干任务方案。根据预设任务样式模板，运用计算机仿真技术对决策方案进行仿真推演。根据决策规范约束和事实约束做出的预测结果，利用预设的效能评估模型,对于每一个决策方案(进行评估，最终选择决策方案。如果所有决策方案均未满足要求，则返回修改决策方案，重复上述流程。完成使命任务后，系统将成功案例作为新的知识存入知识库。

由上述技术方案可知，通过了解金融行业的特征，接触财务人员需要处理的业务流程，针对目前财务机器人所存在的问题，通过研究流程自动挖掘方法，对财务机器人进行了提升，使其更加适应财务人员的实用需求。本次的方法研究，在财务场景中有着模拟性高，实用性高的特点，对本次财务机器人流程自动挖掘方法在强化学习基础上的研究起到了关键性作用。随着人工智能等新技术的发展，财务机器人流程自动挖掘方法未来或许能够更好地执行这些任务，并且能更好地解决传统财务机器人流程规划效率较低、业务场景价值受限的问题，实现电网企业财务管理的转型升级，保障电网企业长足发展。

本申请实施例除了提供的基于强化学习的财务流程挖掘方法外，还提供了基于强化学习的财务流程挖掘装置，如图7所示，包括：

获取单元701，用于通过采样获取用户使用信息系统产生的第一事件日志，事件日志中记载所述用户使用所述信息系统进行财务工作对应的财务流程信息；

构建单元702，用于提取所述第一事件日志中的财务流程信息，构建环境模型，所述环境模型包括表示财务流程的操作背景和操作环境；

更新单元703，用于根据获取的第二事件日志更新所述环境模型；

迭代单元704，用于通过关联型决策分析和因果型决策分析的方法建立初级业务决策要素权重模型，经过计划对更新后的环境模型做策略优化以实现算法迭代；

调整单元705，用于通过业务准则、仿真推演和形势分析，动态调整所述更新后的环境模型的参数；

评估单元706，用于针对每一代更新后的环境模型，根据决策规范约束和事实约束做出的预测结果，进行效能评估；

确定单元707，用于根据每一代更新后的环境模型的效能评估结果，确定选择决策方案。

作为一种可能的实现方式，所述迭代单元704，用于：

根据所述更新后的环境模型生成仿真轨迹；

根据所述仿真轨迹估计值函数；

根据所述值函数进行策略优化以实现算法迭代。

作为一种可能的实现方式，所述更新单元703，用于：

通过平滑处理获取第二事件日志；

根据所述第二事件日志更新所述环境模型。

作为一种可能的实现方式，所述事件日志为针对目标财务流程信息，所述用户使用所述信息系统进行财务工作的次数少于预设数量。

由上述技术方案可知，通过采样建立环境模型的方式，为决策的整个形成过程提供了更优的环境基础。通过强化学习计划(planning)方法的算法迭代，降低了决策方案的误差，使决策方案更加精确。其次，以决策规范约束和事实约束做预测，使决策方案能够实际应用于场景中，提高可靠性和实用性。最终为整个决策生成过程进行效能评估，验证决策生成过程的准确性，提高最终决策的精准性和安全性。并突破了以往流程自动挖掘的固化技术、计算依赖模板的局限，使得流程挖掘更易维护，生成的最终决策内容更加专业、安全；规避了当前流程自动挖掘方法对流程可视化数据资源的依赖，在流程可视化数据资源的情况下仍能得出最终决策。

本申请实施例还提供了一种计算机设备，参见图8，该图示出了本申请实施例提供的一种计算机设备的结构图，如图8所示，所述设备包括处理器810以及存储器820：

所述存储器810用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器820用于根据所述程序代码中的指令执行上述实施例提供的任一种基于强化学习的财务流程挖掘方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序于执行上述实施例提供的任一种基于强化学习的财务流程挖掘方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的基于强化学习的财务流程挖掘方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于强化学习的财务流程挖掘方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述经过计划对所述更新后的环境模型做策略优化以实现算法迭代，包括：

根据所述更新后的环境模型生成仿真轨迹；

根据所述仿真轨迹估计值函数；

根据所述值函数进行策略优化以实现算法迭代。

3.根据权利要求1所述的方法，其特征在于，所述获取第二事件日志，包括：

通过平滑处理获取第二事件日志。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述事件日志为针对目标财务流程信息，所述用户使用所述信息系统进行财务工作的次数少于预设数量。

5.一种基于强化学习的财务流程挖掘装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述迭代单元，用于：

根据所述更新后的环境模型生成仿真轨迹；

根据所述仿真轨迹估计值函数；

根据所述值函数进行策略优化以实现算法迭代。

7.根据权利要求5所述的装置，其特征在于，所述更新单元，用于：

通过平滑处理获取第二事件日志；

根据所述第二事件日志更新所述环境模型。

8.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-4任意一项所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序或指令；当所述计算机程序或指令被处理器执行时，执行权利要求1-4任意一项所述的方法。