CN113888136A

CN113888136A - 一种基于dqn算法原理的工作流调度方法

Info

Publication number: CN113888136A
Application number: CN202111229998.9A
Authority: CN
Inventors: 于劲松; 廖晨阳; 张润芝; 乐祥立; 刘浩; 李鑫
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-04

Abstract

本发明公开一种基于DQN算法原理的工作流调度方法。本发明属于办公自动化领域，用于OA工作流的优化。所述工作流调度系统分为工作流实例处理模块、状态观测模块、双DQN训练模块、智能化综合调度模块四大部分。所述工作流调度系统对OA系统业务流转过程提供辅助办公提示——包括流转决策以及办理优先级，最终达到提升办公效率和质量的目的。为此本发明设计了用于处理智能服务请求的DQN多规则选择算法模块，按照在开发应用过程中提供的团体接口标准以及数据库架构设计方案实施落地。该算法通过强化学习方法与深度学习网络对当前OA系统工作流引擎运行状态进行特征分析，通过从规则库中选择恰当的规则进而给出工作流调度方案的智能推荐。

Description

一种基于DQN算法原理的工作流调度方法

技术领域

本发明涉及OA智能化技术范畴是广泛应用的数据驱动工作流技术，具体细分为数据驱动工作流的智能化。

背景技术

传统OA工作流系统基于最基本的业务流程规则(例：对当前的可执行审批环节，其前提条件必须满足，前提条件指另外一个或几个审批环节的进行状态)进行流转，没有或者很少有控制调度策略参与其中，流程的流转依赖于员工的经验进行。由于新手不熟悉业务以及其他各类意外情况导致的业务办理时间延误对政务系统的服务职能造成了负面的影响。

与此同时，企业和组织在漫长运营周期内积累了大量业务数据和日志，但大部分公司仅仅将数据闲置于数据库中，并未加以利用。随着存储介质的发展，大数据存储的成本不再高昂，数据驱动工作流技术为企业有效利用这些沉睡数据提供了可能。

很多公司和机构通过算法挖掘这些沉睡数据的价值，从而构建了由数据驱动的工作流引擎系统。数据驱动工作流部分或者完全摒弃了基于配置项表单的管理方式，并运用智能算法结合主流web技术实现对大量同步到达的工作流业务进行安全实时管理。目前大部分办公领域的智能化算法服务都是基于词向量模型的，该模型虽然对于文本推介、纠错、文本分类等NLP问题有着先天优势，但很难处理诸如工作流调度这种综合性问题。

本发明针对上述研究背景提出了基于强化学习的算法模型，并着力于工作流领域综合调度问题的工程解决。

发明内容

针对工作流领域的应用场景特点，本发明提供了一种智能调度方法。发明的服务对象是需要智能化改造的OA系统(下称目标OA系统)。本系统通过接口与服务对象构成联系，可以实现整体办公自动化系统运营效率的提升，减少整体审批环节的平均用时，并降低审批流程的整体延误率。

本发明分为工作流实例处理模块、状态观测模块、双DQN训练模块、智能化综合调度模块四大部分。目标OA系统以一定频率将当前工作流总体状态信息发送到本系统，从而发起综合调度请求。

工作流实例处理模块负责将总体状态信息解析为对应格式的数据并生成初始的DAG图。总体信息包含有代办工作流实例、当前各业务员状态等内容。

双DQN训练模块基于双DQN强化学习算法实现，该模块基于工作流实例处理模块解析得到的结构化数据训练并整定模型参数；智能综合调度模块在双DQN训练模块训练好模型参数后才会被自动激活，它会冻结训练得到的神经元参数，以此参数进行计算，输出当前总体状态对应的“最佳”(局部最优)综合调度结果。

状态观测模块负责在训练整定参数和输出调度结果的过程中为双DQN训练模块和智能化综合调度模块提供每一步训练和调度结果输出的状态特征计算，该计算结果为7维向量φ(s_t)，代表了当前目标OA系统运行的所有工作流状态St的不同特征。双DQN训练模块和智能综合调度模块内部的子模块都有一个结构相同的双隐层深度神经网络，所述向量φ(s_t)是其输入。

智能算法服务系统依托持久化数据以及实时的输入数据得到综合调度结果并返回给目标OA系统。智能算法服务系统的特点在于采用了策略选择强化学习，将强化学习这一算法结合富有公文领域特色的多种调度策略实现在办公自动化领域的应用。本发明采用python语言开发原型系统。

这四大模块间的关系具体见附图1所示。

本发明的优势在于算法的创新应用：

1)采用强化学习的方式对办公自动化的业务流程节点调度策略实现整合。本发明首次将强化学习算法应用于OA工作流引擎这一领域，并定义了工作流领域的相关参数计算方法，使得该强化学习算法适用于本发明的综合调度问题。

2)本发明采用了独特的有向无环图执行逻辑，并采用近似方法，实现了对工作流图存在环状结构时的处理。成功解决了有向有环图无法引入马尔可夫条件从而用马尔科夫决策算法(MDP)解决的问题。

3)本发明提供的工程实现方案与OA采用松耦合的方式交互，极大提升了系统的泛用性。该方案减轻了目标OA核心服务器的运算压力。

附图说明

图1为本发明提供的各模块间关系图；

图2为本发明提供的综合调度服务接口的编排方式图；

图3为搭载综合调度算法的工作流引擎与目标OA交互方式图；

图4为本发明提供的背景数据知识类图；

图5为本发明所需目标OA提供的实时数据类图；

图6为本发明提供的双DQN算法图；

图7为DAG算法执行流程图；

具体实施方式

下面结合附图对本发明提供的基于DQN算法原理的多规则选择动态工作流调度系统及其实现方法进行详细说明。

一)本微服务的提供方式和总体执行逻辑

本发明提供的综合调度算法搭载在智能工作流引擎(服务器)，所述工作流引擎与OA系统交互方式如附图3所示。智能工作流引擎通过web请求的形式向目标OA获取所需的工作流背景数据和实时数据。这些数据在双DQN训练模块和智能化综合调度模块的执行过程中需要用到。

智能服务背景数据是结构化的目标OA业务历史日志，从目标OA服务器的数据库和文件系统中读取并整理，不需要满足高实时性。智能工作流引擎通过数据库更新算法将申请到的智能服务背景数据通过计算处理为“背景数据知识”，并将其持久化存储于搭载智能工作流引擎的服务器(或服务器集群)数据库(或数据库集群)中。本发明采用Django提供的ORM接口将面向对象编程与数据库相结合，在编程工具中操作Django应用的模型类对象等价于对数据库表进行对应的增删查改操作。附图4给出了本系统定义的“背景数据知识”模型类，数据库记录了每种工作流包含的工作流活动以及不同办理人员历史上办理这些不同工作流活动的平均时间。

OA实时数据描述目标OA发送综合调度请求的当前时刻(下称重调度时刻)OA服务器集群中正在运行的所有工作流实例的实时状态。该数据在重调度时刻由目标OA整理并向智能工作流引擎发送，是DQN算法进行实时分析的数据基础，接口的编排顺序见附图2。实时综合调度服务为满足前端性能，需要高频率执行，所以对请求获得的数据进行解析也需满足相应速度要求，解析得到的数据为python对象，满足附图5所述数据结构。

智能服务背景数据和OA实时数据的处理是分时进行的。分别由不同的线程控制。依据背景数据和OA实时数据，本发明提供的智能服务系统通过松耦合的方式为目标OA提供高实时性综合调度服务。总体执行逻辑可参考附图1中各模块间关系。

二)问题背景的数学描述

本发明中描述的智能工作流引擎的优化场景，存在多个待办事项，可存在多项任务积压代办的情况，同时存在可处理不同环节的多个办理人员。但是每个办理人员在某个时刻，只能办理一项业务。本发明中提供的智能工作流引擎可处理的工作流包含具有工作计划安排的情况，也包含在未来某一时刻到达的指定工作流实例业务。具体应用场景如下：

在某一时刻t，目标OA平台正在运行以及未来安排的工作计划共包含n个任务，为J＝{J₁，J₂，...，J_n}，每个任务由n_i个流程节点构成，O_i，j为J_i的编号中第j个节点，描述这些节点之间的前后关系，目标OA平台在收集当前状态信息并向智能工作流引擎发送请求时，会为每一个工作流任务实例Ji设置其到达时间A_i，同时补充其DAG工作流图、前提条件、截止时间、任务各节点分组和办理内容信息，无特殊说明默认最严格的条件，即前驱以及前驱的前驱…必须优先完成。令O_i，0恒为J_i的入口节点，O_i，endi为结束节点，其中endi∈END_i(结束节点集合)。当前在运行的工作流实例若已经完成部分节点，则将其数据库表中后续部分环节各个节点构成新的工作流实例，以后续节点的入口作为新工作流实例的入口。

当前工作环境中，平台内在线的员工数目为m，设为：P＝{P₁，P₂，...，P_m}。O_i，j可以根据其分组信息，从数据库中选择相应组中的任一位或一组办理人员P_i，i(P_i，j∈P)。O_i，j由办理人员/组P_k办理的时间表示为t_i，i，k，令C_i，j为任务节点O_i，j的完成时间，则任务J_i的完成时间为其结束节点的完成时间C_i，endi。令D_i为J_i的截止时间，若目标OA平台未规定截止时间则按照附图3中数据库存储的平均办理时间，以及平均松弛时间估算流程总办理时间的历史均值并乘以系数K得到截止办理时间。优化目标为最小化所有流程业务实例超出各自截止时间的总延时时间。

本发明将目标OA平台内的所出现的工作流实例数学化为DAG图，在当前状态下的七大状态获得可以表征当前状态的状态向量。将状态向量作为双DQN学习网络的输入层，通过已训练过的DQN网络，智能化综合调度模块根据从双DQN训练模块获取的输出得到当前状态下得到的推荐调度计划，根据计划合理安排各个工作流进程。完成之后，实时数据请求接口获取当前状态下的实时工作状态，进行状态的更新。

三)工作流实例处理模块

在实时调度线程之中，目标OA平台内在运行以及未来安排的工作计划共包含n个任务。为方便数学描述以及对于工作流的标记处理，本发明在无监督学习过程中，将每个工作流简化为有向无环图(DAG)，并将后继可能出现的环状结构排除在考虑范围外。

在数据仿真测试中，一个包含n_i个节点的DAG图的生成过程如下：为保证无环，首先随机生成一个1到n_i的列表。这个列表就是DAG的拓扑序，然后每次随机在拓扑序中找到两个节点，从拓扑序靠前的节点向拓扑序在后的连边即可完成DAG的构建。若当前在运行的工作流实例若已经完成部分节点，则将其数据库表中的DAG图中后续节点生成新的DAG图。

随着调度规则的实施，各工作流的部分节点完成，当前系统则会根据规则调度生成的动作进行及时的数据更新。对于其对应的DAG矩阵图，若为最严格的前提条件，则在执行过程中可以采用附图7所述算法。

四)状态观测模块

本发明借鉴了云计算服务器资源调度算法中的周转率参数，同时参考了job-shop车间调度领域中的相关参数设计形成具有工作流领域特色的七大状态特征参数计算方法，作为Q值学习网络的输入层，表征当前工作状态。OA实时数据请求接口根据智能化综合调度接口实时更新当前状态向量。为使得本方法具有更

好的可推广性，各个状态参数值均要在[0，1]范围内。

定义CTK(t)为重调度时刻t办理人P_k完成最近一个任务节点的时间，OP_i(t)为作业J_i的当前已完成节点数。定义U_k(t)为办理人P_k的时间利用效率。定义CRJ_i(t)为J_i的办理进度。

由所属定义可计算本发明提供的七大参数：

1)办公人员/组的时间平均利用效率：

2)办公人员/组的时间平均利用效率标准差：

3)平均办理进度：

4)办理时间标准差：

5)预计延迟率：Tard_e(t)。按照附图3所述历史数据，各个节点的办理时间加松弛时间，并按照附图3所示的节点办理人分配的先验概率模型以蒙特卡洛采样计算后续流程的完成时间期望，若该流程J_i的完成时间期望E(C_i，endi)＞D_i，则视为延迟，统计所有预计会延迟的流程数占当前重调度时刻t在运行的流程总数n可得Tard_e(t)。

6)实际延迟率：Tard_a(t)。统计所有在当前冲调度时刻已经发生延迟的流程数占在运行的流程总数n可得Tard_a(t)。

7)平均办结时间：

五)双DQN训练模块

DQN算法属于机器学习-强化学习算法的分支，强化学习算法模拟了自然界生物智能体学习的过程，智能体Agent对当前环境状态St进行分析或观测Observation，根据Agent自身积累的知识做出动作Action，从而使环境Environment从St状态按照某种规律转变到S_t+1并获得奖励Reward，这一规律可以是预先设定的状态转移矩阵，也可以是某种转换规则。通过多步学习，智能体逐渐可以根据当前环境状态选择更好的动作策略(收敛至最优策略π_*)，对当前环境有了更加准确的认知(选择该动作后，直到终止状态，智能体所能获得的奖励的总期望，收敛至实际的动作价值Q*)。

引入马尔科夫决策过程对上述问题进行描述，智能体在状态S时选择动作的概率依赖于策略。定义状态价值函数v_π(s)与动作价值函数q_π(s，a)，分别表示当前状态所具有的价值与当前动作所产生的价值，其关系如下所示：

其中，γ代表时间价值衰减，未来的奖励会随着时间的增加而衰减。Agent智能体已有的先验知识一般为状态动作概率，其与环境状态转移矩阵统称模型。由于工作流具有极端复杂性，人力资源表数据庞大。遍历算法，策略评估等算法都无法解决本系统的调度问题，本系统采用无模型强化学习算法双DQN算法。

双DQN将深度学习网络作为Q值函数的训练器，将原始的状态特征作为深度学习网络的输入，每个状态动作对作为网络的输出，有效解决了维数爆炸问题，榆次同时，本算法使用一个在线Q网络用于选择动作更新Q值，另一个网络Q’用于计算目标Q称目标网络从而达到神经网络参数快速收敛的目的，目标Q值的计算方式为：

在此基础上，本发明添加了调度规则选择。Q值学习网络在每一重调度步骤中，通过观测环境特征，将其作为网络的输入层，Q值学习网络的输出层为各个调度规则Q值，根据得到的调度规则进行动作。动作发生之后，环境参数和状态发生改变，并将获得的奖励放入重放池中。按一定的批次对网络参数进行训练，并按一定的频率复制在线网络参数到目标Q值网络Q’，按照如下步骤进行强化学习的参数迭代。

对于内部的深度神经网络，本发明采用的网络为双隐层网络结构，具体超参数，包括学习率、目标Q网络参数复制频率C、训练批次、双隐层各层神经元数目均按照控制变量的基本原理进行，仿真数据有任务生成器得到。在一次超参数调整的过程中，仿真出的训练数据样本不变。最终取得的参数结果如下：

输入层神经元数量为7不需要整定，输出层神经元数目亦为7不需要整定。相当于每10步骤由D池选取样本训练在线Q网络参数，而后Q网络参数没更新20次，将其参数复制到目标Q网络

中。

在双DQN算法之中，本发明提供七大规则，规则由0到6编号，DQN网络的输出层为六维独热码标识当前重调度时刻t所应采用的调度规则。而后系统根据DQN网络的输出选择相应的动作对当前的工作状态进行更新。

为便于描述规则算法，定义7种判定函数，7种判定函数的思路都是先选定任务节点，而后再分配给指定的办理人员，7种调度规则的总体算法思路描述如下：

七种规则执行任务选择函数1、执行任务选择函数2以及执行办理人员/组选择函数。

1)A1：选择延迟任务中已超出截止时间与剩余工作量之比最小的任务。

A2：无延迟任务中预估处理时间最长，发生最大延迟的任务。

B：最早可分配的办理人员进行办理。

2)A1：选择延迟任务中等待松弛时间与剩余时间之比较小的任务。

其余与1)一致

3)A1＝A2与1)中的A1函数相同，B与1)中相同

4)A1：选择已延迟任务中完成率与提前完成时间乘积最小的。

其余与1)一致

5)A1＝A2＝随机选择，B同上

6)A1＝A2＝在所有任务中选择预估办理时间最长，发生最大延迟的任务，B同上

7)A1：选择延期时间与剩余节点数之比最大的，即当前任务最紧急。

A2：未延期任务中选择估算的处理时间最长。

B：运用综合办理时效选择办理人员。

对于DQN网络来说，对于规则调度影响最大的是奖励的设置。由于目标最小化所有流程业务实例的总延时，因此，整体工作过程中，将延迟率的重要性设置为最高，其余衡量标准顺序按照对于延迟率的重要性依次排序。具体逻辑如下：

本发明中DQN网络结构如附图6所示，其为由四个全连接层组成的深度神经网络，包含一个由表征当前工作平台七大特征向量组成的输入层，七个调度规则的Q值组成的输出层，以及两个隐藏层。

六)智能化综合调度模块

智能化综合调度模块将双DQN训练模块在线无监督训练得到的参数冻结，而后以初始的OA系统工作流运行状态作为输入，用当前网络参数进行多步状态动作选择直到完成所有业务，即使得所有业务的DAG图对角线元素均为1。而后将此后续工作流调度方案序列化为字符串并输出到界面。

七)本发明所述系统的智能工作流引擎核心算法部分仿真验证流程

第一步：点击仿真软件生成测试需要数目的样本或输入当前OA中运行的工作流实例信息。

第二步：点击调度系统的调度函数，得到其调度结果，可以在控制台观察到调度结果输出。

补充说明：实现框架采用Django，具体的交互界面需要视服务对象目标OA系统而定。

Claims

1.基于DQN算法原理的工作流调度方法，其特征在于：所述工作流调度系统包括工作流实例处理模块、状态观测模块、双DQN训练模块、智能化综合调度模块四大部分。工作流实例处理模块负责将总体状态信息解析为对应格式的数据并生成初始的DAG图；双DQN训练模块基于工作流实例处理模块解析得到的结构化数据训练并整定模型参数；状态观测模块负责在训练整定参数和输出调度结果的过程中为双DQN训练模块和智能化综合调度模块提供每一步训练和调度结果输出的状态特征计算。

2.根据权利要求1所述的基于DQN算法原理的工作流调度方法，其特征在于：采用TCP/IP协议与目标OA系统实现数据和调度结果信息的交互。整个交互流程通过HttpRequest的方式实现，具有轻量化松耦合的特点。在数据信息交互部分，发明提出在目标OA客户端实现大数据分析计算和建模的方法，并给出了回调时的数据结构，运用边缘计算方法减轻服务器压力。

3.根据权利要求1所述的基于DQN算法原理的工作流调度方法，其特征在于：运用强化学习算法解决办公自动化领域的工作流实例综合调度问题，将DDQN网络与办公自动化领域各项状态参数的结合，从而构建了双DQN训练模块、智能化综合调度模块。前者通过在线无监督的方式进行参数的整定，为后者的综合调度输出提供网络参数。

4.根据权利要求3所述的双DQN训练模块，其特征在于：所述模块采用双DQN(DDQN)强化学习方法整定Q值网络的参数。所述Q值网络采用人工神经网络进行构建，结构适应于办公自动化领域，由输入层、双隐层、输出层构成。发明提出了如下7个状态观测特征，组成了DDQN网络的输入向量：办公人员/组的时间平均利用效率、办公人员/组的时间平均利用效率标准差、平均办理进度、办理时间标准差、预计延迟率、实际延迟率、平均办结时间。具体计算公式见说明书。

5.根据权利要求4所述的Q值网络，其特征在于：所述Q值网络的输出为7维独热码，代表从7个调度规则中选择一种进行状态转换。发明提出了7中适应于办公自动化领域的调度规则，Q值网络的输出不是具体的调度步骤，而是先选择调度规则，再由具体的调度规则执行器计算得出应执行的工作流实例、应进行的工作流活动实例以及办理该工作流活动的办公人员。

6.根据权利要求1所述的工作流实例处理模块，其特征在于：采用本发明提供的任务DAG图构建方法和剩余任务节点DAG图构建方法进行数据解析。该模块首先通过解析前提条件删除环结构、而后构建DAG图。当某个DAG图对应的工作流实例已经有部分工作流活动实例被执行，则对剩余的未执行工作流活动构建生成剩余任务节点DAG图。

7.根据权利要求1所述的双DQN训练模块和智能化综合调度模块的动作执行算法部分，其特征在于：对DAG图进行更新的算法按照本发明提出的方法进行。所述方法步骤如下：

1)通过检查DAG矩阵的全零列输出可执行任务节点

2)根据Q值网络输出的7维独热码选择需要被执行的特定任务节点并执行，将被执行的节点对应的DAG矩阵行赋值为全零行

3)将第二步中被执行任务节点对应的某个行列元素赋值为1

4)通过检查DAG图对角线元素是否全部为1判断DAG图对应的任务是否完成

5)如执行完成则返回动作序列和奖励，若未执行完成则重复执行1)至5)

所述算法可参见附图7。