CN116822920B

CN116822920B - 一种基于循环神经网络的流程预测方法

Info

Publication number: CN116822920B
Application number: CN202310584323.9A
Authority: CN
Inventors: 白杰; 陈志强; 梅珂; 胡兵
Original assignee: Beijing Jiecheng Heli Technology Co ltd
Current assignee: Beijing Jiecheng Heli Technology Co ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2024-03-29
Anticipated expiration: 2043-05-23
Also published as: CN116822920A

Abstract

本发明公开了一种基于循环神经网络的流程预测方法，包括以下步骤：S1、全量采集企业的历史流程日志，并对采集到的企业历史流程日志进行排序；S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理，并将得到的数据划分为训练集和测试集；S3、构造基于循环神经网络的Selective Bi‑LSTM流程预测网络，将训练集输入到Selective Bi‑LSTM流程预测网络中，得到训练后的流程预测模型；S4、使用得到的测试集对训练后的流程预测模型进行测试，得到优化后的流程预测模型；S5、将实时采集的流程日志数据输入到得到的优化后的流程预测模型中，对流程日志进行实时的流程预测；本发明将循环神经网络和注意力机制相结合，解决了流程预测中固定输入向量引发的检测精度低的问题。

Description

一种基于循环神经网络的流程预测方法

技术领域

本发明涉及自动化流程监测的技术领域，尤其是指一种基于循环神经网络的流程预测方法。

背景技术

近年来，随着海量企业日志的产生以及流程挖掘技术的进步使得从历史数据训练数学模型并对未来实例的各种特征进行准确估计成为可能。在特定的上下文中，预测监控是根据有关完整流程实例的记录信息预测部分流程实例特征的任务。部分流程实例特征包括流程要执行的下一个活动、该活动与下个一个活动的耗时、整个流程实例的完成时间以及案例中的最后一个活动的结果。如果准确估计，这些案例特征可以指导流程所有者做出重要决策，并改善托管流程的组织内部的运营。因此，准确的预测监控技术广受欢迎。

早期的预测模型侧重于使用机器学习模型从统计数据中得出预测。例如，使用一系列统计指标来预测下一个病例是否会超时；使用序列模式树来预测完成时间和下一个活动；使用决策树来预测患者是否会恢复与否；结合随机森林和逻辑回归对结构化和非结构化属性进行评分；使用SVR模型来预测运行案例的剩余时间。需要强调的是，这些模型的弱点之一是它们假设了一个静态过程，也就是说其中用于训练的事件日志没有数据上的突变。与之相悖的是，这种假设通常不适用于现实生活中的情况。

现如今，基于循环神经网络的流程预测模型已经成为了在时序任务上不可忽视的模型，例如机器翻译、语音识别、出租车需求预测都出现了它们的身影。但由于流程预测任务的输入往往采用了一种独特的编码方式，即将固有属性列和扩展属性列编码成一个固定长度的向量，现有模型没有考虑扩展变量中不同属性之间的相互作用，这会给流程预测的准确性带来极大的挑战。

发明内容

本发明目的在于克服现有技术的不足，提出了一种基于循环神经网络的流程预测方法，消除流程预测任务中独特的编码方式所引发的低预测准确度的影响。

为实现上述目的，本发明所提供的技术方案如下：一种基于循环神经网络的流程预测方法，包括以下步骤：

S1、全量采集企业的历史流程日志，并对采集到的企业历史流程日志进行排序；

S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理，并将得到的数据划分为训练集和测试集；

S3、构造基于循环神经网络的Selective Bi-LSTM流程预测网络，将训练集输入到Selective Bi-LSTM流程预测网络中，得到训练后的流程预测模型；

S4、使用步骤S2得到的测试集对训练后的流程预测模型进行测试，并调整训练参数，得到优化后的流程预测模型；

S5、将实时采集的流程日志数据输入到步骤S4中得到的优化后的流程预测模型中，对流程日志进行实时的流程预测。

进一步，所述步骤S1包括以下步骤：

设定为采集的流程日志，所述/>中包括CaseID、TimeStamp和Activity三列数据，设定/>为Activity的集合，/>为TimeStamp的集合，/>为其它属性列，l为每行日志数据，因此l＝(α，τ，d₁，d₂，…，d_n)，其中α为/>的子集，τ为/>的子集，d_i为/>的子集，且1≤i≤b；再对采集到的企业历史流程日志按照/>从小到大进行排序。

进一步，所述步骤S2包括以下步骤：

对每行日志数据l中的α字段编码为一个独热向量，设定为独热向量，/>的维度为活动的个数，即/>

对每行日志数据l中的τ编码为一个6维向量

对每行日志数据l中其他类别属性列编码为独热向量；

对每行日志数据l中其他数值属性列编码作min-max归一化处理；

最后将上述得到的数据的70％作为训练集，30％作为测试集。

进一步，所述对每行日志数据l中的τ编码为一个6维向量包括以下步骤：

设定τ₁为当前α与前一个α的时间差，τ₂为当前α对应CaseID的第一个α的时间差，τ₃为当前α与中第一个α的时间差，τ₄为当前α与当天00:00的时间差，τ₅为当前α与上一个周末00:00的时间差，τ₆为当前α与上一年年底00:00之间的时间差，最后将这6个时间纬度作min-max归一化处理。

进一步，对每行日志数据l中其他类别属性列编码为独热向量，包括以下步骤：

设定类别属性列d_i的索引字典为d_i→{1，…，|d_i|}，其中每个索引对应一个独一无二的属性名称，索引字典的尺寸和独热向量编码的长度一致都为|d_i|，将当前的行l中的d_i属性列中的值与d_i→{1，…，|d_i|}作对比，获取与字典中值一致的索引ξ，则d_i的独热向量编码的第ξ个位置的值为1，其余都为0。

进一步，所述步骤S3包括以下步骤：

所述Selective Bi-LSTM流程预测网络包括选择元素层和选择事件层，设定输入数据为将输入数据/>输入到编码器中，选择元素层重新校准编码器中各个输出h_i中前向传输输出和后向传输输出的比例，设定校准后选择元素层输出为h＝(h₁，h₂，…，h_t)；将h和t-1时刻隐藏单元的输出h′_t-1输入到选择事件层中，选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中；设定映射后的选择事件层输出为/>解码器会根据h′_t-1、/>以及t-1时刻的预测y_t-1做出t时刻的预测。

进一步，所述选择元素层重新校准编码器中各个输出h_i中前向传输输出和后向传输输出的比例，包括以下步骤：

S6.11、设定编码器第i个输出h_i中重新校准前的前向传输输出和后向传输输出分别为和/>首先通过元素求和的方式整合/>和/>到融合特征μ的第i个元素μ_i中，μ_i的计算表达式为：/>

S6.12、使用具有激活函数的全连接层计算得到μ的一个长度为d收缩特征k，其计算表达式为：/>

S6.13、使用Softmax函数自适应的重新校准和/>在h_i中的响应，而/>和/>的校准权重是由收缩特征k的第i个元素k_i来引导的，其计算表达式如下：

其中，A_i为/>的softmax注意力向量，B_i为/>的softmax注意力向量，/>为/>的校准权重，/>为/>的校准权重；

S6.14、将步骤S6.13计算得到的校准权重和/>分别与/>和/>中的各个元素相乘后拼接得到重新校准后的h_i，其计算表达式如下：

其中，

进一步，所述将h和t-1时刻隐藏单元的输出h′_t-1输入到选择事件层中，选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中，包括以下步骤：

S6.21、为了计算t时刻隐藏单元的输出h′_t-1与h的相关性，需要通过元素求和的方式整合h′_t-1和h到一个长度为s的融合特征中，/>的表达式如下：

其中，

S6.22、使用具有激活函数的全连接层计算得到/>的一个长度为d的收缩特征z，其计算表达式为：/>d的计算表达式如下：

d＝max(s/r，L)，

其中，L为d的最小值，设定为16；s为融合特征的长度；r为人为设定的缩放系数；

S6.23、使用Softmax函数自适应的重新校准h_i在h中t时刻的响应，而h_i的校准权重是由收缩特征z来引导的，其计算表达式如下：

其中，Γ_i为h_i的Softmax注意力向量，w_t，i为h_i的校准权重；

S6.24、将步骤S6.23计算得到的校准权重w_t，i与h_i中的各个元素相乘后得到t时刻重新校准后的上下文信息向量，其计算表达式如下：

其中，

进一步，在步骤S3中，所述将训练集输入到Selective Bi-LSTM流程预测网络中，得到训练后的流程预测模型，包括以下步骤：

设定训练时输入数据的时间步长设定为一个月的平均工作天数即为21，预测的时间窗口设定为一周的工作天数即为5；

使用步长为5的反向截断梯度更新算法，Xavier的随机初始化参数策略以及RmsProp与随机梯度下降组合的优化算法；

训练时的最小批次的尺寸设定为64，权重衰减设定为1e-4，初始的学习率设定为0.1并且每训练20个epoch学习率会以10的倍率进行衰减直到训练到100个epoch。

本发明与现有技术相比，具有如下优点与有益效果：

1、与现有基于机器学习的流程预测模型相比，本发明可以同时预测更多的案例特征，包括下个活动名称、下个活动的时间戳、下个活动的运行成本以及下个案例的运行周期。

2、与现有基于循环神经网络的流程预测模型相比，本发明的预测精度更精确。

3、与现有基于注意力机制的循环神经网络流程预测模型相比，本发明的预测精度有着最优的表现。此外，本发明可以根据运算单元的算力对模型的复杂度进行调整。

附图说明

图1为本发明的选择事件层的网络结构示意图。

图2为本发明的选择元素层的网络结构示意图。

图3为不同epoch下不同模型MAE的对比图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

参见图1至图3所示，本实施例提供了基于循环神经网络的流程预测方法，在DL4J深度学习框架下实现，计算机配置采用：Apple M1 Pro处理器，32GB内存，MacOS操作系统，该方法包括以下步骤：

S1、全量采集企业的历史流程日志，并对采集到的企业历史流程日志进行排序，包括以下步骤：

设定为采集的流程日志，所述/>中包括CaseID、TimeStamp和Activity三列数据，设定/>为Activity的集合，/>为TimeStamp的集合，/>为其它属性列，l为每行日志数据，因此l＝(α，τ，d₁，d₂，…，d_n)，其中α为/>的子集，τ为/>的子集，d_i为/>的子集，且1≤i≤n；

如表1所示，除了CaseID、TimeStamp、Activity这三列固有属性列，还有Processor、Contract以及Construction这三列扩展类别属性列，还有Amount这列扩展数值类别属性列；

表1.截取的部分日志数据

再对采集到的企业历史流程日志首先按照CaseID排序，再按照从小到大进行排序。

S2、参见图2所示，X₁，X₂，X₃，X₄为编码后的4个时间步长的日志数据输入；对排序后的企业历史流程日志中的每行日志数据进行编码处理，并将得到的数据划分为训练集和测试集，包括以下步骤：

对每行日志数据l中的τ编码为一个6维向量包括以下步骤：

设定τ₁为当前α与前一个α的时间差，τ₂为当前α对应CaseID的第一个α的时间差，τ₃为当前α与中第一个α的时间差，τ₄为当前α与当天00:00的时间差，τ₅为当前α与上一个周末00:00的时间差，τ₆为当前α与上一年年底00:00之间的时间差，最后将这6个时间纬度作min-max归一化处理，具体的min-max的计算表达式为如下：

其中，x为当前需要归一化处理的值，为归一化后的值。

对每行日志数据l中其他类别属性列编码为独热向量，包括以下步骤：

最后将上述得到的数据的70％作为训练集，30％作为测试集。

S3、构造基于循环神经网络的Selective Bi-LSTM流程预测网络，将训练集输入到Selective Bi-LSTM流程预测网络中，得到训练后的流程预测模型，包括以下步骤：

所述Selective Bi-LSTM流程预测网络包括如图2所示的选择元素层(又称SElemLayer)和如图1所示的选择事件层，设定输入数据为将输入数据输入到编码器中，选择元素层重新校准编码器中各个输出h_i中前向传输输出和后向传输输出的比例，设定校准后选择元素层输出为h＝(h₁，h₂，…，h_t)；将h和t-1时刻隐藏单元的输出h′_t-1输入到选择事件层中，选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中；设定映射后的选择事件层输出为/>解码器会根据h′_t-1、/>以及t-1时刻的预测y_t-1做出t时刻的预测。

其中，所述选择元素层重新校准编码器中各个输出h_i中前向传输输出和后向传输输出的比例，包括以下步骤：

其中，

所述将h和t-1时刻隐藏单元的输出h′_t-1输入到选择事件层中，选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中，包括以下步骤：

其中，

d＝max(s/r，L)，

其中，Γ_i为h_i的Softmax注意力向量，w_t，i为h_i的校准权重；

其中，

所述将训练集输入到Selective Bi-LSTM流程预测网络中，得到训练后的流程预测模型，包括以下步骤：

S6.31、为了保证预测的合理性，本发明设定训练时输入数据的时间步长设定为一个月的平均工作天数即为21，预测的时间窗口设定为一周的工作天数即为5；

S6.32、为了降低模型训练的复杂度，本发明使用了步长为5的反向截断梯度更新算法，Xavier的随机初始化参数策略以及RmsProp与随机梯度下降组合的优化算法；

S6.33、训练时的最小批次的尺寸设定为64，权重衰减设定为1e-4，初始的学习率设定为0.1并且每训练20个epoch学习率会以10的倍率进行衰减直到训练到100个epoch。

本发明实施例的数据集与合同审批日志相关，这份合同审批日志涵盖的日期为2019年6月1日至2022年12月1日，平均每天55.96案例；该数据共包含17,356个案例，包含459,004个事件和245个活动名称；值得注意的是，该数据包含14,514个变体，返工比例高达21.78％，这可能会给工流程预测带来极大的挑战。本发明使用前12,149个案例作为训练集，剩下的2,603个案例作为验证集，其余案例用作测试集。

本发明通过比较预测误差指标MSE和RMSE来评估Selective Bi-LSTM的性能。MSE和RMSE的计算表达式如下：

其中，设定y_t是t时刻的真实值，是t时刻的预测值，其中N是训练样本的数量，K是预测变量的数量，k是当天预测变量的序号。

在本发明实施例中，我们选择基于RNN的模型、基于LSTM的模型(如Stacked-LSTM、DA-LSTM)以及基于注意力机制的LSTM模型(如Hierarchical-LSTM、TPA-LSTM)作为基线，并与本发明提出的Selective Bi-LSTM进行比较。如表2所示，本发明提出的模型SelectiveBi-LSTM在MSE和RMSE这两个预测误差指标上都取得了最好的成绩。此外，如图3所示，本发明还展示了每20个epoch不同模型之间MAE预测误差结果。与Stacked-LSTM、DA-LSTM相比，模型得到了相当大的改进，这主要是由于注意机制从复杂的时间输入中提取了重要的相关特征。与基于注意力模型Hierarchical-LSTM、TPA-LSTM相比，模型取得了更好的性能，因为选择事件层不仅捕获了全局时序信息中的相关性,而且还要归功于选择元素层修正了编码器各个输出中前向传播和的反向传递的占比。

表2基于RNN的模型的MAE和RMSE的实验结果

Models	MAE	RMSE
			RNN	1.119	1.833
DA-LSTM	0.944	1.591
			Stacked-LSTM	0.919	1.583
Hierarchical-LSTM	0.937	1.406
			TPA-LSTM	0.910	1.429
SelectiveBi-LSTM	0.894	1.388

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于循环神经网络的流程预测方法，其特征在于，包括以下步骤：

设定为采集的流程日志，所述/>中包括CaseID、TimeStamp和Activity三列数据，设定/>为Activity的集合，/>为TimeStamp的集合，/>为其它属性列，l为每行日志数据，因此l＝(α，τ，d₁，d₂，…，d_n)，其中α为/>的子集，τ为/>的子集，d_i为/>的子集，且1≤i≤n；再对采集到的企业历史流程日志按照/>从小到大进行排序；

S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理，并将得到的数据划分为训练集和测试集，包括以下步骤：

对每行日志数据l中的τ编码为一个6维向量

对每行日志数据l中其他类别属性列编码为独热向量；

最后将上述得到的数据的70％作为训练集，30％作为测试集；

所述Selective Bi-LSTM流程预测网络包括选择元素层和选择事件层，设定输入数据为将输入数据/>输入到编码器中，选择元素层重新校准编码器中各个输出h_i中前向传输输出和后向传输输出的比例，设定校准后选择元素层输出为h＝(h₁，h₂，…，h_t)；将h和t-1时刻隐藏单元的输出h′_t-1输入到选择事件层中，选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中；设定映射后的选择事件层输出为解码器会根据h′_t-1、/>以及t-1时刻的预测y_t-1做出t时刻的预测；

2.根据权利要求1所述的一种基于循环神经网络的流程预测方法，其特征在于，所述对每行日志数据l中的τ编码为一个6维向量包括以下步骤：

3.根据权利要求1所述的一种基于循环神经网络的流程预测方法，其特征在于，对每行日志数据l中其他类别属性列编码为独热向量，包括以下步骤：

4.根据权利要求1所述的一种基于循环神经网络的流程预测方法，其特征在于，所述选择元素层重新校准编码器中各个输出h_i中前向传输输出和后向传输输出的比例，包括以下步骤：

其中，

5.根据权利要求1所述的一种基于循环神经网络的流程预测方法，其特征在于，所述将h和t-1时刻隐藏单元的输出h′_t-1输入到选择事件层中，选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中，包括以下步骤：

其中，

d＝max(s/r，L)，

其中，Γ_i为h_i的Softmax注意力向量，w_t，i为h_i的校准权重；

其中，

6.根据权利要求1所述的一种基于循环神经网络的流程预测方法，其特征在于，在步骤S3中，所述将训练集输入到Selective Bi-LSTM流程预测网络中，得到训练后的流程预测模型，包括以下步骤：