CN116822920B - 一种基于循环神经网络的流程预测方法 - Google Patents
一种基于循环神经网络的流程预测方法 Download PDFInfo
- Publication number
- CN116822920B CN116822920B CN202310584323.9A CN202310584323A CN116822920B CN 116822920 B CN116822920 B CN 116822920B CN 202310584323 A CN202310584323 A CN 202310584323A CN 116822920 B CN116822920 B CN 116822920B
- Authority
- CN
- China
- Prior art keywords
- flow prediction
- flow
- time
- neural network
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 230000000694 effects Effects 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 9
- 230000008602 contraction Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于循环神经网络的流程预测方法,包括以下步骤:S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序;S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集;S3、构造基于循环神经网络的Selective Bi‑LSTM流程预测网络,将训练集输入到Selective Bi‑LSTM流程预测网络中,得到训练后的流程预测模型;S4、使用得到的测试集对训练后的流程预测模型进行测试,得到优化后的流程预测模型;S5、将实时采集的流程日志数据输入到得到的优化后的流程预测模型中,对流程日志进行实时的流程预测;本发明将循环神经网络和注意力机制相结合,解决了流程预测中固定输入向量引发的检测精度低的问题。
Description
技术领域
本发明涉及自动化流程监测的技术领域,尤其是指一种基于循环神经网络的流程预测方法。
背景技术
近年来,随着海量企业日志的产生以及流程挖掘技术的进步使得从历史数据训练数学模型并对未来实例的各种特征进行准确估计成为可能。在特定的上下文中,预测监控是根据有关完整流程实例的记录信息预测部分流程实例特征的任务。部分流程实例特征包括流程要执行的下一个活动、该活动与下个一个活动的耗时、整个流程实例的完成时间以及案例中的最后一个活动的结果。如果准确估计,这些案例特征可以指导流程所有者做出重要决策,并改善托管流程的组织内部的运营。因此,准确的预测监控技术广受欢迎。
早期的预测模型侧重于使用机器学习模型从统计数据中得出预测。例如,使用一系列统计指标来预测下一个病例是否会超时;使用序列模式树来预测完成时间和下一个活动;使用决策树来预测患者是否会恢复与否;结合随机森林和逻辑回归对结构化和非结构化属性进行评分;使用SVR模型来预测运行案例的剩余时间。需要强调的是,这些模型的弱点之一是它们假设了一个静态过程,也就是说其中用于训练的事件日志没有数据上的突变。与之相悖的是,这种假设通常不适用于现实生活中的情况。
现如今,基于循环神经网络的流程预测模型已经成为了在时序任务上不可忽视的模型,例如机器翻译、语音识别、出租车需求预测都出现了它们的身影。但由于流程预测任务的输入往往采用了一种独特的编码方式,即将固有属性列和扩展属性列编码成一个固定长度的向量,现有模型没有考虑扩展变量中不同属性之间的相互作用,这会给流程预测的准确性带来极大的挑战。
发明内容
本发明目的在于克服现有技术的不足,提出了一种基于循环神经网络的流程预测方法,消除流程预测任务中独特的编码方式所引发的低预测准确度的影响。
为实现上述目的,本发明所提供的技术方案如下:一种基于循环神经网络的流程预测方法,包括以下步骤:
S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序;
S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集;
S3、构造基于循环神经网络的Selective Bi-LSTM流程预测网络,将训练集输入到Selective Bi-LSTM流程预测网络中,得到训练后的流程预测模型;
S4、使用步骤S2得到的测试集对训练后的流程预测模型进行测试,并调整训练参数,得到优化后的流程预测模型;
S5、将实时采集的流程日志数据输入到步骤S4中得到的优化后的流程预测模型中,对流程日志进行实时的流程预测。
进一步,所述步骤S1包括以下步骤:
设定为采集的流程日志,所述/>中包括CaseID、TimeStamp和Activity三列数据,设定/>为Activity的集合,/>为TimeStamp的集合,/>为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,…,dn),其中α为/>的子集,τ为/>的子集,di为/>的子集,且1≤i≤b;再对采集到的企业历史流程日志按照/>从小到大进行排序。
进一步,所述步骤S2包括以下步骤:
对每行日志数据l中的α字段编码为一个独热向量,设定为独热向量,/>的维度为活动的个数,即/>
对每行日志数据l中的τ编码为一个6维向量
对每行日志数据l中其他类别属性列编码为独热向量;
对每行日志数据l中其他数值属性列编码作min-max归一化处理;
最后将上述得到的数据的70%作为训练集,30%作为测试集。
进一步,所述对每行日志数据l中的τ编码为一个6维向量包括以下步骤:
设定τ1为当前α与前一个α的时间差,τ2为当前α对应CaseID的第一个α的时间差,τ3为当前α与中第一个α的时间差,τ4为当前α与当天00:00的时间差,τ5为当前α与上一个周末00:00的时间差,τ6为当前α与上一年年底00:00之间的时间差,最后将这6个时间纬度作min-max归一化处理。
进一步,对每行日志数据l中其他类别属性列编码为独热向量,包括以下步骤:
设定类别属性列di的索引字典为di→{1,…,|di|},其中每个索引对应一个独一无二的属性名称,索引字典的尺寸和独热向量编码的长度一致都为|di|,将当前的行l中的di属性列中的值与di→{1,…,|di|}作对比,获取与字典中值一致的索引ξ,则di的独热向量编码的第ξ个位置的值为1,其余都为0。
进一步,所述步骤S3包括以下步骤:
所述Selective Bi-LSTM流程预测网络包括选择元素层和选择事件层,设定输入数据为将输入数据/>输入到编码器中,选择元素层重新校准编码器中各个输出hi中前向传输输出和后向传输输出的比例,设定校准后选择元素层输出为h=(h1,h2,…,ht);将h和t-1时刻隐藏单元的输出h′t-1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中;设定映射后的选择事件层输出为/>解码器会根据h′t-1、/>以及t-1时刻的预测yt-1做出t时刻的预测。
进一步,所述选择元素层重新校准编码器中各个输出hi中前向传输输出和后向传输输出的比例,包括以下步骤:
S6.11、设定编码器第i个输出hi中重新校准前的前向传输输出和后向传输输出分别为和/>首先通过元素求和的方式整合/>和/>到融合特征μ的第i个元素μi中,μi的计算表达式为:/>
S6.12、使用具有激活函数的全连接层计算得到μ的一个长度为d收缩特征k,其计算表达式为:/>
S6.13、使用Softmax函数自适应的重新校准和/>在hi中的响应,而/>和/>的校准权重是由收缩特征k的第i个元素ki来引导的,其计算表达式如下:
其中,Ai为/>的softmax注意力向量,Bi为/>的softmax注意力向量,/>为/>的校准权重,/>为/>的校准权重;
S6.14、将步骤S6.13计算得到的校准权重和/>分别与/>和/>中的各个元素相乘后拼接得到重新校准后的hi,其计算表达式如下:
其中,
进一步,所述将h和t-1时刻隐藏单元的输出h′t-1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中,包括以下步骤:
S6.21、为了计算t时刻隐藏单元的输出h′t-1与h的相关性,需要通过元素求和的方式整合h′t-1和h到一个长度为s的融合特征中,/>的表达式如下:
其中,
S6.22、使用具有激活函数的全连接层计算得到/>的一个长度为d的收缩特征z,其计算表达式为:/>d的计算表达式如下:
d=max(s/r,L),
其中,L为d的最小值,设定为16;s为融合特征的长度;r为人为设定的缩放系数;
S6.23、使用Softmax函数自适应的重新校准hi在h中t时刻的响应,而hi的校准权重是由收缩特征z来引导的,其计算表达式如下:
其中,Γi为hi的Softmax注意力向量,wt,i为hi的校准权重;
S6.24、将步骤S6.23计算得到的校准权重wt,i与hi中的各个元素相乘后得到t时刻重新校准后的上下文信息向量,其计算表达式如下:
其中,
进一步,在步骤S3中,所述将训练集输入到Selective Bi-LSTM流程预测网络中,得到训练后的流程预测模型,包括以下步骤:
设定训练时输入数据的时间步长设定为一个月的平均工作天数即为21,预测的时间窗口设定为一周的工作天数即为5;
使用步长为5的反向截断梯度更新算法,Xavier的随机初始化参数策略以及RmsProp与随机梯度下降组合的优化算法;
训练时的最小批次的尺寸设定为64,权重衰减设定为1e-4,初始的学习率设定为0.1并且每训练20个epoch学习率会以10的倍率进行衰减直到训练到100个epoch。
本发明与现有技术相比,具有如下优点与有益效果:
1、与现有基于机器学习的流程预测模型相比,本发明可以同时预测更多的案例特征,包括下个活动名称、下个活动的时间戳、下个活动的运行成本以及下个案例的运行周期。
2、与现有基于循环神经网络的流程预测模型相比,本发明的预测精度更精确。
3、与现有基于注意力机制的循环神经网络流程预测模型相比,本发明的预测精度有着最优的表现。此外,本发明可以根据运算单元的算力对模型的复杂度进行调整。
附图说明
图1为本发明的选择事件层的网络结构示意图。
图2为本发明的选择元素层的网络结构示意图。
图3为不同epoch下不同模型MAE的对比图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1至图3所示,本实施例提供了基于循环神经网络的流程预测方法,在DL4J深度学习框架下实现,计算机配置采用:Apple M1 Pro处理器,32GB内存,MacOS操作系统,该方法包括以下步骤:
S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序,包括以下步骤:
设定为采集的流程日志,所述/>中包括CaseID、TimeStamp和Activity三列数据,设定/>为Activity的集合,/>为TimeStamp的集合,/>为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,…,dn),其中α为/>的子集,τ为/>的子集,di为/>的子集,且1≤i≤n;
如表1所示,除了CaseID、TimeStamp、Activity这三列固有属性列,还有Processor、Contract以及Construction这三列扩展类别属性列,还有Amount这列扩展数值类别属性列;
表1.截取的部分日志数据
再对采集到的企业历史流程日志首先按照CaseID排序,再按照从小到大进行排序。
S2、参见图2所示,X1,X2,X3,X4为编码后的4个时间步长的日志数据输入;对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集,包括以下步骤:
对每行日志数据l中的α字段编码为一个独热向量,设定为独热向量,/>的维度为活动的个数,即/>
对每行日志数据l中的τ编码为一个6维向量包括以下步骤:
设定τ1为当前α与前一个α的时间差,τ2为当前α对应CaseID的第一个α的时间差,τ3为当前α与中第一个α的时间差,τ4为当前α与当天00:00的时间差,τ5为当前α与上一个周末00:00的时间差,τ6为当前α与上一年年底00:00之间的时间差,最后将这6个时间纬度作min-max归一化处理,具体的min-max的计算表达式为如下:
其中,x为当前需要归一化处理的值,为归一化后的值。
对每行日志数据l中其他类别属性列编码为独热向量,包括以下步骤:
设定类别属性列di的索引字典为di→{1,…,|di|},其中每个索引对应一个独一无二的属性名称,索引字典的尺寸和独热向量编码的长度一致都为|di|,将当前的行l中的di属性列中的值与di→{1,…,|di|}作对比,获取与字典中值一致的索引ξ,则di的独热向量编码的第ξ个位置的值为1,其余都为0。
对每行日志数据l中其他数值属性列编码作min-max归一化处理;
最后将上述得到的数据的70%作为训练集,30%作为测试集。
S3、构造基于循环神经网络的Selective Bi-LSTM流程预测网络,将训练集输入到Selective Bi-LSTM流程预测网络中,得到训练后的流程预测模型,包括以下步骤:
所述Selective Bi-LSTM流程预测网络包括如图2所示的选择元素层(又称SElemLayer)和如图1所示的选择事件层,设定输入数据为将输入数据输入到编码器中,选择元素层重新校准编码器中各个输出hi中前向传输输出和后向传输输出的比例,设定校准后选择元素层输出为h=(h1,h2,…,ht);将h和t-1时刻隐藏单元的输出h′t-1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中;设定映射后的选择事件层输出为/>解码器会根据h′t-1、/>以及t-1时刻的预测yt-1做出t时刻的预测。
其中,所述选择元素层重新校准编码器中各个输出hi中前向传输输出和后向传输输出的比例,包括以下步骤:
S6.11、设定编码器第i个输出hi中重新校准前的前向传输输出和后向传输输出分别为和/>首先通过元素求和的方式整合/>和/>到融合特征μ的第i个元素μi中,μi的计算表达式为:/>
S6.12、使用具有激活函数的全连接层计算得到μ的一个长度为d收缩特征k,其计算表达式为:/>
S6.13、使用Softmax函数自适应的重新校准和/>在hi中的响应,而/>和/>的校准权重是由收缩特征k的第i个元素ki来引导的,其计算表达式如下:
其中,Ai为/>的softmax注意力向量,Bi为/>的softmax注意力向量,/>为/>的校准权重,/>为/>的校准权重;
S6.14、将步骤S6.13计算得到的校准权重和/>分别与/>和/>中的各个元素相乘后拼接得到重新校准后的hi,其计算表达式如下:
其中,
所述将h和t-1时刻隐藏单元的输出h′t-1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中,包括以下步骤:
S6.21、为了计算t时刻隐藏单元的输出h′t-1与h的相关性,需要通过元素求和的方式整合h′t-1和h到一个长度为s的融合特征中,/>的表达式如下:
其中,
S6.22、使用具有激活函数的全连接层计算得到/>的一个长度为d的收缩特征z,其计算表达式为:/>d的计算表达式如下:
d=max(s/r,L),
其中,L为d的最小值,设定为16;s为融合特征的长度;r为人为设定的缩放系数;
S6.23、使用Softmax函数自适应的重新校准hi在h中t时刻的响应,而hi的校准权重是由收缩特征z来引导的,其计算表达式如下:
其中,Γi为hi的Softmax注意力向量,wt,i为hi的校准权重;
S6.24、将步骤S6.23计算得到的校准权重wt,i与hi中的各个元素相乘后得到t时刻重新校准后的上下文信息向量,其计算表达式如下:
其中,
所述将训练集输入到Selective Bi-LSTM流程预测网络中,得到训练后的流程预测模型,包括以下步骤:
S6.31、为了保证预测的合理性,本发明设定训练时输入数据的时间步长设定为一个月的平均工作天数即为21,预测的时间窗口设定为一周的工作天数即为5;
S6.32、为了降低模型训练的复杂度,本发明使用了步长为5的反向截断梯度更新算法,Xavier的随机初始化参数策略以及RmsProp与随机梯度下降组合的优化算法;
S6.33、训练时的最小批次的尺寸设定为64,权重衰减设定为1e-4,初始的学习率设定为0.1并且每训练20个epoch学习率会以10的倍率进行衰减直到训练到100个epoch。
S4、使用步骤S2得到的测试集对训练后的流程预测模型进行测试,并调整训练参数,得到优化后的流程预测模型;
S5、将实时采集的流程日志数据输入到步骤S4中得到的优化后的流程预测模型中,对流程日志进行实时的流程预测。
本发明实施例的数据集与合同审批日志相关,这份合同审批日志涵盖的日期为2019年6月1日至2022年12月1日,平均每天55.96案例;该数据共包含17,356个案例,包含459,004个事件和245个活动名称;值得注意的是,该数据包含14,514个变体,返工比例高达21.78%,这可能会给工流程预测带来极大的挑战。本发明使用前12,149个案例作为训练集,剩下的2,603个案例作为验证集,其余案例用作测试集。
本发明通过比较预测误差指标MSE和RMSE来评估Selective Bi-LSTM的性能。MSE和RMSE的计算表达式如下:
其中,设定yt是t时刻的真实值,是t时刻的预测值,其中N是训练样本的数量,K是预测变量的数量,k是当天预测变量的序号。
在本发明实施例中,我们选择基于RNN的模型、基于LSTM的模型(如Stacked-LSTM、DA-LSTM)以及基于注意力机制的LSTM模型(如Hierarchical-LSTM、TPA-LSTM)作为基线,并与本发明提出的Selective Bi-LSTM进行比较。如表2所示,本发明提出的模型SelectiveBi-LSTM在MSE和RMSE这两个预测误差指标上都取得了最好的成绩。此外,如图3所示,本发明还展示了每20个epoch不同模型之间MAE预测误差结果。与Stacked-LSTM、DA-LSTM相比,模型得到了相当大的改进,这主要是由于注意机制从复杂的时间输入中提取了重要的相关特征。与基于注意力模型Hierarchical-LSTM、TPA-LSTM相比,模型取得了更好的性能,因为选择事件层不仅捕获了全局时序信息中的相关性,而且还要归功于选择元素层修正了编码器各个输出中前向传播和的反向传递的占比。
表2基于RNN的模型的MAE和RMSE的实验结果
Models | MAE | RMSE |
RNN | 1.119 | 1.833 |
DA-LSTM | 0.944 | 1.591 |
Stacked-LSTM | 0.919 | 1.583 |
Hierarchical-LSTM | 0.937 | 1.406 |
TPA-LSTM | 0.910 | 1.429 |
SelectiveBi-LSTM | 0.894 | 1.388 |
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (6)
1.一种基于循环神经网络的流程预测方法,其特征在于,包括以下步骤:
S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序,包括以下步骤:
设定为采集的流程日志,所述/>中包括CaseID、TimeStamp和Activity三列数据,设定/>为Activity的集合,/>为TimeStamp的集合,/>为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,…,dn),其中α为/>的子集,τ为/>的子集,di为/>的子集,且1≤i≤n;再对采集到的企业历史流程日志按照/>从小到大进行排序;
S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集,包括以下步骤:
对每行日志数据l中的α字段编码为一个独热向量,设定为独热向量,/>的维度为活动的个数,即/>
对每行日志数据l中的τ编码为一个6维向量
对每行日志数据l中其他类别属性列编码为独热向量;
对每行日志数据l中其他数值属性列编码作min-max归一化处理;
最后将上述得到的数据的70%作为训练集,30%作为测试集;
S3、构造基于循环神经网络的Selective Bi-LSTM流程预测网络,将训练集输入到Selective Bi-LSTM流程预测网络中,得到训练后的流程预测模型,包括以下步骤:
所述Selective Bi-LSTM流程预测网络包括选择元素层和选择事件层,设定输入数据为将输入数据/>输入到编码器中,选择元素层重新校准编码器中各个输出hi中前向传输输出和后向传输输出的比例,设定校准后选择元素层输出为h=(h1,h2,…,ht);将h和t-1时刻隐藏单元的输出h′t-1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中;设定映射后的选择事件层输出为解码器会根据h′t-1、/>以及t-1时刻的预测yt-1做出t时刻的预测;
S4、使用步骤S2得到的测试集对训练后的流程预测模型进行测试,并调整训练参数,得到优化后的流程预测模型;
S5、将实时采集的流程日志数据输入到步骤S4中得到的优化后的流程预测模型中,对流程日志进行实时的流程预测。
2.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,所述对每行日志数据l中的τ编码为一个6维向量包括以下步骤:
设定τ1为当前α与前一个α的时间差,τ2为当前α对应CaseID的第一个α的时间差,τ3为当前α与中第一个α的时间差,τ4为当前α与当天00:00的时间差,τ5为当前α与上一个周末00:00的时间差,τ6为当前α与上一年年底00:00之间的时间差,最后将这6个时间纬度作min-max归一化处理。
3.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,对每行日志数据l中其他类别属性列编码为独热向量,包括以下步骤:
设定类别属性列di的索引字典为di→{1,…,|di|},其中每个索引对应一个独一无二的属性名称,索引字典的尺寸和独热向量编码的长度一致都为|di|,将当前的行l中的di属性列中的值与di→{1,…,|di|}作对比,获取与字典中值一致的索引ξ,则di的独热向量编码的第ξ个位置的值为1,其余都为0。
4.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,所述选择元素层重新校准编码器中各个输出hi中前向传输输出和后向传输输出的比例,包括以下步骤:
S6.11、设定编码器第i个输出hi中重新校准前的前向传输输出和后向传输输出分别为和/>首先通过元素求和的方式整合/>和/>到融合特征μ的第i个元素μi中,μi的计算表达式为:/>
S6.12、使用具有激活函数的全连接层计算得到μ的一个长度为d收缩特征k,其计算表达式为:/>
S6.13、使用Softmax函数自适应的重新校准和/>在hi中的响应,而/>和/>的校准权重是由收缩特征k的第i个元素ki来引导的,其计算表达式如下:
其中,Ai为/>的softmax注意力向量,Bi为/>的softmax注意力向量,/>为/>的校准权重,/>为/>的校准权重;
S6.14、将步骤S6.13计算得到的校准权重和/>分别与/>和/>中的各个元素相乘后拼接得到重新校准后的hi,其计算表达式如下:
其中,
5.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,所述将h和t-1时刻隐藏单元的输出h′t-1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中,包括以下步骤:
S6.21、为了计算t时刻隐藏单元的输出h′t-1与h的相关性,需要通过元素求和的方式整合h′t-1和h到一个长度为s的融合特征中,/>的表达式如下:
其中,
S6.22、使用具有激活函数的全连接层计算得到/>的一个长度为d的收缩特征z,其计算表达式为:/>d的计算表达式如下:
d=max(s/r,L),
其中,L为d的最小值,设定为16;s为融合特征的长度;r为人为设定的缩放系数;
S6.23、使用Softmax函数自适应的重新校准hi在h中t时刻的响应,而hi的校准权重是由收缩特征z来引导的,其计算表达式如下:
其中,Γi为hi的Softmax注意力向量,wt,i为hi的校准权重;
S6.24、将步骤S6.23计算得到的校准权重wt,i与hi中的各个元素相乘后得到t时刻重新校准后的上下文信息向量,其计算表达式如下:
其中,
6.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,在步骤S3中,所述将训练集输入到Selective Bi-LSTM流程预测网络中,得到训练后的流程预测模型,包括以下步骤:
设定训练时输入数据的时间步长设定为一个月的平均工作天数即为21,预测的时间窗口设定为一周的工作天数即为5;
使用步长为5的反向截断梯度更新算法,Xavier的随机初始化参数策略以及RmsProp与随机梯度下降组合的优化算法;
训练时的最小批次的尺寸设定为64,权重衰减设定为1e-4,初始的学习率设定为0.1并且每训练20个epoch学习率会以10的倍率进行衰减直到训练到100个epoch。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584323.9A CN116822920B (zh) | 2023-05-23 | 2023-05-23 | 一种基于循环神经网络的流程预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584323.9A CN116822920B (zh) | 2023-05-23 | 2023-05-23 | 一种基于循环神经网络的流程预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116822920A CN116822920A (zh) | 2023-09-29 |
CN116822920B true CN116822920B (zh) | 2024-03-29 |
Family
ID=88111815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310584323.9A Active CN116822920B (zh) | 2023-05-23 | 2023-05-23 | 一种基于循环神经网络的流程预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822920B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495071B (zh) * | 2023-12-29 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及系统 |
CN117639452B (zh) * | 2024-01-23 | 2024-04-23 | 深圳市科沃电气技术有限公司 | 逆变器的电压补偿方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508265A (zh) * | 2020-12-02 | 2021-03-16 | 中国极地研究中心 | 面向业务流程管理的时间与活动多任务预测方法及系统 |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、系统、存储介质及计算设备 |
CN114757432A (zh) * | 2022-04-27 | 2022-07-15 | 浙江传媒学院 | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 |
CN115147347A (zh) * | 2022-04-22 | 2022-10-04 | 宁波大学 | 一种面向边缘计算的玛钢管件表面缺陷检测的方法 |
-
2023
- 2023-05-23 CN CN202310584323.9A patent/CN116822920B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508265A (zh) * | 2020-12-02 | 2021-03-16 | 中国极地研究中心 | 面向业务流程管理的时间与活动多任务预测方法及系统 |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、系统、存储介质及计算设备 |
CN115147347A (zh) * | 2022-04-22 | 2022-10-04 | 宁波大学 | 一种面向边缘计算的玛钢管件表面缺陷检测的方法 |
CN114757432A (zh) * | 2022-04-27 | 2022-07-15 | 浙江传媒学院 | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
Self-Att-BiLSTM: 一种面向业务流程活动与时间的多任务预测方法;贺琪等;《激光与光电子学进展》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116822920A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116822920B (zh) | 一种基于循环神经网络的流程预测方法 | |
Navone et al. | Predicting Indian monsoon rainfall: a neural network approach | |
CN110163433B (zh) | 一种船舶流量预测方法 | |
CN112633604B (zh) | 一种基于i-lstm的短期用电量预测方法 | |
CN111767517B (zh) | 一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质 | |
CN113743016B (zh) | 基于自编码器和回声状态网络的发动机剩余寿命预测方法 | |
CN111461463A (zh) | 一种基于tcn-bp的短期负荷预测方法、系统及设备 | |
CN113298288A (zh) | 一种融合时间序列和神经网络的供电所运维成本预测方法 | |
CN111814956A (zh) | 一种基于多维度二次特征提取的多任务学习的空气质量预测方法 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
CN113505923A (zh) | 一种地区电网短期负荷预测方法及系统 | |
CN111461455A (zh) | 一种基于关联周期注意力机制的行为预测方法 | |
CN115587666A (zh) | 基于季节趋势分解和混合神经网络的负荷预测方法及系统 | |
CN114662791A (zh) | 一种基于时空注意力的长时序pm2.5预测方法及系统 | |
CN116703644A (zh) | 一种基于Attention-RNN的短期电力负荷预测方法 | |
CN112990585A (zh) | 一种基于LSTM-Kalman模型的蛋鸡产蛋率预测方法 | |
CN116628444A (zh) | 一种基于改进元学习的水质预警方法 | |
CN113159395A (zh) | 一种基于深度学习的污水处理厂进水流量预测方法及系统 | |
CN112232570A (zh) | 一种正向有功总电量预测方法、装置及可读存储介质 | |
CN111369078A (zh) | 一种基于长短期记忆神经网络的供水水质预测方法 | |
CN116579408A (zh) | 一种基于模型结构冗余度的模型剪枝方法及系统 | |
CN116247658A (zh) | 一种基于dlrm深度学习模型的光伏发电量预测方法 | |
CN115759343A (zh) | 一种基于e-lstm的用户电量预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |