CN111178623B

CN111178623B - 一种基于多层机器学习的业务流程剩余时间预测方法

Info

Publication number: CN111178623B
Application number: CN201911366631.4A
Authority: CN
Inventors: 俞东进; 侯文杰; 孙笑笑; 应钰柯
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-06-17
Anticipated expiration: 2039-12-26
Also published as: CN111178623A

Abstract

本发明公开了一种基于多层机器学习的业务流程剩余时间预测方法。该方法提取了历史日志中的实例间属性以剩余关键活动数属性，并使用stacking技术将XGBoost、LightGBM模型进行融合，从而得到一个更优的融合模型来完成对流程实例剩余时间的预测。这种业务流程剩余时间预测方法有精度高、鲁棒性强等特点，能有效预测流程未来执行信息，为相关人员进行流程优化、流程控制等提供指导。

Description

一种基于多层机器学习的业务流程剩余时间预测方法

技术领域

本发明涉及流程监控预测领域，尤其涉及一种基于多层机器学习的业务流程剩余时间预测方法。

背景技术

业务流程的预测性监测是流程挖掘的子领域之一,其目的是通过生成预测模型来预测正在执行的流程实例的可量化指标，旨在为相关人员提供及时的信息,以便能够采取主动的纠正措施,提高流程性能并降低流程风险。流程预测方法的预测对象也是非常多样化的，不同的预测目标能为业务中不同的相关人员提供有用的信息。例如对于流程剩余时间的预测可以调整流程实例执行的优先级，避免有些流程实例的执行超过其截止时间。同时业务流程的预测结果可以帮助企业提高相关业务的绩效指标也可以帮助其评估流程风险或预测可能出现的服务级别协议(SLA)冲突。

业务流程剩余时间预测可以有效的帮助相关人员洞察业务的走向，根据预测时间调整相应的策略。Polato等人和Aalst等人都选择了带注释的过渡系统来描述业务流程结构，进而实现剩余执行时间的预测工作。但是，Aalst等人仅考虑了事件日志中的控制流属性，而没有考虑其他属性(如资源属性)对未来行为的影响。为了解决这个问题，Polato等人更加全面的考虑了事件属性对剩余时间的影响，在预测的输入数据中包含了更多的事件属性，并使用贝叶斯分类器和支持向量机来实现对下一个活动的状态和执行时间的预测。Rogge-Solti等人将统计方法与过渡系统结合起来，通过对历史数据的统计分析来模拟过渡系统中每个状态的剩余时间分布。对于当前执行实例的状态使用拟合分布来预测剩余时间的分布，并利用采样样本的平均时间用作实例的剩余时间预测。尼泊尔等人将马尔可夫模型应用于业务流程中下一个执行活动的预测，并使用历史活动执行时间的平均值作为活动的预测执行时间，从而实现了对业务中剩余时间的预测处理。Verenich等人将LSTM方法引用到业务流程的预测监视中，并构建了一个两层LSTM模型来分别预测下一个执行的活动及其时间属性。

然而当前剩余时间预测的相关技术大多数都没有考虑实例之间的资源竞争对当前实例执行的剩余时间的影响。对于一些复杂的业务流程模型，其流程模型都是非结构化的，因此会导致那些需要借助流程结构来实现剩余时间预测的方法预测精度大幅降低。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于多层机器学习的业务流程剩余时间预测方法，可有效解决上述问题。本发明具体采用的技术方案如下：

一种基于多层机器学习的业务流程剩余时间预测方法，包括以下步骤：

S1.数据特征提取：输入原始日志，提取出其中每个事件的特征属性，所属特征属性包括基本特征属性、实例间特征属性、剩余关键活动数特征属性三类，具体包含以下子步骤：

S11.基本特征属性提取：提取日志中有直接记录的事件特征属性，包括活动名、事件Id、活动开始时间、活动结束时间；

S12.实例间特征属性提取：提取日志中表征资源间竞争关系的实例间特征属性，包括反映未来时间段t内被执行的实例数的区间实例数ExecCaseNum(t)，反映未来时间段t内活动a_i被执行的次数的区间事件数ExecEventNum(a_i，t)，反映未来时间段t内与活动a_i具有竞争关系的其他活动被执行的次数之和的区间事件加权数WeightEventNum(a_i，t)，其计算公式如下：

ExecCaseNum(t)＝|{σ|(σ.startTime＞t_point-t)∧(σ.startTime＜t_point)}|

ExecEventNum(a_i，t)＝|{e|(e.startTime＞t_point-t)∧(e.startTime＜t_point)∧(e.actvity＝a_i)}|

其中σ是发生事件所在的流程实例对应的轨迹，t是采样的时间窗口大小即区间，σ.startTime是当前流程实例的开始时间，t_point表示预测发生的时间点，a_i表示执行当前事件的活动名，e.startTime表示事件开始的时间点，

为流程的活动集合，prefR(a_i)是可以执行活动a_i的所有资源的集合，|prefR(a_i)|是可以执行活动a_i的资源的种类数，I(prefR(a_i)，prefR(a_j))是既能执行活动a_i又能执行活动a_j的所有资源的集合，|I(prefR(a_i)，prefR(a_j))|是既能执行活动a_i又能执行活动a_j的资源的种类数；

S13.剩余关键活动数特征属性提取：首先从历史日志中找出关键活动，并统计历史日志中全部前缀轨迹的剩余关键活动数；然后对于当前要预测的前缀轨迹，从历史日志中找到与其最相似的轨迹序列，将该轨迹序列对应的剩余关键活动数作为当前轨迹的近似剩余关键活动数，具体包含以下子步骤：

S131.对历史日志中的每个流程实例，将实例中执行的活动按照其执行时间长短从大到小排序，并为其标记排序值，其中排首位的活动即执行时间最长的活动排序值为1，后面的活动的排序值依次递增；

S132.统计整个历史日志中不同活动在不同实例中的排序值，并计算出每类活动的平均排序值；

S133.按照每类活动的平均排序值对活动进行升序排序，选取排名前k％的活动作为关键活动；

S134.对给定的前缀轨迹PTr进行序列转换得到其对应的活动序列Seq，活动序列Seq的长度为l；

S135.对历史日志中的每个流程实例，分别统计该实例中不同前缀轨迹对应的剩余活动序列所包含的关键活动数量，并对历史日志中全部的前缀轨迹进行序列转换得到活动序列集historySeqSet；

S136.选取historySeqSet中长度等于l的活动序列构成子集subSeqSet，依次计算subSeqSet中的活动序列与当Seq的相似度，活动序列之间的相似度使用Damerau-Levenshtein distance进行计算，求得与Seq最近似的活动序列similarSeq；

S137.设similarSeq与Seq的Damerau-Levenshtein distance值为r，从historySeqSet选取长度范围为[l-r，l+r]的活动序列构成新的子集subSeqSet2，依次计算subSeqSet2中的每条序列与Seq的相似度，得到subSeqSet2中与Seq最近似的活动序列bestSimilarSeq；

S138.从历史日志中找到bestSimilarSeq所对应的前缀轨迹的剩余关键活动数，若对应的前缀轨迹有多条，则对这些轨迹的剩余关键活动数求取平均值作为前缀轨迹PTr的近似剩余关键活动数；

S2.数据清洗与特征编码：对完成特征属性提取的数据集中的每类特征属性分别进行异常值处理，对缺失的特征属性找到该数据所在的完整实例后将其从数据集中清除，对非数值类的特征属性进行编码；

S3.双层混合预测模型训练：双层混合预测模型的训练过程如下步骤：

S31.训练集分割：选取特征提取并编码后得到的数据集的部分数据作为训练集，并将训练集等量分割为两份：训练集1和训练集2；

S32.第一层模型训练：第一层模型选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器，训练集1用于XGBoost模型的学习，得到预测模型xgb1，训练集2用于lightGBM模型的学习，得到预测模型lgb1；

S33.生成新的数据集：使用预测模型xgb1和lgb1生成新的数据特征，将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3，将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4；

S34.第二层模型训练：第二层模型也选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器，其中训练集3用于lightGBM模型的学习得到预测模型lgb2，训练集4用于XGBoost模型的学习，得到预测模型xgb2；

S35.合成混合预测模型：将S32和步骤S34中得到的预测模型进行合并即得到双层混合预测模型；

S4.流程剩余执行时间预测：选取特征提取并编码后得到的数据集的剩余数据作为测试集，将测试集中的数据输入混合预测模型中的第一层预测模型，将其输出与原始的输入数据进行整合得到新的输入数据，将该数据输入到混合模型的第二层预测模型中，得到最终的预测结果。

作为优选，S1所述的采样时间t可取一小时、六小时、一天、一周、一个月或者当前事件开始时间距当前实例开始的时间间隔。

作为优选，S1中所述的选取排名前k％的活动作为关键活动，k取25。

作为优选，S2中所述的对于非数值类的特征属性进行编码采用one-hot编码方式。

作为优选，S2中所述的数据异常值处理选择传统的箱线图平滑异常值。

本发明提出了业务流程中两种隐藏的事件属性，并使用了双层混合的机器学习模型得到了剩余时间预测模型。相比于传统的剩余时间预测方法，本法明具有如下收益：1、提取了实例间属性以及近似剩余关键活动这两类隐藏时间属性，大大提高了剩余时间预测的精度2、使用双层混合模型使得剩余时间预测的模型具有一定的稳定性并能在较为复杂的业务场景下开展应用，同时也提高了预测结果的精度。

附图说明

图1为本发明基于机器学习的业务流程剩余时间预测方法的流程图；

图2为S3中双层混合预测模型的训练流程示意图；

图3为数据集Production上的对比实验结果；

图4为数据集Helpdesk上的对比实验结果

图5为数据集BPIC2012上的对比实验结果；

图6为数据集BPIC2017上的对比实验结果。

图7为本发明算法和另外两种算法的精确度的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步详细说明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，本发明的一种基于多层机器学习的业务流程剩余时间预测方法，包括以下步骤：

ExecCaseNum(t)＝|{σ|(σ.startTime＞t_point-t)∧(σ.startTime＜t_point)}|

ExecEventNum(ai，t)＝|{e|(e.startTime＞t_point-t)∧(e.startTime＜t_point)∧(e.actvity＝a_i)}|

其中σ是发生事件所在的流程实例对应的轨迹，t是采样的时间窗口大小即区间，可取一小时、六小时、一天、一周、一个月、当前事件开始时间距当前实例开始的时间间隔。σ.startTime是当前流程实例的开始时间，t_point表示预测发生的时间点，a_i表示执行当前事件的活动名，e.startTime表示事件开始的时间点，

为流程的活动集合，prefR(a_i)是可以执行活动a_i的所有资源的集合，|prefR(a_i)|是可以执行活动a_i的资源的种类数，I(prefR(a_i)，prefR(a_j))是既能执行活动a_i又能执行活动a_j的所有资源的集合，|I(prefR(a_i)，prefR(a_j))|是既能执行活动a_i又能执行活动a_j的资源的种类数；e.actvity表示执行当前事件的活动，(e.actvity＝a_i)表示的是执行当前事件的活动为a_i；符号∧表示“并且”；

S133.按照每类活动的平均排序值对活动进行升序排序，选取排名前25％的活动作为关键活动；

S137.设similarSeq与Seq的Damerau-Levenshtein distance值为r，从historySeqSet选取长度范围为[l-r,l+r]的活动序列构成新的子集subSeqSet2,依次计算subSeqSet2中的每条序列与Seq的相似度，得到subSeqSet2中与Seq最近似的活动序列bestSimilarSeq:

S2.数特征清洗与特征编码：对完成特征属性提取的数据集中的每类特征属性分别选择传统的箱线图平滑异常值进行异常值处理，对缺失的特征属性找到该数据所在的完整实例后将其从数据集中清除，对非数值类的特征属性进行one-hot编码；

S3.双层混合预测模型训练：如图2所示，双层混合预测模型的训练过程如下步骤：

S31.训练集分割：选取特征提取并编码后得到的数据集的80％数据作为训练集，并将训练集等量分割为两份：训练集1和训练集2；

S4.流程剩余执行时间预测：选取特征提取并编码后得到的数据集的20％数据作为测试集，将测试集中的数据输入混合预测模型中的第一层预测模型，将其输出与原始的输入数据进行整合得到新的输入数据，将该数据输入到混合模型的第二层预测模型中，得到最终的预测结果。

实施例

本实施例步骤与具体实施方式相同，在此不再进行赘述。下面就部分实施过程和实施结果进行展示：

数据源获取：本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志：Production，Helpdesk，BPIC2012，BPIC2017。其中Production日志记录了一个车间的生产过程，每个流程实例记录了完整的制造过程，该日志包含220个流程执行实例记录，每个记录平均包含11个事件。Helpdesk事件日志涉及意大利软件公司的帮助台的票务管理过程，该日志有4580个流程实例，每个实例平均有5个事件。BPIC 2012事件日志取自荷兰金融机构，其记录了个人贷款或透支的申请过程，此日志中总共有4685个案例，平均12个事件。BPIC 2017事件日志与数据集BPIC 2012来自同一组织，也记录了贷款批准过程，但是，由于信息系统的更改，此日志中记录的信息更加详细，此日志中有31413个案例，平均有38个事件。

为了验证本发明技术方案的技术效果，选取日志的预测的平均绝对误差作为预测效果的衡量指标，其计算公式如下：

其中y(i)_realTime是当前预测轨迹的实际剩余时间，而y(i)_predictTime是预测模型给出的剩余时间预测值，R_MAE的值越低表示预测结果越准确。

图3、4、5、6分别展示了在四个数据集上分别使用单层预测模型以及使用本专利提出的双层混合预测模型的预测效果对比结果，其中S-Model I和S-ModeII，分别为使用lightGBM进行训练的单层预测模型和使用XGBoost进行训练的单层预测模型，H-Model I和H-Model II分别为先使用XGBoost进行训练再使用lightGBM进行训练的双层混合预测模型和先使用lightGBM进行训练再使用XGBoost进行训练的双层混合预测模型。从图中可以看出双层混合预测模型(H-Model)的预测效果较单层预测模型(S-Model)有极大的提高。同时为了验证本发明技术方案中提出的两类隐藏特征属性对于剩余时间预测的影响，使用了四组不同的输入特征数据进行对比实验，其中Basic一组实验只使用了基本特征属性，Int-Ins一组实验在Basic的基础上添加了实例间特征属性，K-Act一组实验在Basic的基础上添加了剩余关键活动数特征属性，All一组实验则将三类特征属性一起使用。由图中可见在添加了本专利提出的两类隐藏属性后，预测精度有了较大的提高。此外，通过图3、4、5、6的比较可以得知，在两类双层混合预测模型中，四种数据集上H-Model II表现均优于H-ModelI。

此外，为了验证本发明技术方案的技术效果，将现有的两种剩余时间预测算法(LSTM和XGBoost)与本专利提出的预测方法(表现较优的H-Model II)进行对比。图7展示了在四个数据上三种算法的预测精度，本专利提出的H-Model II在四个数据集上均取得了最优效果，可见本专利提出的一种基于多层机器学习的业务流程剩余时间预测方法的优越性。

Claims

1.一种基于多层机器学习的业务流程剩余时间预测方法，其特征在于包括以下步骤：

ExecCaseNum(t)＝|{σ|(σ.startTime＞t_point-t)∧(σ.startTime＜t_point)}|

S136.选取historySeqSet中长度等于l的活动序列构成子集subSeqSet，依次计算subSeqSet中的活动序列与Seq的相似度，活动序列之间的相似度使用Damerau-Levenshtein distance进行计算，求得与Seq最近似的活动序列similarSeq；

S3.双层混合预测模型训练：双层混合预测模型的训练包含以下子步骤：

S4.流程剩余执行时间预测：选取特征提取并编码后得到的数据集的剩余数据作为测试集，将测试集中的数据输入混合预测模型中的第一层预测模型xgb1和lgb1，将其输出与原始的输入数据进行整合得到新的输入数据，将该数据输入到混合模型的第二层预测模型xgb2和lgb2中，得到最终的预测结果。

2.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法，其特征在于S1所述的采样的时间窗口大小t取一小时、六小时、一天、一周、一个月或者当前事件开始时间距当前实例开始的时间间隔。

3.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法，其特征在于S1中所述的选取排名前k％的活动作为关键活动，k取25。

4.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法，其特征在于S2中所述的对于非数值类的特征属性进行编码采用one-hot编码方式。

5.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法，其特征在于S2中所述的异常值处理选择传统的箱线图平滑异常值。