CN112052273B

CN112052273B - 一种多角度业务流程下一候选活动提取方法

Info

Publication number: CN112052273B
Application number: CN202010730957.7A
Authority: CN
Inventors: 孙笑笑; 应钰柯; 俞东进
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2021-08-31
Anticipated expiration: 2040-07-27
Also published as: CN112052273A

Abstract

本发明公开了一种多角度业务流程下一候选活动提取方法。该方法基于业务流程中事件活动间的关系、事件在实例内的位置、以及事件的属性相似性分别提取了三个下一候选活动属性，并将三者进行级联得到完整的业务流程下一候选活动属性。本发明方法具有多角度挖掘、符合业务流程运行实际等优点，其结果可以用于后续的业务流程深度分析如业务流程下一活动预测的，为检测业务流程执行是否违规、后续活动资源分配是否合理等提供支撑。

Description

一种多角度业务流程下一候选活动提取方法

技术领域

本发明涉及业务流程监控领域，尤其涉及一种多角度业务流程下一候选活动提取方法。

背景技术

业务流程是为达到特定的价值目标而由不同的人分别完成的一系列活动。业务流程是企业运行的脉络，在很大程度上决定了企业的作业逻辑。业务流程挖掘作为数据挖掘在业务流程管理上的应用，旨在从历史的事件日志中提取有用的过程知识，从而去发现流程模型、检测日志中的记录是否符合实际流程模型或改进已有的流程模型。

近年来，业务流程挖掘的重点不再局限于提供事件日志的脱机分析，而转向为业务流程优化提供在线支持，即对正在执行的流程实例进行分析和预测。预测性业务流程监控(Predictive Process Monitoring,PPM)成为流程挖掘的重要子领域之一。PPM通过分析和学习流程历史执行的事件日志，得到影响预测结果的诸多特征，从而对当前正在执行的流程实例进行多方面预测，包括预测下一步将执行哪个活动、何时执行、由谁执行以及预测实例剩余执行时间或最终结果。作为提高业务流程性能、引导业务流程正确执行的一种有效方式，PPM可以在流程执行过程中提前预警未来可能出现的流程执行失败、偏离、超时等风险，有助于管理者及时调整或提前采取预防措施避免不必要的损失以提高业务流程执行的质量和效率，为企业业务部门的科学决策提供支撑。

预测业务流程下一活动即预测未完成实例当前执行活动的下一活动，其准确预测可以帮助相关人员了解流程进度、提前得知流程违规问题，同时根据预测的下一个活动分配及调整活动资源，提高流程执行效率。为了实现业务流程下一活动的准确预测，在预测前精准提取其下一候选活动至关重要。目前已有的业务流程下一候选活动的提取多基于事件已有的一些基本属性展开，相关研究的工作重心主要放在数据编码等层面，而未基于历史事件日志及其属性展开深入分析，导致下一候选活动的提取在准确性或完整性上存在较大缺失，进而影响了下一活动预测的精度。

发明内容

为了克服上述现有技术的不足，本发明提供一种多角度业务流程下一候选活动提取方法，可有效解决上述问题。本发明具体采用的技术方案如下：

S1.输入原始日志文件

其中

由多条流程轨迹σ＝<e₁，e₂，e₃，...，e_m>组成，每条流程轨迹σ由若干个事件e＝(CaseID，Activity，Resource，StartTime，CompleteTime，attr₁，attr₂，...attr_n)组成，其中CaseID代表事件所属的实例，Activity代表事件执行的活动，Resource代表事件执行所需的资源，StartTime和CompleteTime分别代表该事件的开始时间和结束时间，attr₁，attr₂，...attr_n代表该事件的其余n个属性，将日志中所有事件的集合记为ε＝{e₁，e₂，e₃，...，e_k}；

S2.为ε中的每个事件添加CandActBasedAct属性，具体包含以下子步骤：

S21.对ε中的所有事件，初始化其CandActBasedAct属性为null；

S22.对ε中的每个事件e_i，迭代执行以下操作：

(1)提取其执行的活动a_i，然后遍历所有流程轨迹搜索紧随在活动a_i后执行的活动a_j，得到a_i的下一活动集合succ(a_i)，其中succ(a_i)中的活动不重复；

(2)依次计算a_i与succ(a_i)中每个活动a_j的依赖度，具体公式如下：

其中O(a_i，a_j)表示流程轨迹中出现执行顺序是a_i→a_j的次数，→表示相邻两个活动的执行路径；

(3)将计算得到的所有依赖度从高到低进行排序，筛选出依赖度最高的活动作为活动a_i的高频下一活动HDsucc(a_i)，其依赖度为Dep(a_i，HDsucc(a_i))；

(4)将Dep(a_i，HDsucc(a_i))与依赖度阈值α进行比较，若Dep(a_i，HDsucc(a_i))≥α，则将HDsucc(a_i)赋值给e_i的CandActBasedAct属性；若Dep(a_i，HDsucc(a_i))＜α，则首先根据事件e_i所属流程轨迹的执行顺序找到其前一活动，即事件e_i的前一事件e_i-1的执行活动a_i-1，然后遍历所有流程轨迹搜索紧随在a_i-1→a_i后执行的活动a_l，得到a_i-1→a_i的下一活动集合succ(a_i-1，a_i)，依次计算a_i-1→a_i与succ(a_i-1，a_i)中每个活动a_l的依赖度，计算公式如下：

其中O(a_i-1，a_i，a_l)表示流程轨迹中出现执行顺序是a_i-1→a_i→a_l的次数；

最后对计算得到的所有依赖度从高到低进行排序，筛选出依赖度最高的活动HDsucc(a_i-1→a_i)并将其赋值给e_i的CandActBasedAct属性；

S3.为ε中的每个事件添加CandActBasedPos属性，具体包含以下子步骤：

S31.对ε中的所有事件，初始化其CandActBasedPos属性为null；

S32.对ε中的每个事件e_i，增加Pos和nextPos两个数值属性，分别代表事件e_i在其所属实例中的位置和下一个位置；

S33.然后根据Pos属性对每个位置上出现的活动进行统计，并确定每个位置出现频率最高的活动MFAct(Pos)；

S34.对ε中的每个事件e_i，根据其nextPos属性，去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给e_i的CandActBasedPos属性；

S4.为ε中的每个事件添加CandActBasedAttr属性，具体包含以下子步骤：

S41.对ε中的所有事件，初始化其CandActBasedAttr属性为null；

S42.对ε中的所有事件，根据其执行的活动进行划分，将活动相同的事件分到一个集合，得到

个事件集合

其中

为日志中所有活动的集合且集合中的活动不重复，

为

中具有的活动数量，每个

集合中所包含事件执行的活动均为相同活动；

S43.对ε中的每个事件e_i的属性进行编码得到其属性向量AttrVec(e_i)；

S44.对ε中的每个事件e_i，提取其执行的活动a_i，然后找到其对应的事件集合

将事件e_i的属性向量AttrVec(e_i)与事件集合

中的每个事件e_j的属性向量AttrVec(e_j)迭代计算相似度，当出现相似度小于距离阈值γ的事件e_j时，认为已筛选出与e_i局部最相似的事件，将该事件执行的活动赋值给e_i的CandActBasedAttr属性；若迭代结束仍未出现相似度小于距离阈值γ的事件e_j，则将相似度最小的事件e_j执行的活动赋值给e_i的CandActBasedAttr属性；

S5.将S2中获得的CandActBasedAct属性、S3中获得的CandActBasedPos属性和S4中获得的CandActBasedAttr属性进行级联，得到为ε中的每个事件对应的下一候选活动集合CandAct：

CandAct＝{CandActBasedAct，CandActBasedAttr，CandActBasedPos}。

作为优选，S22中所述的依赖度阈值α取0.5。

作为优选，S43中所述的对ε中的每个事件e_i的属性进行编码具体步骤如下：首先根据属性值是否为数值将属性划分为类别属性和数值属性，然后对类别属性采用one-hot编码，最后将编码后的类别属性向量与数值属性构成的向量合并得到最终的属性向量AttrVec(e_i)。

作为优选，S44中所述的计算相似度采用的是欧式距离。

作为优选，S44中所述的距离阈值γ取0.01。

本发明提出了一种多角度业务流程下一候选活动提取方法，相比于传统的下一候选活动提取方法，本发明具有如下优点：1、对历史的事件日志及其属性开展了深入的分析，并挖掘了三种影响下一候选活动的关键性质，即业务流程中事件活动间的关系、事件在实例内的位置、以及事件的属性相似性；2、基于三种关键性质，提取了三个下一候选活动属性，并将其进行级联形成了完整的下一候选活动属性，该属性可进一步作为输入应用于后续的业务流程下一活动预测，可以极大地提高下一活动预测的精度。

附图说明

图1为本发明方法的流程图；

图2为本发明方法在Helpdesk数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测)；

图3为本发明方法在Sepsis数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测)；

图4为本发明方法在BPIC2012O数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测)；

图5为本发明方法在Traffic Fines数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行详细说明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，本发明的一种多角度业务流程下一候选活动提取方法，包括以下步骤：

S1.输入原始日志文件

其中

S21.对ε中的所有事件，初始化其CandActBasedAct属性为null；

S22.对ε中的每个事件e_i，迭代执行以下操作：

其中O(a_i，a_j)表示流程轨迹中出现执行顺序是a_i→a_j的次数，→表示相邻两个活动的执行路径。例如a_i→a_j表示a_i执行完后立即执行a_j，a_i-1→a_i→A_l表示顺次执行a_i-1、a_i、a_l。

(4)将Dep(a_i，HDsucc(a_i))与依赖度阈值α进行比较，α取0.5，若Dep(a_i，HDsucc(a_i))≥α，则将HDsucc(a_i)赋值给e_i的CandActBasedAct属性；若Dep(a_i，HDsucc(a_i))＜α，则首先根据事件e_i所属流程轨迹的执行顺序找到其前一活动，即事件e_i的前一事件e_i-1的执行活动a_i-1，然后遍历所有流程轨迹搜索紧随在a_i-1→a_i后执行的活动a_l，得到a_i-1→a_i的下一活动集合succ(a_i-1，a_i)，依次计算a_i-1→a_i与succ(a_i-1，a_i)中每个活动a_l的依赖度，计算公式如下：

S31.对ε中的所有事件，初始化其CandActBasedPos属性为null；

S41.对ε中的所有事件，初始化其CandActBasedAttr属性为null；

个事件集合

其中

为日志中所有活动的集合且集合中的活动不重复，

为

中具有的活动数量，每个

集合中所包含事件执行的活动均为相同活动；

S43.对ε中的每个事件e_i的属性进行编码得到其属性向量AttrVec(e_i)，其具体步骤如下：首先根据属性值是否为数值将属性划分为类别属性和数值属性，然后对类别属性采用one-hot编码，最后将编码后的类别属性向量与数值属性构成的向量合并得到最终的属性向量AttrVec(e_i)。

将事件e_i的属性向量AttrVec(e_i)与事件集合

中的每个事件e_j的属性向量AttrVec(e_j)迭代采用欧式距离计算相似度，当出现相似度小于距离阈值γ(γ取0.01)的事件e_j时，认为已筛选出与e_i局部最相似的事件，将该事件执行的活动赋值给e_i的CandActBasedAttr属性；若迭代结束仍未出现相似度小于距离阈值γ的事件e_j，则将相似度最小的事件e_j执行的活动赋值给e_i的CandActBasedAttr属性；

CandAct＝{CandActBasedAct，CandActBasedAttr，CandActBasedPos}。

下面基于上述方法流程，通过实施例进一步展示其技术效果。

实施例

本实施例步骤与具体实施方式前述步骤相同，在此不再进行赘述。下面就部分实施过程和实施结果进行展示：

数据源获取：本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志：Helpdesk，Sepsis，BPIC2012O，Road Traffic Fines。其中Helpdesk日志涉及意大利软件公司的帮助台的票务管理过程，共有3,804条实例数据，包含13,710个事件和9个活动，其中最长实例事件数为14个，最短实例事件数为1个。Sepsis日志通过医院的ERP系统记录了败血症病例的事件，该日志有1,049条实例，事件数为15,214个，活动数为16个。BPIC2012O日志为BPIC2012的子日志，BPIC2012日志取自荷兰金融学院，表示的过程是全球融资组织中个人贷款或者透支的申请过程。BPIC2012O与传达给客户的报价状态有关的事件，有5015条实例和31244个事件，活动数为7个。Traffic Fines日志是一个管理道路交通罚款信息系统的真实事件日志，该日志记录了150370个案例中约561470个事件信息。其中最短案例的事件数仅有2条，而最长案例的事件数为20条。四个数据集的具体统计信息详见表1。

表1四个真实数据集的统计信息表

由于业务流程下一候选活动提取的主要目的是为后续业务流程下一活动的预测提供输入以得到更精准的预测结果，因此为了验证本发明技术方案的技术效果，本实施例将采用本发明方法提取的业务流程下一候选活动属性进一步应用于业务流程的下一活动预测。为验证本发明技术方案的技术效果，本实施例主要选取准确率对预测结果进行衡量，其计算公式如下：

其中|S|代表样本数，n_i代表第i个类别的样本数，tp_i代表将第i类别中正类样本预测为正类的样本数，tn_i代表将正类样本预测为负类的样本数，fp_i代表将负类样本预测为正类的样本数，fn_i代表将负类样本预测为负类的样本数。

此外，为展示本发明所提出的三个下一候选活动属性的有效性，本实施例使用了三种类型的输入特征数据进行验证，其中第一类为直接可从日志中提取的基本属性(basic)，第二类为在基本属性的基础之上分别添加本法明提出的CandActBasedAct、CandActBasedPos和CandActBasedAttr属性，而最后一类为在基本属性的基础之上添加本文提出的包含三个下一候选活动属性的完整下一候选活动属性(CanAct)。我们将三类输入特征数据输入了在业务流程预测性监控中表现优异的双向长短期记忆网络模型(BiLSTM)中进行业务流程下一活动预测的实验。图2、3、4、5分别展示了在四个数据集上的效果。从图中可以看出，添加本文提出的单个或者多个下一候选活动属性在不同数据集中对于准确率均有不同程度的提高，但在不同数据集上不同下一候选活动属性的效果各有不同。例如在Helpdesk数据集、Sepsis数据集、Traffic Fines上单独添加本发明提出的CandActBasedAttr属性效果提升最为明显，在BPIC2012O数据集上添加本发明提出的完整的下一候选活动属性CanAct效果提升最为明显。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种多角度业务流程下一候选活动提取方法，其特征在于包括以下步骤：

S1.输入原始日志文件

其中

S21.对ε中的所有事件，初始化其CandActBasedAct属性为null；

S22.对ε中的每个事件e_i，迭代执行以下操作：

S31.对ε中的所有事件，初始化其CandActBasedPos属性为null；

S41.对ε中的所有事件，初始化其CandActBasedAttr属性为null；

个事件集合

其中

为日志中所有活动的集合且集合中的活动不重复，

为

中具有的活动数量，每个

集合中所包含事件执行的活动均为相同活动；

将事件e_i的属性向量AttrVec(e_i)与事件集合

中的每个事件e_j的属性向量AttrVec(e_j) 迭代计算相似度，当出现相似度小于距离阈值γ的事件e_j时，认为已筛选出与e_i局部最相似的事件，将该事件执行的活动赋值给e_i的CandActBasedAttr属性；若迭代结束仍未出现相似度小于距离阈值γ的事件e_j，则将相似度最小的事件e_j执行的活动赋值给e_i的CandActBasedAttr属性；

CandAct＝{CandActBasedAct，CandActBasedAttr，CandActBasedPos}。

2.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法，其特征在于S22中所述的依赖度阈值α取0.5。

3.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法，其特征在于S43中所述的对ε中的每个事件e_i的属性进行编码具体步骤如下：首先根据属性值是否为数值将属性划分为类别属性和数值属性，然后对类别属性采用one-hot编码，最后将编码后的类别属性向量与数值属性构成的向量合并得到最终的属性向量AttrVec(e_i)。

4.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法，其特征在于S44中所述的计算相似度采用的是欧式距离。

5.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法，其特征在于S44中所述的距离阈值γ取0.01。