CN113537712B - 一种基于轨迹重演的业务流程剩余活动序列预测方法 - Google Patents

一种基于轨迹重演的业务流程剩余活动序列预测方法 Download PDF

Info

Publication number
CN113537712B
CN113537712B CN202110649058.9A CN202110649058A CN113537712B CN 113537712 B CN113537712 B CN 113537712B CN 202110649058 A CN202110649058 A CN 202110649058A CN 113537712 B CN113537712 B CN 113537712B
Authority
CN
China
Prior art keywords
track
attribute
token
prefix
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110649058.9A
Other languages
English (en)
Other versions
CN113537712A (zh
Inventor
孙笑笑
杨思青
应钰柯
俞东进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110649058.9A priority Critical patent/CN113537712B/zh
Publication of CN113537712A publication Critical patent/CN113537712A/zh
Application granted granted Critical
Publication of CN113537712B publication Critical patent/CN113537712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于轨迹重演的业务流程剩余活动序列预测方法。该方法首先使用轨迹重演技术模拟流程轨迹在真实环境中的执行情况,并基于提取的执行上下文信息从历史事件日志中选取与当前流程实例执行情况最相似的候选前缀轨迹集合。之后,方法对流程轨迹中每个属性的重要性进行量化,即计算属性权重矩阵。最后,方法基于属性权重矩阵,在候选前缀轨迹集合筛选出综合属性相似度最高的一条前缀轨迹,将其后缀活动序列作为当前轨迹的剩余活动序列。此方法具有预测相似度高、适用性广泛、鲁棒性强等特点,能够有效地解决复杂业务流程的剩余活动序列预测问题,从而为流程管理者提供有效信息来优化流程并且避免流程异常以及资源竞争等。

Description

一种基于轨迹重演的业务流程剩余活动序列预测方法
技术领域
本发明涉及业务流程监控领域,尤其涉及一种基于轨迹重演的业务流程剩余活动序列预测方法。
背景技术
流程挖掘作为数据挖掘技术在业务流程管理中的应用,通过分析业务流程的事件日志,实现对业务流程的发现、建模、监控和改进。作为流程挖掘子领域之一,预测性业务流程监控基于历史事件日志构建预测模型,从而为在线流程实例提供未来执行信息,其研究旨在优化流程执行以及降低流程违规的风险。本发明主要进行业务流程剩余活动序列的预测,即预测业务流程未完成实例的未来执行活动序列,有助于加深参与者对流程执行状态的了解,并且有利于管理者发现流程早期的执行偏差与潜在的资源短缺,并及时采取有效措施。
然而,目前针对业务流程剩余活动序列预测的研究工作较少,大多数研究基于迭代进行下一活动预测进而实现序列预测,而中间预测偏差会导致整条序列与真实序列不相符。因此研究一种高相似度且符合业务流程实际执行情况的剩余活动序列预测方法意义重大。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于轨迹重演的业务流程剩余活动序列预测方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种基于轨迹重演的业务流程剩余活动序列预测方法,其包括以下步骤:
S1.输入原始日志文件
Figure GDA0003450321980000011
其中
Figure GDA0003450321980000012
Figure GDA0003450321980000013
条流程轨迹σ=<e1,e2,e3,…,e|σ|>组成,每条流程轨迹σ由|σ|个事件 e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activitt代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A;
S2.根据CompleteTime对
Figure GDA0003450321980000021
中的流程轨迹排序后生成训练数据;
S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹 pt=<e1,e2,…,ek>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后 |σ|-k个事件;
S4.使用过程挖掘算法从训练数据中挖掘Petri网PN;
S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri 网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文 BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所pi采用以下方法使其满足托肯要求:首先判断是否有库所pj与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,如果不存在,则将pi中的托肯数目额外加一;
S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ12),然后从中为其选取TBS(σ12) 最大的候选前缀轨迹集合Spt,其计算公式如下所示:
Figure GDA0003450321980000022
Figure GDA0003450321980000023
其中,Eqij表示两条轨迹σ12在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量, |σ1|和|σ2|分别代表轨迹σ1和σ2的事件数;
S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合
Figure GDA0003450321980000024
S72.从训练数据中随机选择部分流程轨迹,并将它们的前缀轨迹集合记为 S′pt,对于S′pt中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余的训练数据中选取
Figure GDA0003450321980000031
条最相似的前缀轨迹记为SimPTi,其中属性序列相似度计算公式如下:
Figure GDA0003450321980000032
其中
Figure GDA0003450321980000033
Figure GDA0003450321980000034
为流程轨迹σ1和σ2中由属性
Figure GDA0003450321980000035
的属性值构成的有序序列,即属性序列;
Figure GDA0003450321980000036
表示经过归一化的
Figure GDA0003450321980000037
Figure GDA0003450321980000038
之间的欧式距离,
Figure GDA0003450321980000039
表示
Figure GDA00034503219800000310
Figure GDA00034503219800000311
之间的Demerau-Levinstain距离;
S73.对于每个属性
Figure GDA00034503219800000312
统计S′pt中所有前缀轨迹的剩余活动序列与SimPTi的剩余活动序列之间的相似度CDi,从而得到相似度向量
Figure GDA00034503219800000313
根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:
Figure GDA00034503219800000314
Figure GDA00034503219800000315
其中,ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2) 表示两条活动序列的Demerau-Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量,
Figure GDA00034503219800000316
为新属性集合,
Figure GDA00034503219800000317
为新属性的数量,wi表示属性
Figure GDA00034503219800000318
的权重;
S8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合Spt中的每条流程轨迹之间基于属性的轨迹相似度TS(σ12,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
Figure GDA00034503219800000319
S9.经过S8的计算后,筛选出Spt中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。
作为优选,所述S4中使用过程挖掘算法从训练数据中挖掘Petri网PN的方法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,…,p|P|-1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi); T={t0,t1,…,t|T|-1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|-1)]是Pet ri网中托肯的分布情况,M的初始状态记为Minit
作为优选,S5具体包含以下步骤:
S51.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S52.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S521,否则,执行步骤S522;
S521.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S5 3,其更新计算步骤如下:
Figure GDA0003450321980000041
M=[β(p0),β(p1),...,β(p|P|-1)]
S522.获取°t中未持有托肯的库所集合,记为PTokenMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,手动将其托肯数目加一;最后执行步骤S521;
S53.将当前Petri网的托肯分布M拼接至BehavContext(pt);
作为优选,所述的S71中被删除的无关属性为与流程执行相关但与流程分析无关的属性。
作为优选,所述无关属性为用于编号的ID属性。
作为优选,所述的S72中
Figure GDA0003450321980000042
表示经过归一化的
Figure GDA0003450321980000051
Figure GDA0003450321980000052
之间的欧式距离,如果σ1和σ2的序列长度不一致,则使用后向零填充法使其统一。
作为优选,所述的S72中从训练数据中随机选择10%流程轨迹,并将它们的前缀轨迹集合记为S′pt
相比于传统的业务流程剩余活动序列预测方法,本发明具有如下收益:1、融合了过程挖掘技术与轨迹重演技术,模拟轨迹在真实环境中的执行,从而提取并表征了其执行上下文信息,为剩余活动序列预测提供了基础;2、对日志中的每个属性的重要性进行了衡量,即计算属性权重矩阵,为剩余活动序列的进一步匹配提供了基础;3、融合上述两类信息,从历史执行轨迹中选取与在线流程实例执行一致且最可能具有相似未来数据信息的前缀轨迹,并将其剩余活动序列作为在线实例的未来执行活动序列。此外,匹配得到的该前缀轨迹的未来资源执行情况、执行结果以及时间等信息也可以为在线实例提供有效参考。
附图说明
图1为本发明基于轨迹重演的业务流程剩余活动序列预测方法的步骤图;
图2为轨迹重演的一个例子。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明的一种基于轨迹重演的业务流程剩余活动序列预测方法,包括以下步骤:
S1.输入原始日志文件
Figure GDA0003450321980000053
其中
Figure GDA0003450321980000054
Figure GDA0003450321980000055
条流程轨迹σ=<e1,e2,e3,…,e|σ|>组成,每条流程轨迹σ由|σ|个事件 e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A。
S2.根据CompleteTime对
Figure GDA0003450321980000061
中的流程轨迹排序后生成训练数据。
S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹 pt=<e1,e2,…,ek>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后 |σ|-k个事件。
S4.使用过程挖掘算法从训练数据中挖掘Petri网PN。本实施例中,使用的过程挖掘算法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,…,p|P|-1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi); T={t0,t1,…,t|T|-1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量; F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|-1)]是Pet ri网中托肯的分布情况,也被称为Petri网的标识,M的初始状态记为Minit
S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri 网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文 BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所pi采用以下方法使其满足托肯要求:首先判断是否有库所pj与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,如果不存在,则将pi中的托肯数目额外加一。
本实施例中,该S5步骤具体包含以下步骤:
S51.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S52.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S521,否则,执行步骤S522;
S521.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S5 3,其更新计算步骤如下:
Figure GDA0003450321980000071
M=[β(p0),β(p1),...,β(p|P|-1)]
S522.获取°t中未持有托肯的库所集合,记为PTokenMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,手动将其托肯数目加一;最后执行步骤S521;
S53.将当前Petri网的托肯分布M拼接至BehavContext(pt)。
图2展示了一个轨迹重演的例子,即将活动序列为<A,C,F>的轨迹σ在Petr i网中重演的示例。如图所示,在起始状态,仅库所p0存在托肯,因此当前Petri 网的标识为pn.Minit=[1,0,0,0,0,0]。当进行重演时,σ的第一个活动A对应的变迁为t0,t0目前为使能状态。因此触发t0,库所p0的托肯被消耗而库所p1中会产生一个托肯,从而得到新标识pn.M=[0,1,0,0,0,0]。之后执行活动C,C对应的变迁为处于使能状态的t2,执行之后p1中的托肯被消耗,而p3中产生一个托肯,获得新标识pn.M=[0,0,0,1,0,0]。下一个执行活动为F,其对应的变迁为t5,而此时t5并未达到使能状态,因此使用隐藏变迁使其强制满足使能条件。t5的输入集合为库所p4,目前持有托肯的库所为p3。通过对Petri网的分析可以观察到p3和p4之间可以通过隐藏变迁th2相连。因此,触发th2使p3的托肯转移至p4,此时的标识 pn.M=[0,0,0,0,1,0]。最后,触发变迁t5以完成整条轨迹的重演,获得最终的标识pn.M=[0,0,0,0,0,1],即为该轨迹重演后得到的执行上下文。
S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ12),然后从中为其选取TBS(σ12) 最大的候选前缀轨迹集合Spt,其计算公式如下所示:
Figure GDA0003450321980000072
Figure GDA0003450321980000081
其中,Eqij表示两条轨迹σ12在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量, |σ1|和|σ2|分别代表轨迹σ1和σ2的事件数。
S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合D;被删除的无关属性一般为与流程执行相关但与流程分析无关的属性。本实施例中,被删除的无关属性为用于编号的ID属性,例如如案例ID属性和事件ID属性。
S72.从训练数据中随机选择10%流程轨迹,并将它们的前缀轨迹集合记为 S′pt,对于S′pt中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余90%的训练数据中选取
Figure GDA0003450321980000082
条最相似的前缀轨迹记为SimPTi,其中属性序列相似度计算公式如下:
Figure GDA0003450321980000083
其中
Figure GDA0003450321980000084
Figure GDA0003450321980000085
为流程轨迹σ1和σ2中由属性
Figure GDA0003450321980000086
的属性值构成的有序序列,即属性序列;
Figure GDA0003450321980000087
表示经过归一化的
Figure GDA0003450321980000088
Figure GDA0003450321980000089
之间的欧式距离,
Figure GDA00034503219800000810
表示
Figure GDA00034503219800000811
Figure GDA00034503219800000812
之间的Demerau-Levinstain距离。
其中需注意的是,对于欧式距离
Figure GDA00034503219800000813
的计算,如果σ1和σ2的序列长度不一致,则使用后向零填充法使其统一。
S73.对于每个属性
Figure GDA00034503219800000814
统计S′pt中所有前缀轨迹的剩余活动序列与SimPTi的剩余活动序列之间的相似度CDi,从而得到相似度向量
Figure GDA00034503219800000815
根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:
Figure GDA0003450321980000091
Figure GDA0003450321980000092
其中,ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2) 表示两条活动序列的Demerau-Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量,
Figure GDA0003450321980000093
为新属性集合,
Figure GDA0003450321980000094
为新属性的数量,wi表示属性
Figure GDA0003450321980000095
的权重。
S8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合Spt中的每条流程轨迹之间基于属性的轨迹相似度TS(σ12,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
Figure GDA0003450321980000096
S9.经过S8的计算后,筛选出Spt中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。
下面基于上述S1~S9方法流程,通过实施例进一步展示其技术效果。
实施例
本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
本实施例选用四个来源于4TU Centre for Research Data(https://data.4tu.nl/) 的真实数据集进行实验。数据集的介绍如下,其特征如表1所示。
Helpdesk:此数据集包含来自意大利软件公司服务台的自2010年1月至 2014年1月的票务管理流程执行信息。日志中的所有案例均始于在票务管理系统中插入新票证,结束于关闭票证。
Sepsis:Sepsis数据集来源于荷兰某医院,记录了由ERP系统记录的医院败血症患者的诊断流程,包括病人注册挂号开始直至出院的所有事件。
BPIC2013 Incidents:BPIC2013数据集是来自Volvo IT Belgium的事件日志,包含来自名为VINST的事件和问题管理系统的事件。在数据集中主要分为两种类型的实例,即处理事件的实例和处理问题的实例。本章对数据集进行过滤得到所有处理事件的案例,即BPIC2013 Incidents,并在这些案例上进行实验。
BPIC2012O/BPIC2012W/BPIC2012W去重:BPIC2012数据集是从荷兰金融学院获取的事件日志,代表全球融资组织内个人贷款或者透支的申请流程。该流程可以分为与申请相关的三个子流程,即BPIC2012A、BPIC2012O和 BPIC2012W。本章使用BPIC2012O、BPIC2012W进行实验。特别地,由于 BPIC2012W数据集中包含大量的自循环,即单个事件活动会被连续执行数次,这些自循环可能会影响最终的预测结果。将BPIC2012W数据集进行了处理,即对于一些重复执行的事件,仅保留第一个事件而删除冗余的事件,经过处理之后的数据集被称为BPIC2012W去重数据集。本实施例也同样采用 BPIC2012W去重数据集进行了实验。
表1数据集特征表
Figure GDA0003450321980000101
为验证本发明技术方案的技术效果,本实施例选取Demerau编辑距离相似度对预测结果进行衡量,其主要用于衡量两条序列之间转换所需的单字符操作次数(插入、删除、替换和交换),DL距离相似度计算公式如下:
Figure GDA0003450321980000102
其中ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示它们的DL距离,l1和l2分别代表它们的长度。
利用本发明方法在六个数据集上进行实验并计算每个数据集的平均DL距离相似度的结果如表2所示。对每个数据集过滤特定长度前缀轨迹之后的平均 DL距离相似度进行了统计。即对于Sepsis、BPIC2013 Incidents、BPIC2012O 和BPIC2012W数据集,分别计算过滤长度小于2、5和10的前缀轨迹之后的平均DL距离相似度。由于Helpdesk全部和BPIC2012W去重数据集的平均轨迹长度小于其余四者,因此对其计算过滤长度小于2、4和6之后的平均DL距离相似度。由表可知,不同数据集间相似度差异较大。在所有的情况下, Helpdesk为表现最佳的数据集,BPIC2012W去重次之,而BPIC2012W的表现则最差。根据表格中的数据,还可以发现对于大多数数据集而言,滤除一些短前缀轨迹会使得整体的相似度更高。
表2实验结果表
Figure GDA0003450321980000111
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于包括以下步骤:
S1.输入原始日志文件
Figure FDA0003450321970000012
其中
Figure FDA0003450321970000013
Figure FDA0003450321970000014
条流程轨迹σ=<e1,e2,e3,…,e|σ|>组成,每条流程轨迹σ由|σ|个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中caseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A;
S2.根据CompleteTime对
Figure FDA0003450321970000015
中的流程轨迹排序后生成训练数据;
S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=<ee1,e2,…,ek>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|-k个事件;
S4.使用过程挖掘算法从训练数据中挖掘Petri网PN;
S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所pi采用以下方法使其满足托肯要求:首先判断是否有库所pj与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,如果不存在,则将pi中的托肯数目额外加一;
S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ12),然后从中为其选取TBS(σ12)最大的候选前缀轨迹集合Spt,其计算公式如下所示:
Figure FDA0003450321970000011
Figure FDA0003450321970000021
其中,Eqij表示两条轨迹σ12在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数;|P|表示Petri网中库所的数量;
S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合D;
S72.从训练数据中随机选择部分流程轨迹,并将它们的前缀轨迹集合记为S′pt,对于S′pt中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余的训练数据中选取
Figure FDA00034503219700000218
条最相似的前缀轨迹记为SimPTi,其中属性序列相似度计算公式如下:
Figure FDA0003450321970000022
其中
Figure FDA0003450321970000023
Figure FDA0003450321970000024
为流程轨迹σ1和σ2中由属性
Figure FDA0003450321970000025
的属性值构成的有序序列,即属性序列;
Figure FDA0003450321970000026
表示经过归一化的
Figure FDA0003450321970000027
Figure FDA0003450321970000028
之间的欧式距离,
Figure FDA0003450321970000029
表示
Figure FDA00034503219700000210
Figure FDA00034503219700000211
之间的Demerau-Levinstain距离;
S73.对于每个属性
Figure FDA00034503219700000212
统计S′pt中所有前缀轨迹的剩余活动序列与SimPTi的剩余活动序列之间的相似度CDi,从而得到相似度向量
Figure FDA00034503219700000213
根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:
Figure FDA00034503219700000214
Figure FDA00034503219700000215
其中,Actseq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示两条活动序列的Demerau-Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量,
Figure FDA00034503219700000216
为新属性集合,
Figure FDA00034503219700000217
为新属性的数量,wi表示属性
Figure FDA0003450321970000031
的权重;
S8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合Spt中的每条流程轨迹之间基于属性的轨迹相似度TS(σ12,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
Figure FDA0003450321970000032
S9.经过S8的计算后,筛选出Spt中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。
2.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述S4中使用过程挖掘算法从训练数据中挖掘Petri网PN的方法为InductiveMiner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,…,p|P|-1}为Petri网中的库所集合,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi);T={t0,t1,…,t|T|-1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|-1)]是Petri网中托肯的分布情况,M的初始状态记为Minit
3.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于S5具体包含以下步骤:
S51.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S52.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合ot中的每个库所是否持有托肯,如果满足则执行步骤S521,否则,执行步骤S522;
S521.触发变迁t,即将变迁t的输入集合中ot每个库所的托肯数目减一,其输出集合to中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S53,其更新计算步骤如下:
Figure FDA0003450321970000041
M=[β(p0),β(p1),…,β(p|P|-1)]
S522.获取ot中未持有托肯的库所集合,记为PTokenMissing;获取除ot中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,手动将其托肯数目加一;最后执行步骤S521;
S53.将当前Petri网的托肯分布M拼接至BehavContext(pt)。
4.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述的S71中被删除的无关属性为与流程执行相关但与流程分析无关的属性。
5.根据权利要求4所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述无关属性为用于编号的ID属性。
6.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述的S72中
Figure FDA0003450321970000043
表示经过归一化的
Figure FDA0003450321970000044
Figure FDA0003450321970000045
之间的欧式距离,如果σ1和σ2的序列长度不一致,则使用后向零填充法使其统一。
7.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述的S72中从训练数据中随机选择10%流程轨迹,并将它们的前缀轨迹集合记为S′pt
CN202110649058.9A 2021-06-10 2021-06-10 一种基于轨迹重演的业务流程剩余活动序列预测方法 Active CN113537712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110649058.9A CN113537712B (zh) 2021-06-10 2021-06-10 一种基于轨迹重演的业务流程剩余活动序列预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110649058.9A CN113537712B (zh) 2021-06-10 2021-06-10 一种基于轨迹重演的业务流程剩余活动序列预测方法

Publications (2)

Publication Number Publication Date
CN113537712A CN113537712A (zh) 2021-10-22
CN113537712B true CN113537712B (zh) 2022-03-08

Family

ID=78095820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110649058.9A Active CN113537712B (zh) 2021-06-10 2021-06-10 一种基于轨迹重演的业务流程剩余活动序列预测方法

Country Status (1)

Country Link
CN (1) CN113537712B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2784572A1 (en) * 2011-08-05 2013-02-05 National Research Council Of Canada Process mining for anomalous cases
CN109753591B (zh) * 2018-12-11 2024-01-09 江阴逐日信息科技有限公司 业务流程预测性监控方法
CN111178623B (zh) * 2019-12-26 2022-06-17 杭州电子科技大学 一种基于多层机器学习的业务流程剩余时间预测方法
CN112052232B (zh) * 2020-07-21 2021-06-01 杭州电子科技大学 一种基于重演技术的业务流程上下文提取方法

Also Published As

Publication number Publication date
CN113537712A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110188198B (zh) 一种基于知识图谱的反欺诈方法及装置
US8489502B2 (en) Methods and systems for multi-credit reporting agency data modeling
CN103294592B (zh) 利用用户工具交互来自动分析其服务交付中的缺陷的方法与系统
CN111080338B (zh) 用户数据的处理方法、装置、电子设备及存储介质
CN111291816A (zh) 针对用户分类模型进行特征处理的方法及装置
Chitra et al. Customer retention in banking sector using predictive data mining technique
CN111178623B (zh) 一种基于多层机器学习的业务流程剩余时间预测方法
CN104321794A (zh) 一种使用多维评级来确定一实体的未来商业可行性的系统和方法
CN106991175A (zh) 一种客户信息挖掘方法、装置、设备以及存储介质
CN114757432A (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
JP6251383B2 (ja) 債務不履行となる企業の蓋然性の計算
Goossens et al. Effective steering of customer journey via order-aware recommendation
CN112052273B (zh) 一种多角度业务流程下一候选活动提取方法
JP2008117127A (ja) 業務プロセスにおける業務効率低下の原因侯補を抽出する方法、その装置およびプログラム
CN112052232B (zh) 一种基于重演技术的业务流程上下文提取方法
CN113537712B (zh) 一种基于轨迹重演的业务流程剩余活动序列预测方法
KR20190101718A (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
CN112052990A (zh) 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
CN113537710B (zh) 一种数据驱动下基于人工智能的活动时序在线预测方法
CN116257758A (zh) 模型训练方法、人群拓展方法、介质、装置和计算设备
CN115660814A (zh) 风险预测方法、装置、计算机可读存储介质及电子设备
JP2020135434A (ja) 企業情報処理装置、企業のイベント予測方法及び予測プログラム
JP4003499B2 (ja) 見積評価支援プログラムおよび見積評価支援システム
TWI792101B (zh) 基於確定值及預測值的數據定量化方法
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant