CN113537710A - 一种数据驱动下基于人工智能的活动时序在线预测方法 - Google Patents

一种数据驱动下基于人工智能的活动时序在线预测方法 Download PDF

Info

Publication number
CN113537710A
CN113537710A CN202110647246.8A CN202110647246A CN113537710A CN 113537710 A CN113537710 A CN 113537710A CN 202110647246 A CN202110647246 A CN 202110647246A CN 113537710 A CN113537710 A CN 113537710A
Authority
CN
China
Prior art keywords
track
prefix
event
activity
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110647246.8A
Other languages
English (en)
Other versions
CN113537710B (zh
Inventor
孙笑笑
叶春毅
应钰柯
俞东进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tanxun Intelligent Technology (Hangzhou) Co.,Ltd.
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110647246.8A priority Critical patent/CN113537710B/zh
Publication of CN113537710A publication Critical patent/CN113537710A/zh
Application granted granted Critical
Publication of CN113537710B publication Critical patent/CN113537710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据驱动下基于人工智能的活动时序在线预测方法。该方法基于事件日志数据,首先使用轨迹重演技术模拟轨迹在真实上下文中的执行,即获取行为上下文信息;之后,长短期记忆神经网络被用于预测在线实例的未来执行情况,即数据上下文信息;最后,该方法融合上述两种上下文信息,实现在线流程实例的未来活动时序预测。此方法具有较高的预测准确度,可为业务流程的管理特别是流程异常管理提供决策支撑。

Description

一种数据驱动下基于人工智能的活动时序在线预测方法
技术领域
本发明涉及业务流程监控领域,尤其涉及一种数据驱动下基于人工智能的活动时序在线预测方法。
背景技术
业务流程是为达到特定的价值目标而由不同的人分别完成的一系列活动。业务流程挖掘作为数据挖掘在业务流程管理上的应用,旨在通过分析业务流程的事件日志,实现对业务流程的发现、建模、监控和改进。近年来,业务流程挖掘的重点不再局限于提供事件日志的脱机分析,而转向为业务流程优化提供在线支持,即实现预测性业务流程监控(Predictive Process Monitoring,PPM)。
准确预测正在执行的流程实例的剩余活动时序是PPM研究中最直观的一种问题,有利于及时发现流程执行中的违规行为。Lakshmanan等人在2013年提出一种特定于实例的概率过程模型,通过学习每个节点的决策树来计算模型中各个边的单步转移概率并将模型映射为空间马尔科夫链,实现对未来执行任务的预测,该方法思路新颖,但其预测仅基于当前状态而与前面状态无关,并不符合业务流程的实际。Lee等人提出了一种将推荐系统的矩阵分解技术与BPM结合的预测模型,以学习潜在特征之间的交互作用,用于正在执行实例的下一事件预测,但该模型整体复杂,泛用性不高。随着神经网络技术的发展,Evermann等人结合词嵌入模型,首次提出用递归神经网络实现对正在执行的流程实例未来活动的预测,该模型同时考虑了当前状态和前面状态,但未开展与其他深度学习技术的对比。类似地,Tax等人将神经网络中的LSTM方法应用于业务流程中预测监控问题中,通过构建双层LSTM模型来分别预测执行的下一活动和时间相关属性,最终通过循环迭代来实现对实例未来执行序列及最终所需时间的预测,该方法的主要问题在于如果事件日志中记录了大量循环结构,则在迭代预测时很有可能陷入事件循环。Mehdiyev等人提出了一种多阶段的深度学习方法,在第一阶段采用特征散列和堆叠自动编码器对原始输入数据进行编码,之后将编码结果输入深度前馈神经网络进行预测。此外,为丰富预测的活动信息,Pravilovic等人提出了一种预测未来活动及其属性的方法,如执行该活动的资源等。
综上,目前活动时序在线预测研究不多,现有的大多数研究基于迭代进行下一活动预测进而实现序列预测,而中间预测偏差会导致整条序列与真实序列不相符。因此研究一种高相似度且符合业务流程实际执行情况的活动时序在线预测方法意义重大。
发明内容
为了克服上述现有技术的不足,本发明提供一种数据驱动下基于人工智能的活动时序在线预测方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种数据驱动下基于人工智能的活动时序在线预测方法,其包括以下步骤:
S1.输入原始日志文件
Figure BDA0003110448880000021
其中
Figure BDA0003110448880000022
Figure BDA0003110448880000023
条流程轨迹σ=<e1,e2,e3,…,e|σ|>组成,每条流程轨迹σ由|σ|个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A;
S2.扩充日志
Figure BDA0003110448880000024
中事件的时间属性;
S3.根据CompleteTime对
Figure BDA0003110448880000025
中的流程轨迹排序后得到训练数据;
S4.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=<e1,e2,…,ek>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|-k个事件;
S5.使用过程挖掘算法从训练数据中挖掘Petri网PN;
S6.使用重演技术将训练数据中的每个前缀轨迹pt在S5挖掘得到的Petri网上进行重演,并获取其行为上下文信息BehavContext(pt);
S7.使用LSTM模型挖掘已执行信息与未来执行信息之间的关系,进而预测训练数据中每个前缀轨迹pt的数据上下文信息DataContext(pt),具体包括以下子步骤:
S71.将训练数据中的前缀轨迹与其后缀轨迹进行特征编码,得到前缀编码矩阵与后缀编码矩阵;
S72.将前缀编码矩阵与后缀编码矩阵统一扩充至维度L*m,即对前缀编码矩阵采用后向零填充法,对后缀编码矩阵采用前向零填充法,其中L表示日志中最长轨迹的事件数,m表示编码之后的属性维度,将扩充后的前缀编码矩阵记为EM(pt),将扩充后的后缀编码矩阵记为EM(st);
S73.使用降维技术对后缀编码矩阵进行降维处理,经过降维之后后缀轨迹st的编码矩阵被记为EM′(st);
S74.将训练数据中的前缀编码矩阵EM(pt)与经过降维之后的后缀编码矩阵EM′(st)分别作为LSTM模型的输入与输出进行参数学习,训练得到预测模型
Figure BDA0003110448880000033
S75.将待预测轨迹进行编码之后输入S74训练得到的模型
Figure BDA0003110448880000034
输出后缀编码矩阵作为其数据上下文
Figure BDA0003110448880000035
pt为待预测轨迹;
S8.将训练数据中的轨迹视为历史轨迹,通过双重计算相似度实现对待预测轨迹的剩余活动时序预测,具体包含以下子步骤:
S81.利用S6中的重演技术获取待预测轨迹pt′的行为上下文BehavContext(pt′),计算其与训练数据中所有前缀轨迹的行为相似度TBS(σ12),然后从中选取TBS(σ12)最大的候选前缀轨迹集合Spt′,其计算公式如下所示:
Figure BDA0003110448880000031
Figure BDA0003110448880000032
其中,Eqij表示两条轨迹σ12在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ1)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数,|P|代表Petri网中库所的数量;
S82.根据步骤S7为待预测轨迹的前缀轨迹pt得到其数据上下文DataContext(pt′),计算其与步骤S81中得到的候选前缀轨迹集合Spt,中所有前缀轨迹的欧式距离,从中筛选出欧式距离最小的前缀轨迹记为ptsim,其计算公式如下:
ptsim=Argmin ED(pt,pti),pti∈Spt
其中,ED()表示求解两条轨迹间的欧式距离的函数;
S83.将ptsim的剩余活动时序赋给待预测序列pt′作为其预测的剩余活动时序。
作为优选,所述S2中,扩充日志
Figure BDA0003110448880000042
中事件的时间属性时,为事件添加year、month、day、hour、weekday和duration六个属性,分别代表事件发生的年、月、日、小时、工作日以及持续时间信息。
作为优选,S2中所述的扩充日志
Figure BDA0003110448880000041
中事件的时间属性时,将当前事件的duration定义为当前事件的CompleteTime与其上一事件的CompleteTime之间的间隔。
作为优选,S5中所述使用过程挖掘算法从训练数据中挖掘Petri网PN的具体方法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,…,p|P|-1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi);T={t0,t1,…,t|T|-1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|-1)]是Pet ri网中托肯的分布情况,M的初始状态记为Minit
作为优选,S6具体包含以下步骤:
S61.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S62.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S621,否则,执行步骤S622;
S621.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S63,其更新计算步骤如下:
Figure BDA0003110448880000051
M=[β(p0),β(p1),…,β(p|p|-1)]
S622.获取°t中未持有托肯的库所集合,记为PtoKeNMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,则将其托肯数目额外加一;最后执行步骤S621;
S63.将当前Petri网的托肯分布M拼接至BehavContext(pt);
作为优选,所述的S71中进行特征编码时,对类别属性采用one-hot编码,对数值属性进行标准归一化处理。
作为优选,所述的S73中降维技术采用Uniform Manifold Approximation andProjection即UMAP技术。
作为优选,所述的降维处理选择将维度降至1*L。
相比于传统的活动时序预测,本发明具有如下收益:1、融合了过程挖掘技术与轨迹重演技术,模拟轨迹在真实环境中的执行,从而提取并表征了其行为上下文信息,为剩余活动时序预测提供了基础;2、使用LSTM模型捕获流程实例的历史执行与未来执行之间的关联,其训练结果被用于预测在线流程实例的未来执行,即数据上下文信息,为活动时序预测提供了基础;3、融合挖掘得到的行为上下文信息和数据上下文信息,实现基于人工智能的活动时序在线预测。
附图说明
图1为本发明一种数据驱动下基于人工智能的活动时序在线预测方法的步骤图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明的一种数据驱动下基于人工智能的活动时序在线预测方法,包括以下步骤:
S1.输入原始日志文件
Figure BDA0003110448880000061
其中
Figure BDA0003110448880000062
Figure BDA0003110448880000063
条流程轨迹σ=<e1,e2,e3,…,e|σ|>组成,每条流程轨迹σ由|σ|个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和GompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A;σi表示第i条流程轨,ej表示第j个事件。
S2.扩充日志
Figure BDA0003110448880000065
中事件的时间属性。
在本实施例中,扩充日志
Figure BDA0003110448880000064
中事件的时间属性时,为事件添加year、month、day、hour、weekday和duration六个属性,分别代表事件发生的年、月、日、小时、工作日以及持续时间信息。其中,本实施例将当前事件的duration定义为当前事件的CompleteTime与其上一事件的CompleteTime之间的间隔。
S3.根据CompleteTime按照结束时间从早到晚对
Figure BDA0003110448880000066
中的流程轨迹排序后得到训练数据。
S4.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=<e1,e2,…,ek>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|-k个事件。
S5.使用过程挖掘算法从训练数据中挖掘Petri网PN。
本实施例中,具体使用的过程挖掘算法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,…,p|P|-1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi);T={t0,t1,…,t|T|-1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|-1)]是Pet ri网中托肯的分布情况,也被称为Petri网的标识,M的初始状态记为Minit
S6.使用重演技术将训练数据中的每个前缀轨迹pt在S5挖掘得到的Petri网上进行重演,并获取其行为上下文信息BehavContext(pt);。
本实施例中,该S6步骤具体包含以下子步骤S61、S62和S63:
S61.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S62.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S621,否则,执行步骤S622;
S621.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S63,其更新计算步骤如下:
Figure BDA0003110448880000071
M=[β(p0),β(p1),…,β(p|P|-1)]
S622.获取°t中未持有托肯的库所集合,记为PTokenMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,则将其托肯数目额外加一;最后也执行步骤S621(相当于先对所有库所进行处理使其满足托肯要求,再执行S621);
S63.将当前Petri网的托肯分布M拼接至BehavContext(pt);
S7.使用LSTM模型挖掘已执行信息与未来执行信息之间的关系,进而预测训练数据中每个前缀轨迹pt的数据上下文信息DataContext(pt),具体包括以下子步骤:
S71.将训练数据中的前缀轨迹与其后缀轨迹进行特征编码,得到前缀编码矩阵与后缀编码矩阵。本实施例中,进行特征编码时,对类别属性采用one-hot编码,对数值属性进行标准归一化处理。
S72.将前缀编码矩阵与后缀编码矩阵统一扩充至维度L*m,即对前缀编码矩阵采用后向零填充法,对后缀编码矩阵采用前向零填充法,其中L表示日志中最长轨迹的事件数,m表示编码之后的属性维度,将扩充后的前缀编码矩阵记为EM(pt),将扩充后的后缀编码矩阵记为EM(st)。
S73.使用降维技术对后缀编码矩阵进行降维处理,经过降维之后后缀轨迹st的编码矩阵被记为EM′(st)。本实施例中,降维技术采用Uniform Manifold Approximation andProjection即UMAP技术,降维处理选择将维度降至1*L。
S74.将训练数据中的前缀编码矩阵EM(pt)与经过降维之后的后缀编码矩阵EM′(st)分别作为LSTM模型的输入与输出进行参数学习,训练得到预测模型
Figure BDA0003110448880000083
S75.将待预测轨迹进行编码之后输入S74训练得到的模型
Figure BDA0003110448880000084
输出后缀编码矩阵作为其数据上下文
Figure BDA0003110448880000085
pt为待预测轨迹;
S8.将训练数据中的轨迹视为历史轨迹,通过双重计算相似度实现对待预测轨迹的剩余活动时序预测,具体包含以下子步骤:
S81.利用S6中的重演技术获取待预测轨迹pt′的行为上下文BehavContext(pt′),计算其与训练数据中所有前缀轨迹的行为相似度TBS(σ12),然后从中选取TBS(σ12)最大的候选前缀轨迹集合Spt,,其计算公式如下所示:
Figure BDA0003110448880000081
Figure BDA0003110448880000082
其中,Eqij表示两条轨迹σ12在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第t个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数,|P|代表Petri网中库所的数量;
S82.根据步骤S7为待预测轨迹的前缀轨迹pt得到其数据上下文DataContext(pt′),计算其与步骤S81中得到的候选前缀轨迹集合Spt′中所有前缀轨迹的欧式距离,从中筛选出欧式距离最小的前缀轨迹记为ptsim,其计算公式如下:
ptsim=Argmin ED(pt,pti),pti∈Spt
其中,ED()表示求解两条轨迹间的欧式距离的函数;
S83.将ptsim的剩余活动时序赋给待预测序列pt′作为其预测的剩余活动时序。
下面基于上述S1~S8的方法流程,通过实施例进一步展示其技术效果。
实施例
本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志:Helpdesk,Sepsis,BPIC2013Incidents,BPIC2012W,BPIC2012O和BPIC2012W去重。其中Helpdesk日志涉及意大利软件公司的帮助台的票务管理过程,共有4580条实例数据,包含21349个事件和14个活动,其中最长实例事件数为15个,最短实例事件数为1个。Sepsis日志通过医院的ERP系统记录了败血症病例的事件,该日志有大约1000条实例,事件数为15000个左右,活动数为16个。BPIC2013数据集是来自Volvo IT Belgium的事件日志,包含来自名为VINST的事件和问题管理系统的事件,BPIC2013Incidents主要由处理事件的实例组成。BPIC2012O和BPIC2012W日志为BPIC2012的子日志,BPIC2012日志取自荷兰金融学院,表示的过程是全球融资组织中个人贷款或者透支的申请过程。BPIC2012O有5015条实例和31244个事件,活动数为7个。BPIC2012W有9658条实例和72413个事件,活动数为6个。BPIC2012W去重滤除了BPIC2012W中冗余的自循环,即如果同个活动在一条实例中连续发生多次,则保留第一个活动而删除冗余的活动。BPIC2012W去重的实例数与BPIC2012W相同,事件数为29410。
为了验证本发明技术方案的技术效果,本实施例主要选取Demerau-Levinstain(DL)距离相似度对预测结果进行衡量,DL距离用于衡量两条序列之间转换所需的单字符操作次数(插入、删除、替换和交换),DL距离相似度计算公式如下:
Figure BDA0003110448880000101
其中ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示它们的DL距离,l1和l2分别代表它们的长度。
为验证本发明的有效性,我们与其他文献进行了对比,对比情况如表1所示。我们仅使用Helpdesk、BPIC2012W和BPIC2012W去重三个数据集与其他方法进行对比,因为这些数据集的预测结果在其他文献有提供。此外,由于一些文献仅提供了滤除一些前缀轨迹之后的结果,因此,我们依据他们提供的结果进行统计并对比。由表可知,我们达到的平均DL距离相似度在Helpdesk全部数据集上相较Tax等人、Lin等人和Taymouri等人分别提高了9.16%、1.74%和2.06%;在BPIC2012W数据集上相较Evermann等人和Taymouri等人分别提高了0.44%和2.74%。然而,Tax等人的方法在该数据集上比本方法高出5.97%。但是在该数据集经过去重之后,Tax等人达到的结果相较未去重前仅提高4.04%,而我们则提高了16.39%,具有明显改进。此外,我们在BPIC2012W去重数据集中达到的平均DL距离相似度相较Tax等人以也具有一定优势,提高了6.38%。综上,本发明提出的一种面向活动的预测性业务流程监控方法相较其余方法有一定的优越性。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
表1为本发明实验结果与其他文献的对比情况
Figure BDA0003110448880000102
表1中对比的其他业活动时序预测方法具体参考如下文献:
[1]Tax N,Verenich I,La Rosa M,et al.Predictive business processmonitoring with LSTM neural networks[C]//International Conference on AdvancedInformation Systems Engineering.Springer,Cham,2017:477-492.
[2]Evermann J,Rehse J R,Fettke P.Predicting process behaviour usingdeep learning[J].Decision Support Systems,2017,100:129-140.
[3]Lin L,Wen L,Wang J.Mm-pred:A deep predictive model for multi-attribute event sequence[C]//Proceedings of the 2019SIAM InternationalConference on Data Mining.Society for Industrial and Applied Mathematics,2019:118-126.
[4]Taymouri F,La Rosa M.Encoder-Decoder Generative Adversarial Netsfor Suffix Generation and Remaining Time Predication of Business ProcessModels[J].arXiv preprint arXiv:2007.16030,2020.
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于包括以下步骤:
S1.输入原始日志文件
Figure FDA0003110448870000014
其中
Figure FDA0003110448870000013
Figure FDA0003110448870000015
条流程轨迹σ=<e1,e2,e3,...,e|σ|>组成,每条流程轨迹σ由|σ|个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,...attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,...attrN代表该事件的其余N个属性,日志的活动集合被记为A;
S2.扩充日志
Figure FDA0003110448870000011
中事件的时间属性;
S3.根据CompleteTime对
Figure FDA0003110448870000012
中的流程轨迹排序后得到训练数据;
S4.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=<e1,e2,...,ek>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|-k个事件;
S5.使用过程挖掘算法从训练数据中挖掘Petri网PN;
S6.使用重演技术将训练数据中的每个前缀轨迹pt在S5挖掘得到的Petri网上进行重演,并获取其行为上下文信息BehavContext(pt);
S7.使用LSTM模型挖掘已执行信息与未来执行信息之间的关系,进而预测训练数据中每个前缀轨迹pt的数据上下文信息DataContext(pt),具体包括以下子步骤:
S71.将训练数据中的前缀轨迹与其后缀轨迹进行特征编码,得到前缀编码矩阵与后缀编码矩阵;
S72.将前缀编码矩阵与后缀编码矩阵统一扩充至维度L*m,即对前缀编码矩阵采用后向零填充法,对后缀编码矩阵采用前向零填充法,其中L表示日志中最长轨迹的事件数,m表示编码之后的属性维度,将扩充后的前缀编码矩阵记为EM(pt),将扩充后的后缀编码矩阵记为EM(st);
S73.使用降维技术对后缀编码矩阵进行降维处理,经过降维之后后缀轨迹st的编码矩阵被记为EM′(st);
S74.将训练数据中的前缀编码矩阵EM(pt)与经过降维之后的后缀编码矩阵EM′(st)分别作为LSTM模型的输入与输出进行参数学习,训练得到预测模型
Figure FDA0003110448870000021
S75.将待预测轨迹进行编码之后输入S74训练得到的模型
Figure FDA0003110448870000022
输出后缀编码矩阵作为其数据上下文
Figure FDA0003110448870000023
pt为待预测轨迹;
S8.将训练数据中的轨迹视为历史轨迹,通过双重计算相似度实现对待预测轨迹的剩余活动时序预测,具体包含以下子步骤:
S81.利用S6中的重演技术获取待预测轨迹pt′的行为上下文BehavContext(pt′),计算其与训练数据中所有前缀轨迹的行为相似度TBS(σ1,σ2),然后从中选取TBS(σ1,σ2)最大的候选前缀轨迹集合Spt′,其计算公式如下所示:
Figure FDA0003110448870000024
Figure FDA0003110448870000025
其中,Eqij表示两条轨迹σ1,σ2在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数,|P|代表Petri网中库所的数量;
S82.根据步骤S7为待预测轨迹的前缀轨迹pt得到其数据上下文DataContext(pt′),计算其与步骤S81中得到的候选前缀轨迹集合Spt′中所有前缀轨迹的欧式距离,从中筛选出欧式距离最小的前缀轨迹记为ptsim,其计算公式如下:
ptsim=Argmin ED(pt,pti),pti∈Spt
其中,ED()表示求解两条轨迹间的欧式距离的函数;
S83.将ptsim的剩余活动时序赋给待预测序列pt′作为其预测的剩余活动时序。
2.根据权利要求3所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于所述S2中,扩充日志
Figure FDA0003110448870000026
中事件的时间属性时,为事件添加year、month、day、hour、weekday和duration六个属性,分别代表事件发生的年、月、日、小时、工作日以及持续时间信息。
3.根据权利要求2所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于S2中所述的扩充日志
Figure FDA0003110448870000031
中事件的时间属性时,将当前事件的duration定义为当前事件的CompleteTime与其上一事件的CompleteTime之间的间隔。
4.根据权利要求1所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于S5中所述使用过程挖掘算法从训练数据中挖掘Petri网PN的具体方法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,...,p|P|-1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi);T={t0,t1,...,t|T|-1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),...,β(p|P|-1)]是Pet ri网中托肯的分布情况,M的初始状态记为Minit
5.根据权利要求4所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于S6具体包含以下步骤:
S61.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S62.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S621,否则,执行步骤S622;
S621.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S63,其更新计算步骤如下:
Figure FDA0003110448870000032
M=[β(p0),β(p1),…,β(p|P|-1)]
S622.获取°t中未持有托肯的库所集合,记为PTokenMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,则将其托肯数目额外加一;最后执行步骤S621;
S63.将当前Petri网的托肯分布M拼接至BehavContext(pt)。
6.根据权利要求1所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于所述的S71中进行特征编码时,对类别属性采用one-hot编码,对数值属性进行标准归一化处理。
7.根据权利要求1所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于所述的S73中降维技术采用Uniform Manifold Approximation and Projection即UMAP技术。
8.根据权利要求7所述的一种数据驱动下基于人工智能的活动时序在线预测方法,其特征在于所述的降维处理选择将维度降至1*L。
CN202110647246.8A 2021-06-10 2021-06-10 一种数据驱动下基于人工智能的活动时序在线预测方法 Active CN113537710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647246.8A CN113537710B (zh) 2021-06-10 2021-06-10 一种数据驱动下基于人工智能的活动时序在线预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647246.8A CN113537710B (zh) 2021-06-10 2021-06-10 一种数据驱动下基于人工智能的活动时序在线预测方法

Publications (2)

Publication Number Publication Date
CN113537710A true CN113537710A (zh) 2021-10-22
CN113537710B CN113537710B (zh) 2022-03-08

Family

ID=78124804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647246.8A Active CN113537710B (zh) 2021-06-10 2021-06-10 一种数据驱动下基于人工智能的活动时序在线预测方法

Country Status (1)

Country Link
CN (1) CN113537710B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816926A (zh) * 2022-05-05 2022-07-29 华侨大学 流程监控方法和预测点筛选方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178623A (zh) * 2019-12-26 2020-05-19 杭州电子科技大学 一种基于多层机器学习的业务流程剩余时间预测方法
CN112052233A (zh) * 2020-08-11 2020-12-08 杭州电子科技大学 一种基于上下文感知的多角度业务流程异常在线检测方法
CN112052232A (zh) * 2020-07-21 2020-12-08 杭州电子科技大学 一种基于重演技术的业务流程上下文提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178623A (zh) * 2019-12-26 2020-05-19 杭州电子科技大学 一种基于多层机器学习的业务流程剩余时间预测方法
CN112052232A (zh) * 2020-07-21 2020-12-08 杭州电子科技大学 一种基于重演技术的业务流程上下文提取方法
CN112052233A (zh) * 2020-08-11 2020-12-08 杭州电子科技大学 一种基于上下文感知的多角度业务流程异常在线检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCO A.F. PIMENTEL等: "A review of novelty detection", 《SIGNAL PROCESSING》 *
刘彤 等: "基于深度迁移学习的业务流程实例剩余执行时间预测方法", 《数据分析与知识发现》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816926A (zh) * 2022-05-05 2022-07-29 华侨大学 流程监控方法和预测点筛选方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113537710B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
Bilal et al. Guidelines for applied machine learning in construction industry—A case of profit margins estimation
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和系统
CN114757432B (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
CN112508265A (zh) 面向业务流程管理的时间与活动多任务预测方法及系统
KR102009284B1 (ko) 비즈니스 프로세스의 마지막 액티비티의 수행 시점을 예측하기 위해 동적 순환신경망을 학습시키는 비즈니스 프로세스 학습 장치
CN116128461A (zh) 一种用于在线招聘的双向推荐系统及方法
CN117236677A (zh) 一种基于事件抽取的rpa流程挖掘方法及装置
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN113537710B (zh) 一种数据驱动下基于人工智能的活动时序在线预测方法
CN112348269A (zh) 一种融合图结构的时间序列预测建模方法
CN116340726A (zh) 一种能源经济大数据清洗方法、系统、设备及存储介质
CN115329746A (zh) 一种事件抽取方法、装置及设备
Xue et al. A graph regularized point process model for event propagation sequence
Hong et al. Determining construction method patterns to automate and optimise scheduling–a graph-based approach
CN112052990B (zh) 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
Wang et al. A Transformer-based multi-entity load forecasting method for integrated energy systems
CN117458440A (zh) 基于关联特征融合的生成式电力负荷预测方法及系统
CN111126629B (zh) 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN117314140A (zh) 一种基于事件关系抽取的rpa流程挖掘方法和装置
Singhania et al. Forecasting the United States unemployment rate by using recurrent neural networks with Google Trends data
Da Silva et al. Applying hidden Markov models to process mining
CN114519843A (zh) 车辆预测方法及装置
CN114116692A (zh) 一种基于mask和双向模型的缺失POI轨迹补全方法
Jiang et al. MAKT: Multichannel Attention Networks based Knowledge Tracing with Representation Learning
Ma et al. Data model of key indicators of urban architectural design based on long-and short-term convolutional memory network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221031

Address after: 310012 Room 201-2, Building B, No. 525, Xixi Road, Xihu District, Hangzhou, Zhejiang

Patentee after: Tanxun Intelligent Technology (Hangzhou) Co.,Ltd.

Address before: 310018 Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University