CN114238243A - 一种用于流程发现的局部日志采样方法 - Google Patents

一种用于流程发现的局部日志采样方法 Download PDF

Info

Publication number
CN114238243A
CN114238243A CN202111555053.6A CN202111555053A CN114238243A CN 114238243 A CN114238243 A CN 114238243A CN 202111555053 A CN202111555053 A CN 202111555053A CN 114238243 A CN114238243 A CN 114238243A
Authority
CN
China
Prior art keywords
log
track
trajectory
sampling
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111555053.6A
Other languages
English (en)
Other versions
CN114238243B (zh
Inventor
俞东进
倪可
孙笑笑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111555053.6A priority Critical patent/CN114238243B/zh
Publication of CN114238243A publication Critical patent/CN114238243A/zh
Application granted granted Critical
Publication of CN114238243B publication Critical patent/CN114238243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种用于流程发现的局部日志采样方法。本发明通过量化事件之间的直接跟随关系和轨迹的特征属性,将轨迹是否带有新的流程行为作为采样标准,并基于统计理论确定了最小连续遍历样本数量。为了进一步提高预处理速度,提出了二进制指数跳跃算法来避免对重复轨迹的扫描。采用本发明的日志采样方法可以快速有效地缩小事件日志的规模,并保留关键的控制流和频率信息,同时提高流程发现算法的运行速度。

Description

一种用于流程发现的局部日志采样方法
技术领域
本发明属于业务流程管理领域,针对大规模事件日志的预处理问题,提出一种可用于流程发现的局部日志采样方法。
背景技术
流程挖掘是一门旨在从企业组织的信息管理系统中提取业务流程相关见解的学科,其核心理念为发现、监测和改进真实的业务流程。流程发现是流程挖掘的一个分支领域,其主要任务是从事件日志中构建流程模型,以达到对业务流程更好的理解和分析的目的。
事件日志是提取流程模型的基础。近年来,随着物联网、大数据等技术的快速发展,企业有了更多获取和存储事件日志的手段,造成了事件日志规模的几何级别增长。现有的流程发现算法,如Alpha挖掘算法、启发式流程挖掘算法、归纳算法等,将完整的事件日志作为输入并构建相应的流程模型。然而,这些流程挖掘算法往往具有多个可调整的参数,使得流程发现成为了一个漫长的探索性过程,尤其是在将它们应用于大规模的事件日志时,可能需要较长的处理时间,导致流程发现效率低下。
为了应对大规模的事件日志,一种常见的策略是采用分而治之的思想,将流程发现问题分解为若干个规模较小的子问题;另一种做法则是利用分布式计算来提高流程发现的效率,如Evermann在MapReduce平台上重新实现了Alpha挖掘算法和启发式流程挖掘算法,使得这两种著名的流程挖掘算法得以扩展应用到大规模、分布式存储的数据集上。
除了改进现有的挖掘算法之外,对完整的事件日志进行采样则是一种从根本上提高流程发现效率的方法。这种做法的依据是,事件日志中存在着大量相似或重复的行为,只有一小部分的日志记录了导致流程模型发生变动的“新信息”。因此,将大规模的事件日志采样缩减到可快速处理的大小是一种十分有效的方式。
发明内容
本发明针对现有采样技术的不足,提供了一种基于信息增量的局部日志采样方法。该方法首先从事件日志里抽象出了控制流信息和特征属性信息,用于比较轨迹携带的信息量,然后采用二进制指数跳跃算法来避免对重复或相似轨迹的遍历,达到提高预处理效率的目的。
为实现上述发明目的,本发明方法的具体技术方案如下:
一种用于流程发现的局部日志采样方法,其用于从大规模事件日志中采样出包含关键信息的子集用于流程发现,该方法的具体步骤如下:
S1、设置采样日志L′为待采样的事件日志L的子集,并初始化L′为空集
Figure BDA0003418857830000021
所述事件日志L={σ1,…,σi,…,σm}是所有轨迹的集合,其中m为事件日志L中的轨迹总数,σi表示事件日志L中第i条轨迹;所述轨迹为事件的有序执行构成的活动序列,用σ=<e1,…,eξ,…,en>表示,其中eξ表示轨迹中第ξ个发生的事件,n为轨迹中的事件总数;事件e为流程执行过程中发生的活动,包括活动名称和特征属性;
S2、以满足Nmin≥z2*δ*(1-δ)/e2的整数值作为最小连续遍历样本数量Nmin,其中z对应于单边假设检验下置信水平1-α的标准化正态随机变量,δ表示在L-L′中发现带有新信息的轨迹的概率,e表示误差幅度;初始化事件日志L中当前遍历的轨迹索引i=1,初始化用于记录发生相似轨迹聚集次数的计数器k=1,初始化用于统计不带有新信息的连续轨迹条数的计数器count=0;
S3、从事件日志L中按轨迹索引i取出轨迹σi,并计算轨迹σi的控制流信息ΨCFi)以及轨迹长度Len(σi)和轨迹持续时间T(σi)两个特征属性;
所述控制流信息是与轨迹σi中事件的执行次序有关的信息集合,用
Figure BDA0003418857830000022
表示,其中
Figure BDA0003418857830000023
表示轨迹σi中出现的活动集合,
Figure BDA0003418857830000024
表示轨迹σi中事件的直接跟随关系集合,estarti)和eendi)分别表示轨迹σi的开始和结束事件;
所述轨迹长度Len(σi)为轨迹σi中发生的事件数量,所述轨迹持续时间T(σi)为轨迹σi从开始执行到结束执行经过的时间;
S4、判断轨迹σi是否符合第一条件、第二条件和第三条件中任意一个,其中:
所述第一条件为轨迹σi带有当前采样日志L′中未包含的控制流信息,满足
Figure BDA0003418857830000031
其中
Figure BDA0003418857830000032
为当前采样日志L′的控制流信息集合;
所述第二条件为轨迹σi带有当前采样日志L′中未包含的长度信息,满足
Figure BDA0003418857830000033
其中
Figure BDA0003418857830000034
表示采样日志L′的轨迹长度集合;
所述第三条件为轨迹σi向当前采样日志L′中引入了新的时间信息,满足d(L′,σi)>λ,其中λ为松弛系数,d(L′,σi)为距离函数,计算公式为:
Figure BDA0003418857830000035
式中N表示当前采样日志L′中已有轨迹的条数;
若满足三个条件中的任意一个,则视为轨迹σi是一条相对于采样日志L′带有新信息的轨迹,将轨迹σi加入采样日志L′,同时对轨迹索引i进行加1,计数器k重置为1,计数器count均重置为0;若不满足三个条件中的任意一个,则不将轨迹σi加入采样日志L′,计数器count进行加1后再判断是否符合count≥Nmin,若不符合则计数器k保持不变且对轨迹索引i进行加1,若符合则计数器k进行加1,并使用二进制指数跳跃算法计算下一条要遍历的轨迹索引,其中下一条要遍历的轨迹索引为i=i+random(1,2τ),random(1,2τ)表示在[1,2τ]区间中随机地取出一个整数,τ为上限阈值和计数器k当前值之中的最小值;
S5、不断迭代执行S3和S4对事件日志L进行遍历,直至轨迹索引i的值超出事件日志L中轨迹索引上限值后,停止遍历,最终输出包含关键信息子集的采样日志L′。
作为优选,所述特征属性包括时间戳。
作为优选,对于任一轨迹σ∈L,若轨迹中事件eξ+1直接跟随于事件eξ,则作为轨迹σ中一个事件的直接跟随关系
Figure BDA0003418857830000036
轨迹σ中所有事件的直接跟随关系构成轨迹σ中事件的直接跟随关系集合。
作为优选,所述Nmin取满足Nmin≥z2*δ*(1-δ)/e2的最小整数值。
作为优选,下一次扫描前需要跳过的轨迹数量为random(1,2τ)条,τ表示为τ=Min(k,threshold),其中上限阈值threshold为8。
本发明提出的日志采样方法从控制流和特征属性两个角度对轨迹所包含的信息进行了量化,通过比较一条轨迹和已采样日志之间的信息差异来判断该轨迹是否记录了新的流程行为。为了进一步提高采样速度,本方法基于统计理论确定了最小连续遍历样本数量,并提出二进制指数跳跃算法,其核心思想是避免对事件日志的完整扫描,即局部日志采样。采用本发明的方法可有效提高流程挖掘的效率。
附图说明
图1为基于轨迹信息增量的日志采样方法流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
本发明所提供的适用于流程发现的基于轨迹信息增量的局部日志采样方法的具体实施方式主要分两步(如图1所示):
(1)根据样本统计原理确定最小连续遍历样本数量;(2)遍历事件日志,根据轨迹的控制流信息和轨迹特征属性,判断是否可加入采样日志,同时使用二进制指数跳跃算法计算下一次扫描的间隔。
为叙述方便,对本发明中描述设计的相关定义说明如下:
定义1(日志,轨迹,事件):事件e是指流程执行过程中发生的活动,包括活动名称和特征属性,其中活动的特征属性包括时间戳、资源、执行者等,本发明中可以仅考虑时间戳。事件的有序执行构成了一个序列,称之为轨迹,用σ=<e1,…,eξ,…,en>表示,其中eξ表示轨迹中第ξ个发生的事件,n为轨迹中的事件总数。事件日志L={σ1,…,σi,…,σm}是所有轨迹的集合,其中m为事件日志L中的轨迹总数,可记为事件日志L的长度L.length。表1是一个事件日志的示例。
表1事件日志示例
轨迹ID 活动名称 时间戳
1 A 2010-12-30 13:32:00
1 B 2010-12-30 14:06:00
1 C 2010-12-30 15:34:00
2 A 2011-01-06 08:18:00
2 B 2011-01-06 11:18:00
定义2(直接跟随关系):设σ=<e1,…,eξ,eξ+1,…,en>∈L,则称eξ+1直接跟随于eξ,由此将轨迹σ中这个事件的直接跟随关系记为
Figure BDA0003418857830000051
通常使用事件的活动名称属性来代指事件。例如在表1中,记σ1=<A,B,C>,并称B直接跟随于A,C直接跟随于B,以此类推。
定义3(信息增量):设采样日志为L′,L′是完整事件日志L的子集,若一条轨迹σ含有采样日志L′中未包含的信息,则认为该轨迹是一条带有新信息的轨迹即存在信息增量,用γ(L′,σ)=1表示,反之γ(L′,σ)=0。
定义4(控制流抽象函数):控制流抽象函数用于提取轨迹的控制流信息。给定一条轨迹σ,定义控制流抽象函数如下:
Figure BDA0003418857830000052
其中Aσ表示轨迹σ中出现的活动集合,
Figure BDA0003418857830000053
表示轨迹σ中事件的直接跟随关系集合,estart(σ)和eend(σ)分别表示该轨迹的开始和结束事件。对于采样日志L′来说,其携带的控制流信息是L′中所有轨迹控制流信息的并集,用
Figure BDA0003418857830000054
Figure BDA0003418857830000055
表示。
轨迹的特征信息不同于事件的特征信息,除了轨迹ID外,轨迹的其他特征属性一般不会在事件日志中显式地表示,这些特征属性需要通过计算获得,如轨迹中事件的数量、轨迹的持续时间等。仅关注事件日志的控制流信息所能得到的轨迹数量是有限的,因此本方法额外使用了轨迹的两个特征属性(轨迹长度和轨迹持续时间)来减少信息损失。
定义5(轨迹长度):轨迹长度是指轨迹σ中发生的事件数量,记为Len(σ)。
对于事件日志L来说,LLen代表事件日志L中所有轨迹长度的集合,即
Figure BDA0003418857830000061
定义6(轨迹持续时间):轨迹持续时间是指轨迹σ从开始执行到结束执行经过的时间,其计算公式为:T(σ)=eend(σ).timestamp-estart(σ).timestamp。
基于上述定义,下面继续对本发明一个较佳实施例中所提供的用于流程发现的局部日志采样方法的具体步骤进行详细描述:
步骤(1):根据样本统计原理确定最小连续遍历样本数量。
在采样过程中,为了避免对事件日志的完整扫描,基于统计原理对最小连续遍历样本数量做出定义:假设L中的每一条轨迹独立同分布,从L中选取n条轨迹样本,定义p=pi为轨迹σi带有新信息的概率,即对所有轨迹来说带有新信息的概率pi都相同;对于一条轨迹σ来说,γ(L′,σ)只有1(带有新信息)或0(不带有新信息)两种取值;在此假设之下,可以认为在这n条样本轨迹中含有新信息的轨迹数量x符合二项分布,且在事件日志数量足够大的情况下,二项分布近似于正态分布。
样本的大小对于获得准确的、具有统计意义的结果非常重要。本方法基于Cochran公式计算这一理想的样本量。最小连续遍历样本数量Nmin的计算公式为:Nmin≥z2*δ*(1-δ)/e2,其中z对应于置信水平1-α(单边假设检验)的标准化正态随机变量,δ表示在L-L′中发现带有新信息的轨迹的概率,e表示误差幅度,通常取e=0.05。在事件日志中连续遍历Nmin条不带有新信息的轨迹之后,可以认为在后续的日志中出现带有新信息的轨迹概率很小。
在上述Nmin的计算公式中,原则上任意满足Nmin≥z2*δ*(1-δ)/e2的整数值都可以作为Nmin。但是实际的Nmin取值应该考虑整个事件日志L的长度,避免每一次跳过的扫描间隔过大。在本实施例中,Nmin可以取满足Nmin≥z2*δ*(1-δ)/e2的最小整数值。例如,当置信度α=0.01且δ=0.05且e=0.05时,可以得到Nmin=126。因此当在日志中连续遍历了126条不带有新信息的轨迹之后,可以认为在剩余的日志中发现带有新信息轨迹的概率小于0.05,其置信水平为0.99。
但需要说明的是,上述Nmin的取值仅仅为一实施例中的具体做法,如果整个事件日志L的长度很长,也可以考虑适当增大Nmin的取值。
步骤(2):遍历事件日志,根据轨迹的控制流信息和轨迹特征属性,判断是否可加入采样日志,同时使用二进制指数跳跃算法计算下一次扫描的间隔。
此步骤中用于判断轨迹是否具有信息增量的轨迹信息包括控制流信息和轨迹特征属性两部分。
根据定义4提取一条轨迹σi的控制流信息,若
Figure BDA0003418857830000071
则说明轨迹σi带有当前采样日志L′中未包含的控制流信息。以表1中的两条轨迹σ1=<A,B,C>和σ2=<A,B>为例,假设采样日志L′中只有σ1一条轨迹,根据控制流抽象函数可得
Figure BDA0003418857830000072
Figure BDA0003418857830000073
将σ2加入L′会在L′CF中增加新的结束事件,因此认为σ2是一条带有新信息的轨迹,即γ(L′,σ2)=1。
提取轨迹的特征属性包括计算轨迹长度和轨迹持续时间。以轨迹σi∈L-L′为例,如果
Figure BDA0003418857830000074
则认为轨迹σi是一条带有新信息的轨迹。轨迹的持续时间通常是一个细粒度的数值,从该属性角度看可以认为几乎每一条轨迹都引入了新信息。为了减少时间信息带来的差异,本方法使用距离函数d和松弛系数λ来判断向L′中加入一条轨迹是否会引入新的信息。计算σi与L′之间的轨迹持续时间距离d(L′,σi)的公式为:
Figure BDA0003418857830000075
其中N表示L′中轨迹的数量。只有当d(L′,σi)大于设定的松弛系数λ时,才认为轨迹σi引入了新的时间信息。
对于轨迹σi来说,只要在控制流信息和特征属性(轨迹长度和轨迹持续时间)中至少有一项向L′中引入了新信息,则认为轨迹σi是一条带有新信息的轨迹,用γ(L′,σi)=1表示,反之γ(L′,σi)=0。
因此,本步骤在实际实现时,可以通过如下子步骤来实现:
(2.1)定义计数器count用于统计连续不带有新信息的轨迹条数,将其初始值设为0;定义计数器k用于统计连续出现count≥Nmin的次数,将其初始值设为1。然后初始化事件日志L中当前遍历的轨迹索引i=1,开始按照后续的迭代循环过程执行对事件日志L的遍历。
(2.2)从事件日志L中按当前的轨迹索引i取出轨迹σi,并计算轨迹σi的控制流信息ΨCFi)以及轨迹长度Len(σi)和轨迹持续时间T(σi)两个特征属性。控制流信息ΨCFi)以及轨迹长度Len(σi)和轨迹持续时间T(σi)的计算公式分别参见前述定义4~6,将公式中的σ替换为σi即可。
(2.3)判断当前取出的轨迹是否存在信息增量,并计算下一个遍历扫描的扫描间隔,其具体判断和计算过程如下:
首先,当步骤(2.2)中得到控制流信息ΨCFi)以及轨迹长度Len(σi)和轨迹持续时间T(σi)后,即可判断轨迹σi是否符合第一条件、第二条件和第三条件中任意一个,其中:
第一条件为轨迹σi带有当前采样日志L′中未包含的控制流信息,即满足
Figure BDA0003418857830000081
其中
Figure BDA0003418857830000082
为当前采样日志L′的控制流信息集合;
第二条件为轨迹σi带有当前采样日志L′中未包含的长度信息,即满足
Figure BDA0003418857830000083
其中
Figure BDA0003418857830000084
表示采样日志L′的轨迹长度集合;
第三条件为轨迹σi向当前采样日志L′中引入了新的时间信息,即满足d(L′,σi)>λ,其中λ为松弛系数,d(L′,σi)为距离函数,计算公式为:
Figure BDA0003418857830000085
式中N表示当前采样日志L′中已有轨迹的条数;
若满足三个条件中的任意一个,则视为轨迹σi是一条相对于采样日志L′带有新信息的轨迹,用γ(L′,σi)=1表示,若不满足三个条件中的任意一个,则用γ(L′,σi)=0表示。分别针对γ(L′,σi)的不同取值对其进行处理:
如果γ(L′,σi)=1,则将轨迹σi加入采样日志L′,即L′=L′∪{σi};同时对轨迹索引i进行加1,计数器k重置为1,计数器count均重置为0,即i=i+1,count=0,k=1;
若γ(L′,σi)=0,则不将轨迹σi加入采样日志L′,即L′=L′;同时计数器count进行加1即count=count+1,然后再判断是否符合count≥Nmin,若不符合则计数器k保持不变且对轨迹索引i进行加1,即k=k,i=i+1,若符合则计数器k进行加1即k=k+1,并使用二进制指数跳跃算法计算下一条要遍历的轨迹索引,其中下一条要遍历的轨迹索引为i=i+random(1,2τ),random(1,2τ)表示在[1,2τ]区间中随机地取出一个整数,τ为上限阈值threshold和计数器k当前值之中的最小值。
上述二进制指数跳跃算法的目的当出现了连续的没有信息增量的相似轨迹后,在下一次扫描时需要跳过一部分不带有新信息的轨迹,保证在后续事件日志中发现新轨迹的可能性,同时提高预处理的速度。因为在真实的事件日志中,相似的流程行为(即无信息增量的轨迹)可能会在一段时间内大量出现。将连续遍历到Nmin条相似轨迹的情况称之为“相似轨迹聚集”现象。如果一旦扫描了Nmin条相似轨迹之后就停止采样,可能会无法在后续的事件日志中发现新的轨迹,产生信息损失。为了避免相似轨迹聚集导致的信息损失,本方法提出了二进制指数跳跃算法,在连续扫描了Nmin条没有信息增量的相似轨迹后,重新计算下一次扫描的间隔,以跳过一部分不带有新信息的轨迹,保证在后续事件日志中发现新轨迹的可能性,同时提高预处理的速度。
上述二进制指数跳跃算法在执行时,当在事件日志中连续遍历了Nmin条不带有新信息的轨迹后,从离散的整数集合[1,2,…,2τ]中随机地取出一个整数作为下一次扫描前需要跳过的轨迹数,即τ=Min(k,threshold),其中threshold用于控制出现“相似轨迹聚集”的上限阈值。扫描的间隔与发生轨迹聚集的次数有关。当k≤threshold时,参数τ等于发生轨迹聚集的次数;当k>threshold时,则从[1,2threshold]中随机选取一个整数。一旦扫描到一条带有新信息的轨迹时,k恢复为默认值1,并重新开始相似轨迹的计数。本实施例中,参数τ优选为8。
基于上述原理,该二进制指数跳跃算法提供了一个应对相似轨迹聚集现象的方法。在刚开始出现轨迹聚集时,该算法会以一个相对较小的跳跃间隔决定下一条轨迹的索引;而当相似轨迹聚集频繁出现时,扫描间隔将会以指数级别增加,目的是为了快速检测出下一条带有新信息的轨迹。二进制指数跳跃算法有助于提高在完整事件日志中发现新轨迹的效率,同时也避免了要完整遍历事件日志导致的处理时间过长的问题。
毫无疑问的是,使用二进制指数跳跃算法在提高预处理速度的同时会引入一定的信息损失,然而这对日志采样的影响未必是负面的。由于事件日志中本身就存在一些低频率的流程行为,这些行为将会导致发现的流程模型变得复杂和难以分析,因此,目前许多的流程发现算法都使用噪声过滤机制或者单独的预处理步骤来事先过滤掉事件日志中的低频行为。由于在二进制指数跳跃算法的执行过程中跳过的轨迹大概率是事件日志中发生频率较低的轨迹,因此其带来的信息损失可以看作是噪声处理步骤的一部分,对于流程模型的发现是有积极作用的。
(2.5)不断迭代执行(2.2)~(2.4)对事件日志L进行遍历,直至轨迹索引i的值超出事件日志L中轨迹索引上限值后表明完成了对整个事件日志的遍历,最终输出包含关键信息子集的采样日志L′。
本发明中,最终输出的采样日志L′中的轨迹数量可以通过上述松弛系数λ来调节。总体而言,随着松弛系数的增加,采样日志L′中轨迹数量均呈现下降趋势,并在值较大时趋于平稳。经过数据集的测试,在λ=20时,采样日志L′中的轨迹数量都下降到了原始事件日志中轨迹数量的40%左右,这说明真实事件日志在轨迹持续时间特征上的差异是比较小的,判断轨迹是否带有新信息由控制流主导。而随着松弛系数值的增加,采样的日志规模越小,流程挖掘的总体效率就越高。另外,从直接跟随关系这一结果上看,本发明提出的采样方法能够保留原始日志中88%以上的直接跟随关系,部分数据集上甚至保留了所有的直接跟随关系,表明本发明虽然减小了采样日志的规模,但仍然能从日志中挖掘出高质量的流程模型。
综上所述,本发明可有效快速地将大规模的事件日志采样到一个可管理的大小,并保证从采样日志中挖掘出的流程模型的质量,对于提高流程挖掘的效率有重要意义。
另外,对应于前述的局部日志采样方法,在另一较佳实施例中,上述局部日志采样方法中的功能可以由一组模块组成,它们包括:计算样本量模块、提取轨迹信息模块、计算扫描间隔模块。
计算样本量模块基于统计理论给出了何时停止遍历事件日志的标准,确定了最小连续遍历样本数量Nmin的值。
提取轨迹信息模块分为提取控制流信息和提取特征属性两个部分。提取控制流信息是指在原始事件日志中通过分析活动序列的执行顺序,得到每一条轨迹的活动集合、事件之间的直接跟随关系、轨迹的开始事件和结束事件等信息,然后和采样日志的控制流信息集合进行比对。提取特征属性是指计算轨迹中执行的活动数量以及轨迹的持续时间,减少采样过程中的信息损失。
计算扫描间隔模块的核心是二进制指数跳跃算法,其根据最小连续遍历样本数量Nmin的值以及不带有新信息的重复轨迹连续出现的次数,计算出下一次要遍历的轨迹索引,以便快速找到下一条带有新信息的轨迹,提高采样效率。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1.一种用于流程发现的局部日志采样方法,其特征在于用于从大规模事件日志中采样出包含关键信息的子集用于流程发现,该方法的具体步骤如下:
S1、设置采样日志L′为待采样的事件日志L的子集,并初始化L′为空集
Figure FDA0003418857820000011
所述事件日志L={σ1,...,σi,…,σm}是所有轨迹的集合,其中m为事件日志L中的轨迹总数,σi表示事件日志L中第i条轨迹;所述轨迹为事件的有序执行构成的活动序列,用σ=<e1,…,eξ,…,en>表示,其中eξ表示轨迹中第ξ个发生的事件,n为轨迹中的事件总数;事件e为流程执行过程中发生的活动,包括活动名称和特征属性;
S2、以满足Nmin≥z2*δ*(1-δ)/e2的整数值作为最小连续遍历样本数量Nmin,其中z对应于单边假设检验下置信水平1-α的标准化正态随机变量,δ表示在L-L′中发现带有新信息的轨迹的概率,e表示误差幅度;初始化事件日志L中当前遍历的轨迹索引i=1,初始化用于记录发生相似轨迹聚集次数的计数器k=1,初始化用于统计不带有新信息的连续轨迹条数的计数器count=0;
S3、从事件日志L中按轨迹索引i取出轨迹σi,并计算轨迹σi的控制流信息ΨCFi)以及轨迹长度Len(σi)和轨迹持续时间T(σi)两个特征属性;
所述控制流信息是与轨迹σi中事件的执行次序有关的信息集合,用
Figure FDA0003418857820000014
表示,其中
Figure FDA0003418857820000016
表示轨迹σi中出现的活动集合,>(σi)表示轨迹σi中事件的直接跟随关系集合,estarti)和eendi)分别表示轨迹σi的开始和结束事件;
所述轨迹长度Len(σi)为轨迹σi中发生的事件数量,所述轨迹持续时间T(σi)为轨迹σi从开始执行到结束执行经过的时间;
S4、判断轨迹σi是否符合第一条件、第二条件和第三条件中任意一个,其中:
所述第一条件为轨迹σi带有当前采样日志L′中未包含的控制流信息,满足
Figure FDA0003418857820000012
其中
Figure FDA0003418857820000017
为当前采样日志L′的控制流信息集合;
所述第二条件为轨迹σi带有当前采样日志L′中未包含的长度信息,满足
Figure FDA0003418857820000013
其中
Figure FDA0003418857820000015
表示采样日志L′的轨迹长度集合;
所述第三条件为轨迹σi向当前采样日志L′中引入了新的时间信息,满足d(L′,σi)>λ,其中λ为松弛系数,d(L′,σi)为距离函数,计算公式为:
Figure FDA0003418857820000021
式中N表示当前采样日志L′中已有轨迹的条数;
若满足三个条件中的任意一个,则视为轨迹σi是一条相对于采样日志L′带有新信息的轨迹,将轨迹σi加入采样日志L′,同时对轨迹索引i进行加1,计数器k重置为1,计数器count均重置为0;若不满足三个条件中的任意一个,则不将轨迹σi加入采样日志L′,计数器count进行加1后再判断是否符合count≥Nmin,若不符合则计数器k保持不变且对轨迹索引i进行加1,若符合则计数器k进行加1,并使用二进制指数跳跃算法计算下一条要遍历的轨迹索引,其中下一条要遍历的轨迹索引为i=i+random(1,2τ),random(1,2τ)表示在[1,2τ]区间中随机地取出一个整数,τ为上限阈值和计数器k当前值之中的最小值;
S5、不断迭代执行S3和S4对事件日志L进行遍历,直至轨迹索引i的值超出事件日志L中轨迹索引上限值后,停止遍历,最终输出包含关键信息子集的采样日志L′。
2.如权利要求1所述的用于流程发现的局部日志采样方法,其特征在于,所述特征属性包括时间戳。
3.如权利要求1所述的用于流程发现的局部日志采样方法,其特征在于,对于任一轨迹σ∈L,若轨迹中事件eξ+1直接跟随于事件eξ,则作为轨迹σ中一个事件的直接跟随关系eξ>eξ+1,轨迹σ中所有事件的直接跟随关系构成轨迹σ中事件的直接跟随关系集合。
4.如权利要求1所述的用于流程发现的局部日志采样方法,其特征在于,所述Nmin取满足Nmin≥z2*δ*(1-δ)/e2的最小整数值。
5.如权利要求1所述的用于流程发现的局部日志采样方法,其特征在于,下一次扫描前需要跳过的轨迹数量为random(1,2τ)条,τ表示为τ=Min(k,threshold),其中上限阈值threshold为8。
CN202111555053.6A 2021-12-17 2021-12-17 一种用于流程发现的局部日志采样方法 Active CN114238243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111555053.6A CN114238243B (zh) 2021-12-17 2021-12-17 一种用于流程发现的局部日志采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111555053.6A CN114238243B (zh) 2021-12-17 2021-12-17 一种用于流程发现的局部日志采样方法

Publications (2)

Publication Number Publication Date
CN114238243A true CN114238243A (zh) 2022-03-25
CN114238243B CN114238243B (zh) 2023-02-03

Family

ID=80758576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111555053.6A Active CN114238243B (zh) 2021-12-17 2021-12-17 一种用于流程发现的局部日志采样方法

Country Status (1)

Country Link
CN (1) CN114238243B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160085790A1 (en) * 2014-09-22 2016-03-24 Ca, Inc. Stratified sampling of log records for approximate full-text search
CN110457277A (zh) * 2019-08-19 2019-11-15 北京博睿宏远数据科技股份有限公司 业务处理性能分析方法、装置、设备及存储介质
CN112632018A (zh) * 2020-12-21 2021-04-09 山东理工大学 一种业务流程事件日志采样方法与系统
CN113704215A (zh) * 2021-08-10 2021-11-26 山东理工大学 业务过程事件日志采样方法、系统、存储介质及计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160085790A1 (en) * 2014-09-22 2016-03-24 Ca, Inc. Stratified sampling of log records for approximate full-text search
CN110457277A (zh) * 2019-08-19 2019-11-15 北京博睿宏远数据科技股份有限公司 业务处理性能分析方法、装置、设备及存储介质
CN112632018A (zh) * 2020-12-21 2021-04-09 山东理工大学 一种业务流程事件日志采样方法与系统
CN113704215A (zh) * 2021-08-10 2021-11-26 山东理工大学 业务过程事件日志采样方法、系统、存储介质及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张帅鹏: "一种基于日志相似度的轨迹聚类评估方法", 《山东科技大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN114238243B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
JP6771751B2 (ja) リスク評価方法およびシステム
JP3832281B2 (ja) 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
US7669180B2 (en) Method and apparatus for automated risk assessment in software projects
US8516499B2 (en) Assistance in performing action responsive to detected event
US8965830B2 (en) Systems and methods for self-adaptive episode mining under the threshold using delay estimation and temporal division
CN107688626B (zh) 慢查询日志处理方法、装置及电子设备
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN110377519B (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN111090585B (zh) 一种基于众测过程的众测任务关闭时间自动预测方法
CN114238243B (zh) 一种用于流程发现的局部日志采样方法
CN111797118A (zh) 大型数据库系统的迭代式多属性索引选择
CN108924002B (zh) 一种性能数据文件的解析方法、装置、设备及存储介质
JP2010152431A (ja) 不正アクセス検知装置及び不正アクセス検知プログラム及び記録媒体及び不正アクセス検知方法
Aldekhail et al. Intelligent Identification and Resolution of Software Requirement Conflicts: Assessment and Evaluation.
CN115238583A (zh) 一种支持增量日志的业务流程剩余时间预测方法与系统
CN115098314A (zh) 慢盘检测方法、装置、电子设备和可读存储介质
CN109978038B (zh) 一种集群异常判定方法及装置
CN108595502B (zh) 评估数据库服务性能的方法、装置及计算机可读存储介质
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN111724048A (zh) 基于特征工程对成品库调度系统性能数据的特征抽取方法
US20190138931A1 (en) Apparatus and method of introducing probability and uncertainty via order statistics to unsupervised data classification via clustering
US11354286B1 (en) Outlier identification and removal
CN116226231B (zh) 数据分割方法及相关装置
CN113011476B (zh) 基于自适应滑动窗口gan的用户行为安全检测方法
CN113128217B (zh) 一种基于网络孪生空间的舆情处置决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant