CN108416365A - 基于距离的并发完备日志挖掘方法 - Google Patents

基于距离的并发完备日志挖掘方法 Download PDF

Info

Publication number
CN108416365A
CN108416365A CN201810115180.6A CN201810115180A CN108416365A CN 108416365 A CN108416365 A CN 108416365A CN 201810115180 A CN201810115180 A CN 201810115180A CN 108416365 A CN108416365 A CN 108416365A
Authority
CN
China
Prior art keywords
distance
daily record
activity
algorithm
causality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810115180.6A
Other languages
English (en)
Other versions
CN108416365B (zh
Inventor
杜玉越
杜海森
张福新
栾文静
刘伟
亓亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201810115180.6A priority Critical patent/CN108416365B/zh
Publication of CN108416365A publication Critical patent/CN108416365A/zh
Application granted granted Critical
Publication of CN108416365B publication Critical patent/CN108416365B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于距离的并发完备日志挖掘方法,该方法在实现过程中应用到了两个算法,算法一为潜在因果关系发现算法,该算法一通过距离的定义,构建新的隐含关系发现算法,以解决含有选择的过程模型;算法二为AlphaParallelUseDistance算法,能处理带有选择结构的块状模型。本发明通过上述步骤可以处理含有更少日志的并发完备日志,从中挖掘得到较高精确度和较高简洁度的过程模型,并使得模型结构不再仅限于并发块状模型。相对于IM算法的挖掘结果,本发明结果准确度更高,并且更加简洁;相对于α||算法,本发明可以处理其所不能挖掘的日志,得到其不能得到的正确结果,并且适应范围更加广。

Description

基于距离的并发完备日志挖掘方法
技术领域
本发明属于过程挖掘技术领域,特别涉及一种基于距离的并发完备日志挖掘方法。
背景技术
在过程挖掘中,完备性概念很重要,它代表着日志中含有数据过少这一问题。完备性假设所有可能直接跟随彼此的活动,在日志中的一些迹中直接相互跟随。这导致传统的基于跟随关系的局部完备日志,需要在日志中存在大量的迹。
挖掘不完备日志时,由于日志中迹的数量过少,导致活动间隐含的关系不能被表示,从而导致挖掘结果的不正确。本发明挖掘含有更少迹的日志。这些迹可能不完整,但是足够有效。利用这些迹发现潜在的关系,然后根据适当的算法,得到具有代表性的模型。
通过距离,可以从不完备的日志中获得完备的并发关系,即日志中的并发关系和模型中的并发关系相符。发现潜在的因果跟随关系,然后得到相应的过程模型。
对不完备日志挖掘,主要有两种方法:
一种是归纳挖掘算法,即IM算法,一种是针对块状并发结构的α||算法。其中:
归纳挖掘算法处理不完备日志,将其看为一个优化问题。将活动间的关系进行统计,并搜索这些关系的概率估计与设定阈值进行比较,然后确定活动间关系。
该算法由于存在统计活动间的关系,使得需要大量的日志进行统计分析,日志规模较大。并且由于根据概率估计与设定阈值进行比较,然后确定活动间关系,使得模型的准确度降低,最后,在模型表示时,由于存在无声变迁使得,模型的简洁度降级,存在大量无用结构。
针对块状并发结构的α||算法,可以挖掘因果完备日志。该算法可以挖掘因果完备日志,但并不能解决因果不完备日志,例如并发完备日志。算法的适应范围较小。
发明内容
本发明的目的在于提出一种基于距离的并发完备日志挖掘方法,该方法可以处理含有更少日志的并发完备日志,从中挖掘得到较高精确度和较高简洁度的过程模型。
本发明为了实现上述目的,采用如下技术方案:
基于距离的并发完备日志挖掘方法,包括如下步骤:
定义基于日志的次序关系
L表示事件日志,a,b∈L,为L中任意两个活动;
a>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1}使得σ∈L,tm=a并且tm+1=b;
a>>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1},k∈{m+2,…,n},使得σ∈L,tm=a并且tk=b,并且不存在a>Lb;
a→Lb当且仅当a>Lb并且不存在b>La也不存在b>>La;
当且仅当a>>Lb并且不存在b>La也不存在b>>La;
a#Lb当且仅当不存在a>Lb也不存在b>La也不存在a>>Lb也不存在b>>La;
a‖Lb当且仅当a>Lb∧b>La,或a>Lb∧b>>La,或a>>Lb∧b>La,或b>>La∧a>>Lb;
其中:
L表示在日志L中的直接跟随关系;
>>L表示在日志L中的间接跟随关系;
L表示在日志L中的直接因果关系;
表示在日志L中的间接因果关系;
#L表示在日志L中的无关系;
L表示在日志L中的并发关系;
∧表示并且;
定义基础因果关系→B WN
WN=(P,T;F,i,o)为工作流网,日志L为工作流网WN的完备日志;→B WN为工作流网WN的基础因果关系当且仅当→B WN=→L
定义因果完备日志Lc
当日志Lc满足以下条件时,Lc为工作流网WN的因果完备日志:
1)→B WN=→Lc
2)使得t∈σ;
其中,→Lc表示因果完备日志Lc中的直接因果关系;
定义基础并发关系‖B WN
B WN为工作流网WN的基础并发关系当且仅当‖B WN=‖L
定义并发完备日志Lp
Lp是工作流网WN的并发完备日志当且仅当满足如下条件:
2)‖B WN=‖Lp
3)使得t∈σ;
定义距离
距离表示在当前迹σ中,任意前后两个活动之间位置的差值,且为正数,记为:
(q,p)=σ(p)-σ(q),σ(p)>σ(q),q、p∈Σ(σ);
其中,p、q表示活动;
σ(p)、σ(q)分别表示活动p和q在迹σ中的位置;
Σ(σ)表示σ中所有活动;
定义距离集DT(u,v)
距离集用正整数集合DT(u,v)表示,表示两个活动u和v在所有迹中存在的距离的大小;
其中,|DT(u,v)|表示正整数集合的大小;DT(u,v)min表示最小的距离,为一个非负整数,并且当|DT(u,v)|等于0时,DT(u,v)min为0,u,v∈Σ(σ);
定义基于距离的关系
对于日志L,DTmin为L的最小距离集,则基于距离的关系定义如下:
u→Dv当且仅当DT(u,v)min=1∧DT(v,u)min=0;
当且仅当DT(u,v)min>1∧DT(v,u)min=0;
u#Dv当且仅当DT(u,v)min=0∧DT(v,u)min=0;
u||Dv当且仅当DT(u,v)min>0∧DT(v,u)min>0;
其中:
D表示基于距离的直接因果关系;
表示基于距离的间接因果关系;
#D表示基于距离的无关系;
||D表示基于距离的并发关系;
并将所有关系中,前面的活动称为前继,后面的活动称为后继;
所有的关系集合,分别构成相应的关系集合;
利用AlphaParallelUseDistance算法,通过距离的定义,构建新的潜在因果关系发现算法,具体过程如算法一所示:
算法一的输入为最小距离集DTmin和直接因果关系集合DF,输出为潜在因果关系集合Tp
算法一:
a1:初始化所有集合ps,fs,nc,nf,Tp为空值,即:
初始化ps={},fs={},nc={},nf={},Tp={};
其中,ps表示在直接因果关系集合中,所有的前继活动集合,fs表示在直接因果关系集合中,所有的后继活动集合,nc表示ps中不包含的活动,nf表示fs中不包含的活动;
a2:循环遍历所有的直接因果关系集合DF,直至最后一个,并将直接因果关系集合DF中所有的前后活动,分别放入集合ps和集合fs中;
a3:循环遍历所有的活动,从第一个至最后一个活动:
如果当前活动,没出现在集合ps中,则将当前活动,添加到集合nc中;
如果当前活动,没出现在集合fs中,则将当前活动,添加到集合nf中;
a4:遍历集合nc中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s1:在s1所有间接因果关系的后继中,寻找s1到其距离最近的活动e1,然后形成新的集合(s1,e1),并添加到集合Tp中;
a5:遍历集合nf中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s2:在s2所有间接因果关系的前继中,发现到s2距离最近的活动e2,然后形成新的集合(e2,s2),并添加到集合Tp中;
a6:返回潜在因果关系集合Tp
AlphaParallelUseDistance算法的定义如算法二所示:
其中,算法二的输入为并发完备日志Lp,输出为Petri网;
算法二:
b1:将并发完备日志Lp中所有活动添加到集合TL中,生成变迁集合;
b2:将并发完备日志Lp中每条迹的第一个活动,添加到集合TI中,作为开始变迁集合;
b3:将并发完备日志Lp中每条迹的最后一个活动添加到集合TO中,作为结束变迁集合;
b4:将已有的所有直接因果关系对,放入集合XL
b5:调用算法一,生成隐含关系集合TP,并将集合TP添加到集合XL中;
b6:合并集合XL中多余的直接因果关系对,形成最小的关系集合YL
b7:将集合YL中所有集合变为库所,并与开始和结束库所一同添加到库所集合PL中;
b8:根据库所集合和变迁集合,生成流关系集合FL
b9:根据已有的库所、变迁和流关系集合生成Petri网。
本发明具有如下优点:
本发明相对于IM算法的挖掘结果,结果准确度更高,并且更加简洁;相对于α||算法,可以处理其所不能挖掘的日志,可以得到其不能得到的正确结果,并且适应范围更加广。
附图说明
图1为本发明中潜在因果关系发现算法流程示意图;
图2为本发明中AlphaParallelUseDistance算法的流程示意图;
图3为本发明中AlphaParallelUseDistance算法对于日志L2的挖掘结果示意图;
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
基于距离的并发完备日志挖掘方法,包括如下步骤:
定义基于日志的次序关系
L表示事件日志,a,b∈L,为L中任意两个活动;
a>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1}使得σ∈L,tm=a并且tm+1=b;
a>>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1},k∈{m+2,…,n},使得σ∈L,tm=a并且tk=b,并且不存在a>Lb;
a→Lb当且仅当a>Lb并且不存在b>La也不存在b>>La;
当且仅当a>>Lb并且不存在b>La也不存在b>>La;
a#Lb当且仅当不存在a>Lb也不存在b>La也不存在a>>Lb也不存在b>>La;
a‖Lb当且仅当a>Lb∧b>La,或a>Lb∧b>>La,或a>>Lb∧b>La,或b>>La∧a>>Lb;
其中:
L表示在日志L中的直接跟随关系;
>>L表示在日志L中的间接跟随关系;
L表示在日志L中的直接因果关系;
表示在日志L中的间接因果关系;
#L表示在日志L中的无关系;
L表示在日志L中的并发关系;
∧表示并且。
完备日志,是活动完备和关系完备的日志。本发明中不完备日志,指关系不完备日志。
日志L为工作流网WN=(P,T;F,i,o)的完备日志,则称日志L中的因果跟随关系为工作流网WN的基础因果关系。
定义基础因果关系→B WN
WN=(P,T;F,i,o)为工作流网,日志L为工作流网WN的完备日志;→B WN为工作流网WN的基础因果关系当且仅当→B WN=→L
因果完备日志,是指满足基础因果关系的日志。
定义因果完备日志Lc
当日志Lc满足以下条件时,Lc为工作流网WN的因果完备日志:
1)→B WN=→Lc
2)使得t∈σ;
其中,→Lc表示因果完备日志Lc中的直接因果关系。
日志L为工作流网WN的完备日志,则称L中的并发关系为网N的基础并发关系。
定义基础并发关系‖B WN
B WN为工作流网WN的基础并发关系当且仅当‖B WN=‖L
并发完备日志,是指日志中含有基础并发关系,同时含有不完备的基础因果关系。
定义并发完备日志Lp
Lp是工作流网WN的并发完备日志当且仅当满足如下条件:
2)‖B WN=‖Lp
3)使得t∈σ。
在并发完备日志中,存在潜在的因果跟随关系,使得不能发现活动间所有的因果跟随关系。为了解决上述问题,针对并发完备日志,本发明利用层次树的相关属性,发现活动间潜在的因果跟随关系。
定义距离
距离表示在当前迹σ中,任意前后两个活动之间位置的差值,且为正数,记为:
(q,p)=σ(p)-σ(q),σ(p)>σ(q),q、p∈Σ(σ);
其中,p、q表示活动,σ(p)、σ(q)分别表示活动p和q在迹σ中的位置,Σ(σ)表示σ中所有活动;
任意两个活动之间的距离可能不唯一,因此定义距离集表示,两个活动之间所有的距离大小。
定义距离集DT(u,v)
距离集用正整数集合DT(u,v)表示,表示两个活动u和v在所有迹中存在的距离的大小。
其中,|DT(u,v)|表示正整数集合的大小。DT(u,v)min表示最小的距离,为一个非负整数,并且当|DT(u,v)|等于0时,DT(u,v)min为0,u,v∈Σ(σ)。
定义基于距离的关系
对于日志L,DTmin为L的最小距离集,则基于距离的关系定义如下:
u→Dv当且仅当DT(u,v)min=1∧DT(v,u)min=0;
当且仅当DT(u,v)min>1∧DT(v,u)min=0;
u#Dv当且仅当DT(u,v)min=0∧DT(v,u)min=0;
u||Dv当且仅当DT(u,v)min>0∧DT(v,u)min>0;
其中:
D表示基于距离的直接因果关系;
表示基于距离的间接因果关系;
#D表示基于距离的无关系;
||D表示基于距离的并发关系;
并将所有关系中,前面的活动称为前继,后面的活动称为后继。所有的关系集合,分别构成相应的关系集合,例如,直接因果关系集合DF,由所有的→D关系组成。
基于距离的关系,根据两个活动之间最小的距离定义。因果关系只有当两个活动之间的最小距离为1,并且为单向距离时才成立;间接因果关系仅存在单向距离,并且距离大于1;选择关系当两个活动间不存在距离时;并发关系必须存在双向距离。
如图1所示,本发明实施例提出AlphaParallelUseDistance算法,通过距离的定义,构建新的隐含关系发现算法,以解决含有选择的过程模型。具体的,算法一的过程如下:
算法一:
输入:最小距离集DTmin和直接因果关系集合DF;
输出:潜在因果关系集合Tp
a1:初始化所有集合ps,fs,nc,nf,Tp为空值;
初始化ps={},fs={},nc={},nf={},Tp={};
其中,ps表示在直接因果关系集合中,所有的前继活动集合,fs表示在直接因果关系集合中,所有的后继活动集合,nc表示ps中不包含的活动,nf表示fs中不包含的活动。
a2:循环遍历所有的直接因果关系集合DF,直至最后一个,并将直接因果关系集合DF中所有的前后活动,分别放入集合ps和集合fs中;
a3:循环遍历所有的活动,从第一个至最后一个活动:
如果当前活动,没出现在集合ps中,则将当前活动,添加到集合nc中;
如果当前活动,没出现在集合fs中,则将当前活动,添加到集合nf中;
a4:遍历集合nc中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s1:在s1所有间接因果关系的后继中,寻找s1到其距离最近的活动e1,然后形成新的集合(s1,e1),并添加到集合Tp中;
a5:遍历集合nf中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s2:在s2所有间接因果关系的前继中,发现到s2距离最近的活动e2,然后形成新的集合(e2,s2),并添加到集合Tp中;
a6:返回潜在因果关系集合Tp
算法一中,步骤a1为初始化所有集合,将集合初始为空值;步骤a2将因果关系集合中所有的前后活动,分别放入ps和fs中;步骤a3分别生成没有前置库所和后置库所的库所集合,并分别放入nf和nc集合中;步骤a4和步骤a5发现隐含因果关系,通过寻找间接因果关系中距离最近的活动,形成新的因果关系;步骤a6返回新的因果跟随关系TP
如图2所示,AlphaParallelUseDistance算法,能处理带有选择结构的块状模型,AlphaPa rallelUseDistance算法的定义如算法二所示,算法二的输入为并发完备日志,输出为Petri网。
算法二:
输入:并发完备日志Lp
输出:Petri网;
b1:将并发完备日志Lp中所有活动添加到集合TL中,生成变迁集合;
b2:将并发完备日志Lp中每条迹的第一个活动,添加到集合TI中,作为开始变迁集合;
b3:将并发完备日志Lp中每条迹的最后一个活动添加到集合TO中,作为结束变迁集合;
b4:将已有的所有直接因果关系对,放入集合XL
b5:调用算法一,生成隐含关系集合TP,并将集合TP添加到集合XL中;
b6:合并集合XL中多余的直接因果关系对,形成最小的关系集合YL
b7:将集合YL中所有集合变为库所,并与开始和结束库所一同添加到库所集合PL中;
b8:根据库所集合和变迁集合,生成流关系集合FL
b9:根据已有的库所、变迁和流关系集合生成Petri网。
算法二中,步骤b1中TL检查出现在日志中的所有的活动,这些活动对应着最终生成的工作流网中的变迁。步骤b2中TI为所有的开始活动集合,即在轨迹中出现在第一个位置的所有活动的集合。步骤b3中TO为所有的结束活动集合,即在轨迹中出现在最后一个位置的所有活动的集合。步骤b4中XL为所有出现在日志中的因果关系集合。步骤b5为将所有的潜在因果关系添加到XL中,形成全部因果关系集合。步骤b6合并所有的多余关系。步骤b7生成所有库所集合PL。步骤b8生成所有的关系集合FL,即工作流网中的有向边集合。步骤b9生成工作流网。
本发明通过上述步骤可以处理含有更少日志的并发完备日志,从中挖掘得到较高精确度和较高简洁度的过程模型,并使得模型结构不再仅限于并发块状模型。
其中,上面提到的更少日志,是指日志中存在迹的数量更少。
下面结合一个具体实例对本发明方法作进一步详细说明:
日志L2={<a,b,c,d,e,f,g,h,i,j,k>,<a,e,h,g,f,i,c,d,b,j,k>,<a,x,c,d,e,f,g,h,i,j,k>,<a,e,h,g,f,i,c,d,x,j,k>},则日志L2的距离集如下所示:
DT(a,b)={1,8},DT(a,c)={2,6},DT(a,d)={3,7},DT(a,e)={1,4},DT(a,f)={4,5},DT(a,g)={3,6},DT(a,h)={2,7},DT(a,i)={5,8},DT(a,j)={9},DT(a,k)={10},DT(a,x)={1,8};
DT(b,c)={1},DT(b,d)={2},DT(b,e)={3},DT(b,f)={4},DT(b,g)={5},DT(b,h)={6},DT(b,i)={7},DT(b,j)={1,8},DT(b,k)={2,9};
DT(c,b)={2},DT(c,d)={1},DT(c,e)={2},DT(c,f)={3},DT(c,g)={4},DT(c,h)={5},DT(c,i)={6},DT(c,j)={3,7},DT(c,k)={4,8},DT(c,x)={2};
DT(d,b)={1},DT(d,e)={1},DT(d,f)={2},DT(d,g)={3},DT(d,h)={4},DT(d,i)={5},DT(d,j)={2,6},DT(d,k)={3,7},DT(d,x)={1};
DT(e,b)={7},DT(e,c)={5},DT(e,d)={6},DT(e,f)={1,3},DT(e,g)={2},DT(e,h)={1,3},DT(e,i)={4},DT(e,j)={5,8},DT(e,k)={6,9},DT(e,x)={7};
DT(f,b)={4},DT(f,c)={2},DT(f,d)={3},DT(f,g)={1},DT(f,h)={2},DT(f,i)={1,3},DT(f,j)={4,5},DT(f,k)={5,6},DT(f,x)={4};
DT(g,b)={5},DT(g,c)={3},DT(g,d)={4},DT(g,f)={1},DT(g,h)={1},DT(g,i)={2},DT(g,j)={3,6},DT(g,k)={4,7},DT(g,x)={5};
DT(h,b)={6},DT(h,c)={4},DT(h,d)={5},DT(h,f)={2},DT(h,g)={1},DT(h,i)={1,3},DT(h,j)={2,7},DT(h,k)={3,8},DT(h,x)={6};
DT(i,b)={3},DT(i,c)={1},DT(i,d)={2},DT(i,j)={1,4},DT(i,k)={2,5},DT(i,x)={3},DT(j,k)={1};
DT(x,c)={1},DT(x,d)={2},DT(x,e)={3},DT(x,f)={4},DT(x,g)={5},DT(x,h)={6},DT(x,i)={7},DT(x,j)={1,8},DT(x,k)={2,9}。
由日志L2的距离集,可得最小距离集,并用矩阵表示,如表1所示。
表1 L2最小距离集DTmin的矩阵表示
日志L2的基于距离的关系如下:
a→Db={(a,b),(c,d),(e,f),(h,i),(i,j),(j,k),(x,j),(e,h),(f,i),(a,e),(a,x),(b,j)};
a#Db={(b,b),(d,d),(f,f),(h,h),(j,j),(x,x),(b,x),(a,a),(c,c),(e,e),(g,g),(i,i),(k,k),(x,b)};
a||Db={(i,x),(e,x),(f,b),(f,c),(f,d),(b,c),(f,g),(b,d),(f,h),(b,e),(b,f),(b,g),(b,h),(b,i),(f,x),(g,b),(g,c),(g,d),(c,b),(g,f),(g,h),(c,e),(c,f),(c,g),(c,h),(c,i),(x,c),(x,d),(x,e),(x,f),(x,g),(x,h),(g,x),(x,i),(c,x),(h,b),(h,c),(h,d),(d,b),(h,f),(h,g),(d,e),(d,f),(d,g),(d,h),(d,i),(h,x),(d,x),(i,b),(i,c),(i,d),(e,b),(e,c),(e,d)}。
由此可得日志L2的足迹如表2所示。
表2 L2足迹FootprintL2
日志L2的潜在因果关系发现过程如下:
1)执行步骤a1,初始化ps={},fs={},nc={},nf={},TP={};
2)执行步骤a2,ps={a,b,c,e,f,h,i,j,k,l,x},fs={a,b,d,e,f,h,i,j,k,l,x};
3)执行步骤a3,nc={d,g},nf={c,g};
4)执行步骤a4,TP={(d,j),(g,i)}
5)执行步骤a5,TP={(a,c),(e,g),(d,j),(g,i)}
6)执行步骤a6,返回TP
将日志L2作为AlphaParallelUseDistance算法的输入日志,算法执行过程如下所示:
1)TL={a,b,c,d,e,f,g,h,i,j,k,l,x};
2)TI={a};
3)TO={l};
4)XL={(a,b),(c,d),(e,f),(h,i),(i,j),(j,k),(x,j),(e,h),(f,i),(a,e),(a,x),(b,j),(a,{b,x}),({b,x},j)};
5)XL=XL∪TP={(a,b),(c,d),(e,f),(h,i),(i,j),(j,k),(x,j),(e,h),(f,i),(a,e),(a,x),(b,j),(a,{b,x}),({b,x},j),(a,c),(e,g),(d,j),(g,i)};
6)YL={(c,d),(e,f),(h,i),(i,j),(j,k),(e,h),(f,i),(a,e),(a,{b,x}),({b,x},j),(a,c),(e,g),(d,j),(g,i)};
7)PL={p(c,d),p(e,f),p(h,i),p(i,j),p(j,k),p(e,h),p(f,i),p(a,e),p(a,{b,x}),p({b,x},j),p(a,c),p(e,g),p(d,j),p(g,i)}∪{Start,End};
8)FL={(Start,a),(c,p(c,d)),(p(c,d),d),(e,p(e,f)),(p(e,f),f),(h,p(h,i)),(p(h,i),i),(i,p(i,j)),(p(i,j),j),(j,p(j,k)),(p(j,k),k),(e,p(e,h)),(p(e,h),h),(f,p(f,i)),(p(f,i),i),(a,p(a,e)),(p(a,e),e),(a,p(a,{b,x})),(p(a,{b,x}),b),(p(a,{b,x}),x),(b,p({b,x},j)),(x,p({b,x},j)),(p({b,x},j),j),(a,p(a,c)),(p(a,c),c),(e,p(e,g)),(p(e,g),g),(d,p(d,j)),(p(d,j),j),(g,p(g,i)),(p(g,i),i),(l,End)};
9)α||D(L)=(PL,TL,FL)。
实验挖掘结果如图3所示。图3所示挖掘结果为正确Petri网,并且不存在无声变迁和多余库所,挖掘结果更为简洁。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (1)

1.基于距离的并发完备日志挖掘方法,其特征在于,包括如下步骤:
定义基于日志的次序关系
L表示事件日志,a,b∈L,为L中任意两个活动;
a>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1}使得σ∈L,tm=a并且tm+1=b;
a>>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1},k∈{m+2,…,n},使得σ∈L,tm=a并且tk=b,并且不存在a>Lb;
a→Lb当且仅当a>Lb并且不存在b>La也不存在b>>La;
当且仅当a>>Lb并且不存在b>La也不存在b>>La;
a#Lb当且仅当不存在a>Lb也不存在b>La也不存在a>>Lb也不存在b>>La;
a‖Lb当且仅当a>Lb∧b>La,或a>Lb∧b>>La,或a>>Lb∧b>La,或b>>La∧a>>Lb;
其中:
L表示在日志L中的直接跟随关系;
>>L表示在日志L中的间接跟随关系;
L表示在日志L中的直接因果关系;
表示在日志L中的间接因果关系;
#L表示在日志L中的无关系;
L表示在日志L中的并发关系;
∧表示并且;
定义基础因果关系→B WN
WN=(P,T;F,i,o)为工作流网,日志L为工作流网WN的完备日志;→B WN为工作流网WN的基础因果关系当且仅当→B WN=→L
定义因果完备日志Lc
当日志Lc满足以下条件时,Lc为工作流网WN的因果完备日志:
1)→B WN=→Lc
2)使得t∈σ;
其中,→Lc表示因果完备日志Lc中的直接因果关系;
定义基础并发关系‖B WN
B WN为工作流网WN的基础并发关系当且仅当‖B WN=‖L
定义并发完备日志Lp
Lp是工作流网WN的并发完备日志当且仅当满足如下条件:
1)
2)‖B WN=‖Lp
3)使得t∈σ;
定义距离
距离表示在当前迹σ中,任意前后两个活动之间位置的差值,且为正数,记为:
(q,p)=σ(p)-σ(q),σ(p)>σ(q),q、p∈Σ(σ);
其中,p、q表示活动;
σ(p)、σ(q)分别表示活动p和q在迹σ中的位置;
Σ(σ)表示σ中所有活动;
定义距离集DT(u,v)
距离集用正整数集合DT(u,v)表示,表示两个活动u和v在所有迹中存在的距离的大小;
其中,|DT(u,v)|表示正整数集合的大小;DT(u,v)min表示最小的距离,为一个非负整数,并且当|DT(u,v)|等于0时,DT(u,v)min为0,u,v∈Σ(σ);
定义基于距离的关系
对于日志L,DTmin为L的最小距离集,则基于距离的关系定义如下:
u→Dv当且仅当DT(u,v)min=1∧DT(v,u)min=0;
当且仅当DT(u,v)min>1∧DT(v,u)min=0;
u#Dv当且仅当DT(u,v)min=0∧DT(v,u)min=0;
u||Dv当且仅当DT(u,v)min>0∧DT(v,u)min>0;
其中:
D表示基于距离的直接因果关系;
表示基于距离的间接因果关系;
#D表示基于距离的无关系;
||D表示基于距离的并发关系;
并将所有关系中,前面的活动称为前继,后面的活动称为后继;
所有的关系集合,分别构成相应的关系集合;
利用AlphaParallelUseDistance算法,通过距离的定义,构建新的潜在因果关系发现算法,具体过程如算法一所示:
算法一的输入为最小距离集DTmin和直接因果关系集合,输出为潜在因果关系集合Tp
算法一:
a1:初始化所有集合ps,fs,nc,nf,Tp为空值,即:
初始化ps={},fs={},nc={},nf={},Tp={};
其中,ps表示在直接因果关系集合中,所有的前继活动集合,fs表示在直接因果关系集合中,所有的后继活动集合,nc表示ps中不包含的活动,nf表示fs中不包含的活动;
a2:循环遍历所有的直接因果关系集合,直至最后一个,并将直接因果关系集合中所有的前后活动,分别放入集合ps和集合fs中;
a3:循环遍历所有的活动,从第一个至最后一个活动:
如果当前活动,没出现在集合ps中,则将当前活动,添加到集合nc中;
如果当前活动,没出现在集合fs中,则将当前活动,添加到集合nf中;
a4:遍历集合nc中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s1:在s1所有间接因果关系的后继中,寻找s1到其距离最近的活动e1,然后形成新的集合(s1,e1),并添加到集合Tp中;
a5:遍历集合nf中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s2:在s2所有间接因果关系的前继中,发现到s2距离最近的活动e2,然后形成新的集合(e2,s2),并添加到集合Tp中;
a6:返回潜在因果关系集合Tp
AlphaParallelUseDistance算法的定义如算法二所示:
其中,算法二的输入为并发完备日志Lp,输出为Petri网;
算法二:
b1:将并发完备日志Lp中所有活动添加到集合TL中,生成变迁集合;
b2:将并发完备日志Lp中每条迹的第一个活动,添加到集合TI中,作为开始变迁集合;
b3:将并发完备日志Lp中每条迹的最后一个活动添加到集合TO中,作为结束变迁集合;
b4:将已有的所有直接因果关系对,放入集合XL
b5:调用算法一,生成隐含关系集合TP,并将集合TP添加到集合XL中;
b6:合并集合XL中多余的直接因果关系对,形成最小的关系集合YL
b7:将集合YL中所有集合变为库所,并与开始和结束库所一同添加到库所集合PL中;
b8:根据库所集合和变迁集合,生成流关系集合FL
b9:根据已有的库所、变迁和流关系集合生成Petri网。
CN201810115180.6A 2018-02-06 2018-02-06 基于距离的并发完备日志挖掘方法 Expired - Fee Related CN108416365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810115180.6A CN108416365B (zh) 2018-02-06 2018-02-06 基于距离的并发完备日志挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810115180.6A CN108416365B (zh) 2018-02-06 2018-02-06 基于距离的并发完备日志挖掘方法

Publications (2)

Publication Number Publication Date
CN108416365A true CN108416365A (zh) 2018-08-17
CN108416365B CN108416365B (zh) 2020-04-10

Family

ID=63127910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810115180.6A Expired - Fee Related CN108416365B (zh) 2018-02-06 2018-02-06 基于距离的并发完备日志挖掘方法

Country Status (1)

Country Link
CN (1) CN108416365B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084517A (zh) * 2019-04-28 2019-08-02 西安理工大学 一种面向教育数据日志的工作流方法
CN113704215A (zh) * 2021-08-10 2021-11-26 山东理工大学 业务过程事件日志采样方法、系统、存储介质及计算设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332125A (zh) * 2011-11-08 2012-01-25 南京大学 基于后继任务的工作流挖掘方法
US20160092516A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Metric time series correlation by outlier removal based on maximum concentration interval

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332125A (zh) * 2011-11-08 2012-01-25 南京大学 基于后继任务的工作流挖掘方法
US20160092516A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Metric time series correlation by outlier removal based on maximum concentration interval

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高立哲等: "医疗急诊流程挖掘与模型改进", 《中国科技论文》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084517A (zh) * 2019-04-28 2019-08-02 西安理工大学 一种面向教育数据日志的工作流方法
CN110084517B (zh) * 2019-04-28 2024-01-30 北京第一因科技有限公司 一种面向教育数据日志的工作流方法
CN113704215A (zh) * 2021-08-10 2021-11-26 山东理工大学 业务过程事件日志采样方法、系统、存储介质及计算设备
CN113704215B (zh) * 2021-08-10 2023-10-13 北京杰成合力科技有限公司 业务过程事件日志采样方法、系统、存储介质及计算设备

Also Published As

Publication number Publication date
CN108416365B (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
Dijkman et al. Aligning business process models
CN112182424B (zh) 一种基于异构信息和同构信息网络融合的社交推荐方法
CN111340493B (zh) 一种多维度分布式异常交易行为检测方法
CN111488582A (zh) 一种基于图神经网络的智能合约重入性漏洞检测的方法
CN111651300B (zh) 一种区块链数据恢复方法、装置、设备及介质
CN109118155B (zh) 一种生成操作模型的方法及装置
CN114501458B (zh) 基于扩展有限状态机的wia-pa协议模糊测试数据生成方法
US9661084B2 (en) Method and system for sampling online communication networks
CN104090952B (zh) 一种估算滑动窗口下的数据流平均值的方法与系统
CN108416365A (zh) 基于距离的并发完备日志挖掘方法
De Meyer et al. On the transitivity of the comonotonic and countermonotonic comparison of random variables
CN108491628A (zh) 产品设计需求驱动的三维cad装配模型聚类及检索方法
Sørensen On sequential maximum likelihood estimation for exponential families of stochastic processes
AU2020323807B2 (en) Ledger verifiable-pruning system
CN1494278A (zh) 一种数据流分类方法
CN104699761A (zh) 一种最小函数依赖的增量计算方法
CN116842191A (zh) 一种面向工艺知识的知识图谱构建方法
CN115587111A (zh) 用于数据库查询优化的基数估计方法及装置
CN104951531A (zh) 基于图简化技术的社交网络中用户影响力估算方法及装置
CN112380267B (zh) 一种基于隐私图的社区发现方法
Nikityuk et al. Optimization of the process of selecting of the IoT-platform for the specific technical solution IoT-sphere
CN113626657A (zh) 一种多值属性图结构发现密集连接的子网络的方法
Nogoorani et al. Uncertainty in probabilistic trust models
CN112347441A (zh) 一种基于可信行为序列的电力终端身份认证方法及其系统
Martins et al. Multi-layer local optima networks for the analysis of advanced local search-based algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200410

Termination date: 20220206

CF01 Termination of patent right due to non-payment of annual fee