CN108416365A - 基于距离的并发完备日志挖掘方法 - Google Patents
基于距离的并发完备日志挖掘方法 Download PDFInfo
- Publication number
- CN108416365A CN108416365A CN201810115180.6A CN201810115180A CN108416365A CN 108416365 A CN108416365 A CN 108416365A CN 201810115180 A CN201810115180 A CN 201810115180A CN 108416365 A CN108416365 A CN 108416365A
- Authority
- CN
- China
- Prior art keywords
- distance
- daily record
- activity
- algorithm
- causality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于距离的并发完备日志挖掘方法,该方法在实现过程中应用到了两个算法,算法一为潜在因果关系发现算法,该算法一通过距离的定义,构建新的隐含关系发现算法,以解决含有选择的过程模型;算法二为AlphaParallelUseDistance算法,能处理带有选择结构的块状模型。本发明通过上述步骤可以处理含有更少日志的并发完备日志,从中挖掘得到较高精确度和较高简洁度的过程模型,并使得模型结构不再仅限于并发块状模型。相对于IM算法的挖掘结果,本发明结果准确度更高,并且更加简洁;相对于α||算法,本发明可以处理其所不能挖掘的日志,得到其不能得到的正确结果,并且适应范围更加广。
Description
技术领域
本发明属于过程挖掘技术领域,特别涉及一种基于距离的并发完备日志挖掘方法。
背景技术
在过程挖掘中,完备性概念很重要,它代表着日志中含有数据过少这一问题。完备性假设所有可能直接跟随彼此的活动,在日志中的一些迹中直接相互跟随。这导致传统的基于跟随关系的局部完备日志,需要在日志中存在大量的迹。
挖掘不完备日志时,由于日志中迹的数量过少,导致活动间隐含的关系不能被表示,从而导致挖掘结果的不正确。本发明挖掘含有更少迹的日志。这些迹可能不完整,但是足够有效。利用这些迹发现潜在的关系,然后根据适当的算法,得到具有代表性的模型。
通过距离,可以从不完备的日志中获得完备的并发关系,即日志中的并发关系和模型中的并发关系相符。发现潜在的因果跟随关系,然后得到相应的过程模型。
对不完备日志挖掘,主要有两种方法:
一种是归纳挖掘算法,即IM算法,一种是针对块状并发结构的α||算法。其中:
归纳挖掘算法处理不完备日志,将其看为一个优化问题。将活动间的关系进行统计,并搜索这些关系的概率估计与设定阈值进行比较,然后确定活动间关系。
该算法由于存在统计活动间的关系,使得需要大量的日志进行统计分析,日志规模较大。并且由于根据概率估计与设定阈值进行比较,然后确定活动间关系,使得模型的准确度降低,最后,在模型表示时,由于存在无声变迁使得,模型的简洁度降级,存在大量无用结构。
针对块状并发结构的α||算法,可以挖掘因果完备日志。该算法可以挖掘因果完备日志,但并不能解决因果不完备日志,例如并发完备日志。算法的适应范围较小。
发明内容
本发明的目的在于提出一种基于距离的并发完备日志挖掘方法,该方法可以处理含有更少日志的并发完备日志,从中挖掘得到较高精确度和较高简洁度的过程模型。
本发明为了实现上述目的,采用如下技术方案:
基于距离的并发完备日志挖掘方法,包括如下步骤:
定义基于日志的次序关系
L表示事件日志,a,b∈L,为L中任意两个活动;
a>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1}使得σ∈L,tm=a并且tm+1=b;
a>>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1},k∈{m+2,…,n},使得σ∈L,tm=a并且tk=b,并且不存在a>Lb;
a→Lb当且仅当a>Lb并且不存在b>La也不存在b>>La;
当且仅当a>>Lb并且不存在b>La也不存在b>>La;
a#Lb当且仅当不存在a>Lb也不存在b>La也不存在a>>Lb也不存在b>>La;
a‖Lb当且仅当a>Lb∧b>La,或a>Lb∧b>>La,或a>>Lb∧b>La,或b>>La∧a>>Lb;
其中:
>L表示在日志L中的直接跟随关系;
>>L表示在日志L中的间接跟随关系;
→L表示在日志L中的直接因果关系;
表示在日志L中的间接因果关系;
#L表示在日志L中的无关系;
‖L表示在日志L中的并发关系;
∧表示并且;
定义基础因果关系→B WN
WN=(P,T;F,i,o)为工作流网,日志L为工作流网WN的完备日志;→B WN为工作流网WN的基础因果关系当且仅当→B WN=→L;
定义因果完备日志Lc
当日志Lc满足以下条件时,Lc为工作流网WN的因果完备日志:
1)→B WN=→Lc;
2)使得t∈σ;
其中,→Lc表示因果完备日志Lc中的直接因果关系;
定义基础并发关系‖B WN
‖B WN为工作流网WN的基础并发关系当且仅当‖B WN=‖L;
定义并发完备日志Lp
Lp是工作流网WN的并发完备日志当且仅当满足如下条件:
2)‖B WN=‖Lp;
3)使得t∈σ;
定义距离
距离表示在当前迹σ中,任意前后两个活动之间位置的差值,且为正数,记为:
(q,p)=σ(p)-σ(q),σ(p)>σ(q),q、p∈Σ(σ);
其中,p、q表示活动;
σ(p)、σ(q)分别表示活动p和q在迹σ中的位置;
Σ(σ)表示σ中所有活动;
定义距离集DT(u,v)
距离集用正整数集合DT(u,v)表示,表示两个活动u和v在所有迹中存在的距离的大小;
其中,|DT(u,v)|表示正整数集合的大小;DT(u,v)min表示最小的距离,为一个非负整数,并且当|DT(u,v)|等于0时,DT(u,v)min为0,u,v∈Σ(σ);
定义基于距离的关系
对于日志L,DTmin为L的最小距离集,则基于距离的关系定义如下:
u→Dv当且仅当DT(u,v)min=1∧DT(v,u)min=0;
当且仅当DT(u,v)min>1∧DT(v,u)min=0;
u#Dv当且仅当DT(u,v)min=0∧DT(v,u)min=0;
u||Dv当且仅当DT(u,v)min>0∧DT(v,u)min>0;
其中:
→D表示基于距离的直接因果关系;
表示基于距离的间接因果关系;
#D表示基于距离的无关系;
||D表示基于距离的并发关系;
并将所有关系中,前面的活动称为前继,后面的活动称为后继;
所有的关系集合,分别构成相应的关系集合;
利用AlphaParallelUseDistance算法,通过距离的定义,构建新的潜在因果关系发现算法,具体过程如算法一所示:
算法一的输入为最小距离集DTmin和直接因果关系集合DF,输出为潜在因果关系集合Tp;
算法一:
a1:初始化所有集合ps,fs,nc,nf,Tp为空值,即:
初始化ps={},fs={},nc={},nf={},Tp={};
其中,ps表示在直接因果关系集合中,所有的前继活动集合,fs表示在直接因果关系集合中,所有的后继活动集合,nc表示ps中不包含的活动,nf表示fs中不包含的活动;
a2:循环遍历所有的直接因果关系集合DF,直至最后一个,并将直接因果关系集合DF中所有的前后活动,分别放入集合ps和集合fs中;
a3:循环遍历所有的活动,从第一个至最后一个活动:
如果当前活动,没出现在集合ps中,则将当前活动,添加到集合nc中;
如果当前活动,没出现在集合fs中,则将当前活动,添加到集合nf中;
a4:遍历集合nc中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s1:在s1所有间接因果关系的后继中,寻找s1到其距离最近的活动e1,然后形成新的集合(s1,e1),并添加到集合Tp中;
a5:遍历集合nf中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s2:在s2所有间接因果关系的前继中,发现到s2距离最近的活动e2,然后形成新的集合(e2,s2),并添加到集合Tp中;
a6:返回潜在因果关系集合Tp;
AlphaParallelUseDistance算法的定义如算法二所示:
其中,算法二的输入为并发完备日志Lp,输出为Petri网;
算法二:
b1:将并发完备日志Lp中所有活动添加到集合TL中,生成变迁集合;
b2:将并发完备日志Lp中每条迹的第一个活动,添加到集合TI中,作为开始变迁集合;
b3:将并发完备日志Lp中每条迹的最后一个活动添加到集合TO中,作为结束变迁集合;
b4:将已有的所有直接因果关系对,放入集合XL;
b5:调用算法一,生成隐含关系集合TP,并将集合TP添加到集合XL中;
b6:合并集合XL中多余的直接因果关系对,形成最小的关系集合YL;
b7:将集合YL中所有集合变为库所,并与开始和结束库所一同添加到库所集合PL中;
b8:根据库所集合和变迁集合,生成流关系集合FL;
b9:根据已有的库所、变迁和流关系集合生成Petri网。
本发明具有如下优点:
本发明相对于IM算法的挖掘结果,结果准确度更高,并且更加简洁;相对于α||算法,可以处理其所不能挖掘的日志,可以得到其不能得到的正确结果,并且适应范围更加广。
附图说明
图1为本发明中潜在因果关系发现算法流程示意图;
图2为本发明中AlphaParallelUseDistance算法的流程示意图;
图3为本发明中AlphaParallelUseDistance算法对于日志L2的挖掘结果示意图;
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
基于距离的并发完备日志挖掘方法,包括如下步骤:
定义基于日志的次序关系
L表示事件日志,a,b∈L,为L中任意两个活动;
a>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1}使得σ∈L,tm=a并且tm+1=b;
a>>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1},k∈{m+2,…,n},使得σ∈L,tm=a并且tk=b,并且不存在a>Lb;
a→Lb当且仅当a>Lb并且不存在b>La也不存在b>>La;
当且仅当a>>Lb并且不存在b>La也不存在b>>La;
a#Lb当且仅当不存在a>Lb也不存在b>La也不存在a>>Lb也不存在b>>La;
a‖Lb当且仅当a>Lb∧b>La,或a>Lb∧b>>La,或a>>Lb∧b>La,或b>>La∧a>>Lb;
其中:
>L表示在日志L中的直接跟随关系;
>>L表示在日志L中的间接跟随关系;
→L表示在日志L中的直接因果关系;
表示在日志L中的间接因果关系;
#L表示在日志L中的无关系;
‖L表示在日志L中的并发关系;
∧表示并且。
完备日志,是活动完备和关系完备的日志。本发明中不完备日志,指关系不完备日志。
日志L为工作流网WN=(P,T;F,i,o)的完备日志,则称日志L中的因果跟随关系为工作流网WN的基础因果关系。
定义基础因果关系→B WN
WN=(P,T;F,i,o)为工作流网,日志L为工作流网WN的完备日志;→B WN为工作流网WN的基础因果关系当且仅当→B WN=→L。
因果完备日志,是指满足基础因果关系的日志。
定义因果完备日志Lc
当日志Lc满足以下条件时,Lc为工作流网WN的因果完备日志:
1)→B WN=→Lc;
2)使得t∈σ;
其中,→Lc表示因果完备日志Lc中的直接因果关系。
日志L为工作流网WN的完备日志,则称L中的并发关系为网N的基础并发关系。
定义基础并发关系‖B WN
‖B WN为工作流网WN的基础并发关系当且仅当‖B WN=‖L。
并发完备日志,是指日志中含有基础并发关系,同时含有不完备的基础因果关系。
定义并发完备日志Lp
Lp是工作流网WN的并发完备日志当且仅当满足如下条件:
2)‖B WN=‖Lp;
3)使得t∈σ。
在并发完备日志中,存在潜在的因果跟随关系,使得不能发现活动间所有的因果跟随关系。为了解决上述问题,针对并发完备日志,本发明利用层次树的相关属性,发现活动间潜在的因果跟随关系。
定义距离
距离表示在当前迹σ中,任意前后两个活动之间位置的差值,且为正数,记为:
(q,p)=σ(p)-σ(q),σ(p)>σ(q),q、p∈Σ(σ);
其中,p、q表示活动,σ(p)、σ(q)分别表示活动p和q在迹σ中的位置,Σ(σ)表示σ中所有活动;
任意两个活动之间的距离可能不唯一,因此定义距离集表示,两个活动之间所有的距离大小。
定义距离集DT(u,v)
距离集用正整数集合DT(u,v)表示,表示两个活动u和v在所有迹中存在的距离的大小。
其中,|DT(u,v)|表示正整数集合的大小。DT(u,v)min表示最小的距离,为一个非负整数,并且当|DT(u,v)|等于0时,DT(u,v)min为0,u,v∈Σ(σ)。
定义基于距离的关系
对于日志L,DTmin为L的最小距离集,则基于距离的关系定义如下:
u→Dv当且仅当DT(u,v)min=1∧DT(v,u)min=0;
当且仅当DT(u,v)min>1∧DT(v,u)min=0;
u#Dv当且仅当DT(u,v)min=0∧DT(v,u)min=0;
u||Dv当且仅当DT(u,v)min>0∧DT(v,u)min>0;
其中:
→D表示基于距离的直接因果关系;
表示基于距离的间接因果关系;
#D表示基于距离的无关系;
||D表示基于距离的并发关系;
并将所有关系中,前面的活动称为前继,后面的活动称为后继。所有的关系集合,分别构成相应的关系集合,例如,直接因果关系集合DF,由所有的→D关系组成。
基于距离的关系,根据两个活动之间最小的距离定义。因果关系只有当两个活动之间的最小距离为1,并且为单向距离时才成立;间接因果关系仅存在单向距离,并且距离大于1;选择关系当两个活动间不存在距离时;并发关系必须存在双向距离。
如图1所示,本发明实施例提出AlphaParallelUseDistance算法,通过距离的定义,构建新的隐含关系发现算法,以解决含有选择的过程模型。具体的,算法一的过程如下:
算法一:
输入:最小距离集DTmin和直接因果关系集合DF;
输出:潜在因果关系集合Tp;
a1:初始化所有集合ps,fs,nc,nf,Tp为空值;
初始化ps={},fs={},nc={},nf={},Tp={};
其中,ps表示在直接因果关系集合中,所有的前继活动集合,fs表示在直接因果关系集合中,所有的后继活动集合,nc表示ps中不包含的活动,nf表示fs中不包含的活动。
a2:循环遍历所有的直接因果关系集合DF,直至最后一个,并将直接因果关系集合DF中所有的前后活动,分别放入集合ps和集合fs中;
a3:循环遍历所有的活动,从第一个至最后一个活动:
如果当前活动,没出现在集合ps中,则将当前活动,添加到集合nc中;
如果当前活动,没出现在集合fs中,则将当前活动,添加到集合nf中;
a4:遍历集合nc中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s1:在s1所有间接因果关系的后继中,寻找s1到其距离最近的活动e1,然后形成新的集合(s1,e1),并添加到集合Tp中;
a5:遍历集合nf中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s2:在s2所有间接因果关系的前继中,发现到s2距离最近的活动e2,然后形成新的集合(e2,s2),并添加到集合Tp中;
a6:返回潜在因果关系集合Tp;
算法一中,步骤a1为初始化所有集合,将集合初始为空值;步骤a2将因果关系集合中所有的前后活动,分别放入ps和fs中;步骤a3分别生成没有前置库所和后置库所的库所集合,并分别放入nf和nc集合中;步骤a4和步骤a5发现隐含因果关系,通过寻找间接因果关系中距离最近的活动,形成新的因果关系;步骤a6返回新的因果跟随关系TP。
如图2所示,AlphaParallelUseDistance算法,能处理带有选择结构的块状模型,AlphaPa rallelUseDistance算法的定义如算法二所示,算法二的输入为并发完备日志,输出为Petri网。
算法二:
输入:并发完备日志Lp;
输出:Petri网;
b1:将并发完备日志Lp中所有活动添加到集合TL中,生成变迁集合;
b2:将并发完备日志Lp中每条迹的第一个活动,添加到集合TI中,作为开始变迁集合;
b3:将并发完备日志Lp中每条迹的最后一个活动添加到集合TO中,作为结束变迁集合;
b4:将已有的所有直接因果关系对,放入集合XL;
b5:调用算法一,生成隐含关系集合TP,并将集合TP添加到集合XL中;
b6:合并集合XL中多余的直接因果关系对,形成最小的关系集合YL;
b7:将集合YL中所有集合变为库所,并与开始和结束库所一同添加到库所集合PL中;
b8:根据库所集合和变迁集合,生成流关系集合FL;
b9:根据已有的库所、变迁和流关系集合生成Petri网。
算法二中,步骤b1中TL检查出现在日志中的所有的活动,这些活动对应着最终生成的工作流网中的变迁。步骤b2中TI为所有的开始活动集合,即在轨迹中出现在第一个位置的所有活动的集合。步骤b3中TO为所有的结束活动集合,即在轨迹中出现在最后一个位置的所有活动的集合。步骤b4中XL为所有出现在日志中的因果关系集合。步骤b5为将所有的潜在因果关系添加到XL中,形成全部因果关系集合。步骤b6合并所有的多余关系。步骤b7生成所有库所集合PL。步骤b8生成所有的关系集合FL,即工作流网中的有向边集合。步骤b9生成工作流网。
本发明通过上述步骤可以处理含有更少日志的并发完备日志,从中挖掘得到较高精确度和较高简洁度的过程模型,并使得模型结构不再仅限于并发块状模型。
其中,上面提到的更少日志,是指日志中存在迹的数量更少。
下面结合一个具体实例对本发明方法作进一步详细说明:
日志L2={<a,b,c,d,e,f,g,h,i,j,k>,<a,e,h,g,f,i,c,d,b,j,k>,<a,x,c,d,e,f,g,h,i,j,k>,<a,e,h,g,f,i,c,d,x,j,k>},则日志L2的距离集如下所示:
DT(a,b)={1,8},DT(a,c)={2,6},DT(a,d)={3,7},DT(a,e)={1,4},DT(a,f)={4,5},DT(a,g)={3,6},DT(a,h)={2,7},DT(a,i)={5,8},DT(a,j)={9},DT(a,k)={10},DT(a,x)={1,8};
DT(b,c)={1},DT(b,d)={2},DT(b,e)={3},DT(b,f)={4},DT(b,g)={5},DT(b,h)={6},DT(b,i)={7},DT(b,j)={1,8},DT(b,k)={2,9};
DT(c,b)={2},DT(c,d)={1},DT(c,e)={2},DT(c,f)={3},DT(c,g)={4},DT(c,h)={5},DT(c,i)={6},DT(c,j)={3,7},DT(c,k)={4,8},DT(c,x)={2};
DT(d,b)={1},DT(d,e)={1},DT(d,f)={2},DT(d,g)={3},DT(d,h)={4},DT(d,i)={5},DT(d,j)={2,6},DT(d,k)={3,7},DT(d,x)={1};
DT(e,b)={7},DT(e,c)={5},DT(e,d)={6},DT(e,f)={1,3},DT(e,g)={2},DT(e,h)={1,3},DT(e,i)={4},DT(e,j)={5,8},DT(e,k)={6,9},DT(e,x)={7};
DT(f,b)={4},DT(f,c)={2},DT(f,d)={3},DT(f,g)={1},DT(f,h)={2},DT(f,i)={1,3},DT(f,j)={4,5},DT(f,k)={5,6},DT(f,x)={4};
DT(g,b)={5},DT(g,c)={3},DT(g,d)={4},DT(g,f)={1},DT(g,h)={1},DT(g,i)={2},DT(g,j)={3,6},DT(g,k)={4,7},DT(g,x)={5};
DT(h,b)={6},DT(h,c)={4},DT(h,d)={5},DT(h,f)={2},DT(h,g)={1},DT(h,i)={1,3},DT(h,j)={2,7},DT(h,k)={3,8},DT(h,x)={6};
DT(i,b)={3},DT(i,c)={1},DT(i,d)={2},DT(i,j)={1,4},DT(i,k)={2,5},DT(i,x)={3},DT(j,k)={1};
DT(x,c)={1},DT(x,d)={2},DT(x,e)={3},DT(x,f)={4},DT(x,g)={5},DT(x,h)={6},DT(x,i)={7},DT(x,j)={1,8},DT(x,k)={2,9}。
由日志L2的距离集,可得最小距离集,并用矩阵表示,如表1所示。
表1 L2最小距离集DTmin的矩阵表示
日志L2的基于距离的关系如下:
a→Db={(a,b),(c,d),(e,f),(h,i),(i,j),(j,k),(x,j),(e,h),(f,i),(a,e),(a,x),(b,j)};
a#Db={(b,b),(d,d),(f,f),(h,h),(j,j),(x,x),(b,x),(a,a),(c,c),(e,e),(g,g),(i,i),(k,k),(x,b)};
a||Db={(i,x),(e,x),(f,b),(f,c),(f,d),(b,c),(f,g),(b,d),(f,h),(b,e),(b,f),(b,g),(b,h),(b,i),(f,x),(g,b),(g,c),(g,d),(c,b),(g,f),(g,h),(c,e),(c,f),(c,g),(c,h),(c,i),(x,c),(x,d),(x,e),(x,f),(x,g),(x,h),(g,x),(x,i),(c,x),(h,b),(h,c),(h,d),(d,b),(h,f),(h,g),(d,e),(d,f),(d,g),(d,h),(d,i),(h,x),(d,x),(i,b),(i,c),(i,d),(e,b),(e,c),(e,d)}。
由此可得日志L2的足迹如表2所示。
表2 L2足迹FootprintL2
日志L2的潜在因果关系发现过程如下:
1)执行步骤a1,初始化ps={},fs={},nc={},nf={},TP={};
2)执行步骤a2,ps={a,b,c,e,f,h,i,j,k,l,x},fs={a,b,d,e,f,h,i,j,k,l,x};
3)执行步骤a3,nc={d,g},nf={c,g};
4)执行步骤a4,TP={(d,j),(g,i)}
5)执行步骤a5,TP={(a,c),(e,g),(d,j),(g,i)}
6)执行步骤a6,返回TP。
将日志L2作为AlphaParallelUseDistance算法的输入日志,算法执行过程如下所示:
1)TL={a,b,c,d,e,f,g,h,i,j,k,l,x};
2)TI={a};
3)TO={l};
4)XL={(a,b),(c,d),(e,f),(h,i),(i,j),(j,k),(x,j),(e,h),(f,i),(a,e),(a,x),(b,j),(a,{b,x}),({b,x},j)};
5)XL=XL∪TP={(a,b),(c,d),(e,f),(h,i),(i,j),(j,k),(x,j),(e,h),(f,i),(a,e),(a,x),(b,j),(a,{b,x}),({b,x},j),(a,c),(e,g),(d,j),(g,i)};
6)YL={(c,d),(e,f),(h,i),(i,j),(j,k),(e,h),(f,i),(a,e),(a,{b,x}),({b,x},j),(a,c),(e,g),(d,j),(g,i)};
7)PL={p(c,d),p(e,f),p(h,i),p(i,j),p(j,k),p(e,h),p(f,i),p(a,e),p(a,{b,x}),p({b,x},j),p(a,c),p(e,g),p(d,j),p(g,i)}∪{Start,End};
8)FL={(Start,a),(c,p(c,d)),(p(c,d),d),(e,p(e,f)),(p(e,f),f),(h,p(h,i)),(p(h,i),i),(i,p(i,j)),(p(i,j),j),(j,p(j,k)),(p(j,k),k),(e,p(e,h)),(p(e,h),h),(f,p(f,i)),(p(f,i),i),(a,p(a,e)),(p(a,e),e),(a,p(a,{b,x})),(p(a,{b,x}),b),(p(a,{b,x}),x),(b,p({b,x},j)),(x,p({b,x},j)),(p({b,x},j),j),(a,p(a,c)),(p(a,c),c),(e,p(e,g)),(p(e,g),g),(d,p(d,j)),(p(d,j),j),(g,p(g,i)),(p(g,i),i),(l,End)};
9)α||D(L)=(PL,TL,FL)。
实验挖掘结果如图3所示。图3所示挖掘结果为正确Petri网,并且不存在无声变迁和多余库所,挖掘结果更为简洁。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (1)
1.基于距离的并发完备日志挖掘方法,其特征在于,包括如下步骤:
定义基于日志的次序关系
L表示事件日志,a,b∈L,为L中任意两个活动;
a>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1}使得σ∈L,tm=a并且tm+1=b;
a>>Lb当且仅当迹σ=<t1,t2,…,tn>,m∈{1,2,…,n-1},k∈{m+2,…,n},使得σ∈L,tm=a并且tk=b,并且不存在a>Lb;
a→Lb当且仅当a>Lb并且不存在b>La也不存在b>>La;
当且仅当a>>Lb并且不存在b>La也不存在b>>La;
a#Lb当且仅当不存在a>Lb也不存在b>La也不存在a>>Lb也不存在b>>La;
a‖Lb当且仅当a>Lb∧b>La,或a>Lb∧b>>La,或a>>Lb∧b>La,或b>>La∧a>>Lb;
其中:
>L表示在日志L中的直接跟随关系;
>>L表示在日志L中的间接跟随关系;
→L表示在日志L中的直接因果关系;
表示在日志L中的间接因果关系;
#L表示在日志L中的无关系;
‖L表示在日志L中的并发关系;
∧表示并且;
定义基础因果关系→B WN
WN=(P,T;F,i,o)为工作流网,日志L为工作流网WN的完备日志;→B WN为工作流网WN的基础因果关系当且仅当→B WN=→L;
定义因果完备日志Lc
当日志Lc满足以下条件时,Lc为工作流网WN的因果完备日志:
1)→B WN=→Lc;
2)使得t∈σ;
其中,→Lc表示因果完备日志Lc中的直接因果关系;
定义基础并发关系‖B WN
‖B WN为工作流网WN的基础并发关系当且仅当‖B WN=‖L;
定义并发完备日志Lp
Lp是工作流网WN的并发完备日志当且仅当满足如下条件:
1)
2)‖B WN=‖Lp;
3)使得t∈σ;
定义距离
距离表示在当前迹σ中,任意前后两个活动之间位置的差值,且为正数,记为:
(q,p)=σ(p)-σ(q),σ(p)>σ(q),q、p∈Σ(σ);
其中,p、q表示活动;
σ(p)、σ(q)分别表示活动p和q在迹σ中的位置;
Σ(σ)表示σ中所有活动;
定义距离集DT(u,v)
距离集用正整数集合DT(u,v)表示,表示两个活动u和v在所有迹中存在的距离的大小;
其中,|DT(u,v)|表示正整数集合的大小;DT(u,v)min表示最小的距离,为一个非负整数,并且当|DT(u,v)|等于0时,DT(u,v)min为0,u,v∈Σ(σ);
定义基于距离的关系
对于日志L,DTmin为L的最小距离集,则基于距离的关系定义如下:
u→Dv当且仅当DT(u,v)min=1∧DT(v,u)min=0;
当且仅当DT(u,v)min>1∧DT(v,u)min=0;
u#Dv当且仅当DT(u,v)min=0∧DT(v,u)min=0;
u||Dv当且仅当DT(u,v)min>0∧DT(v,u)min>0;
其中:
→D表示基于距离的直接因果关系;
表示基于距离的间接因果关系;
#D表示基于距离的无关系;
||D表示基于距离的并发关系;
并将所有关系中,前面的活动称为前继,后面的活动称为后继;
所有的关系集合,分别构成相应的关系集合;
利用AlphaParallelUseDistance算法,通过距离的定义,构建新的潜在因果关系发现算法,具体过程如算法一所示:
算法一的输入为最小距离集DTmin和直接因果关系集合,输出为潜在因果关系集合Tp;
算法一:
a1:初始化所有集合ps,fs,nc,nf,Tp为空值,即:
初始化ps={},fs={},nc={},nf={},Tp={};
其中,ps表示在直接因果关系集合中,所有的前继活动集合,fs表示在直接因果关系集合中,所有的后继活动集合,nc表示ps中不包含的活动,nf表示fs中不包含的活动;
a2:循环遍历所有的直接因果关系集合,直至最后一个,并将直接因果关系集合中所有的前后活动,分别放入集合ps和集合fs中;
a3:循环遍历所有的活动,从第一个至最后一个活动:
如果当前活动,没出现在集合ps中,则将当前活动,添加到集合nc中;
如果当前活动,没出现在集合fs中,则将当前活动,添加到集合nf中;
a4:遍历集合nc中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s1:在s1所有间接因果关系的后继中,寻找s1到其距离最近的活动e1,然后形成新的集合(s1,e1),并添加到集合Tp中;
a5:遍历集合nf中所有的活动,从第一个至最后一个:
在每次循环中,对于集合nc中的当前活动s2:在s2所有间接因果关系的前继中,发现到s2距离最近的活动e2,然后形成新的集合(e2,s2),并添加到集合Tp中;
a6:返回潜在因果关系集合Tp;
AlphaParallelUseDistance算法的定义如算法二所示:
其中,算法二的输入为并发完备日志Lp,输出为Petri网;
算法二:
b1:将并发完备日志Lp中所有活动添加到集合TL中,生成变迁集合;
b2:将并发完备日志Lp中每条迹的第一个活动,添加到集合TI中,作为开始变迁集合;
b3:将并发完备日志Lp中每条迹的最后一个活动添加到集合TO中,作为结束变迁集合;
b4:将已有的所有直接因果关系对,放入集合XL;
b5:调用算法一,生成隐含关系集合TP,并将集合TP添加到集合XL中;
b6:合并集合XL中多余的直接因果关系对,形成最小的关系集合YL;
b7:将集合YL中所有集合变为库所,并与开始和结束库所一同添加到库所集合PL中;
b8:根据库所集合和变迁集合,生成流关系集合FL;
b9:根据已有的库所、变迁和流关系集合生成Petri网。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810115180.6A CN108416365B (zh) | 2018-02-06 | 2018-02-06 | 基于距离的并发完备日志挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810115180.6A CN108416365B (zh) | 2018-02-06 | 2018-02-06 | 基于距离的并发完备日志挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416365A true CN108416365A (zh) | 2018-08-17 |
CN108416365B CN108416365B (zh) | 2020-04-10 |
Family
ID=63127910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810115180.6A Expired - Fee Related CN108416365B (zh) | 2018-02-06 | 2018-02-06 | 基于距离的并发完备日志挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416365B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084517A (zh) * | 2019-04-28 | 2019-08-02 | 西安理工大学 | 一种面向教育数据日志的工作流方法 |
CN113704215A (zh) * | 2021-08-10 | 2021-11-26 | 山东理工大学 | 业务过程事件日志采样方法、系统、存储介质及计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332125A (zh) * | 2011-11-08 | 2012-01-25 | 南京大学 | 基于后继任务的工作流挖掘方法 |
US20160092516A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Metric time series correlation by outlier removal based on maximum concentration interval |
-
2018
- 2018-02-06 CN CN201810115180.6A patent/CN108416365B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332125A (zh) * | 2011-11-08 | 2012-01-25 | 南京大学 | 基于后继任务的工作流挖掘方法 |
US20160092516A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Metric time series correlation by outlier removal based on maximum concentration interval |
Non-Patent Citations (1)
Title |
---|
高立哲等: "医疗急诊流程挖掘与模型改进", 《中国科技论文》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084517A (zh) * | 2019-04-28 | 2019-08-02 | 西安理工大学 | 一种面向教育数据日志的工作流方法 |
CN110084517B (zh) * | 2019-04-28 | 2024-01-30 | 北京第一因科技有限公司 | 一种面向教育数据日志的工作流方法 |
CN113704215A (zh) * | 2021-08-10 | 2021-11-26 | 山东理工大学 | 业务过程事件日志采样方法、系统、存储介质及计算设备 |
CN113704215B (zh) * | 2021-08-10 | 2023-10-13 | 北京杰成合力科技有限公司 | 业务过程事件日志采样方法、系统、存储介质及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108416365B (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dijkman et al. | Aligning business process models | |
CN112182424B (zh) | 一种基于异构信息和同构信息网络融合的社交推荐方法 | |
CN111340493B (zh) | 一种多维度分布式异常交易行为检测方法 | |
CN111488582A (zh) | 一种基于图神经网络的智能合约重入性漏洞检测的方法 | |
CN111651300B (zh) | 一种区块链数据恢复方法、装置、设备及介质 | |
CN109118155B (zh) | 一种生成操作模型的方法及装置 | |
CN114501458B (zh) | 基于扩展有限状态机的wia-pa协议模糊测试数据生成方法 | |
US9661084B2 (en) | Method and system for sampling online communication networks | |
CN104090952B (zh) | 一种估算滑动窗口下的数据流平均值的方法与系统 | |
CN108416365A (zh) | 基于距离的并发完备日志挖掘方法 | |
De Meyer et al. | On the transitivity of the comonotonic and countermonotonic comparison of random variables | |
CN108491628A (zh) | 产品设计需求驱动的三维cad装配模型聚类及检索方法 | |
Sørensen | On sequential maximum likelihood estimation for exponential families of stochastic processes | |
AU2020323807B2 (en) | Ledger verifiable-pruning system | |
CN1494278A (zh) | 一种数据流分类方法 | |
CN104699761A (zh) | 一种最小函数依赖的增量计算方法 | |
CN116842191A (zh) | 一种面向工艺知识的知识图谱构建方法 | |
CN115587111A (zh) | 用于数据库查询优化的基数估计方法及装置 | |
CN104951531A (zh) | 基于图简化技术的社交网络中用户影响力估算方法及装置 | |
CN112380267B (zh) | 一种基于隐私图的社区发现方法 | |
Nikityuk et al. | Optimization of the process of selecting of the IoT-platform for the specific technical solution IoT-sphere | |
CN113626657A (zh) | 一种多值属性图结构发现密集连接的子网络的方法 | |
Nogoorani et al. | Uncertainty in probabilistic trust models | |
CN112347441A (zh) | 一种基于可信行为序列的电力终端身份认证方法及其系统 | |
Martins et al. | Multi-layer local optima networks for the analysis of advanced local search-based algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200410 Termination date: 20220206 |
|
CF01 | Termination of patent right due to non-payment of annual fee |