CN112612764A - 一种基于执行者过程树的双维度遗传过程挖掘方法 - Google Patents

一种基于执行者过程树的双维度遗传过程挖掘方法 Download PDF

Info

Publication number
CN112612764A
CN112612764A CN202011503109.9A CN202011503109A CN112612764A CN 112612764 A CN112612764 A CN 112612764A CN 202011503109 A CN202011503109 A CN 202011503109A CN 112612764 A CN112612764 A CN 112612764A
Authority
CN
China
Prior art keywords
genetic
actor
tree
executor
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011503109.9A
Other languages
English (en)
Inventor
汤雅惠
朱锐
李彤
吕昌龙
王基书
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202011503109.9A priority Critical patent/CN112612764A/zh
Publication of CN112612764A publication Critical patent/CN112612764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,包括以下步骤:控制流维度:使用IM算法分别对事件日志中的案例进行预挖掘,生成的过程模型作为遗传挖掘算法的初始种群,通过遗传挖掘算法对过程模型进行整合优化得到最终的过程模型;组织维度:提取组织维度信息,通过活动—执行者矩阵度量活动在执行者层面的距离;使用组织维度的执行者信息扩充控制流维度的过程模型:将活动与其对应的执行者进行映射,挖掘出执行者过程树,建立双维度过程模型。本发明将控制流维度和组织维度这两种维度组合,以执行者过程树的形式,在同一个模型中同时反映两个维度的信息。

Description

一种基于执行者过程树的双维度遗传过程挖掘方法
技术领域
本发明涉及过程挖掘领域,尤其是一种基于执行者过程树的双维度遗传过程挖掘方法。
背景技术
过程挖掘是现代组织用来管理复杂运作过程的一种重要工具,能从现代信息系统普遍产生的事件日志中抽取过程知识,为相关领域应用中的过程发现、监督和改进提供新的手段。过程挖掘的理念是从事件日志中提取出知识,进而去发现、监控和改进实际过程(即非假定过程),目标在于能够快速地发现一个简洁、合理、优质的过程模型以支持过程的分析与改进。过程挖掘的理念也可用于软件过程领域,软件过程挖掘是指在软件过程数据的驱动下,自动地发现软件过程模型,进而帮助软件工程师更好地识别、理解、分析、优化实际执行的软件过程,最终达到软件过程改进并提升软件产品质量的目的。过程挖掘方法方兴未艾,在控制流维度已经出现了许多挖掘算法,旨在发现活动之间的控制流关系。这些算法各有各的适用范围以及优缺点。以遗传挖掘算法(Genetic Process Mining,GPM)为例,算法使用模型的4个质量维度作为挖掘导向,因此相对于其他挖掘算法,更容易生成高质量的过程模型;但由于GPM模仿生物的自然演变,使用迭代的方法挖掘模型,因此对于大型事件日志,种群准备时间和迭代时间将成倍增长,为产生质量较高的合理模型可能需要迭代多次,导致算法效率极低。
事件日志还会包含与过程相关的人员组织的大量信息,这些信息同样蕴含价值。组织维度的关注点在于组织中人与人之间的关系。对组织维度进行挖掘可以发现典型的组织结构和社交网络(Social net)。社交网络模型可以学习关于人、组织结构(角色和部门)和工作分配的知识。组织知识的发现使管理人员能够了解组织结构,进而改善组织运作过程。例如,社交网络可以显示企业中的沟通结构。这可用于设计通信基础结构或办公室布局。组织维度的发现,一方面,软件作为人类脑力体力结合所得的产物,而对于软件开发组织而言,随着软件规模的不断膨胀和软件开发技术的发展,软件开发的分工和组织变得越来越复杂,如何合理的对人员进行组织和分工成为能否成功开发软件的一个决定性因素;另一方面,对于业务过程而言,过程的发生与变化,源自于人,而过程模型的发现与改进,最终还是服务于人。人的行为与交互,对于业务过程的影响举足轻重。因此,无论是软件开发过程还是业务过程,发现和分析过程中涉及到的组织维度信息都至关重要。而与在控制流方面的研究相比,目前在组织维度方面的研究还较为稀少。
控制流维度模型反映活动之间的关系,组织维度模型反映组织人员之间的关系。两个维度属于不同层面。而在人类扮演主要角色的环境中,过程的运行与人类行为高度相关,人的行为与决策对活动的影响至关重要。例如,在软件开发组织、医院等许多其他专业组织中,过程的出现和变化多是由于人为决策。因此,将两种维度分割来看,较难获得全局视角,不能直观看出人员在不同活动上的分工,难以对事件日志进行全面的分析。而如果能够在同一个模型中同时展示两种维度,反映人与活动之间的关系,则能获得更为全面的视角。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于执行者过程树的双维度遗传过程挖掘方法,将控制流维度和组织维度这两种维度组合,以执行者过程树的形式,在同一个模型中同时反映两个维度的信息,能有效体现出活动与执行者之间的关系,获得更为全面的视角。
本发明采用的技术方案如下:
本发明一种基于执行者过程树的双维度遗传过程挖掘方法,包括以下步骤:
控制流维度:使用IM算法分别对事件日志中的案例进行预挖掘,生成的过程模型作为遗传挖掘算法的初始种群,通过遗传挖掘算法对过程模型进行整合优化得到最终的过程模型;
组织维度:提取组织维度信息,通过活动—执行者矩阵度量活动在执行者层面的距离;使用组织维度的执行者信息扩充控制流维度的过程模型:将活动与其对应的执行者进行映射,挖掘出执行者过程树,建立双维度过程模型。
作为优选,所述遗传挖掘算法包括:
S1:根据输入的事件日志和初始的过程树群体,为群体中的每个过程树根据综合质量函数计算综合质量值;
S2:选择一定比例的群体中综合质量最优的多个过程树,无需任何改变直接保留到下一代,剩下的过程树使用遗传操作改进;
S3:同时设置停止条件,若过程树的综合质量值不满足停止条件,则迭代重复以上的步骤,直至满足停止条件;输出综合质量值最高的过程树。
作为优选,所述遗传操作包括替换、交叉、和突变;所述替换,使用随机产生过程树替换种群中质量最低的一部分过程树;所述交叉,交换两个过程树之间随机选择的两个子树。
作为优选,所述S2具体包括:设置种群中综合质量值最高的25%的过程树个体直接保留到下一代;选择剩余的过程树中排在前25%的过程树进行突变操作;再次选择剩下的过程树中排在前25%的过程树进行交叉操作;综合质量值最低的25%的个体使用替换操作直接替换。
作为优选,所述过程树是一个三元组PT=(O,L,B),其中O是运算符节点(非叶子节点)的有限集合,L是活动节点(叶子节点)的有限集合,使得
Figure BDA0002844049940000031
是有向弧的集合。
作为优选,所述综合质量函数CQ的计算公式为:CQ=(Fr+Pe+Gn+Sm)/4,其中,Fr,Pe,Gn和Sm分别为过程模型在拟合度、精确度、泛化度和简洁度这4方面的度量值。
作为优选,所述活动—执行者矩阵M:
设L为事件日志,令a1∈A,r1∈R,c=(c0,c1,c2...)∈L:
Figure BDA0002844049940000032
(2)ML(a1,r1)=∑c∈L MC(a1,r1)
其中,A为某个事件上的活动集合,R为某个事件上的执行者集合,(a1,r1)表示活动a1由执行者r1执行,M定义了一个以A为行,R为列的矩阵,矩阵中的数值代表执行者执行活动的次数。
作为优选,所述通过活动—执行者矩阵度量活动在执行者层面距离的方法:活动—执行者矩阵根据活动欧氏距离
Figure BDA0002844049940000033
计算出的活动之间的距离;
设L为事件日志,ML是活动的执行者,令a1,a2∈A,n∈{1,2,3......},活动欧氏距离
Figure BDA0002844049940000034
活动欧氏距离
Figure BDA0002844049940000035
有一个参数n:n=1为Manhattan距离,n=2为Euclidean距离,如果n很大时,则等价于Chebyshev距离。
作为优选,所述执行者过程树是一个五元组PTR=(O,L,B,R,H),其中(O,L,B)是过程树,R为每个叶子节点L对应的执行者的有限集合,
Figure BDA0002844049940000036
是有向弧的集合。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明以执行者过程树的形式,在同一个模型中同时反映两个维度的信息,能有效体现出活动与执行者之间的关系,以此提供一种新的洞察力,有助于更准确的对过程进行分析。
2、本发明在控制流维度,针对遗传挖掘算法的不足进行改进,使用IM对事件日志进行预处理,为遗传挖掘算法准备优质初始种群,生成高质量的控制流模型,进而简化遗传挖掘算法的挖掘环境、提高算法效率。
2、在遗传过程挖掘中使用综合质量函数作为挖掘导向,使得遗传过程挖掘算法可以有效平衡四个质量维度。
3、在组织维度,基于活动—执行者矩阵,提出活动相似度度量方法,能有效度量活动在执行者层面的相似度,进而获得组织结构(角色和部门)和工作分配的信息;从执行者层面定义活动之间的距离度量方法,距离更近的活动在执行者配置层面更为相似,从而帮助项目管理者了解和改进组织的人员配备结构。
4、使用组织维度扩展控制流模型,通过在挖掘模型的基础上添加对应执行者信息的方法合并两种维度,基于执行者过程树,建立双维度过程模型,通过模型可以更加直观的看出活动和执行者之间的关系。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明一种基于执行者过程树的双维度遗传过程挖掘方法BdSm的框架图。
图2是本发明遗传挖掘算法的流程图。
图3是是实验中PLG生成的原始过程模型。
图4是实验中PW数据使用BdSm生成的执行者过程树。
图5是实验中PM数据迭代次数随模型质量的变化。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,本发明公开的基于执行者过程树的双维度遗传过程挖掘方法,方法的输入为事件日志,输出为针对该日志挖掘出的双维度过程模型,方法分为两个维度:
a)控制流维度,使用Inductive Miner(简称IM)算法分别对案例进行挖掘,生成的过程模型作为遗传挖掘算法的初始种群,通过遗传挖掘算法对其进行整合优化得到一个最终的过程模型;
b)组织维度则提取组织信息,用于拓展过程模型;具体的,一方面通过活动—执行者矩阵度量活动在执行者层面的距离,另一方面将活动与其对应的执行者进行映射,挖掘出执行者过程树。
在实施例中,基于执行者过程树的双维度遗传过程挖掘方法(Double-Dimensional Genetic Process Mining Method Based on Executor Process Tree,BdSm)具体包括以下步骤:
2.1过程日志获取
BdSm不仅可用于软件过程数据,也可用于业务过程数据。软件过程日志源于面向开源及私有软件项目的托管平台GitHub。可从GitHub中获取软件开发者的提交历史,包含时间戳、作者姓名、提交说明等信息。这些事件信息构成软件开发文档日志,获取开发文档日之后则对过程案例和事件等信息进行识别,将开发日志映射到事件日志中。
业务过程数据则源于公开数据集的事件日志。
2.2控制流维度挖掘
在控制流维度,针对遗传过程挖掘算法的不足,提出遗传过程混成挖掘算法,即本发明BdSm算法,算法的关键在于优质初始种群准备、内部模型的表示方法、综合质量函数的设定以及遗传算子。
2.2.1优质初始种群准备
由于初始过程模型的质量越高,则达到高质量模型所需的改变就越少,因此针对遗传挖掘算法挖掘效率不高的问题,拟对事件日志进行预挖掘,代替原有的随机生成的过程模型来提升遗传挖掘算法的初始种群质量。
对于每一个案例,使用Inductive Miner(简称IM)算法分别挖掘生成子过程模型。一方面,IM算法能够在多项式时间内挖掘出一个拟合度达到80%以上的高质过程模型。而随机产生的初始种群,拟合度一般在60%左右;另一方面,IM算法使用中的高度通用的过程发现框架,可以保证挖掘出来的所有模型都是合理的(sound),一个合理的模型是没有死锁和其它异常的模型。遗传挖掘算法需要多次评估、改进过程模型,如果模型不合理,则需要花费额外时间对模型进行修复。因此,使用IM算法能够为遗传挖掘算法提供更为优质的初始种群。
2.2.2遗传过程挖掘算法
(1)内部模型的表示方式
由于Petri网包含日志中的隐式库所,并且很难对Petri网定义遗传算子,因此不适合作为遗传挖掘算法执行时内部的模型表示方法,而使用因果矩阵表示的模型则可能含有死锁。因此使用过程树作为算法内部过程模型的表示方式。用过程树的主要优点是块结构的过程模型所具有的合理性。遗传挖掘算法需要多次评估、改进过程模型。而由于过程树本身就是合理的和健全的,所以不必检测和修复不完整的过程模型。
过程树是一个三元组PT=(O,L,B),其中O是运算符节点(非叶子节点)的有限集合,L是活动节点(叶子节点)的有限集合,使得
Figure BDA0002844049940000051
是有向弧的集合。过程树是一个不含圆的有向连接图,第一层结点节点称为树根,以下各层节点均为上层节点对应的孩子。运算符节点表示过程的控制流结构,包括:顺序→、并行∧、排它选择×、非排它选择+、以及循环
Figure BDA0002844049940000061
等。而活动节点代表单个活动变迁。
(2)综合质量函数
模型质量的评估主要基于四个质量标准:拟合度(fitness)、精确度(precision)、泛化度(generalization)、以及简洁度(simplicity)。一个拟合度好的模型能反映事件日志包含的行为;简洁度意味着模型在能够表示事件日志所包含的行为的同时是最简单的;精确度避免欠拟合,而泛化度则避免过拟合。尽管四个质量标准都有量化方法,但四个质量标准相互竞争,很难在它们之间达到平衡。同时,一般的过程挖掘算法只能顾及到部分的质量指标,例如,基于区域的挖掘算法产生的过程模型的拟合度和精确度较好,但是泛化度和简洁度较差。四个质量维度都十分重要,其中一个的值较低都将影响挖掘结果。因此,为平衡四个质量维度,提出综合质量(Comprehensive quality,简称CQ)函数,BdSm在迭代的挖掘模型的过程中使用该函数对模型质量进行监督,将综合质量作为挖掘导向。综合质量函数的计算公式为:CQ=(Fr+Pe+Gn+Sm)/4,其中,Fr,Pe,Gn和Sm分别为过程模型在拟合度、精确度、泛化度和简洁度这4方面的度量值。一个模型的综合质量值可以较好地反映模型的综合质量。
(3)过程树表示的遗传算子
BdSm使用综合质量函数计算种群中所有过程树的综合质量值,按照精英选择比例将综合质量值较高的多个过程树直接保留到下一代,其余的过程树使用遗传操作生成。为了得到较好的挖掘结果,种群应当努力做到“好而不同”,一方面,算法应当可以尽可能的访问更大的搜索空间,使种群具有较好的多样性;另一方面,通过遗传操作应当可以有效提高种群中过程树的质量。
遗传操作分为三种:替换(replacement),交叉(crossover)和突变(mutation。替换操作使用随机产生过程树替换掉种群中质量最低的一部分过程树;交叉操作交换两个过程树之间随机选择的两个子树。替换和交叉操作很难直接提升生成过程树的质量,它们主要用于扩大搜索空间,增加种群多样性,只有突变操作可以提高种群中过程树的质量,它可以直接对节点操作。
(4)遗传过程混成挖掘算法框架
算法共有四个步骤,初始化、选择、繁殖以及结束。其中,算法的输入是过程树集,输出为优化整合得到的一个完整的模型和其综合质量值。
如图2所示是遗传过程混成挖掘算法的流程。首先,为群体中的每个过程树根据综合质量函数计算综合质量值;其次,按照一定比例选择其中质量最优的多个过程树,无需任何改变直接保留到下一代,剩下的过程树则使用遗传操作改进;同时设置停止标准,如迭代的次数;如果停止条件不满足,则迭代重复上面的过程,直至满足停止标准。通过这种精英选择和遗传操作,每一代种群中最优过程树的综合质量值会变得越来越好,末代种群中综合质量值最高的过程树即是最终的挖掘结果。
在本发明中,设置种群中综合质量值最高的25%的过程树个体直接保留到下一代;突变操作旨在提高过程树质量,因此选择剩余的过程树中排在前25%的过程树进行突变操作;交叉操作和替换操作旨在增加种群多样性、扩大搜索空间,因而再次选择剩下的过程树中排在前25%的过程树进行交叉操作;综合质量值最低的25%的个体使用替换操作直接替换。
2.3提取组织维度信息
组织维度的信息源于事件日志中的#resource属性,即执行者名称。为将活动与执行者信息更好的关联,探明在执行者层面上活动与活动之间的关系,我们提出活动在执行者层面的距离度量方法。活动之间度量方法基于活动—执行者矩阵,抽取事件日志中的活动信息和执行者信息,可获得该矩阵。这个矩阵记录每个活动被某个执行者特定的频率,其中,行对应活动,列对应执行者。矩阵中的数值表示某位执行者执行某个活动的次数。
(活动—执行者矩阵M),设L为事件日志,令a1∈A,r1∈R,c=(c0,c1,c2...)∈L:
Figure BDA0002844049940000071
(2)ML(a1,r1)=∑c∈L MC(a1,r1)
其中,A为某个事件上的活动集合,R为某个事件上的执行者集合,(a1,r1)表示活动a1由执行者r1执行,M定义了一个以A为行,R为列的矩阵,矩阵中的数值代表执行者执行活动的次数。对于事件e=(a,r),设a∈A,r∈R,定义πa(e)=a,以及πr(e)=r,(a,r)表示活动a由执行者r执行。
表1 PM组数据活动—执行者矩阵
Figure BDA0002844049940000072
Figure BDA0002844049940000081
根据活动—执行者矩阵,通过比较行向量之间的距离,可以计算活动在执行者层面之间的距离。活动之间的距离越近,代表该活动在执行人员配备上越相似。通过探究活动在执行者层面的相似性,有助于我们了解项目的人员组成,例如,如果CODE活动和TEST活动距离很近,它们皆由编码小组的成员完成,而测试小组的成员较少出现在TEST活动中,那么该组织的人员配备可能存在问题需要调整,比如合并两个小组成员或者对编码小组的成员进行划分。在工作任务分配中,如果两个活动距离较近,那么可以派遣同样的人员组成去完成两个不同的活动。活动距离表可以记录日志中所有活动之间的距离,该表能够为组织维度提供更多信息。我们使用欧氏距离来度量活动之间的距离。由相同的人执行的活动在执行者层面具有更大的相似性。
(活动欧氏距离
Figure BDA0002844049940000082
),设L为事件日志,ML是活动的执行者,令a1,a2∈A,n∈{1,2,3......}a1,活动欧氏距离
Figure BDA0002844049940000083
活动欧氏距离
Figure BDA0002844049940000084
有一个参数n:n=1为Manhattan距离,n=2为Euclidean距离,如果n很大时,则等价于Chebyshev距离。
表2是根据表1的活动—执行者矩阵根据活动欧氏距离计算出的活动之间的距离表。活动到自身之间的距离为0,其中,距离越小,代表活动越相似。
表2 PM组数据活动到活动之间的距离
Figure BDA0002844049940000085
2.4执行者信息扩充控制流过程模型
控制流维度最终得到的是以过程树表示的过程模型。然而该过程模型仅能体现活动之间的控制流结构关系。因此,我们在挖掘出控制流过程模型的基础上,添加活动对应的执行者信息。为此,定义执行者过程树,使用组织维度对过程树进行扩展,将活动与执行者进行映射。执行者过程树是BdSm最终的挖掘结果。在过程树的基础上添加了每个活动对应的执行人员,执行人员信息是从组织维度信息提取得来。执行者过程树组合两个维度,获得全局视角,更直观的反映过程模型在控制维度以及组织维度的信息。算法1是BdSm的部分伪代码。
Figure BDA0002844049940000091
Figure BDA0002844049940000101
(执行者过程树)是一个五元组PTR=(O,L,B,R,H),其中(O,L,B)是过程树,R为每个叶子节点L对应的执行者的有限集合,
Figure BDA0002844049940000102
是有向弧的集合。其中每个叶子节点对应至少一个执行者。
3.1实验数据
为验证所提方法的有效性,本发明做了实验。基于软件过程实例,从功能角度,展示算法在两个不同维度的作用,同时使用BdSm算法对两组数据分别进行挖掘,展示迭代次数随模型质量的变化,观察对初始种群优化对最终挖掘结果的影响。
实验数据:使用过程日志生成器(Process Log Generator,PLG)创建模型,如图3所示,根据该模型生成事件日志(简称为PM数据)。使用文中方法对事件日志进行挖掘,观察是否能够生成原始模型,以验证方法的有效性,同时分析所生成的双维度模型的含义。图3中共包含7个活动,分别是REQ,DES,TEST,CODE,VER,CONF以及REV,基于过程树表示如图3所示。根据该模型生成20个过程案例。
3.2实验结果及分析
对PM组事件日志生成的20个案例,一方面,对案例分别使用IM算法挖掘后作为遗传挖掘算法的初始种群,使用遗传挖掘算法优化整合模型得到控制流维度过程模型;另一方面,借助活动—执行者矩阵(表1),生成活动距离表(表2),拓展控制流维度模型最终生成执行者过程树(如图4所示)。
距离越大,代表活动在执行者层面越不相似,距离越小代表活动越相似,活动到自身的距离为0。由图4可知,活动DES与REQ的距离最近,这与表3吻合,因为该两个活动由相同两个执行者完成且频率一致。而REQ和CODE的距离较远为8.485,这是由于两个活动没有相同的执行者执行。类似的,结合执行者过程树和活动与活动之间的距离,能得到较多额外信息。
由挖掘结果可以看出,BdSm能够挖掘出原始模型,同时,每个活动下连接的人名为该活动的执行者。
图5展示了BdSm以及GPM生成的模型随着迭代次数不断增长综合质量变化的情况。由图可见,两组数据均呈现相同的规律,相对于GPM而言,BdSm不仅收敛更快、达到高质量模型所需迭代次数更少,而且最终模型的综合质量也更高。PM组中,BdSm在77代便已收敛,GPM则在150代才收敛。由此说明,使用IM算法确实可以为遗传挖掘算法提供更高质量的初始种群,进而加快算法收敛速度,最终生成更高综合质量的过程模型。
以上实验结果表明,在控制流层面,BdSm能够生成综合质量高于其它挖掘算法过程模型,究其原因,是遗传过程挖掘算法使用模型质量作为挖掘导向,保证能够生成高综合质量的模型;同时,BdSm相对于GPM能够更快收敛,且达到更高的综合质量,这是因为使用IM算法为遗传挖掘算法准备了优质种群,初始种群质量越高,则到达高质量模型所需做的改进便越少,算法能够更快收敛。而于GPM初始种群随机生成,质量较低,达到较高质量的挖掘结果需要迭代更多次,算法收敛更慢。而在组织维度层面,结合活动之间的距离和执行者过程树,能得到更多组织维度的信息,有助于项目管理者了解人员配备所存在的问题进行调整。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (9)

1.一种基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,包括以下步骤:
控制流维度:使用IM算法分别对事件日志中的案例进行预挖掘,生成的过程模型作为遗传挖掘算法的初始种群,通过遗传挖掘算法对过程模型进行整合优化得到最终的过程模型;
组织维度:提取组织维度信息,通过活动—执行者矩阵度量活动在执行者层面的距离;
使用组织维度的执行者信息扩充控制流维度的过程模型:将活动与其对应的执行者进行映射,挖掘出执行者过程树,建立双维度过程模型。
2.根据权利要求1所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述遗传挖掘算法包括:
S1:根据输入的事件日志和初始的过程树群体,为群体中的每个过程树根据综合质量函数计算综合质量值;
S2:选择一定比例的群体中综合质量最优的多个过程树,无需任何改变直接保留到下一代,剩下的过程树使用遗传操作改进;
S3:同时设置停止条件,若过程树的综合质量值不满足停止条件,则迭代重复以上的步骤,直至满足停止条件;输出综合质量值最高的过程树。
3.根据权利要求2所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述遗传操作包括替换、交叉、和突变;所述替换,使用随机产生过程树替换种群中质量最低的一部分过程树;所述交叉,交换两个过程树之间随机选择的两个子树。
4.根据权利要求2所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述S2具体包括:设置种群中综合质量值最高的25%的过程树个体直接保留到下一代;选择剩余的过程树中排在前25%的过程树进行突变操作;再次选择剩下的过程树中排在前25%的过程树进行交叉操作;综合质量值最低的25%的个体使用替换操作直接替换。
5.根据权利要求2所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述过程树是一个三元组PT=(O,L,B),其中O是运算符节点(非叶子节点)的有限集合,L是活动节点(叶子节点)的有限集合,使得
Figure FDA0002844049930000011
是有向弧的集合。
6.根据权利要求2所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述综合质量函数CQ的计算公式为:CQ=(Fr+Pe+Gn+Sm)/4,其中,Fr,Pe,Gn和Sm分别为过程模型在拟合度、精确度、泛化度和简洁度这4方面的度量值。
7.根据权利要求1所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述活动—执行者矩阵M:
设L为事件日志,令a1∈A,r1∈R,c=(c0,c1,c2...)∈L:
(1)
Figure FDA0002844049930000021
(2)ML(a1,r1)=∑c∈LMC(a1,r1)
其中,A为某个事件上的活动集合,R为某个事件上的执行者集合,(a1,r1)表示活动a1由执行者r1执行,M定义了一个以A为行,R为列的矩阵,矩阵中的数值代表执行者执行活动的次数。
8.根据权利要求1所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述通过活动—执行者矩阵度量活动在执行者层面距离的方法:活动—执行者矩阵根据活动欧氏距离
Figure FDA0002844049930000022
计算出的活动之间的距离;设L为事件日志,ML是活动的执行者,
令a1,a2∈A,n∈{1,2,3...}a1,a2∈A,n∈{1,2,3......},
活动欧氏距离
Figure FDA0002844049930000023
活动欧氏距离
Figure FDA0002844049930000024
有一个参数n:n=1为Manhattan距离,n=2为Euclidean距离,如果n很大时,则等价于Chebyshev距离。
9.根据权利要求1所述的基于执行者过程树的双维度遗传过程挖掘方法,其特征在于,所述执行者过程树是一个五元组PTR=(O,L,B,R,H),其中(O,L,B)是过程树,R为每个叶子节点L对应的执行者的有限集合,
Figure FDA0002844049930000025
是有向弧的集合。
CN202011503109.9A 2020-12-18 2020-12-18 一种基于执行者过程树的双维度遗传过程挖掘方法 Pending CN112612764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011503109.9A CN112612764A (zh) 2020-12-18 2020-12-18 一种基于执行者过程树的双维度遗传过程挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011503109.9A CN112612764A (zh) 2020-12-18 2020-12-18 一种基于执行者过程树的双维度遗传过程挖掘方法

Publications (1)

Publication Number Publication Date
CN112612764A true CN112612764A (zh) 2021-04-06

Family

ID=75240480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011503109.9A Pending CN112612764A (zh) 2020-12-18 2020-12-18 一种基于执行者过程树的双维度遗传过程挖掘方法

Country Status (1)

Country Link
CN (1) CN112612764A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847228A (zh) * 2010-03-29 2010-09-29 清华大学 基于流程模式的工作流静态规划方法
CN106095955A (zh) * 2016-06-16 2016-11-09 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
CN109102150A (zh) * 2018-07-03 2018-12-28 山东科技大学 一种基于阶梯矩阵和过程树的过程模型修正方法
US20190377818A1 (en) * 2018-06-11 2019-12-12 The Governing Council Of The University Of Toronto Data visualization platform for event-based behavior clustering
CN111078766A (zh) * 2019-11-18 2020-04-28 江苏艾佳家居用品有限公司 一种基于多维理论的数据仓库模型建设系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847228A (zh) * 2010-03-29 2010-09-29 清华大学 基于流程模式的工作流静态规划方法
CN106095955A (zh) * 2016-06-16 2016-11-09 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
US20190377818A1 (en) * 2018-06-11 2019-12-12 The Governing Council Of The University Of Toronto Data visualization platform for event-based behavior clustering
CN109102150A (zh) * 2018-07-03 2018-12-28 山东科技大学 一种基于阶梯矩阵和过程树的过程模型修正方法
CN111078766A (zh) * 2019-11-18 2020-04-28 江苏艾佳家居用品有限公司 一种基于多维理论的数据仓库模型建设系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
G.GRECO等: "Mining Frequent Instances on Workflows", 《PROCEEDINGS OF THE 7TH PACIFIC-ASIA CONFERENCE ON ADVANCES IN KOWLEDGE DISCOVERY AND DATA MINING》 *
PESIC M等: "Beyond process mining: from the past to present and future", 《ADVANCED INFORMATION SYSTEMS ENGINEERING》 *
吴昊: "基于多维度的事件日志决策规则挖掘优化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
汤雅惠等: "基于轨迹聚类种群的遗传过程混成挖掘算法", 《计算机集成制造系统》 *
汪沙: "工作流组织结构挖掘", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
US7835893B2 (en) Method and system for scenario and case decision management
CN103853821B (zh) 一种面向多用户协作的数据挖掘平台的构建方法
US20220358515A1 (en) Carbon emissions management system
CN101093559B (zh) 一种基于知识发现的专家系统构造方法
CN106452825B (zh) 一种基于改进决策树的配用电通信网告警关联分析方法
CN108537503A (zh) 软件开发管理系统
CN109858823B (zh) 主配网停电计划选择方法及装置
JP2016189079A (ja) 計画作成支援装置および計画作成支援方法
JP2008544407A (ja) 能力依拠の複数のファミリー・オブ・システム計画のための技術的方法およびツール
EP4334863A1 (en) Carbon emissions management system
JP2020004069A (ja) 設計案生成装置
Sikal et al. Configurable process mining: variability Discovery Approach
Fu et al. Dynamic programming driven memetic search for the steiner tree problem with revenues, budget, and hop constraints
Meincheim et al. Combining process mining with trace clustering: manufacturing shop floor process-an applied case
Gawin et al. How Close to Reality is the „as-is” Business Process Simulation Model?
El‐Ghandour et al. Survey of information technology applications in construction
Rajper et al. Software development cost estimation: a survey
CN112612764A (zh) 一种基于执行者过程树的双维度遗传过程挖掘方法
Shahpar et al. Improvement of effort estimation accuracy in software projects using a feature selection approach
CN101546273B (zh) 一种预测软件过程执行时间的方法
Lee et al. Clustering and operation analysis for assembly blocks using process mining in shipbuilding industry
CN108897680B (zh) 一种基于soa的软件系统操作剖面构造方法
US20220374801A1 (en) Plan evaluation apparatus and plan evaluation method
Ganesha et al. The best fit process model for the utilization of the physical resources in hospitals by applying inductive visual miner
CN113505184B (zh) 一种系统间信息关系图的自动生成方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210406