CN114020593B - 一种基于轨迹聚类的异质流程日志采样方法与系统 - Google Patents

一种基于轨迹聚类的异质流程日志采样方法与系统 Download PDF

Info

Publication number
CN114020593B
CN114020593B CN202111323346.1A CN202111323346A CN114020593B CN 114020593 B CN114020593 B CN 114020593B CN 202111323346 A CN202111323346 A CN 202111323346A CN 114020593 B CN114020593 B CN 114020593B
Authority
CN
China
Prior art keywords
log
sample
event
event log
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111323346.1A
Other languages
English (en)
Other versions
CN114020593A (zh
Inventor
刘聪
张帅鹏
李彩虹
祝铭
李静
张立晔
王雷
何华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Technology
Original Assignee
Shandong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Technology filed Critical Shandong University of Technology
Priority to CN202111323346.1A priority Critical patent/CN114020593B/zh
Publication of CN114020593A publication Critical patent/CN114020593A/zh
Application granted granted Critical
Publication of CN114020593B publication Critical patent/CN114020593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于轨迹聚类的异质流程日志采样方法与系统,包括步骤:1)将异质事件日志根据已有的轨迹聚类方法进行聚类处理后得到一组同质子日志;2)对获取的子日志使用已有的事件日志采样技术进行采样得到样本子日志;3)对获得的样本子日志进行合并整合得到最终的样本日志;4)对获得的样本日志通过传统的过程挖掘算法得到过程模型与原始日志作合规性检查,测量拟合度和准确度,计算两者的综合指标F‑measure值,评估通过轨迹聚类方法和采样技术得到的样本日志质量。本发明能够有效地通过轨迹聚类和事件日志采样技术获取高质量的样本日志,极大地提升了采样技术的准确性。

Description

一种基于轨迹聚类的异质流程日志采样方法与系统
技术领域
本发明涉及对事件日志的过程挖掘的技术领域,尤其是指一种基于轨迹聚类的异质流程日志采样方法与系统。
背景技术
过程挖掘是一个活跃的研究学科,旨在从事件日志中提取关于业务过程的信息,过程发现允许从事件日志中提取过程模型,并且已有很多过程发现方法,但是这些方法仅仅只是将事件日志作为输入,并在不使用任何先验信息的情况下生成过程模型,然而,在面对大规模事件日志时,大多数现有的过程发现方法并不能正确处理大规模事件日志中的信息,而且会导致发现过程模型的低效率。目前应对大规模事件日志的一个有效策略是使用MapReduce重新实现发现方法,使它们可扩展到大规模数据集。然而,重新实现的过程非常耗时,需要开发人员对底层的发现方法有广泛的了解,此外,重新实现技术是专门为特定方法定制的,不能一概而论,因此事件日志采样技术被提出,事件日志采样技术不是重新实现现有的发现方法,而是提供了一种提高发现效率的替代方法。
已有的事件日志采样技术有很多,比如基于图排序的LogRank事件日志采样算法,基于轨迹相似度计算的LogRank+事件日志采样技术,在确保了采样质量的前提下,大幅度地提高了采样效率。
已有的事件日志采样技术虽然能大幅度地提高过程发现的效率,但却局限于假定日志是同质的,即日志来源于或者对应单一的业务过程。然而,考虑到业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点。异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志。传统的采样方法如LogRank、LogRank+等都是基于排序的算法,首先选择的是具有代表性特征(如轨迹的长度、直接跟随活动关系、轨迹的频次等)的轨迹,在处理异质事件日志时,样本日志无法包含原始日志中的大部分行为,因此得到的样本日志质量精度相对较低。
本发明中的一种基于轨迹聚类的异质流程日志采样方法用已有的轨迹聚类方法将原始事件日志预处理得到一组同质子日志,再分别对每个子日志选择已有的日志采样技术处理得到样本子日志,合并为最终的样本日志,通过将最终的样本日志对应的过程模型与原始日志作合规性检查,从基于拟合度、准确度的综合指标F-measure值评估样本日志的质量。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于轨迹聚类的异质流程日志采样方法,突破传统的过程发现方法不能处理大规模事件日志或者可能导致发现过程处理效率低下的问题,解决了已有的事件日志采样技术在处理异质性事件日志时得到的采样质量低等问题,提高了采样技术的准确性。
本发明的第二目的在于提供一种基于轨迹聚类的异质流程日志采样系统。
本发明的第一目的通过下述技术方案实现:一种基于轨迹聚类的异质流程日志采样方法,包括以下步骤:
1)将异质事件日志根据已有的轨迹聚类方法进行聚类处理后得到一组同质子日志;
2)对步骤1)获取的子日志使用已有的事件日志采样技术进行采样得到样本子日志;
3)对步骤2)获得的样本子日志进行合并整合得到最终的样本日志;
4)对步骤3)获得的样本日志通过传统的过程挖掘算法得到过程模型与原始日志作合规性检查,测量拟合度和准确度,计算两者的综合指标F-measure值,评估通过轨迹聚类方法和采样技术得到的样本日志质量;
在步骤1)中,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等;
在步骤2)中,结合步骤1)中得到的一组同质子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于LogRank的事件日志采样技术、基于LogRank+的事件日志采样技术等;
在步骤3)中,根据步骤2)得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志;
在步骤4)中,将步骤3)得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标F-measure值从而衡量样本日志的质量,所谓的F-Measure是拟合度和精确度的调和平均值,计算公式如下:
其中,fitness(L,M)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(L,M)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
本发明的第二目的通过下述技术方案实现:一种基于轨迹聚类的异质流程日志采样系统,包含轨迹聚类模块、事件日志采样模块、样本子日志合并模块、样本质量评估模块;
所述轨迹聚类模块,用于将异质事件日志经过轨迹聚类方法处理后得到一组同质的聚类子日志;
所述事件日志采样模块,用于对经过轨迹聚类模块处理后的聚类子日志进行事件日志采样技术采样,得到采样后的样本子日志;
所述样本子日志合并模块,用于分别遍历一组样本子日志中的轨迹,将其添加到一个新的事件日志中即为最终的样本子日志;
所述样本质量评估模块用于评估样本日志的质量,将样本日志通过过程挖掘算法得到的过程模型与原始日志做合规性检查,计算拟合度、准确度等综合评估指标F-Measure值从而衡量样本日志的质量。
优选的,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指是在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等。
优选的,所述事件日志采样模块具体执行如下操作:
根据轨迹聚类模块处理后得到聚类子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于LogRank的事件日志采样技术、基于LogRank+的事件日志采样技术等。
优选的,所述样本子日志合并模块具体执行如下操作:
根据事件日志采样模块得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志。
优选的,所述样本质量评估模块具体执行如下操作:
根据样本子日志合并模块得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标F-measure值从而衡量样本日志的质量,所谓的F-Measure值是拟合度和精确度的调和平均值,计算公式如下:
其中,fitness(L,M)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(L,M)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了对于大规模的异质性事件日志,采用较以往更准确的业务流程事件日志采样方法对其采样,选择一个具有高质量的样本日志,提高了传统采样技术的准确度。
2、本发明首次将轨迹聚类方法运用到事件日志采样技术之中,通过轨迹聚类方法进行处理后的日志将能更好地进行采样,避免了重要性特征信息的丢失,为过程挖掘领域提供了一种新的采样思想。
3、本发明可以应用到诸多领域,比如医疗、物流、制造业等,通过对特定的事件日志有效处理,能得到一个更加准确的过程模型,从而更有利于后续的分析。
4、本发明方法在对异质事件日志进行过程发现方面具有广泛的使用空间,实用性强,在过程发现、一致性检查等诸多过程挖掘领域有广阔前景。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明的Prom工具插件实现方法界面图。
图3为本发明的Prom工具插件轨迹聚类方法界面图。
图4为本发明的Prom工具插件日志采样方法界面图。
图5为本发明用例原始事件日志图。
图6为本发明用例采样事件日志图。
图7为本发明过程发现算法Inductive Miner界面图。
图8为本发明质量评估指标Fitness界面图。
图9为本发明质量评估指标Precision界面图。
图10为本发明系统架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例公开了一种基于轨迹聚类的异质流程日志采样方法,该方法已经在Prom工具以插件的方式实现,如图2所示;该方法首先使用已有的轨迹聚类方法将原始事件日志预处理得到一组同质子日志,再分别对每个子日志选择已有的日志采样技术处理得到样本子日志,合并为最终的样本日志,通过将最终的样本日志对应的过程模型与原始日志作合规性检查,从基于拟合度、准确度的综合指标F-measure值来说明此方法的可行性与准确性,具体包括以下步骤:
1)将一个异质事件日志根据已有的轨迹聚类方法进行聚类处理后得到一组同质子日志。其中,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等;
采用上述步骤,事件日志L=[<a,b,d,e>10,<a,c,e>15,<b,c>5,<b,d>10,<a,b,m,e>20,<a,c,d,m,e>20,<a,c,x,y>5,<a,d,e,x>25,<a,b,c,y>10],在Prom工具中如图5所示;在事件日志L中,轨迹<a,b,d,e>10,<a,c,e>15,<b,c>5,<b,d>10来自一个过程模型,轨迹<a,b,m,e>20,<a,c,d,m,e>20来自同一个过程模型,<a,c,x,y>5,<a,d,e,x>25,<a,b,c,y>10则来自另一个过程模型,先通过已有的轨迹聚类方法(如图3所示)如基于向量空间的轨迹聚类方法K-means将事件日志L经过聚类处理得到一组(三个)同质的子日志L1,L2,L3,其中L1=[<a,b,d,e>10,<a,c,e>15,<b,c>5,<b,d>10],L2=[<a,b,m,e>20,<a,c,d,m,e>20],L3=[<a,c,x,y>5,<a,d,e,x>25,<a,b,c,y>10]。
2)获取的子日志使用已有的事件日志采样技术进行采样得到样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于LogRank的事件日志采样技术、基于LogRank+的事件日志采样技术等;
采用上述步骤,分别对三个子日志L1=[<a,b,d,e>10,<a,c,e>15,<b,c>5,<b,d>10],L2=[<a,b,m,e>20,<a,c,d,m,e>20],L3=[<a,c,x,y>5,<a,d,e,x>25,<a,b,c,y>10]进行事件日志采样技术处理,如图4所示,这里使用的采样技术为LogRank+,采样率为20%,得到三个样本子日志SL1=[<a,b,d,e>2,<a,c,e>3,<b,c>,<b,d>2],SL2=[<a,b,m,e>4,<a,c,d,m,e>4],SL3=[<a,c,x,y>,<a,d,e,x>5,<a,b,c,y>2]。
3)获得的样本子日志进行合并整合得到最终的样本日志,根据步骤2)得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志;
采用上述步骤,分别对三个样本子日志SL1=[<a,b,d,e>2,<a,c,e>3,<b,c>,<b,d>2],SL2=[<a,b,m,e>4,<a,c,d,m,e>4],SL3=[<a,c,x,y>,<a,d,e,x>5,<a,b,c,y>2]进行轨迹遍历,将每条轨迹都添加到一个新的事件日志SL中,如图6所示,即SL=[<a,b,d,e>2,<a,c,e>3,<b,c>,<b,d>2,<a,b,m,e>4,<a,c,d,m,e>4,<a,c,x,y>,<a,d,e,x>5,<a,b,c,y>2]。
4)将步骤3)得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标F-measure值从而衡量样本日志的质量,所谓的F-Measure值是拟合度和精确度的调和平均值,计算公式如下:
其中,fitness(L,M)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(L,M)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为;
采用上述步骤,将样本日志SL=[<a,b,d,e>2,<a,c,e>3,<b,c>,<b,d>2,<a,b,m,e>4,<a,c,d,m,e>4,<a,c,x,y>,<a,d,e,x>5,<a,b,c,y>2]通过过程挖掘算法InductiveMiner(如图7所示)得到的过程模型Model_SL与原始日志做一致性检查,计算其拟合度(如图8所示)、准确度(如图9所示),得到拟合度fitness=1,准确度precision=0.7143,然后根据上述公式得到F-measure=0.833,F-measure值在0到1之间,F-measure值越大说明样本的质量越好,由F-measure值可以看出,通过此方法得到的样本日志是高质量的;
实施例2
本实施例公开了一种基于轨迹聚类的异质流程日志采样系统,系统架构图如图10所示,包含轨迹聚类模块、事件日志采样模块、样本子日志合并模块、样本质量评估模块;
所述轨迹聚类模块,用于将异质事件日志经过轨迹聚类方法处理后得到一组同质的聚类子日志;
所述事件日志采样模块,用于对经过轨迹聚类模块处理后的聚类子日志进行事件日志采样技术采样,得到采样后的样本子日志;
所述样本子日志合并模块,用于分别遍历一组样本子日志中的轨迹,将其添加到一个新的事件日志中即为最终的样本子日志;
所述样本质量评估模块,用于评估样本日志的质量,将样本日志通过过程挖掘算法得到的过程模型与原始日志做合规性检查,计算拟合度、准确度等综合评估指标F-Measure值从而衡量样本日志的质量。
所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等。
所述事件日志采样模块具体执行如下操作:
根据轨迹聚类模块处理后得到聚类子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于LogRank的事件日志采样技术、基于LogRank+的事件日志采样技术等。
所述样本子日志合并模块具体执行如下操作:
根据事件日志采样模块得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志。
所述样本质量评估模块具体执行如下操作:
根据样本子日志合并模块得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标F-measure值从而衡量样本日志的质量,所谓的F-Measure值是拟合度和精确度的调和平均值,计算公式如下:
其中,fitness(L,M)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(L,M)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
综上所述,在采用以上方案后,本发明为现有的采样方法在处理异质事件日志时导致的采样精度低问题提供了新的方法与系统,能够有效地通过轨迹聚类和事件日志采样技术获取高质量的样本日志,极大地提升了采样技术的准确性,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (8)

1.一种基于轨迹聚类的异质流程日志采样方法,其特征在于,包括以下步骤:
1)将一个异质事件日志根据已有的轨迹聚类方法进行聚类处理后得到一组同质子日志;
2)对步骤1)获取的同质子日志使用已有的事件日志采样技术进行采样得到样本子日志;
3)对步骤2)获得的样本子日志进行合并整合得到最终的样本日志;
4)对步骤3)获得的样本日志通过过程挖掘算法得到过程模型与原始日志作合规性检查,测量拟合度和准确度,计算两者的综合指标F-measure值,评估通过轨迹聚类方法和采样技术得到的样本日志质量,具体如下:
将步骤3)得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度和准确度的综合评估指标F-measure值从而衡量样本日志的质量,所谓的F-Measure值是拟合度和精确度的调和平均值,计算公式如下:
其中,fitness(L,M)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(L,M)为从样本日志中发现的过程模型相对于原始日志的精确度;拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力,拟合度为1表示过程模型能够重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力,精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
2.根据权利要求1所述的一种基于轨迹聚类的异质流程日志采样方法,其特征在于:在步骤1)中,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹有时会呈现出异质的特点,异质事件日志的来源多样,有由同一个复杂的过程模型生成的轨迹行为差异大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法和基于模型的序列聚类方法。
3.根据权利要求1所述的一种基于轨迹聚类的异质流程日志采样方法,其特征在于:在步骤2)中,结合步骤1)中得到的一组同质子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小,处理效率也更高,已有的事件日志采样技术有基于LogRank的事件日志采样技术和基于LogRank+的事件日志采样技术。
4.根据权利要求1所述的一种基于轨迹聚类的异质流程日志采样方法,其特征在于:在步骤3)中,根据步骤2)得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志。
5.一种基于轨迹聚类的异质流程日志采样系统,其特征在于,包含轨迹聚类模块、事件日志采样模块、样本子日志合并模块、样本质量评估模块;
所述轨迹聚类模块,用于将异质事件日志经过轨迹聚类方法处理后得到一组同质的聚类子日志;
所述事件日志采样模块,用于对经过轨迹聚类模块处理后的聚类子日志进行事件日志采样技术采样,得到采样后的样本子日志;
所述样本子日志合并模块,用于分别遍历一组样本子日志中的轨迹,将其添加到一个新的事件日志中即为最终的样本子日志;
所述样本质量评估模块,用于评估样本日志的质量,将样本日志通过过程挖掘算法得到的过程模型与原始日志做合规性检查,计算拟合度、准确度的综合评估指标F-Measure值从而衡量样本日志的质量;
所述样本质量评估模块具体执行如下操作:
根据样本子日志合并模块得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度和准确度的综合评估指标F-measure值从而衡量样本日志的质量,所谓的F-Measure值是拟合度和精确度的调和平均值,计算公式如下:
其中,fitness(L,M)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(L,M)为从样本日志中发现的过程模型相对于原始日志的精确度;拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力,拟合度为1表示过程模型能够重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力,精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
6.根据权利要求5所述的一种基于轨迹聚类的异质流程日志采样系统,其特征在于:所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹有时会呈现出异质的特点,异质事件日志的来源多样,有由同一个复杂的过程模型生成的轨迹行为差异大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用现有的聚类算法进行聚类,已有的轨迹聚类方法有基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法和基于模型的序列聚类方法。
7.根据权利要求5所述的一种基于轨迹聚类的异质流程日志采样系统,其特征在于:所述的事件日志采样模块具体执行如下操作:
根据轨迹聚类模块处理后得到聚类子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小,处理效率也更高,已有的事件日志采样技术有基于LogRank的事件日志采样技术和基于LogRank+的事件日志采样技术。
8.根据权利要求5所述的一种基于轨迹聚类的异质流程日志采样系统,其特征在于:所述样本子日志合并模块具体执行如下操作:
根据事件日志采样模块得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志。
CN202111323346.1A 2021-11-08 2021-11-08 一种基于轨迹聚类的异质流程日志采样方法与系统 Active CN114020593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111323346.1A CN114020593B (zh) 2021-11-08 2021-11-08 一种基于轨迹聚类的异质流程日志采样方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111323346.1A CN114020593B (zh) 2021-11-08 2021-11-08 一种基于轨迹聚类的异质流程日志采样方法与系统

Publications (2)

Publication Number Publication Date
CN114020593A CN114020593A (zh) 2022-02-08
CN114020593B true CN114020593B (zh) 2024-05-14

Family

ID=80062728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111323346.1A Active CN114020593B (zh) 2021-11-08 2021-11-08 一种基于轨迹聚类的异质流程日志采样方法与系统

Country Status (1)

Country Link
CN (1) CN114020593B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116225513B (zh) * 2023-05-09 2023-07-04 安徽思高智能科技有限公司 一种基于概念漂移的rpa动态流程发现方法及系统
CN117473346A (zh) * 2023-12-27 2024-01-30 安徽思高智能科技有限公司 一种基于轨迹聚类的流程漂移定位方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981625A (zh) * 2019-03-18 2019-07-05 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN110046136A (zh) * 2019-04-24 2019-07-23 中国石油大学(华东) 一种过程挖掘领域中自动补全不完整业务事件日志的方法
CN112528275A (zh) * 2020-11-23 2021-03-19 浙江工业大学 基于元路径学习与子图采样的apt网络攻击检测方法
CN112632018A (zh) * 2020-12-21 2021-04-09 山东理工大学 一种业务流程事件日志采样方法与系统
CN113094707A (zh) * 2021-03-31 2021-07-09 中国科学院信息工程研究所 一种基于异质图网络的横向移动攻击检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046820B (zh) * 2019-04-17 2020-02-21 山东科技大学 基于结构替换的流程模型修复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981625A (zh) * 2019-03-18 2019-07-05 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN110046136A (zh) * 2019-04-24 2019-07-23 中国石油大学(华东) 一种过程挖掘领域中自动补全不完整业务事件日志的方法
CN112528275A (zh) * 2020-11-23 2021-03-19 浙江工业大学 基于元路径学习与子图采样的apt网络攻击检测方法
CN112632018A (zh) * 2020-12-21 2021-04-09 山东理工大学 一种业务流程事件日志采样方法与系统
CN113094707A (zh) * 2021-03-31 2021-07-09 中国科学院信息工程研究所 一种基于异质图网络的横向移动攻击检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Petri网的分层业务过程挖掘方法;刘聪;程龙;曾庆田;闻立杰;欧阳春;;计算机集成制造系统;20200615(第06期);全文 *

Also Published As

Publication number Publication date
CN114020593A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN114020593B (zh) 一种基于轨迹聚类的异质流程日志采样方法与系统
US11915104B2 (en) Normalizing text attributes for machine learning models
CN110019218B (zh) 数据存储与查询方法及设备
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN107909344B (zh) 基于关系矩阵的工作流日志重复任务识别方法
CN110083639A (zh) 一种基于聚类分析的数据血缘智能溯源的方法及装置
CN108806718B (zh) 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN111563103B (zh) 一种用于数据血缘检测方法和系统
Anitha A new web usage mining approach for next page access prediction
CN105868266A (zh) 一种基于聚类模型的高维数据流离群点检测方法
CN112632018B (zh) 一种业务流程事件日志采样方法与系统
CN109034370A (zh) 一种基于特征映射剪枝的卷积神经网络精简方法
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114968727A (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN111324781A (zh) 一种数据分析方法、装置及设备
CN111831545A (zh) 测试用例生成方法、生成装置、计算机设备和存储介质
CN114742124A (zh) 一种异常数据处理方法、系统及装置
CN118013364A (zh) 一种多维数据智能标识方法
CN112232290A (zh) 数据聚类方法、服务器、系统以及计算机可读存储介质
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN108062395A (zh) 一种轨道交通大数据分析方法及系统
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
CN113946717A (zh) 一种子图指标特征获得方法、装置、设备及存储介质
CN111061749B (zh) 基于事务顺序分析的数据库事务并发重做方法和装置
Chang et al. Code Transform Model Producing High-Performance Program.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant