CN112632018B - 一种业务流程事件日志采样方法与系统 - Google Patents

一种业务流程事件日志采样方法与系统 Download PDF

Info

Publication number
CN112632018B
CN112632018B CN202011519153.9A CN202011519153A CN112632018B CN 112632018 B CN112632018 B CN 112632018B CN 202011519153 A CN202011519153 A CN 202011519153A CN 112632018 B CN112632018 B CN 112632018B
Authority
CN
China
Prior art keywords
activity
representative value
event log
track
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011519153.9A
Other languages
English (en)
Other versions
CN112632018A (zh
Inventor
刘聪
张帅鹏
李会玲
李彩虹
田爱奎
何华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiecheng Heli Technology Co ltd
Original Assignee
Shenzhen Jiecheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jiecheng Software Co ltd filed Critical Shenzhen Jiecheng Software Co ltd
Priority to CN202011519153.9A priority Critical patent/CN112632018B/zh
Publication of CN112632018A publication Critical patent/CN112632018A/zh
Application granted granted Critical
Publication of CN112632018B publication Critical patent/CN112632018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种业务流程事件日志采样方法与系统,该方法通过获取事件日志的活动数与直接跟随活动数量,再分别计算事件日志的活动代表值和直接跟随活动代表值、事件日志中每条轨迹的平均活动代表值和平均直接跟随活动的代表值,再根据轨迹代表值进行排序,最后采用特定的采样率产生采样日志。本发明为现有过程发现方法不能正确处理大规模事件日志中的信息,而且会导致发现过程模型的低效率提供了新的方法与系统,能够有效地通过采样获取代表性的样本日志,极大地降低了大规模事件日志过程发现的时间复杂度。

Description

一种业务流程事件日志采样方法与系统
技术领域
本发明涉及对事件日志的过程挖掘的技术领域,尤其是指一种业务流程事件日志采样方法与系统。
背景技术
过程挖掘是一个活跃的研究学科,旨在从事件日志中提取关于业务过程的信息,过程发现允许从事件日志中提取过程模型,并且已有很多过程发现方法,但是这些方法仅仅只是将事件日志作为输入,并在不使用任何先验信息的情况下生成过程模型,然而,在面对大规模事件日志时,大多数现有的过程发现方法并不能正确处理大规模事件日志中的信息,而且会导致发现过程模型的低效率。目前应对大规模事件日志的一个有效策略是使用MapReduce重新实现发现方法,使它们可扩展到大规模数据集。然而,重新实现的过程非常耗时,需要开发人员对底层的发现方法有广泛的了解,此外,重新实现技术是专门为特定方法定制的,不能一概而论,因此迫切需要一种高效的应对大规模事件日志的方法,本发明的业务流程事件日志采样方法通过事件日志采样技术提供了一种提高发现效率的替代方法,而不是重新实施现有的发现方法,提高了效率。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供了一种业务流程事件日志采样方法,突破传统的过程发现方法不能处理大规模事件日志或者可能导致发现过程处理效率低下的问题,通过将任意大规模事件日志作为输入来获得代表性样本日志,此样本日志比原始日志小得多,处理效率也更高。
本发明的第二目的在于提供一种业务流程事件日志采样系统。
本发明的第一目的通过下述技术方案实现:一种业务流程事件日志采样方法,包括以下步骤:
1)获取事件日志的活动数和直接跟随活动数量;
2)根据步骤1)获取的活动数和直接跟随活动数量计算事件日志的活动代表值和直接跟随活动代表值;
3)根据步骤2)获得的活动代表值和直接跟随活动代表值计算事件日志中每条轨迹的平均活动代表值和平均直接跟随活动代表值;
4)根据步骤3)获得的每条轨迹的平均活动代表值和平均直接跟随活动代表值计算事件日志中每条轨迹代表值,并根据所得轨迹代表值对轨迹排序;
5)根据设定的采样率计算出所选择的轨迹数量N,依次选择排序后的前N条轨迹,组成新的日志即为采样日志。
在步骤1)中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件;所述直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>。
在步骤2)中,结合事件日志的活动数和直接跟随活动数,求出事件日志的活动代表值和直接跟随活动代表值;所述活动代表值是指事件日志中一个活动在所有轨迹中出现的次数与事件日志中的所有活动数量的比值;所述直接跟随活动代表值是指事件日志中一个直接跟随活动在所有轨迹中出现的次数与事件日志中的所有直接跟随活动数量的比值;其中,活动代表值与直接跟随活动代表值的计算如下:
事件日志中活动a的活动代表值sig(a)的计算公式如下:
Figure BDA0002848419510000021
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,1≤i≤|L|;
Figure BDA0002848419510000031
表示在事件日志L中,包含活动a的轨迹σi∈L的总数,|L|表示事件日志L中的轨迹数;
事件日志L中直接跟随活动<a,b>的直接跟随活动代表值sig(a,b)的计算公式如下:
Figure BDA0002848419510000032
式中,
Figure BDA0002848419510000033
表示在事件日志L中,包含直接跟随活动〈a,b〉的轨迹σi∈L的总数。
在步骤3)中,根据步骤2)得出的事件日志的各个活动代表值和直接跟随活动代表值,计算出每条轨迹的平均活动代表值和平均直接跟随活动的代表值;所述轨迹的平均活动代表值是指对该轨迹中的所有活动的活动代表值求和,然后除以该轨迹中的活动总数;所述轨迹的平均直接跟随活动代表值是指对该轨迹中的所有直接跟随活动的直接跟随活动代表值求和,然后除以该轨迹中的直接跟随活动总数;其中,每条轨迹的平均活动代表值与平均直接跟随活动代表值的计算如下:
每条轨迹的平均活动代表值sigAvgA(σ)的计算公式如下:
Figure BDA0002848419510000034
式中,σ表示事件日志中的轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure BDA0002848419510000035
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
每条轨迹的平均直接跟随活动代表值sigAvgDFA(σ)的计算公式如下:
Figure BDA0002848419510000041
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1〉的直接跟随活动代表值;
Figure BDA0002848419510000042
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量。
在步骤4)中,根据步骤3)得到的事件日志中每条轨迹的平均活动代表值和平均直接跟随活动的代表值,计算出每条轨迹的代表值;所述轨迹代表值是指1减去该轨迹的平均活动代表值和平均跟随活动代表值之和的一半所得到的结果;对于事件日志中的每条轨迹,计算它们的轨迹代表值,并将所有的轨迹按照轨迹代表值的大小,从小到大进行排序;其中,所述轨迹代表值的计算公式如下:
Figure BDA0002848419510000043
式中,σ表示事件日志中的轨迹,sigAvgA(σ)表示轨迹σ的平均活动代表值,sigAvgDFA(σ)表示轨迹σ的平均直接跟随活动代表值;
所述
Figure BDA0002848419510000044
式中,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure BDA0002848419510000045
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
所述
Figure BDA0002848419510000051
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure BDA0002848419510000052
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量。
在步骤5)中,根据预先输入的特定的采样率,计算采样率与原始日志大小乘积后取整得到的整数,即为所选择的轨迹数量N,针对步骤4)中已经排序好的所有轨迹进行选择,选取前N条轨迹组成新的事件日志,即为采样日志L';其中,所述采样率是指事先确定最终所得日志占原始日志的百分比,所述原始日志大小为|L|,即事件日志L中的轨迹数。
本发明的第二目的通过下述技术方案实现:一种业务流程事件日志采样系统,其特征在于,包括数据获取模块、事件日志代表值计算模块、事件日志轨迹排序模块、事件日志轨迹选择模块;其中:
所述数据获取模块获取事件日志的活动数和直接跟随活动数量,用于事件日志代表值计算模块来计算活动代表值和直接跟随活动代表值;其中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b〉;
所述事件日志代表值计算模块用于计算事件日志的活动代表值和直接跟随活动代表值,然后再对每一条轨迹计算平均活动代表值和平均直接跟随活动代表值,最后计算事件日志中的每一条轨迹代表值;
所述事件日志轨迹排序模块用于根据事件日志代表值计算模块中的轨迹代表值对轨迹按从小到大的顺序进行排序;
所述事件日志轨迹选择模块用于根据预先输入的特定的采样率,对于已经按照轨迹代表值大小排序好的所有轨迹,选取前N条轨迹组成新的事件日志,即为采样日志。
进一步,所述事件日志代表值计算模块执行如下操作:
根据数据获取模块得出的事件日志的各个活动代表值和直接跟随活动代表值,先计算出事件日志活动代表值和直接跟随活动代表值;所述活动代表值是指事件日志中一个活动在所有轨迹中出现的次数与事件日志中的所有活动数量的比值;所述直接跟随活动代表值是指事件日志中一个直接跟随活动在所有轨迹中出现的次数与事件日志中的所有直接跟随活动数量的比值;其中,活动代表值与直接跟随活动代表值的计算如下:
事件日志中活动a的活动代表值sig(a)的计算公式如下:
Figure BDA0002848419510000061
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,1≤i≤|L|;
Figure BDA0002848419510000062
表示在事件日志L中,包含活动a的轨迹σi∈L的总数,|L|表示事件日志L中的轨迹数;
事件日志L中直接跟随活动〈a,b〉的直接跟随活动代表值sig(a,b)的计算公式如下:
Figure BDA0002848419510000063
式中,
Figure BDA0002848419510000071
表示在事件日志L中,包含直接跟随活动〈a,b〉的轨迹σi∈L的总数;
然后根据计算出事件日志活动代表值和直接跟随活动代表值,对每一条轨迹计算平均活动代表值和平均直接跟随活动代表值;所述轨迹的平均活动代表值是指对该轨迹中的所有活动的活动代表值求和,然后除以该轨迹中的活动总数;所述轨迹的平均直接跟随活动代表值是指对该轨迹中的所有直接跟随活动的直接跟随活动代表值求和,然后除以该轨迹中的直接跟随活动总数;其中,每条轨迹的平均活动代表值与平均直接跟随活动代表值的计算如下:
每条轨迹的平均活动代表值sigAvgA(σ)的计算公式如下:
Figure BDA0002848419510000072
式中,σ表示事件日志中的轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure BDA0002848419510000073
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
每条轨迹的平均直接跟随活动代表值sigAvgDFA(σ)的计算公式如下:
Figure BDA0002848419510000074
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动〈i,i+1〉的直接跟随活动代表值;
Figure BDA0002848419510000075
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量;
最后,根据计算出的每条轨迹的平均活动代表值与平均直接跟随活动代表值,计算事件日志中的每一条轨迹代表值;所述轨迹代表值是指1减去该轨迹的平均活动代表值和平均跟随活动代表值之和的一半所得到的结果;对于事件日志中的每条轨迹,计算它们的轨迹代表值,并将所有的轨迹按照轨迹代表值的大小,从小到大进行排序;其中,所述轨迹代表值的计算公式如下:
Figure BDA0002848419510000081
式中,σ表示事件日志中的轨迹,sigAvgA(σ)表示轨迹σ的平均活动代表值,sigAvgDFA(σ)表示轨迹σ的平均直接跟随活动代表值。
进一步,所述事件日志轨迹选择模块执行如下操作:
根据预先输入的特定的采样率,计算采样率与原始日志大小乘积后取整得到的整数,即为所选择的轨迹数量N,针对事件日志轨迹排序模块中已经排序好的所有轨迹进行选择,选取前N条轨迹组成新的事件日志,即为采样日志L';其中,所述采样率是指事先确定最终所得日志占原始日志的百分比,所述原始日志大小为|L|,即事件日志L中的轨迹数。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了对于大规模事件日志,采用较以往更高效的业务流程事件日志采样方法对其采样,选择一个具有代表性的轨迹子集组成样本日志,利于处理大规模事件日志。
2、本发明首次使用较以往更高效的业务流程事件日志采样方法进行采样,更有效率,极大地提高了事件日志的采样效率,为过程挖掘领域提供了一种新的采样方法。
3、本发明可以结合大数据领域,部署在分布式系统上,能更高效地处理大规模的事件日志。
4、本发明在对大规模日志进行过程发现方面具有广泛的使用空间,实用性强,在过程发现、一致性检查等诸多过程挖掘领域有广阔前景。
附图说明
图1为本发明方法逻辑流程示意图。
图2为本发明的Prom工具插件实现方法界面图。
图3为本发明方法的选择采样率界面图。
图4为本发明用例原始事件日志图。
图5为本发明用例采样事件日志图。
图6为本发明系统架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种业务流程事件日志采样方法,如图1所示,该方法已经在Prom工具以插件的方式实现,如图2所示;该采样方法通过获取事件日志的活动数与直接跟随活动数量,再分别计算事件日志的活动代表值和直接跟随活动代表值、事件日志中每条轨迹的平均活动代表值和平均直接跟随活动的代表值,再根据轨迹代表值进行排序,最后采用特定的采样率产生采样日志;具体包括以下步骤:
1)获取事件日志的活动数和直接跟随活动数量。其中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示。事件可以有很多属性,本发明中用活动表示事件;所述直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作〈a,b〉;
采用上述步骤,事件日志L={<a,b,d,e>,<a,c,e>,<b,c>,<b,d>},在Prom工具中如图4所示;在事件日志L中,共包含4条轨迹,有a,b,c,d和e共5个活动,直接跟随活动有<a,b>,<b,d>,<d,e>,<a,c>,<c,e>,<b,c>共6个。
2)计算事件日志的活动代表值和直接跟随活动代表值,其中活动代表值与直接跟随活动代表值的计算如下:
事件日志中活动a的活动代表值sig(a)的计算公式如下:
Figure BDA0002848419510000101
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,
Figure BDA0002848419510000102
表示在事件日志L中,包含活动a的轨迹σi∈L(1≤i≤|L|)的总数,|L|表示事件日志L中的轨迹数;
经过本步骤,事件日志L={<a,b,d,e>,<a,c,e>,<b,c>,<b,d>}中,|L|=4,包含活动a的轨迹有<a,b,d,e>,<a,c,e>共2条轨迹,所以sig(a)=2/4=1/2;包含活动b的轨迹有<a,b,d,e>,<b,c>,<b,d>共3条轨迹,所以sig(b)=3/4;包含活动c的轨迹有<a,c,e>,<b,c>共2条轨迹,所以sig(c)=2/4=1/2;包含活动d的轨迹有<a,b,d,e>,<b,d>共2条轨迹,所以sig(d)=2/4=1/2;包含活动e的轨迹有<a,b,d,e>,<a,c,e>共2条轨迹,所以sig(e)=2/4=1/2;
事件日志L中直接跟随活动<a,b>的直接跟随活动代表值sig(a,b)的计算公式如下:
Figure BDA0002848419510000111
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,
Figure BDA0002848419510000112
表示在事件日志L中,包含直接跟随活动<a,b>的轨迹σi∈L(1≤i≤|L|)的总数,|L|表示事件日志L中的轨迹数;
本步骤中,事件日志L={<a,b,d,e>,<a,c,e>,<b,c>,<b,d>},|L|=4,包含直接跟随活动〈a,b〉的轨迹有<a,b,d,e>共1条轨迹,所以sig(a,b)=1/4;包含直接跟随活动〈b,d〉的轨迹有<a,b,d,e>,<b,d>共2条轨迹,所以sig(b,d)=2/4=1/2;包含直接跟随活动<d,e〉的轨迹有<a,b,d,e>共1条轨迹,所以sig(d,e)=1/4;包含直接跟随活动<a,c〉的轨迹有<a,c,e>共1条轨迹,所以sig(a,c)=2/4=1/2;包含直接跟随活动<c,e〉的轨迹有<a,c,e>共1条轨迹,所以sig(c,e)=1/4;包含直接跟随活动<b,c>的轨迹有<b,c>共1条轨迹,所以sig(b,c)=1/4。
3)计算事件日志中每条轨迹的平均活动代表值和平均直接跟随活动代表值;
每条轨迹的平均活动代表值sigAvgA(σ)的计算方式如下:
Figure BDA0002848419510000113
式中,σ表示事件日志中的一条轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure BDA0002848419510000114
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
采用本步骤,事件日志L={<a,b,d,e>,<a,c,e>,<b,c>,<b,d>}中,有4条轨迹,分别记σ1=<a,b,d,e>,σ2=<a,c,e>,σ3=<b,c>,σ4=<b,d>;σ1共有a,b,d,e等4个活动,所以|σ1|=4,依次类推,|σ2|=3,|σ3|=2,|σ4|=2;所以sigAvgA(σ1)=sig(a)+sig(b)+sig(d)+sig(e)/|σ1|=9/16,同理,sigAvgA(σ2)=1/2,sigAvgA(σ3)=5/8,sigAvgA(σ4)=5/8;
每条轨迹的平均直接跟随活动代表值sigAvgDFA(σ)的计算方式如下:
Figure BDA0002848419510000121
式中,σ表示事件日志中的轨迹,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure BDA0002848419510000122
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量;
采用本步骤,事件日志L={<a,b,d,e>,<a,c,e>,<b,c>,<b,d>}中,有4条轨迹,分别记σ1=<a,b,d,e>,σ2=<a,c,e>,σ3=<b,c>,σ4=<b,d>。σ1共有<a,b>,<b,d>,<d,e>等3个直接跟随活动,所以|σ1|-1=3,依次类推,|σ2|-1=2,|σ3|-1=1,|σ4|-1=1。所以sigAvgDFA(σ1)=sig(a,b)+sig(b,d)+sig(d,e)/(|σ1|-1)=1/3,同理,sigAvgDFA(σ2)=1/4,sigAvgDFA(σ3)=1/4,sigAvgDFA(σ4)=1/2。
4)计算事件日志中每条轨迹的代表值,并根据所得轨迹代表值对轨迹排序;所述轨迹代表值是指1减去该轨迹的平均活动代表值和平均跟随活动代表值之和的一半所得到的结果。对于事件日志中的每条轨迹,计算它们的轨迹代表值,并将所有的轨迹按照轨迹代表值的大小,从小到大进行排序;其中,轨迹代表值的计算公式如下:
Figure BDA0002848419510000123
其中,σ表示事件日志中的轨迹,sigAvgA(σ)表示轨迹σ的平均活动代表值,sigAvgDFA(σ)表示轨迹σ的平均直接跟随活动代表值;
采用本步骤,事件日志L={<a,b,d,e>,<a,c,e>,<b,c>,<b,d>}中,有4条轨迹,分别记σ1=<a,b,d,e>,σ2=<a,c,e>,σ3=<b,c>,σ4=<b,d>。sig(σ1)=1-(9/16+1/3)/2=53/96,同理sig(σ2)=5/8,sig(σ3)=9/16,sig(σ4)=7/16。
在本步骤中,根据前面计算的轨迹代表值,从小到大排序为σ4132
所述
Figure BDA0002848419510000131
其中,σ表示事件日志中的轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure BDA0002848419510000132
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
所述
Figure BDA0002848419510000133
其中,σ表示事件日志中的轨迹,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure BDA0002848419510000134
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量。
5)根据特定的采样率选择前N条轨迹,包括如下步骤:
5.1)确定特定的采样率为0.3,如图3所示;
5.2)计算步骤5.1)中的采样率与原始日志大小(即|L|,为事件日志L中的轨迹数)的乘积,再取整;
在本步骤中计算的值为4*0.3=1.2,向下取整为1;
5.3)从前面步骤4)排序好的轨迹进行选择,选取步骤5.2)得到的整数条轨迹;
在本步骤中,根据前面步骤4)的排序,选择前1条轨迹即σ4,组成采样日志L',在Prom工具中运行的结果如图5所示。
实施例2
本实施例公开了一种业务流程事件日志的采样系统,系统架构如图6所示,包含数据获取模块、事件日志代表值计算模块、事件日志轨迹排序模块、事件日志轨迹选择模块,其中:
所述数据获取模块获取事件日志的活动数和直接跟随活动数量,用于事件日志代表值计算模块来计算活动代表值和直接跟随活动代表值;其中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作〈a,b>;
所述事件日志代表值计算模块用于计算事件日志的活动代表值和直接跟随活动代表值,然后再对每一条轨迹计算平均活动代表值和平均直接跟随活动代表值,最后计算事件日志中的每一条轨迹代表值;
所述事件日志轨迹排序模块用于根据事件日志代表值计算模块中的轨迹代表值对轨迹按从小到大的顺序进行排序;
所述事件日志轨迹选择模块用于根据预先输入的特定的采样率,对于已经按照轨迹代表值大小排序好的所有轨迹,选取前N条轨迹组成新的事件日志,即为采样日志。
所述事件日志代表值计算模块执行如下操作:
根据数据获取模块得出的事件日志的各个活动代表值和直接跟随活动代表值,先计算出事件日志活动代表值和直接跟随活动代表值;所述活动代表值是指事件日志中一个活动在所有轨迹中出现的次数与事件日志中的所有活动数量的比值;所述直接跟随活动代表值是指事件日志中一个直接跟随活动在所有轨迹中出现的次数与事件日志中的所有直接跟随活动数量的比值;其中,活动代表值与直接跟随活动代表值的计算如下:
事件日志中活动a的活动代表值sig(a)的计算公式如下:
Figure BDA0002848419510000151
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,1≤i≤|L|;
Figure BDA0002848419510000152
表示在事件日志L中,包含活动a的轨迹σi∈L的总数,|L|表示事件日志L中的轨迹数;
事件日志L中直接跟随活动<a,b>的直接跟随活动代表值sig(a,b)的计算公式如下:
Figure BDA0002848419510000153
式中,
Figure BDA0002848419510000154
表示在事件日志L中,包含直接跟随活动<a,b>的轨迹σi∈L的总数;
然后根据计算出事件日志活动代表值和直接跟随活动代表值,对每一条轨迹计算平均活动代表值和平均直接跟随活动代表值;所述轨迹的平均活动代表值是指对该轨迹中的所有活动的活动代表值求和,然后除以该轨迹中的活动总数;所述轨迹的平均直接跟随活动代表值是指对该轨迹中的所有直接跟随活动的直接跟随活动代表值求和,然后除以该轨迹中的直接跟随活动总数;其中,每条轨迹的平均活动代表值与平均直接跟随活动代表值的计算如下:
每条轨迹的平均活动代表值sigAvgA(σ)的计算公式如下:
Figure BDA0002848419510000161
式中,σ表示事件日志中的轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure BDA0002848419510000162
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
每条轨迹的平均直接跟随活动代表值sigAvgDFA(σ)的计算公式如下:
Figure BDA0002848419510000163
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure BDA0002848419510000164
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量;
最后,根据计算出的每条轨迹的平均活动代表值与平均直接跟随活动代表值,计算事件日志中的每一条轨迹代表值;所述轨迹代表值是指1减去该轨迹的平均活动代表值和平均跟随活动代表值之和的一半所得到的结果;对于事件日志中的每条轨迹,计算它们的轨迹代表值,并将所有的轨迹按照轨迹代表值的大小,从小到大进行排序;其中,所述轨迹代表值的计算公式如下:
Figure BDA0002848419510000165
式中,σ表示事件日志中的轨迹,sigAvgA(σ)表示轨迹σ的平均活动代表值,sigAvgDFA(σ)表示轨迹σ的平均直接跟随活动代表值。
所述事件日志轨迹选择模块执行如下操作:
根据预先输入的特定的采样率,计算采样率与原始日志大小乘积后取整得到的整数,即为所选择的轨迹数量N,针对事件日志轨迹排序模块中已经排序好的所有轨迹进行选择,选取前N条轨迹组成新的事件日志,即为采样日志L';其中,所述采样率是指事先确定最终所得日志占原始日志的百分比,默认为0.3,所述原始日志大小为|L|,即事件日志L中的轨迹数。
综上所述,在采用以上方案后,本发明为现有过程发现方法不能正确处理大规模事件日志中的信息,而且会导致发现过程模型的低效率提供了新的方法,能够有效地通过采样获取代表性的样本日志,极大地降低了大规模事件日志过程发现的时间复杂度,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (2)

1.一种业务流程事件日志采样方法,其特征在于,包括以下步骤:
1)获取事件日志的活动数和直接跟随活动数量;
所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有多个属性,用活动表示事件;所述直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>;
2)根据步骤1)获取的活动数和直接跟随活动数量计算事件日志的活动代表值和直接跟随活动代表值,具体如下:
结合事件日志的活动数和直接跟随活动数,求出事件日志的活动代表值和直接跟随活动代表值;所述活动代表值是指事件日志中一个活动在所有轨迹中出现的次数与事件日志中的所有活动数量的比值;所述直接跟随活动代表值是指事件日志中一个直接跟随活动在所有轨迹中出现的次数与事件日志中的所有直接跟随活动数量的比值;其中,活动代表值与直接跟随活动代表值的计算如下:
事件日志中活动a的活动代表值sig(a)的计算公式如下:
Figure FDA0003568752300000011
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,1≤i≤|L|;
Figure FDA0003568752300000012
表示在事件日志L中,包含活动a的轨迹σi∈L的总数,|L|表示事件日志L中的轨迹数;
事件日志L中直接跟随活动<a,b>的直接跟随活动代表值sig(a,b)的计算公式如下:
Figure FDA0003568752300000021
式中,
Figure FDA0003568752300000022
表示在事件日志L中,包含直接跟随活动<a,b>的轨迹σi∈L的总数;
3)根据步骤2)获得的活动代表值和直接跟随活动代表值计算事件日志中每条轨迹的平均活动代表值和平均直接跟随活动代表值,具体如下:
根据步骤2)得出的事件日志的各个活动代表值和直接跟随活动代表值,计算出每条轨迹的平均活动代表值和平均直接跟随活动的代表值;所述轨迹的平均活动代表值是指对该轨迹中的所有活动的活动代表值求和,然后除以该轨迹中的活动总数;所述轨迹的平均直接跟随活动代表值是指对该轨迹中的所有直接跟随活动的直接跟随活动代表值求和,然后除以该轨迹中的直接跟随活动总数;其中,每条轨迹的平均活动代表值与平均直接跟随活动代表值的计算如下:
每条轨迹的平均活动代表值sigAvgA(σ)的计算公式如下:
Figure FDA0003568752300000023
式中,σ表示事件日志中的轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure FDA0003568752300000024
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
每条轨迹的平均直接跟随活动代表值sigAvgDFA(σ)的计算公式如下:
Figure FDA0003568752300000025
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure FDA0003568752300000031
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量;
4)根据步骤3)获得的每条轨迹的平均活动代表值和平均直接跟随活动代表值计算事件日志中每条轨迹代表值,并根据所得轨迹代表值对轨迹排序,具体如下:
根据步骤3)得到的事件日志中每条轨迹的平均活动代表值和平均直接跟随活动的代表值,计算出每条轨迹的代表值;所述轨迹代表值是指1减去该轨迹的平均活动代表值和平均跟随活动代表值之和的一半所得到的结果;对于事件日志中的每条轨迹,计算它们的轨迹代表值,并将所有的轨迹按照轨迹代表值的大小,从小到大进行排序;其中,所述轨迹代表值的计算公式如下:
Figure FDA0003568752300000032
式中,σ表示事件日志中的轨迹,sigAvgA(σ)表示轨迹σ的平均活动代表值,sigAvgDFA(σ)表示轨迹σ的平均直接跟随活动代表值;
所述
Figure FDA0003568752300000033
式中,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure FDA0003568752300000034
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
所述
Figure FDA0003568752300000035
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure FDA0003568752300000036
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量;
5)根据设定的采样率计算出所选择的轨迹数量N,依次选择排序后的前N条轨迹,组成新的日志即为采样日志,具体如下:
根据预先输入的采样率,计算采样率与原始日志大小乘积后取整得到的整数,即为所选择的轨迹数量N,针对步骤4)中已经排序好的所有轨迹进行选择,选取前N条轨迹组成新的事件日志,即为采样日志L′;其中,所述采样率是指事先确定最终所得日志占原始日志的百分比,所述原始日志大小为|L|,即事件日志L中的轨迹数。
2.一种业务流程事件日志采样系统,其特征在于,包括数据获取模块、事件日志代表值计算模块、事件日志轨迹排序模块、事件日志轨迹选择模块;其中:
所述数据获取模块获取事件日志的活动数和直接跟随活动数量,用于事件日志代表值计算模块来计算活动代表值和直接跟随活动代表值;其中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有多个属性,用活动表示事件,所述直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>;
所述事件日志代表值计算模块用于计算事件日志的活动代表值和直接跟随活动代表值,然后再对每一条轨迹计算平均活动代表值和平均直接跟随活动代表值,最后计算事件日志中的每一条轨迹代表值;
所述事件日志轨迹排序模块用于根据事件日志代表值计算模块中的轨迹代表值对轨迹按从小到大的顺序进行排序;
所述事件日志轨迹选择模块用于根据预先输入的采样率,对于已经按照轨迹代表值大小排序好的所有轨迹,选取前N条轨迹组成新的事件日志,即为采样日志;
所述事件日志代表值计算模块执行如下操作:
根据数据获取模块得出的事件日志的各个活动代表值和直接跟随活动代表值,先计算出事件日志活动代表值和直接跟随活动代表值;所述活动代表值是指事件日志中一个活动在所有轨迹中出现的次数与事件日志中的所有活动数量的比值;所述直接跟随活动代表值是指事件日志中一个直接跟随活动在所有轨迹中出现的次数与事件日志中的所有直接跟随活动数量的比值;其中,活动代表值与直接跟随活动代表值的计算如下:
事件日志中活动a的活动代表值sig(a)的计算公式如下:
Figure FDA0003568752300000051
式中,L表示事件日志,σi表示事件日志L中的第i条轨迹,1≤i≤|L|;
Figure FDA0003568752300000052
表示在事件日志L中,包含活动a的轨迹σi∈L的总数,|L|表示事件日志L中的轨迹数;
事件日志L中直接跟随活动<a,b>的直接跟随活动代表值sig(a,b)的计算公式如下:
Figure FDA0003568752300000053
式中,
Figure FDA0003568752300000054
表示在事件日志L中,包含直接跟随活动<a,b>的轨迹σi∈L的总数;
然后根据计算出事件日志活动代表值和直接跟随活动代表值,对每一条轨迹计算平均活动代表值和平均直接跟随活动代表值;所述轨迹的平均活动代表值是指对该轨迹中的所有活动的活动代表值求和,然后除以该轨迹中的活动总数;所述轨迹的平均直接跟随活动代表值是指对该轨迹中的所有直接跟随活动的直接跟随活动代表值求和,然后除以该轨迹中的直接跟随活动总数;其中,每条轨迹的平均活动代表值与平均直接跟随活动代表值的计算如下:
每条轨迹的平均活动代表值sigAvgA(σ)的计算公式如下:
Figure FDA0003568752300000061
式中,σ表示事件日志中的轨迹,sig(i)表示轨迹σ中的活动i的活动代表值,
Figure FDA0003568752300000062
表示在轨迹σ中的所有活动的活动代表值的总和,|σ|表示轨迹σ中的活动数;
每条轨迹的平均直接跟随活动代表值sigAvgDFA(σ)的计算公式如下:
Figure FDA0003568752300000063
式中,sig(i,i+1)表示轨迹σ中的直接跟随活动<i,i+1>的直接跟随活动代表值;
Figure FDA0003568752300000064
表示在轨迹σ中的所有直接跟随活动代表值的总和,|σ|-1表示轨迹σ中的直接跟随活动数量;
最后,根据计算出的每条轨迹的平均活动代表值与平均直接跟随活动代表值,计算事件日志中的每一条轨迹代表值;所述轨迹代表值是指1减去该轨迹的平均活动代表值和平均跟随活动代表值之和的一半所得到的结果;对于事件日志中的每条轨迹,计算它们的轨迹代表值,并将所有的轨迹按照轨迹代表值的大小,从小到大进行排序;其中,所述轨迹代表值的计算公式如下:
Figure FDA0003568752300000071
式中,σ表示事件日志中的轨迹,sigAvgA(σ)表示轨迹σ的平均活动代表值,sigAvgDFA(σ)表示轨迹σ的平均直接跟随活动代表值;
所述事件日志轨迹选择模块执行如下操作:
根据预先输入的采样率,计算采样率与原始日志大小乘积后取整得到的整数,即为所选择的轨迹数量N,针对事件日志轨迹排序模块中已经排序好的所有轨迹进行选择,选取前N条轨迹组成新的事件日志,即为采样日志L′;其中,所述采样率是指事先确定最终所得日志占原始日志的百分比,所述原始日志大小为|L|,即事件日志L中的轨迹数。
CN202011519153.9A 2020-12-21 2020-12-21 一种业务流程事件日志采样方法与系统 Active CN112632018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011519153.9A CN112632018B (zh) 2020-12-21 2020-12-21 一种业务流程事件日志采样方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011519153.9A CN112632018B (zh) 2020-12-21 2020-12-21 一种业务流程事件日志采样方法与系统

Publications (2)

Publication Number Publication Date
CN112632018A CN112632018A (zh) 2021-04-09
CN112632018B true CN112632018B (zh) 2022-05-17

Family

ID=75320801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011519153.9A Active CN112632018B (zh) 2020-12-21 2020-12-21 一种业务流程事件日志采样方法与系统

Country Status (1)

Country Link
CN (1) CN112632018B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704215B (zh) * 2021-08-10 2023-10-13 北京杰成合力科技有限公司 业务过程事件日志采样方法、系统、存储介质及计算设备
CN114020593B (zh) * 2021-11-08 2024-05-14 山东理工大学 一种基于轨迹聚类的异质流程日志采样方法与系统
CN114238243B (zh) * 2021-12-17 2023-02-03 杭州电子科技大学 一种用于流程发现的局部日志采样方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN105117402A (zh) * 2015-07-16 2015-12-02 中国人民大学 基于分段保序哈希的日志数据分片方法及装置
CN106095955A (zh) * 2016-06-16 2016-11-09 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
CN106503872A (zh) * 2016-11-29 2017-03-15 中国人民解放军国防科学技术大学 一种基于基础业务活动集的业务流程系统构建方法
CN106557881A (zh) * 2016-11-29 2017-04-05 中国人民解放军国防科学技术大学 一种基于业务活动执行顺序的业务流程系统构建方法
CN109101230A (zh) * 2018-07-10 2018-12-28 云南大学 一种数据驱动的双层次软件过程挖掘方法及系统
CN111191897A (zh) * 2019-12-23 2020-05-22 浙江传媒学院 基于双向gru神经网络的业务流程在线合规性预测方法及系统
CN111930903A (zh) * 2020-06-30 2020-11-13 山东师范大学 基于深度日志序列分析的系统异常检测方法及系统
CN111970150A (zh) * 2020-08-20 2020-11-20 北京达佳互联信息技术有限公司 日志信息的处理方法、装置、服务器及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9766969B2 (en) * 2015-06-18 2017-09-19 Xerox Corporation Assessing and improving quality of event logs including prioritizing and classifying errors into error-perspective and error-type classifications

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN105117402A (zh) * 2015-07-16 2015-12-02 中国人民大学 基于分段保序哈希的日志数据分片方法及装置
CN106095955A (zh) * 2016-06-16 2016-11-09 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
CN106503872A (zh) * 2016-11-29 2017-03-15 中国人民解放军国防科学技术大学 一种基于基础业务活动集的业务流程系统构建方法
CN106557881A (zh) * 2016-11-29 2017-04-05 中国人民解放军国防科学技术大学 一种基于业务活动执行顺序的业务流程系统构建方法
CN109101230A (zh) * 2018-07-10 2018-12-28 云南大学 一种数据驱动的双层次软件过程挖掘方法及系统
CN111191897A (zh) * 2019-12-23 2020-05-22 浙江传媒学院 基于双向gru神经网络的业务流程在线合规性预测方法及系统
CN111930903A (zh) * 2020-06-30 2020-11-13 山东师范大学 基于深度日志序列分析的系统异常检测方法及系统
CN111970150A (zh) * 2020-08-20 2020-11-20 北京达佳互联信息技术有限公司 日志信息的处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN112632018A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112632018B (zh) 一种业务流程事件日志采样方法与系统
Chen et al. Shallowing deep networks: Layer-wise pruning based on feature representations
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
US11915104B2 (en) Normalizing text attributes for machine learning models
CN113673697A (zh) 基于相邻卷积的模型剪枝方法、装置及存储介质
CN104424339A (zh) 数据分析的方法、装置及系统
CN104391879B (zh) 层次聚类的方法及装置
CN110955734B (zh) 逻辑节点的分布式签名决策系统及其方法
US11443553B1 (en) Scalable training data preparation pipeline and efficient distributed trainer for deep neural networks in facial recognition
CN111523831A (zh) 风险团伙的识别方法、装置、存储介质和计算机设备
US7991617B2 (en) Optimum design management apparatus from response surface calculation and method thereof
Wang et al. Time-variant graph classification
CN114020593B (zh) 一种基于轨迹聚类的异质流程日志采样方法与系统
Barends et al. Dietary specialization and habitat shifts in a clade of Afro-Asian colubrid snakes (Colubridae: Colubrinae)
Szwabe et al. Semantically enhanced collaborative filtering based on RSVD
CN103336800A (zh) 基于行为分析的指纹存储比对的方法
CN113010597A (zh) 一种面向海洋大数据的并行关联规则挖掘方法
JP5928165B2 (ja) 異常遷移パターン検出方法、プログラム及び装置
CN113971224A (zh) 图像检索系统、方法和相关设备
CN114780368B (zh) 表数据同步方法与装置
Bezerra et al. Bioinformatics data analysis using an artificial immune network
CN110377891A (zh) 事件分析文章的生成方法、装置、设备及计算机可读存储介质
Ma et al. Video event classification and image segmentation based on noncausal multidimensional hidden markov models
CN115661861A (zh) 基于动态时序多维自适应图卷积网络的骨架行为识别方法
CN110941638A (zh) 应用分类规则库构建方法、应用分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211227

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen Jiecheng Software Co.,Ltd.

Address before: 266 Xincun West Road, Zhangdian District, Zibo City, Shandong Province

Applicant before: Shandong University of Technology

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230612

Address after: 408, 4th Floor, No. 6 Zhongguancun South Street, Haidian District, Beijing, 100080

Patentee after: Beijing Jiecheng Heli Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: Shenzhen Jiecheng Software Co.,Ltd.

TR01 Transfer of patent right