CN110046136A

CN110046136A - 一种过程挖掘领域中自动补全不完整业务事件日志的方法

Info

Publication number: CN110046136A
Application number: CN201910331822.0A
Authority: CN
Inventors: 徐九韵; 刘杰; 张超; 孙忠顺
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-07-23

Abstract

本发明属于过程挖掘领域，具体是一种将现代信息系统产生的不完整事件日志自动补全的方法，保证发现的过程模型的精确性。主要分为四个步骤：A.生成两种类型的配置文件；B.对FTF进行聚类算法；C.将缺失的轨迹匹配到对应的子日志中；D.补全轨迹中缺失的活动。E.挖掘子过程模型。本发明针对过程挖掘领域首次将欧式距离与日志中轨迹数量结合来确定相似度结果，确保缺失的轨迹与日志具有更高的相似度。

Description

一种过程挖掘领域中自动补全不完整业务事件日志的方法

技术领域

本发明属于过程挖掘领域，具体是一种将现代信息系统产生的不完整事件日志自动补全的方法，保证发现的过程模型的精确性。

背景技术

激烈的市场竞争使得企业必须改变传统的经营模式和运作方式。如何有效的管理、分析业务流程，从而为企业的决策做出贡献成为企业最关心的问题之一。因此，企业内部建立了信息系统管理机制以支持业务流程的执行及其事件日志的记录。近年来，过程挖掘技术已经被证明了可以很好地表达和分析信息系统中业务的实际执行过程。该技术包括过程模型的发现，合规性检查以及改进，目的是为相关领域应用中的过程发现、检测和改进提供新的手段。

过程模型发现是过程挖掘领域中最重要的学习任务，其起点是一些由在信息系统执行过程中所产生的事件日志，基于这些事件日志，利用现有的过程发现技术，业务过程模型将会被发现、构造。在一般环境下，发现的过程模型可以很好地表示业务执行过程。然而，在一些高度灵活的环境下，比如医疗，客户关系管理，产生的事件日志包含了大量的且复杂的执行过程。过程发现算法就可能会产生类似于”意大利面过程”的高度复杂且结构化程度低的过程模型，这会使得在分析过程模型所反映的实际过程时增加难度。因此，对于这些来自灵活环境下的日志，大量的研究人员利用了轨迹聚类的思想，将这些日志分离成几组相似的子日志，然后再分别产生对应的子过程模型。但是，这些工作都是基于事件日志是完整的没有缺失任何数据值的假设条件下进行的。在现实生活中，数据可能会由于各种各样的原因丢失，例如，系统崩溃或人为原因。如果使用不完整的复杂事件日志势必会使得构造的子过程模型的表达与真实的业务过程存在偏差，从而影响业务过程的分析结果。

发明内容

1.一种过程挖掘领域中自动补全不完整事件日志方法主要包括以下四个步骤：

A.生成两种类型的配置文件：通过扫描事件日志，将完整的轨迹和不完整的轨迹进行分离，分别组合成完整的事件日志与不完整的事件日志。将这两种类型的日志分别生成对应的配置文件，即完整轨迹配置文件(FTF)和不完整轨迹配置文件(FTF)。

B.对FTF进行聚类算法：利用自组织映射算法(一种无监督学习算法)对完整的轨迹日志进行聚类，将这些轨迹分离成几组不同的子日志。这里，每一个子日志之间保持着较大不相似而子日志内的轨迹有高度相似性的特征。

C.将缺失的轨迹匹配到对应的子日志中：在计算缺失轨迹与子日志的相似度时，首先计算每一个子日志的平均轨迹向量，具体的计算方法为：

其中，|C_i|表示第i个子日志中轨迹的个数，tv_i表示该子日志中第i个轨迹向量。然后计算缺失轨迹与子日志之间的欧式距离，具体的计算方法为：

其中，MT表示缺失轨迹的配置文件，MT_ij表示第i个缺失轨迹的配置文件中第j个向量的值。最后，如果ED之间的差值小于某个预先设定的阈值，则由下面的公式来确定最终的相似度：

D.补全轨迹中缺失的活动：找出轨迹中缺失活动的直接前继活动#_activity·与直接后继活动#_·activity，之后在缺失轨迹所对应的子日中统计#_activity·的直接后继活动集合S₁与#_.activity的直接前继活动集合S₂。根据对S₁与S₂交集结果的分析得出缺失的活动，具体的方法为：

1.如果S₁与S₂的交集不为空，则交集中数量最多的活动被确定为缺失的活动。

2.如果S₁与S₂的交集为空但S₁与S₂不为空，则两个集合中数量最多的活动被确认为缺失的活动。

3.否则，丢弃此缺失轨迹，即不允许该轨迹出现在子日志中。

E.挖掘子过程模型：将最终得到的完整子日志应用于过程挖掘算法从而获得对应的子过程模型。

本发明对比已有技术具有以下显著优点：

1.在计算缺失的轨迹与子日志之间的相识度时，我们不仅考虑了距离度量还加入了子日志中轨迹数量这一因素，从而使得计算的相似度更加可靠。

2.对于过程挖掘领域，提出的通用框架可以应用于任何一个不完整的事件日志中，从而使得现有的过程挖掘算法使用这些补全的完整日志最终获得更加全面且精确的过程模型。

附图说明

图1是本发明的总体流程图。

图2是一个不完全事件日志及其对应的配置文件。

图3是一个不完全事件日志轨迹聚类结果展示图。

图4是一个不完全事件日志中对应的过程模型。

图5是一个不完全事件日志利用补全算法而生成的过程模型。

图6是三个真实事件日志中预测出缺失活动的成功率与失败率结果。

具体实施方式

下面结合附图，说明本发明的实施方式。实施例中假定一个不完全事件日志L中包含16条完整的轨迹:

<ACBGFH,ABFCGH,ACGBFH,ABCGFIL,ABFCGIKL,ACBFGIJL,ACBFGIJL,ABCEGFIJL,ABEFCGIL,ACGBEFIJL,ABCEDFGIL,ACDBEFGIL,ABCFDGIKL,ACDBFGIKL,ABCDGFIKL,ACBFDGIL>，以及一条缺失的轨迹：<ABC-GFIJL>。

图1是本发明的总体流程图，补全事件日志中缺失的轨迹活动具体实现方式为：

A.生成两种类型的配置文件：通过扫描L，将完整的轨迹和不完整的轨迹进行分离，分别组合成完整的事件日志与不完整的事件日志。将这两种类型的日志分别生成对应的配置文件，即完整轨迹配置文件(FTF)和不完整轨迹配置文件(FTF)。其结果如图2所示。

B.对FTF进行聚类算法：利用自组织映射算法(一种无监督学习算法)对完整的轨迹日志进行聚类，将这些轨迹分离成几组不同的子日志。这里，每一个子日志之间保持着较大不相似而子日志内的轨迹有高度相似性的特征。L被分离成4组不同的聚类结果，如图3所示。

其中，|C_i|表示第i个子日志中轨迹的个数，tv_i表示该子日志中第i个轨迹向量。比如，然后计算缺失轨迹与子日志之间的欧式距离，具体的计算方法为：

其中，MT表示缺失轨迹的配置文件，MT_ij表示第i个缺失轨迹的配置文件中第j个向量的值。对于4组聚类结果，得出4个欧式距离，即ED₁＝0.477，ED₂＝0.500，ED₃＝0.333，ED₄＝0.407。

最后，如果ED之间的差值小于某个预先设定的阈值(0.15)，则由下面的公式来确定最终的相似度：

经过以上步骤可以得知，FS₁＝4.931＞FS₂＝3.2，因此缺失的轨迹与C₁最相似。由C₁对应的子日志产生的过程模型如图4所示。

D.补全轨迹中缺失的活动：找出轨迹中缺失活动的直接前继活动C与直接后继活动G，之后在缺失轨迹所对应的子日中统计C.的直接后继活动集合S₁与.G的直接前继活动集合S₂。根据对S₁与S₂交集结果的分析得出缺失的活动，具体的方法为：

经过以上步骤可以得S₁∩S₂＝{B,F,D}以及对应的数量|S₁∩S₂|＝{1.5,1.5,2}，因此，缺失轨迹中缺失的活动被确定为D。

E.挖掘子过程模型：将最终得到的完整子日志应用于过程挖掘算法从而获得对应的子过程模型。如图5所示。

在三个真实事件日志中预测出缺失活动的成功率与失败率结果如图6所示。

Claims

D.补全轨迹中缺失的活动：找出轨迹中缺失活动的直接前继活动#_activity·与直接后继活动#·_activity，之后在缺失轨迹所对应的子日中统计#_activity·的直接后继活动集合S₁与#·_activity的直接前继活动集合S₂。根据对S₁与S₂交集结果的分析得出缺失的活动，具体的方法为：