CN110046136A - 一种过程挖掘领域中自动补全不完整业务事件日志的方法 - Google Patents
一种过程挖掘领域中自动补全不完整业务事件日志的方法 Download PDFInfo
- Publication number
- CN110046136A CN110046136A CN201910331822.0A CN201910331822A CN110046136A CN 110046136 A CN110046136 A CN 110046136A CN 201910331822 A CN201910331822 A CN 201910331822A CN 110046136 A CN110046136 A CN 110046136A
- Authority
- CN
- China
- Prior art keywords
- log
- track
- sub
- activity
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008569 process Effects 0.000 title claims abstract description 31
- 238000005065 mining Methods 0.000 title claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 2
- 230000009975 flexible effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 235000015927 pasta Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于过程挖掘领域,具体是一种将现代信息系统产生的不完整事件日志自动补全的方法,保证发现的过程模型的精确性。主要分为四个步骤:A.生成两种类型的配置文件;B.对FTF进行聚类算法;C.将缺失的轨迹匹配到对应的子日志中;D.补全轨迹中缺失的活动。E.挖掘子过程模型。本发明针对过程挖掘领域首次将欧式距离与日志中轨迹数量结合来确定相似度结果,确保缺失的轨迹与日志具有更高的相似度。
Description
技术领域
本发明属于过程挖掘领域,具体是一种将现代信息系统产生的不完整事件日志自动补全的方法,保证发现的过程模型的精确性。
背景技术
激烈的市场竞争使得企业必须改变传统的经营模式和运作方式。如何有效的管理、分析业务流程,从而为企业的决策做出贡献成为企业最关心的问题之一。因此,企业内部建立了信息系统管理机制以支持业务流程的执行及其事件日志的记录。近年来,过程挖掘技术已经被证明了可以很好地表达和分析信息系统中业务的实际执行过程。该技术包括过程模型的发现,合规性检查以及改进,目的是为相关领域应用中的过程发现、检测和改进提供新的手段。
过程模型发现是过程挖掘领域中最重要的学习任务,其起点是一些由在信息系统执行过程中所产生的事件日志,基于这些事件日志,利用现有的过程发现技术,业务过程模型将会被发现、构造。在一般环境下,发现的过程模型可以很好地表示业务执行过程。然而,在一些高度灵活的环境下,比如医疗,客户关系管理,产生的事件日志包含了大量的且复杂的执行过程。过程发现算法就可能会产生类似于”意大利面过程”的高度复杂且结构化程度低的过程模型,这会使得在分析过程模型所反映的实际过程时增加难度。因此,对于这些来自灵活环境下的日志,大量的研究人员利用了轨迹聚类的思想,将这些日志分离成几组相似的子日志,然后再分别产生对应的子过程模型。但是,这些工作都是基于事件日志是完整的没有缺失任何数据值的假设条件下进行的。在现实生活中,数据可能会由于各种各样的原因丢失,例如,系统崩溃或人为原因。如果使用不完整的复杂事件日志势必会使得构造的子过程模型的表达与真实的业务过程存在偏差,从而影响业务过程的分析结果。
发明内容
1.一种过程挖掘领域中自动补全不完整事件日志方法主要包括以下四个步骤:
A.生成两种类型的配置文件:通过扫描事件日志,将完整的轨迹和不完整的轨迹进行分离,分别组合成完整的事件日志与不完整的事件日志。将这两种类型的日志分别生成对应的配置文件,即完整轨迹配置文件(FTF)和不完整轨迹配置文件(FTF)。
B.对FTF进行聚类算法:利用自组织映射算法(一种无监督学习算法)对完整的轨迹日志进行聚类,将这些轨迹分离成几组不同的子日志。这里,每一个子日志之间保持着较大不相似而子日志内的轨迹有高度相似性的特征。
C.将缺失的轨迹匹配到对应的子日志中:在计算缺失轨迹与子日志的相似度时,首先计算每一个子日志的平均轨迹向量,具体的计算方法为:
其中,|Ci|表示第i个子日志中轨迹的个数,tvi表示该子日志中第i个轨迹向量。然后计算缺失轨迹与子日志之间的欧式距离,具体的计算方法为:
其中,MT表示缺失轨迹的配置文件,MTij表示第i个缺失轨迹的配置文件中第j个向量的值。最后,如果ED之间的差值小于某个预先设定的阈值,则由下面的公式来确定最终的相似度:
D.补全轨迹中缺失的活动:找出轨迹中缺失活动的直接前继活动#activity·与直接后继活动#·activity,之后在缺失轨迹所对应的子日中统计#activity·的直接后继活动集合S1与#.activity的直接前继活动集合S2。根据对S1与S2交集结果的分析得出缺失的活动,具体的方法为:
1.如果S1与S2的交集不为空,则交集中数量最多的活动被确定为缺失的活动。
2.如果S1与S2的交集为空但S1与S2不为空,则两个集合中数量最多的活动被确认为缺失的活动。
3.否则,丢弃此缺失轨迹,即不允许该轨迹出现在子日志中。
E.挖掘子过程模型:将最终得到的完整子日志应用于过程挖掘算法从而获得对应的子过程模型。
本发明对比已有技术具有以下显著优点:
1.在计算缺失的轨迹与子日志之间的相识度时,我们不仅考虑了距离度量还加入了子日志中轨迹数量这一因素,从而使得计算的相似度更加可靠。
2.对于过程挖掘领域,提出的通用框架可以应用于任何一个不完整的事件日志中,从而使得现有的过程挖掘算法使用这些补全的完整日志最终获得更加全面且精确的过程模型。
附图说明
图1是本发明的总体流程图。
图2是一个不完全事件日志及其对应的配置文件。
图3是一个不完全事件日志轨迹聚类结果展示图。
图4是一个不完全事件日志中对应的过程模型。
图5是一个不完全事件日志利用补全算法而生成的过程模型。
图6是三个真实事件日志中预测出缺失活动的成功率与失败率结果。
具体实施方式
下面结合附图,说明本发明的实施方式。实施例中假定一个不完全事件日志L中包含16条完整的轨迹:
<ACBGFH,ABFCGH,ACGBFH,ABCGFIL,ABFCGIKL,ACBFGIJL,ACBFGIJL,ABCEGFIJL,ABEFCGIL,ACGBEFIJL,ABCEDFGIL,ACDBEFGIL,ABCFDGIKL,ACDBFGIKL,ABCDGFIKL,ACBFDGIL>,以及一条缺失的轨迹:<ABC-GFIJL>。
图1是本发明的总体流程图,补全事件日志中缺失的轨迹活动具体实现方式为:
A.生成两种类型的配置文件:通过扫描L,将完整的轨迹和不完整的轨迹进行分离,分别组合成完整的事件日志与不完整的事件日志。将这两种类型的日志分别生成对应的配置文件,即完整轨迹配置文件(FTF)和不完整轨迹配置文件(FTF)。其结果如图2所示。
B.对FTF进行聚类算法:利用自组织映射算法(一种无监督学习算法)对完整的轨迹日志进行聚类,将这些轨迹分离成几组不同的子日志。这里,每一个子日志之间保持着较大不相似而子日志内的轨迹有高度相似性的特征。L被分离成4组不同的聚类结果,如图3所示。
C.将缺失的轨迹匹配到对应的子日志中:在计算缺失轨迹与子日志的相似度时,首先计算每一个子日志的平均轨迹向量,具体的计算方法为:
其中,|Ci|表示第i个子日志中轨迹的个数,tvi表示该子日志中第i个轨迹向量。比如,然后计算缺失轨迹与子日志之间的欧式距离,具体的计算方法为:
其中,MT表示缺失轨迹的配置文件,MTij表示第i个缺失轨迹的配置文件中第j个向量的值。对于4组聚类结果,得出4个欧式距离,即ED1=0.477,ED2=0.500,ED3=0.333,ED4=0.407。
最后,如果ED之间的差值小于某个预先设定的阈值(0.15),则由下面的公式来确定最终的相似度:
经过以上步骤可以得知,FS1=4.931>FS2=3.2,因此缺失的轨迹与C1最相似。由C1对应的子日志产生的过程模型如图4所示。
D.补全轨迹中缺失的活动:找出轨迹中缺失活动的直接前继活动C与直接后继活动G,之后在缺失轨迹所对应的子日中统计C.的直接后继活动集合S1与.G的直接前继活动集合S2。根据对S1与S2交集结果的分析得出缺失的活动,具体的方法为:
1.如果S1与S2的交集不为空,则交集中数量最多的活动被确定为缺失的活动。
2.如果S1与S2的交集为空但S1与S2不为空,则两个集合中数量最多的活动被确认为缺失的活动。
3.否则,丢弃此缺失轨迹,即不允许该轨迹出现在子日志中。
经过以上步骤可以得S1∩S2={B,F,D}以及对应的数量|S1∩S2|={1.5,1.5,2},因此,缺失轨迹中缺失的活动被确定为D。
E.挖掘子过程模型:将最终得到的完整子日志应用于过程挖掘算法从而获得对应的子过程模型。如图5所示。
在三个真实事件日志中预测出缺失活动的成功率与失败率结果如图6所示。
Claims (1)
1.一种过程挖掘领域中自动补全不完整事件日志方法主要包括以下四个步骤:
A.生成两种类型的配置文件:通过扫描事件日志,将完整的轨迹和不完整的轨迹进行分离,分别组合成完整的事件日志与不完整的事件日志。将这两种类型的日志分别生成对应的配置文件,即完整轨迹配置文件(FTF)和不完整轨迹配置文件(FTF)。
B.对FTF进行聚类算法:利用自组织映射算法(一种无监督学习算法)对完整的轨迹日志进行聚类,将这些轨迹分离成几组不同的子日志。这里,每一个子日志之间保持着较大不相似而子日志内的轨迹有高度相似性的特征。
C.将缺失的轨迹匹配到对应的子日志中:在计算缺失轨迹与子日志的相似度时,首先计算每一个子日志的平均轨迹向量,具体的计算方法为:
其中,|Ci|表示第i个子日志中轨迹的个数,tvi表示该子日志中第i个轨迹向量。然后计算缺失轨迹与子日志之间的欧式距离,具体的计算方法为:
其中,MT表示缺失轨迹的配置文件,MTij表示第i个缺失轨迹的配置文件中第j个向量的值。最后,如果ED之间的差值小于某个预先设定的阈值,则由下面的公式来确定最终的相似度:
D.补全轨迹中缺失的活动:找出轨迹中缺失活动的直接前继活动#activity·与直接后继活动#·activity,之后在缺失轨迹所对应的子日中统计#activity·的直接后继活动集合S1与#·activity的直接前继活动集合S2。根据对S1与S2交集结果的分析得出缺失的活动,具体的方法为:
1.如果S1与S2的交集不为空,则交集中数量最多的活动被确定为缺失的活动。
2.如果S1与S2的交集为空但S1与S2不为空,则两个集合中数量最多的活动被确认为缺失的活动。
3.否则,丢弃此缺失轨迹,即不允许该轨迹出现在子日志中。
E.挖掘子过程模型:将最终得到的完整子日志应用于过程挖掘算法从而获得对应的子过程模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910331822.0A CN110046136A (zh) | 2019-04-24 | 2019-04-24 | 一种过程挖掘领域中自动补全不完整业务事件日志的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910331822.0A CN110046136A (zh) | 2019-04-24 | 2019-04-24 | 一种过程挖掘领域中自动补全不完整业务事件日志的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110046136A true CN110046136A (zh) | 2019-07-23 |
Family
ID=67278875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910331822.0A Pending CN110046136A (zh) | 2019-04-24 | 2019-04-24 | 一种过程挖掘领域中自动补全不完整业务事件日志的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046136A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020593A (zh) * | 2021-11-08 | 2022-02-08 | 山东理工大学 | 一种基于轨迹聚类的异质流程日志采样方法与系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150142707A1 (en) * | 2013-11-15 | 2015-05-21 | Xerox Corporation | Method and system for clustering, modeling, and visualizing process models from noisy logs |
CN105718579A (zh) * | 2016-01-22 | 2016-06-29 | 浙江大学 | 一种基于上网日志挖掘和用户活动识别的信息推送方法 |
CN106095955A (zh) * | 2016-06-16 | 2016-11-09 | 杭州电子科技大学 | 基于业务流程日志和实体轨迹配对的行为模式挖掘方法 |
CN107169045A (zh) * | 2017-04-19 | 2017-09-15 | 中国人民解放军国防科学技术大学 | 一种基于时域特征的查询词自动补全方法与装置 |
CN107909344A (zh) * | 2017-11-21 | 2018-04-13 | 杭州电子科技大学 | 基于关系矩阵的工作流日志重复任务识别方法 |
CN109101230A (zh) * | 2018-07-10 | 2018-12-28 | 云南大学 | 一种数据驱动的双层次软件过程挖掘方法及系统 |
CN109146408A (zh) * | 2018-07-27 | 2019-01-04 | 安徽理工大学 | 一种基于不完备日志联合发生关系的行为变化挖掘新方法 |
-
2019
- 2019-04-24 CN CN201910331822.0A patent/CN110046136A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150142707A1 (en) * | 2013-11-15 | 2015-05-21 | Xerox Corporation | Method and system for clustering, modeling, and visualizing process models from noisy logs |
CN105718579A (zh) * | 2016-01-22 | 2016-06-29 | 浙江大学 | 一种基于上网日志挖掘和用户活动识别的信息推送方法 |
CN106095955A (zh) * | 2016-06-16 | 2016-11-09 | 杭州电子科技大学 | 基于业务流程日志和实体轨迹配对的行为模式挖掘方法 |
CN107169045A (zh) * | 2017-04-19 | 2017-09-15 | 中国人民解放军国防科学技术大学 | 一种基于时域特征的查询词自动补全方法与装置 |
CN107909344A (zh) * | 2017-11-21 | 2018-04-13 | 杭州电子科技大学 | 基于关系矩阵的工作流日志重复任务识别方法 |
CN109101230A (zh) * | 2018-07-10 | 2018-12-28 | 云南大学 | 一种数据驱动的双层次软件过程挖掘方法及系统 |
CN109146408A (zh) * | 2018-07-27 | 2019-01-04 | 安徽理工大学 | 一种基于不完备日志联合发生关系的行为变化挖掘新方法 |
Non-Patent Citations (2)
Title |
---|
JIUYUN XU; JIE LIU: "A Profile Clustering Based Event Logs Repairing Approach for Process Mining" * |
杨丽琴 等: "一种适用于多样性环境的业务流程挖掘方法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020593A (zh) * | 2021-11-08 | 2022-02-08 | 山东理工大学 | 一种基于轨迹聚类的异质流程日志采样方法与系统 |
CN114020593B (zh) * | 2021-11-08 | 2024-05-14 | 山东理工大学 | 一种基于轨迹聚类的异质流程日志采样方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022252398A1 (zh) | 基于船舶轨迹特征点提取的时空dp方法 | |
JP7282212B2 (ja) | Aiによるディープラーニングネットワークを学習させる方法及びこれを利用した学習装置 | |
CN109062763A (zh) | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 | |
CN111178623B (zh) | 一种基于多层机器学习的业务流程剩余时间预测方法 | |
CN107103205A (zh) | 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法 | |
CN115828112B (zh) | 一种故障事件的响应方法、装置、电子设备及存储介质 | |
CN104765768A (zh) | 海量人脸库的快速准确检索方法 | |
CN102682760A (zh) | 重叠语音检测方法和系统 | |
CN114428828A (zh) | 基于行驶轨迹挖掘新增道路方法、装置及电子设备 | |
CN106164896A (zh) | 用于发现复杂两对手方或多对手方关系的多维递归学习过程及系统 | |
CN114022904A (zh) | 一种基于两阶段的噪声鲁棒行人重识别方法 | |
CN112307975A (zh) | 融合语音与微表情的多模态情感识别方法及系统 | |
Liu et al. | Data adaptive functional outlier detection: Analysis of the Paris bike sharing system data | |
CN114020593B (zh) | 一种基于轨迹聚类的异质流程日志采样方法与系统 | |
Sun et al. | Boosting robust learning via leveraging reusable samples in noisy web data | |
Yue et al. | Online Speaker Diarization with Core Samples Selection. | |
CN112052233A (zh) | 一种基于上下文感知的多角度业务流程异常在线检测方法 | |
CN110046136A (zh) | 一种过程挖掘领域中自动补全不完整业务事件日志的方法 | |
CN113361752B (zh) | 一种基于多视角学习的蛋白质溶剂可及性预测方法 | |
CN116996337B (zh) | 基于物联网及麦克风切换技术的会议数据管理系统及方法 | |
CN116935329B (zh) | 一种类级别对比学习的弱监督文本行人检索方法及系统 | |
Dhyaram et al. | RANDOM SUBSET FEATURE SELECTION FOR CLASSIFICATION. | |
CN102034246A (zh) | 基于拓扑约束和匈牙利算法的高密度细胞追踪方法 | |
CN116821263B (zh) | 一种空间目标准实时关联定轨实现方法 | |
US20200379016A1 (en) | Waveform segmentation device and waveform segmentation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190723 |