CN103778051A - 基于l*算法的业务流程增量挖掘方法 - Google Patents
基于l*算法的业务流程增量挖掘方法 Download PDFInfo
- Publication number
- CN103778051A CN103778051A CN201410010776.1A CN201410010776A CN103778051A CN 103778051 A CN103778051 A CN 103778051A CN 201410010776 A CN201410010776 A CN 201410010776A CN 103778051 A CN103778051 A CN 103778051A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- model
- increment
- logged sequence
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于L*算法的业务流程增量挖掘方法,属于业务流程挖掘领域。其目的是通过智能挖掘技术来实现增量日志的挖掘,避免日志增加后需要重新挖掘的情况。首先从业务活动轨迹中提取频数较大的日志序列,然后进行预处理;根据L*算法的查询思想分析相邻两个活动间的序关系,建立行为轮廓,依据直接依赖关系构建初始模型;然后比较模型的适合度和适当度,验证增量日志序列的相邻活动的序关系与初始模型的行为轮廓的一致性,判断是否对初始模型作出调整,利用行为轮廓一致性度选择较优的模型;直到所有增量日志序列验证完毕,得到最优业务流程模型。该挖掘方法不仅能够避免增量日志的重复操作,而且使得流程的行为符合行为一致性。
Description
技术领域
本发明涉及基于增量日志的业务流程挖掘方法,它避免了以往挖掘方法对于新增加的日志需要重新挖掘的不足,有效适用于从不断增加的日志序列中逐步确定一个满足有效行为、经济实用的流程模型,属于业务流程挖掘领域。
背景技术
目前,很多大型企业的管理应用软件,如企业资源计划、工作流管理系统都会自动生成日志,这些日志是对实际操作流程的记录。业务流程挖掘就是利用这些日志数据,进行分析、重组,重现业务流程的真实过程,且较之与原始模型行为更有效,以达到提高运行效率的目的。
到目前为止,国内外已成功研究出了大量的过程挖掘算法,在一定程度上,它们代表了几个不同的研究方向,如基于活动间的依赖图的挖掘算法,该算法假设日志中的活动是分离的,这样便使得活动的发生有了前后顺序,进而得到活动间的依赖关系;再如面向块结构模型的挖掘算法,该算法把活动间的关系用四种块结构(顺序结构、并行结构、选择结构和循环结构)来表示;再如基于Petri网模型的挖掘算法,该算法的代表算法是α算法等等。本发明则是另寻他法,受到L*算法中的查询思想的启发从而提出了基于L*算法的业务流程优化挖掘方法。
L*算法最早是由Angluin因为学习确定性的有限自动机(DFA)提供的,后经过Rivest和Schapire改进。L*算法本质是在字母表Σ上研究一种未知语言U,而字母表Σ是由能够接受U的最小的DFA产生的。L*算法是一种查询学习方法,主要包括两种查询:一是会员身份查询,即对于字符串σ∈Σ*,是否有σ∈U?二是等价查询,即对于一个DFAC,是否有L(C)=U?为了学习这种未知语言U,L*会反馈答案“Yes/No”给这两种查询。如果反馈给等价查询的是“No”,L*期待一个反例字符串σ使得σ∈U-L(C)或者σ∈L(C)-U,对于第一种情况σ应该添加到L(C),第二种情况应将σ从L(C)中移除。本发明借鉴L*算法中的查询思想,将其运用到日志序列中相邻活动的行为轮廓关系的确定方法中。
发明内容
本发明为了丰富现有的挖掘方法,提出了一种基于L*算法的业务流程增量挖掘方法,采用L*算法查询的基本思想,将日志序列相继活动间的关系与行为轮廓的两种序关系(因为这里考察的是日志序列里的两个相继活动,故不考虑排他序关系)进行查询,建立行为轮廓,从而建立业务流程模型,然后优化选择得到最优模型。另外,在日志序列的提取问题上,为了避免同时操作大量日志序列而产生的冗余、错误等问题,本发明采用增量日志的方法。
在挖掘过程中,首先,从程序运行产生的轨迹中提取频数较大的日志序列,将提取的日志序列进行合并,避免出现重复操作,再将合并后的日志序列按照频数大小顺序排列,即优先考虑频数大的序列,以保证这些序列能被模型接受。其次,定义一个日志弱序关系集合其中x,y是日志序列中两个相继的活动,>代表它们之间的弱序关系,定义序关系集合集合U中依次是行为轮廓关系中的严格序关系和交叉序关系;观察日志序列中每相邻两个活动,经过查询确定是何种序关系。例如,一组日志W={ABCDE,ABDCE,ADBCE},在W中,字母表集合由所有的序关系组成,即 根据U集合的定义,我们可知 故在W·Σ中我们可找到属于严格序关系的有,(A,B),(A,D),(B,C),(C,E)和(D,E),属于交叉序关系的有(B,D),(C,D),据此,构建Petri网模型作为初始模型。然后验证增量日志序列相邻活动的序关系与初始模型的行为轮廓关系是否一致,若是,则继续验证剩余增量日志序列,若否,则做出调整再进行模型与模型间的一致性分析,然后继续验证。直到所有增量日志验证完毕,得到最优模型。
本发明的优点是采用了L*算法中查询的基本思想,且在查询过程中加入了行为轮廓的概念,利用增量日志来减少操作过程中可能会出现的问题(如堵塞、冗余等),在优化过程中沿用了行为轮廓一致性及模型间的行为轮廓一致性分析,这样得出的模型比之原始模型更加合理得当。
附图说明
图1是本发明实施方式的结构示意图。
图2是本发明日志序列处理的结构示意图。
图3是本发明基于L*算法的模型优化结构示意图。
具体实施方式
以下结合附图所述实施例对本发明作进一步的说明。
图1为本发明的整个流程系统的主要部分的示意图。如图所示,整个系统是以提取日志为开始,经过预处理,然后进行业务流程的挖掘。它主要包括三部分分别是日志序列的处理、初始模型的建立和基于L*算法的业务流程优化挖掘算法。
图2是本发明日志序列处理的结构示意图。如图所示,首先,从程序运行产生的轨迹中提取频数较大的日志序列,将提取出的日志序列进行预处理使之满足两个条件:一是没有相同的日志序列,可避免重复操作;二是日志序列应按照频数大小顺序排列,以方便优先考虑频数大的序列,以保证这些序列能被模型接受。
图3是本发明基于L*算法的模型挖掘结构示意图。如图所示,从处理过的日志序列开始,构建日志序列相邻活动间的弱序关系集合,根据行为轮廓序关系的定义,得出日志序列相邻活动的序关系集合,进而得到它们的行为轮廓,构建初始模型;然后不断地从程序中提取增量日志,验证增量日志序列的相邻活动的序关系与初始模型的行为轮廓的一致性,作出判断:是否需要调整初始模型,若是,则调整模型,进行模型与模型间的一致性分析,择优,继续验证;若否,继续验证剩余增量日志序列。直到所有增量日志序列验证完毕,得到最优模型。附:
Claims (4)
1.基于L*算法的业务流程增量挖掘方法,该方法由日志序列的提取和处理及增量日志的运用、初始模型的建立和基于L*算法业务流程的优化挖掘方法三部分组成,其特征在于,提取和处理实现对日志序列的规范化要求,即满足能够从日志序列进行挖掘的条件;增量日志的运用可有效地减少因同时操作大量日志序列而产生的错误,提高运行效率;基于L*算法的业务流程的挖掘方法实现对处理过的日志序列构造日志弱序关系集合和日志序列序关系集合,从而确定日志序列中相继活动的行为轮廓关系,依此构建流程模型,并依据增量日志进行优化。
2.根据权利要求1所述的业务流程挖掘方法,其特征在于:在分析日志序列的活动时,采用L*算法中查询的思想以及行为轮廓的概念,根据L*算法的查询思想构建了各个相邻活动间的行为轮廓关系。
3.根据权利要求1所述的业务流程挖掘方法,其特征在于:在整个挖掘过程中,不再将所有的日志序列全部同时提取出来,而是先提取一部分,其余的以增量日志的形式提取出来,用于挖掘算法的逐步优化过程中。
4.根据权利要求1所述的业务流程挖掘方法,其特征在于:在优化挖掘过程中,不仅利用了日志序列相邻活动的序关系与模型的行为轮廓关系的一致性验证,而且还利用了模型与模型的一致性分析,在评价模型与模型的一致性时,采用评价标准是行为轮廓一致性度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410010776.1A CN103778051A (zh) | 2014-01-09 | 2014-01-09 | 基于l*算法的业务流程增量挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410010776.1A CN103778051A (zh) | 2014-01-09 | 2014-01-09 | 基于l*算法的业务流程增量挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103778051A true CN103778051A (zh) | 2014-05-07 |
Family
ID=50570312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410010776.1A Pending CN103778051A (zh) | 2014-01-09 | 2014-01-09 | 基于l*算法的业务流程增量挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103778051A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133857A (zh) * | 2014-07-14 | 2014-11-05 | 安徽理工大学 | 一种基于配置约束的业务流程模型挖掘的新方法 |
CN104462329A (zh) * | 2014-12-03 | 2015-03-25 | 复旦大学 | 一种适用于多样性环境的业务流程挖掘方法 |
CN105069044A (zh) * | 2015-07-22 | 2015-11-18 | 安徽理工大学 | 基于拟间接依赖的过程模型挖掘的新方法 |
CN106503872A (zh) * | 2016-11-29 | 2017-03-15 | 中国人民解放军国防科学技术大学 | 一种基于基础业务活动集的业务流程系统构建方法 |
CN106648831A (zh) * | 2016-12-08 | 2017-05-10 | 杭州电子科技大学 | 基于萤火虫算法和动态优先级的云工作流调度方法 |
CN110750412A (zh) * | 2019-09-02 | 2020-02-04 | 北京云集智造科技有限公司 | 日志异常检测方法 |
CN112131273A (zh) * | 2020-09-23 | 2020-12-25 | 南京数云信息科技有限公司 | 一种基于Mysql数据库日志的数据关系挖掘方法及装置 |
CN113391997A (zh) * | 2021-05-27 | 2021-09-14 | 东南大学 | 一种基于有向图的服务运行正确性验证方法 |
CN115525693A (zh) * | 2022-09-20 | 2022-12-27 | 山东理工大学 | 面向增量事件日志的流程模型挖掘方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7685547B1 (en) * | 2007-07-02 | 2010-03-23 | Cadence Design Systems, Inc. | Method, system, and computer program product for generating automated assumption for compositional verification |
US7783468B2 (en) * | 1998-05-13 | 2010-08-24 | Accretive Technologies, Inc. | Automated system and method for service and cost architecture modeling of enterprise systems |
CN102509171A (zh) * | 2011-10-24 | 2012-06-20 | 浙江大学 | 一种面向规则执行日志的流程挖掘方法 |
-
2014
- 2014-01-09 CN CN201410010776.1A patent/CN103778051A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783468B2 (en) * | 1998-05-13 | 2010-08-24 | Accretive Technologies, Inc. | Automated system and method for service and cost architecture modeling of enterprise systems |
US7685547B1 (en) * | 2007-07-02 | 2010-03-23 | Cadence Design Systems, Inc. | Method, system, and computer program product for generating automated assumption for compositional verification |
CN102509171A (zh) * | 2011-10-24 | 2012-06-20 | 浙江大学 | 一种面向规则执行日志的流程挖掘方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133857A (zh) * | 2014-07-14 | 2014-11-05 | 安徽理工大学 | 一种基于配置约束的业务流程模型挖掘的新方法 |
CN104462329B (zh) * | 2014-12-03 | 2018-06-26 | 复旦大学 | 一种适用于多样性环境的业务流程挖掘方法 |
CN104462329A (zh) * | 2014-12-03 | 2015-03-25 | 复旦大学 | 一种适用于多样性环境的业务流程挖掘方法 |
CN105069044A (zh) * | 2015-07-22 | 2015-11-18 | 安徽理工大学 | 基于拟间接依赖的过程模型挖掘的新方法 |
CN106503872B (zh) * | 2016-11-29 | 2019-07-12 | 中国人民解放军国防科学技术大学 | 一种基于基础业务活动集的业务流程系统构建方法 |
CN106503872A (zh) * | 2016-11-29 | 2017-03-15 | 中国人民解放军国防科学技术大学 | 一种基于基础业务活动集的业务流程系统构建方法 |
CN106648831A (zh) * | 2016-12-08 | 2017-05-10 | 杭州电子科技大学 | 基于萤火虫算法和动态优先级的云工作流调度方法 |
CN106648831B (zh) * | 2016-12-08 | 2019-11-05 | 杭州电子科技大学 | 基于萤火虫算法和动态优先级的云工作流调度方法 |
CN110750412A (zh) * | 2019-09-02 | 2020-02-04 | 北京云集智造科技有限公司 | 日志异常检测方法 |
CN110750412B (zh) * | 2019-09-02 | 2022-10-21 | 北京云集智造科技有限公司 | 日志异常检测方法 |
CN112131273A (zh) * | 2020-09-23 | 2020-12-25 | 南京数云信息科技有限公司 | 一种基于Mysql数据库日志的数据关系挖掘方法及装置 |
CN113391997A (zh) * | 2021-05-27 | 2021-09-14 | 东南大学 | 一种基于有向图的服务运行正确性验证方法 |
CN115525693A (zh) * | 2022-09-20 | 2022-12-27 | 山东理工大学 | 面向增量事件日志的流程模型挖掘方法与系统 |
CN115525693B (zh) * | 2022-09-20 | 2024-02-06 | 山东理工大学 | 面向增量事件日志的流程模型挖掘方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778051A (zh) | 基于l*算法的业务流程增量挖掘方法 | |
CN111240662B (zh) | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 | |
CN111787090B (zh) | 一种基于区块链技术的智慧法治平台 | |
CN103559588A (zh) | 基于Petri网行为轮廓的日志挖掘方法 | |
CN101727391B (zh) | 一种软件漏洞特征操作序列的提取方法 | |
CN105447090A (zh) | 一种自动化数据挖掘预处理方法 | |
CN104133857A (zh) | 一种基于配置约束的业务流程模型挖掘的新方法 | |
CN103488537A (zh) | 一种数据抽取、转换和加载etl的执行方法及装置 | |
CN104199971B (zh) | 基于标准知识框架的可视化情报分析方法及系统 | |
CN101887478A (zh) | 一种基于序列径向基代理模型的高效全局优化方法 | |
CN104036360A (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN106709509A (zh) | 一种基于时间序列特殊点的卫星遥测数据聚类方法 | |
CN105138650A (zh) | 一种基于孤立点挖掘的Hadoop数据清洗方法及系统 | |
CN111144281A (zh) | 基于机器学习的城市轨道交通od客流估计方法 | |
CN105718641A (zh) | 批量化建立cae二维网格的方法 | |
CN101634966B (zh) | 一种对软件过程进行自动化故障模式及影响分析的方法 | |
CN106776316A (zh) | 一种电力信息软件缺陷预防方法 | |
Aghimien et al. | A review of the application of data mining for sustainable construction in Nigeria | |
CN110727670A (zh) | 基于流程图的数据结构预测传递及自动化数据处理方法 | |
CN102737743A (zh) | 一种核电站主控室盘台布局的方法和系统 | |
CN112019403B (zh) | 一种物联网消息协议状态机的跨平台自动化挖掘方法与系统 | |
CN106530109A (zh) | 一种基于信息价值的油田开发评价井决策方法 | |
CN104573080A (zh) | 一种基于事务二进制的约束频繁项集挖掘方法 | |
CN105069044A (zh) | 基于拟间接依赖的过程模型挖掘的新方法 | |
CN104239430A (zh) | 基于项权值变化的教育数据关联规则挖掘方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140507 |