CN103778051A

CN103778051A - 基于l*算法的业务流程增量挖掘方法

Info

Publication number: CN103778051A
Application number: CN201410010776.1A
Authority: CN
Inventors: 方贤文; 吴俊枝; 刘璐; 殷志祥; 方新建
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2014-01-09
Filing date: 2014-01-09
Publication date: 2014-05-07

Abstract

一种基于L*算法的业务流程增量挖掘方法，属于业务流程挖掘领域。其目的是通过智能挖掘技术来实现增量日志的挖掘，避免日志增加后需要重新挖掘的情况。首先从业务活动轨迹中提取频数较大的日志序列，然后进行预处理；根据L*算法的查询思想分析相邻两个活动间的序关系，建立行为轮廓，依据直接依赖关系构建初始模型；然后比较模型的适合度和适当度，验证增量日志序列的相邻活动的序关系与初始模型的行为轮廓的一致性，判断是否对初始模型作出调整，利用行为轮廓一致性度选择较优的模型；直到所有增量日志序列验证完毕，得到最优业务流程模型。该挖掘方法不仅能够避免增量日志的重复操作，而且使得流程的行为符合行为一致性。

Description

基于L*算法的业务流程增量挖掘方法

技术领域

本发明涉及基于增量日志的业务流程挖掘方法，它避免了以往挖掘方法对于新增加的日志需要重新挖掘的不足，有效适用于从不断增加的日志序列中逐步确定一个满足有效行为、经济实用的流程模型，属于业务流程挖掘领域。

背景技术

目前，很多大型企业的管理应用软件，如企业资源计划、工作流管理系统都会自动生成日志，这些日志是对实际操作流程的记录。业务流程挖掘就是利用这些日志数据，进行分析、重组，重现业务流程的真实过程，且较之与原始模型行为更有效，以达到提高运行效率的目的。

到目前为止，国内外已成功研究出了大量的过程挖掘算法，在一定程度上，它们代表了几个不同的研究方向，如基于活动间的依赖图的挖掘算法，该算法假设日志中的活动是分离的，这样便使得活动的发生有了前后顺序，进而得到活动间的依赖关系；再如面向块结构模型的挖掘算法，该算法把活动间的关系用四种块结构（顺序结构、并行结构、选择结构和循环结构）来表示；再如基于Petri网模型的挖掘算法，该算法的代表算法是α算法等等。本发明则是另寻他法，受到L*算法中的查询思想的启发从而提出了基于L*算法的业务流程优化挖掘方法。

L*算法最早是由Angluin因为学习确定性的有限自动机（DFA）提供的，后经过Rivest和Schapire改进。L*算法本质是在字母表Σ上研究一种未知语言U,而字母表Σ是由能够接受U的最小的DFA产生的。L*算法是一种查询学习方法，主要包括两种查询：一是会员身份查询，即对于字符串σ∈Σ^*，是否有σ∈U?二是等价查询，即对于一个DFAC，是否有L(C)＝U?为了学习这种未知语言U，L*会反馈答案“Yes/No”给这两种查询。如果反馈给等价查询的是“No”，L*期待一个反例字符串σ使得σ∈U-L(C)或者σ∈L(C)-U，对于第一种情况σ应该添加到L(C)，第二种情况应将σ从L(C)中移除。本发明借鉴L*算法中的查询思想，将其运用到日志序列中相邻活动的行为轮廓关系的确定方法中。

发明内容

本发明为了丰富现有的挖掘方法，提出了一种基于L*算法的业务流程增量挖掘方法，采用L*算法查询的基本思想，将日志序列相继活动间的关系与行为轮廓的两种序关系（因为这里考察的是日志序列里的两个相继活动，故不考虑排他序关系）进行查询，建立行为轮廓，从而建立业务流程模型，然后优化选择得到最优模型。另外，在日志序列的提取问题上，为了避免同时操作大量日志序列而产生的冗余、错误等问题，本发明采用增量日志的方法。

在挖掘过程中，首先，从程序运行产生的轨迹中提取频数较大的日志序列，将提取的日志序列进行合并，避免出现重复操作，再将合并后的日志序列按照频数大小顺序排列，即优先考虑频数大的序列，以保证这些序列能被模型接受。其次，定义一个日志弱序关系集合

其中x,y是日志序列中两个相继的活动，＞代表它们之间的弱序关系，定义序关系集合

集合U中依次是行为轮廓关系中的严格序关系和交叉序关系；观察日志序列中每相邻两个活动，经过查询确定是何种序关系。例如，一组日志W＝{ABCDE,ABDCE,ADBCE},在W中，字母表集合由所有的序关系组成，即

根据U集合的定义，我们可知

故在W·Σ中我们可找到属于严格序关系的有，(A,B),(A,D),(B,C),(C,E)和(D,E),属于交叉序关系的有(B,D),(C,D),据此，构建Petri网模型作为初始模型。然后验证增量日志序列相邻活动的序关系与初始模型的行为轮廓关系是否一致，若是，则继续验证剩余增量日志序列，若否，则做出调整再进行模型与模型间的一致性分析，然后继续验证。直到所有增量日志验证完毕，得到最优模型。

本发明的优点是采用了L*算法中查询的基本思想，且在查询过程中加入了行为轮廓的概念，利用增量日志来减少操作过程中可能会出现的问题（如堵塞、冗余等），在优化过程中沿用了行为轮廓一致性及模型间的行为轮廓一致性分析，这样得出的模型比之原始模型更加合理得当。

附图说明

图1是本发明实施方式的结构示意图。

图2是本发明日志序列处理的结构示意图。

图3是本发明基于L*算法的模型优化结构示意图。

具体实施方式

以下结合附图所述实施例对本发明作进一步的说明。

图1为本发明的整个流程系统的主要部分的示意图。如图所示，整个系统是以提取日志为开始，经过预处理，然后进行业务流程的挖掘。它主要包括三部分分别是日志序列的处理、初始模型的建立和基于L*算法的业务流程优化挖掘算法。

图2是本发明日志序列处理的结构示意图。如图所示，首先，从程序运行产生的轨迹中提取频数较大的日志序列，将提取出的日志序列进行预处理使之满足两个条件：一是没有相同的日志序列，可避免重复操作；二是日志序列应按照频数大小顺序排列，以方便优先考虑频数大的序列，以保证这些序列能被模型接受。

图3是本发明基于L*算法的模型挖掘结构示意图。如图所示，从处理过的日志序列开始，构建日志序列相邻活动间的弱序关系集合，根据行为轮廓序关系的定义，得出日志序列相邻活动的序关系集合，进而得到它们的行为轮廓，构建初始模型；然后不断地从程序中提取增量日志，验证增量日志序列的相邻活动的序关系与初始模型的行为轮廓的一致性，作出判断：是否需要调整初始模型，若是，则调整模型，进行模型与模型间的一致性分析，择优，继续验证；若否，继续验证剩余增量日志序列。直到所有增量日志序列验证完毕，得到最优模型。附：

行为轮廓一致性度:设S₁＝(P₁,T₁;F₁,M₁)和S₂＝(P₂,T₂;F₂,M₂)是两个Petri网系统，他们关于～匹配，

是他们一致的变迁对集，则～的基于变迁集的行为轮廓的一致性度定义为：

MBP (S_{1}, S_{2}) = \frac{| {CT}_{1}^{~} | + | {CT}_{2}^{~} |}{| ({T_{1}}^{~} \times {T_{1}}^{~}) + | ({T_{2}}^{~} \times {T_{2}}^{~}) |}

Claims

1.基于L*算法的业务流程增量挖掘方法,该方法由日志序列的提取和处理及增量日志的运用、初始模型的建立和基于L*算法业务流程的优化挖掘方法三部分组成，其特征在于，提取和处理实现对日志序列的规范化要求，即满足能够从日志序列进行挖掘的条件；增量日志的运用可有效地减少因同时操作大量日志序列而产生的错误，提高运行效率；基于L*算法的业务流程的挖掘方法实现对处理过的日志序列构造日志弱序关系集合和日志序列序关系集合，从而确定日志序列中相继活动的行为轮廓关系，依此构建流程模型，并依据增量日志进行优化。

2.根据权利要求1所述的业务流程挖掘方法，其特征在于：在分析日志序列的活动时，采用L*算法中查询的思想以及行为轮廓的概念，根据L*算法的查询思想构建了各个相邻活动间的行为轮廓关系。

3.根据权利要求1所述的业务流程挖掘方法，其特征在于：在整个挖掘过程中，不再将所有的日志序列全部同时提取出来，而是先提取一部分，其余的以增量日志的形式提取出来，用于挖掘算法的逐步优化过程中。

4.根据权利要求1所述的业务流程挖掘方法，其特征在于：在优化挖掘过程中，不仅利用了日志序列相邻活动的序关系与模型的行为轮廓关系的一致性验证，而且还利用了模型与模型的一致性分析，在评价模型与模型的一致性时，采用评价标准是行为轮廓一致性度。