CN106095955B

CN106095955B - 基于业务流程日志和实体轨迹配对的行为模式挖掘方法

Info

Publication number: CN106095955B
Application number: CN201610424544.XA
Authority: CN
Inventors: 俞东进; 王娇娇; 潘建梁; 郑宏升; 张蕾; 黄彬彬
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2019-04-05
Anticipated expiration: 2036-06-16
Also published as: CN106095955A

Abstract

本发明公开了一种基于业务流程日志和实体轨迹配对的行为模式挖掘方法。本发明将事件日志数据集转换成实体轨迹数据集，通过使用合成聚类算法来对这些实体轨迹数据集进行分层聚类，得到一个实体轨迹ID向导树，以该向导树为索引，得到包含所有实体轨迹数据集的配对矩阵；然后再通过遍历该配对矩阵将活动名称属性相同的元素划分在一起得到活动块，并根据活动块中的活动名称属性和活动执行者属性组合出现的次数之和、各自出现的次数选择出较频繁的活动块和组合并得到这些频繁的活动块和活动块中频繁的组合之间的结构关系。本发明从协作的角度出发挖掘非结构化业务流程中存在的一些固定行为模式，对于非结构化业务流程的有效分析具有很重要的意义。

Description

基于业务流程日志和实体轨迹配对的行为模式挖掘方法

技术领域

本发明属于业务流程管理中的流程挖掘领域，具体涉及到一种基于实体轨迹配对的非结构化业务流程日志的行为模式挖掘的方法。

背景技术

在业务流程管理(BPM)领域中，流程挖掘的目标是改进流程，其中常见的产品开发的流程往往是非结构化的，因为它们的频繁度不高(相比于生产流程)，并且依赖于创造力和解决问题的能力。比如说从SCM(软件配置管理)系统中挖掘事件日志，然后对这些日志进行流程挖掘，发现使用传统的流程挖掘方法得到的流程模型都是“意大利面”式的，因此常常把这类业务流程称为非结构化业务流程。

这种非结构化的业务流程经过挖掘得到的“意大利面”式的流程模型在分析上存在一定的难度，所以人们常常使用传统的启发式挖掘算法过滤掉低频行为得到流程模型，或者通过模糊挖掘算法对得到的复杂流程模型进行抽象和提取，但最终得到的模型仍难以理解。这种现象并不是由挖掘算法引起的，而是因为这种流程是由执行者自主决策的，所以它们的结构化程度本身较低，也正是由于这些自主行为从而导致了“意大利面”式流程模型的产生。

基于上述这种现象，研究者提出了从活动及其执行者角度进行流程挖掘的方法，将“意大利面”式的流程模型转换为“宽面条式”流程模型，从而实现对这类非结构化业务流程进行有效的分析和改进。从活动及其执行者的角度来分析这种非结构化流程可以发现它在实际的执行中存在的一些固定、频繁的行为模式(哪些发生比较频繁的活动经常由哪些执行者执行)，通过这种行为意义上的流程挖掘能够发现隐含的一些比较固定的协作行为模式(子流程)，从而帮助流程分析者更好地分析这种复杂的业务流程。

发明内容

本发明针对现有技术的不足，提供了一种基于实体轨迹配对的非结构化业务流程日志的行为模式挖掘方法。

本发明方法的具体步骤是：

步骤(1)将业务流程系统中记录的流程日志数据进行预处理，得到标准格式的事件日志数据集，该事件日志数据集中的每一行对应一个流程事件，包括实例ID、事件ID和事件属性，其中事件属性包括时间戳属性、活动名称属性和活动执行者属性。

步骤(2)根据步骤(1)中得到的事件日志数据集的时间戳属性，按照事件执行活动的先后顺序，提取事件日志数据集中的活动名称属性和活动执行者属性，得到一个实例ID对应的实体轨迹T_i，然后合并所有实例ID对应的实体轨迹得到实体轨迹数据集T＝{T₁,...,T_i...,T_n}，其中n为自然数。

步骤(3)在步骤(2)中获得的实体轨迹数据集中去掉异常的、不完整的实体轨迹，然后再对实体轨迹数据集中的实体轨迹的活动名称属性和活动执行者属性进行字符编码，将字符编码后的活动名称属性和活动执行者属性的组合称为实体轨迹数据集的元素。

步骤(4)通过合成聚类算法(AHC)将实体轨迹数据集进行分层聚类，得到一个实体轨迹ID向导树，该实体轨迹ID向导树的叶子节点分别用对应的实体轨迹的实例ID表示，对于给定的实体轨迹数据集T＝{T₁,...,T_i...,T_n}，合成聚类算法的过程如下：

①将T中的每个实体轨迹T_i看作是具有单个成员的类c_i＝{T_i}，这些类构成了T的一个类集合C＝{c₁,...,c_i-1,c_i,c_i+1,...,c_j-1,c_j,c_j+1,...,c_n}，其中每个类分别对应实体轨迹ID向导树中的叶子节点。

②计算C中任意每对类(c_i,c_j)之间的平均距离。

③选取平均距离最小的类对(c_i,c_j)，将c_i和c_j合并为一个新类c_k，类c_k对应为实体轨迹ID向导树中c_i和c_j分别对应的两个节点的父节点，然后在C中去除c_i和c_j、增加c_k得到一个新的类集合C＝{c₁,...,c_i-1,c_i+1,c_k,c_j-1,c_j+1...,c_n}。

④重复上述②和③步骤，直到类集合C中只剩下一个类为止。

步骤(5)首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹配对(即：在各个实体轨迹中插入空格使它们在相同位置对应相同的元素达到最多数目，使之形成最佳配对)；然后再将该层中各个父节点的最佳配对进行配对，使之形成当前层的最佳配对；自下而上遍历实体轨迹ID向导树的上层父节点，重复执行上述步骤，直到最终得到一个包含所有实体轨迹的配对矩阵，该配对矩阵的每一行代表不同的实体轨迹，每一列代表实体轨迹中的元素以及为了达到最佳配对而插入的空格。

步骤(6)遍历步骤(5)中得到的包含所有实体轨迹的配对矩阵，以实体轨迹元素中的活动名称属性为单位进行划分(即将活动名称属性相同的元素划分在一起)，得到一个个的活动块，其中块中的每一行代表不同的实体轨迹、每一列代表实体轨迹中具体的活动名称属性和活动执行者属性的组合，并以每个组合在对应活动块中的出现次数作为该组合在该活动块中的组合支持度，以每个活动块中所有组合的出现次数之和作为该活动块的活动块支持度；然后选取活动块支持度从高到低排列中的前q个活动块(代表业务流程执行中经常发生的活动)和该q个活动块中组合支持度从高到低排列中的前p个组合(代表这些活动在业务流程执行中经常出现的行为模式，即活动经常由哪些执行者执行)，获取这q个活动块之间以及这些活动块中的前p个组合之间的结构关系(如顺序结构、并发结构等)，即为挖掘得到的业务流程行为模式。

本发明所提供的针对非结构化业务流程日志的基于实体轨迹配对的行为模式挖掘方法由一组功能模块组成，它们包括：事件日志数据集的预处理模块、实体轨迹数据集生成模块、实体轨迹ID向导树生成模块、实体轨迹数据集配对模块和行为模式发现模块。

事件日志数据集的预处理模块首先将业务流程系统中记录的事件日志数据进行关键字段的提取和填补，得到标准格式的事件日志数据集。

实体轨迹数据集生成模块主要是对上一模块中得到的日志数据集实例化处理，即根据事件日志数据集的时间戳属性，按照事件执行活动的先后顺序，提取事件日志数据集中的活动名称属性和活动执行者属性得到一个实例ID对应的实体轨迹，合并所有实例ID对应的实体轨迹得到实体轨迹数据集；然后去掉异常的、不完整的实体轨迹，最后再对实体轨迹中的活动名称属性和活动执行者属性进行字符编码。

实体轨迹ID向导树生成模块通过合成聚类算法(AHC)来对上一模块中得到的实体轨迹数据集进行分层聚类，得到包含所有实体轨迹的一个实体轨迹ID向导树，便于下一个模块中对实体轨迹进行高效的配对。

实体轨迹数据集配对模块以上一模块中得到的实体轨迹ID向导树为索引，首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹配对；然后再将该层中各个父节点的最佳配对进行配对；再自下而上遍历实体轨迹ID向导树的上层父节点，重复执行上述步骤，直到最终得到一个包含所有实体轨迹的配对矩阵。

行为模式发现模块通过遍历上一模块中得到的包含所有实体轨迹数据集的配对矩阵，将活动名称属性相同的元素划分在一起得到活动块，并把活动块中所有活动名称属性和活动执行者属性组合的出现次数之和以及这些组合各自出现的次数分别作为这些活动块的活动块支持度和各个组合的组合支持度，然后筛选出活动块支持度较高的活动块和活动块中的组合支持度较高的组合并得到这些活动块之间和活动块中组合之间的层次结构关系。

本发明提出的方法基于基因序列配对的思想，将事件日志数据集转换成实体轨迹数据集，通过使用合成聚类算法(AHC)来对这些实体轨迹数据集进行分层聚类，得到一个实体轨迹ID向导树，以该向导树为索引，采用渐进式的多序列配对的方法得到包含所有实体轨迹数据集的配对矩阵；然后再通过遍历该配对矩阵将活动名称属性相同的元素划分在一起得到活动块，并根据活动块中的活动名称属性和活动执行者属性组合出现的次数之和、各自出现的次数选择出较频繁的活动块(业务流程执行中经常出现的活动)和组合(业务流程执行中经常出现的活动分别由哪些执行者执行，即行为模式)并得到这些频繁的活动块和活动块中频繁的组合之间的结构关系。与传统的流程挖掘方法相比，采用本发明所陈述的方法从协作的角度出发挖掘非结构化业务流程中存在的一些固定行为模式，而并不只是进行简单的低频度活动过滤，因此对于非结构化业务流程的有效分析具有很重要的意义。

附图说明

图1方法架构图；

图2行为模式层次结构图；

图3实体轨迹配对图。

具体实施方式

本发明所提供的针对非结构化业务流程日志的基于实体轨迹配对的行为模式挖掘方法的具体实施方式主要分6步(如图1所示)：

(1)将业务流程系统中记录的流程日志数据进行预处理得到标准格式的事件日志数据集(如表1所示)，该事件日志数据集中的每一行对应一个流程事件，包括实例ID、事件ID和事件属性，其中事件属性包括时间戳属性、活动名称属性和活动执行者属性：

业务流程系统中记录的日志数据可能就是简单的一行数据或者是记录在Excel表格中的含有很多属性的一行记录，为了降低其他属性对研究的干扰，我们仅对关键的字段进行提取和填补，得到一个包含实例ID、事件ID、时间戳、活动名称、活动执行者5个属性的事件日志数据集(如表1所示)：

表1事件日志数据集

(2)根据步骤(1)中得到的事件日志数据集的时间戳属性，按照事件执行活动的先后顺序，提取事件日志数据集中的活动名称属性和活动执行者属性，得到一个实例ID对应的实体轨迹，合并所有实例ID对应的实体轨迹得到实体轨迹数据集：

上述得到的标准格式的事件日志数据集中的每一条记录是以事件ID为标识符，实例化处理就是将事件日志数据集的格式转换成以实例ID为唯一标识符的记录，每一个实例ID对应的所有事件按照时间戳属性根据活动发生的先后顺序组成一个轨迹序列，这个轨迹序列能够表示一个完整的实例执行流程，轨迹中的元素是活动名称属性和活动执行者属性的组合，称为实体，因此得到一个实体轨迹，记作T_i，其中i表示实例ID，实体轨迹中的元素——活动名称属性和活动执行者属性的组合，记作实体用ES表示，使用符号O表示活动执行者集合，O＝{M_j|j＝1,2,3...}，符号M_j表示活动执行者个体，符号△表示所有活动名称的集合，那么就有有例如针对软件开发流程来说，该开发流程中的所有出现过的活动名称构成的活动集合△为{WriteRequirements,ReviseRequirements,WriteDocuments,ReviseDocuments,WriteCode,TestCode}。根据表1中的标准日志数据集可以得到如下的流程实例对应的实体轨迹：

T₁:M₁WriteRequirements,M₄ReviseRequirements,M₅WriteDocuments,M₆ReviseDocuments,M₇WriteCode,M₈TestCode,M₉TestCode

T₂:M₁WriteRequirements,M₂WriteRequirements,M₄ReviseRequirements,M₉WriteDocuments,M₅WriteDocuments,M₆ReviseDocuments,M₇WriteCode,M₈TestCode

T₃:M₁WriteRequirements,M₂WriteRequirements,M₄ReviseRequirements,M₉WriteDocuments,M₅WriteDocuments,M₆ReviseDocuments,M₇WriteCode,M₈TestCode,M₉TestCode

T₄:M₁WriteRequirements,M₂WriteRequirements,M₃WriteRequirements,M₄ReviseRequirements,M₉WriteDocuments,M₆ReviseDocuments,M₇WriteCode,M₈TestCode

T₅:M₁WriteRequirements,M₂WriteRequirements,M₃WriteRequirements,M₄ReviseRequirements,M₉WriteDocuments,M₅WriteDocuments,M₆ReviseDocuments,M₇WriteCode,M₈TestCode

(3)对上述步骤(2)中得到的实体轨迹数据集进行一些预处理操作：去掉异常的、不完整的实体轨迹，并对实体轨迹中的元素(活动名称属性和活动执行者属性的组合)进行字符编码：

①遍历上述得到的实体轨迹数据集，剔除有缺失的活动执行者属性或者活动名称属性的实体轨迹；

②对上述①中得到的实体轨迹进行字符编码，即使用能够区分不同元素的字符代替复杂的活动名称属性和活动执行者属性的组合，从而简化得到如下的序列：

T₁:M₁WR,M₄RR,M₅WD,M₆RD,M₇WC,M₈TC,M₉TC

T₂:M₁WR,M₂WR,M₄RR,M₉WD,M₅WD,M₆RD,M₇WC,M₈TC

T₃:M₁WR,M₂WR,M₄RR,M₉WD,M₅WD,M₆RD,M₇WC,M₈TC,M₉TC

T₄:M₁WR,M₂WR,M₃WR,M₄RR,M₉WD,M₆RD,M₇WC,M₈TC

T₅:M₁WR,M₂WR,M₃WR,M₄RR,M₉WD,M₅WD,M₆RD,M₇WC,M₈TC

(4)通过合成聚类算法(AHC)来对这些实体轨迹数据集进行分层聚类，得到一个实体轨迹ID向导树，该实体轨迹ID向导树的叶子节点分别用其对应的实体轨迹ID表示，对于给定的实体轨迹数据集T＝{T₁,...,T_i...,T_n}，合成聚类算法的过程如下：

①将T中的每个实体轨迹T_i看作是具有单个成员的类c_i＝{T_i}，这些类构成了T的一个聚类C＝{c₁,...,c_i-1,c_i,c_i+1,...,c_j-1,c_j,c_j+1,...,c_n}，其中每个类作为实体轨迹ID向导树中的叶子节点；

②计算C中任意每对类(c_i,c_j)之间的平均距离其中d(T_i,T_j)代表的是两个实体轨迹之间对应位置上的元素字符串之间的编辑距离；

③选取平均距离最小的类对(c_i,c_j)，将c_i和c_j合并为一个新类c_k，类c_k对应为实体轨迹ID向导树中c_i和c_j分别对应的两个节点的父节点，然后在C中去除c_i和c_j、增加c_k得到一个新的类集合C＝{c₁,...,c_i-1,c_i+1,c_k,c_j-1,c_j+1...,c_n}；

④重复上述②③步骤，直到类集合C中只剩下一个类为止；

(5)首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹配对(即：在各个实体轨迹中插入空格使它们在相同位置对应相同的元素达到最多数目，使之形成最佳配对)；然后再将该层中各个父节点的最佳配对进行配对，使之形成当前层的最佳配对；自下而上遍历实体轨迹ID向导树的上层父节点，重复执行上述步骤，直到最终得到一个包含所有实体轨迹的配对矩阵：

①两轨迹配对：

轨迹配对即为把两条未知的轨迹进行排列，通过字母的匹配，删除和插入操作，使得两条轨迹达到同样长度，在操作的过程中，尽可能保持相同的字母对应在同一个位置。假设有一对轨迹T₁＝abcac,T₂＝acacad，那么轨迹在进行配对时，它们的各自元素可能出现的对应情况为(a,b)或(a,-)或(-,b)，其中(a,b)表示T₁中的活动a对应T₂中的活动b，(a,-)表示删除T₁中的活动a，(-,b)表示在T₁中插入活动b。设分别为T₁,T₂配对后的轨迹，m为配对后的轨迹长度，则有两个轨迹配对的得分函数为即两个轨迹的配对得分是它们每一个元素配对的累加和，其中：

由于两个轨迹在配对时可能会有多种不同的配对方案，例如对于T₁,T₂来说，配对的形式可能会有多种，这里仅列举以下的三种配对形式：

(i)若设定a＝b时S(a,b)＝1；a≠b时S(a,b)＝-1；I(a,b)＝-1，按照上面的得分函数计算可得到这三种配对的得分分别是1，-4，-9，得分最高也就是配对效果最好的，因此可知第一种配对效果是最好的。

(ii)若设定a＝b时S(a,b)＝2；a≠b时S(a,b)＝1；I(a,b)＝-1，则上述三种配对得分分别是5,5,9，那么配对效果最好的分别是前两种。

(iii)若设定a＝b时S(a,b)＝1；a≠b时S(a,b)＝-1；I(a,b)＝1，则这三种得分分别是7,-2,9，那么配对效果最好的是最后一种。

因此为了解决上述这种现象，使用下面描述的动态规划算法找到最佳配对。

②使用动态规划算法发现最佳配对：

使用二维表格的形式，其中一个轨迹沿顶部展开，一个轨迹沿左侧展开。通过以下三个途径(方向)到达每个单元格：a.来自上面的单元格，代表将左侧的字符与空格配对；b.来自左侧的单元格，代表将上面的字符与空格配对；c.来自左上侧的单元格，代表左侧和上面的字符配对(可能匹配也可能不匹配)。而该单元格的值来自于以下3个值中的最大值：1)上方的值减1；2)左边的值减1；3)如果该单元格所在的行于所在的列对应的字符相等，则为左上值加1，否则为左上值减1。(具体可见下面的例子)

(i)首先初始化表格：填充表格中第一行和第一列的元素的得分和指针，需要使用位于顶部的第一个轨迹中的字符，并使用空格，而不是使用左侧从上到下的轨迹中的第一个字符。由于空格的得分是-1，所以每次使用空格的时候，就给前一个左侧的单元格减1分，其中定义第一个单元格的得分为0,所以第一行的元素得分就是0，-1，-2，-3，...这样的序列。

(ii)然后填充剩下的单元格：对于每个单元格，都有三种选择对应三种得分，最后要从中选择得分最多的。由于可以从上面、左侧、左上侧分别计算当前单元格的得分和指针，现在假设T₁,T₂是要配对的轨迹，是生成的配对的轨迹。从上面到达单元格相当于将左面的字符从T₁加入跳过上面的T₂中的当前字符，并在中加入一个空格，也就是把左侧的字符与空格进行配对。由于一个空格的配对得分是-1，所以当前单元格的得分要从上面的单元格得分减1得到。类似的，将左边的单元格得分减1，可以从左侧到达空单元格，也就是把上面轨迹中的字符与空格进行配对。

(iii)再将上面的字符加入到中，将左边的字符加入到中，这就相当于从左上侧进入空白单元格。这两个字符将会匹配，在这种情况下，新的得分就是左上侧单元格的得分减1。在这三种可能性当中，选择得分最大的一个(如果得分相等，可以从得分高的单元格中从任选一个)。接着需要得到实际的配对字符串以及配对的得分，其中右下角单元格中的得分包含T₁,T₂的最大配对得分。

(iv)最后将得到的配对轨迹从右下角单元格开始沿着指针回溯，反向构建从表格的构建过程可知，从上向下对应着将左侧字符从T₁加入到中，将空格加入中；从左向右对应着将上面的字符从T₂加入到中，将空格加入中；而向下和向右移动意味着分别将来自T₁,T₂的字符加入中。

例如，针对上面的一对轨迹T₁＝abcac,T₂＝acacad，设二维表格F_i,j为i行j列表格，其中F(0,0)＝0,F(0,1)＝0,F(1,0)＝0，根据上面的方法进行填充表格，T₁ ⁱ为T₁轨迹中的第i个元素，为T₂轨迹中的第j个元素，通过以下公式计算F(i,j)：

最终得到二维表格：

然后根据单元格中记录的指针信息，采用回溯法得到最佳配对路径：即1F(5,6)→2F(5,5)→3F(5,4)→2F(4,3)→1F(3,2)→0F(2,1)→1F(1,1)→0F(0,0)，配对结果为：

③多轨迹配对：使用一对轨迹配对之和的方法实现多轨迹配对，假设有n条轨迹集合，A为它们的配对结果，其中为其中互不相同的两条轨迹，则有其中，轨迹集合A与另外的轨迹集合B进行配对时，方法与步骤②中的一样，但计算公式需要修改为：

其中，代表配对集合A中的第i列与配对集合B中的第j列替换，定义表示配对集合Χ中第i列中元素a的频度，表示配对集合A中第i列的插入得分，其中的是当配对集合A中第i-1列元素为a，第i列元素b的频度。

然后将上述方法应用在实体轨迹数据集中得到最佳的配对(示例可见图3)：按照上述步骤(4)中得到的实体轨迹ID向导树进行索引，首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹按照步骤①②配对，然后再将该层中各个父节点的最佳配对按照步骤③进行配对，使之形成当前层的最佳配对；自下而上遍历实体轨迹ID向导树的上层父节点，重复执行上述步骤①②③，直到最终得到一个包含所有实体轨迹的配对矩阵。

(6)遍历步骤(5)中得到的包含所有实体轨迹的配对矩阵，以实体轨迹元素中的活动名称属性为单位进行划分(即将活动名称属性相同的元素划分在一起)，得到一个个的活动块，其中块中每一行代表不同的实体轨迹、每一列代表实体轨迹中具体的活动名称属性和活动执行者属性的组合，并以每个组合在对应活动块中的出现次数作为该组合在该活动块中的组合支持度，以每个活动块中所有组合的出现次数之和作为该活动块的活动块支持度；然后选取活动块支持度从高到低排列中的前q个活动块(代表业务流程执行中经常发生的活动)和该q个活动块中组合支持度从高到低排列中的前p个组合(代表这些活动在业务流程执行中经常出现的行为模式，即活动经常由哪些执行者执行)，获取这q个活动块之间以及这些活动块中的前p个组合之间的结构关系(如顺序结构、并发结构等)，即为挖掘得到的业务流程行为模式(具体可见图2)。

本发明可用于非结构化业务流程日志的行为模式挖掘，从而实现对非结构化业务流程的有效分析。

Claims

1.基于业务流程日志和实体轨迹配对的行为模式挖掘方法，其特征在于该方法的具体步骤是：

步骤(1)将业务流程系统中记录的流程日志数据进行预处理，得到标准格式的事件日志数据集，该事件日志数据集中的每一行对应一个流程事件，包括实例ID、事件ID和事件属性，其中事件属性包括时间戳属性、活动名称属性和活动执行者属性；

步骤(2)根据步骤(1)中得到的事件日志数据集的时间戳属性，按照事件执行活动的先后顺序，提取事件日志数据集中的活动名称属性和活动执行者属性，得到一个实例ID对应的实体轨迹T_i，然后合并所有实例ID对应的实体轨迹得到实体轨迹数据集T＝{T₁,...,T_i...,T_n}，其中n为自然数；

步骤(3)在步骤(2)中获得的实体轨迹数据集中去掉异常的、不完整的实体轨迹，再对实体轨迹数据集中的实体轨迹的活动名称属性和活动执行者属性进行字符编码，将字符编码后的活动名称属性和活动执行者属性的组合称为实体轨迹数据集的元素；

步骤(4)通过合成聚类算法将实体轨迹数据集进行分层聚类，得到一个实体轨迹ID向导树，该实体轨迹ID向导树的叶子节点分别用对应的实体轨迹的实例ID表示，对于给定的实体轨迹数据集T＝{T₁,...T,_i...,T_n}，合成聚类算法的过程如下：

①将T中的每个实体轨迹T_i看作是具有单个成员的类c_i＝{T_i}，这些类构成了T的一个类集合C＝{c₁,...,c_i-1,c_i,c_i+1,...,c_j-1,c_j,c_j+1,...,c_n}，其中每个类分别对应实体轨迹ID向导树中的叶子节点；

②计算类集合C中任意每对类(c_i,c_j)之间的平均距离；

③选取平均距离最小的类对(c_i,c_j)，将类c_i和c_j合并为一个新类c_k，类c_k对应为实体轨迹ID向导树中类c_i和c_j分别对应的两个节点的父节点，然后在类集合C中去除c_i和c_j、增加c_k得到一个新的类集合C＝{c₁,...,c_i-1,c_i+1,c_k,c_j-1,c_j+1...,c_n}；

④重复上述②③步骤，直到类集合C中只剩下一个类为止；

步骤(5)首先将实体轨迹ID向导树最下层中属于同一个父节点的叶子节点所代表的实体轨迹配对；然后再将该层中各个父节点的最佳配对进行配对，使之形成当前层的最佳配对；自下而上遍历实体轨迹ID向导树的上层父节点，重复执行本步骤，直到最终得到一个包含所有实体轨迹的配对矩阵；

步骤(6)遍历步骤(5)中得到的包含所有实体轨迹的配对矩阵，以实体轨迹元素中的活动名称属性为单位进行划分，得到一个个的活动块，其中块中每一行代表不同的实体轨迹、每一列代表实体轨迹中具体的活动名称属性和活动执行者属性的组合，并以每个组合在对应活动块中的出现次数作为该组合在该活动块中的组合支持度，以每个活动块中所有组合的出现次数之和作为该活动块的活动块支持度；然后选取活动块支持度从高到低排列中的前q个活动块代表业务流程执行中经常发生的活动和该q个活动块中组合支持度从高到低排列中的前p个组合代表这些活动在业务流程执行中经常出现的行为模式，即活动经常由哪些执行者执行，获取这q个活动块之间以及这些活动块中的前p个组合之间的结构关系，即为挖掘得到的业务流程行为模式。