CN106095955B - 基于业务流程日志和实体轨迹配对的行为模式挖掘方法 - Google Patents

基于业务流程日志和实体轨迹配对的行为模式挖掘方法 Download PDF

Info

Publication number
CN106095955B
CN106095955B CN201610424544.XA CN201610424544A CN106095955B CN 106095955 B CN106095955 B CN 106095955B CN 201610424544 A CN201610424544 A CN 201610424544A CN 106095955 B CN106095955 B CN 106095955B
Authority
CN
China
Prior art keywords
entity
track
entity track
attribute
movable block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610424544.XA
Other languages
English (en)
Other versions
CN106095955A (zh
Inventor
俞东进
王娇娇
潘建梁
郑宏升
张蕾
黄彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201610424544.XA priority Critical patent/CN106095955B/zh
Publication of CN106095955A publication Critical patent/CN106095955A/zh
Application granted granted Critical
Publication of CN106095955B publication Critical patent/CN106095955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Abstract

本发明公开了一种基于业务流程日志和实体轨迹配对的行为模式挖掘方法。本发明将事件日志数据集转换成实体轨迹数据集,通过使用合成聚类算法来对这些实体轨迹数据集进行分层聚类,得到一个实体轨迹ID向导树,以该向导树为索引,得到包含所有实体轨迹数据集的配对矩阵;然后再通过遍历该配对矩阵将活动名称属性相同的元素划分在一起得到活动块,并根据活动块中的活动名称属性和活动执行者属性组合出现的次数之和、各自出现的次数选择出较频繁的活动块和组合并得到这些频繁的活动块和活动块中频繁的组合之间的结构关系。本发明从协作的角度出发挖掘非结构化业务流程中存在的一些固定行为模式,对于非结构化业务流程的有效分析具有很重要的意义。

Description

基于业务流程日志和实体轨迹配对的行为模式挖掘方法
技术领域
本发明属于业务流程管理中的流程挖掘领域,具体涉及到一种基于实体轨迹配对的非结构化业务流程日志的行为模式挖掘的方法。
背景技术
在业务流程管理(BPM)领域中,流程挖掘的目标是改进流程,其中常见的产品开发的流程往往是非结构化的,因为它们的频繁度不高(相比于生产流程),并且依赖于创造力和解决问题的能力。比如说从SCM(软件配置管理)系统中挖掘事件日志,然后对这些日志进行流程挖掘,发现使用传统的流程挖掘方法得到的流程模型都是“意大利面”式的,因此常常把这类业务流程称为非结构化业务流程。
这种非结构化的业务流程经过挖掘得到的“意大利面”式的流程模型在分析上存在一定的难度,所以人们常常使用传统的启发式挖掘算法过滤掉低频行为得到流程模型,或者通过模糊挖掘算法对得到的复杂流程模型进行抽象和提取,但最终得到的模型仍难以理解。这种现象并不是由挖掘算法引起的,而是因为这种流程是由执行者自主决策的,所以它们的结构化程度本身较低,也正是由于这些自主行为从而导致了“意大利面”式流程模型的产生。
基于上述这种现象,研究者提出了从活动及其执行者角度进行流程挖掘的方法,将“意大利面”式的流程模型转换为“宽面条式”流程模型,从而实现对这类非结构化业务流程进行有效的分析和改进。从活动及其执行者的角度来分析这种非结构化流程可以发现它在实际的执行中存在的一些固定、频繁的行为模式(哪些发生比较频繁的活动经常由哪些执行者执行),通过这种行为意义上的流程挖掘能够发现隐含的一些比较固定的协作行为模式(子流程),从而帮助流程分析者更好地分析这种复杂的业务流程。
发明内容
本发明针对现有技术的不足,提供了一种基于实体轨迹配对的非结构化业务流程日志的行为模式挖掘方法。
本发明方法的具体步骤是:
步骤(1)将业务流程系统中记录的流程日志数据进行预处理,得到标准格式的事件日志数据集,该事件日志数据集中的每一行对应一个流程事件,包括实例ID、事件ID和事件属性,其中事件属性包括时间戳属性、活动名称属性和活动执行者属性。
步骤(2)根据步骤(1)中得到的事件日志数据集的时间戳属性,按照事件执行活动的先后顺序,提取事件日志数据集中的活动名称属性和活动执行者属性,得到一个实例ID对应的实体轨迹Ti,然后合并所有实例ID对应的实体轨迹得到实体轨迹数据集T={T1,...,Ti...,Tn},其中n为自然数。
步骤(3)在步骤(2)中获得的实体轨迹数据集中去掉异常的、不完整的实体轨迹,然后再对实体轨迹数据集中的实体轨迹的活动名称属性和活动执行者属性进行字符编码,将字符编码后的活动名称属性和活动执行者属性的组合称为实体轨迹数据集的元素。
步骤(4)通过合成聚类算法(AHC)将实体轨迹数据集进行分层聚类,得到一个实体轨迹ID向导树,该实体轨迹ID向导树的叶子节点分别用对应的实体轨迹的实例ID表示,对于给定的实体轨迹数据集T={T1,...,Ti...,Tn},合成聚类算法的过程如下:
①将T中的每个实体轨迹Ti看作是具有单个成员的类ci={Ti},这些类构成了T的一个类集合C={c1,...,ci-1,ci,ci+1,...,cj-1,cj,cj+1,...,cn},其中每个类分别对应实体轨迹ID向导树中的叶子节点。
②计算C中任意每对类(ci,cj)之间的平均距离。
③选取平均距离最小的类对(ci,cj),将ci和cj合并为一个新类ck,类ck对应为实体轨迹ID向导树中ci和cj分别对应的两个节点的父节点,然后在C中去除ci和cj、增加ck得到一个新的类集合C={c1,...,ci-1,ci+1,ck,cj-1,cj+1...,cn}。
④重复上述②和③步骤,直到类集合C中只剩下一个类为止。
步骤(5)首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹配对(即:在各个实体轨迹中插入空格使它们在相同位置对应相同的元素达到最多数目,使之形成最佳配对);然后再将该层中各个父节点的最佳配对进行配对,使之形成当前层的最佳配对;自下而上遍历实体轨迹ID向导树的上层父节点,重复执行上述步骤,直到最终得到一个包含所有实体轨迹的配对矩阵,该配对矩阵的每一行代表不同的实体轨迹,每一列代表实体轨迹中的元素以及为了达到最佳配对而插入的空格。
步骤(6)遍历步骤(5)中得到的包含所有实体轨迹的配对矩阵,以实体轨迹元素中的活动名称属性为单位进行划分(即将活动名称属性相同的元素划分在一起),得到一个个的活动块,其中块中的每一行代表不同的实体轨迹、每一列代表实体轨迹中具体的活动名称属性和活动执行者属性的组合,并以每个组合在对应活动块中的出现次数作为该组合在该活动块中的组合支持度,以每个活动块中所有组合的出现次数之和作为该活动块的活动块支持度;然后选取活动块支持度从高到低排列中的前q个活动块(代表业务流程执行中经常发生的活动)和该q个活动块中组合支持度从高到低排列中的前p个组合(代表这些活动在业务流程执行中经常出现的行为模式,即活动经常由哪些执行者执行),获取这q个活动块之间以及这些活动块中的前p个组合之间的结构关系(如顺序结构、并发结构等),即为挖掘得到的业务流程行为模式。
本发明所提供的针对非结构化业务流程日志的基于实体轨迹配对的行为模式挖掘方法由一组功能模块组成,它们包括:事件日志数据集的预处理模块、实体轨迹数据集生成模块、实体轨迹ID向导树生成模块、实体轨迹数据集配对模块和行为模式发现模块。
事件日志数据集的预处理模块首先将业务流程系统中记录的事件日志数据进行关键字段的提取和填补,得到标准格式的事件日志数据集。
实体轨迹数据集生成模块主要是对上一模块中得到的日志数据集实例化处理,即根据事件日志数据集的时间戳属性,按照事件执行活动的先后顺序,提取事件日志数据集中的活动名称属性和活动执行者属性得到一个实例ID对应的实体轨迹,合并所有实例ID对应的实体轨迹得到实体轨迹数据集;然后去掉异常的、不完整的实体轨迹,最后再对实体轨迹中的活动名称属性和活动执行者属性进行字符编码。
实体轨迹ID向导树生成模块通过合成聚类算法(AHC)来对上一模块中得到的实体轨迹数据集进行分层聚类,得到包含所有实体轨迹的一个实体轨迹ID向导树,便于下一个模块中对实体轨迹进行高效的配对。
实体轨迹数据集配对模块以上一模块中得到的实体轨迹ID向导树为索引,首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹配对;然后再将该层中各个父节点的最佳配对进行配对;再自下而上遍历实体轨迹ID向导树的上层父节点,重复执行上述步骤,直到最终得到一个包含所有实体轨迹的配对矩阵。
行为模式发现模块通过遍历上一模块中得到的包含所有实体轨迹数据集的配对矩阵,将活动名称属性相同的元素划分在一起得到活动块,并把活动块中所有活动名称属性和活动执行者属性组合的出现次数之和以及这些组合各自出现的次数分别作为这些活动块的活动块支持度和各个组合的组合支持度,然后筛选出活动块支持度较高的活动块和活动块中的组合支持度较高的组合并得到这些活动块之间和活动块中组合之间的层次结构关系。
本发明提出的方法基于基因序列配对的思想,将事件日志数据集转换成实体轨迹数据集,通过使用合成聚类算法(AHC)来对这些实体轨迹数据集进行分层聚类,得到一个实体轨迹ID向导树,以该向导树为索引,采用渐进式的多序列配对的方法得到包含所有实体轨迹数据集的配对矩阵;然后再通过遍历该配对矩阵将活动名称属性相同的元素划分在一起得到活动块,并根据活动块中的活动名称属性和活动执行者属性组合出现的次数之和、各自出现的次数选择出较频繁的活动块(业务流程执行中经常出现的活动)和组合(业务流程执行中经常出现的活动分别由哪些执行者执行,即行为模式)并得到这些频繁的活动块和活动块中频繁的组合之间的结构关系。与传统的流程挖掘方法相比,采用本发明所陈述的方法从协作的角度出发挖掘非结构化业务流程中存在的一些固定行为模式,而并不只是进行简单的低频度活动过滤,因此对于非结构化业务流程的有效分析具有很重要的意义。
附图说明
图1方法架构图;
图2行为模式层次结构图;
图3实体轨迹配对图。
具体实施方式
本发明所提供的针对非结构化业务流程日志的基于实体轨迹配对的行为模式挖掘方法的具体实施方式主要分6步(如图1所示):
(1)将业务流程系统中记录的流程日志数据进行预处理得到标准格式的事件日志数据集(如表1所示),该事件日志数据集中的每一行对应一个流程事件,包括实例ID、事件ID和事件属性,其中事件属性包括时间戳属性、活动名称属性和活动执行者属性:
业务流程系统中记录的日志数据可能就是简单的一行数据或者是记录在Excel表格中的含有很多属性的一行记录,为了降低其他属性对研究的干扰,我们仅对关键的字段进行提取和填补,得到一个包含实例ID、事件ID、时间戳、活动名称、活动执行者5个属性的事件日志数据集(如表1所示):
表1事件日志数据集
(2)根据步骤(1)中得到的事件日志数据集的时间戳属性,按照事件执行活动的先后顺序,提取事件日志数据集中的活动名称属性和活动执行者属性,得到一个实例ID对应的实体轨迹,合并所有实例ID对应的实体轨迹得到实体轨迹数据集:
上述得到的标准格式的事件日志数据集中的每一条记录是以事件ID为标识符,实例化处理就是将事件日志数据集的格式转换成以实例ID为唯一标识符的记录,每一个实例ID对应的所有事件按照时间戳属性根据活动发生的先后顺序组成一个轨迹序列,这个轨迹序列能够表示一个完整的实例执行流程,轨迹中的元素是活动名称属性和活动执行者属性的组合,称为实体,因此得到一个实体轨迹,记作Ti,其中i表示实例ID,实体轨迹中的元素——活动名称属性和活动执行者属性的组合,记作实体用ES表示,使用符号O表示活动执行者集合,O={Mj|j=1,2,3...},符号Mj表示活动执行者个体,符号△表示所有活动名称的集合,那么就有有例如针对软件开发流程来说,该开发流程中的所有出现过的活动名称构成的活动集合△为{WriteRequirements,ReviseRequirements,WriteDocuments,ReviseDocuments,WriteCode,TestCode}。根据表1中的标准日志数据集可以得到如下的流程实例对应的实体轨迹:
T1:M1WriteRequirements,M4ReviseRequirements,M5WriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode,M9TestCode
T2:M1WriteRequirements,M2WriteRequirements,M4ReviseRequirements,M9WriteDocuments,M5WriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode
T3:M1WriteRequirements,M2WriteRequirements,M4ReviseRequirements,M9WriteDocuments,M5WriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode,M9TestCode
T4:M1WriteRequirements,M2WriteRequirements,M3WriteRequirements,M4ReviseRequirements,M9WriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode
T5:M1WriteRequirements,M2WriteRequirements,M3WriteRequirements,M4ReviseRequirements,M9WriteDocuments,M5WriteDocuments,M6ReviseDocuments,M7WriteCode,M8TestCode
(3)对上述步骤(2)中得到的实体轨迹数据集进行一些预处理操作:去掉异常的、不完整的实体轨迹,并对实体轨迹中的元素(活动名称属性和活动执行者属性的组合)进行字符编码:
①遍历上述得到的实体轨迹数据集,剔除有缺失的活动执行者属性或者活动名称属性的实体轨迹;
②对上述①中得到的实体轨迹进行字符编码,即使用能够区分不同元素的字符代替复杂的活动名称属性和活动执行者属性的组合,从而简化得到如下的序列:
T1:M1WR,M4RR,M5WD,M6RD,M7WC,M8TC,M9TC
T2:M1WR,M2WR,M4RR,M9WD,M5WD,M6RD,M7WC,M8TC
T3:M1WR,M2WR,M4RR,M9WD,M5WD,M6RD,M7WC,M8TC,M9TC
T4:M1WR,M2WR,M3WR,M4RR,M9WD,M6RD,M7WC,M8TC
T5:M1WR,M2WR,M3WR,M4RR,M9WD,M5WD,M6RD,M7WC,M8TC
(4)通过合成聚类算法(AHC)来对这些实体轨迹数据集进行分层聚类,得到一个实体轨迹ID向导树,该实体轨迹ID向导树的叶子节点分别用其对应的实体轨迹ID表示,对于给定的实体轨迹数据集T={T1,...,Ti...,Tn},合成聚类算法的过程如下:
①将T中的每个实体轨迹Ti看作是具有单个成员的类ci={Ti},这些类构成了T的一个聚类C={c1,...,ci-1,ci,ci+1,...,cj-1,cj,cj+1,...,cn},其中每个类作为实体轨迹ID向导树中的叶子节点;
②计算C中任意每对类(ci,cj)之间的平均距离其中d(Ti,Tj)代表的是两个实体轨迹之间对应位置上的元素字符串之间的编辑距离;
③选取平均距离最小的类对(ci,cj),将ci和cj合并为一个新类ck,类ck对应为实体轨迹ID向导树中ci和cj分别对应的两个节点的父节点,然后在C中去除ci和cj、增加ck得到一个新的类集合C={c1,...,ci-1,ci+1,ck,cj-1,cj+1...,cn};
④重复上述②③步骤,直到类集合C中只剩下一个类为止;
(5)首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹配对(即:在各个实体轨迹中插入空格使它们在相同位置对应相同的元素达到最多数目,使之形成最佳配对);然后再将该层中各个父节点的最佳配对进行配对,使之形成当前层的最佳配对;自下而上遍历实体轨迹ID向导树的上层父节点,重复执行上述步骤,直到最终得到一个包含所有实体轨迹的配对矩阵:
①两轨迹配对:
轨迹配对即为把两条未知的轨迹进行排列,通过字母的匹配,删除和插入操作,使得两条轨迹达到同样长度,在操作的过程中,尽可能保持相同的字母对应在同一个位置。假设有一对轨迹T1=abcac,T2=acacad,那么轨迹在进行配对时,它们的各自元素可能出现的对应情况为(a,b)或(a,-)或(-,b),其中(a,b)表示T1中的活动a对应T2中的活动b,(a,-)表示删除T1中的活动a,(-,b)表示在T1中插入活动b。设分别为T1,T2配对后的轨迹,m为配对后的轨迹长度,则有两个轨迹配对的得分函数为即两个轨迹的配对得分是它们每一个元素配对的累加和,其中:
由于两个轨迹在配对时可能会有多种不同的配对方案,例如对于T1,T2来说,配对的形式可能会有多种,这里仅列举以下的三种配对形式:
(i)若设定a=b时S(a,b)=1;a≠b时S(a,b)=-1;I(a,b)=-1,按照上面的得分函数计算可得到这三种配对的得分分别是1,-4,-9,得分最高也就是配对效果最好的,因此可知第一种配对效果是最好的。
(ii)若设定a=b时S(a,b)=2;a≠b时S(a,b)=1;I(a,b)=-1,则上述三种配对得分分别是5,5,9,那么配对效果最好的分别是前两种。
(iii)若设定a=b时S(a,b)=1;a≠b时S(a,b)=-1;I(a,b)=1,则这三种得分分别是7,-2,9,那么配对效果最好的是最后一种。
因此为了解决上述这种现象,使用下面描述的动态规划算法找到最佳配对。
②使用动态规划算法发现最佳配对:
使用二维表格的形式,其中一个轨迹沿顶部展开,一个轨迹沿左侧展开。通过以下三个途径(方向)到达每个单元格:a.来自上面的单元格,代表将左侧的字符与空格配对;b.来自左侧的单元格,代表将上面的字符与空格配对;c.来自左上侧的单元格,代表左侧和上面的字符配对(可能匹配也可能不匹配)。而该单元格的值来自于以下3个值中的最大值:1)上方的值减1;2)左边的值减1;3)如果该单元格所在的行于所在的列对应的字符相等,则为左上值加1,否则为左上值减1。(具体可见下面的例子)
(i)首先初始化表格:填充表格中第一行和第一列的元素的得分和指针,需要使用位于顶部的第一个轨迹中的字符,并使用空格,而不是使用左侧从上到下的轨迹中的第一个字符。由于空格的得分是-1,所以每次使用空格的时候,就给前一个左侧的单元格减1分,其中定义第一个单元格的得分为0,所以第一行的元素得分就是0,-1,-2,-3,...这样的序列。
(ii)然后填充剩下的单元格:对于每个单元格,都有三种选择对应三种得分,最后要从中选择得分最多的。由于可以从上面、左侧、左上侧分别计算当前单元格的得分和指针,现在假设T1,T2是要配对的轨迹,是生成的配对的轨迹。从上面到达单元格相当于将左面的字符从T1加入跳过上面的T2中的当前字符,并在中加入一个空格,也就是把左侧的字符与空格进行配对。由于一个空格的配对得分是-1,所以当前单元格的得分要从上面的单元格得分减1得到。类似的,将左边的单元格得分减1,可以从左侧到达空单元格,也就是把上面轨迹中的字符与空格进行配对。
(iii)再将上面的字符加入到中,将左边的字符加入到中,这就相当于从左上侧进入空白单元格。这两个字符将会匹配,在这种情况下,新的得分就是左上侧单元格的得分减1。在这三种可能性当中,选择得分最大的一个(如果得分相等,可以从得分高的单元格中从任选一个)。接着需要得到实际的配对字符串以及配对的得分,其中右下角单元格中的得分包含T1,T2的最大配对得分。
(iv)最后将得到的配对轨迹从右下角单元格开始沿着指针回溯,反向构建从表格的构建过程可知,从上向下对应着将左侧字符从T1加入到中,将空格加入中;从左向右对应着将上面的字符从T2加入到中,将空格加入中;而向下和向右移动意味着分别将来自T1,T2的字符加入中。
例如,针对上面的一对轨迹T1=abcac,T2=acacad,设二维表格Fi,j为i行j列表格,其中F(0,0)=0,F(0,1)=0,F(1,0)=0,根据上面的方法进行填充表格,T1 i为T1轨迹中的第i个元素,为T2轨迹中的第j个元素,通过以下公式计算F(i,j):
最终得到二维表格:
然后根据单元格中记录的指针信息,采用回溯法得到最佳配对路径:即1F(5,6)→2F(5,5)→3F(5,4)→2F(4,3)→1F(3,2)→0F(2,1)→1F(1,1)→0F(0,0),配对结果为:
③多轨迹配对:使用一对轨迹配对之和的方法实现多轨迹配对,假设有n条轨迹集合,A为它们的配对结果,其中为其中互不相同的两条轨迹,则有其中,轨迹集合A与另外的轨迹集合B进行配对时,方法与步骤②中的一样,但计算公式需要修改为:
其中,代表配对集合A中的第i列与配对集合B中的第j列替换,定义 表示配对集合Χ中第i列中元素a的频度,表示配对集合A中第i列的插入得分,其中的是当配对集合A中第i-1列元素为a,第i列元素b的频度。
然后将上述方法应用在实体轨迹数据集中得到最佳的配对(示例可见图3):按照上述步骤(4)中得到的实体轨迹ID向导树进行索引,首先将实体轨迹ID向导树最下层的每个父节点中对应的类中的叶子节点所代表的实体轨迹按照步骤①②配对,然后再将该层中各个父节点的最佳配对按照步骤③进行配对,使之形成当前层的最佳配对;自下而上遍历实体轨迹ID向导树的上层父节点,重复执行上述步骤①②③,直到最终得到一个包含所有实体轨迹的配对矩阵。
(6)遍历步骤(5)中得到的包含所有实体轨迹的配对矩阵,以实体轨迹元素中的活动名称属性为单位进行划分(即将活动名称属性相同的元素划分在一起),得到一个个的活动块,其中块中每一行代表不同的实体轨迹、每一列代表实体轨迹中具体的活动名称属性和活动执行者属性的组合,并以每个组合在对应活动块中的出现次数作为该组合在该活动块中的组合支持度,以每个活动块中所有组合的出现次数之和作为该活动块的活动块支持度;然后选取活动块支持度从高到低排列中的前q个活动块(代表业务流程执行中经常发生的活动)和该q个活动块中组合支持度从高到低排列中的前p个组合(代表这些活动在业务流程执行中经常出现的行为模式,即活动经常由哪些执行者执行),获取这q个活动块之间以及这些活动块中的前p个组合之间的结构关系(如顺序结构、并发结构等),即为挖掘得到的业务流程行为模式(具体可见图2)。
本发明可用于非结构化业务流程日志的行为模式挖掘,从而实现对非结构化业务流程的有效分析。

Claims (1)

1.基于业务流程日志和实体轨迹配对的行为模式挖掘方法,其特征在于该方法的具体步骤是:
步骤(1)将业务流程系统中记录的流程日志数据进行预处理,得到标准格式的事件日志数据集,该事件日志数据集中的每一行对应一个流程事件,包括实例ID、事件ID和事件属性,其中事件属性包括时间戳属性、活动名称属性和活动执行者属性;
步骤(2)根据步骤(1)中得到的事件日志数据集的时间戳属性,按照事件执行活动的先后顺序,提取事件日志数据集中的活动名称属性和活动执行者属性,得到一个实例ID对应的实体轨迹Ti,然后合并所有实例ID对应的实体轨迹得到实体轨迹数据集T={T1,...,Ti...,Tn},其中n为自然数;
步骤(3)在步骤(2)中获得的实体轨迹数据集中去掉异常的、不完整的实体轨迹,再对实体轨迹数据集中的实体轨迹的活动名称属性和活动执行者属性进行字符编码,将字符编码后的活动名称属性和活动执行者属性的组合称为实体轨迹数据集的元素;
步骤(4)通过合成聚类算法将实体轨迹数据集进行分层聚类,得到一个实体轨迹ID向导树,该实体轨迹ID向导树的叶子节点分别用对应的实体轨迹的实例ID表示,对于给定的实体轨迹数据集T={T1,...T,i...,Tn},合成聚类算法的过程如下:
①将T中的每个实体轨迹Ti看作是具有单个成员的类ci={Ti},这些类构成了T的一个类集合C={c1,...,ci-1,ci,ci+1,...,cj-1,cj,cj+1,...,cn},其中每个类分别对应实体轨迹ID向导树中的叶子节点;
②计算类集合C中任意每对类(ci,cj)之间的平均距离;
③选取平均距离最小的类对(ci,cj),将类ci和cj合并为一个新类ck,类ck对应为实体轨迹ID向导树中类ci和cj分别对应的两个节点的父节点,然后在类集合C中去除ci和cj、增加ck得到一个新的类集合C={c1,...,ci-1,ci+1,ck,cj-1,cj+1...,cn};
④重复上述②③步骤,直到类集合C中只剩下一个类为止;
步骤(5)首先将实体轨迹ID向导树最下层中属于同一个父节点的叶子节点所代表的实体轨迹配对;然后再将该层中各个父节点的最佳配对进行配对,使之形成当前层的最佳配对;自下而上遍历实体轨迹ID向导树的上层父节点,重复执行本步骤,直到最终得到一个包含所有实体轨迹的配对矩阵;
步骤(6)遍历步骤(5)中得到的包含所有实体轨迹的配对矩阵,以实体轨迹元素中的活动名称属性为单位进行划分,得到一个个的活动块,其中块中每一行代表不同的实体轨迹、每一列代表实体轨迹中具体的活动名称属性和活动执行者属性的组合,并以每个组合在对应活动块中的出现次数作为该组合在该活动块中的组合支持度,以每个活动块中所有组合的出现次数之和作为该活动块的活动块支持度;然后选取活动块支持度从高到低排列中的前q个活动块代表业务流程执行中经常发生的活动和该q个活动块中组合支持度从高到低排列中的前p个组合代表这些活动在业务流程执行中经常出现的行为模式,即活动经常由哪些执行者执行,获取这q个活动块之间以及这些活动块中的前p个组合之间的结构关系,即为挖掘得到的业务流程行为模式。
CN201610424544.XA 2016-06-16 2016-06-16 基于业务流程日志和实体轨迹配对的行为模式挖掘方法 Active CN106095955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610424544.XA CN106095955B (zh) 2016-06-16 2016-06-16 基于业务流程日志和实体轨迹配对的行为模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610424544.XA CN106095955B (zh) 2016-06-16 2016-06-16 基于业务流程日志和实体轨迹配对的行为模式挖掘方法

Publications (2)

Publication Number Publication Date
CN106095955A CN106095955A (zh) 2016-11-09
CN106095955B true CN106095955B (zh) 2019-04-05

Family

ID=57846791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610424544.XA Active CN106095955B (zh) 2016-06-16 2016-06-16 基于业务流程日志和实体轨迹配对的行为模式挖掘方法

Country Status (1)

Country Link
CN (1) CN106095955B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503872B (zh) * 2016-11-29 2019-07-12 中国人民解放军国防科学技术大学 一种基于基础业务活动集的业务流程系统构建方法
CN107391353B (zh) * 2017-07-07 2020-07-28 西安电子科技大学 基于日志的复杂软件系统异常行为检测方法
CN107808258B (zh) * 2017-11-21 2021-02-23 杭州电子科技大学 基于业务流程日志和协作模式的工作流最优员工分配方法
CN109993181B (zh) * 2017-12-29 2021-08-06 中国移动通信集团山西有限公司 异常行为模式识别方法、装置、设备及介质
CN108733804A (zh) * 2018-05-18 2018-11-02 安徽理工大学 一种日志诱导下的形态学片段流程组合聚类方法
CN110046136A (zh) * 2019-04-24 2019-07-23 中国石油大学(华东) 一种过程挖掘领域中自动补全不完整业务事件日志的方法
CN110278269B (zh) * 2019-06-21 2022-03-15 广州小鹏汽车科技有限公司 一种用户行为记录方法和装置
CN112052273B (zh) * 2020-07-27 2021-08-31 杭州电子科技大学 一种多角度业务流程下一候选活动提取方法
CN113064855A (zh) * 2020-09-30 2021-07-02 陈梅玉 远程在线办公信息的存储方法及计算机可读存储介质
CN112612764A (zh) * 2020-12-18 2021-04-06 云南大学 一种基于执行者过程树的双维度遗传过程挖掘方法
CN112632018B (zh) * 2020-12-21 2022-05-17 深圳市杰成软件有限公司 一种业务流程事件日志采样方法与系统
CN112686580B (zh) * 2021-01-31 2023-05-16 重庆渝高科技产业(集团)股份有限公司 一种可自定义流程的工作流定义方法及系统
CN115712664A (zh) * 2023-01-10 2023-02-24 无锡容智技术有限公司 基于日志数据根据时间帧筛选案例的方法与系统
CN117473346A (zh) * 2023-12-27 2024-01-30 安徽思高智能科技有限公司 一种基于轨迹聚类的流程漂移定位方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999572A (zh) * 2012-11-09 2013-03-27 同济大学 用户行为模式挖掘系统及其方法
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10163063B2 (en) * 2012-03-07 2018-12-25 International Business Machines Corporation Automatically mining patterns for rule based data standardization systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999572A (zh) * 2012-11-09 2013-03-27 同济大学 用户行为模式挖掘系统及其方法
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于流程日志挖掘的工作流质量分析系统WFQAS的设计与实现;肖晶;《中国优秀硕士学位论文全文数据库 信息科技辑》;20040916;全文 *

Also Published As

Publication number Publication date
CN106095955A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106095955B (zh) 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
Hovers et al. Transitions before the transition: evolution and stability in the Middle Paleolithic and Middle Stone Age
Adams et al. The Protohistoric Pueblo World, AD 1275-1600
Clark Tracking prehistoric migrations: Pueblo settlers among the Tonto Basin Hohokam
Clark et al. Observations on systematics in Paleolithic archaeology
CN104834518A (zh) 油田勘探开发工作平台系统
CN101383748A (zh) 一种复杂网络中的社区划分方法
Mazza et al. Application of numerical cladistic analyses to the Carnian–Norian conodonts: a new approach for phylogenetic interpretations
CN106897285A (zh) 数据要素抽取分析系统及数据要素抽取分析方法
WO2020258483A1 (zh) 一种基于高效的负序列挖掘模式的临床用药行为分析系统及其工作方法
CN106503872A (zh) 一种基于基础业务活动集的业务流程系统构建方法
CN110389950A (zh) 一种快速运行的大数据清洗方法
Claes et al. Visualizing the process of process modeling with PPMCharts
Wilkinson Civilizations as networks: Trade, war, diplomacy, and command‐control
Gilmore Gathering at Silver Glen: community and history in late Archaic Florida
CN102637208A (zh) 一种基于模式挖掘的噪音数据过滤方法
Taylor Making Time For Space At Çatalhöyük: GIS as a tool for exploring intra-site spatiotemporality within complex stratigraphic sequences
CN109086385A (zh) 一种基于Petri网的业务流程低频行为挖掘方法
Uffelen Fossil Polypodiaceae and their spores
CN110046265B (zh) 一种基于双层索引的子图查询方法
CN106557881A (zh) 一种基于业务活动执行顺序的业务流程系统构建方法
CN102156825A (zh) 一种基于数据挖掘的癌症疫苗试验数据编码及处理方法
Baudin et al. LSCPM: communities in massive real-world Link Streams by Clique Percolation Method
Popov et al. Silurian (Aeronian) rhynchonelliform brachiopods of Shabdjereh, south-west Central Iran and their significance for early spiriferide evolution
Rybin et al. The Structure of the Lithic industries and the Functions of Paleolithic Sites in the Altai Mountains

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant