CN112052232A

CN112052232A - 一种基于重演技术的业务流程上下文提取方法

Info

Publication number: CN112052232A
Application number: CN202010705097.1A
Authority: CN
Inventors: 孙笑笑; 侯文杰; 俞东进
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-12-08
Anticipated expiration: 2040-07-21
Also published as: CN112052232B

Abstract

本发明公开了一种基于重演技术的业务流程上下文提取方法。方法将业务流程的上下文信息划分为从控制流角度观察的行为上下文和从非控制流角度观察的数据上下文。其中行为上下文采用重演技术利用Petri网来进行捕捉，包括全局行为上下文和局部行为上下文；数据上下文通过对事件的关键属性执行分析获取，包括时间上下文和属性上下文。本发明方法能够从多个视角极好地展现当前实例执行的上下文环境，对后续的业务流程深度分析如异常检测、业务流程预测性等提供支撑。

Description

一种基于重演技术的业务流程上下文提取方法

技术领域

本发明涉及业务流程管理中的上下文提取领域，尤其涉及一种基于重演技术的业务流程上下文提取方法。

背景技术

随着全球经济的快速发展，传统的经营管理模式已经难以支撑企业内部繁重的业务体量，因此越来越多的企业引入业务流程管理(Business Process Management，简称BPM)技术实现企业内部流程的自动化高效管理。作为BPM在企业中的具体实践，业务流程驱动的信息系统(Process-Aware Information Systems，简称PAIS)在企业中大量使用，以支持业务流程建模、设计、执行以及帮助不同部门的员工灵活、高效地完成流程中的业务交付。PAIS以日志的形式记录了业务流程执行时每个活动的相关信息。对日志数据进行分析并从中提取出有价值的信息可以帮助企业提高服务效率、服务速度和服务质量，从而增强其企业竞争力。

业务流程上下文提取是指通过对正在执行的业务流程进行分析，更好地模拟流程执行的环境，其结果进一步应用于后续的业务流程深度分析如异常检测、业务流程预测性等提供支撑。然而目前现有的上下文提取方法大多从控制流视角观察当前活动执行的上下文信息或者从非控制流视角观察当前活动执行的上下文信息，极少将两者进行结合研究，无法综合、高效地反应当前活动执行的完整上下文信息。

发明内容

为了克服上述现有技术的不足，提出了一种基于重演技术的业务流程上下文提取方法。本发明使用重演技术来提取业务流程的行为上下文信息，将其与直接提取的数据上下文信息结合形成完整的业务流程上下文，可有效解决上述问题。

本发明具体采用的技术方案如下：

一种基于重演技术的业务流程上下文提取方法，其包括以下步骤：

S1.数据预处理：输入原始日志，使用过程发现技术从中挖掘出Petri网流程模型PN；

S2.行为上下文提取：利用重演技术基于步骤S1获得的Petri网流程模型PN对当前轨迹进行重演，具体包含S21～S28步骤：

S21.从PN中获取开始活动集合

结束活动集合

以及PN中的全部活动集合

并初始化全局行为上下文向量v_gbc为长度

的0向量，其中

为PN中库所节点的数量；

S22.对日志中的事件根据其发生时间先后进行排序，得到按发生早晚排好序的事件集E_list；

S23.依次遍历E_list中的每个事件并根据事件的实例ID属性找到其所属的轨迹T；

S24.对E_list中的每个事件e，按照S25～S28判断其执行活动a的类型，返回更新的事件集E′_list，E′_list中的每个事件均包含全局行为上下文属性e.gbc和局部行为上下文属性e.lbc；

S25.若a属于开始活动集

为开始活动，则执行以下操作：

(1)初始化当前活动的局部行为上下文向量v_lbc为长度

的0向量；

(2)获得当前活动对应变迁节点的输入集合S_pre和输出集合S_post；

(3)对S_pre中的每个库所节点，将v_lbc中该库所节点对应位置的数值加1，对v_gbc执行相同的操作，然后将v_lbc存储到当前事件e的局部行为上下文属性e.lbc和当前轨迹T的属性T.lastState中，将v_gbc存储到当前事件e的全局行为上下文属性e.gbc中；

(4)对S_post中的每个库所节点，将S_pre中库所节点的托肯转移到S_post的库所节点中，并对v_lbc作出同样的转移，即该库所节点对应位置处的数值加1，被转移的库所节点对应位置处的数值减1，得到当前轨迹T执行当前活动后的状态，并将其保存在当前轨迹T的属性T.nextState中；

S26.若a不属于

但属于

为普通活动，则执行以下操作：

(1)当前活动的局部行为上下文向量v_lbc为T.nexState，全局行为上下文向量v_gbc为v_gbc+T.nextState-T.lastState；

(3)对S_pre中的每个库所节点，将v_lbc中该库所节点对应位置处的数值减1，然后将v_lbc存储到当前事件e的属性e.lbc和当前轨迹T的属性T.lastState中，将v_gbc存储到当前事件e的属性e.gbc中；

(4)对S_post中的每个库所节点，将S_pre中库所节点的托肯转移到S_post的库所节点中，并对v_lbc作出同样的转移，即该库所节点对应位置处的数值加1，被转移的库所节点对应位置处的数值减1，得到轨迹执行当前活动后的状态，并将其保存在当前轨迹T的属性T.nextState中；

S27.若a不属于

则当前执行的活动在PN模型中未出现过，为意外活动，则执行以下操作：

(2)将v_lbc存储到当前事件e的属性e.lbc和当前轨迹T的属性T.lastState中，将v_gbc存储到当前事件e的属性e.gbc中；

(3)对v_lbc中

位置上的数值加1来表示该活动执行后的状态，然后将v_lbc存储到当前轨迹T的属性T.nextState中；

S28.若当前事件执行的活动属于结束活动集

则说明当前轨迹执行完毕，则执行以下步骤：

(1)从全局上下文v_gbc中减去当前轨迹带来的托肯，即v_gbc＝v_gbc-T.lastState：

(2)局部行为上下文向量v_lbc仍为T.nexState，将v_lbc存储到当前事件e的属性e.lbc，将v_gbc存储到当前事件e的属性e.gbc中；

S3.时间上下文提取：对事件集E′_list中的每个事件发生的时间戳进行处理，得到每个事件当前执行活动的时间上下文e.tcv＝[h，m，d，weekday，tsct，td]，其中h，m，d，weekday分别表示该时间戳对应的小时、月份、天以及星期的信息，tsct表示当前时间戳距实例开始时间戳的时间间隔，td表示当前时间戳距当天0点的时间间隔；

S4.属性上下文提取：对事件的其余属性根据其属性值是否为数值类型划分为类别属性和数值属性，对类别属性进行编码，然后与数值属性构成的向量合并得到属性上下文e.dev；

S5.完整上下文计算：对事件日志中的每个事件，使用S2中获得的属性e.lbc和属性e.gbc、S3中获得的属性e.tcv以及S4中获得的属性e.dcv进行级联，得到事件对应的完整上下文信息。

作为优选，1中所述的过程发现技术采用Split Miner。

作为优选，步骤S1中所述的Petri网流程模型

其中

是由全部库所节点组成的有限集合；

是由全部变迁节点组成的有限集合，且满足

是活动的有限集合；

是一组有向弧，表示流程中变迁与库所之间的关系；

是一个映射函数，将每个变迁节点

与

中的单个活动或者和不可观察到的活动⊥相映射；M_init表示Petri网的初始状态。

作为优选，步骤S1中所述的全局行为上下文向量v_gbc的第

位用于接收未知活动执行产生的托肯。

作为优选，步骤S4所述的对类别属性进行编码选用one-hot编码，将类别属性转化为由0和1构成的向量。

本发明使用重演技术来获取流程实例执行的行为上下文，并与属性上下文一起形成了业务流程的完整上下文信息，本法明具有如下收益：1、利用重演技术来获取流程执行的行为上下文能够更好地模拟业务流程实际执行的情况；2、本发明提出的方法后续可用于在线上下文提取，具有更好的时效性。

附图说明

图1为本发明方法的流程图；

图2为本发明方法在准确率上的结果展示图(将本发明的上下文提取结果进一步应用于异常检测)；

图3为本发明方法在精确率上的结果展示图(将本发明的上下文提取结果进一步应用于异常检测)；

图4为本发明方法在召回率上的结果展示图(将本发明的上下文提取结果进一步应用于异常检测)；

图5为本发明方法在F1分数上的结果展示图(将本发明的上下文提取结果进一步应用于异常检测)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步详细说明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，本发明的一种基于重演技术的业务流程上下文提取方法，包括以下步骤：

S1.数据预处理：输入原始日志，使用过程发现技术SplitMiner从中挖掘出Petri网流程模型

其中

是由全部库所节点组成的有限集合；

是由全部变迁节点组成的有限集合，且满足

是活动的有限集合；

是一组有向弧，表示流程中变迁与库所之间的关系；

是一个映射函数，将每个变迁节点

与

中的单个活动或者和不可观察到的活动⊥相映射；M_init表示Petri网的初始状态。其中Split Miner的执行只需设定两个参数阈值ε和η，即可以从历史事件日志中自动挖掘出一个全面权衡了精度，召回率以及模型复杂度的Petri网模型；其中阈值ε用于控制过滤过程的执行，阈值η用于控制并行关系的检测。

S2.行为上下文提取：利用重演技术基于步骤S1获得的Petri网流程模型PN对当前轨迹进行重演，具体包含如下S21～S28步骤：

S21.从PN中获取开始活动集合

结束活动集合

以及PN中的全部活动集合

并初始化全局行为上下文向量v_gbc为长度

的0向量，其中

为PN中库所节点的数量，第

位用于接收未知活动执行产生的托肯(token)；

S25.若a属于开始活动集

为开始活动，则执行以下操作：

(1)初始化当前活动的局部行为上下文向量v_lbc为长度

的0向量；

S26.若a不属于

但属于

为普通活动，则执行以下操作：

S27.若a不属于

(3)对v_lbc中

S28.若当前事件执行的活动属于结束活动集

则说明当前轨迹执行完毕，则执行以下步骤：

(1)从全局上下文v_gbc中减去当前轨迹带来的托肯，即v_gbc＝v_gbc-T.lastState；

S3.时间上下文提取：对事件集E′_list中的每个事件发生的时间戳进行处理，得到每个事件当前执行活动的时间上下文e.tcv＝[h，m，d，weekday，tsct，td]，其中h，m，d，weekday分别表示该时间戳对应的小时、月份、天以及星期的信息，tsct表示当前时间戳距实例开始时间戳的时间间隔，td表示当前时间戳距当天凌晨0点的时间间隔；

S4.属性上下文提取：对事件的其余属性根据其属性值是否为数值类型划分为类别属性和数值属性，对类别属性进行one-hot编码，将类别属性转化为由0和1构成的向量，然后与数值属性构成的向量合并得到属性上下文e.dcv；

下面将上述S1～S5应用于一个具体实施例中，以展示其技术效果。

实施例

本实施例步骤与具体实施方式相同，在此不再进行赘述。下面就部分实施过程和实施结果进行展示：

数据源获取：本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实的业务流程产生的日志：Helpdesk，BPIC2012_A，BPIC2012_O，BPIC2012_W。其中Helpdesk来源于意大利某软件公司服务台的票务管理流程，剩余三个日志来源于荷兰某财政机构，记录了申请贷款业务的流程的相关信息，它们是三个相互交织的子流程。其中每个日志中的相关统计信息见表1。

由于业务流程上下文提取是从多个视角更好地展现当前实例执行的上下文环境，其主要目的是为后续的业务流程深度分析如异常检测、业务流程预测性等提供支撑，因此为了验证本发明技术方案的技术效果，本实施例将采用本发明方法提取的业务流程上下文信息进一步用于业务流程的异常检测，包括属性异常、时间异常和行为异常三种类型。本实施例选取常用的四个指标：准确率、精确率、召回率以及F1分数来衡量检测的性能。此外，为了验证提出的基于重演提取的行为上下文对检测结果的影响，为训练模型分别生成了两类数据样本，其中第一类样本(withBC)将包含本发明提出的行为上下文信息和数据上下文信息，而第二种样本(withoutBC)则仅包含数据上下文(以往的工作均只使用了数据上下文信息)。

图2、3、4、5分别展示了在四个数据集上使用本发明方法进行三类异常检测的准确率、精确率、召回率以及F1分数的变化。由图中可以看到，加入本发明提出的行为上下文信息后，三类异常检测精度均有不同程度的提高，这证明了本发明提出的基于重演技术提取得到的行为上下文信息的有效性。

表1四个真实数据集的统计信息表

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。