CN112052990B

CN112052990B - 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法

Info

Publication number: CN112052990B
Application number: CN202010850009.7A
Authority: CN
Inventors: 孙笑笑; 应钰柯; 俞东进
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2021-05-04
Anticipated expiration: 2040-08-21
Also published as: CN112052990A

Abstract

本发明公开了一种基于CNN‑BiLSTM混合模型的多角度业务流程下一活动预测方法。该方法基于事件活动间的关系、属性相似性、事件在实例内的位置提取了三个下一候选活动属性，并将提取出的属性和数据集的基本属性、时间属性一同作为CNN‑BiLSTM的混合模型的输入来开展下一活动的预测。这种方法具有预测精度高、适用性广泛的特点，能够有效地解决一些复杂场景下的下一活动预测问题，从而为流程执行者提供有效信息来防止流程执行顺序出现异常等情况的出现。

Description

一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法

技术领域

本发明涉及业务流程监控领域，尤其涉及一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法。

背景技术

业务流程监控领域是业务流程管理中一个重要分支。业务流程监控是业务流程管理中的一个重要分支，也是业务流程管理中富有挑战性的研究内容之一。能准确预测正在执行流程实例的发展趋势能够有利于及时发现流程在执行中的违规行为，便于对流程进行管理。现有的流程监控任务主要有剩余时间预测、下一活动预测、资源执行情况预测以及超时风险预测等。本发明主要进行业务流程下一活动的预测，即预测业务流程后继活动即预测未完成实例当前执行活动的下一活动。其准确预测可以帮助相关人员了解流程进度、提前得知流程违规问题，同时根据预测的下一个活动分配及调整活动资源，提高流程执行效率。

早期的下一活动预测方法侧重于统计分析，整理、分析和归纳了已执行完毕的实例数据，从历史日志中构建状态转换模型，从而得到当前执行事件的可能下一事件概率。Lakshmanan等人提出了一种特定于实例的概率过程模型(PPM)，首先从日志轨迹中挖掘出模型，并学习每个节点的决策树以计算特定于实例的PPM中各个边的单步转移概率，并将该模型映射为空间马尔科夫链，对未来执行任务进行预测。近年来，神经网络在许多序列建模应用领域(自然语言处理NLP、语音识别等)显示出了其良好的预测能力，在业务流程中越来越多的预测工作也转向神经网络。Evermann等人首次提出了一种用递归神经网络进行下一事件预测的方法，区别于之前提出的一些依赖于显式过程建模的方法。Marlon等人将日志中的事件信息进行编码并作为长短记忆神经网络(LSTM)的输入来预测未完成轨迹的下一事件、下一事件执行时间以及剩余执行时间。但他们在进行编码时仅仅考虑了日志中事件活动、以及时间属性，而未考虑日志中的其余属性。

综上，对于状态转移模型构建进行预测而言，有许多业务流程的历史数据是非结构化的，无法构建出拟合度高且较为简洁的过程模型，因此预测精度会较低；而大部分基于深度学习的下一活动预测工作，研究者主要工作重心在历史数据编码与模型构建上，缺乏对日志中属性的深入分析，并且其结果的可解释性较差。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，可有效解决上述问题。本发明具体采用的技术方案如下：

一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其包括以下步骤：

S1.输入原始日志文件

其中

由

条流程轨迹σ＝<e₁,e₂,e₃,…,e_q>组成，每条流程轨迹σ由q个事件e＝(CaseID,Activity,Resource,StartTime,CompleteTime,attr₁,attr₂,…attr_N)组成，其中CaseID代表事件所属的实例，Activity代表事件执行的活动，Resource代表事件执行所需的资源，StartTime和CompleteTime分别代表该事件的开始时间和结束时间，attr₁,attr₂,…attr_N代表该事件的其余N个属性，将日志中所有K个事件的集合记为ε＝{e₁,e₂,e₃,…,e_K}；

S2.为ε中的每个事件添加特征属性，包括基本的特征属性和提取的特征属性，具体步骤如下：

S21：为ε中的每个事件添加eventPos、TimeSinceCaseStart、year、month、day、hour共6个基本的特征属性，其中eventPos代表该事件在所属实例中的位置，TimeSinceCaseStart表示该事件距离实例开始的时间，year、month、day、hour分别代表了该事件进行时的年、月、日、小时信息；

S22：为ε中的每个事件添加CandActBasedAct、CandActBasedPos、CandActBasedAttr共3个提取的特征属性，其中CandActBasedAct表示根据事件活动间的关系提取的特征属性，CandActBasedpos表示根据事件在实例内的位置提取的特征属性，CandActBasedAttr表示根据事件的属性相似度提取的特征属性；

S3.统计日志文件中流程轨迹的长度分布，设置长度阈值β，删除日志文件中长度大于β的流程轨迹；

S4.对流程轨迹中事件的属性进行编码，对于类别属性使用one-hot编码方式，对于数值属性将其进行0-1标准化处理；

S5.对编码后的日志文件进行分割，部分数据作为训练集用于训练混合模型，剩余数据作为测试集用于评估混合模型的精度；

S6.构建并训练CNN-BiLSTM混合模型，具体包含以下子步骤：

S61.CNN特征提取：将大小为k×m的训练集输入一维卷积层conv1D进特征提取，其中k为事件数，m为属性数；将滤波器大小设置为l×m，其滑动方向设置为垂直方向，步长设置为1，将滤波器沿垂直方向滑动得到k-l+1个局部特征，将每个局部特征与n个卷积核分别进行内积操作，最终得到大小为(k-l+1)×n的CNN特征；

S62.前后向信息提取：将特征提取后的训练集输入到前向LSTM层和后向LSTM层中，得到t时刻其在前向层和后向层的隐藏状态h_t ⁽¹⁾和h_t ⁽²⁾，公式如下：

h_t ⁽¹⁾＝f(U⁽¹⁾h_t-1 ⁽¹⁾+W⁽¹⁾x_t+b⁽¹⁾)

h_t ⁽²⁾＝g(U⁽²⁾h_t+1 ⁽²⁾+W⁽²⁾x_t+b⁽²⁾)

其中f()为前向信息提取函数，U⁽¹⁾和W⁽¹⁾为其权重矩阵，b⁽¹⁾为其偏置项；g()为后向信息提取函数，U⁽²⁾和W⁽²⁾为其权重矩阵，b⁽²⁾为其偏置项；

S63.前后向信息拼接：将h_t ⁽¹⁾和h_t ⁽²⁾进行拼接，得到t时刻的输出o_t，公式如下：

S64.得到预测模型：将o_t经过全连接层后得到下一活动的预测值y_predict，通过损失函数不断迭代y_predict与下一活动实际值Y之间的损失值，当达到迭代终止条件时，得到业务流程下一活动预测模型cnn_bilstm；

S7.对测试集执行步骤S61提取其CNN特征，然后将特征提取后的测试集输入到预测模型cnn_bilstm中得到预测结果，将其与下一活动的实际值进行比较，得到模型的预测精度评估结果；将预测精度满足要求的预测模型cnn_bilstm用于业务流程下一活动预测。

作为优选，S22中所述的CandActBasedAct属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedAct属性为null；

(2)对ε中的每个事件e_i，迭代执行以下操作：

1)提取其执行的活动a_i，然后遍历所有流程轨迹搜索紧随在活动a_i后执行的活动a_j，得到a_i的下一活动集合succ(a_i)，其中succ(a_i)中的活动不重复；

2)依次计算a_i与succ(a_i)中每个活动a_j的依赖度，具体公式如下：

其中O(a_i,a_j)表示流程轨迹中出现执行顺序是a_i→a_j的次数，→表示相邻两个活动的执行路径；

3)将计算得到的所有依赖度从高到低进行排序，筛选出依赖度最高的活动作为活动a_i的高频下一活动HDsucc(a_i)，其依赖度为Dep(a_i,HDsucc(a_i))；

4)将Dep(a_iH,Dsucc(a_i))与依赖度阈值α进行比较，若Dep(a_i,HDsucc(a_i))≥α，则将HDsucc(a_i)赋值给e_i的CandActBasedAct属性；若Dep(a_i,HDsucc(a_i))<α，则首先根据事件e_i所属流程轨迹的执行顺序找到其前一活动，即事件e_i的前一事件e_i-1的执行活动a_i-1，然后遍历所有流程轨迹搜索紧随在a_i-1→a_i后执行的活动a_l，得到a_i-1→a_i的下一活动集合succ(a_i-1,a_i)，依次计算a_i-1→a_i与succ(a_i-1,a_i)中每个活动a_l的依赖度，计算公式如下：

其中O(a_i-1,a_i,,a_l)表示流程轨迹中出现执行顺序是a_i-1→a_i→a_l的次数；

最后对计算得到的所有依赖度从高到低进行排序，筛选出依赖度最高的活动HDsucc(a_i-1→a_i)并将其赋值给e_i的CandActBasedAct属性；

作为优选，S22中所述的CandActBasedPos属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedPos属性为null；

(2)对ε中的每个事件e_i，增加Pos和nextPos两个数值属性，分别代表事件e_i在其所属实例中的位置和下一个位置；

(3)然后根据Pos属性对每个位置上出现的活动进行统计，并确定每个位置出现频率最高的活动MFAct(Pos)；

(4)对ε中的每个事件e_i，根据其nextPos属性，去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给e_i的CandActBasedPos属性；

作为优选，S22中所述的CandActBasedAttr属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedAttr属性为null；

(2)对ε中的所有事件，根据其执行的活动进行划分，将活动相同的事件分到一个集合，得到

个事件集合

其中为

为日志中所有活动的集合且集合中的活动不重复，

为

中具有的活动数量，每个

集合中所包含事件执行的活动均为相同活动；

(3)对ε中的每个事件e_i的属性进行编码得到其属性向量AttrVec(e_i)；

(4)对ε中的每个事件e_i，提取其执行的活动a_i，然后找到其对应的事件集合

将事件e_i的属性向量AttrVec(e_i)与事件集合

中的每个事件e_j的属性向量AttrVec(e_j)迭代计算相似度，当出现相似度小于距离阈值γ的事件e_j时，认为已筛选出与e_i局部最相似的事件，将该事件执行的活动赋值给e_i的CandActBasedAttr属性；若迭代结束仍未出现相似度小于距离阈值γ的事件e_j，则将相似度最小的事件e_j执行的活动赋值给e_i的CandActBasedAttr属性；

作为优选，S3所述长度阈值β取50。

作为优选，S61所述的l取3，n取64。

作为优选，S64所述的损失函数为交叉熵。

作为优选，S64所述的迭代终止条件为迭代轮次达到10次或者损失函数值小于0.1％。

相比于传统的业务流程下一活动预测方法，本发明具有如下收益：1、提取了基于业务流程中事件活动间的关系、事件在实例内的位置以及事件的属性相似性的三个候选活动属性，在很大程度上提高了下一事件活动的预测精度；2、使用CNN和BiLSTM的混合模型进行预测，可以提取数据集在时间方面的潜在特征，使下一事件活动的预测模型具有较好的稳定性并能在较为复杂的业务场景下开展应用，同时也提高了预测结果的精度。

附图说明

图1为本发明的流程图；

图2为发明构建的CNN-BiLSTM混合模型；

图3为CNN特征提取的示意图；

图4为本发明在Helpdesk、Sepsis、BPIC2012、Road Traffic Fines数据集的预测准确率对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行详细说明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，本发明的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，包括以下步骤：

S1.输入原始日志文件

其中

由

其中，CandActBasedAct属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedAct属性为null；

(2)对ε中的每个事件e_i，迭代执行以下操作：

1)提取其执行的活动a_i，然后遍历所有流程轨迹搜索紧随在活动a_i后执行的活动a_j，得到a_i的下一活动集合sucx(a_i)，其中suxc(a_i)中的活动不重复；

4)将Dep(a_i,HDsucc(a_i))与依赖度阈值α进行比较，若Dep(a_i,HDsucc(a_i))≥α，则将HDsucc(a_i)赋值给e_i的CandActBasedAct属性；若Dep(a_i,HDsucc(a_i))<α，则首先根据事件e_i所属流程轨迹的执行顺序找到其前一活动，即事件e_i的前一事件e_i-1的执行活动a_i-1，然后遍历所有流程轨迹搜索紧随在a_i-1→a_i后执行的活动a_l，得到a_i-1→a_i的下一活动集合succ(a_i-1,a_i)，依次计算a_i-1→a_i与succ(a_i-1,a_i)中每个活动a_l的依赖度，计算公式如下：

其中，S22中所述的CandActBasedPos属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedPos属性为null；

其中，S22中所述的CandActBasedAttr属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedAttr属性为null；

个事件集合

其中为

为日志中所有活动的集合且集合中的活动不重复，

为

中具有的活动数量，每个

集合中所包含事件执行的活动均为相同活动；

将事件e_i的属性向量AttrVec(e_i)与事件集合

S3.统计日志文件中流程轨迹的长度分布，设置长度阈值为50，删除日志文件中长度大于50的流程轨迹；

S5.对编码后的日志文件进行分割，将80％的数据作为训练集用于训练混合模型，剩余的20％作为测试集用于评估混合模型的精度；

S6.构建并训练CNN-BiLSTM混合模型，其结构如图2所示，具体包含以下子步骤：

S61.CNN特征提取：如图3所示，将大小为k×m的训练集输入一维卷积层conv1D进特征提取，其中k为事件数，m为属性数；将滤波器大小设置为l×m，其滑动方向设置为垂直方向，步长设置为1，将滤波器沿垂直方向滑动得到k-l+1个局部特征，将每个局部特征与n个卷积核分别进行内积操作，最终得到大小为(k-l+1)×n的CNN特征，其中l取3，n取64；

h_t ⁽¹⁾＝f(U⁽¹⁾h_t-1 ⁽¹⁾+W⁽¹⁾x_t+b⁽¹⁾)

h_t ⁽²⁾＝g(U⁽²⁾h_t+1 ⁽²⁾+W⁽²⁾x_t+b⁽²⁾)

S64.得到预测模型：将o_t经过全连接层后得到下一活动的预测值y_predict，通过交叉熵损失函数不断迭代y_predict与下一活动实际值Y之间的损失值，当迭代轮次达到10次或者损失函数值小于0.1％时，得到业务流程下一活动预测模型cnn_bilstm；

下面基于上述方法流程，通过实施例进一步展示其技术效果。

实施例

本实施例步骤与具体实施方式前述步骤相同，在此不再进行赘述。下面就部分实施过程和实施结果进行展示：

本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志：Helpdesk，Sepsis，BPIC2012O，Road Traffic Fines。其中Helpdesk日志涉及意大利软件公司的帮助台的票务管理过程，共有4580条实例数据，包含21349个事件和14个活动，其中最长实例事件数为15个，最短实例事件数为2个。Sepsis日志通过医院的ERP系统记录了败血症病例的事件，该日志有大约1000条实例，事件数为15000个左右，活动数为16个。BPIC2012O日志为BPIC2012的子日志，BPIC2012日志取自荷兰金融学院，表示的过程是全球融资组织中个人贷款或者透支的申请过程。BPIC2012O与传达给客户的报价状态有关的事件，有5015条实例和31244个事件，活动数为7个。Road Traffic Fines日志是一个管理道路交通罚款信息系统的真实事件日志，该日志记录了150370个案例中约561470个事件信息。其中最短案例的事件数仅有2条，而最长案例的事件数为20条。

为了验证本发明技术方案的技术效果，本实施例主要选取准确率、召回率、精确率和F-score四个指标对预测结果进行衡量，其计算公式如下：

其中|S|代表样本数，n_i代表第i个类别的样本数，tp_i代表将第i类别中正类样本预测为正类的样本数，tn_i代表将正类样本预测为负类的样本数，fp_i代表将负类样本预测为正类的样本数，fn_i代表将负类样本预测为负类的样本数。

为展示所提出的三个候选活动属性的有效性，实施例使用了三种类型的输入特征数据进行验证，其中第一类为直接可从日志中提取的基本属性(basic)，第二类为在基本属性的基础之上分别添加CandActBasedAct、CandActBasedPos和CandActBasedAttr属性，而最后一类为在基本属性的基础之上将三个候选活动属性全部添加。而为了说明本文中提出模型在准确率方面要优于其余模型，我们将三类输入特征数据分别在CNN，BiLSTM和CNN-BiLSTM和混合模型中进行实验。图4展示在四个不同数据集上的对比结果，从图中可以看出，添加本文提出的单个或者多个下一候选活动属性在不同数据集中对于准确率均有不同程度的提高，但在不同数据集上不同下一候选活动属性的效果各有不同。

为进一步验证本发明技术方案的技术效果，表1将本文中所用数据集的最高准确率与当前文献中准确率的最佳值进行了对比，对比显示我们提出的方法在Helpdesk、Sepsis和BPIC2012O三个数据集中将准确率分别提高了8.49％、5.49％和5.19％；而对于Road Traffic Fines数据集，由于本实施例所用样本数(150,370条实例、561,470个事件)远大于Tama等人所用样本数(10,000条实例、34,724个事件)，所以在准确率方面具有较大不同。综上，本发明提出的一种基于CNN-BiLSTM混合模型的多角度下一活动预测方法与其他方法相比具有较大的优越性。

表1为本发明的最高准确率与其他文献中的最佳值对比结果

表1中对比的其他业务流程下一活动预测方法具体参考如下文献：

[1]Tax,N.,Verenich,I.,La Rosa,M.,&Dumas,M.(2017,June).Predictivebusiness process monitoring with LSTM neural networks.In InternationalConference on Advanced Information Systems Engineering(pp.477-492).Springer,Cham.

[2]Mehdiyev,N.,Evermann,J.,&Fettke,P.(2017,July).A multi-stage deeplearning approach for business process event prediction.In 2017IEEE 19thConference on Business Informatics(CBI)(Vol.1,pp.119-128).IEEE.

[3]Tama,B.A.,&Comuzzi,M.(2019).An empirical comparison ofclassification techniques for next event prediction using business processevent logs.Expert Systems with Applications,129,233-245.

[4]Breuker,D.,Matzner,M.,Delfmann,P.,&Becker,J.(2016).ComprehensiblePredictive Models for Business Processes.Mis Quarterly,40(4),1009-1034.

[5]Lee,W.L.J.,Parra,D.,Munoz-Gama,J.,&Sepulveda,M.(2018).Predictingprocess behavior meets factorization machines.Expert Systems withApplications,112,87-98.

[6]Mehdiyev,N.,Evermann,J.,&Fettke,P.(2017,July).A multi-stage deeplearning approach for business process event prediction.In 2017IEEE 19thConference on Business Informatics(CBI)(Vol.1,pp.119-128).IEEE.

[7]Evermann,J.,Rehse,J.R.,&Fettke,P.(2016,September).A deep learningapproach for predicting process behaviour at runtime.In InternationalConference on Business Process Management(pp.327-338).Springer,Cham.

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于包括以下步骤：

S1.输入原始日志文件

其中

由

条流程轨迹σ＝＜e₁，e₂，e₃，...，e_q＞组成，每条流程轨迹σ由q个事件e＝(CaseID，Activity，Resource，StartTime，CompleteTime，attr₁，attr₂，...attr_N)组成，其中CaseID代表事件所属的实例，Activity代表事件执行的活动，Resource代表事件执行所需的资源，StartTime和CompleteTime分别代表该事件的开始时间和结束时间，attr₁，attr₂，...attr_N代表该事件的其余N个属性，将日志中所有K个事件的集合记为ε＝{e₁，e₂，e₃，...，e_K}；

S6.构建并训练CNN-BiLSTM混合模型，具体包含以下子步骤：

S61.CNN特征提取：将大小为k×m的训练集输入一维卷积层conv1D进特征提取，其中k为事件数，m为属性数；将滤波器大小设置为l×m，其滑动方同设置为垂直方向，步长设置为1，将滤波器沿垂直方向滑动得到k-l+1个局部特征，将每个局部特征与n个卷积核分别进行内积操作，最终得到大小为(k-l+1)×n的CNN特征；

h_t ⁽¹⁾＝f(U⁽¹⁾h_t-1 ⁽¹⁾+W⁽¹⁾x_t+b⁽¹⁾)

h_t ⁽²⁾＝g(U⁽²⁾h_t+1 ⁽²⁾+W⁽²⁾x_t+b⁽²⁾)

2.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于，所述S22中，CandActBasedAct属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedAct属性为null；

(2)对ε中的每个事件e_i，迭代执行以下操作：

其中O(a_i，a_j)表示流程轨迹中出现执行顺序是a_i→a_j的次数，→表示相邻两个活动的执行路径；

3)将计算得到的所有依赖度从高到低进行排序，筛选出依赖度最高的活动作为活动a_i的高频下一活动HDsucc(a_i)，其依赖度为Dep(a_i，HDsucc(a_i))；

4)将Dep(a_i，HDsucc(a_i))与依赖度阈值α进行比较，若Dep(a_i，HDsucc(a_i))≥α，则将HDsucc(a_i)赋值给e_i的CandActBasedAct属性；若Dep(a_i，HDsucc(a_i))＜α，则首先根据事件e_i所属流程轨迹的执行顺序找到其前一活动，即事件e_i的前一事件e_i-1的执行活动a_i-1，然后遍历所有流程轨迹搜索紧随在a_i-1→a_i后执行的活动a_l，得到a_i-1→a_i的下一活动集合succ(a_i-1，a_i)，依次计算a_i-1→a_i与succ(a_i-1，a_i)中每个活动a_l的依赖度，计算公式如下：

其中O(a_i-1，a_i，，a_l)表示流程轨迹中出现执行顺序是a_i-1→a_i→a_l的次数；

最后对计算得到的所有依赖度从高到低进行排序，筛选出依赖度最高的活动HDsucc(a_i-1→a_i)并将其赋值给ei的CandActBasedAct属性。

3.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于，所述S22中，CandActBasedPos属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedPos属性为null；

(4)对ε中的每个事件e_i，根据其nextPos属性，去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给e_i的CandActBasedPos属性。

4.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于，所述S22中，CandActBasedAttr属性提取包含以下步骤：

(1)对ε中的所有事件，初始化其CandActBasedAttr属性为null；

个事件集合

其中为

为日志中所有活动的集合且集合中的活动不重复，

为

中具有的活动数量，每个

集合中所包含事件执行的活动均为相同活动；

将事件e_i的属性向量AttrVec(e_i)与事件集合

中的每个事件e_j的属性向量AttrVec(e_j)迭代计算相似度，当出现相似度小于距离阈值γ的事件e_j时，认为已筛选出与e_i局部最相似的事件，将该事件执行的活动赋值给e_i的CandActBasedAttr属性；若迭代结束仍未出现相似度小于距离阈值γ的事件e_j，则将相似度最小的事件e_j执行的活动赋值给e_i的CandActBasedAttr属性。

5.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于S3所述长度阈值β取50。

6.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于S61所述的l取3，n取64。

7.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于S64所述的损失函数为交叉熵。

8.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法，其特征在于S64所述的迭代终止条件为迭代轮次达到10次或者损失函数值小于0.1％。