CN112052990B - 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 - Google Patents
一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 Download PDFInfo
- Publication number
- CN112052990B CN112052990B CN202010850009.7A CN202010850009A CN112052990B CN 112052990 B CN112052990 B CN 112052990B CN 202010850009 A CN202010850009 A CN 202010850009A CN 112052990 B CN112052990 B CN 112052990B
- Authority
- CN
- China
- Prior art keywords
- event
- activity
- cnn
- attributes
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于CNN‑BiLSTM混合模型的多角度业务流程下一活动预测方法。该方法基于事件活动间的关系、属性相似性、事件在实例内的位置提取了三个下一候选活动属性,并将提取出的属性和数据集的基本属性、时间属性一同作为CNN‑BiLSTM的混合模型的输入来开展下一活动的预测。这种方法具有预测精度高、适用性广泛的特点,能够有效地解决一些复杂场景下的下一活动预测问题,从而为流程执行者提供有效信息来防止流程执行顺序出现异常等情况的出现。
Description
技术领域
本发明涉及业务流程监控领域,尤其涉及一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法。
背景技术
业务流程监控领域是业务流程管理中一个重要分支。业务流程监控是业务流程管理中的一个重要分支,也是业务流程管理中富有挑战性的研究内容之一。能准确预测正在执行流程实例的发展趋势能够有利于及时发现流程在执行中的违规行为,便于对流程进行管理。现有的流程监控任务主要有剩余时间预测、下一活动预测、资源执行情况预测以及超时风险预测等。本发明主要进行业务流程下一活动的预测,即预测业务流程后继活动即预测未完成实例当前执行活动的下一活动。其准确预测可以帮助相关人员了解流程进度、提前得知流程违规问题,同时根据预测的下一个活动分配及调整活动资源,提高流程执行效率。
早期的下一活动预测方法侧重于统计分析,整理、分析和归纳了已执行完毕的实例数据,从历史日志中构建状态转换模型,从而得到当前执行事件的可能下一事件概率。Lakshmanan等人提出了一种特定于实例的概率过程模型(PPM),首先从日志轨迹中挖掘出模型,并学习每个节点的决策树以计算特定于实例的PPM中各个边的单步转移概率,并将该模型映射为空间马尔科夫链,对未来执行任务进行预测。近年来,神经网络在许多序列建模应用领域(自然语言处理NLP、语音识别等)显示出了其良好的预测能力,在业务流程中越来越多的预测工作也转向神经网络。Evermann等人首次提出了一种用递归神经网络进行下一事件预测的方法,区别于之前提出的一些依赖于显式过程建模的方法。Marlon等人将日志中的事件信息进行编码并作为长短记忆神经网络(LSTM)的输入来预测未完成轨迹的下一事件、下一事件执行时间以及剩余执行时间。但他们在进行编码时仅仅考虑了日志中事件活动、以及时间属性,而未考虑日志中的其余属性。
综上,对于状态转移模型构建进行预测而言,有许多业务流程的历史数据是非结构化的,无法构建出拟合度高且较为简洁的过程模型,因此预测精度会较低;而大部分基于深度学习的下一活动预测工作,研究者主要工作重心在历史数据编码与模型构建上,缺乏对日志中属性的深入分析,并且其结果的可解释性较差。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其包括以下步骤:
S1.输入原始日志文件其中由条流程轨迹σ=<e1,e2,e3,…,eq>组成,每条流程轨迹σ由q个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,将日志中所有K个事件的集合记为ε={e1,e2,e3,…,eK};
S2.为ε中的每个事件添加特征属性,包括基本的特征属性和提取的特征属性,具体步骤如下:
S21:为ε中的每个事件添加eventPos、TimeSinceCaseStart、year、month、day、hour共6个基本的特征属性,其中eventPos代表该事件在所属实例中的位置,TimeSinceCaseStart表示该事件距离实例开始的时间,year、month、day、hour分别代表了该事件进行时的年、月、日、小时信息;
S22:为ε中的每个事件添加CandActBasedAct、CandActBasedPos、CandActBasedAttr共3个提取的特征属性,其中CandActBasedAct表示根据事件活动间的关系提取的特征属性,CandActBasedpos表示根据事件在实例内的位置提取的特征属性,CandActBasedAttr表示根据事件的属性相似度提取的特征属性;
S3.统计日志文件中流程轨迹的长度分布,设置长度阈值β,删除日志文件中长度大于β的流程轨迹;
S4.对流程轨迹中事件的属性进行编码,对于类别属性使用one-hot编码方式,对于数值属性将其进行0-1标准化处理;
S5.对编码后的日志文件进行分割,部分数据作为训练集用于训练混合模型,剩余数据作为测试集用于评估混合模型的精度;
S6.构建并训练CNN-BiLSTM混合模型,具体包含以下子步骤:
S61.CNN特征提取:将大小为k×m的训练集输入一维卷积层conv1D进特征提取,其中k为事件数,m为属性数;将滤波器大小设置为l×m,其滑动方向设置为垂直方向,步长设置为1,将滤波器沿垂直方向滑动得到k-l+1个局部特征,将每个局部特征与n个卷积核分别进行内积操作,最终得到大小为(k-l+1)×n的CNN特征;
S62.前后向信息提取:将特征提取后的训练集输入到前向LSTM层和后向LSTM层中,得到t时刻其在前向层和后向层的隐藏状态ht (1)和ht (2),公式如下:
ht (1)=f(U(1)ht-1 (1)+W(1)xt+b(1))
ht (2)=g(U(2)ht+1 (2)+W(2)xt+b(2))
其中f()为前向信息提取函数,U(1)和W(1)为其权重矩阵,b(1)为其偏置项;g()为后向信息提取函数,U(2)和W(2)为其权重矩阵,b(2)为其偏置项;
S63.前后向信息拼接:将ht (1)和ht (2)进行拼接,得到t时刻的输出ot,公式如下:
S64.得到预测模型:将ot经过全连接层后得到下一活动的预测值ypredict,通过损失函数不断迭代ypredict与下一活动实际值Y之间的损失值,当达到迭代终止条件时,得到业务流程下一活动预测模型cnn_bilstm;
S7.对测试集执行步骤S61提取其CNN特征,然后将特征提取后的测试集输入到预测模型cnn_bilstm中得到预测结果,将其与下一活动的实际值进行比较,得到模型的预测精度评估结果;将预测精度满足要求的预测模型cnn_bilstm用于业务流程下一活动预测。
作为优选,S22中所述的CandActBasedAct属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedAct属性为null;
(2)对ε中的每个事件ei,迭代执行以下操作:
1)提取其执行的活动ai,然后遍历所有流程轨迹搜索紧随在活动ai后执行的活动aj,得到ai的下一活动集合succ(ai),其中succ(ai)中的活动不重复;
2)依次计算ai与succ(ai)中每个活动aj的依赖度,具体公式如下:
其中O(ai,aj)表示流程轨迹中出现执行顺序是ai→aj的次数,→表示相邻两个活动的执行路径;
3)将计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动作为活动ai的高频下一活动HDsucc(ai),其依赖度为Dep(ai,HDsucc(ai));
4)将Dep(aiH,Dsucc(ai))与依赖度阈值α进行比较,若Dep(ai,HDsucc(ai))≥α,则将HDsucc(ai)赋值给ei的CandActBasedAct属性;若Dep(ai,HDsucc(ai))<α,则首先根据事件ei所属流程轨迹的执行顺序找到其前一活动,即事件ei的前一事件ei-1的执行活动ai-1,然后遍历所有流程轨迹搜索紧随在ai-1→ai后执行的活动al,得到ai-1→ai的下一活动集合succ(ai-1,ai),依次计算ai-1→ai与succ(ai-1,ai)中每个活动al的依赖度,计算公式如下:
其中O(ai-1,ai,,al)表示流程轨迹中出现执行顺序是ai-1→ai→al的次数;
最后对计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动HDsucc(ai-1→ai)并将其赋值给ei的CandActBasedAct属性;
作为优选,S22中所述的CandActBasedPos属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedPos属性为null;
(2)对ε中的每个事件ei,增加Pos和nextPos两个数值属性,分别代表事件ei在其所属实例中的位置和下一个位置;
(3)然后根据Pos属性对每个位置上出现的活动进行统计,并确定每个位置出现频率最高的活动MFAct(Pos);
(4)对ε中的每个事件ei,根据其nextPos属性,去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给ei的CandActBasedPos属性;
作为优选,S22中所述的CandActBasedAttr属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedAttr属性为null;
(2)对ε中的所有事件,根据其执行的活动进行划分,将活动相同的事件分到一个集合,得到个事件集合其中为为日志中所有活动的集合且集合中的活动不重复,为中具有的活动数量,每个集合中所包含事件执行的活动均为相同活动;
(3)对ε中的每个事件ei的属性进行编码得到其属性向量AttrVec(ei);
(4)对ε中的每个事件ei,提取其执行的活动ai,然后找到其对应的事件集合将事件ei的属性向量AttrVec(ei)与事件集合中的每个事件ej的属性向量AttrVec(ej)迭代计算相似度,当出现相似度小于距离阈值γ的事件ej时,认为已筛选出与ei局部最相似的事件,将该事件执行的活动赋值给ei的CandActBasedAttr属性;若迭代结束仍未出现相似度小于距离阈值γ的事件ej,则将相似度最小的事件ej执行的活动赋值给ei的CandActBasedAttr属性;
作为优选,S3所述长度阈值β取50。
作为优选,S61所述的l取3,n取64。
作为优选,S64所述的损失函数为交叉熵。
作为优选,S64所述的迭代终止条件为迭代轮次达到10次或者损失函数值小于0.1%。
相比于传统的业务流程下一活动预测方法,本发明具有如下收益:1、提取了基于业务流程中事件活动间的关系、事件在实例内的位置以及事件的属性相似性的三个候选活动属性,在很大程度上提高了下一事件活动的预测精度;2、使用CNN和BiLSTM的混合模型进行预测,可以提取数据集在时间方面的潜在特征,使下一事件活动的预测模型具有较好的稳定性并能在较为复杂的业务场景下开展应用,同时也提高了预测结果的精度。
附图说明
图1为本发明的流程图;
图2为发明构建的CNN-BiLSTM混合模型;
图3为CNN特征提取的示意图;
图4为本发明在Helpdesk、Sepsis、BPIC2012、Road Traffic Fines数据集的预测准确率对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,包括以下步骤:
S1.输入原始日志文件其中由条流程轨迹σ=<e1,e2,e3,…,eq>组成,每条流程轨迹σ由q个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,将日志中所有K个事件的集合记为ε={e1,e2,e3,…,eK};
S2.为ε中的每个事件添加特征属性,包括基本的特征属性和提取的特征属性,具体步骤如下:
S21:为ε中的每个事件添加eventPos、TimeSinceCaseStart、year、month、day、hour共6个基本的特征属性,其中eventPos代表该事件在所属实例中的位置,TimeSinceCaseStart表示该事件距离实例开始的时间,year、month、day、hour分别代表了该事件进行时的年、月、日、小时信息;
S22:为ε中的每个事件添加CandActBasedAct、CandActBasedPos、CandActBasedAttr共3个提取的特征属性,其中CandActBasedAct表示根据事件活动间的关系提取的特征属性,CandActBasedpos表示根据事件在实例内的位置提取的特征属性,CandActBasedAttr表示根据事件的属性相似度提取的特征属性;
其中,CandActBasedAct属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedAct属性为null;
(2)对ε中的每个事件ei,迭代执行以下操作:
1)提取其执行的活动ai,然后遍历所有流程轨迹搜索紧随在活动ai后执行的活动aj,得到ai的下一活动集合sucx(ai),其中suxc(ai)中的活动不重复;
2)依次计算ai与succ(ai)中每个活动aj的依赖度,具体公式如下:
其中O(ai,aj)表示流程轨迹中出现执行顺序是ai→aj的次数,→表示相邻两个活动的执行路径;
3)将计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动作为活动ai的高频下一活动HDsucc(ai),其依赖度为Dep(ai,HDsucc(ai));
4)将Dep(ai,HDsucc(ai))与依赖度阈值α进行比较,若Dep(ai,HDsucc(ai))≥α,则将HDsucc(ai)赋值给ei的CandActBasedAct属性;若Dep(ai,HDsucc(ai))<α,则首先根据事件ei所属流程轨迹的执行顺序找到其前一活动,即事件ei的前一事件ei-1的执行活动ai-1,然后遍历所有流程轨迹搜索紧随在ai-1→ai后执行的活动al,得到ai-1→ai的下一活动集合succ(ai-1,ai),依次计算ai-1→ai与succ(ai-1,ai)中每个活动al的依赖度,计算公式如下:
其中O(ai-1,ai,,al)表示流程轨迹中出现执行顺序是ai-1→ai→al的次数;
最后对计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动HDsucc(ai-1→ai)并将其赋值给ei的CandActBasedAct属性;
其中,S22中所述的CandActBasedPos属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedPos属性为null;
(2)对ε中的每个事件ei,增加Pos和nextPos两个数值属性,分别代表事件ei在其所属实例中的位置和下一个位置;
(3)然后根据Pos属性对每个位置上出现的活动进行统计,并确定每个位置出现频率最高的活动MFAct(Pos);
(4)对ε中的每个事件ei,根据其nextPos属性,去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给ei的CandActBasedPos属性;
其中,S22中所述的CandActBasedAttr属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedAttr属性为null;
(2)对ε中的所有事件,根据其执行的活动进行划分,将活动相同的事件分到一个集合,得到个事件集合其中为为日志中所有活动的集合且集合中的活动不重复,为中具有的活动数量,每个集合中所包含事件执行的活动均为相同活动;
(3)对ε中的每个事件ei的属性进行编码得到其属性向量AttrVec(ei);
(4)对ε中的每个事件ei,提取其执行的活动ai,然后找到其对应的事件集合将事件ei的属性向量AttrVec(ei)与事件集合中的每个事件ej的属性向量AttrVec(ej)迭代计算相似度,当出现相似度小于距离阈值γ的事件ej时,认为已筛选出与ei局部最相似的事件,将该事件执行的活动赋值给ei的CandActBasedAttr属性;若迭代结束仍未出现相似度小于距离阈值γ的事件ej,则将相似度最小的事件ej执行的活动赋值给ei的CandActBasedAttr属性;
S3.统计日志文件中流程轨迹的长度分布,设置长度阈值为50,删除日志文件中长度大于50的流程轨迹;
S4.对流程轨迹中事件的属性进行编码,对于类别属性使用one-hot编码方式,对于数值属性将其进行0-1标准化处理;
S5.对编码后的日志文件进行分割,将80%的数据作为训练集用于训练混合模型,剩余的20%作为测试集用于评估混合模型的精度;
S6.构建并训练CNN-BiLSTM混合模型,其结构如图2所示,具体包含以下子步骤:
S61.CNN特征提取:如图3所示,将大小为k×m的训练集输入一维卷积层conv1D进特征提取,其中k为事件数,m为属性数;将滤波器大小设置为l×m,其滑动方向设置为垂直方向,步长设置为1,将滤波器沿垂直方向滑动得到k-l+1个局部特征,将每个局部特征与n个卷积核分别进行内积操作,最终得到大小为(k-l+1)×n的CNN特征,其中l取3,n取64;
S62.前后向信息提取:将特征提取后的训练集输入到前向LSTM层和后向LSTM层中,得到t时刻其在前向层和后向层的隐藏状态ht (1)和ht (2),公式如下:
ht (1)=f(U(1)ht-1 (1)+W(1)xt+b(1))
ht (2)=g(U(2)ht+1 (2)+W(2)xt+b(2))
其中f()为前向信息提取函数,U(1)和W(1)为其权重矩阵,b(1)为其偏置项;g()为后向信息提取函数,U(2)和W(2)为其权重矩阵,b(2)为其偏置项;
S63.前后向信息拼接:将ht (1)和ht (2)进行拼接,得到t时刻的输出ot,公式如下:
S64.得到预测模型:将ot经过全连接层后得到下一活动的预测值ypredict,通过交叉熵损失函数不断迭代ypredict与下一活动实际值Y之间的损失值,当迭代轮次达到10次或者损失函数值小于0.1%时,得到业务流程下一活动预测模型cnn_bilstm;
S7.对测试集执行步骤S61提取其CNN特征,然后将特征提取后的测试集输入到预测模型cnn_bilstm中得到预测结果,将其与下一活动的实际值进行比较,得到模型的预测精度评估结果;将预测精度满足要求的预测模型cnn_bilstm用于业务流程下一活动预测。
下面基于上述方法流程,通过实施例进一步展示其技术效果。
实施例
本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志:Helpdesk,Sepsis,BPIC2012O,Road Traffic Fines。其中Helpdesk日志涉及意大利软件公司的帮助台的票务管理过程,共有4580条实例数据,包含21349个事件和14个活动,其中最长实例事件数为15个,最短实例事件数为2个。Sepsis日志通过医院的ERP系统记录了败血症病例的事件,该日志有大约1000条实例,事件数为15000个左右,活动数为16个。BPIC2012O日志为BPIC2012的子日志,BPIC2012日志取自荷兰金融学院,表示的过程是全球融资组织中个人贷款或者透支的申请过程。BPIC2012O与传达给客户的报价状态有关的事件,有5015条实例和31244个事件,活动数为7个。Road Traffic Fines日志是一个管理道路交通罚款信息系统的真实事件日志,该日志记录了150370个案例中约561470个事件信息。其中最短案例的事件数仅有2条,而最长案例的事件数为20条。
为了验证本发明技术方案的技术效果,本实施例主要选取准确率、召回率、精确率和F-score四个指标对预测结果进行衡量,其计算公式如下:
其中|S|代表样本数,ni代表第i个类别的样本数,tpi代表将第i类别中正类样本预测为正类的样本数,tni代表将正类样本预测为负类的样本数,fpi代表将负类样本预测为正类的样本数,fni代表将负类样本预测为负类的样本数。
为展示所提出的三个候选活动属性的有效性,实施例使用了三种类型的输入特征数据进行验证,其中第一类为直接可从日志中提取的基本属性(basic),第二类为在基本属性的基础之上分别添加CandActBasedAct、CandActBasedPos和CandActBasedAttr属性,而最后一类为在基本属性的基础之上将三个候选活动属性全部添加。而为了说明本文中提出模型在准确率方面要优于其余模型,我们将三类输入特征数据分别在CNN,BiLSTM和CNN-BiLSTM和混合模型中进行实验。图4展示在四个不同数据集上的对比结果,从图中可以看出,添加本文提出的单个或者多个下一候选活动属性在不同数据集中对于准确率均有不同程度的提高,但在不同数据集上不同下一候选活动属性的效果各有不同。
为进一步验证本发明技术方案的技术效果,表1将本文中所用数据集的最高准确率与当前文献中准确率的最佳值进行了对比,对比显示我们提出的方法在Helpdesk、Sepsis和BPIC2012O三个数据集中将准确率分别提高了8.49%、5.49%和5.19%;而对于Road Traffic Fines数据集,由于本实施例所用样本数(150,370条实例、561,470个事件)远大于Tama等人所用样本数(10,000条实例、34,724个事件),所以在准确率方面具有较大不同。综上,本发明提出的一种基于CNN-BiLSTM混合模型的多角度下一活动预测方法与其他方法相比具有较大的优越性。
表1为本发明的最高准确率与其他文献中的最佳值对比结果
表1中对比的其他业务流程下一活动预测方法具体参考如下文献:
[1]Tax,N.,Verenich,I.,La Rosa,M.,&Dumas,M.(2017,June).Predictivebusiness process monitoring with LSTM neural networks.In InternationalConference on Advanced Information Systems Engineering(pp.477-492).Springer,Cham.
[2]Mehdiyev,N.,Evermann,J.,&Fettke,P.(2017,July).A multi-stage deeplearning approach for business process event prediction.In 2017IEEE 19thConference on Business Informatics(CBI)(Vol.1,pp.119-128).IEEE.
[3]Tama,B.A.,&Comuzzi,M.(2019).An empirical comparison ofclassification techniques for next event prediction using business processevent logs.Expert Systems with Applications,129,233-245.
[4]Breuker,D.,Matzner,M.,Delfmann,P.,&Becker,J.(2016).ComprehensiblePredictive Models for Business Processes.Mis Quarterly,40(4),1009-1034.
[5]Lee,W.L.J.,Parra,D.,Munoz-Gama,J.,&Sepulveda,M.(2018).Predictingprocess behavior meets factorization machines.Expert Systems withApplications,112,87-98.
[6]Mehdiyev,N.,Evermann,J.,&Fettke,P.(2017,July).A multi-stage deeplearning approach for business process event prediction.In 2017IEEE 19thConference on Business Informatics(CBI)(Vol.1,pp.119-128).IEEE.
[7]Evermann,J.,Rehse,J.R.,&Fettke,P.(2016,September).A deep learningapproach for predicting process behaviour at runtime.In InternationalConference on Business Process Management(pp.327-338).Springer,Cham.
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (8)
1.一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于包括以下步骤:
S1.输入原始日志文件其中由条流程轨迹σ=<e1,e2,e3,...,eq>组成,每条流程轨迹σ由q个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,...attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,...attrN代表该事件的其余N个属性,将日志中所有K个事件的集合记为ε={e1,e2,e3,...,eK};
S2.为ε中的每个事件添加特征属性,包括基本的特征属性和提取的特征属性,具体步骤如下:
S21:为ε中的每个事件添加eventPos、TimeSinceCaseStart、year、month、day、hour共6个基本的特征属性,其中eventPos代表该事件在所属实例中的位置,TimeSinceCaseStart表示该事件距离实例开始的时间,year、month、day、hour分别代表了该事件进行时的年、月、日、小时信息;
S22:为ε中的每个事件添加CandActBasedAct、CandActBasedPos、CandActBasedAttr共3个提取的特征属性,其中CandActBasedAct表示根据事件活动间的关系提取的特征属性,CandActBasedPos表示根据事件在实例内的位置提取的特征属性,CandActBasedAttr表示根据事件的属性相似度提取的特征属性;
S3.统计日志文件中流程轨迹的长度分布,设置长度阈值β,删除日志文件中长度大于β的流程轨迹;
S4.对流程轨迹中事件的属性进行编码,对于类别属性使用one-hot编码方式,对于数值属性将其进行0-1标准化处理;
S5.对编码后的日志文件进行分割,部分数据作为训练集用于训练混合模型,剩余数据作为测试集用于评估混合模型的精度;
S6.构建并训练CNN-BiLSTM混合模型,具体包含以下子步骤:
S61.CNN特征提取:将大小为k×m的训练集输入一维卷积层conv1D进特征提取,其中k为事件数,m为属性数;将滤波器大小设置为l×m,其滑动方同设置为垂直方向,步长设置为1,将滤波器沿垂直方向滑动得到k-l+1个局部特征,将每个局部特征与n个卷积核分别进行内积操作,最终得到大小为(k-l+1)×n的CNN特征;
S62.前后向信息提取:将特征提取后的训练集输入到前向LSTM层和后向LSTM层中,得到t时刻其在前向层和后向层的隐藏状态ht (1)和ht (2),公式如下:
ht (1)=f(U(1)ht-1 (1)+W(1)xt+b(1))
ht (2)=g(U(2)ht+1 (2)+W(2)xt+b(2))
其中f()为前向信息提取函数,U(1)和W(1)为其权重矩阵,b(1)为其偏置项;g()为后向信息提取函数,U(2)和W(2)为其权重矩阵,b(2)为其偏置项;
S63.前后向信息拼接:将ht (1)和ht (2)进行拼接,得到t时刻的输出ot,公式如下:
S64.得到预测模型:将ot经过全连接层后得到下一活动的预测值ypredict,通过损失函数不断迭代ypredict与下一活动实际值Y之间的损失值,当达到迭代终止条件时,得到业务流程下一活动预测模型cnn_bilstm;
S7.对测试集执行步骤S61提取其CNN特征,然后将特征提取后的测试集输入到预测模型cnn_bilstm中得到预测结果,将其与下一活动的实际值进行比较,得到模型的预测精度评估结果;将预测精度满足要求的预测模型cnn_bilstm用于业务流程下一活动预测。
2.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于,所述S22中,CandActBasedAct属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedAct属性为null;
(2)对ε中的每个事件ei,迭代执行以下操作:
1)提取其执行的活动ai,然后遍历所有流程轨迹搜索紧随在活动ai后执行的活动aj,得到ai的下一活动集合succ(ai),其中succ(ai)中的活动不重复;
2)依次计算ai与succ(ai)中每个活动aj的依赖度,具体公式如下:
其中O(ai,aj)表示流程轨迹中出现执行顺序是ai→aj的次数,→表示相邻两个活动的执行路径;
3)将计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动作为活动ai的高频下一活动HDsucc(ai),其依赖度为Dep(ai,HDsucc(ai));
4)将Dep(ai,HDsucc(ai))与依赖度阈值α进行比较,若Dep(ai,HDsucc(ai))≥α,则将HDsucc(ai)赋值给ei的CandActBasedAct属性;若Dep(ai,HDsucc(ai))<α,则首先根据事件ei所属流程轨迹的执行顺序找到其前一活动,即事件ei的前一事件ei-1的执行活动ai-1,然后遍历所有流程轨迹搜索紧随在ai-1→ai后执行的活动al,得到ai-1→ai的下一活动集合succ(ai-1,ai),依次计算ai-1→ai与succ(ai-1,ai)中每个活动al的依赖度,计算公式如下:
其中O(ai-1,ai,,al)表示流程轨迹中出现执行顺序是ai-1→ai→al的次数;
最后对计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动HDsucc(ai-1→ai)并将其赋值给ei的CandActBasedAct属性。
3.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于,所述S22中,CandActBasedPos属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedPos属性为null;
(2)对ε中的每个事件ei,增加Pos和nextPos两个数值属性,分别代表事件ei在其所属实例中的位置和下一个位置;
(3)然后根据Pos属性对每个位置上出现的活动进行统计,并确定每个位置出现频率最高的活动MFAct(Pos);
(4)对ε中的每个事件ei,根据其nextPos属性,去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给ei的CandActBasedPos属性。
4.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于,所述S22中,CandActBasedAttr属性提取包含以下步骤:
(1)对ε中的所有事件,初始化其CandActBasedAttr属性为null;
(2)对ε中的所有事件,根据其执行的活动进行划分,将活动相同的事件分到一个集合,得到个事件集合其中为为日志中所有活动的集合且集合中的活动不重复,为中具有的活动数量,每个集合中所包含事件执行的活动均为相同活动;
(3)对ε中的每个事件ei的属性进行编码得到其属性向量AttrVec(ei);
5.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于S3所述长度阈值β取50。
6.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于S61所述的l取3,n取64。
7.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于S64所述的损失函数为交叉熵。
8.根据权利要求1所述的一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法,其特征在于S64所述的迭代终止条件为迭代轮次达到10次或者损失函数值小于0.1%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010850009.7A CN112052990B (zh) | 2020-08-21 | 2020-08-21 | 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010850009.7A CN112052990B (zh) | 2020-08-21 | 2020-08-21 | 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052990A CN112052990A (zh) | 2020-12-08 |
CN112052990B true CN112052990B (zh) | 2021-05-04 |
Family
ID=73600703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010850009.7A Active CN112052990B (zh) | 2020-08-21 | 2020-08-21 | 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052990B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011555B (zh) * | 2021-02-09 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN114035468B (zh) * | 2021-11-08 | 2024-05-28 | 山东理工大学 | 基于XGBoost算法的风机检修流程预测性监控方法与系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915446B (zh) * | 2015-06-29 | 2019-01-29 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
US20190251428A1 (en) * | 2018-02-09 | 2019-08-15 | Oath Inc. | System and method for query to ad matching using deep neural net based query embedding |
CN109783637A (zh) * | 2018-12-12 | 2019-05-21 | 国网浙江省电力有限公司杭州供电公司 | 基于深度神经网络的电力检修文本挖掘方法 |
CN110032494B (zh) * | 2019-03-21 | 2020-05-26 | 杭州电子科技大学 | 一种基于关联关系的双粒度噪声日志过滤方法 |
-
2020
- 2020-08-21 CN CN202010850009.7A patent/CN112052990B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112052990A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7283982B2 (en) | Method and structure for transform regression | |
Shaw et al. | Inductive learning for risk classification | |
CN112052990B (zh) | 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 | |
KR101625124B1 (ko) | 특허 정량분석을 이용한 기술평가 방법 | |
Chen et al. | Exploration and mining evaluation system and price prediction of uranium resources | |
CN112052273B (zh) | 一种多角度业务流程下一候选活动提取方法 | |
Shannaq et al. | Management information system for predicting quantity martials | |
Cao et al. | Simulation-informed revenue extrapolation with confidence estimate for scaleup companies using scarce time-series data | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
Wang et al. | Clustering multiple time series with structural breaks | |
Shankar et al. | Analyzing attrition and performance of an employee using machine learning techniques | |
CN111242520B (zh) | 特征合成模型的生成方法、装置及电子设备 | |
CN113537710A (zh) | 一种数据驱动下基于人工智能的活动时序在线预测方法 | |
Rush et al. | Stratified filtered sampling in stochastic optimization | |
Taha et al. | Insurance reserve prediction: Opportunities and challenges | |
Yahia et al. | K-nearest neighbor and C4. 5 algorithms as data mining methods: advantages and difficulties | |
KR102596740B1 (ko) | 기계학습을 이용한 경제불확실성 뉴스심리에 따른 거시경제적 요인과 주식수익률 예측방법 | |
CN113379125B (zh) | 一种基于TCN和LightGBM组合模型的物流仓储销售量预测方法 | |
Furia et al. | Real estate price prediction using machine learning algorithms | |
Merzah | Actual Needs Criteria for Assessing Data Classification Platforms | |
CN112836749A (zh) | 一种系统资源调整方法、装置及设备 | |
Redjeki et al. | Implementation of Classification Decision Tree and C4. 5 Algorithm in selecting Insurance Products | |
Nawaz | Analysis of Transactional Data with Long Short-Term Memory Recurrent Neural Networks | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
Buachuen et al. | Automated Stock Trading System using Technical Analysis and Deep Learning Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |