CN110956309A - 基于crf和lstm的流程活动预测方法 - Google Patents
基于crf和lstm的流程活动预测方法 Download PDFInfo
- Publication number
- CN110956309A CN110956309A CN201911048981.6A CN201911048981A CN110956309A CN 110956309 A CN110956309 A CN 110956309A CN 201911048981 A CN201911048981 A CN 201911048981A CN 110956309 A CN110956309 A CN 110956309A
- Authority
- CN
- China
- Prior art keywords
- event
- crf
- lstm
- track
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 170
- 230000000694 effects Effects 0.000 title claims abstract description 78
- 230000008569 process Effects 0.000 claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000008676 import Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000005065 mining Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于CRF和LSTM的流程活动预测方法,包括以下步骤:提取事件日志,从原始的XML文件中提取出轨迹,事件和时间等特征;将事件日志预处理,包括按照轨迹序号对事件和相应时间分类,剔除空事件和单一轨迹;对事件日志编码,设计了热独编码,考虑循环的编码,基于距离的编码等三种不同的编码方式;构建预测模型,先使用先验知识或CRF获取狭义事件对集合,然后使用LSTM获取广义事件对集合,最后合并得到事件对集合,或者是通过直接使用CRF方法的方式直接得到事件对集合;输出当前运行的轨迹中最有可能执行的下一个活动。本发明提出了一种新型的预测执行过程中下一个活动的方法,提高了预测的准确性。
Description
技术领域
本发明涉及一种过程活动预测方法,具体涉及基于CRF和LSTM的流程活动预测方法,属于过程挖掘技术领域。
背景技术
业务流程挖掘技术是从事件日志和业务流程的历史数据中提取有用的信息的一种方法。这些可以帮助我们改进业务流程,但是通常这些方法是在流程完成之后才提取数据的。近年来,越来越多的关注点都转移到了如何将业务流程挖掘技术应用于正在运行的流程实例之上。
业务流程的预测性监视是过程挖掘的子领域之一,它的目的是提供及时的信息,从而能够主动采取引导手段来改善过程性能或者是执行相应的纠正措施来降低风险。该领域包含一系列的方法,这些方法旨在生成运行时的预测模型,这些模型以历史跟踪的事件日志作为输入,在给定流程实例的持续跟踪时,可以用于预测流程实例的特定值,如当前活动的下一个活动。事件日志为这些方法提供了输入特征,这些特征定义了我们整个预测的过程。此外,完整的过程模型,如Petri网,都可以用来提供输入数据。模型的输出是每个正在运行的流程实例或它们的集合的预测值。输出可以是布尔型,类别或数字,具体取决于预测的对象。如,一个过程的剩余时间或某个目标的实现。这些预测值可以是根据效率和有效性评估业务流程绩效的指标或过程指标,也可以帮助评估风险或预测可能违反服务水平协议的情况。
近年来出现了各种不同的业务流程预测方法。这些方法预测了不同种类的度量结果,从不同角度解决问题,应用于各种不同的领域。如,预测下一个活动可以帮助我们提前决定下一步的操作,而对剩余时间的预测则可以根据时间与正常完成轨迹时间进行比较,来判断当前事件是否具有某些潜在威胁。
在业务流程预测方法,对轨迹中下一个活动的预测是比较基础且重要的环节。预测下一个活动具有三个比较重要的作用,第一个是可以指导现有的轨迹如何去执行正确的分支,第二个是可以有效的预防和避免潜在的危险,第三个是为用户行为提供指导性意见。
预测下一个活动的问题本质上属于机器学习中分类问题的范畴。传统方法的机器学习方法包括朴素贝叶斯、支持向量机、决策树、随机森林、隐马尔可夫模型等更加关注日志中反映的控制流信息。但是,这些方法都是针对特定的数据结构解决固定问题,一旦改变了应用领域,数据结构和特征将发生变化,需要重新修改模型结构,较难适应不同应用领域变化的需要。近年来,与其他传统方法相比,神经网络方法受到了广泛关注,LSTM网络(长短期记忆网络,Long Short-Term Memory)能够处理长短期的序列数据,这意味着它在处理事件日志上具有先天性的优势。然而LSTM只是针对单独的序列结构,并没有考虑到事件日志中潜在的结构关系,即事件之间的控制流信息。因此,本发明引入CRF(条件随机场,Conditional Random Field)方法,综合考虑控制流和数据流信息,以公开的过程挖掘数据集为数据源,着重研究了基于CRF和LSTM的流程活动预测方法。
发明内容
本发明是基于CRF和LSTM的流程活动预测方法。先将公开数据集中的原始XML文档格式转化为提取特征之后的CSV格式文件,然后对提取出来的事件日志做预处理工作,将相同轨迹的事件分类进同一类别,并按照先后顺序排序。接着对事件日志编码,针对不同的事件日志形式和领域特征,我们考虑了一共三种不同的编码方式,第一种是热独编码,第二种是考虑单一事件出现不同次数视作不同事件的编码,第三种是基于与当前需要预测的活动距离远近的权重编码。对每一种编码方式,我们的方法都做了比较和测试。之后是构建预测模型,我们通过事件对集合来表示预测模型。首先通过先验知识或者是CRF方法等获取狭义事件对集合,然后使用基于LSTM方法获得广义事件对集合,最后将两者合并得到完整的事件对集合。另外,我们的方法中也有直接通过CRF方法实现完整的事件对集合的方法。最后结合预测模型,当前正在执行的轨迹可以输出一个最有可能执行的活动反馈给用户。各大使用业务流程系统的厂商,各种流程维护测试人员都可以采用我们的方法获取预测的下一个活动来帮助更好的生产活动和风险预防。
本发明所述的基于CRF和LSTM的流程活动预测方法,其特征在于包含以下步骤:
步骤(1)从实际的过程事件数据集中提取信息,转化为事件日志;
步骤(2)事件日志预处理;
步骤(3)事件日志编码;
步骤(4)构建预测模型;
步骤(5)输出当前轨迹最有可能执行的下一个活动。
2.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(1)中从实际的过程事件数据集中提取信息转化为事件日志,构建特征数据,具体子步骤包括:
步骤(1.1)将原始过程事件数据集的XML格式转化为只保留了特征信息的CSV格式的事件日志;
步骤(1.2)从CSV格式的事件日志中提取出需要的轨迹,事件和事件对应的完成时间特征。
3.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(2)中事件日志预处理,具体子步骤包括:
步骤(2.1)按照事件日志中的轨迹序号对事件和对应的时间特征分类,具有相同轨迹的事件和时间特征按照发生的先后顺序在当前轨迹中排序,形成一个二维数组,数组的行是每个轨迹,数组的列是每个轨迹对应的排好序的事件和时间的序列;
步骤(2.2)对每个独立的事件序列的轨迹,统计其中不同事件的个数,如果只包含单一的事件或者不包含任何事件,则认为该序列不具有预测的意义,就剔除这样的轨迹;
步骤(2.3)对于每个轨迹内部,如果在数据导入的过程中出现一些空事件,则将这些空事件剔除。
4.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(3)中对事件日志的编码,根据日志情况的不同,用户可以自由的选择三种不同的编码方式或者是混合编码方式,具体子步骤包括:
步骤(3.1)将每一个事件看作独立单元的热度编码;
步骤(3.2)考虑单一事件出现不同次数视作不同事件的编码;
步骤(3.3)基于与当前需要预测的活动距离远近的权重编码。
5.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(4)中使用CRF和LSTM模型构建预测模型,将编码完成的事件日志信息转化为事件对集合,通过事件对之间的对应关系,预测当前正在执行的业务流程轨迹中的下一个活动。具体子步骤包括:
步骤(4.1)使用先验知识或者CRF方法获取狭义事件对集合,我们采用的先验知识是基于事件日志的控制流信息,包含顺序结构,选择结构,并发结构,循环结构等基础结构的事件之间的关联,直接获取某个事件的最可能下一个活动的情况。而基于CRF方法的狭义事件对获取方法是通过CRF可以表征序列之间的约束关系的特点,将序列之间的关系通过隐函数隐式的表现出来,通过这两种方法任选其一,可以达到预先处理数据之间潜在可能的关系的目的,预先处理部分数据;
步骤(4.2)使用LSTM方法获取广义事件对集合,将除去了狭义事件对的事件日志作为输入数据,通过LSTM模型得到预测数据,这一步就是常规的LSTM模型采取的措施,模型参数都使用的是默认值,对于整个模型而言,我们简单的使用了两层BatchNormal和LSTM的网络结构;
步骤(4.3)合并狭义和广义的集合或是直接使用CRF方法得到事件对集合。
6.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(5)输出当前轨迹最有可能执行的下一个活动。活动预测的效果采用准确率进行评估。
本发明与现有技术相比,其显著优点是:使用了三种不同的编码方式来表征事件日志的数据结构,可以针对不同的数据类型有选择性的挑选合适的编码方式;和单纯的使用LSTM模型来预测下一个活动的方法相比,我们提出的基于生成事件对的模型能更加准确的预测出下一个事件的活动。除了利用LSTM模型来考虑了数据流信息以外,还通过先验知识或者是CRF方法提取狭义事件对的方式考虑了事件之间的控制流信息,能够较好的处理各种并发,循环等非线性的序列结构;由于提前使用了先验知识和CRF方法辅助模型,在获取狭义事件对时降低了后续LSTM模型需要的数据量,从而降低了模型的训练成本,能够更快的得到预测的结果。而单独使用CRF方法获得整个事件对模型的方法,由于直接省去了大量的神经网络方法的参数训练时间,所以,和基于LSTM模型的方法相比,时间成本更加大幅降低。当我们需要应用我们的模型到新的数据上时,基于CRF和LSTM模型的预测方法无需重新训练模型,只需要直接使用模型获取预测的下一个活动的结果即可。
附图说明
图1基于CRF和LSTM模型的业务流程中下一个活动的预测方法流程图
图2提取的事件日志文件特征的一般形式示例图
图3三种不同的对事件日志的编码方式示例图
图4事件日志之间的事件对整体关系分析示例图
图5四种基础的事件之间关系结构的示例图
图6基于LSTM模型的广义事件对提取方法示例图
图7基于先验知识生成狭义事件对和基于LSTM模型生成广义事件对的最终事件对合并的流程图
图8本发明提出的方法和单独的基于LSTM模型的方法的实验对比结果图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决法条推荐问题,提出基于CRF和LSTM的流程活动预测方法。对原始的事件日志进行特征提取和预处理工作;使用了三种不同的编码方式来表征事件日志的数据结构,可以针对不同的数据类型有选择性的挑选合适的编码方式;和单纯的使用LSTM模型来预测下一个活动的方法相比,我们提出的基于生成事件对的模型能更加准确的预测出下一个事件的活动。除了利用LSTM模型来考虑了数据流信息以外,还通过先验知识或者是CRF方法提取狭义事件对的方式考虑了事件之间的控制流信息,能够较好的处理各种并发,循环等非线性的序列结构;由于提前使用了先验知识和CRF方法辅助模型,在获取狭义事件对时降低了后续LSTM模型需要的数据量,从而降低了模型的训练成本,能够更快的得到预测的结果。而单独使用CRF方法获得整个事件对模型的方法,由于直接省去了大量的神经网络方法的参数训练时间,所以,和基于LSTM模型的方法相比,时间成本更加大幅降低。当我们需要应用我们的模型到新的数据上时,基于CRF和LSTM模型的预测方法无需重新训练模型,只需要直接使用模型获取预测的下一个活动的结果即可。满足在真实数据集上能够更快的让用户使用,达到更好准确率的效果。本发明概括来说主要包括以下步骤:
步骤(1)从实际的过程事件数据集中提取信息,转化为事件日志;
步骤(2)事件日志预处理;
步骤(3)事件日志编码;
步骤(4)构建预测模型;
步骤(5)输出当前轨迹最有可能执行的下一个活动。
上述基于CRF和LSTM的流程活动预测方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
1.由于真实场景中的过程挖掘数据集噪音数据较多,种类比较复杂,而且大多数的业务流程数据都设计一定的商业机密,所以我们采用的是公开的业务流程数据。诉讼种类繁多,从实际的过程事件数据集中提取信息转化为事件日志,构建特征数据,具体子步骤包括:
步骤(1.1)将原始过程事件数据集的XML格式转化为只保留了特征信息的CSV格式的事件日志,使用基于规则提取的正则表达式抽取出原始事件日志可能存在的特征,抽取出来的事件日志格式如图2所示,每一行代表一个已经执行过的事件,其中包含轨迹的序号,活动的名称,活动的编码,完成活动的时间戳,完成该活动的负责人;
步骤(1.2)从CSV格式的事件日志中提取出需要的轨迹,事件和事件对应的完成时间特征,特征文件中每一行对应一个特定的轨迹中单独的一个事件,每个事件由三个部分特征组成,分别是所在的轨迹序号,自身事件的名称或者编号信息,自身事件对应的事件完成时间,即图2中第一,三,四列。
2.为了从事件日志中获得与之后的预测模型训练有关的输入特征,去除噪声数据,提高预测模型的训练效果,在步骤2中需要对事件日志进行预处理。具体步骤是:
步骤(2.1)按照事件日志中的轨迹序号对事件和对应的时间特征分类,具有相同轨迹的事件和时间特征按照发生的先后顺序在当前轨迹中排序,形成一个二维数组,数组的行是每个轨迹,数组的列是每个轨迹对应的排好序的事件和时间的序列;
步骤(2.2)对每个独立的事件序列的轨迹,统计其中不同事件的个数,如果只包含单一的事件或者不包含任何事件,则认为该序列不具有预测的意义,就剔除这样的轨迹;
步骤(2.3)对于每个轨迹内部,如果在数据导入的过程中出现一些空事件,则将这些空事件剔除。
3.在步骤3中对事件日志的基本特征信息进行编码,目标是将事件日志的特征转化为模型能够理解操作的模式,具体表现为将单一事件特征行转化为一个特征向量。根据日志情况的不同,用户可以自由的选择三种不同的编码方式或者是混合编码方式,如图3所示,具体步骤包括:
步骤(3.1)将每一个事件看作独立单元的热度编码,如图3中第一种编码方式所示,将全部出现过的事件全体看成一个字典,在某个轨迹中出现的某个事件符号去字典中比对,在相应位置标记为1表示该事件在轨迹中出现过;
步骤(3.2)考虑单一事件出现不同次数视作不同事件的编码,如图3中第二种编码方式所示,和第一种编码方式类似,只是在处理多次出现的同一个事件时,第一种方式将他们视作同一个事件,无论出现多少次都视作为出现而不具体的区分次数,但是第二种编码方式对不同的出现次数在字典中会累积,用某个事件在相应字典编码中的位置的数字大小来表征出现过的次数;
步骤(3.3)基于与当前需要预测的活动距离远近的权重编码,如图3中第三种编码方式所示,与前两种不同的是,这种方式考虑了每一个轨迹中的事件对当前需要被预测的事件的贡献其实是不一样的,和当前需要被预测的事件距离近的事件更具有反应下一个事件是件么的特性,所以应该赋值给它更大的权重,而和当前需要被预测的事件距离超过一定程度的事件对当前事件的影响可以认为是同等的,基本上都不会太影响当前事件的发生。
4.步骤4中使用基于CRF,LSTM等方法构建预测模型,将编码完成的事件日志信息转化为事件对集合,通过事件对之间的对应关系,预测当前正在执行的业务流程轨迹中的下一个活动。具体子步骤包括:
步骤(4.1)使用先验知识或者CRF方法获取狭义事件对集合,Helpdesk数据集对应的狭义事件对信息如图4所示。我们采用的先验知识是基于事件日志的控制流信息,包含顺序结构,选择结构,并发结构,循环结构等基础结构的事件之间的关联,关于这些基础结构的关系如图5所示。通过这些关系我们能够直接获取某个事件的最可能下一个活动的情况。另一种可以获取狭义事件对的方法是基于CRF方法的狭义事件对获取方法,和通过先验知识获得狭义事件对不同,通过CRF模型,我们可以表征序列之间的约束关系的特点,将序列之间的关系通过隐函数隐式的表现出来,通过这两种方法任选其一,可以达到预先寻找数据之间潜在可能的关系的目的,提前处理部分数据生成狭义事件对;
步骤(4.2)使用LSTM方法获取广义事件对集合。人工神经网络(ANN)通过数学模型模拟神经元活动,是一种基于模拟大脑神经网络的结构和功能的信息处理系统。递归神经网络(RNN)是一种特殊类型的神经网络,其中神经元之间的连接形成有向循环。递归神经网络是一个人工神经网络,其中节点连接成环。这样的网络的内部状态可以表现出动态定时行为。与前馈神经网络不同,RNN可以使用其内部存储器来处理任意时序的输入序列,这使得无需分割即可更轻松地处理手写识别,语音识别等。这种网络的基本特征是在处理单元之间既有内部反馈连接又有前馈连接。从系统的角度来看,它是一个反馈动态系统,它反映了计算过程的动态特性,并且比前馈神经网络具有更强的动态行为和计算能力。
LSTM是一个长期和短期的记忆网络,具有强大的建模功能,可以长期依赖。它是一个时间周期神经网络,适用于以相对较长的间隔和时间序列的延迟来处理和预测事件。LSTM和RNN之间的区别在于,它在算法中添加了“处理器”以判断信息是否有用,该处理器的结构称为单元。三个门放置在一个单元中,称为输入门,遗忘门和输出门。一条消息进入LSTM网络,可以根据规则进行判断。仅保留符合算法认证的信息,而不匹配的信息将通过“遗忘门”被遗忘。具体的LSTM结构如图6(a)所示。LSTM模型可以用以下公式描述:
ft=σ(Wf·[ht-1,Tt]+bf)
it=σ(Wi·[ht-1,Tt]+bi)
ot=σ(Wo·[ht-1,Tt]+bo)
ht=ot*tanh(Ct)
Et=σ(W′·ht)
其中ft是遗忘门控,it是输入门控,ot是输出门控,tanh是激活函数,Tt是t时刻的输入数据,Et是t时刻的输出数据。它可以解决重复操作下神经网络中长期存在的问题,LSTM是解决长序列依赖性问题的有效技术。
因此使用LSTM网络预测类似于自然语言结构的事件序列结构是一个不错的选择。但是与自然语言相比,事件具有结构信息,这将导致预测中的某些错误。而且对于序列预测,如果中间结果之一是错误的,则神经网络方法很可能会获得一系列错误的结果。所以我们在狭义事件对中预先使用了先验知识提高预测质量或者是使用基于CRF方法的约束模型来控制LSTM生成预测效果的方向。
将除去了狭义事件对的事件日志作为输入数据,通过LSTM模型得到预测数据,这一步就是使用常规的基于LSTM的模型,使用了两层BatchNormal和LSTM的网络结构,具体的网络结构如图6(b)所示。;
步骤(4.3)合并狭义和广义的集合或是直接使用CRF方法得到事件对集合。
整体的基于先验知识和LSTM模型来生成完整的事件对集合的过程如图7所示。首先,对于事件日志的数据集,从中提取各种单一的结构关系信息。对于顺序结构,可以看作是一对狭义事件对,然后直接将狭义事件对的值作为该以狭义事件对的键结尾的运行轨迹的预测结果。接下来,对于从事件日志中提取的其余数据,我们需要做的是将它们更改为广义事件对,并尝试根据广义事件对集合的键集合查找它们的值。对于从数据集中提取出顺序结构的其余数据,只是使用规则没有有效的方法来区分不同的结构。在解决这些问题方面,基于LSTM网络的方法比传统方法更具优势。具体使用基于LSTM模型的方法如步骤(4.2)所示。由于我们不能保证数据集中一定有顺序结构,因此我们将尽可能多的数据满足的关系视为顺序结构。根据准确率评估获得的结果,更新步骤(4.1)中的阈值。然后,整个步骤(4.1)和步骤(4.2)进入迭代周期,只要准确率精度高于我们的预定阈值,我们就将新阈值更新为步骤(4.1)中的精度。经过2个步骤的反复迭代,最终获得预测结果。
条件随机场(CRF)是条件概率分布模型P(Y|X)。给定一组随机变量X作为输入,它表示一组随机变量Y的输出。CRF可以看作是最大熵马尔可夫模型在标记问题上的扩展。在CRF方法中,我们要计算条件概率:
P(y1,...,yn|x1,...xn)=P(y1,...,yn|x),x=(x1,...xn)
CRF作了两个假设:
(1)此分布是指数族分布:
(Z(x)is the normalization factor)
(2)输出之间的关联仅发生在相邻位置,并且该关联是指数相加的,因此我们可以简化f(y1,...,yn;x):
f(y1,...,yn;x)=h(y1;x)+g(y1,y2;x)+h(y2;x)+...g(yn-1,yn;x)+h(yn;x)
这样我们只需要知道每个变量和每对相邻变量之间的关系即可。
我们通常使用的是线性链CRF,我们假设函数g与x不相关,那么函数g实际上是要训练的有限参数矩阵,并且函数h可以由RNN或CNN建模。在这种情况下:
f(y1,...,yn;x)=h(y1;x)+g(y1,y2)+h(y2;x)+...g(yn-1,yn)+h(yn;x)
这样概率分布就可以按以下形式计算:
我们通常使用最大似然法来训练CRF模型。
CRF方法考虑事件之间的上下文信息,并将每个完整的历史跟踪信息转换为事件之间的概率信息。对于给定观察序列,CRF对于整个序列的联合概率具有统一的指数模型。此外,CRF模型可以更好地利用文本中提供的上下文信息以获得更好的实验结果。CRF是基于马尔可夫条件的模型,这意味着当前状态仅在当前状态转换期间与先前状态相关,这与过程模型中的状态变化是一致的。因此,无论是使用CRF模型来引导LSTM模型的预测结果还是直接使用CRF模型来获得最终的整体的事件对结构都会对预测结果的准确率有一定程度的提升。
5.输出当前轨迹最有可能执行的下一个活动。作为一个类似于传统的分类模型的预测方法,本发明采用准确率来对业务流程中当前轨迹的下一个活动的预测进行评估。在实验评估时,本发明针对公开数据集中的Helpdesk数据集和BPT12 Sub-Process数据集,对比了单纯的基于LSTM模型的当前轨迹的下一个活动预测方法、以及本发明提出的基于CRF和LSTM模型的业务流程中下一个活动的预测方法的效果,实验结果如图8所示。其中Baseline代表单独的基于LSTM模型的下一个活动预测方法,GEPS代表单独使用LSTM模型的广义事件对提取来预测下一个活动的方法,Two-step Encode 1代表本发明提出的基于先验知识和LSTM模型的事件对提取方法的对应于事件日志的第一种编码方式的下一个活动预测方法,Two-stepEncode 2代表使用的是第二种编码方式,Two-stepEncode 3代表使用的是第三种编码方式。GEPS,CRF GEPS和CRF分别表示单独使用基于LSTM提取广义事件对的方法,加上CRF引导事件之间关系的方法和直接使用CRF生成完整的事件对集合的方法。可见,在公开数据集上,本发明提出的基于CRF和LSTM模型的业务流程中下一个活动的预测方法优于单纯的基于LSTM模型的预测方法。
上面已经参考附图对根据本发明实施的基于CRF和LSTM的流程活动预测方法进行了详细描述。本发明具有如下优点:使用了三种不同的编码方式来表征事件日志的数据结构,可以针对不同的数据类型有选择性的挑选合适的编码方式;和单纯的使用LSTM模型来预测下一个活动的方法相比,我们提出的基于生成事件对的模型能更加准确的预测出下一个事件的活动。除了利用LSTM模型来考虑了数据流信息以外,还通过先验知识或者是CRF方法提取狭义事件对的方式考虑了事件之间的控制流信息,能够较好的处理各种并发,循环等非线性的序列结构;由于提前使用了先验知识和CRF方法辅助模型,在获取狭义事件对时降低了后续LSTM模型需要的数据量,从而降低了模型的训练成本,能够更快的得到预测的结果。而单独使用CRF方法获得整个事件对模型的方法,由于直接省去了大量的神经网络方法的参数训练时间,所以,和基于LSTM模型的方法相比,时间成本更加大幅降低。当我们需要应用我们的模型到新的数据上时,基于CRF和LSTM模型的预测方法无需重新训练模型,只需要直接使用模型获取预测的下一个活动的结果即可。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (6)
1.基于CRF和LSTM的流程活动预测方法,其特征在于包含以下步骤:
步骤(1)从实际的过程事件数据集中提取信息,转化为事件日志;
步骤(2)事件日志预处理;
步骤(3)事件日志编码;
步骤(4)构建预测模型;
步骤(5)输出当前轨迹最有可能执行的下一个活动。
2.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(1)中从实际的过程事件数据集中提取信息转化为事件日志,构建特征数据,具体子步骤包括:
步骤(1.1)将原始过程事件数据集的XML格式转化为只保留了特征信息的CSV格式的事件日志;
步骤(1.2)从CSV格式的事件日志中提取出需要的轨迹,事件和事件对应的完成时间特征。
3.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(2)中事件日志预处理,具体子步骤包括:
步骤(2.1)按照事件日志中的轨迹序号对事件和对应的时间特征分类,具有相同轨迹的事件和时间特征按照发生的先后顺序在当前轨迹中排序,形成一个二维数组,数组的行是每个轨迹,数组的列是每个轨迹对应的排好序的事件和时间的序列;
步骤(2.2)对每个独立的事件序列的轨迹,统计其中不同事件的个数,如果只包含单一的事件或者不包含任何事件,则认为该序列不具有预测的意义,就剔除这样的轨迹;
步骤(2.3)对于每个轨迹内部,如果在数据导入的过程中出现一些空事件,则将这些空事件剔除。
4.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(3)中对事件日志的编码,根据日志情况的不同,用户可以自由的选择三种不同的编码方式或者是混合编码方式,具体子步骤包括:
步骤(3.1)将每一个事件看作独立单元的热度编码;
步骤(3.2)考虑单一事件出现不同次数视作不同事件的编码;
步骤(3.3)基于与当前需要预测的活动距离远近的权重编码。
5.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(4)中使用CRF和LSTM模型构建预测模型,将编码完成的事件日志信息转化为事件对集合,通过事件对之间的对应关系,预测当前正在执行的业务流程轨迹中的下一个活动。具体子步骤包括:
步骤(4.1)使用先验知识或者CRF方法获取狭义事件对集合,我们采用的先验知识是基于事件日志的控制流信息,包含顺序结构,选择结构,并发结构,循环结构等基础结构的事件之间的关联,直接获取某个事件的最可能下一个活动的情况。而基于CRF方法的狭义事件对获取方法是通过CRF可以表征序列之间的约束关系的特点,将序列之间的关系通过隐函数隐式的表现出来,通过这两种方法任选其一,可以达到预先处理数据之间潜在可能的关系的目的,预先处理部分数据;
步骤(4.2)使用LSTM方法获取广义事件对集合,将除去了狭义事件对的事件日志作为输入数据,通过LSTM模型得到预测数据,这一步就是常规的LSTM模型采取的措施,模型参数都使用的是默认值,对于整个模型而言,我们简单的使用了两层BatchNormal和LSTM的网络结构;
步骤(4.3)合并狭义和广义的集合或是直接使用CRF方法得到事件对集合。
6.根据权利要求1所述的基于CRF和LSTM的流程活动预测方法,其特征在于步骤(5)输出当前轨迹最有可能执行的下一个活动。活动预测的效果采用准确率进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911048981.6A CN110956309A (zh) | 2019-10-30 | 2019-10-30 | 基于crf和lstm的流程活动预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911048981.6A CN110956309A (zh) | 2019-10-30 | 2019-10-30 | 基于crf和lstm的流程活动预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110956309A true CN110956309A (zh) | 2020-04-03 |
Family
ID=69976053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911048981.6A Pending CN110956309A (zh) | 2019-10-30 | 2019-10-30 | 基于crf和lstm的流程活动预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956309A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724897A (zh) * | 2020-06-12 | 2020-09-29 | 电子科技大学 | 一种运动功能数据处理方法及系统 |
CN112052273A (zh) * | 2020-07-27 | 2020-12-08 | 杭州电子科技大学 | 一种多角度业务流程下一候选活动提取方法 |
CN112101557A (zh) * | 2020-08-18 | 2020-12-18 | 西北工业大学 | 一种基于crf-lstm算法的需求变更预测方法 |
CN112508265A (zh) * | 2020-12-02 | 2021-03-16 | 中国极地研究中心 | 面向业务流程管理的时间与活动多任务预测方法及系统 |
CN114816926A (zh) * | 2022-05-05 | 2022-07-29 | 华侨大学 | 流程监控方法和预测点筛选方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104348855A (zh) * | 2013-07-29 | 2015-02-11 | 华为技术有限公司 | 用户信息的处理方法、移动终端及服务器 |
CN108572733A (zh) * | 2018-04-04 | 2018-09-25 | 西安交通大学 | 一种基于条件随机场的眼动行为视觉搜索目标预测方法 |
CN109753591A (zh) * | 2018-12-11 | 2019-05-14 | 江阴逐日信息科技有限公司 | 业务流程预测性监控方法 |
CN109997164A (zh) * | 2016-10-21 | 2019-07-09 | 瑞士再保险有限公司 | 提供基于到达间隔时间的测量和预测即将发生的自然灾难性事件的测量系统及其方法 |
-
2019
- 2019-10-30 CN CN201911048981.6A patent/CN110956309A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104348855A (zh) * | 2013-07-29 | 2015-02-11 | 华为技术有限公司 | 用户信息的处理方法、移动终端及服务器 |
CN109997164A (zh) * | 2016-10-21 | 2019-07-09 | 瑞士再保险有限公司 | 提供基于到达间隔时间的测量和预测即将发生的自然灾难性事件的测量系统及其方法 |
CN108572733A (zh) * | 2018-04-04 | 2018-09-25 | 西安交通大学 | 一种基于条件随机场的眼动行为视觉搜索目标预测方法 |
CN109753591A (zh) * | 2018-12-11 | 2019-05-14 | 江阴逐日信息科技有限公司 | 业务流程预测性监控方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724897A (zh) * | 2020-06-12 | 2020-09-29 | 电子科技大学 | 一种运动功能数据处理方法及系统 |
CN111724897B (zh) * | 2020-06-12 | 2022-07-01 | 电子科技大学 | 一种运动功能数据处理方法及系统 |
CN112052273A (zh) * | 2020-07-27 | 2020-12-08 | 杭州电子科技大学 | 一种多角度业务流程下一候选活动提取方法 |
CN112052273B (zh) * | 2020-07-27 | 2021-08-31 | 杭州电子科技大学 | 一种多角度业务流程下一候选活动提取方法 |
CN112101557A (zh) * | 2020-08-18 | 2020-12-18 | 西北工业大学 | 一种基于crf-lstm算法的需求变更预测方法 |
CN112508265A (zh) * | 2020-12-02 | 2021-03-16 | 中国极地研究中心 | 面向业务流程管理的时间与活动多任务预测方法及系统 |
CN114816926A (zh) * | 2022-05-05 | 2022-07-29 | 华侨大学 | 流程监控方法和预测点筛选方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rama-Maneiro et al. | Deep learning for predictive business process monitoring: Review and benchmark | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
Li et al. | DCT-GAN: dilated convolutional transformer-based GAN for time series anomaly detection | |
Wang et al. | A Deep-forest based approach for detecting fraudulent online transaction | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN111881299B (zh) | 基于复制神经网络的离群事件检测与识别方法 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
Kim et al. | Probabilistic imputation for time-series classification with missing data | |
CN117094451A (zh) | 一种耗电量的预测方法、装置及终端 | |
CN116703607A (zh) | 一种基于扩散模型的金融时间序列预测方法与系统 | |
CN116542701A (zh) | 一种基于cnn-lstm组合模型的碳价预测方法及系统 | |
CN114401135B (zh) | 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 | |
CN115293249A (zh) | 一种基于动态时序预测的电力系统典型场景概率预测方法 | |
CN111402042A (zh) | 一种用于股市大盘形态分析的数据分析与显示方法 | |
Baghoussi et al. | Corrector LSTM: built-in training data correction for improved time-series forecasting | |
Yadav | Software Reliability Prediction by using Deep Learning Technique | |
Bashar et al. | ALGAN: Time Series Anomaly Detection with Adjusted-LSTM GAN | |
Wanga et al. | A Deep-forest based approach for detecting fraudulent online transactions | |
Li et al. | A semi-supervised paraphrase identification model based on multi-granularity interaction reasoning | |
CN111158640B (zh) | 一种基于深度学习的一对多需求分析识别方法 | |
CN117593101B (zh) | 基于多维数据的金融风险数据处理分析方法及系统 | |
Jang et al. | Tracking of Hardware Development Schedule based on Software Effort Estimation | |
CN118114275A (zh) | 一种面向多资源的弹性权限决策方法及装置 | |
He | Topological optimisation of artificial neural networks for financial asset forecasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200403 |
|
WD01 | Invention patent application deemed withdrawn after publication |