CN111191897B - 基于双向gru神经网络的业务流程在线合规性预测方法及系统 - Google Patents
基于双向gru神经网络的业务流程在线合规性预测方法及系统 Download PDFInfo
- Publication number
- CN111191897B CN111191897B CN201911336418.9A CN201911336418A CN111191897B CN 111191897 B CN111191897 B CN 111191897B CN 201911336418 A CN201911336418 A CN 201911336418A CN 111191897 B CN111191897 B CN 111191897B
- Authority
- CN
- China
- Prior art keywords
- flow
- event
- compliance
- attribute
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明属于业务流程挖掘中的合规性检查领域,具体涉及一种基于双向GRU神经网络的业务流程在线合规性预测方法及系统。
背景技术
业务流程的合规性检查是验证业务流程的执行是否合规以及评估流程挖掘算法有效性的重要手段。通常,业务流程的实际执行过程会在流程感知的信息系统中以事件日志的形式记录。因此事件日志能够反映业务流程执行过程中的行为。合规性检查就是将事件日志中的事件和业务流程模型中的活动关联起来,通过对比从而发现两者之间的共性和差异,即找到流程模型所描述的行为和流程执行所表现的行为之间的差别。流程合规性检查中涉及到的业务流程模型类型也会有所不同,当合规性检查用来验证业务流程的执行是否合规时,业务流程模型就是手工预先建立好的;而当合规性检查用来评估流程挖掘算法的有效性时,业务流程模型就是通过发现得到的。
目前国内外针对流程合规性检查的研究主要集中在流程执行阶段,但这种检查通常都是离线进行的,即在业务流程全部执行结束之后进行流程的合规性检查。具体来说,这类方法将已有的业务流程模型作为参考流程模型,与流程执行过程中产生的事件日志进行对比,再采用定义好的合规性指标进行计算得到一个具体的数值,用来表示两者之间的符合程度。但是随着业务流程实时监控的需求不断发展,传统的离线合规性检查已经不再适用,研究学者们提出了业务流程的在线合规性检查。在线合规性检查是指对一个正在执行的流程实例,进行实时的合规性检查,从而判断该流程实例与参考流程模型的符合程度。目前国内外提出的方法大都是基于正在执行的流程实例中已执行的事件序列,通过与参考流程模型进行比对,根据不同的方式度量该流程实例如果执行符合参考流程模型需要的成本大小,以此来度量合规性。事实上,业务流程实例的合规性应该是由该流程实例本身所具有的属性以及实例中的每个事件所具有的属性有关,如果能够研究它们之间的关系,就可以直接通过离线训练的方式建立合规性预测模型,从而实现实时的业务流程在线合规性预测。
发明内容
本发明提供了一种基于双向GRU神经网络的业务流程在线合规性预测方法及系统,根据合规性预测值和用户给定的合规性阈值进行比较,从而判断正在执行的流程实例σ′与参考流程模型M是否合规,用户给定的合规性阈值根据不同流程的合规性要求进行确定。
一种基于双向GRU神经网络的业务流程在线合规性预测方法,其特征在于,包括以下步骤:
步骤(1):获取业务流程管理系统中记录的历史流程执行的事件日志数据集,该事件日志数据集中的每一行对应一次业务流程执行中涉及的一个活动发生的详细事件记录,该事件日志数据集包括该事件e所在的流程实例ID属性、事件ID属性、事件e发生的时间戳(开始时间和结束时间)属性、事件e对应流程中的活动名称属性、事件e发生所需的资源属性,然后在这些属性基础上,额外增加每个事件发生的持续时间属性、同时执行的流程实例个数属性;最后再将事件日志数据集中流程实例ID属性相同的所有事件根据其对应的时间戳属性进行排列,即一次流程执行产生的流程实例,得到该流程实例对应的一条流程轨迹σ=<e1,e2,...,e|σ|>,对于一个包含s条流程轨迹的事件日志数据集,得到流程轨迹数据集L={σ1,σ2,...,σs};
步骤(2):将步骤(1)中得到的流程轨迹数据集L中异常的、不完整的流程轨迹移除,然后根据给定的该事件日志对应的Petri网表示的参考流程模型M,使用事件级托肯重演方法将每一条流程轨迹在参考流程模型M中进行重演,同时统计重演过程中每个阶段产生的托肯数量总和p、消耗的托肯数量总和c、缺失的托肯数量总和m以及遗留的托肯数量总和r,最后根据计算公式得到每条流程轨迹σ与参考流程模型M的合规性度量值fitness(σ,M),即对流程轨迹数据集L中的流程轨迹σ1,σ2,...,σs分别得到合规性度量值fitness(σ1,M),fitness(σ2,M),..。,fitness(σs,M);
步骤(3):根据步骤(2)中得到的流程轨迹数据集L中每条流程轨迹及其对应的合规性度量值得到已标注合规性的流程轨迹数据集L′={<σ1,fitness(σ1,M)>,<σ2,fitness(σ2,M)>,...,<σs,fitness(σs,M)>},简单记作L′={<σ1,y1>,<σ2,y2>,...,<σs,ys>},y1表示fitness(σ1,M),y2表示fitness(σ2,M),ys表示fitness(σs,M),然后用流程轨迹数据集L′训练神经网络从而建立正在执行的流程实例与参考流程模型M的在线合规性预测模型Y;
步骤(4):将正在执行的流程实例即流程轨迹σ′=<e1,e2,...,el>中已执行的事件序列e1,e2,...,el以及每个事件对应的属性输入步骤(3)中得到的在线合规性预测模型Y,得到流程轨迹σ′的合规性预测值
步骤(1)中,σ=<e1,e2,...,e|σ|>中,|σ|表示流程轨迹σ的长度,e1表示流程轨迹σ中的第一个事件,e2表示流程轨迹σ中的第二个事件,e|σ|表示流程轨迹σ中的最后一个事件。
L={σ1,σ2,...,σs}中,σ1表示流程轨迹数据集L中的第一条流程轨迹,σ2表示流程轨迹数据集L中的第二条流程轨迹,σs表示流程轨迹数据集L中的第s条流程轨迹。
步骤(3)中,用流程轨迹数据集L′训练神经网络从而建立正在执行的流程实例与参考流程模型M的在线合规性预测模型Y,具体包括:
(a)在神经网络的输入层,将流程轨迹数据集L中每条流程轨迹作为训练神经网络的一次输入,如第t个输入的流程轨迹表示成σt={et1,et2,...,etn}(1≤t≤s),其中n表示流程轨迹σt中的事件个数,et1表示流程轨迹σt中的第一个事件,et2表示流程轨迹σt中的第二个事件,etn表示流程轨迹σt中的第n个事件;
(b)在神经网络的事件编码层,将每个事件所具有的属性根据其不同类型采取不同的编码方式进行编码:如果该属性取值是类别型数据,使用独热编码方式根据该属性的取值进行编码,如果该属性取值是数值型数据,根据该属性所有取值的范围进行归一化处理,得到流程轨迹σt中每个事件对应的编码向量其中k代表事件所有属性的编码总个数,xti,1表示编码向量/>中的第一列数据,xti,2表示编码向量/>中的第二列数据,xti,k表示编码向量/>中的第k列数据;
(c)在神经网络的双向GRU特征提取层,将流程轨迹σt中每个事件编码构成的向量序列作为GRU特征提取层的输入,根据第i个输入的事件eti和第(i-1)个输入事件et,i-1的隐藏层输出ht,i-1,通过GRU特征提取层中每个神经单元中的重置门、更新门得到第i个输入事件对应的前向隐藏层输出/>同时根据第i个输入的事件eti和第(i+1)个输入事件et,i+1的隐藏层输出ht,i+1,得到第i个输入事件对应的后向隐藏层输出/>和/>表示不同方向的隐藏层输出,即根据前向和后向分别进行特征提取得到当前输入事件eti在隐藏层的输出/>以此类推,得到该流程轨迹中每个事件et1,et2,...,etn在双向GRU特征提取层的输出,即特征向量ht1,ht2,...,htn;
(d)在神经网络的输出层,将双向GRU特征提取层得到的流程轨迹σt中所有事件的特征向量ht1,ht2,...,htn连接得到ht=[ht1,ht2,...,htn],然后使用Sigmoid函数得到合规性预测值
(e)对于流程轨迹数据集L′中每一条流程轨迹σi(1≤i≤n),根据已知的合规性度量值yi=fitness(σi,M)和通过双向GRU神经网络输出的预测合规性度量值使用均方误差函数/>表示真实值和预测值之间的误差,然后在误差反向传播计算中使用优化的梯度下降算法来训练所有的参数,并不断调整参数,直到损失函数收敛,从而确定一组固定的参数值,即为训练得到的在线合规性预测模型Y。
步骤(4)中,事件对应的属性包括:流程实例ID属性、事件ID属性、事件e发生的时间戳(开始时间和结束时间)属性、事件e对应流程中的活动名称属性、事件e发生所需的资源属性、每个事件发生的持续时间属性、同时执行的流程实例个数属性。
本发明所提供的基于事件日志在线预测正在执行的流程实例的合规性方法由一组功能模块组成,它们包括:事件日志数据集预处理模块、合规性计算模块、事件编码模块、特征提取模块、合规性预测模型训练模块、在线合规性预测模块。
事件日志数据集预处理模块主要是基于业务流程感知信息系统中记录历史流程执行的事件日志数据集,根据每个事件的实例ID属性取值,将相同实例ID的所有事件根据它们各自的时间戳属性按照事件发生的先后顺序排列,得到每条流程实例对应的流程轨迹,即对于整个事件日志数据集得到流程轨迹数据集,然后将数据集中异常的、不完整的流程轨迹移除,最终得到预处理后的流程轨迹数据集。
合规性计算模块根据上一模块中得到的流程轨迹数据集,首先根据事件级托肯重演方法将数据集中每一条流程轨迹在参考流程模型中进行重演,然后统计重演过程中每个阶段产生的托肯数量总和、消耗的托肯数量总和、缺失的托肯数量总和以及遗留的托肯数量总和,最后根据拟合度计算公式得到代表流程合规性的度量值,从而得到已标注合规性的流程轨迹数据集。
事件编码模块根据上一模块中得到的标注合规性的流程轨迹数据集,将每条流程轨迹所包含的所有事件的属性根据不同的属性取值特性分别进行编码:如果属性的取值是类别型数据,则使用独热编码方式对其进行编码;如果属性的取值是数值型数据,则根据该属性所有取值的范围对其进行归一化处理,最终得到每个事件对应的长度相同的编码向量;
特征提取模块将上一模块中得到的流程轨迹中每个事件对应的编码向量作为神经网络的隐藏层输入,使用双向GRU进行特征提取,即分别根据当前事件和前一个发生的事件的特征向量基于GRU神经单元的特性得到当前事件对应的前向隐藏层输出向量、当前事件和后一个发生事件的特征向量基于GRU神经单元的特性得到当前事件对应的后向隐藏层输出向量,综合这两者即可得到每个事件对应的特征向量。
合规性预测模型建立模块根据上一模块中得到的每条流程轨迹特征向量,通过Sigmoid激活函数计算得到每条流程轨迹的合规性,然后使用均方误差函数表示该值与流程轨迹已标注的合规性度量值之间的误差,最后在误差反向传播计算中使用梯度下降优化算法来训练得到神经网络中所有的参数,即可得到基于该事件日志的合规性预测模型。
在线合规性预测模块在上一模块中建立的合规性预测模型的基础上,将当前正在执行的流程实例中已经发生的事件序列作为该预测模型的输入,从而得到该流程实例的合规性预测值,即为在线合规性预测结果。
一种基于双向GRU神经网络的业务流程在线合规性预测系统,包括:
事件日志数据集预处理模块,用于对于整个事件日志数据集得到流程轨迹数据集,然后将数据集中异常的、不完整的流程轨迹移除,得到预处理后的流程轨迹数据集;
合规性计算模块,用于先根据事件级托肯重演方法将流程轨迹数据集中每一条流程轨迹在参考流程模型中进行重演,然后统计重演过程中每个阶段产生的托肯数量总和、消耗的托肯数量总和、缺失的托肯数量总和以及遗留的托肯数量总和,最后根据拟合度计算公式得到代表流程合规性的度量值,得到已标注合规性的流程轨迹数据集;
事件编码模块,用于将已标注合规性的流程轨迹数据集所包含的所有事件的属性根据不同的属性取值特性分别进行编码,得到每个事件对应的长度相同的编码向量;
特征提取模块,用于将每个事件对应的编码向量作为神经网络的隐藏层输入,使用双向GRU进行特征提取,得到每个事件对应的特征向量;
合规性预测模型训练模块,用于将每条流程轨迹特征向量,通过Sigmoid激活函数计算得到每条流程轨迹的合规性,然后使用均方误差函数表示该值与流程轨迹已标注的合规性度量值之间的误差,最后在误差反向传播计算中使用梯度下降优化算法来训练得到神经网络中所有的参数,得到在线合规性预测模型;
在线合规性预测模块,用于将当前正在执行的流程实例中已经发生的事件序列作为在线合规性预测模型的输入,得到该流程实例的合规性预测值。
与现有技术相比,本发明具有如下优点:
本发明提出的方法基于事件日志中隐含存在的流程实例本身所具有的某些特征与该流程实例的合规性之间的关系,首先通过对事件日志中每个流程实例中包含的各种实例属性、事件属性根据不同取值类型分别选择不同类型的编码规则进行编码,得到该流程实例所对应的流程轨迹中所有事件的编码向量。然后将事件日志中每条流程轨迹中所有事件编码向量作为神经网络的输入,通过使用双向GRU隐藏层进行特征提取,从而构建流程实例的属性与其合规性之间的关系模型,即在线合规性预测模型。最后,在流程执行监控阶段,通过对正在执行的流程实例中已执行事件序列进行事件编码,将得到的编码向量作为在线合规性预测模型的输入,通过该模型得到执行中流程实例的合规性预测结果。与传统的离线合规性检查相比,采用本发明可以进行实时地监控正在执行流程实例的合规性,从而实现对流程执行的有效监控。对于流程管理者来说,可以根据合规性预测结果对执行中的流程实例提前采取有效措施,确保其执行符合参考流程模型。因此本发明对业务流程实时监控和优化业务流程的执行具有很重要的研究意义。
附图说明
图1为本发明基于双向GRU神经网络的业务流程在线合规性预测方法的架构图;
图2为本发明基于Petri网表示的参考流程模型示例图,其中,start表示开始库所,end表示结束库所,Register request表示“注册请求”活动,Examine thoroughly表示“全面检查”活动,Examine casually表示“随机检查”活动,Check ticket表示“检票”活动,Decide表示“做出决定”活动,Pay compensation表示“赔款”活动,Reject request表示“拒绝请求”活动,Reinitiate request表示“重新初始化请求”活动;
图3为本发明基于双向GRU神经网络构建在线合规性预测模型结构图。
具体实施方式
本发明所提供的基于事件日志在线预测执行中流程实例的合规性方法的具体实施方式主要分6步(如图1所示):
(1)输入Petri网表示的参考流程模型(如图2所示)感知的信息系统中记录的事件日志数据集(如表1所示),该事件日志数据集中的每一行对应一次业务流程执行中涉及的一个活动发生的详细事件记录,即一个完整的事件(用e表示)信息,其中包括该事件所在的流程实例ID、事件ID、事件发生的时间戳(开始时间和结束时间)、事件对应参考流程模型中的活动名称、活动执行所需的资源等事件属性以及一些与该实例相关的实例属性,然后在这些属性基础上,额外增加一些新的属性,比如每个事件发生的持续时间、同时执行的流程实例个数等属性;最后再将事件日志中流程实例ID相同的所有事件根据其对应的时间戳属性进行排列,得到该流程实例对应的一条流程轨迹σ=<e1,e2,...,e|σ|>,对于一个包含s条流程轨迹的事件日志数据集,得到流程轨迹数据集L={σ1,σ2,...,σs};
表1事件日志数据集
表1显示了处理索赔申请流程所对应的一个事件日志的一部分,每一行代表一个事件。用事件日志数据集L表示该流程对应的事件日志,其中每一个事件,通常用元组e=(a,caseID,eventID,tstart,tend,d1,...,dm)表示,其中a∈A代表该事件对应的活动名称属性(A是该流程中所有活动构成的集合),caseID代表该事件所在的流程实例ID属性,eventID代表该事件的事件ID属性,tstart代表该事件发生的开始时间戳属性,tend代表该事件的结束时间戳属性,d1,...,dm(m≥0)代表其他属性值,其中表示每个属性的值域。基于该事件日志中已有的事件属性、实例属性,额外增加一些新的属性,比如基于事件的开始时间戳属性和结束时间戳属性得到每个事件发生的持续时间、同时执行的其他流程实例的个数等属性。接着,将新得到的事件日志数据集L中具有相同流程实例ID的所有事件,根据时间戳属性将其进行排序,得到该流程实例对应的流程轨迹,用σ=<e1,e2,...,e|σ|>表示。若事件日志数据集L中包含s条流程轨迹,可以得到流程轨迹数据集L={σ1,σ2,...,σs},其中σi=<ei1,ei2,...,ei,|σ|>(1≤i≤s);
(2)将上述步骤(1)中得到的流程轨迹数据集L中异常的、不完整的流程轨迹移除,然后根据给定的该事件日志对应的Petri网表示的参考流程模型M,使用事件级托肯重演方法将每一条流程轨迹在参考流程模型M中进行重演,同时统计重演过程中每个阶段产生的托肯数量总和p、消耗的托肯数量总和c、缺失的托肯数量总和m以及遗留的托肯数量总和r,最后根据公式计算得到每条流程轨迹与参考流程模型的合规性度量值:
①遍历上述得到的流程轨迹数据集L,剔除异常的、不完整的流程轨迹;
②对上述①中得到的清洗后的流程轨迹数据集L,根据如图2所示的基于Petri网表示的参考流程模型M,使用托肯重演方法将每一条流程轨迹在参考流程模型M中进行重演,具体步骤如下:
首先,基于Petri网表示的流程模型通常用一个五元组M=(P,T,F,A,δ)表示,其中P是所有库所的有限集合,T是所有变迁的有限集合,是所有有向弧的集合,A是一个活动标签集合,δ:T→A是一个标签函数,且P中只含有一个输入库所(源库所)和一个输出库所(终结库所)。图2中表示的基于Petri网的参考流程模型可以形式化表示为:P={start,c1,c2,c3,c4,c5,end},T={a,b,c,d,e,f,g,h},F={(start,a),(a,c1),(a,c2),(c1,b),(c1,c),(c2,d),(b,c3),(c,c3),(d,c4),(c3,e),(c4,e),(e,c5),(c5,f),(f,c1),(f,c2),(c5,g),(c5,h),(g,end),(h,end)},A={Register request,Examine thoroughly,Examine casually,Checkticket,Decide,Pay compensation,Reject request,Reinitiate request},δ:{a→Register request,b→Examinethoroughly,c→Examinecasually,d→Check ticket,e→Decide,f→Reinitiaterequest,g→Pay compensation,h→Reject request}。
其次,在基于Petri网表示的参考流程模型M中进行托肯重演,就是将流程轨迹中的事件在参考流程模型M中根据发生规则来进行重演,同时统计每一个事件在模型中通过变迁使能时托肯发生的变化,即动态地更新产生托肯的计数器p、消耗托肯的计数器c、缺失托肯的计数器m以及遗留托肯的计数器r的值。其中,一个变迁的所有输入库所都含有一个托肯,那么这个变迁是使能的,一个使能的变迁如果发生,需要从每个输入库所中消耗一个托肯,并会在所有输出库所中生产一个托肯。
例如,在图2中的Petri网表示的参考流程模型M中重演流程轨迹σ=<(Registerrequest,1,1,...),(Examine thoroughly,1,2,...),(Check ticket,1,3,...),(Decide,1,4,...),(Reject request,1,5,...)>,详细过程如下所示:
首先,四个托肯计数器初始值都为0,即p=0,c=0,m=0,r=0,当活动Registerrequest对应的变迁a在源库所[start]上触发,即托肯从源库所消失,转移到变迁a上,此时更新托肯计数器的值,即得到p=1,c=0,m=0,r=0;接着,变迁a发生,托肯将从变迁a中转移到库所[c1]、[c2]上,此时减少一个托肯的同时增加了两个托肯,所以更新托肯计数器的值,得到p=3,c=1,m=0,r=0。以此类推,当一条完整的流程轨迹σ在参考流程模型M中重演后,分别得到四个托肯计数器p,c,m,r最终的值。
③对上述②中托肯重演方法分别得到的四个托肯计数器的值,通过公式计算得到该流程轨迹的拟合度,即该流程轨迹与参考流程模型的合规性度量值。同理,对流程轨迹数据集L中的每一条流程轨迹,都采用上述的托肯重演方法计算得到该流程轨迹与参考流程模型的合规性度量值。
(3)根据步骤(2)中的流程轨迹数据集L中每条流程轨迹及其对应的合规性度量值,得到已标注合规性的流程轨迹数据集L′={<σ1,fitness(σ1,M)>,<σ2,fitness(σ2,M)>,...,<σs,fitness(σs,M)>}(可简单记作L′={<σ1,y1>,<σ2,y2>,...,<σs,ys>}),然后用该数据集训练神经网络从而建立正在执行的流程实例与参考流程模型M的在线合规性预测模型Y。使用双向GRU神经网络构建在线合规性预测模型的结构图如图3所示,具体来说:
①在神经网络的输入层,将流程轨迹数据集L′中每条流程轨迹作为训练神经网络的一次输入,如第t个输入的流程轨迹可以表示成σt={et1,et2,...,etn}(1≤t≤s),其中eti(1≤i≤n)表示该流程实例σt中第i个发生的事件;
②在该神经网络的事件编码层,将每个事件所具有的属性根据其不同类型采取不同的编码方式分别进行编码:如果该属性取值是类别型数据,使用独热编码方式根据该属性的取值进行编码,如果该属性取值是数值型数据,根据该属性所有取值的范围进行归一化处理。根据这种编码规则,得到流程轨迹σt中每个事件对应的向量其中k代表事件所有属性的编码总个数;
③在该神经网络的双向GRU特征提取层,将流程轨迹σt中每个事件编码构成的向量序列作为该层的输入,根据第i个输入的事件eti和第(i-1)个输入事件et,i-1的隐藏层输出ht,i-1,得到第i个输入事件对应的前向隐藏层输出/>同时根据第i个输入的事件eti和第(i+1)个输入事件et,i+1的隐藏层输出ht,i+1,得到第i个输入事件对应的后向隐藏层输出/>(/>和/>表示不同方向的隐藏层输出),即
图3中的双向GRU特征提取层,也叫隐藏层,与传统的GRU特征提取层不同之处是双向GRU特征提取层中对应于同一个输入节点会有两个隐藏层单元。比如事件et1对应的编码向量在该层可以得到两个特征提取向量/>和/>这两者之间的区别在于它们分别是从两个不同方向(前向和后向)分别进行循环更新得到的特征向量。这里选取前向特征提取进行说明:
通常,GRU隐藏层中每个记忆单元都会通过两个门控单元来控制信息的流动(以事件eti对应的记忆单元为例):重置门resetti决定前一个事件对应的记忆单元的隐藏状态中的信息如何流入当前事件对应的记忆单元的候选隐藏状态,即负责决定前一个事件对应的记忆单元的隐藏状态对当前事件对应的记忆单元的候选隐藏状态的重要性;更新门updateti决定前一个事件对应的记忆单元的隐藏状态有多少信息传递给当前事件对应的记忆单元的隐藏状态。
GRU隐藏层中的每个神经元一般是根据当前时刻的输入和前一时刻的隐藏层输出(隐藏状态),通过重置门和更新门控制这两者中的信息从而更新得到当前时刻对应的神经元的隐藏层输出(隐藏状态),即从当前事件中能够提取得到的特征向量。假设已知前一个事件eti-1对应的记忆单元的隐藏状态hti-1和当前输入的事件eti,通过如下所示的计算过程可以得到eti对应的隐藏状态hti:
接着,通过F1对应的Sigmoid激活函数确定从前一个事件的隐藏状态ht,i-1中要流入到当前事件的隐藏状态hti中的信息,即 其中updateti表示更新门,/>和bupdate为需要训练的权重参数和偏移量;
最后,基于前一个事件的隐藏状态ht,i-1、已经确定的前一个事件的隐藏状态ht,i-1对当前事件的隐藏状态hti的重要程度以及当前事件的候选隐藏状态通过可以计算得到当前事件eti对应的隐藏状态/>这里的/>表示的是在前一个事件对应单元的记忆基础上从当前事件eti中提取得到的特征向量,特指的是前向提取的特征向量。
类似地,根据上述步骤可以得到当前事件eti在下一个事件et,i+1的特征向量ht,i+1的基础上提取得到的(后向)特征向量综合这两个不同方向得到的特征向量,即根据前向和后向分别进行特征提取得到当前输入事件eti在GRU隐藏层的输出如此类推,得到该流程轨迹中每个事件et1,et2,...,etn在隐藏层的输出,即特征向量ht1,ht2,...,htn;
④在该神经网络的输出层,将双向GRU特征提取层得到的流程轨迹σt中所有事件的特征向量连接得到ht=[ht1,ht2,...,htn],然后使用Sigmoid函数得到预测的合规性其中Wc和bc为该层需要训练的权重参数和偏移量,/>代表该流程实例通过双向GRU神经网络计算得到的合规性度量值;
⑤对于流程轨迹数据集L′中每一条流程轨迹σi(1≤i≤n),根据已知的合规性度量值yi=fitness(σi,M)和通过双向GRU神经网络输出的合规性预测值使用均方误差函数/>度量真实值和预测值之间的误差,然后在误差反向传播计算中使用优化的梯度下降算法来训练所有的参数,并不断调整参数,直到损失函数收敛,从而确定一组固定的参数值,即为训练得到的在线合规性预测模型Y。
步骤(4)将正在执行的流程实例即流程轨迹σ′=<e1,e2,...,el>中已执行的事件序列e1,e2,...,el以及每个事件对应的属性输入步骤(3)中得到的在线合规性预测模型Y,得到流程轨迹σ′的合规性预测值即为正在执行的流程实例σ′与参考流程模型M的合规性预测结果。
本发明可用于实现对正在执行流程实例的在线合规性预测,通过这种实时在线预测能够有效的进行预测性流程监控,从而实现流程执行的优化。
Claims (5)
1.一种基于双向GRU神经网络的业务流程在线合规性预测方法,其特征在于,包括以下步骤:
步骤(1):获取业务流程管理系统中记录的历史流程执行的事件日志数据集,该事件日志数据集中的每一行对应一次业务流程执行中涉及的一个活动发生的详细事件记录,该事件日志数据集包括该事件e所在的流程实例ID属性、事件ID属性、事件e发生的时间戳属性、事件e对应流程中的活动名称属性、事件e发生所需的资源属性,然后在这些属性基础上,额外增加每个事件发生的持续时间属性、同时执行的流程实例个数属性;最后再将事件日志数据集中流程实例ID属性相同的所有事件根据其对应的时间戳属性进行排列,即一次流程执行产生的流程实例,得到该流程实例对应的一条流程轨迹σ=<e1,e2,…,e|σ|>,对于一个包含s条流程轨迹的事件日志数据集,得到流程轨迹数据集L={σ1,σ2,…,σs};
步骤(2):将步骤(1)中得到的流程轨迹数据集L中异常的、不完整的流程轨迹移除,然后根据给定的该事件日志对应的Petri网表示的参考流程模型M,使用事件级托肯重演方法将每一条流程轨迹在参考流程模型M中进行重演,同时统计重演过程中每个阶段产生的托肯数量总和p、消耗的托肯数量总和c、缺失的托肯数量总和m以及遗留的托肯数量总和r,最后根据计算公式得到每条流程轨迹σ与参考流程模型M的合规性度量值fitness(σ,M),即对流程轨迹数据集L中的流程轨迹σ1,σ2,…,σs分别得到合规性度量值fitness(σ1,M),fitness(σ2,M),…,fitness(σs,M);
步骤(3):根据步骤(2)中得到的流程轨迹数据集L中每条流程轨迹及其对应的合规性度量值得到已标注合规性的流程轨迹数据集L′={<σ1,fitness(σ1,M)>,<σ2,fitness(σ2,M)>,…,<σs,fitness(σs,M)>},简单记作L′={<σ1,y1>,<σ2,y2>,…,<σs,ys>},y1表示fitness(σ1,M),y2表示fitness(σ2,M),ys表示fitness(σs,M),然后用流程轨迹数据集L′训练双向GRU神经网络从而建立在线合规性预测模型Y;
用流程轨迹数据集L′训练双向GRU神经网络从而建立在线合规性预测模型Y,具体包括:
(a)在双向GRU神经网络的输入层,将流程轨迹数据集L中每条流程轨迹作为训练双向GRU神经网络的一次输入,如第t个输入的流程轨迹表示成σt={et1,et2,…,etn}(1≤t≤s),其中n表示流程轨迹σt中的事件个数,et1表示流程轨迹σt中的第一个事件,et2表示流程轨迹σt中的第二个事件,etn表示流程轨迹σt中的第n个事件;
(b)在双向GRU神经网络的事件编码层,将每个事件所具有的属性根据其不同类型采取不同的编码方式进行编码:如果该属性取值是类别型数据,使用独热编码方式根据该属性的取值进行编码,如果该属性取值是数值型数据,根据该属性所有取值的范围进行归一化处理,得到流程轨迹σt中每个事件对应的编码向量其中k代表事件所有属性的编码总个数,xti,1表示编码向量/>中的第一列数据,xti,2表示编码向量/>中的第二列数据,xti,k表示编码向量中的第k列数据;
(c)在双向GRU神经网络的双向GRU特征提取层,将流程轨迹σt中每个事件编码构成的向量序列作为GRU特征提取层的输入,根据第i个输入的事件eti和第(i-1)个输入事件et,i-1的隐藏层输出ht,i-1,通过GRU特征提取层中每个神经单元中的重置门、更新门得到第i个输入事件对应的前向隐藏层输出/>同时根据第i个输入的事件eti和第(i+1)个输入事件et,i+1的隐藏层输出ht,i+1,得到第i个输入事件对应的后向隐藏层输出/> 和表示不同方向的隐藏层输出,即根据前向和后向分别进行特征提取得到当前输入事件eti在隐藏层的输出/>以此类推,得到该流程轨迹中每个事件et1,et2,…,etn在双向GRU特征提取层的输出,即特征向量ht1,ht2,…,htn;
(d)在双向GRU神经网络的输出层,将双向GRU特征提取层得到的流程轨迹σt中所有事件的特征向量ht1,ht2,…,htn连接得到ht=[ht1,ht2,…,htn],然后使用Sigmoid函数得到合规性预测值
(e)对于流程轨迹数据集L′中每一条流程轨迹σi(1≤i≤n),根据已知的合规性度量值yi=fitness(σi,M)和通过双向GRU神经网络输出的合规性预测值使用均方误差函数表示真实值和预测值之间的误差,然后在误差反向传播计算中使用优化的梯度下降算法来训练所有的参数,并不断调整参数,直到损失函数收敛,从而确定一组固定的参数值,即为训练得到的在线合规性预测模型Y;
2.根据权利要求1所述的基于双向GRU神经网络的业务流程在线合规性预测方法,其特征在于,步骤(1)中,σ=<e1,e2,…,e|σ|>中,|σ|表示流程轨迹σ的长度,e1表示流程轨迹σ中的第一个事件,e2表示流程轨迹σ中的第二个事件,e|σ|表示流程轨迹σ中的最后一个事件。
3.根据权利要求1所述的基于双向GRU神经网络的业务流程在线合规性预测方法,其特征在于,步骤(1)中,L={σ1,σ2,…,σs}中,σ1表示流程轨迹数据集L中的第一条流程轨迹,σ2表示流程轨迹数据集L中的第二条流程轨迹,σs表示流程轨迹数据集L中的第s条流程轨迹。
4.根据权利要求1所述的基于双向GRU神经网络的业务流程在线合规性预测方法,其特征在于,步骤(4)中,事件对应的属性包括:流程实例ID属性、事件ID属性、事件e发生的时间戳属性、事件e对应流程中的活动名称属性、事件e发生所需的资源属性、每个事件发生的持续时间属性、同时执行的流程实例个数属性。
5.一种基于双向GRU神经网络的业务流程在线合规性预测系统,其特征在于,包括:
事件日志数据集预处理模块,用于根据业务流程管理系统中记录的历史流程执行的事件日志数据集得到流程轨迹数据集,然后将流程轨迹数据集中异常的、不完整的流程轨迹移除,得到预处理后的流程轨迹数据集;
合规性计算模块,用于先根据事件级托肯重演方法将流程轨迹数据集中每一条流程轨迹在参考流程模型中进行重演,然后统计重演过程中每个阶段产生的托肯数量总和、消耗的托肯数量总和、缺失的托肯数量总和以及遗留的托肯数量总和,最后根据拟合度计算公式得到代表流程合规性的度量值,得到已标注合规性的流程轨迹数据集;
事件编码模块,用于将已标注合规性的流程轨迹数据集中每条流程轨迹所包含的所有事件的属性根据不同的属性取值特性分别进行编码,得到每个事件对应的长度相同的编码向量;
特征提取模块,用于将每个事件对应的编码向量作为双向GRU神经网络的隐藏层输入,使用双向GRU特征提取层进行特征提取,得到每个事件对应的特征向量,将每条流程轨迹所包含的所有事件的特征向量连接得到每条流程轨迹的特征向量;
合规性预测模型训练模块,用于根据每条流程轨迹的特征向量,通过Sigmoid激活函数计算得到每条流程轨迹的合规性预测值,然后使用均方误差函数表示该合规性预测值与流程轨迹已标注的合规性度量值之间的误差,最后在误差反向传播计算中使用梯度下降优化算法来训练得到双向GRU神经网络中所有的参数,得到在线合规性预测模型;
在线合规性预测模块,用于将当前正在执行的流程实例中已经发生的事件序列作为在线合规性预测模型的输入,得到该流程实例的合规性预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911336418.9A CN111191897B (zh) | 2019-12-23 | 2019-12-23 | 基于双向gru神经网络的业务流程在线合规性预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911336418.9A CN111191897B (zh) | 2019-12-23 | 2019-12-23 | 基于双向gru神经网络的业务流程在线合规性预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191897A CN111191897A (zh) | 2020-05-22 |
CN111191897B true CN111191897B (zh) | 2023-06-30 |
Family
ID=70709290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911336418.9A Active CN111191897B (zh) | 2019-12-23 | 2019-12-23 | 基于双向gru神经网络的业务流程在线合规性预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191897B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052232B (zh) * | 2020-07-21 | 2021-06-01 | 杭州电子科技大学 | 一种基于重演技术的业务流程上下文提取方法 |
CN112052233B (zh) * | 2020-08-11 | 2021-03-30 | 杭州电子科技大学 | 一种基于上下文感知的多角度业务流程异常在线检测方法 |
CN112115550B (zh) * | 2020-09-13 | 2022-04-19 | 西北工业大学 | 基于Mogrifier-BiGRU的飞行器机动轨迹预测方法 |
CN112215426A (zh) * | 2020-10-16 | 2021-01-12 | 国网山东省电力公司信息通信公司 | 一种短期用电负荷预测方法 |
CN112738039B (zh) * | 2020-12-18 | 2021-09-14 | 北京中科研究院 | 一种基于流量行为的恶意加密流量检测方法、系统及设备 |
CN112632018B (zh) * | 2020-12-21 | 2022-05-17 | 深圳市杰成软件有限公司 | 一种业务流程事件日志采样方法与系统 |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、系统、存储介质及计算设备 |
CN113610315B (zh) * | 2021-08-16 | 2023-10-13 | 傲林科技有限公司 | 一种基于事件网的预测方法、装置及电子设备 |
CN113780844B (zh) * | 2021-09-14 | 2024-03-01 | 北京杰成合力科技有限公司 | 跨组织业务流程模型挖掘、合规性检查方法与系统 |
CN114757432B (zh) * | 2022-04-27 | 2023-05-30 | 浙江传媒学院 | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 |
CN114648256A (zh) * | 2022-05-19 | 2022-06-21 | 杭州世平信息科技有限公司 | 一种数据安全检查方法和系统及设备 |
CN115470640B (zh) * | 2022-09-20 | 2024-02-20 | 山东理工大学 | 基于流程树分解和轨迹匹配策略的合规性检测方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761651A (zh) * | 2013-10-21 | 2014-04-30 | 远光软件股份有限公司 | 基于多种监控方式的业务稽核方法及系统 |
CN104766166A (zh) * | 2015-03-27 | 2015-07-08 | 杭州安恒信息技术有限公司 | 一种面向等级保护的信息系统安全合规性检查方法 |
CN105678478A (zh) * | 2016-03-09 | 2016-06-15 | 铜仁学院 | 业务流程可变性配置管理合规性分析与检测方法 |
CN106503872A (zh) * | 2016-11-29 | 2017-03-15 | 中国人民解放军国防科学技术大学 | 一种基于基础业务活动集的业务流程系统构建方法 |
CN109753591A (zh) * | 2018-12-11 | 2019-05-14 | 江阴逐日信息科技有限公司 | 业务流程预测性监控方法 |
CN110046820A (zh) * | 2019-04-17 | 2019-07-23 | 山东科技大学 | 基于结构替换的流程模型修复方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1738314A4 (en) * | 2004-03-19 | 2009-12-02 | Oversight Technologies Inc | METHOD AND SYSTEMS FOR TRANSACTION MONITORING MONITORING |
US8321433B1 (en) * | 2011-05-06 | 2012-11-27 | Sap Ag | Systems and methods for business process logging |
US20170206477A1 (en) * | 2016-01-20 | 2017-07-20 | American Express Travel Related Services Company, Inc. | System and method for health monitoring of business processes and systems |
US20190050780A1 (en) * | 2017-08-10 | 2019-02-14 | Infront Compliance, Inc. | System for dynamically calibrating internal business processes with respect to regulatory compliance and related business requirements |
-
2019
- 2019-12-23 CN CN201911336418.9A patent/CN111191897B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761651A (zh) * | 2013-10-21 | 2014-04-30 | 远光软件股份有限公司 | 基于多种监控方式的业务稽核方法及系统 |
CN104766166A (zh) * | 2015-03-27 | 2015-07-08 | 杭州安恒信息技术有限公司 | 一种面向等级保护的信息系统安全合规性检查方法 |
CN105678478A (zh) * | 2016-03-09 | 2016-06-15 | 铜仁学院 | 业务流程可变性配置管理合规性分析与检测方法 |
CN106503872A (zh) * | 2016-11-29 | 2017-03-15 | 中国人民解放军国防科学技术大学 | 一种基于基础业务活动集的业务流程系统构建方法 |
CN109753591A (zh) * | 2018-12-11 | 2019-05-14 | 江阴逐日信息科技有限公司 | 业务流程预测性监控方法 |
CN110046820A (zh) * | 2019-04-17 | 2019-07-23 | 山东科技大学 | 基于结构替换的流程模型修复方法 |
Non-Patent Citations (3)
Title |
---|
Ahmed Awad 等.Runtime detection of business process compliance violations: an approach based on anti patterns.SAC '15: Proceedings of the 30th Annual ACM Symposium on Applied Computing.2015,第1203-1210页. * |
李斌 等.基于溯源数据的业务流程合规性检测.《清华大学学报(自然科学版)》.2013,第第53卷卷(第第12期期),第1768-1776. * |
贺琪.以artifact为中心的业务流程合规性研究.中国博士学位论文全文数据库信息科技辑.2016,(第第01期期),I138-18. * |
Also Published As
Publication number | Publication date |
---|---|
CN111191897A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191897B (zh) | 基于双向gru神经网络的业务流程在线合规性预测方法及系统 | |
CN104732276B (zh) | 一种计量生产设施故障在线诊断方法 | |
Shi et al. | Event-based state estimation of discrete-state hidden Markov models | |
JP5299267B2 (ja) | 診断装置 | |
CN108197845A (zh) | 一种基于深度学习模型lstm的交易指标异常的监测方法 | |
CN109917777B (zh) | 基于混合多采样率概率主成分分析模型的故障检测方法 | |
CN112101431A (zh) | 电子设备故障诊断系统 | |
US20140343903A1 (en) | Factorial hidden markov models estimation device, method, and program | |
CN111124852A (zh) | 一种基于bmc健康管理模块的故障预测方法及系统 | |
Ding et al. | Online failure prediction for railway transportation systems based on fuzzy rules and data analysis | |
CN110443304A (zh) | 一种基于机器学习模型的企业风险评估方法 | |
Wang et al. | Multilayer perceptron for sparse functional data | |
Zakaria et al. | Software project estimation with machine learning | |
Janusz et al. | Network device workload prediction: A data mining challenge at knowledge pit | |
CN112128950B (zh) | 一种基于多种模型对比的机房温湿度预测方法及系统 | |
CN117875710A (zh) | 一种基于贝叶斯网络的变电站设备模型安全分析与风险评估方法 | |
Zhang et al. | Fault localization for microservice applications with system logs and monitoring metrics | |
Kang et al. | CPS-based fault-tolerance method for smart factories: Simulation-based framework and fault management application | |
CN111553581A (zh) | 一种基于熵值的装备维修性评价模型 | |
CN115169426B (zh) | 一种基于相似性学习融合模型的异常检测方法及系统 | |
CN116432964A (zh) | 一种基于收敛交叉映射的电力调度自动化系统故障溯源方法 | |
Lo et al. | Coding‐based schemes for fault identification in communication networks | |
CN111078440B (zh) | 一种磁盘错误检测方法、装置及存储介质 | |
Cao et al. | Higher-order Markov Graph based Bug Detection in Cloud-based Deployments | |
Chen | A hybrid fuzzy-neural approach to job completion time prediction in a semiconductor fabrication factory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |