CN114662793A - 基于可解释分层模型的业务流程剩余时间预测方法与系统 - Google Patents
基于可解释分层模型的业务流程剩余时间预测方法与系统 Download PDFInfo
- Publication number
- CN114662793A CN114662793A CN202210433390.6A CN202210433390A CN114662793A CN 114662793 A CN114662793 A CN 114662793A CN 202210433390 A CN202210433390 A CN 202210433390A CN 114662793 A CN114662793 A CN 114662793A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- prediction
- features
- mae
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 230000008569 process Effects 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 125
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 107
- 230000000694 effects Effects 0.000 claims description 72
- 238000003066 decision tree Methods 0.000 claims description 58
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000012800 visualization Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 230000007717 exclusion Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/109—Time management, e.g. calendars, reminders, meetings or time accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于可解释分层模型的业务流程剩余时间预测方法与系统,包括:1)日志获取和预处理;2)特征自选取;3)特征编码;4)确定模型基本单元结构,选取轨迹前缀;5)构建、训练和调试可解释分层模型;6)可解释分层模型预测结果的评估和可视化呈现。本发明为业务流程剩余时间预测任务提供了一种通用的特征自选取策略,自动选取对预测任务重要并具有积极影响的特征作为模型输入,并且构建了可解释分层模型以及预测结果可视化呈现,解释了各特征对预测准确性的影响方式和影响程度。
Description
技术领域
本发明涉及业务流程剩余时间预测的技术领域,尤其是指一种基于可解释分层模型的业务流程剩余时间预测方法与系统。
背景技术
随着企业数字化转型和智能化发展,企业信息系统中的事件数据都得到了高质量的储存,流程挖掘技术可以从历史事件日志中提取有价值的信息,并帮助企业提高生产效率和产品质量,避免不必要的风险,提高企业的竞争力。流程挖掘技术已逐渐成为国内外学者的热点研究领域,建立起了数据挖掘与业务流程管理之间的联系,为业务流程管理提供了更加系统、高效的思路和技术。流程挖掘是指从现有事件日志中挖掘知识以发现、监控和改进实际流程。这些方法主要是通过已有的历史数据分析业务流程,但在业务的执行过程中,对流程未来执行情况的了解更有利于风险的早期准备和防范。因此,流程预测性监控是流程挖掘领域中可以广泛应用并产生行业价值的技术。
业务流程中常见的预测任务包括剩余时间预测、结果预测、下一事件预测、下一事件执行时间预测、后缀预测以及其他属性预测等。其中剩余时间预测可以根据对实例未来执行时间的判断,调整后续的执行步骤和时间,避免超时而带来的风险。目前对于业务流程剩余时间预测任务的研究,在特征选取阶段没有给出一个有说服性、较为通用的特征选取方式,并且当前的研究大多是采用机器学习和深度学习方法从大量的事件日志中训练模型,难以对预测结果做出解释。因此,预测模型输入特征的选取问题和预测结果的可信性,是业务流程剩余时间预测中亟需解决的问题。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于可解释分层模型的业务流程剩余时间预测方法,该方法为业务流程剩余时间预测任务提供了一种通用的特征自选取策略,自动选取对预测任务重要并具有积极影响的特征作为模型输入,并且构建了可解释分层模型以及预测结果可视化呈现,解释了各特征对预测准确性的影响方式和影响程度。
本发明的第二目的在于提供一种基于可解释分层模型的业务流程剩余时间预测系统。
本发明的第一目的通过下述技术方案实现:基于可解释分层模型的业务流程剩余时间预测方法,包括以下步骤:
1)日志获取和预处理:
获取真实业务流程日志,分析日志,删除无关属性列,扩展时间属性,计算预测目标值,将每个日志划分为训练集和测试集;
2)特征自选取:
采用LightGBM算法作为特征自选取策略的依托模型,通过基于优先级的后向特征删除和基于特征重要性值的前向特征选择策略对步骤1)预处理后的日志进行特征选取,得到重要特征;
3)特征编码:
将步骤2)获得的重要特征分别进行编码,并更新至训练集和测试集中,使编码后的值能区分并代表该特征;
4)确定模型基本单元结构,选取轨迹前缀:
根据日志特点选取LSTM神经网络作为模型基本单元,并针对不同的日志选取不同轨迹前缀划分方法;
5)构建、训练和调试可解释分层模型:
采用步骤2)选取的重要特征和步骤4)选取的基本单元构建可解释分层模型作为预测模型,并利用训练集训练预测模型,调试超参数直至达到最优预测效果;
6)可解释分层模型预测结果的评估和可视化呈现:
评估步骤2)、3)、5)对剩余时间预测任务的有效性,将可解释分层模型的每层预测结果进行可视化呈现,解释各特征对剩余时间预测结果的影响方式和影响程度。
优选的,所述步骤1)包括以下步骤:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,采用基于时间增量抽取的方法划分成训练集和测试集,将事件日志按照时间顺序均分为5个部分,每一部分均分为5组并选用第一组进行组合作为测试集,其余作为训练集,划分结果用于预测模型的训练和测试。
优选的,在步骤2)中,采用LightGBM算法作为特征自选取策略的依托模型,选取重要属性作为预测模型的输入特征,具体包括以下步骤:
2.1)采用LightGBM算法作为特征自选取策略的依托模型,从步骤1)得到的训练集中选取不同属性作为输入特征,训练决策树模型,该模型能够根据信息增益得到特征的重要性值集合,记为IVLGBM,为特征选取过程提供了初始参考指标,决策树模型的预测效果评估采用步骤1)的测试集和MAE指标,计算真实值与预测值的平均绝对误差,计算公式如下:
IVMAEj=EMAE_L-[E-j]MAE_L
式中,E为所选特征集合,EMAE_L为以E集合中的特征作为训练集训练 LightGBM预测模型得到的MAE值,[E-j]为E除去第j个特征后的集合,所有特征重要值的集合记为IVMAE;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,有效提高了算法的训练速度同时保证了算法的预测精度;
2.2)基于优先级的后向特征删除策略,用于筛除对预测任务具有消极影响的特征,详细步骤如下:
Step1:将所有属性都作为输入特征,其中活动设置为最高优先级,其它特征的优先级设为0,采用LightGBM训练决策树模型,得到IVLGBM,计算决策树模型在测试集上的MAE值,根据MAE计算各特征的重要性值;
Step2:删除优先级最低的特征中重要性值最低的特征;
Step3:使用删除特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,得到IVMAE,若评估结果相较上一轮有所提升则永久删除此特征,迭代执行Step2;若评估结果相较上一轮有所下降则撤回此轮删除的特征,增加该特征优先级,若所有特征优先级数均增加则执行Step4,否则迭代执行Step2;
Step4:返回预测结果最佳的特征组合和各特征的重要性值即特征重要值集合IVMAE;
2.3)采用基于特征重要性值的前向特征选择策略,以达到在所选特征数尽可能少的情况下,保证预测的准确率,详细步骤如下:
Step1:根据步骤2.2)得到的特征重要性值集合IVMAE,选重要性值最大的特征添加至已选特征,活动为初始的已选特征,若待选特征数为0,则执行Step 3;
Step2:使用添加特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,若MAE值下降则删除该特征,继续迭代执行Step1;
Step3:返回预测结果最佳的特征组合和MAE值。
优选的,在步骤3)中,将步骤2)中选取的重要特征采用合适的编码方式进行编码,特征包含活动特征、其它类别特征和数值特征,具体如下:
a、活动特征结合CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,以得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它类别特征难以判断每种特征的上下文关系,通过随机初始化向量编码的方式,若特征值的类别小于5则采用基于索引的编码方式,并将编码后的特征更新到训练集和测试集中,其中所述基于索引的编码是将离散属性基于下标索引进行简单顺序编码;
c、数值特征进行归一化或标准化操作。
优选的,在步骤4)中,确定模型基本单元结构,根据不同的事件日志选取轨迹前缀,包括如下步骤:
4.1)采用LSTM神经网络构建可解释分层业务流程剩余时间的可解释分层模型作为预测模型,所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹是指案例从执行到结束的事件序列;
4.2)LSTM神经网络构建的预测模型采用变长轨迹前缀作为输入,变长轨迹前缀有两种生成方式,对于大规模事件日志,采用整条轨迹作为输入的方法,具体是输入事件序列长为n的一条轨迹,输出对应长为n的剩余时间序列;小规模事件日志采用切分轨迹划分轨迹前缀的方法,具体是事件序列长为n的一条轨迹,输入包含[e1],[e1,e2],...,[e1,e2,...,en]共n条轨迹前缀,输出则分别对应 n个剩余时间,将划分好的轨迹前缀更新至训练集和测试集中,其中en指的是轨迹前缀的第n个事件,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息。
优选的,在步骤5)中,构建、训练和调试可解释分层模型,具体步骤如下所示:
5.1)依据步骤2)中选取的重要特征数为模型的层数,步骤3)确定的编码长度为每层输入的维数,和步骤4)所选的LSTM神经网络,构建初步的可解释分层模型;
5.2)训练过程中不断调整超参数和模型结构使之在步骤4)更新后的测试集上达到最优预测效果,得到训练好的可解释分层模型作为预测模型。
优选的,在步骤6)中,评估特征自选取策略的有效性和可解释分层模型预测结果及其可视化呈现,具体步骤如下所示:
6.1)测试采用不同特征组合所训练的决策树模型在测试集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括全部特征、活动特征、步骤 2.2)所选特征和步骤2.3)所选特征;
6.2)测试步骤5)训练好的预测模型与对照模型在测试集上的MAE值,以反映模型预测准确性的优劣,评估可解释分层模型预测结果的准确性;其中,所述对照模型包括仅使用基于索引编码的活动特征作为输入的模型、仅使用步骤3)进行编码的活动特征作为输入的模型、使用步骤2)所选特征采用基于索引编码作为输入的模型;
6.3)单独计算可解释分层模型的每一层预测结果在测试集上的MAE值,并以二维坐标图的形式展示每个轨迹前缀的真实剩余时间与逐层预测值的差值关系,解释每个特征对预测结果的影响方式和影响程度。
本发明的第二目的通过下述技术方案实现:基于可解释分层模型的业务流程剩余时间预测系统,包括日志处理模块、特征自选取模块、特征编码模块、模型单元与轨迹前缀选取模块、模型训练模块和评估与可视化模块;
所述日志处理模块用于日志分析和预处理,划分训练集和测试集;
所述特征自选取模块用于根据自选取策略选取日志的重要属性作为预测模型的输入特征;
所述特征编码模块用于选取的重要特征采用合适的编码方式进行编码;
所述模型单元与轨迹前缀选取模块用于确定模型基础单元,选取轨迹前缀;
所述模型训练模块用于构建、训练和调试可解释分层模型;
所述评估与可视化模块用于评估特征自选取策略与可解释分层模型的优劣,可视化可解释分层模型的每层预测结果。
优选的,所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,采用基于时间增量抽取的方法划分成训练集和测试集,将事件日志按照时间顺序均分为5个部分,每一部分均分为5组并选用第一组进行组合作为测试集,其余作为训练集,划分结果用于预测模型的训练和测试;
所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的依托模型,选取训练集中不同属性作为输入特征,训练决策树模型,该模型能够根据信息增益得到特征的重要性值集合,记为IVLGBM,为特征选取过程提供了初始参考指标,决策树模型的预测效果评估采用测试集和MAE指标,计算真实值与预测值的平均绝对误差,计算公式如下:
IVMAEj=EMAE_L-[E-j]MAE_L
式中,E为所选特征集合,EMAE_L为以E集合中的特征作为训练集训练LightGBM 预测模型得到的MAE值,[E-j]为E除去第j个特征后的集合,所有特征重要值的集合记为IVMAE;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,有效提高了算法的训练速度同时保证了算法的预测精度;
基于优先级的后向特征删除策略,用于筛除对预测任务具有消极影响的特征,首先所有属性都作为输入特征,其中活动设置为最高优先级,其它特征的优先级设为0,采用LightGBM训练决策树模型,得到IVLGBM,计算决策树模型在测试集上的MAE值,根据MAE计算各特征的重要性值,然后删除优先级最低的特征中重要性值最低的特征,随后将删除特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,得到IVMAE,若评估结果相较上一轮有所提升则永久删除此特征,继续迭代删除特征,若评估结果相较上一轮有所下降则撤回此轮删除的特征,增加该特征优先级,若所有特征优先级数均增加则返回预测结果最佳的特征组合和各特征的重要性值IVMAE,继续迭代删除特征;
采用基于特征重要性值的前向特征选择策略,以达到在所选特征数尽可能少的情况下,保证预测的准确率,首先根据得到的特征重要性值集合IVMAE,选重要性值最大的特征添加至已选特征,活动为初始的已选特征,若待选特征数为0,则返回预测结果最佳的特征组合和MAE值,否则将添加特征后的训练集重新训练预测模型,计算预测模型在测试集上的MAE值,若MAE值下降则删除该特征,继续迭代添加特征。
优选的,所述特征编码模块具体执行如下操作:
a、活动特征结合CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,以得到活动的特征编码,所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它类别特征难以判断每种特征的上下文关系,通过随机初始化向量编码的方式,若特征值的类别小于5则采用基于索引的编码方式,并将编码后的特征更新到训练集和测试集中,所述基于索引的编码是将离散属性基于下标索引进行简单顺序编码;
c、数值特征进行归一化或标准化操作;
所述模型单元与轨迹前缀选取模块具体执行如下操作:
采用LSTM神经网络构建可解释分层业务流程剩余时间的可解释分层模型作为预测模型,所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹是指案例从执行到结束的事件序列;
LSTM神经网络构建的预测模型采用变长轨迹前缀作为输入,变长轨迹前缀有两种生成方式,对于大规模事件日志,采用整条轨迹作为输入的方法,具体是输入事件序列长为n的一条轨迹,输出对应长为n的剩余时间序列;小规模事件日志采用切分轨迹划分轨迹前缀的方法,具体是事件序列长为n的一条轨迹,输入包含[e1],[e1,e2],...,[e1,e2,...,en]共n条轨迹前缀,输出则分别对应n个剩余时间,将划分好的轨迹前缀更新至训练集和测试集中,其中en指的是轨迹前缀的第n个事件,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;
所述模型训练模块具体执行如下操作:
依据选取的重要特征数为模型的层数,编码长度为每层输入的维数,并以 LSTM神经网络构建初步的可解释分层模型,在训练过程中不断调整超参数和模型结构使之在测试集上达到最优预测效果,得到训练好的可解释分层模型作为预测模型;
所述评估与可视化模块具体执行如下操作:
测试采用不同特征组合所训练的决策树模型在测试集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括全部特征、活动特征、两步特征自选取策略所选特征;
测试可解释分层模型与对照模型在测试集上的MAE值,以反映模型预测准确性的优劣,评估可解释分层模型预测结果的准确性;其中,所述对照模型包括仅使用基于索引编码的活动特征作为输入的模型、仅使用特征编码模块进行编码的活动特征作为输入的模型、使用特征自选取模块所选特征采用基于索引编码作为输入的模型;
单独计算可解释分层模型的每一层预测结果在测试集上的MAE值,并以二维坐标图的形式展示每个轨迹前缀的真实剩余时间与逐层预测值的差值关系,解释每个特征对预测结果的影响方式和影响程度。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了业务流程剩余时间预测中特征的自选取方法,自动选取对预测结果有积极影响的特征作为输入。
2、本发明首次实现了在业务流程剩余时间预测中将除活动外的分类属性进行编码的方法。
3、本发明首次提出了针对业务流程剩余时间预测构建的可解释分层模型作为预测模型。
4、本发明将可解释分层模型的逐层预测结果在二维坐标图中进行可视化呈现,解释了不同特征对预测的影响方式和影响程度。
5、本发明通过对业务流程剩余时间的预测,确保业务在需要的时间内完成办理,若出现延期情况可及时采取措施,不影响后续进度。
附图说明
图1为本发明方法逻辑流程示意图。
图2为本发明基于优先级的后向特征删除策略流程图。
图3为本发明Helpdesk的特征重要性值图,其中x轴importance value表示重要性值,y轴attribute表示特征属性,allDuration、seriousness_2、Variant index、 day、Resource、product、duration、hour、responsible_section表示所展示的特征名。
图4为本发明可解释分层模型的结构图。
图5为本发明Helpdesk分层模型的逐层预测结果图,其中x轴Feature Name 表示特征名,y轴MAE表示平均绝对误差,Activity、allDuration、seriousness_2、 Variantindex、day、Resource、product、duration表示可解释模型每层输入特征的特征名。
图6为本发明Helpdesk日志分层预测结果示例图,其中x轴Time(day)表示以天为单位的时间,y轴Feature Number表示特征的数量,Activity、allDuration、 seriousness_2、Variant index、day、Resource、product、duration表示可解释模型每层输入特征的特征名,Wait、Resolve ticket、Take in charge ticket、Value 1等表示对应特征的具体特征值,tensor表示该特征值为数值类型。
图7为本发明的系统架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例公开了一种基于可解释分层模型的业务流程剩余时间预测方法,包括以下步骤:
1)获取、分析和预处理事件日志,并划分为训练集和测试集:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
在本步骤中,获取了八个来自4TU的公开事件日志,包括:Helpdesk事件日志涉及一家意大利软件公司帮助台的票务管理流程;BPIC2012是某财政机构贷款申请流程的事件日志;BPIC2015共包含五个事件日志,分别由五个荷兰的市政府提供,数据包含大约四年期间所有建筑许可证申请;Production事件日志来自某生产车间2012年1月到3月部分产品的生产流程数据。八个事件日志的统计属性如表1所示。
表1八个事件日志的统计属性
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,采用基于时间增量抽取的方法划分成训练集和测试集,将事件日志按照时间顺序均分为5个部分,每一部分均分为5组并选用第一组进行组合作为测试集,其余作为训练集,划分结果用于预测模型的训练和测试。
2)采用LightGBM算法作为特征自选取策略的依托模型,选取重要属性作为预测模型的输入特征:
2.1)采用LightGBM算法作为特征自选取策略的依托模型,从步骤1)得到的训练集中选取不同属性作为输入特征,训练决策树模型,该模型可根据信息增益得到特征的重要性值集合,记为IVLGBM,为特征选取过程提供了初始参考指标,决策树模型的预测效果评估采用步骤1)的测试集和MAE指标,计算真实值与预测值的平均绝对误差,计算公式如下:
IVMAEj=EMAE_L-[E-j]MAE_L
式中,E为所选特征集合,EMAE_L为以E集合中的特征作为训练集训练LightGBM 预测模型得到的MAE值,[E-j]为E除去第j个特征后的集合,所有特征重要值的集合记为IVMAE;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,有效提高了算法的训练速度同时保证了算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,详细步骤如下:
Step1:将所有属性都作为输入特征,其中活动设置为最高优先级,其它特征的优先级设为0,采用LightGBM训练决策树模型,得到IVLGBM,计算决策树模型在测试集上的MAE值,根据MAE计算各特征的重要性值;
Step2:删除优先级最低的特征中重要性值最低的特征;
Step3:使用删除特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,得到IVMAE,若评估结果相较上一轮有所提升则永久删除此特征,迭代执行Step2;若评估结果相较上一轮有所下降则撤回此轮删除的特征,增加该特征优先级,若所有特征优先级数均增加则执行Step4,否则迭代执行Step2;
Step4:返回预测结果最佳的特征组合和各特征的重要性值(即特征重要值集合IVMAE);
在本步骤中,基于优先级的后向特征删除策略具体流程如图2所示。
2.3)由于步骤2.2)谨慎的特征删除操作导致选取出的特征数量过多,采用基于特征重要性值的前向特征选择策略,以达到在所选特征数尽可能少的情况下,保证预测的准确率,详细步骤如下:
Step1:根据步骤2.2)得到的特征重要性值集合IVMAE,选重要性值最大的特征添加至已选特征,活动为初始的已选特征,若待选特征数为0则执行Step3;
Step2:使用添加特征后的训练集重新训练预测模型,计算预测模型在测试集上的MAE值,若MAE值下降则删除该特征,继续迭代执行Step1;
Step3:返回预测结果最佳的特征组合和MAE值。
在本步骤中,以Helpdesk事件日志为例,特征自选取过程如表2所示,在此过程中计算出的特征重要性值如图3所示。
3)将步骤2)中选取的重要特征采用合适的编码方式进行编码,特征包含活动特征、其它类别特征和数值特征:
a、活动特征结合CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,以得到活动的特征编码,所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它类别特征难以判断每种特征的上下文关系,通过随机初始化向量编码的方式,若特征值的类别小于5则采用基于索引的编码方式,并将编码后的特征更新到训练集和测试集中,所述基于索引的编码是将离散属性基于下标索引进行简单顺序编码;
c、数值特征进行归一化或标准化操作。
表2 Helpdesk特征组合预测结果
4)确定模型基本单元结构,根据不同的事件日志选取轨迹前缀:
4.1)采用LSTM神经网络构建可解释分层业务流程剩余时间的可解释分层模型作为预测模型,所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹是指案例从执行到结束的事件序列;
4.2)LSTM神经网络构建的预测模型采用变长轨迹前缀作为输入,变长轨迹前缀有两种生成方式,对于大规模事件日志,采用整条轨迹作为输入的方法,例如输入事件序列长为n的一条轨迹,输出对应长为n的剩余时间序列;小规模事件日志采用切分轨迹划分轨迹前缀的方法,例如事件序列长为n的一条轨迹,输入包含[e1],[e1,e2],...,[e1,e2,...,en]共n条轨迹前缀,输出则分别对应n个剩余时间,将划分好的轨迹前缀更新至训练集和测试集中,其中en指的是轨迹前缀的第n个事件,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息。
5)构建、训练和调试可解释分层模型:
5.1)依据步骤2)中选取的重要特征数为模型的层数,步骤3)确定的编码长度为每层输入的维数,和步骤4)所选的LSTM神经网络,构建初步的可解释分层模型;
在本步骤中,以所选特征按重要性值排序为活动、执行时间和资源为例,可解释分层输入的模型结构如图4所示。
5.2)训练过程中不断调整超参数和模型结构使之在步骤4)更新后的测试集上达到最优预测效果,得到训练好的可解释分层模型作为预测模型。
在本步骤中,程序采用Python语言,在Python3.7环境中实现,模型采用 pytorch框架搭建,根据经验值设置网络结构和超参数,然后在训练过程中不断调试找到较合适的结构和参数设置。
6)评估特征自选取策略的有效性和可解释分层模型预测结果及其可视化呈现:
6.1)测试采用不同特征组合所训练的决策树模型在测试集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括全部特征、活动特征、步骤 2.2)所选特征和步骤2.3)所选特征;
在本步骤中,特征自选取策略在八个事件日志上的测试结果如表3所示。
表3选取不同特征在剩余时间预测任务的表现对比
6.2)测试步骤5)训练好的预测模型与对照模型在测试集上的MAE值,以反映模型预测准确性的优劣,评估可解释分层模型预测结果的准确性;所述对照模型包括仅使用基于索引编码的活动特征作为输入的模型、仅使用步骤3)进行编码的活动特征作为输入的模型、使用步骤2)所选特征采用基于索引编码作为输入的模型;
在本步骤中,可解释分层模型与对照模型的测试结果如表4所示。
表4可解释分层模型与对照模型的测试结果对比
6.3)单独计算可解释分层模型的每一层预测结果在测试集上的MAE值,并以二维坐标图的形式展示每个轨迹前缀的真实剩余时间与逐层预测值的差值关系,解释每个特征对预测结果的影响方式和影响程度。
在本步骤中,以Helpdesk事件日志为例,可解释分层模型的逐层预测结果如图5所示,图6随机抽取了测试集中4个事件的预测结果,并可视化出了每层的预测值,其中y轴从下往上对应模型1到8层的特征名,蓝色竖线表示当前事件剩余时间的真实值,圆点表示每层的预测值。
实施例2
本实施例公开了一种基于可解释分层模型的业务流程剩余时间预测系统,如图7所示,包括日志处理模块、特征自选取模块、特征编码模块、模型单元与轨迹前缀选取模块、模型训练模块和评估与可视化模块。
所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,采用基于时间增量抽取的方法划分成训练集和测试集,将事件日志按照时间顺序均分为5个部分,每一部分均分为5组并选用第一组进行组合作为测试集,其余作为训练集,划分结果用于预测模型的训练和测试。
所述自选取模块模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的依托模型,选取训练集中不同属性作为输入特征,训练决策树模型,该模型可根据信息增益得到特征的重要性值集合,记为IVLGBM,为特征选取过程提供了初始参考指标,决策树模型的预测效果评估采用测试集和MAE指标,计算真实值与预测值的平均绝对误差,计算公式如下:
IVMAEj=EMAE_L-[E-j]MAE_L
式中,E为所选特征集合,EMAE_L为以E集合中的特征作为训练集训练LightGBM 预测模型得到的MAE值,[E-j]为E除去第j个特征后的集合,所有特征重要值的集合记为IVMAE;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,有效提高了算法的训练速度同时保证了算法的预测精度;
基于优先级的后向特征删除策略,用于筛除对预测任务具有消极影响的特征,首先所有属性都作为输入特征,其中活动设置为最高优先级,其它特征的优先级设为0,采用LightGBM训练决策树模型,得到IVLGBM,计算决策树模型在测试集上的MAE值,根据MAE计算各特征的重要性值,然后删除优先级最低的特征中重要性值最低的特征,随后将删除特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,得到IVMAE,若评估结果相较上一轮有所提升则永久删除此特征,继续迭代删除特征,若评估结果相较上一轮有所下降则撤回此轮删除的特征,增加该特征优先级,若所有特征优先级数均增加则返回预测结果最佳的特征组合和各特征的重要性值IVMAE,继续迭代删除特征;
由于谨慎的特征删除操作导致选取出的特征数量过多,采用基于特征重要性值的前向特征选择策略,以达到在所选特征数尽可能少的情况下,保证预测的准确率,首先根据得到的特征重要性值集合IVMAE,选重要性值最大的特征添加至已选特征,活动为初始的已选特征,若待选特征数为0则返回预测结果最佳的特征组合和MAE值,否则将添加特征后的训练集重新训练预测模型,计算预测模型在测试集上的MAE值,若MAE值下降则删除该特征,继续迭代添加特征。
所述特征编码模块具体执行如下操作:
a、活动特征结合CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,以得到活动的特征编码,所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它类别特征难以判断每种特征的上下文关系,通过随机初始化向量编码的方式,若特征值的类别小于5则采用基于索引的编码方式,并将编码后的特征更新到训练集和测试集中,所述基于索引的编码是将离散属性基于下标索引进行简单顺序编码;
c、数值特征进行归一化或标准化操作。
所述模型单元与轨迹前缀选取模块具体执行如下操作:
采用LSTM神经网络构建可解释分层业务流程剩余时间的可解释分层模型作为预测模型,所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹是指案例从执行到结束的事件序列;
LSTM神经网络构建的预测模型采用变长轨迹前缀作为输入,变长轨迹前缀有两种生成方式,对于大规模事件日志,采用整条轨迹作为输入的方法,例如输入事件序列长为n的一条轨迹,输出对应长为n的剩余时间序列;小规模事件日志采用切分轨迹划分轨迹前缀的方法,例如事件序列长为n的一条轨迹,输入包含[e1],[e1,e2],...,[e1,e2,...,en]共n条轨迹前缀,输出则分别对应n个剩余时间,将划分好的轨迹前缀更新至训练集和测试集中,其中en指的是轨迹前缀的第n个事件,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息。
所述模型训练模块具体执行如下操作:
依据选取的重要特征数为模型的层数,编码长度为每层输入的维数,并以 LSTM神经网络构建初步的可解释分层模型,在训练过程中不断调整超参数和模型结构使之在测试集上达到最优预测效果,得到训练好的可解释分层模型作为预测模型。
所述评估与可视化模块具体执行如下操作:
测试采用不同特征组合所训练的决策树模型在测试集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括全部特征、活动特征、两步特征自选取策略所选特征;
测试可解释分层模型与对照模型在测试集上的MAE值,以反映模型预测准确性的优劣,评估可解释分层模型预测结果的准确性;所述对照模型包括仅使用基于索引编码的活动特征作为输入的模型、仅使用特征编码模块进行编码的活动特征作为输入的模型、使用特征自选取模块所选特征采用基于索引编码作为输入的模型;
单独计算可解释分层模型的每一层预测结果在测试集上的MAE值,并以二维坐标图的形式展示每个轨迹前缀的真实剩余时间与逐层预测值的差值关系,解释每个特征对预测结果的影响方式和影响程度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,包括以下步骤:
1)日志获取和预处理:
获取真实业务流程日志,分析日志,删除无关属性列,扩展时间属性,计算预测目标值,将每个日志划分为训练集和测试集;
2)特征自选取:
采用LightGBM算法作为特征自选取策略的依托模型,通过基于优先级的后向特征删除和基于特征重要性值的前向特征选择策略对步骤1)预处理后的日志进行特征选取,得到重要特征;
3)特征编码:
将步骤2)获得的重要特征分别进行编码,并更新至训练集和测试集中,使编码后的值能区分并代表该特征;
4)确定模型基本单元结构,选取轨迹前缀:
根据日志特点选取LSTM神经网络作为模型基本单元,并针对不同的日志选取不同轨迹前缀划分方法;
5)构建、训练和调试可解释分层模型:
采用步骤2)选取的重要特征和步骤4)选取的基本单元构建可解释分层模型作为预测模型,并利用训练集训练预测模型,调试超参数直至达到最优预测效果;
6)可解释分层模型预测结果的评估和可视化呈现:
评估步骤2)、3)、5)对剩余时间预测任务的有效性,将可解释分层模型的每层预测结果进行可视化呈现,解释各特征对剩余时间预测结果的影响方式和影响程度。
2.根据权利要求1所述的基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,所述步骤1)包括以下步骤:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,采用基于时间增量抽取的方法划分成训练集和测试集,将事件日志按照时间顺序均分为5个部分,每一部分均分为5组并选用第一组进行组合作为测试集,其余作为训练集,划分结果用于预测模型的训练和测试。
3.根据权利要求1所述的基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,在步骤2)中,采用LightGBM算法作为特征自选取策略的依托模型,选取重要属性作为预测模型的输入特征,具体包括以下步骤:
2.1)采用LightGBM算法作为特征自选取策略的依托模型,从步骤1)得到的训练集中选取不同属性作为输入特征,训练决策树模型,该模型能够根据信息增益得到特征的重要性值集合,记为IVLGBM,为特征选取过程提供了初始参考指标,决策树模型的预测效果评估采用步骤1)的测试集和MAE指标,计算真实值与预测值的平均绝对误差,计算公式如下:
IVMAEj=EMAE_L-[E-j]MAE_L
式中,E为所选特征集合,EMAE_L为以E集合中的特征作为训练集训练预测模型得到的MAE值,[E-j]为E除去第j个特征后的集合,所有特征重要值的集合记为IVMAE;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,有效提高了算法的训练速度同时保证了算法的预测精度;
2.2)基于优先级的后向特征删除策略,用于筛除对预测任务具有消极影响的特征,详细步骤如下:
Step 1:将所有属性都作为输入特征,其中活动设置为最高优先级,其它特征的优先级设为0,采用LightGBM训练决策树模型,得到IVLGBM,计算决策树模型在测试集上的MAE值,根据MAE计算各特征的重要性值;
Step 2:删除优先级最低的特征中重要性值最低的特征;
Step 3:使用删除特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,得到IVMAE,若评估结果相较上一轮有所提升则永久删除此特征,迭代执行Step 2;若评估结果相较上一轮有所下降则撤回此轮删除的特征,增加该特征优先级,若所有特征优先级数均增加则执行Step 4,否则迭代执行Step 2;
Step 4:返回预测结果最佳的特征组合和各特征的重要性值即特征重要值集合IVMAE;
2.3)采用基于特征重要性值的前向特征选择策略,以达到在所选特征数尽可能少的情况下,保证预测的准确率,详细步骤如下:
Step 1:根据步骤2.2)得到的特征重要性值集合IVMAE,选重要性值最大的特征添加至已选特征,活动为初始的已选特征,若待选特征数为0,则执行Step3;
Step 2:使用添加特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,若MAE值下降则删除该特征,继续迭代执行Step 1;
Step 3:返回预测结果最佳的特征组合和MAE值。
4.根据权利要求1所述的基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,在步骤3)中,将步骤2)中选取的重要特征采用合适的编码方式进行编码,特征包含活动特征、其它类别特征和数值特征,具体如下:
a、活动特征结合CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,以得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它类别特征难以判断每种特征的上下文关系,通过随机初始化向量编码的方式,若特征值的类别小于5则采用基于索引的编码方式,并将编码后的特征更新到训练集和测试集中,其中所述基于索引的编码是将离散属性基于下标索引进行简单顺序编码;
c、数值特征进行归一化或标准化操作。
5.根据权利要求1所述的基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,在步骤4)中,确定模型基本单元结构,根据不同的事件日志选取轨迹前缀,包括如下步骤:
4.1)采用LSTM神经网络构建可解释分层业务流程剩余时间的可解释分层模型作为预测模型,所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹是指案例从执行到结束的事件序列;
4.2)LSTM神经网络构建的预测模型采用变长轨迹前缀作为输入,变长轨迹前缀有两种生成方式,对于大规模事件日志,采用整条轨迹作为输入的方法,具体是输入事件序列长为n的一条轨迹,输出对应长为n的剩余时间序列;小规模事件日志采用切分轨迹划分轨迹前缀的方法,具体是事件序列长为n的一条轨迹,输入包含[e1],[e1,e2],...,[e1,e2,...,en]共n条轨迹前缀,输出则分别对应n个剩余时间,将划分好的轨迹前缀更新至训练集和测试集中,其中en指的是轨迹前缀的第n个事件,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息。
6.根据权利要求1所述的基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,在步骤5)中,构建、训练和调试可解释分层模型,具体步骤如下所示:
5.1)依据步骤2)中选取的重要特征数为模型的层数,步骤3)确定的编码长度为每层输入的维数,和步骤4)所选的LSTM神经网络,构建初步的可解释分层模型;
5.2)训练过程中不断调整超参数和模型结构使之在步骤4)更新后的测试集上达到最优预测效果,得到训练好的可解释分层模型作为预测模型。
7.根据权利要求3所述的基于可解释分层模型的业务流程剩余时间预测方法,其特征在于,在步骤6)中,评估特征自选取策略的有效性和可解释分层模型预测结果及其可视化呈现,具体步骤如下所示:
6.1)测试采用不同特征组合所训练的决策树模型在测试集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括全部特征、活动特征、步骤2.2)所选特征和步骤2.3)所选特征;
6.2)测试步骤5)训练好的预测模型与对照模型在测试集上的MAE值,以反映模型预测准确性的优劣,评估可解释分层模型预测结果的准确性;其中,所述对照模型包括仅使用基于索引编码的活动特征作为输入的模型、仅使用步骤3)进行编码的活动特征作为输入的模型、使用步骤2)所选特征采用基于索引编码作为输入的模型;
6.3)单独计算可解释分层模型的每一层预测结果在测试集上的MAE值,并以二维坐标图的形式展示每个轨迹前缀的真实剩余时间与逐层预测值的差值关系,解释每个特征对预测结果的影响方式和影响程度。
8.基于可解释分层模型的业务流程剩余时间预测系统,其特征在于,包括日志处理模块、特征自选取模块、特征编码模块、模型单元与轨迹前缀选取模块、模型训练模块和评估与可视化模块;
所述日志处理模块用于日志分析和预处理,划分训练集和测试集;
所述特征自选取模块用于根据自选取策略选取日志的重要属性作为预测模型的输入特征;
所述特征编码模块用于选取的重要特征采用合适的编码方式进行编码;
所述模型单元与轨迹前缀选取模块用于确定模型基础单元,选取轨迹前缀;
所述模型训练模块用于构建、训练和调试可解释分层模型;
所述评估与可视化模块用于评估特征自选取策略与可解释分层模型的优劣,可视化可解释分层模型的每层预测结果。
9.根据权利要求8所述的可解释分层的业务流程剩余时间预测系统,其特征在于,所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,采用基于时间增量抽取的方法划分成训练集和测试集,将事件日志按照时间顺序均分为5个部分,每一部分均分为5组并选用第一组进行组合作为测试集,其余作为训练集,划分结果用于预测模型的训练和测试;
所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的依托模型,选取训练集中不同属性作为输入特征,训练决策树模型,该模型能够根据信息增益得到特征的重要性值集合,记为IVLGBM,为特征选取过程提供了初始参考指标,决策树模型的预测效果评估采用测试集和MAE指标,计算真实值与预测值的平均绝对误差,计算公式如下:
IVMAEj=EMAE_L-[E-j]MAE_L
式中,E为所选特征集合,EMAE_L为以E集合中的特征作为训练集训练LightGBM预测模型得到的MAE值,[E-j]为E除去第j个特征后的集合,所有特征重要值的集合记为IVMAE;所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,有效提高了算法的训练速度同时保证了算法的预测精度;
基于优先级的后向特征删除策略,用于筛除对预测任务具有消极影响的特征,首先所有属性都作为输入特征,其中活动设置为最高优先级,其它特征的优先级设为0,采用LightGBM训练决策树模型,得到IVLGBM,计算决策树模型在测试集上的MAE值,根据MAE计算各特征的重要性值,然后删除优先级最低的特征中重要性值最低的特征,随后将删除特征后的训练集重新训练决策树模型,计算决策树模型在测试集上的MAE值,得到IVMAE,若评估结果相较上一轮有所提升则永久删除此特征,继续迭代删除特征,若评估结果相较上一轮有所下降则撤回此轮删除的特征,增加该特征优先级,若所有特征优先级数均增加则返回预测结果最佳的特征组合和各特征的重要性值IVMAE,继续迭代删除特征;
采用基于特征重要性值的前向特征选择策略,以达到在所选特征数尽可能少的情况下,保证预测的准确率,首先根据得到的特征重要性值集合IVMAE,选重要性值最大的特征添加至已选特征,活动为初始的已选特征,若待选特征数为0,则返回预测结果最佳的特征组合和MAE值,否则将添加特征后的训练集重新训练预测模型,计算预测模型在测试集上的MAE值,若MAE值下降则删除该特征,继续迭代添加特征。
10.根据权利要求8所述的可解释分层的业务流程剩余时间预测系统,其特征在于,所述特征编码模块具体执行如下操作:
a、活动特征结合CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,以得到活动的特征编码,所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它类别特征难以判断每种特征的上下文关系,通过随机初始化向量编码的方式,若特征值的类别小于5则采用基于索引的编码方式,并将编码后的特征更新到训练集和测试集中,所述基于索引的编码是将离散属性基于下标索引进行简单顺序编码;
c、数值特征进行归一化或标准化操作;
所述模型单元与轨迹前缀选取模块具体执行如下操作:
采用LSTM神经网络构建可解释分层业务流程剩余时间的可解释分层模型作为预测模型,所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹是指案例从执行到结束的事件序列;
LSTM神经网络构建的预测模型采用变长轨迹前缀作为输入,变长轨迹前缀有两种生成方式,对于大规模事件日志,采用整条轨迹作为输入的方法,具体是输入事件序列长为n的一条轨迹,输出对应长为n的剩余时间序列;小规模事件日志采用切分轨迹划分轨迹前缀的方法,具体是事件序列长为n的一条轨迹,输入包含[e1],[e1,e2],...,[e1,e2,...,en]共n条轨迹前缀,输出则分别对应n个剩余时间,将划分好的轨迹前缀更新至训练集和测试集中,其中en指的是轨迹前缀的第n个事件,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;
所述模型训练模块具体执行如下操作:
依据选取的重要特征数为模型的层数,编码长度为每层输入的维数,并以LSTM神经网络构建初步的可解释分层模型,在训练过程中不断调整超参数和模型结构使之在测试集上达到最优预测效果,得到训练好的可解释分层模型作为预测模型;
所述评估与可视化模块具体执行如下操作:
测试采用不同特征组合所训练的决策树模型在测试集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括全部特征、活动特征、两步特征自选取策略所选特征;
测试可解释分层模型与对照模型在测试集上的MAE值,以反映模型预测准确性的优劣,评估可解释分层模型预测结果的准确性;其中,所述对照模型包括仅使用基于索引编码的活动特征作为输入的模型、仅使用特征编码模块进行编码的活动特征作为输入的模型、使用特征自选取模块所选特征采用基于索引编码作为输入的模型;
单独计算可解释分层模型的每一层预测结果在测试集上的MAE值,并以二维坐标图的形式展示每个轨迹前缀的真实剩余时间与逐层预测值的差值关系,解释每个特征对预测结果的影响方式和影响程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210433390.6A CN114662793B (zh) | 2022-04-24 | 2022-04-24 | 基于可解释分层模型的业务流程剩余时间预测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210433390.6A CN114662793B (zh) | 2022-04-24 | 2022-04-24 | 基于可解释分层模型的业务流程剩余时间预测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114662793A true CN114662793A (zh) | 2022-06-24 |
CN114662793B CN114662793B (zh) | 2024-08-23 |
Family
ID=82037096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210433390.6A Active CN114662793B (zh) | 2022-04-24 | 2022-04-24 | 基于可解释分层模型的业务流程剩余时间预测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662793B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238583A (zh) * | 2022-07-27 | 2022-10-25 | 山东理工大学 | 一种支持增量日志的业务流程剩余时间预测方法与系统 |
CN115859768A (zh) * | 2022-10-12 | 2023-03-28 | 武汉理工大学 | 一种动态装配作业车间工件完工时间预测方法及装置 |
WO2024161559A1 (ja) * | 2023-02-01 | 2024-08-08 | 日本電信電話株式会社 | 予測的プロセス監視装置、予測的プロセス監視方法及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178623A (zh) * | 2019-12-26 | 2020-05-19 | 杭州电子科技大学 | 一种基于多层机器学习的业务流程剩余时间预测方法 |
US20210125207A1 (en) * | 2019-10-29 | 2021-04-29 | Somnath Banerjee | Multi-layered market forecast framework for hotel revenue management by continuously learning market dynamics |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、系统、存储介质及计算设备 |
CN113344254A (zh) * | 2021-05-20 | 2021-09-03 | 山西省交通新技术发展有限公司 | 一种基于LSTM-LightGBM-KNN的高速公路服务区车流预测方法 |
CN114035468A (zh) * | 2021-11-08 | 2022-02-11 | 山东理工大学 | 基于XGBoost算法的风机检修流程预测性监控方法与系统 |
CN114358445A (zh) * | 2022-03-21 | 2022-04-15 | 山东建筑大学 | 一种业务流程剩余时间预测模型推荐方法及系统 |
-
2022
- 2022-04-24 CN CN202210433390.6A patent/CN114662793B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210125207A1 (en) * | 2019-10-29 | 2021-04-29 | Somnath Banerjee | Multi-layered market forecast framework for hotel revenue management by continuously learning market dynamics |
CN111178623A (zh) * | 2019-12-26 | 2020-05-19 | 杭州电子科技大学 | 一种基于多层机器学习的业务流程剩余时间预测方法 |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、系统、存储介质及计算设备 |
CN113344254A (zh) * | 2021-05-20 | 2021-09-03 | 山西省交通新技术发展有限公司 | 一种基于LSTM-LightGBM-KNN的高速公路服务区车流预测方法 |
CN114035468A (zh) * | 2021-11-08 | 2022-02-11 | 山东理工大学 | 基于XGBoost算法的风机检修流程预测性监控方法与系统 |
CN114358445A (zh) * | 2022-03-21 | 2022-04-15 | 山东建筑大学 | 一种业务流程剩余时间预测模型推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘彤;倪维健;孙宇健;曾庆田;: "基于深度迁移学习的业务流程实例剩余执行时间预测方法", 数据分析与知识发现, no. 1, 25 March 2020 (2020-03-25) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238583A (zh) * | 2022-07-27 | 2022-10-25 | 山东理工大学 | 一种支持增量日志的业务流程剩余时间预测方法与系统 |
CN115238583B (zh) * | 2022-07-27 | 2024-02-13 | 山东理工大学 | 一种支持增量日志的业务流程剩余时间预测方法与系统 |
CN115859768A (zh) * | 2022-10-12 | 2023-03-28 | 武汉理工大学 | 一种动态装配作业车间工件完工时间预测方法及装置 |
CN115859768B (zh) * | 2022-10-12 | 2023-05-02 | 武汉理工大学 | 一种动态装配作业车间工件完工时间预测方法及装置 |
WO2024161559A1 (ja) * | 2023-02-01 | 2024-08-08 | 日本電信電話株式会社 | 予測的プロセス監視装置、予測的プロセス監視方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN114662793B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
CN107193876B (zh) | 一种基于最近邻knn算法的缺失数据填补方法 | |
CN114662793A (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与系统 | |
CN107451747B (zh) | 基于自适应非支配遗传算法的车间调度系统及其工作方法 | |
US11841839B1 (en) | Preprocessing and imputing method for structural data | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
CN114035468A (zh) | 基于XGBoost算法的风机检修流程预测性监控方法与系统 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN114970926A (zh) | 一种模型训练方法、企业经营风险预测方法和装置 | |
US20200050982A1 (en) | Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、系统、设备及存储介质 | |
CN116883065A (zh) | 商户风险预测方法及装置 | |
CN114548494A (zh) | 一种可视化造价数据预测智能分析系统 | |
CN114818353A (zh) | 一种基于故障特征关系图谱的列控车载设备故障预测方法 | |
CN112700065B (zh) | 基于深度学习的业务流程完成时间区间预测方法和系统 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN115238583B (zh) | 一种支持增量日志的业务流程剩余时间预测方法与系统 | |
CN116737681A (zh) | 一种实时异常日志检测方法、装置、计算机设备和存储介质 | |
CN113835964B (zh) | 基于小样本学习的云数据中心服务器能耗预测方法 | |
CN118538036B (zh) | 一种基于深度学习方法的交通流短期预测方法及设备 | |
Salhi et al. | Data Preprocessing Using AutoML: A Survey | |
Menon | Time Series Analysis in SAP Predictive Analytics | |
US20240346400A1 (en) | Method and system for workforce elasticity indexing | |
CN109726468B (zh) | 农作物模拟仿真平台的实现方法 | |
Yin | Check for updates Research on the design and implementation of economic data analysis system based on big data background |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |