CN115238583B - 一种支持增量日志的业务流程剩余时间预测方法与系统 - Google Patents

一种支持增量日志的业务流程剩余时间预测方法与系统 Download PDF

Info

Publication number
CN115238583B
CN115238583B CN202210896046.0A CN202210896046A CN115238583B CN 115238583 B CN115238583 B CN 115238583B CN 202210896046 A CN202210896046 A CN 202210896046A CN 115238583 B CN115238583 B CN 115238583B
Authority
CN
China
Prior art keywords
feature
updating
features
prediction
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210896046.0A
Other languages
English (en)
Other versions
CN115238583A (zh
Inventor
刘聪
郭娜
李彩虹
陆婷
张冬梅
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Technology
Original Assignee
Shandong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Technology filed Critical Shandong University of Technology
Priority to CN202210896046.0A priority Critical patent/CN115238583B/zh
Publication of CN115238583A publication Critical patent/CN115238583A/zh
Application granted granted Critical
Publication of CN115238583B publication Critical patent/CN115238583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种支持增量日志的业务流程剩余时间预测方法与系统,包括步骤:1)日志获取和预处理;2)特征自选取;3)特征编码;4)构建、训练多特征预测模型;5)建立支持增量日志的预测模型更新机制;6)增量更新机制的有效性评估。本发明为业务流程剩余时间预测任务提供一种通用的特征自选取策略,构建了多特征输入的预测模型,丰富了预测任务的已知信息;设计了三种增量更新机制,持续更新预测模型以适应业务的动态变化过程,提高了业务流程剩余时间预测的准确率。

Description

一种支持增量日志的业务流程剩余时间预测方法与系统
技术领域
本发明涉及业务流程挖掘的技术领域,尤其是指一种支持增量日志的业务流程剩余时间预测方法与系统。
背景技术
流程挖掘是一系列可以从历史事件数据中提取有价值信息的技术,能够帮助企业提高生产效率和产品质量,增强企业的竞争力。随着企业数字化转型和智能化发展,企业信息系统中的事件数据都得到了高质量的储存,促进了该领域的研究进展。经典的流程挖掘技术是指从现有事件日志中挖掘知识以发现、监控和改进实际流程。这些方法主要是通过历史数据分析业务流程,但在业务执行过程中,对流程未来执行情况的了解更有利于风险的提前掌握、早期预备和有效防范。因此,预测性监控是当前流程挖掘领域中的一个研究热点。
流程预测性监控中常见的预测任务包括剩余时间预测、结果预测、下一事件预测、下一事件执行时间预测、后缀预测以及其他属性预测等。其中剩余时间预测可以根据对实例未来执行时间的判断,调整后续的执行步骤和时间,避免超时而带来的风险。然而,业务的执行是一个动态变化的过程,在真实场景中,业务会根据外在和内在因素的影响而发生变化,例如淡季和旺季的交替、企业规模的发展、服务范围的变化、人员调动、设备更新以及各种突发状况。因此,在不同的时期,业务流程的执行时间和步骤可能存在差异,另外,同一时期的业务流程也可能随着企业的发展而发生变化。因此,丰富的有效特征选取和预测模型的增量更新方法,是业务流程剩余时间预测中亟需解决的问题。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种支持增量日志的业务流程剩余时间预测方法,该方法为业务流程剩余时间预测任务提供一种通用的特征自选取策略,构建了多特征预测模型,建立了支持增量日志的预测模型更新机制并模拟了增量更新过程。
本发明的第二目的在于提供一种支持增量日志的业务流程剩余时间预测系统。
本发明的第一目的通过下述技术方案实现:一种支持增量日志的业务流程剩余时间预测方法,包括以下步骤:
1)日志获取和预处理:
获取、分析真实业务流程的事件日志,删除无关、相似属性,扩展时间属性,计算预测目标值,以年为单位将日志划分数据集;
2)特征自选取:
采用LightGBM算法作为特征自选取策略的预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对步骤1)预处理后的日志进行特征选取,得到重要特征;
3)特征编码:
将步骤2)中获得的重要特征编码,并更新至数据集中,使得编码后的值能区分并代表该特征;
4)构建、训练多特征预测模型:
将步骤3)编码后的重要特征作为输入,采用LSTM和Transformer神经网络作为模型基本单元分别构建多特征预测模型,并进行训练;
5)建立支持增量日志的预测模型更新机制:
设计定期更新、定量更新和综合更新三种支持增量日志的增量更新机制,更新步骤4)构建的多特征预测模型;
6)增量更新机制的有效性评估:
评估步骤2)、5)对剩余时间预测任务的有效性,模拟业务流程的执行情况,评估每次更新后的预测结果,整合所有结果得到一个最终预测误差值。
进一步,所述步骤1)包括以下步骤:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
进一步,在步骤2)中,设计特征自选取策略,自动选取重要属性作为预测模型的输入特征,包括以下步骤:
2.1)采用LightGBM算法作为特征自选取策略的预测模型,从步骤1)得到的历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
式中,n为数据集的总数量,yi为第i条数据的真实值,为第i条数据的预测值;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
2.3)基于增量特征树的前向特征选择策略,根据步骤2.2)得到的F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
进一步,在步骤3)中,将步骤2)中选取的重要特征采用对应的编码方式进行编码,所述重要特征包括活动特征、其它分类特征和数值特征,它们的编码方式具体如下:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
进一步,在步骤4)中,构建、训练多特征预测模型,包括以下步骤:
4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
4.2)将步骤2)中选取的重要特征经过步骤3)编码,作为多特征预测模型的输入,采用步骤1.3)划分的历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
进一步,在步骤5)中,通过增量更新机制训练和更新模型,包括以下步骤:
5.1)根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
5.2)多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到步骤5.1)中的增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
进一步,在步骤6)中,评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性,包括以下步骤:
6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
6.2)通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用步骤4)中的多特征预测模型和步骤5)的三种增量更新机制,将步骤1.3)划分的新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
本发明的第二目的通过下述技术方案实现:一种支持增量日志的业务流程剩余时间预测系统,包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块;
所述日志处理模块用于分析和预处理日志,划分数据集;
所述特征自选取模块采用LightGBM算法作为预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对日志处理模块预处理后的日志进行特征选取,得到重要特征;
所述特征编码模块用于编码所选取的重要特征,包括活动特征、其它分类特征和数值特征;
所述模型构建与训练模块用于构建和训练多特征预测模型;
所述模型增量更新模块采用定期更新、定量更新和综合更新三种支持增量日志的增量更新机制更新多特征预测模型;
所述评估模块用于评估特征自选取策略、多特征预测模型结构和三种增量更新机制的优劣。
进一步,所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
进一步,所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的预测模型,从历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
式中,n为数据集的总数量,yi为第i条数据的真实值,为第i条数据的预测值;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
基于增量特征树的前向特征选择策略,根据F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率;
所述特征编码模块具体执行如下操作:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作;
所述模型构建与训练模块具体执行如下操作:
采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
将所选重要特征经过编码后的向量进行拼接,作为多特征预测模型的输入,采用历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构;
所述模型增量更新模块具体执行如下操作:
根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集;
所述评估模块具体执行如下操作:
测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用多特征预测模型和三种增量更新机制,将新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了针对业务流程剩余时间预测构建的多特征预测模型。
2、本发明首次实现了定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制。
3、本发明首次实现了模拟日志增量的模型更新与评估方法。
4、本发明提出了业务流程剩余时间预测中特征的自选取方法,自动选取对预测结果有重要影响的特征作为输入。
5、本发明通过对业务流程剩余时间的预测,确保业务在需要的时间内完成办理,若出现延期情况可及时采取措施,不影响后续进度。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明Helpdesk特征重要性值图,其中x轴Importance value表示重要性值,y轴Feature Name表示特征属性,allDuration、seriousness_2、Variant index、week、product、service_type、duration、support_section、seriousness、day、responsible_section、Resource、workgroup、hour、month、service_level、customer表示所展示的特征名。
图3为本发明Helpdesk的增量选择树图,其中每个树节点的左边数值表示某特征的索引,右边数值为包含自己和所有父节点特征组合所得预测结果的MAE值,索引所对应的特征为:[0:Activity,13:allDuration,7:seriousness_2,2:Variant index,16:week,5:product,9:service_type,12:duration,10:support_section]。
图4为本发明的多特征预测模型结构图。
图5为本发明的综合更新机制模拟流程图。
图6为本发明的系统架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例公开了一种支持增量日志的业务流程剩余时间预测方法,包括以下步骤:
1)获取、分析和预处理事件日志,并划分为历史训练集和新实例数据集:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
在本步骤中,获取了六个来自4TU Center for Research的公开事件日志数据集,BPIC2015来自2015年BPI挑战赛,包含五个事件日志,分别由五个荷兰市政府提供,数据包含大约四年期间所有建筑许可证申请;Helpdesk事件日志涉及一家意大利软件公司帮助台的票务管理流程。事件日志的统计属性如表1所示。
表1六个事件日志的统计属性
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
2)设计特征自选取策略,自动选取重要属性作为预测模型的输入特征:
2.1)采用LightGBM算法作为特征自选取策略的预测模型,从步骤1)得到的历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
式中,n为数据集的总数量,yi为第i条数据的真实值,为第i条数据的预测值;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差。若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
在本步骤中,以Helpdesk事件日志为例,基于优先级的后向特征删除策略计算出的特征重要性值如图2所示。
2.3)基于增量特征树的前向特征选择策略,根据步骤2.2)得到的F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空。按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序(即特征的重要性排序)前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
在本步骤中,以Helpdesk事件日志为例,基于增量特征树的前向特征选择策略构建的增量特征树如图3所示。
3)将步骤2)中选取的重要特征采用合适的编码方式进行编码,特征包含活动特征、其他类别特征和数值特征:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于5,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
4)构建、训练多特征预测模型:
4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于过长的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,可以提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
在本步骤中,以LSTM神经单元为例构建的多特征预测模型如图4所示。
4.2)将步骤2)中选取的重要特征经过步骤3)编码,作为多特征预测模型的输入,采用步骤1.3)划分的历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
在本步骤中,程序采用Python语言,在Python3.7环境中实现,模型采用pytorch框架搭建,根据经验值设置网络结构和超参数,然后在训练过程中不断调试找到较合适的结构和参数设置。
5)通过增量更新机制训练和更新模型:
5.1)根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,定期更新的每个周期内数据量有所差异,存在某一周期内数据量过少的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能过少的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式可以解决更新模型数据量过少的问题,若数据量过多,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
5.2)多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到步骤5.1)中的增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
6)评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性:
6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
在本步骤中,特征自选取策略在六个事件日志上的测试结果如表2所示。
表2选取不同特征在剩余时间预测任务的表现对比
6.2)通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用步骤4)中的两种多特征预测模型和步骤5)的三种增量更新机制,将步骤1.3)划分的新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
在本步骤中,综合更新机制模拟流程如图5所示,增量更新机制的评估结果如表3所示。
表3增量更新机制的评估结果对比
实施例2
本实施例公开了一种支持增量日志的业务流程剩余时间预测系统,如图6所示,包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块。
所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的预测模型,从历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
式中,n为数据集的总数量,yi为第i条数据的真实值,为第i条数据的预测值;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
基于增量特征树的前向特征选择策略,根据F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空。按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序(即特征的重要性排序)前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
所述特征编码模块具体执行如下操作:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于5,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
所述模型构建与训练模块具体执行如下操作:
采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于过长的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,可以提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
将所选重要特征经过编码后的向量进行拼接,作为多特征预测模型的输入,采用历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
所述模型增量更新模块具体执行如下操作:
根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制;
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,定期更新的每个周期内数据量有所差异,存在某一周期内数据量过少的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能过少的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式可以解决更新模型数据量过少的问题,若数据量过多,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制的更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
所述评估模块具体执行如下操作:
测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用两种多特征预测模型和三种增量更新机制,将新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更多特征新预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种支持增量日志的业务流程剩余时间预测方法,其特征在于,包括以下步骤:
1)日志获取和预处理:
获取、分析真实业务流程的事件日志,删除无关、相似属性,扩展时间属性,计算预测目标值,以年为单位将日志划分数据集;
2)特征自选取:
采用LightGBM算法作为特征自选取策略的预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对步骤1)预处理后的日志进行特征选取,得到重要特征;
3)特征编码:
将步骤2)中获得的重要特征编码,并更新至数据集中,使得编码后的值能区分并代表该特征;
4)构建、训练多特征预测模型:
将步骤3)编码后的重要特征作为输入,采用LSTM和Transformer神经网络作为模型基本单元分别构建多特征预测模型,并进行训练;
5)建立支持增量日志的预测模型更新机制:
设计定期更新、定量更新和综合更新三种支持增量日志的增量更新机制,更新步骤4)构建的多特征预测模型,具体如下:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
6)增量更新机制的有效性评估:
评估步骤2)、5)对剩余时间预测任务的有效性,模拟业务流程的执行情况,评估每次更新后的预测结果,整合所有结果得到一个最终预测误差值。
2.根据权利要求1所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,所述步骤1)包括以下步骤:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
3.根据权利要求2所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤2)中,设计特征自选取策略,自动选取重要属性作为预测模型的输入特征,包括以下步骤:
2.1)采用LightGBM算法作为特征自选取策略的预测模型,从步骤1)得到的历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
式中,n为数据集的总数量,yi为第i条数据的真实值,为第i条数据的预测值;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
2.3)基于增量特征树的前向特征选择策略,根据步骤2.2)得到的F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
4.根据权利要求3所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤3)中,将步骤2)中选取的重要特征采用对应的编码方式进行编码,所述重要特征包括活动特征、其它分类特征和数值特征,它们的编码方式具体如下:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
5.根据权利要求4所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤4)中,构建、训练多特征预测模型,包括以下步骤:
4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
4.2)将步骤2)中选取的重要特征经过步骤3)编码,作为多特征预测模型的输入,采用步骤1.3)划分的历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
6.根据权利要求5所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤5)中,多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
7.根据权利要求6所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤6)中,评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性,包括以下步骤:
6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
6.2)通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用步骤4)中的多特征预测模型和步骤5)的三种增量更新机制,将步骤1.3)划分的新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
8.一种支持增量日志的业务流程剩余时间预测系统,其特征在于,用于实现权利要求1-7任意一项所述的支持增量日志的业务流程剩余时间预测方法,包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块;
所述日志处理模块用于分析和预处理日志,划分数据集;
所述特征自选取模块采用LightGBM算法作为预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对日志处理模块预处理后的日志进行特征选取,得到重要特征;
所述特征编码模块用于编码所选取的重要特征,包括活动特征、其它分类特征和数值特征;
所述模型构建与训练模块用于构建和训练多特征预测模型;
所述模型增量更新模块采用定期更新、定量更新和综合更新三种支持增量日志的增量更新机制更新多特征预测模型;
所述评估模块用于评估特征自选取策略、多特征预测模型结构和三种增量更新机制的优劣。
9.根据权利要求8所述的一种支持增量日志的业务流程剩余时间预测系统,其特征在于:所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
10.根据权利要求9所述的一种支持增量日志的业务流程剩余时间预测系统,其特征在于,所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的预测模型,从历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
式中,n为数据集的总数量,yi为第i条数据的真实值,为第i条数据的预测值;
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
基于增量特征树的前向特征选择策略,根据F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率;
所述特征编码模块具体执行如下操作:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作;
所述模型构建与训练模块具体执行如下操作:
采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
将所选重要特征经过编码后的向量进行拼接,作为多特征预测模型的输入,采用历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构;
所述模型增量更新模块具体执行如下操作:
根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集;
所述评估模块具体执行如下操作:
测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用多特征预测模型和三种增量更新机制,将新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
CN202210896046.0A 2022-07-27 2022-07-27 一种支持增量日志的业务流程剩余时间预测方法与系统 Active CN115238583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210896046.0A CN115238583B (zh) 2022-07-27 2022-07-27 一种支持增量日志的业务流程剩余时间预测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210896046.0A CN115238583B (zh) 2022-07-27 2022-07-27 一种支持增量日志的业务流程剩余时间预测方法与系统

Publications (2)

Publication Number Publication Date
CN115238583A CN115238583A (zh) 2022-10-25
CN115238583B true CN115238583B (zh) 2024-02-13

Family

ID=83677105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210896046.0A Active CN115238583B (zh) 2022-07-27 2022-07-27 一种支持增量日志的业务流程剩余时间预测方法与系统

Country Status (1)

Country Link
CN (1) CN115238583B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495071B (zh) * 2023-12-29 2024-05-14 安徽思高智能科技有限公司 一种基于预测性日志增强的流程发现方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111216730A (zh) * 2020-01-15 2020-06-02 山东理工大学 电动汽车剩余续驶里程估算方法、装置、存储介质及设备
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及系统
CN112288157A (zh) * 2020-10-27 2021-01-29 华能酒泉风电有限责任公司 一种基于模糊聚类与深度强化学习的风电场功率预测方法
CN112700065A (zh) * 2021-01-14 2021-04-23 上海交通大学 基于深度学习的业务流程完成时间区间预测方法和系统
CN113159413A (zh) * 2021-04-19 2021-07-23 山东理工大学 业务流程剩余时间预测方法、系统、存储介质及计算设备
WO2021169577A1 (zh) * 2020-02-27 2021-09-02 山东大学 一种基于加权联邦学习的无线业务流量预测方法
CN113486571A (zh) * 2021-06-15 2021-10-08 浙江大学 一种机加工设备剩余使用寿命预测方法
CN114035468A (zh) * 2021-11-08 2022-02-11 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与系统
CN114358445A (zh) * 2022-03-21 2022-04-15 山东建筑大学 一种业务流程剩余时间预测模型推荐方法及系统
CN114358213A (zh) * 2022-03-08 2022-04-15 湖南大学 非线性时序数据预测的误差消融处理方法及系统与介质
CN114398825A (zh) * 2021-12-30 2022-04-26 燕山大学 预测面向复杂多变工况的切削刀具剩余寿命的方法
CN114491015A (zh) * 2021-12-17 2022-05-13 航天信息股份有限公司 一种文本分类模型增量训练与持续部署的方法和系统
CN114564868A (zh) * 2022-03-07 2022-05-31 中国海洋大学 一种锚链疲劳寿命预测方法
CN114662793A (zh) * 2022-04-24 2022-06-24 山东理工大学 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN114757432A (zh) * 2022-04-27 2022-07-15 浙江传媒学院 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002061679A2 (en) * 2001-01-31 2002-08-08 Prediction Dynamics Limited Neural network training
US10956632B2 (en) * 2018-12-27 2021-03-23 Utopus Insights, Inc. Scalable system and engine for forecasting wind turbine failure
US20220147672A1 (en) * 2019-05-17 2022-05-12 Tata Consultancy Services Limited Method and system for adaptive learning of models for manufacturing systems
EP3910571A1 (en) * 2020-05-13 2021-11-17 MasterCard International Incorporated Methods and systems for server failure prediction using server logs

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111216730A (zh) * 2020-01-15 2020-06-02 山东理工大学 电动汽车剩余续驶里程估算方法、装置、存储介质及设备
WO2021169577A1 (zh) * 2020-02-27 2021-09-02 山东大学 一种基于加权联邦学习的无线业务流量预测方法
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及系统
CN112288157A (zh) * 2020-10-27 2021-01-29 华能酒泉风电有限责任公司 一种基于模糊聚类与深度强化学习的风电场功率预测方法
CN112700065A (zh) * 2021-01-14 2021-04-23 上海交通大学 基于深度学习的业务流程完成时间区间预测方法和系统
CN113159413A (zh) * 2021-04-19 2021-07-23 山东理工大学 业务流程剩余时间预测方法、系统、存储介质及计算设备
CN113486571A (zh) * 2021-06-15 2021-10-08 浙江大学 一种机加工设备剩余使用寿命预测方法
CN114035468A (zh) * 2021-11-08 2022-02-11 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与系统
CN114491015A (zh) * 2021-12-17 2022-05-13 航天信息股份有限公司 一种文本分类模型增量训练与持续部署的方法和系统
CN114398825A (zh) * 2021-12-30 2022-04-26 燕山大学 预测面向复杂多变工况的切削刀具剩余寿命的方法
CN114564868A (zh) * 2022-03-07 2022-05-31 中国海洋大学 一种锚链疲劳寿命预测方法
CN114358213A (zh) * 2022-03-08 2022-04-15 湖南大学 非线性时序数据预测的误差消融处理方法及系统与介质
CN114358445A (zh) * 2022-03-21 2022-04-15 山东建筑大学 一种业务流程剩余时间预测模型推荐方法及系统
CN114662793A (zh) * 2022-04-24 2022-06-24 山东理工大学 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN114757432A (zh) * 2022-04-27 2022-07-15 浙江传媒学院 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于定性与定量检测的火工品剩余寿命预测方法;王耀冬;俞卫博;宣兆龙;李翰朋;;火工品(第05期);第38-40页 *
深度学习方法在业务流程进度预测中的应用;郑婷婷;现代计算机;第48-51页 *

Also Published As

Publication number Publication date
CN115238583A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN111124840B (zh) 业务运维中告警的预测方法、装置与电子设备
CN109587713B (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN108614778B (zh) 基于高斯过程回归的安卓App程序演化变更预测方法
CN115238583B (zh) 一种支持增量日志的业务流程剩余时间预测方法与系统
CN114035468A (zh) 基于XGBoost算法的风机检修流程预测性监控方法与系统
CN114662793A (zh) 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN114818353A (zh) 一种基于故障特征关系图谱的列控车载设备故障预测方法
CN115185804A (zh) 服务器性能预测方法、系统、终端及存储介质
CN111353625B (zh) 一种网点件量预测方法、装置、计算机设备及存储介质
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN112700065B (zh) 基于深度学习的业务流程完成时间区间预测方法和系统
CN111723021B (zh) 一种基于知识库和表示学习的缺陷报告自动分派方法
CN113891342B (zh) 基站巡检方法、装置、电子设备及存储介质
CN117291575A (zh) 设备检修方法、装置、计算机设备和存储介质
CN116861373A (zh) 一种查询选择率估算方法、系统、终端设备及存储介质
CN116777281A (zh) 一种基于arima模型的电力设备质量趋势预测方法及装置
CN111160715A (zh) 基于bp神经网络新旧动能转换绩效评价方法和装置
CN115204501A (zh) 企业评估方法、装置、计算机设备和存储介质
CN114924943A (zh) 基于人工智能的数据中台评估方法及相关设备
CN112907055A (zh) 数据处理时效测试方法和装置
CN112395167A (zh) 一种作业故障预测方法、装置及电子设备
CN113610225A (zh) 质量评估模型训练方法、装置、电子设备及存储介质
CN114386647A (zh) 一种油气田行业能耗的预测方法及系统
CN116805202B (zh) 基于人工智能寻找替代员工的方法、装置及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant