CN111178623B - 一种基于多层机器学习的业务流程剩余时间预测方法 - Google Patents

一种基于多层机器学习的业务流程剩余时间预测方法 Download PDF

Info

Publication number
CN111178623B
CN111178623B CN201911366631.4A CN201911366631A CN111178623B CN 111178623 B CN111178623 B CN 111178623B CN 201911366631 A CN201911366631 A CN 201911366631A CN 111178623 B CN111178623 B CN 111178623B
Authority
CN
China
Prior art keywords
activity
prediction
model
activities
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911366631.4A
Other languages
English (en)
Other versions
CN111178623A (zh
Inventor
俞东进
侯文杰
孙笑笑
应钰柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911366631.4A priority Critical patent/CN111178623B/zh
Publication of CN111178623A publication Critical patent/CN111178623A/zh
Application granted granted Critical
Publication of CN111178623B publication Critical patent/CN111178623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多层机器学习的业务流程剩余时间预测方法。该方法提取了历史日志中的实例间属性以剩余关键活动数属性,并使用stacking技术将XGBoost、LightGBM模型进行融合,从而得到一个更优的融合模型来完成对流程实例剩余时间的预测。这种业务流程剩余时间预测方法有精度高、鲁棒性强等特点,能有效预测流程未来执行信息,为相关人员进行流程优化、流程控制等提供指导。

Description

一种基于多层机器学习的业务流程剩余时间预测方法
技术领域
本发明涉及流程监控预测领域,尤其涉及一种基于多层机器学习的业务流程剩余时间预测方法。
背景技术
业务流程的预测性监测是流程挖掘的子领域之一,其目的是通过生成预测模型来预测正在执行的流程实例的可量化指标,旨在为相关人员提供及时的信息,以便能够采取主动的纠正措施,提高流程性能并降低流程风险。流程预测方法的预测对象也是非常多样化的,不同的预测目标能为业务中不同的相关人员提供有用的信息。例如对于流程剩余时间的预测可以调整流程实例执行的优先级,避免有些流程实例的执行超过其截止时间。同时业务流程的预测结果可以帮助企业提高相关业务的绩效指标也可以帮助其评估流程风险或预测可能出现的服务级别协议(SLA)冲突。
业务流程剩余时间预测可以有效的帮助相关人员洞察业务的走向,根据预测时间调整相应的策略。Polato等人和Aalst等人都选择了带注释的过渡系统来描述业务流程结构,进而实现剩余执行时间的预测工作。但是,Aalst等人仅考虑了事件日志中的控制流属性,而没有考虑其他属性(如资源属性)对未来行为的影响。为了解决这个问题,Polato等人更加全面的考虑了事件属性对剩余时间的影响,在预测的输入数据中包含了更多的事件属性,并使用贝叶斯分类器和支持向量机来实现对下一个活动的状态和执行时间的预测。Rogge-Solti等人将统计方法与过渡系统结合起来,通过对历史数据的统计分析来模拟过渡系统中每个状态的剩余时间分布。对于当前执行实例的状态使用拟合分布来预测剩余时间的分布,并利用采样样本的平均时间用作实例的剩余时间预测。尼泊尔等人将马尔可夫模型应用于业务流程中下一个执行活动的预测,并使用历史活动执行时间的平均值作为活动的预测执行时间,从而实现了对业务中剩余时间的预测处理。Verenich等人将LSTM方法引用到业务流程的预测监视中,并构建了一个两层LSTM模型来分别预测下一个执行的活动及其时间属性。
然而当前剩余时间预测的相关技术大多数都没有考虑实例之间的资源竞争对当前实例执行的剩余时间的影响。对于一些复杂的业务流程模型,其流程模型都是非结构化的,因此会导致那些需要借助流程结构来实现剩余时间预测的方法预测精度大幅降低。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于多层机器学习的业务流程剩余时间预测方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种基于多层机器学习的业务流程剩余时间预测方法,包括以下步骤:
S1.数据特征提取:输入原始日志,提取出其中每个事件的特征属性,所属特征属性包括基本特征属性、实例间特征属性、剩余关键活动数特征属性三类,具体包含以下子步骤:
S11.基本特征属性提取:提取日志中有直接记录的事件特征属性,包括活动名、事件Id、活动开始时间、活动结束时间;
S12.实例间特征属性提取:提取日志中表征资源间竞争关系的实例间特征属性,包括反映未来时间段t内被执行的实例数的区间实例数ExecCaseNum(t),反映未来时间段t内活动ai被执行的次数的区间事件数ExecEventNum(ai,t),反映未来时间段t内与活动ai具有竞争关系的其他活动被执行的次数之和的区间事件加权数WeightEventNum(ai,t),其计算公式如下:
ExecCaseNum(t)=|{σ|(σ.startTime>tpoint-t)∧(σ.startTime<tpoint)}|
ExecEventNum(ai,t)=|{e|(e.startTime>tpoint-t)∧(e.startTime<tpoint)∧(e.actvity=ai)}|
Figure BDA0002338597150000021
其中σ是发生事件所在的流程实例对应的轨迹,t是采样的时间窗口大小即区间,σ.startTime是当前流程实例的开始时间,tpoint表示预测发生的时间点,ai表示执行当前事件的活动名,e.startTime表示事件开始的时间点,
Figure BDA0002338597150000022
为流程的活动集合,prefR(ai)是可以执行活动ai的所有资源的集合,|prefR(ai)|是可以执行活动ai的资源的种类数,I(prefR(ai),prefR(aj))是既能执行活动ai又能执行活动aj的所有资源的集合,|I(prefR(ai),prefR(aj))|是既能执行活动ai又能执行活动aj的资源的种类数;
S13.剩余关键活动数特征属性提取:首先从历史日志中找出关键活动,并统计历史日志中全部前缀轨迹的剩余关键活动数;然后对于当前要预测的前缀轨迹,从历史日志中找到与其最相似的轨迹序列,将该轨迹序列对应的剩余关键活动数作为当前轨迹的近似剩余关键活动数,具体包含以下子步骤:
S131.对历史日志中的每个流程实例,将实例中执行的活动按照其执行时间长短从大到小排序,并为其标记排序值,其中排首位的活动即执行时间最长的活动排序值为1,后面的活动的排序值依次递增;
S132.统计整个历史日志中不同活动在不同实例中的排序值,并计算出每类活动的平均排序值;
S133.按照每类活动的平均排序值对活动进行升序排序,选取排名前k%的活动作为关键活动;
S134.对给定的前缀轨迹PTr进行序列转换得到其对应的活动序列Seq,活动序列Seq的长度为l;
S135.对历史日志中的每个流程实例,分别统计该实例中不同前缀轨迹对应的剩余活动序列所包含的关键活动数量,并对历史日志中全部的前缀轨迹进行序列转换得到活动序列集historySeqSet;
S136.选取historySeqSet中长度等于l的活动序列构成子集subSeqSet,依次计算subSeqSet中的活动序列与当Seq的相似度,活动序列之间的相似度使用Damerau-Levenshtein distance进行计算,求得与Seq最近似的活动序列similarSeq;
S137.设similarSeq与Seq的Damerau-Levenshtein distance值为r,从historySeqSet选取长度范围为[l-r,l+r]的活动序列构成新的子集subSeqSet2,依次计算subSeqSet2中的每条序列与Seq的相似度,得到subSeqSet2中与Seq最近似的活动序列bestSimilarSeq;
S138.从历史日志中找到bestSimilarSeq所对应的前缀轨迹的剩余关键活动数,若对应的前缀轨迹有多条,则对这些轨迹的剩余关键活动数求取平均值作为前缀轨迹PTr的近似剩余关键活动数;
S2.数据清洗与特征编码:对完成特征属性提取的数据集中的每类特征属性分别进行异常值处理,对缺失的特征属性找到该数据所在的完整实例后将其从数据集中清除,对非数值类的特征属性进行编码;
S3.双层混合预测模型训练:双层混合预测模型的训练过程如下步骤:
S31.训练集分割:选取特征提取并编码后得到的数据集的部分数据作为训练集,并将训练集等量分割为两份:训练集1和训练集2;
S32.第一层模型训练:第一层模型选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器,训练集1用于XGBoost模型的学习,得到预测模型xgb1,训练集2用于lightGBM模型的学习,得到预测模型lgb1;
S33.生成新的数据集:使用预测模型xgb1和lgb1生成新的数据特征,将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3,将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4;
S34.第二层模型训练:第二层模型也选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器,其中训练集3用于lightGBM模型的学习得到预测模型lgb2,训练集4用于XGBoost模型的学习,得到预测模型xgb2;
S35.合成混合预测模型:将S32和步骤S34中得到的预测模型进行合并即得到双层混合预测模型;
S4.流程剩余执行时间预测:选取特征提取并编码后得到的数据集的剩余数据作为测试集,将测试集中的数据输入混合预测模型中的第一层预测模型,将其输出与原始的输入数据进行整合得到新的输入数据,将该数据输入到混合模型的第二层预测模型中,得到最终的预测结果。
作为优选,S1所述的采样时间t可取一小时、六小时、一天、一周、一个月或者当前事件开始时间距当前实例开始的时间间隔。
作为优选,S1中所述的选取排名前k%的活动作为关键活动,k取25。
作为优选,S2中所述的对于非数值类的特征属性进行编码采用one-hot编码方式。
作为优选,S2中所述的数据异常值处理选择传统的箱线图平滑异常值。
本发明提出了业务流程中两种隐藏的事件属性,并使用了双层混合的机器学习模型得到了剩余时间预测模型。相比于传统的剩余时间预测方法,本法明具有如下收益:1、提取了实例间属性以及近似剩余关键活动这两类隐藏时间属性,大大提高了剩余时间预测的精度2、使用双层混合模型使得剩余时间预测的模型具有一定的稳定性并能在较为复杂的业务场景下开展应用,同时也提高了预测结果的精度。
附图说明
图1为本发明基于机器学习的业务流程剩余时间预测方法的流程图;
图2为S3中双层混合预测模型的训练流程示意图;
图3为数据集Production上的对比实验结果;
图4为数据集Helpdesk上的对比实验结果
图5为数据集BPIC2012上的对比实验结果;
图6为数据集BPIC2017上的对比实验结果。
图7为本发明算法和另外两种算法的精确度的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明的一种基于多层机器学习的业务流程剩余时间预测方法,包括以下步骤:
S1.数据特征提取:输入原始日志,提取出其中每个事件的特征属性,所属特征属性包括基本特征属性、实例间特征属性、剩余关键活动数特征属性三类,具体包含以下子步骤:
S11.基本特征属性提取:提取日志中有直接记录的事件特征属性,包括活动名、事件Id、活动开始时间、活动结束时间;
S12.实例间特征属性提取:提取日志中表征资源间竞争关系的实例间特征属性,包括反映未来时间段t内被执行的实例数的区间实例数ExecCaseNum(t),反映未来时间段t内活动ai被执行的次数的区间事件数ExecEventNum(ai,t),反映未来时间段t内与活动ai具有竞争关系的其他活动被执行的次数之和的区间事件加权数WeightEventNum(ai,t),其计算公式如下:
ExecCaseNum(t)=|{σ|(σ.startTime>tpoint-t)∧(σ.startTime<tpoint)}|
ExecEventNum(ai,t)=|{e|(e.startTime>tpoint-t)∧(e.startTime<tpoint)∧(e.actvity=ai)}|
Figure BDA0002338597150000061
其中σ是发生事件所在的流程实例对应的轨迹,t是采样的时间窗口大小即区间,可取一小时、六小时、一天、一周、一个月、当前事件开始时间距当前实例开始的时间间隔。σ.startTime是当前流程实例的开始时间,tpoint表示预测发生的时间点,ai表示执行当前事件的活动名,e.startTime表示事件开始的时间点,
Figure BDA0002338597150000062
为流程的活动集合,prefR(ai)是可以执行活动ai的所有资源的集合,|prefR(ai)|是可以执行活动ai的资源的种类数,I(prefR(ai),prefR(aj))是既能执行活动ai又能执行活动aj的所有资源的集合,|I(prefR(ai),prefR(aj))|是既能执行活动ai又能执行活动aj的资源的种类数;e.actvity表示执行当前事件的活动,(e.actvity=ai)表示的是执行当前事件的活动为ai;符号∧表示“并且”;
S13.剩余关键活动数特征属性提取:首先从历史日志中找出关键活动,并统计历史日志中全部前缀轨迹的剩余关键活动数;然后对于当前要预测的前缀轨迹,从历史日志中找到与其最相似的轨迹序列,将该轨迹序列对应的剩余关键活动数作为当前轨迹的近似剩余关键活动数,具体包含以下子步骤:
S131.对历史日志中的每个流程实例,将实例中执行的活动按照其执行时间长短从大到小排序,并为其标记排序值,其中排首位的活动即执行时间最长的活动排序值为1,后面的活动的排序值依次递增;
S132.统计整个历史日志中不同活动在不同实例中的排序值,并计算出每类活动的平均排序值;
S133.按照每类活动的平均排序值对活动进行升序排序,选取排名前25%的活动作为关键活动;
S134.对给定的前缀轨迹PTr进行序列转换得到其对应的活动序列Seq,活动序列Seq的长度为l;
S135.对历史日志中的每个流程实例,分别统计该实例中不同前缀轨迹对应的剩余活动序列所包含的关键活动数量,并对历史日志中全部的前缀轨迹进行序列转换得到活动序列集historySeqSet;
S136.选取historySeqSet中长度等于l的活动序列构成子集subSeqSet,依次计算subSeqSet中的活动序列与当Seq的相似度,活动序列之间的相似度使用Damerau-Levenshtein distance进行计算,求得与Seq最近似的活动序列similarSeq;
S137.设similarSeq与Seq的Damerau-Levenshtein distance值为r,从historySeqSet选取长度范围为[l-r,l+r]的活动序列构成新的子集subSeqSet2,依次计算subSeqSet2中的每条序列与Seq的相似度,得到subSeqSet2中与Seq最近似的活动序列bestSimilarSeq:
S138.从历史日志中找到bestSimilarSeq所对应的前缀轨迹的剩余关键活动数,若对应的前缀轨迹有多条,则对这些轨迹的剩余关键活动数求取平均值作为前缀轨迹PTr的近似剩余关键活动数;
S2.数特征清洗与特征编码:对完成特征属性提取的数据集中的每类特征属性分别选择传统的箱线图平滑异常值进行异常值处理,对缺失的特征属性找到该数据所在的完整实例后将其从数据集中清除,对非数值类的特征属性进行one-hot编码;
S3.双层混合预测模型训练:如图2所示,双层混合预测模型的训练过程如下步骤:
S31.训练集分割:选取特征提取并编码后得到的数据集的80%数据作为训练集,并将训练集等量分割为两份:训练集1和训练集2;
S32.第一层模型训练:第一层模型选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器,训练集1用于XGBoost模型的学习,得到预测模型xgb1,训练集2用于lightGBM模型的学习,得到预测模型lgb1;
S33.生成新的数据集:使用预测模型xgb1和lgb1生成新的数据特征,将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3,将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4;
S34.第二层模型训练:第二层模型也选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器,其中训练集3用于lightGBM模型的学习得到预测模型lgb2,训练集4用于XGBoost模型的学习,得到预测模型xgb2;
S35.合成混合预测模型:将S32和步骤S34中得到的预测模型进行合并即得到双层混合预测模型;
S4.流程剩余执行时间预测:选取特征提取并编码后得到的数据集的20%数据作为测试集,将测试集中的数据输入混合预测模型中的第一层预测模型,将其输出与原始的输入数据进行整合得到新的输入数据,将该数据输入到混合模型的第二层预测模型中,得到最终的预测结果。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
数据源获取:本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志:Production,Helpdesk,BPIC2012,BPIC2017。其中Production日志记录了一个车间的生产过程,每个流程实例记录了完整的制造过程,该日志包含220个流程执行实例记录,每个记录平均包含11个事件。Helpdesk事件日志涉及意大利软件公司的帮助台的票务管理过程,该日志有4580个流程实例,每个实例平均有5个事件。BPIC 2012事件日志取自荷兰金融机构,其记录了个人贷款或透支的申请过程,此日志中总共有4685个案例,平均12个事件。BPIC 2017事件日志与数据集BPIC 2012来自同一组织,也记录了贷款批准过程,但是,由于信息系统的更改,此日志中记录的信息更加详细,此日志中有31413个案例,平均有38个事件。
为了验证本发明技术方案的技术效果,选取日志的预测的平均绝对误差作为预测效果的衡量指标,其计算公式如下:
Figure BDA0002338597150000081
其中y(i)realTime是当前预测轨迹的实际剩余时间,而y(i)predictTime是预测模型给出的剩余时间预测值,RMAE的值越低表示预测结果越准确。
图3、4、5、6分别展示了在四个数据集上分别使用单层预测模型以及使用本专利提出的双层混合预测模型的预测效果对比结果,其中S-Model I和S-ModeII,分别为使用lightGBM进行训练的单层预测模型和使用XGBoost进行训练的单层预测模型,H-Model I和H-Model II分别为先使用XGBoost进行训练再使用lightGBM进行训练的双层混合预测模型和先使用lightGBM进行训练再使用XGBoost进行训练的双层混合预测模型。从图中可以看出双层混合预测模型(H-Model)的预测效果较单层预测模型(S-Model)有极大的提高。同时为了验证本发明技术方案中提出的两类隐藏特征属性对于剩余时间预测的影响,使用了四组不同的输入特征数据进行对比实验,其中Basic一组实验只使用了基本特征属性,Int-Ins一组实验在Basic的基础上添加了实例间特征属性,K-Act一组实验在Basic的基础上添加了剩余关键活动数特征属性,All一组实验则将三类特征属性一起使用。由图中可见在添加了本专利提出的两类隐藏属性后,预测精度有了较大的提高。此外,通过图3、4、5、6的比较可以得知,在两类双层混合预测模型中,四种数据集上H-Model II表现均优于H-ModelI。
此外,为了验证本发明技术方案的技术效果,将现有的两种剩余时间预测算法(LSTM和XGBoost)与本专利提出的预测方法(表现较优的H-Model II)进行对比。图7展示了在四个数据上三种算法的预测精度,本专利提出的H-Model II在四个数据集上均取得了最优效果,可见本专利提出的一种基于多层机器学习的业务流程剩余时间预测方法的优越性。

Claims (5)

1.一种基于多层机器学习的业务流程剩余时间预测方法,其特征在于包括以下步骤:
S1.数据特征提取:输入原始日志,提取出其中每个事件的特征属性,所属特征属性包括基本特征属性、实例间特征属性、剩余关键活动数特征属性三类,具体包含以下子步骤:
S11.基本特征属性提取:提取日志中有直接记录的事件特征属性,包括活动名、事件Id、活动开始时间、活动结束时间;
S12.实例间特征属性提取:提取日志中表征资源间竞争关系的实例间特征属性,包括反映未来时间段t内被执行的实例数的区间实例数ExecCaseNum(t),反映未来时间段t内活动ai被执行的次数的区间事件数ExecEventNum(ai,t),反映未来时间段t内与活动ai具有竞争关系的其他活动被执行的次数之和的区间事件加权数WeightEventNum(ai,t),其计算公式如下:
ExecCaseNum(t)=|{σ|(σ.startTime>tpoint-t)∧(σ.startTime<tpoint)}|
ExecEventNum(ai,t)=|{e|(e.startTime>tpoint-t)∧(e.startTime<tpoint)∧(e.actvity=ai)}|
Figure FDA0003626593060000011
其中σ是发生事件所在的流程实例对应的轨迹,t是采样的时间窗口大小即区间,σ.startTime是当前流程实例的开始时间,tpoint表示预测发生的时间点,ai表示执行当前事件的活动名,e.startTime表示事件开始的时间点,
Figure FDA0003626593060000012
为流程的活动集合,prefR(ai)是可以执行活动ai的所有资源的集合,|prefR(ai)|是可以执行活动ai的资源的种类数,I(prefR(ai),prefR(aj))是既能执行活动ai又能执行活动aj的所有资源的集合,|I(prefR(ai),prefR(aj))|是既能执行活动ai又能执行活动aj的资源的种类数;e.actvity表示执行当前事件的活动,(e.actvity=ai)表示的是执行当前事件的活动为ai;符号∧表示“并且”;
S13.剩余关键活动数特征属性提取:首先从历史日志中找出关键活动,并统计历史日志中全部前缀轨迹的剩余关键活动数;然后对于当前要预测的前缀轨迹,从历史日志中找到与其最相似的轨迹序列,将该轨迹序列对应的剩余关键活动数作为当前轨迹的近似剩余关键活动数,具体包含以下子步骤:
S131.对历史日志中的每个流程实例,将实例中执行的活动按照其执行时间长短从大到小排序,并为其标记排序值,其中排首位的活动即执行时间最长的活动排序值为1,后面的活动的排序值依次递增;
S132.统计整个历史日志中不同活动在不同实例中的排序值,并计算出每类活动的平均排序值;
S133.按照每类活动的平均排序值对活动进行升序排序,选取排名前k%的活动作为关键活动;
S134.对给定的前缀轨迹PTr进行序列转换得到其对应的活动序列Seq,活动序列Seq的长度为l;
S135.对历史日志中的每个流程实例,分别统计该实例中不同前缀轨迹对应的剩余活动序列所包含的关键活动数量,并对历史日志中全部的前缀轨迹进行序列转换得到活动序列集historySeqSet;
S136.选取historySeqSet中长度等于l的活动序列构成子集subSeqSet,依次计算subSeqSet中的活动序列与Seq的相似度,活动序列之间的相似度使用Damerau-Levenshtein distance进行计算,求得与Seq最近似的活动序列similarSeq;
S137.设similarSeq与Seq的Damerau-Levenshtein distance值为r,从historySeqSet选取长度范围为[l-r,l+r]的活动序列构成新的子集subSeqSet2,依次计算subSeqSet2中的每条序列与Seq的相似度,得到subSeqSet2中与Seq最近似的活动序列bestSimilarSeq;
S138.从历史日志中找到bestSimilarSeq所对应的前缀轨迹的剩余关键活动数,若对应的前缀轨迹有多条,则对这些轨迹的剩余关键活动数求取平均值作为前缀轨迹PTr的近似剩余关键活动数;
S2.数据清洗与特征编码:对完成特征属性提取的数据集中的每类特征属性分别进行异常值处理,对缺失的特征属性找到该数据所在的完整实例后将其从数据集中清除,对非数值类的特征属性进行编码;
S3.双层混合预测模型训练:双层混合预测模型的训练包含以下子步骤:
S31.训练集分割:选取特征提取并编码后得到的数据集的部分数据作为训练集,并将训练集等量分割为两份:训练集1和训练集2;
S32.第一层模型训练:第一层模型选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器,训练集1用于XGBoost模型的学习,得到预测模型xgb1,训练集2用于lightGBM模型的学习,得到预测模型lgb1;
S33.生成新的数据集:使用预测模型xgb1和lgb1生成新的数据特征,将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3,将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4;
S34.第二层模型训练:第二层模型也选择XGBoost和lightGBM这两类机器学习方法作为剩余时间预测学习器,其中训练集3用于lightGBM模型的学习得到预测模型lgb2,训练集4用于XGBoost模型的学习,得到预测模型xgb2;
S35.合成混合预测模型:将S32和步骤S34中得到的预测模型进行合并即得到双层混合预测模型;
S4.流程剩余执行时间预测:选取特征提取并编码后得到的数据集的剩余数据作为测试集,将测试集中的数据输入混合预测模型中的第一层预测模型xgb1和lgb1,将其输出与原始的输入数据进行整合得到新的输入数据,将该数据输入到混合模型的第二层预测模型xgb2和lgb2中,得到最终的预测结果。
2.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法,其特征在于S1所述的采样的时间窗口大小t取一小时、六小时、一天、一周、一个月或者当前事件开始时间距当前实例开始的时间间隔。
3.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法,其特征在于S1中所述的选取排名前k%的活动作为关键活动,k取25。
4.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法,其特征在于S2中所述的对于非数值类的特征属性进行编码采用one-hot编码方式。
5.根据权利要求1所述的一种基于多层机器学习的业务流程剩余时间预测方法,其特征在于S2中所述的异常值处理选择传统的箱线图平滑异常值。
CN201911366631.4A 2019-12-26 2019-12-26 一种基于多层机器学习的业务流程剩余时间预测方法 Active CN111178623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366631.4A CN111178623B (zh) 2019-12-26 2019-12-26 一种基于多层机器学习的业务流程剩余时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366631.4A CN111178623B (zh) 2019-12-26 2019-12-26 一种基于多层机器学习的业务流程剩余时间预测方法

Publications (2)

Publication Number Publication Date
CN111178623A CN111178623A (zh) 2020-05-19
CN111178623B true CN111178623B (zh) 2022-06-17

Family

ID=70657491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366631.4A Active CN111178623B (zh) 2019-12-26 2019-12-26 一种基于多层机器学习的业务流程剩余时间预测方法

Country Status (1)

Country Link
CN (1) CN111178623B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052273B (zh) * 2020-07-27 2021-08-31 杭州电子科技大学 一种多角度业务流程下一候选活动提取方法
CN113159413A (zh) * 2021-04-19 2021-07-23 山东理工大学 业务流程剩余时间预测方法、系统、存储介质及计算设备
CN113537712B (zh) * 2021-06-10 2022-03-08 杭州电子科技大学 一种基于轨迹重演的业务流程剩余活动序列预测方法
CN113537710B (zh) * 2021-06-10 2022-03-08 杭州电子科技大学 一种数据驱动下基于人工智能的活动时序在线预测方法
CN114035468B (zh) * 2021-11-08 2024-05-28 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与系统
CN115174557B (zh) * 2022-07-01 2024-03-01 济南浪潮数据技术有限公司 一种日志下载的调度方法、装置以及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107959692A (zh) * 2016-10-14 2018-04-24 中国电信股份有限公司 用于获得安全资源的等效负载的方法和系统
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
EP3448004A1 (en) * 2017-08-21 2019-02-27 Unify Patente GmbH & Co. KG Computer-implemented method of forwarding calls, predictive dialer system and database
GB2584625A (en) * 2019-05-28 2020-12-16 Sita Information Networking Computing Uk Ltd System and method for flight arrival time prediction

Also Published As

Publication number Publication date
CN111178623A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111178623B (zh) 一种基于多层机器学习的业务流程剩余时间预测方法
Zhao et al. Deep learning with XGBoost for real estate appraisal
CN114757432B (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
CN112785377B (zh) 基于数据分布的订单完工期预测模型构建方法及预测方法
CN103250376A (zh) 用于执行与通信网络的节点有关的预测分析的方法和系统
US20230011954A1 (en) Device, method, and system for business plan management
CN111242368B (zh) 一种基于场景推演的物流配送调度算法
CN113033892A (zh) 一种政府监管视角下建设市场主体信用动态评价方法
CN115375205A (zh) 一种用水用户画像的确定方法、装置及设备
CN110059126B (zh) 基于lkj异常值数据的复杂关联网络分析方法及系统
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN114662793A (zh) 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN112052273B (zh) 一种多角度业务流程下一候选活动提取方法
CN111126629B (zh) 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN112052232B (zh) 一种基于重演技术的业务流程上下文提取方法
CN111324597B (zh) 一种主数据管理方法和系统
CN112052990A (zh) 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
CN111798152A (zh) 一种门店智能管理方法和装置
CN115345600B (zh) 一种rpa流程的生成方法和装置
CN116257758A (zh) 模型训练方法、人群拓展方法、介质、装置和计算设备
CN116090702A (zh) 一种基于物联网的erp数据智能监管系统及方法
CN113537710B (zh) 一种数据驱动下基于人工智能的活动时序在线预测方法
JP7451935B2 (ja) 予測プログラム、予測方法及び予測装置
Hassannezhad et al. Dynamic modelling of relationships in complex service design systems
CN112734086A (zh) 一种用于更新神经网络预测模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant