CN112052273B - 一种多角度业务流程下一候选活动提取方法 - Google Patents

一种多角度业务流程下一候选活动提取方法 Download PDF

Info

Publication number
CN112052273B
CN112052273B CN202010730957.7A CN202010730957A CN112052273B CN 112052273 B CN112052273 B CN 112052273B CN 202010730957 A CN202010730957 A CN 202010730957A CN 112052273 B CN112052273 B CN 112052273B
Authority
CN
China
Prior art keywords
event
activity
attribute
epsilon
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010730957.7A
Other languages
English (en)
Other versions
CN112052273A (zh
Inventor
孙笑笑
应钰柯
俞东进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010730957.7A priority Critical patent/CN112052273B/zh
Publication of CN112052273A publication Critical patent/CN112052273A/zh
Application granted granted Critical
Publication of CN112052273B publication Critical patent/CN112052273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多角度业务流程下一候选活动提取方法。该方法基于业务流程中事件活动间的关系、事件在实例内的位置、以及事件的属性相似性分别提取了三个下一候选活动属性,并将三者进行级联得到完整的业务流程下一候选活动属性。本发明方法具有多角度挖掘、符合业务流程运行实际等优点,其结果可以用于后续的业务流程深度分析如业务流程下一活动预测的,为检测业务流程执行是否违规、后续活动资源分配是否合理等提供支撑。

Description

一种多角度业务流程下一候选活动提取方法
技术领域
本发明涉及业务流程监控领域,尤其涉及一种多角度业务流程下一候选活动提取方法。
背景技术
业务流程是为达到特定的价值目标而由不同的人分别完成的一系列活动。业务流程是企业运行的脉络,在很大程度上决定了企业的作业逻辑。业务流程挖掘作为数据挖掘在业务流程管理上的应用,旨在从历史的事件日志中提取有用的过程知识,从而去发现流程模型、检测日志中的记录是否符合实际流程模型或改进已有的流程模型。
近年来,业务流程挖掘的重点不再局限于提供事件日志的脱机分析,而转向为业务流程优化提供在线支持,即对正在执行的流程实例进行分析和预测。预测性业务流程监控(Predictive Process Monitoring,PPM)成为流程挖掘的重要子领域之一。PPM通过分析和学习流程历史执行的事件日志,得到影响预测结果的诸多特征,从而对当前正在执行的流程实例进行多方面预测,包括预测下一步将执行哪个活动、何时执行、由谁执行以及预测实例剩余执行时间或最终结果。作为提高业务流程性能、引导业务流程正确执行的一种有效方式,PPM可以在流程执行过程中提前预警未来可能出现的流程执行失败、偏离、超时等风险,有助于管理者及时调整或提前采取预防措施避免不必要的损失以提高业务流程执行的质量和效率,为企业业务部门的科学决策提供支撑。
预测业务流程下一活动即预测未完成实例当前执行活动的下一活动,其准确预测可以帮助相关人员了解流程进度、提前得知流程违规问题,同时根据预测的下一个活动分配及调整活动资源,提高流程执行效率。为了实现业务流程下一活动的准确预测,在预测前精准提取其下一候选活动至关重要。目前已有的业务流程下一候选活动的提取多基于事件已有的一些基本属性展开,相关研究的工作重心主要放在数据编码等层面,而未基于历史事件日志及其属性展开深入分析,导致下一候选活动的提取在准确性或完整性上存在较大缺失,进而影响了下一活动预测的精度。
发明内容
为了克服上述现有技术的不足,本发明提供一种多角度业务流程下一候选活动提取方法,可有效解决上述问题。本发明具体采用的技术方案如下:
S1.输入原始日志文件
Figure GDA0003098112230000021
其中
Figure GDA0003098112230000022
由多条流程轨迹σ=<e1,e2,e3,...,em>组成,每条流程轨迹σ由若干个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,...attrn)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,...attrn代表该事件的其余n个属性,将日志中所有事件的集合记为ε={e1,e2,e3,...,ek};
S2.为ε中的每个事件添加CandActBasedAct属性,具体包含以下子步骤:
S21.对ε中的所有事件,初始化其CandActBasedAct属性为null;
S22.对ε中的每个事件ei,迭代执行以下操作:
(1)提取其执行的活动ai,然后遍历所有流程轨迹搜索紧随在活动ai后执行的活动aj,得到ai的下一活动集合succ(ai),其中succ(ai)中的活动不重复;
(2)依次计算ai与succ(ai)中每个活动aj的依赖度,具体公式如下:
Figure GDA0003098112230000023
其中O(ai,aj)表示流程轨迹中出现执行顺序是ai→aj的次数,→表示相邻两个活动的执行路径;
(3)将计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动作为活动ai的高频下一活动HDsucc(ai),其依赖度为Dep(ai,HDsucc(ai));
(4)将Dep(ai,HDsucc(ai))与依赖度阈值α进行比较,若Dep(ai,HDsucc(ai))≥α,则将HDsucc(ai)赋值给ei的CandActBasedAct属性;若Dep(ai,HDsucc(ai))<α,则首先根据事件ei所属流程轨迹的执行顺序找到其前一活动,即事件ei的前一事件ei-1的执行活动ai-1,然后遍历所有流程轨迹搜索紧随在ai-1→ai后执行的活动al,得到ai-1→ai的下一活动集合succ(ai-1,ai),依次计算ai-1→ai与succ(ai-1,ai)中每个活动al的依赖度,计算公式如下:
Figure GDA0003098112230000031
其中O(ai-1,ai,al)表示流程轨迹中出现执行顺序是ai-1→ai→al的次数;
最后对计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动HDsucc(ai-1→ai)并将其赋值给ei的CandActBasedAct属性;
S3.为ε中的每个事件添加CandActBasedPos属性,具体包含以下子步骤:
S31.对ε中的所有事件,初始化其CandActBasedPos属性为null;
S32.对ε中的每个事件ei,增加Pos和nextPos两个数值属性,分别代表事件ei在其所属实例中的位置和下一个位置;
S33.然后根据Pos属性对每个位置上出现的活动进行统计,并确定每个位置出现频率最高的活动MFAct(Pos);
S34.对ε中的每个事件ei,根据其nextPos属性,去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给ei的CandActBasedPos属性;
S4.为ε中的每个事件添加CandActBasedAttr属性,具体包含以下子步骤:
S41.对ε中的所有事件,初始化其CandActBasedAttr属性为null;
S42.对ε中的所有事件,根据其执行的活动进行划分,将活动相同的事件分到一个集合,得到
Figure GDA0003098112230000032
个事件集合
Figure GDA0003098112230000033
其中
Figure GDA0003098112230000034
为日志中所有活动的集合且集合中的活动不重复,
Figure GDA0003098112230000035
Figure GDA0003098112230000036
中具有的活动数量,每个
Figure GDA0003098112230000037
集合中所包含事件执行的活动均为相同活动;
S43.对ε中的每个事件ei的属性进行编码得到其属性向量AttrVec(ei);
S44.对ε中的每个事件ei,提取其执行的活动ai,然后找到其对应的事件集合
Figure GDA0003098112230000038
将事件ei的属性向量AttrVec(ei)与事件集合
Figure GDA0003098112230000039
中的每个事件ej的属性向量AttrVec(ej)迭代计算相似度,当出现相似度小于距离阈值γ的事件ej时,认为已筛选出与ei局部最相似的事件,将该事件执行的活动赋值给ei的CandActBasedAttr属性;若迭代结束仍未出现相似度小于距离阈值γ的事件ej,则将相似度最小的事件ej执行的活动赋值给ei的CandActBasedAttr属性;
S5.将S2中获得的CandActBasedAct属性、S3中获得的CandActBasedPos属性和S4中获得的CandActBasedAttr属性进行级联,得到为ε中的每个事件对应的下一候选活动集合CandAct:
CandAct={CandActBasedAct,CandActBasedAttr,CandActBasedPos}。
作为优选,S22中所述的依赖度阈值α取0.5。
作为优选,S43中所述的对ε中的每个事件ei的属性进行编码具体步骤如下:首先根据属性值是否为数值将属性划分为类别属性和数值属性,然后对类别属性采用one-hot编码,最后将编码后的类别属性向量与数值属性构成的向量合并得到最终的属性向量AttrVec(ei)。
作为优选,S44中所述的计算相似度采用的是欧式距离。
作为优选,S44中所述的距离阈值γ取0.01。
本发明提出了一种多角度业务流程下一候选活动提取方法,相比于传统的下一候选活动提取方法,本发明具有如下优点:1、对历史的事件日志及其属性开展了深入的分析,并挖掘了三种影响下一候选活动的关键性质,即业务流程中事件活动间的关系、事件在实例内的位置、以及事件的属性相似性;2、基于三种关键性质,提取了三个下一候选活动属性,并将其进行级联形成了完整的下一候选活动属性,该属性可进一步作为输入应用于后续的业务流程下一活动预测,可以极大地提高下一活动预测的精度。
附图说明
图1为本发明方法的流程图;
图2为本发明方法在Helpdesk数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测);
图3为本发明方法在Sepsis数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测);
图4为本发明方法在BPIC2012O数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测);
图5为本发明方法在Traffic Fines数据集上的结果展示图(将本发明的上下文提取结果进一步应用于下一活动预测)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明的一种多角度业务流程下一候选活动提取方法,包括以下步骤:
S1.输入原始日志文件
Figure GDA0003098112230000051
其中
Figure GDA0003098112230000052
由多条流程轨迹σ=<e1,e2,e3,...,em>组成,每条流程轨迹σ由若干个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,...attrn)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,...attrn代表该事件的其余n个属性,将日志中所有事件的集合记为ε={e1,e2,e3,...,ek};
S2.为ε中的每个事件添加CandActBasedAct属性,具体包含以下子步骤:
S21.对ε中的所有事件,初始化其CandActBasedAct属性为null;
S22.对ε中的每个事件ei,迭代执行以下操作:
(1)提取其执行的活动ai,然后遍历所有流程轨迹搜索紧随在活动ai后执行的活动aj,得到ai的下一活动集合succ(ai),其中succ(ai)中的活动不重复;
(2)依次计算ai与succ(ai)中每个活动aj的依赖度,具体公式如下:
Figure GDA0003098112230000053
其中O(ai,aj)表示流程轨迹中出现执行顺序是ai→aj的次数,→表示相邻两个活动的执行路径。例如ai→aj表示ai执行完后立即执行aj,ai-1→ai→Al表示顺次执行ai-1、ai、al
(3)将计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动作为活动ai的高频下一活动HDsucc(ai),其依赖度为Dep(ai,HDsucc(ai));
(4)将Dep(ai,HDsucc(ai))与依赖度阈值α进行比较,α取0.5,若Dep(ai,HDsucc(ai))≥α,则将HDsucc(ai)赋值给ei的CandActBasedAct属性;若Dep(ai,HDsucc(ai))<α,则首先根据事件ei所属流程轨迹的执行顺序找到其前一活动,即事件ei的前一事件ei-1的执行活动ai-1,然后遍历所有流程轨迹搜索紧随在ai-1→ai后执行的活动al,得到ai-1→ai的下一活动集合succ(ai-1,ai),依次计算ai-1→ai与succ(ai-1,ai)中每个活动al的依赖度,计算公式如下:
Figure GDA0003098112230000061
其中O(ai-1,ai,al)表示流程轨迹中出现执行顺序是ai-1→ai→al的次数;
最后对计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动HDsucc(ai-1→ai)并将其赋值给ei的CandActBasedAct属性;
S3.为ε中的每个事件添加CandActBasedPos属性,具体包含以下子步骤:
S31.对ε中的所有事件,初始化其CandActBasedPos属性为null;
S32.对ε中的每个事件ei,增加Pos和nextPos两个数值属性,分别代表事件ei在其所属实例中的位置和下一个位置;
S33.然后根据Pos属性对每个位置上出现的活动进行统计,并确定每个位置出现频率最高的活动MFAct(Pos);
S34.对ε中的每个事件ei,根据其nextPos属性,去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给ei的CandActBasedPos属性;
S4.为ε中的每个事件添加CandActBasedAttr属性,具体包含以下子步骤:
S41.对ε中的所有事件,初始化其CandActBasedAttr属性为null;
S42.对ε中的所有事件,根据其执行的活动进行划分,将活动相同的事件分到一个集合,得到
Figure GDA0003098112230000066
个事件集合
Figure GDA0003098112230000064
其中
Figure GDA0003098112230000069
为日志中所有活动的集合且集合中的活动不重复,
Figure GDA0003098112230000067
Figure GDA0003098112230000068
中具有的活动数量,每个
Figure GDA0003098112230000065
集合中所包含事件执行的活动均为相同活动;
S43.对ε中的每个事件ei的属性进行编码得到其属性向量AttrVec(ei),其具体步骤如下:首先根据属性值是否为数值将属性划分为类别属性和数值属性,然后对类别属性采用one-hot编码,最后将编码后的类别属性向量与数值属性构成的向量合并得到最终的属性向量AttrVec(ei)。
S44.对ε中的每个事件ei,提取其执行的活动ai,然后找到其对应的事件集合
Figure GDA0003098112230000062
将事件ei的属性向量AttrVec(ei)与事件集合
Figure GDA0003098112230000063
中的每个事件ej的属性向量AttrVec(ej)迭代采用欧式距离计算相似度,当出现相似度小于距离阈值γ(γ取0.01)的事件ej时,认为已筛选出与ei局部最相似的事件,将该事件执行的活动赋值给ei的CandActBasedAttr属性;若迭代结束仍未出现相似度小于距离阈值γ的事件ej,则将相似度最小的事件ej执行的活动赋值给ei的CandActBasedAttr属性;
S5.将S2中获得的CandActBasedAct属性、S3中获得的CandActBasedPos属性和S4中获得的CandActBasedAttr属性进行级联,得到为ε中的每个事件对应的下一候选活动集合CandAct:
CandAct={CandActBasedAct,CandActBasedAttr,CandActBasedPos}。
下面基于上述方法流程,通过实施例进一步展示其技术效果。
实施例
本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
数据源获取:本实施例所用的原始日志文件是从4TU研究数据中心获得的四个真实业务流程产生的日志:Helpdesk,Sepsis,BPIC2012O,Road Traffic Fines。其中Helpdesk日志涉及意大利软件公司的帮助台的票务管理过程,共有3,804条实例数据,包含13,710个事件和9个活动,其中最长实例事件数为14个,最短实例事件数为1个。Sepsis日志通过医院的ERP系统记录了败血症病例的事件,该日志有1,049条实例,事件数为15,214个,活动数为16个。BPIC2012O日志为BPIC2012的子日志,BPIC2012日志取自荷兰金融学院,表示的过程是全球融资组织中个人贷款或者透支的申请过程。BPIC2012O与传达给客户的报价状态有关的事件,有5015条实例和31244个事件,活动数为7个。Traffic Fines日志是一个管理道路交通罚款信息系统的真实事件日志,该日志记录了150370个案例中约561470个事件信息。其中最短案例的事件数仅有2条,而最长案例的事件数为20条。四个数据集的具体统计信息详见表1。
表1四个真实数据集的统计信息表
Figure GDA0003098112230000071
由于业务流程下一候选活动提取的主要目的是为后续业务流程下一活动的预测提供输入以得到更精准的预测结果,因此为了验证本发明技术方案的技术效果,本实施例将采用本发明方法提取的业务流程下一候选活动属性进一步应用于业务流程的下一活动预测。为验证本发明技术方案的技术效果,本实施例主要选取准确率对预测结果进行衡量,其计算公式如下:
Figure GDA0003098112230000081
其中|S|代表样本数,ni代表第i个类别的样本数,tpi代表将第i类别中正类样本预测为正类的样本数,tni代表将正类样本预测为负类的样本数,fpi代表将负类样本预测为正类的样本数,fni代表将负类样本预测为负类的样本数。
此外,为展示本发明所提出的三个下一候选活动属性的有效性,本实施例使用了三种类型的输入特征数据进行验证,其中第一类为直接可从日志中提取的基本属性(basic),第二类为在基本属性的基础之上分别添加本法明提出的CandActBasedAct、CandActBasedPos和CandActBasedAttr属性,而最后一类为在基本属性的基础之上添加本文提出的包含三个下一候选活动属性的完整下一候选活动属性(CanAct)。我们将三类输入特征数据输入了在业务流程预测性监控中表现优异的双向长短期记忆网络模型(BiLSTM)中进行业务流程下一活动预测的实验。图2、3、4、5分别展示了在四个数据集上的效果。从图中可以看出,添加本文提出的单个或者多个下一候选活动属性在不同数据集中对于准确率均有不同程度的提高,但在不同数据集上不同下一候选活动属性的效果各有不同。例如在Helpdesk数据集、Sepsis数据集、Traffic Fines上单独添加本发明提出的CandActBasedAttr属性效果提升最为明显,在BPIC2012O数据集上添加本发明提出的完整的下一候选活动属性CanAct效果提升最为明显。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1.一种多角度业务流程下一候选活动提取方法,其特征在于包括以下步骤:
S1.输入原始日志文件
Figure FDA0003098112220000011
其中
Figure FDA0003098112220000012
由多条流程轨迹σ=<e1,e2,e3,...,em>组成,每条流程轨迹σ由若干个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,...attrn)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,...attrn代表该事件的其余n个属性,将日志中所有事件的集合记为ε={e1,e2,e3,...,ek};
S2.为ε中的每个事件添加CandActBasedAct属性,具体包含以下子步骤:
S21.对ε中的所有事件,初始化其CandActBasedAct属性为null;
S22.对ε中的每个事件ei,迭代执行以下操作:
(1)提取其执行的活动ai,然后遍历所有流程轨迹搜索紧随在活动ai后执行的活动aj,得到ai的下一活动集合succ(ai),其中succ(ai)中的活动不重复;
(2)依次计算ai与succ(ai)中每个活动aj的依赖度,具体公式如下:
Figure FDA0003098112220000013
其中O(ai,aj)表示流程轨迹中出现执行顺序是ai→aj的次数,→表示相邻两个活动的执行路径;
(3)将计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动作为活动ai的高频下一活动HDsucc(ai),其依赖度为Dep(ai,HDsucc(ai));
(4)将Dep(ai,HDsucc(ai))与依赖度阈值α进行比较,若Dep(ai,HDsucc(ai))≥α,则将HDsucc(ai)赋值给ei的CandActBasedAct属性;若Dep(ai,HDsucc(ai))<α,则首先根据事件ei所属流程轨迹的执行顺序找到其前一活动,即事件ei的前一事件ei-1的执行活动ai-1,然后遍历所有流程轨迹搜索紧随在ai-1→ai后执行的活动al,得到ai-1→ai的下一活动集合succ(ai-1,ai),依次计算ai-1→ai与succ(ai-1,ai)中每个活动al的依赖度,计算公式如下:
Figure FDA0003098112220000021
其中O(ai-1,ai,al)表示流程轨迹中出现执行顺序是ai-1→ai→al的次数;
最后对计算得到的所有依赖度从高到低进行排序,筛选出依赖度最高的活动HDsucc(ai-1→ai)并将其赋值给ei的CandActBasedAct属性;
S3.为ε中的每个事件添加CandActBasedPos属性,具体包含以下子步骤:
S31.对ε中的所有事件,初始化其CandActBasedPos属性为null;
S32.对ε中的每个事件ei,增加Pos和nextPos两个数值属性,分别代表事件ei在其所属实例中的位置和下一个位置;
S33.然后根据Pos属性对每个位置上出现的活动进行统计,并确定每个位置出现频率最高的活动MFAct(Pos);
S34.对ε中的每个事件ei,根据其nextPos属性,去寻找nextPos位置上出现频率最高的活动MFAct(nextPos)并将该活动赋值给ei的CandActBasedPos属性;
S4.为ε中的每个事件添加CandActBasedAttr属性,具体包含以下子步骤:
S41.对ε中的所有事件,初始化其CandActBasedAttr属性为null;
S42.对ε中的所有事件,根据其执行的活动进行划分,将活动相同的事件分到一个集合,得到
Figure FDA0003098112220000022
个事件集合
Figure FDA0003098112220000023
其中
Figure FDA0003098112220000024
为日志中所有活动的集合且集合中的活动不重复,
Figure FDA0003098112220000025
Figure FDA0003098112220000026
中具有的活动数量,每个
Figure FDA0003098112220000027
集合中所包含事件执行的活动均为相同活动;
S43.对ε中的每个事件ei的属性进行编码得到其属性向量AttrVec(ei);
S44.对ε中的每个事件ei,提取其执行的活动ai,然后找到其对应的事件集合
Figure FDA0003098112220000028
将事件ei的属性向量AttrVec(ei)与事件集合
Figure FDA0003098112220000029
中的每个事件ej的属性向量AttrVec(ej) 迭代计算相似度,当出现相似度小于距离阈值γ的事件ej时,认为已筛选出与ei局部最相似的事件,将该事件执行的活动赋值给ei的CandActBasedAttr属性;若迭代结束仍未出现相似度小于距离阈值γ的事件ej,则将相似度最小的事件ej执行的活动赋值给ei的CandActBasedAttr属性;
S5.将S2中获得的CandActBasedAct属性、S3中获得的CandActBasedPos属性和S4中获得的CandActBasedAttr属性进行级联,得到为ε中的每个事件对应的下一候选活动集合CandAct:
CandAct={CandActBasedAct,CandActBasedAttr,CandActBasedPos}。
2.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法,其特征在于S22中所述的依赖度阈值α取0.5。
3.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法,其特征在于S43中所述的对ε中的每个事件ei的属性进行编码具体步骤如下:首先根据属性值是否为数值将属性划分为类别属性和数值属性,然后对类别属性采用one-hot编码,最后将编码后的类别属性向量与数值属性构成的向量合并得到最终的属性向量AttrVec(ei)。
4.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法,其特征在于S44中所述的计算相似度采用的是欧式距离。
5.根据权利要求1所述的一种多角度业务流程下一候选活动提取方法,其特征在于S44中所述的距离阈值γ取0.01。
CN202010730957.7A 2020-07-27 2020-07-27 一种多角度业务流程下一候选活动提取方法 Active CN112052273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010730957.7A CN112052273B (zh) 2020-07-27 2020-07-27 一种多角度业务流程下一候选活动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010730957.7A CN112052273B (zh) 2020-07-27 2020-07-27 一种多角度业务流程下一候选活动提取方法

Publications (2)

Publication Number Publication Date
CN112052273A CN112052273A (zh) 2020-12-08
CN112052273B true CN112052273B (zh) 2021-08-31

Family

ID=73601817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010730957.7A Active CN112052273B (zh) 2020-07-27 2020-07-27 一种多角度业务流程下一候选活动提取方法

Country Status (1)

Country Link
CN (1) CN112052273B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035468B (zh) * 2021-11-08 2024-05-28 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与系统
CN114742371A (zh) * 2022-03-23 2022-07-12 鼎捷软件股份有限公司 业务流程管理系统及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095955A (zh) * 2016-06-16 2016-11-09 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
CN109753591A (zh) * 2018-12-11 2019-05-14 江阴逐日信息科技有限公司 业务流程预测性监控方法
CN110956309A (zh) * 2019-10-30 2020-04-03 南京大学 基于crf和lstm的流程活动预测方法
CN111178623A (zh) * 2019-12-26 2020-05-19 杭州电子科技大学 一种基于多层机器学习的业务流程剩余时间预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251275B2 (en) * 2013-05-16 2016-02-02 International Business Machines Corporation Data clustering and user modeling for next-best-action decisions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095955A (zh) * 2016-06-16 2016-11-09 杭州电子科技大学 基于业务流程日志和实体轨迹配对的行为模式挖掘方法
CN109753591A (zh) * 2018-12-11 2019-05-14 江阴逐日信息科技有限公司 业务流程预测性监控方法
CN110956309A (zh) * 2019-10-30 2020-04-03 南京大学 基于crf和lstm的流程活动预测方法
CN111178623A (zh) * 2019-12-26 2020-05-19 杭州电子科技大学 一种基于多层机器学习的业务流程剩余时间预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A Multi-Stage Deep Learning Approach for Business Process Event Prediction";Nijat Mehdiyev等;《2017 IEEE 19th Conference on Business Informatics》;20170727;第119-128页 *
"基于依赖关联度的业务过程噪声日志过滤方法";孙笑笑等;《计算机集成制造系统》;20190415;第25卷(第4期);第969-977页 *
"轨迹数据挖掘关键技术研究";吴睿智;《中国博士学位论文全文数据库 信息科技辑》;20200715;全文 *

Also Published As

Publication number Publication date
CN112052273A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
Yang et al. Developing a strategy map for forensic accounting with fraud risk management: An integrated balanced scorecard-based decision model
US10083263B2 (en) Automatic modeling farmer
Tong et al. Developing econometrics
CN112052273B (zh) 一种多角度业务流程下一候选活动提取方法
US11494850B1 (en) Applied artificial intelligence technology for detecting anomalies in payroll data
US20210090101A1 (en) Systems and methods for business analytics model scoring and selection
Yung et al. A quality framework for statistical algorithms
Cao et al. Simulation-informed revenue extrapolation with confidence estimate for scaleup companies using scarce time-series data
CN112052990B (zh) 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
Mousanezhad et al. Using Contingency Approach to Improve Firms’ Financial Performance Forecasts
Bai et al. Mercury: A Deep Reinforcement Learning-Based Investment Portfolio Strategy for Risk-Return Balance
Singh et al. Time Series Forecast With Stock's Price Candlestick Patterns And Sequence Similarities
CN115237970A (zh) 数据预测方法、装置、设备、存储介质及程序产品
Medianovskyi et al. Interpretable machine learning for SME financial distress prediction
WO2022271431A1 (en) System and method that rank businesses in environmental, social and governance (esg)
Papadimitriou et al. A multi-faceted approach to large scale financial forecasting
Zhang et al. Guiding bug triage through developer analysis in bug reports
Yang et al. BIC-based data-driven rail track deterioration adaptive piecewise modeling framework
Sowan et al. Evaluation of class decomposition based on clustering validity and k-means algorithm
Zhang et al. Fairness-Aware Streaming Feature Selection with Causal Graphs
Lee et al. Strategies for Imputing Missing Values and Removing Outliers in the Dataset for Machine Learning-Based Construction Cost Prediction
CN113537712B (zh) 一种基于轨迹重演的业务流程剩余活动序列预测方法
Popescu Proposal for a decision support system to predict financial distress
Kornahrens et al. Extracting process instances from user interaction logs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant