CN117194083B - 基于因果推断的流程时间异常根因追溯分析方法与系统 - Google Patents
基于因果推断的流程时间异常根因追溯分析方法与系统 Download PDFInfo
- Publication number
- CN117194083B CN117194083B CN202310727846.4A CN202310727846A CN117194083B CN 117194083 B CN117194083 B CN 117194083B CN 202310727846 A CN202310727846 A CN 202310727846A CN 117194083 B CN117194083 B CN 117194083B
- Authority
- CN
- China
- Prior art keywords
- event
- case
- cause
- timeout
- potential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002159 abnormal effect Effects 0.000 title abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims description 43
- 238000012216 screening Methods 0.000 claims description 19
- 230000027455 binding Effects 0.000 claims description 18
- 238000007689 inspection Methods 0.000 claims description 15
- 230000001965 increasing effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000012634 fragment Substances 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于因果推断的流程时间异常根因追溯分析方法与系统,包括:1)业务理解与日志预处理;2)生成案例超时因果假设,确定潜在原因;3)案例超时原因检验;4)因果关系假设检验;5)生成事件超时因果假设,确定潜在原因,检验因果关系;6)超时根本原因分析。本发明为业务流程面临的超时风险提供了一种基于因果推断的流程时间异常根因追溯分析方法与系统,将事件超时作为案例超时的潜在原因,将日志属性与研究对象的同时段工作负载作为潜在原因,将是否超时作为判断结果,采用因果推断的方法分析案例和事件的超时原因,最终将分析结果可视化。本发明给出了业务流程案例和事件的超时原因,有利于超时风险的预防和避免。
Description
技术领域
本发明涉及业务流程挖掘的技术领域,尤其是指一种基于因果推断的流程时间异常根因追溯分析方法与系统。
背景技术
流程挖掘是一系列可以从历史事件数据中提取有价值信息的技术,经典的流程挖掘技术是指从现有事件日志中挖掘知识以发现、监控和改进实际流程。这些技术能够帮助企业提高生产效率和产品质量,增强企业的竞争力。然而随着企业对于业务流程的监管和效率越发重视,对于业务流程瓶颈、异常或超时原因的洞察得到了广泛的关注,并开展了相关研究。对于问题背后原因的探究工作称之为根本原因分析,简称根因分析。
根因分析的目的是找到某现象(风险)背后的原因及其可控的相关原因,针对可变原因提出解决和优化方案以避免或缓解风险。根因分析通常结合领域知识,即该现象(风险)是已知的,是基于流程发现、合规性检查和预测性监控等技术中发现的问题或实际流程执行过程中常遇到的问题。通过建模、信息提取等技术分析具体问题,提出对应的解决方案。目前对于流程中现象(风险)的根因分析应用的方法主要包含日志信息丰富方法、决策树算法、因果推断和资源优化等方法。一般思路为,首先基于事件日志提取可能导致某现象的特征,然后通过机器学习或因果推断的方法确定具有影响的原因,最后通过对可控原因的调整和重新规划达到避免风险的目的。
超时是业务流程中常见的风险之一,业务超时可能会面临巨大的经济和信誉损失。业务超时现象的潜在原因繁多,潜在原因的提取需全面,然而逐一进行分析影响根因的判断效率。因此,对于潜在原因的全面提取和根因分析方法的效率和准确性是业务流程超时风险根因分析中亟需解决的问题。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于因果推断的流程时间异常根因追溯分析方法,该方法为业务流程超时风险提供一种根因追溯的分析思路,确定超时风险的潜在原因,将事件超时作为案例超时的潜在原因,采用了Kleinberg的因果推断方法进行原因检验,通过错误发现率(False Discovery Rate,FDR)进行因果关系评估,找出案例和事件超时的根本原因。
本发明的第二目的在于提供一种基于因果推断的流程时间异常根因追溯分析系统。
本发明的第一目的通过下述技术方案实现:基于因果推断的流程时间异常根因追溯分析方法,包括以下步骤:
1)业务理解与事件日志预处理:
理解真实业务流程,区分事件日志的案例与事件级别属性,删除重复属性,扩展时间信息,添加工作负载,离散化数值属性;
2)生成案例超时因果假设,确定潜在原因:
生成基于时间性能的案例超时因果假设,从步骤1)预处理的日志中选取案例级别属性、案例开始时间、同时期案例的工作负载,生成案例变体、捆绑活动及其执行时间共同作为案例超时的潜在原因;
3)案例超时原因检验:
将步骤2)中确定的潜在原因应用Kleinberg的因果推断方法进行原因检验,删除未增加超时发生概率的初步原因,计算候选原因的epsilon值;
4)因果关系假设检验:
将步骤3)的候选原因进行假设检验,采用误发现率FDR作为评估指标,若某候选原因的FDR小于给定阈值则说明其为根本原因;
5)生成事件超时因果假设,确定潜在原因,检验因果关系:
若步骤4)中根本原因为事件超时,则生成基于时间性能的事件超时因果假设,从步骤1)预处理的日志中选取事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,生成的流程轨迹前缀、捆绑前缀事件的活动与资源共同作为潜在原因,采用步骤3)、4)的检验方法得到事件超时的根本原因;
6)超时根本原因分析:
将步骤4)、5)得到的超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,方便用户直观了解导致超时的根本原因和其它相关原因。
进一步,所述步骤1)包括以下步骤:
1.1)根据事件日志和业务背景,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,区分事件日志的案例与事件级别属性,删除无关、重复属性,将时间戳扩展为5个数值属性,包括执行时间、总执行时间、月份、日期和星期,计算案例、事件及同一类型事件中资源的工作负载,并将所有的数值属性进行离散化处理,即根据四分之一分位数、四分之三分位数划分为三类。
进一步,所述步骤2)包括以下步骤:
2.1)生成基于时间性能的案例超时因果假设的结果,统计步骤1)预处理后的案例执行时间,以最大案例的执行时间乘以一个给定阈值作为超时案例的判断标准,或用户制定具体的案例执行所需时长,根据确定时长将所有超时案例进行筛选并标记其为“案例超时”;
2.2)确定案例超时因果假设的潜在原因,从步骤1)预处理的事件日志中选择可能为案例超时原因的属性,包括案例级别属性、案例开始时间、同时期案例的工作负载,以及生成的案例变体、活动与其执行时间的捆绑属性共同作为潜在原因;
所述案例级别属性是指在案例的整个生命周期中不会变化的属性;所述案例开始时间包含案例开始时间戳中的月、星期、日期;所述同时期案例的工作负载是指在某案例的生命周期中,与其执行时间有重叠的案例个数。
进一步,在步骤3)中,将步骤2)中确定的潜在原因应用Kleinberg的因果推断方法进行原因检验,具体检验方法如下:
3.1)初步原因筛选,删除未增加超时发生概率的潜在原因,判断方法如下:
式中,e表示超时案例,c表示某潜在原因,cases表示所有案例,P(e)为超时案例发生的概率,P(e|c)为在潜在原因c发生的案例中案例超时的概率,若P(e|c)>P(e),则说明潜在原因c增加了超时案例e发生的概率,保留该原因,否则删除该原因,经过初步筛选后的潜在原因集合称为候选原因;
3.2)计算候选原因的epsilon值,由于步骤3.1)筛选出的候选原因中存在虚假原因,为了将虚假原因与真实原因进行区分,采用epsilon值作为因果关系的衡量标准,为后续进行假设检验,epsilon值的计算方法由Kleinberg提出,记为εavg,其计算公式如下:
式中,x表示除c以外的某候选原因,X为所有除c以外的候选原因集合,P(e|c∧x)表示在候选原因c和x共同发生的案例中案例超时的概率,表示在候选原因c不发生和x发生的案例中案例超时的概率,εx(c,e)表示在候选原因x发生的情况下c是否发生对于超时案例发生的概率变化,εavg(c,e)为在所有其它候选原因的影响下c是否发生对于超时案例发生的概率变化平均值,即表示c的发生对于超时案例发生的影响,所有候选原因都计算一个epsilon值。
进一步,在步骤4)中,将步骤3)所有候选原因的epsilon值作为假设检验的基础,采用误发现率FDR进行评估,得到影响案例超时的根本原因,包括以下步骤:
4.1)计算候选原因epsilon值的z-value值,计算公式如下:
z=(εavg-μ)/σ
式中,μ表示总体样本空间的均值,σ表示总体样本空间的标准差;
所述z-value是对某一原始分值进行转换,转变成的一个标准分值,该标准分值能使得原来无法比较的数值变得可比;
4.2)将步骤4.1)标准化的z-value值采用误发现率FDR对其进行一一评估,通过泊松回归拟合z-value值计算FDR,若FDR小于给定阈值则说明该候选原因与案例超时具有因果关系;
所述FDR是指拒绝原假设的个数占所有被拒绝的原假设个数的比例的期望值,FDR能够灵活调整其取值,作为假设检验错误率的控制指标。
进一步,在步骤5)中,生成事件超时因果假设的结果,确定潜在原因,检验因果关系,得到事件超时原因,包括以下步骤:
5.1)若步骤4)中得到的案例超时根本原因为某事件超时,则针对此事件超时情况分析其根本原因;
5.2)针对步骤5.1)中的超时事件,生成基于时间性能的事件超时因果假设的结果,统计步骤1)预处理后的事件执行时间,以最大事件的执行时间乘以一个给定阈值作为超时事件的判断标准,或者用户制定具体的事件执行所需时长,根据确定时长将所有超时事件进行筛选并标记其为“事件超时”;
5.3)确定事件超时因果假设的潜在原因,从步骤1)预处理的事件日志中选择可能为事件超时原因的属性,包括事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,以及事件发生前的所有事件与对应执行资源的捆绑属性共同作为潜在原因;
所述事件级别属性是指在案例的整个生命周期中会变化的属性;所述事件开始时间包含事件开始时间戳中的月、星期、日期;所述同时期事件的工作负载是指在某事件的生命周期中,与其执行时间有重叠的事件个数,所述资源同时期处理事件的工作负载是指事件的执行者在此事件的执行期间还同步执行的事件数;
5.4)将步骤5.3)确定的潜在原因依次采用步骤3)和4)的检验方法评估潜在原因,得到导致事件超时的根本原因。
进一步,在步骤6)中,对于得到的超时根本原因进行分析,包括以下步骤:
6.1)将步骤3)和4)得到的案例超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,方便用户直观了解导致案例超时的根本原因和其它相关原因;
6.2)若步骤6.1)所展示的案例超时原因包含某事件超时,则将步骤5)分析得到的事件超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,否则省略该步骤。
本发明的第二目的通过下述技术方案实现:基于因果推断的流程时间异常根因追溯分析系统,用于实现上述的基于因果推断的流程时间异常根因追溯分析方法,其包括:
日志预处理模块,根据事件日志和业务背景了解具体的业务流程,将事件日志进行预处理,区分事件日志的案例与事件级别属性,删除无关、重复属性,将时间戳属性扩展为5个数值属性,包括执行时间、总执行时间、月份、日期和星期,计算案例、事件及同一类型事件中资源的工作负载,并将所有的数值属性进行离散化处理;
案例超时潜在原因生成模块,生成基于时间性能的案例超时因果假设的结果,统计预处理后的案例执行时间,以最大案例的执行时间乘以一个给定阈值作为超时案例的判断标准,或者用户制定具体的案例执行所需时长,根据确定时长将所有超时案例进行筛选并标记其为“案例超时”,然后确定案例超时因果假设的潜在原因,从预处理的事件日志中选择可能为案例超时原因的属性,包括案例级别属性、案例开始时间、同时期案例的工作负载,以及生成的案例变体、活动与其执行时间的捆绑属性共同作为潜在原因;
潜在原因检验模块,对潜在原因进行初步筛选,删除未增加超时发生概率的潜在原因,若潜在原因增加了超时结果发生的概率,保留该原因,否则删除该原因,经过初步筛选后的潜在原因集合称为候选原因,然后计算候选原因的epsilon值,由于筛选出的候选原因中存在虚假原因,为了将虚假原因与真实原因进行区分,采用epsilon值作为因果关系的衡量标准,为后续进行假设检验,所有候选原因都计算一个epsilon值;
因果关系假设检验模块,计算候选原因epsilon值的z-value值,将标准化的z-value值采用误发现率FDR对其进行一一进行评估,通过泊松回归拟合z-value值计算FDR,若FDR小于给定阈值则说明该候选原因与案例超时具有因果关系;
事件超时因果检验模块,若案例超时的根本原因确定为某事件超时,则针对此事件超时情况分析其根本原因,生成基于时间性能的事件超时因果假设的结果,统计预处理后的事件执行时间,以最大事件的执行时间乘以一个给定阈值作为超时事件的判断标准,或者用户可以制定具体的事件执行所需时长,根据确定时长将所有超时事件进行筛选并标记其为“事件超时”,然后生成事件超时因果假设的潜在原因,从预处理的事件日志中选择可能为事件超时原因的属性,包括事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,以及事件发生前的所有事件与对应执行资源的捆绑属性共同作为潜在原因,最后将确定的潜在原因依次采用因果推断和假设检验方法评估潜在原因,得到导致事件超时的根本原因;
超时根本原因分析模块,将分析所得的案例超时原因进行可视化,并根据epsilon值的排序展示其他相关原因,方便用户直观了解导致案例超时的根本原因和其它相关原因,若案例超时原因包含某事件超时,则将分析得到的事件超时原因进行可视化,并根据epsilon值的排序展示其它相关原因。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了针对时间性能的业务流程根本原因分析。
2、本发明首次实现了对于业务流程案例超时风险的根因追溯的分析思路。
3、本发明首次实现了对于业务流程事件超时风险的根因分析。
4、本发明应用了Kleinberg的因果推断方法对案例和事件超时确定的潜在原因进行原因检验。
5、本发明采用误发现率(False Discovery Rate,FDR)对案例和事件超时候选原因进行评估,得到了导致超时的根本原因。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明系统架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例公开了一种基于因果推断的流程时间异常根因追溯分析方法,包括以下步骤:
1)理解业务流程背景,预处理事件日志:
1.1)根据事件日志和业务背景,了解其具体的业务流程,分析梳理事件日志中有无重复及无关属性;
在本步骤中选用了一个来自4TU Center for Research的公开事件日志数据集Helpdesk事件日志,其涉及一家意大利软件公司帮助台的票务管理流程。事件日志的内容片段如表1所示。
表1Helpdesk事件日志的内容片段
1.2)对步骤1.1)中的事件日志进行预处理,区分案例与事件级别属性,删除无关、重复属性,其中Variant index作为数据泄露属性将其删除,将时间戳属性CompleteTime扩展为5个数值属性,包括执行时间、总执行时间、月份、日期和星期,计算案例、事件及同一类型事件中资源的工作负载,并将所有的数值属性进行离散化处理,根据四分之一分位数、四分之三分位数划分为三类。
2)生成案例超时的因果假设的结果,确定潜在原因:
2.1)生成基于时间性能的案例超时因果假设的结果,统计步骤1)预处理后的案例执行时间,以最大案例的执行时间乘以一个给定阈值作为超时案例的判断标准,或者用户可以制定具体的案例执行所需时长,根据确定时长将所有超时案例进行筛选并标记其为“案例超时”;
2.2)确定案例超时因果假设的潜在原因,从步骤1)预处理的事件日志中选择可能为案例超时原因的属性,包括案例级别属性、案例开始时间、同时期案例的工作负载,以及生成的案例变体、活动与其执行时间的捆绑属性共同作为潜在原因;
所述案例级别属性是指在案例的整个生命周期中不会变化的属性;所述案例开始时间包含案例开始时间戳中的月、星期、日期;所述同时期案例的工作负载是指在某案例的生命周期中,与其执行时间有重叠的案例个数。
在本步骤中,Helpdesk事件日志最终确定的案例超时潜在原因共280个,分别为案例级别属性,包含seriousness、responsible_section、support_section,案例开始时间,包含离散处理后的month、day、week,同时期案例的工作负载caseLoad,以及生成的案例变体、活动与其执行时间的捆绑属性case:concept:name-duration,其中执行时间duration经过离散化处理,案例超时潜在原因片段如表2所示,其中离散化属性冒号后的内容为其离散后的类型,案例级别属性后括号中的内容为其属性值,“->”表示流程变体中的活动步骤流转。
表2 Helpdesk事件日志案例超时潜在原因片段
案例 | 潜在原因 |
Case 151 | day:1-10 |
Case 151 | Assign seriousness-duration:Assign seriousness 0.0-0.0 |
Case 151 | week:0-4 |
Case 151 | seriousness(Value 1) |
Case 151 | Assign seriousness->Take in charge ticket->Resolve ticket |
Case 151 | caseLoad:<106 |
Case 151 | responsible_section(Value 4) |
Case 151 | support_section(Value 3) |
Case 151 | month:1-3 |
Case 151 | Resolve ticket-duration:<0.002 |
Case 151 | Take in charge ticket-duration:0.001-5.116 |
3)将步骤2)中确定的潜在原因采用Kleinberg的因果推断方法进行原因检验,其具体检验方法如下:
3.1)初步原因筛选,删除未增加超时发生概率的潜在原因,判断方法如下:
式中,e表示超时案例,c表示某潜在原因,cases表示所有案例,P(e)为超时案例发生的概率,P(e|c)为在潜在原因c发生的案例中案例超时的概率,若P(e|c)>P(e),则说明潜在原因c增加了超时案例e发生的概率,保留该原因,否则删除该原因,经过初步筛选后的潜在原因集合称为候选原因;
在本步骤中,经过初步筛选280个潜在原因最终保留了163个候选原因。
3.2)计算候选原因的epsilon值,由于步骤3.1)筛选出的候选原因中存在虚假原因,为了将虚假原因与真实原因进行区分,采用epsilon值作为因果关系的衡量标准,可后续进行假设检验,epsilon值的计算方法由Kleinberg提出,记为εavg,其计算公式如下:
式中,e表示超时案例,c表示某候选原因,x表示除c以外的某候选原因,X为所有除c以外的某候选原因集合,P(e|c∧x)表示在候选原因c和x共同发生的案例中案例超时的概率,表示在候选原因c不发生和x发生的案例中案例超时的概率,εx(c,e)表示在候选原因x发生的情况下c是否发生对于超时案例发生的概率变化,εavg(c,e)为在所有其他候选原因的影响下c是否发生对于超时案例发生的概率变化平均值,即表示c的发生对于超时案例发生的影响,所有候选原因都计算一个epsilon值。
在本步骤中,计算了案例超时所有候选原因的epsilon值。
4)将步骤3)所有候选原因的epsilon值作为假设检验的基础,采用误发现率(False Discovery Rate,FDR)进行评估,得到影响案例超时的根本原因:
4.1)计算候选原因epsilon值的z-value值,计算公式如下:
z=(εavg-μ)/σ
式中,μ表示总体样本空间的均值,σ表示总体样本空间的标准差;
所述z-value是对某一原始分值进行转换,转变成的一个标准分值,该标准分值可使得原来无法比较的数值变得可比;
4.2)将步骤4.1)标准化的z-value值采用误发现率FDR对其进行一一评估,通过泊松回归拟合z-value值计算FDR,若FDR小于给定阈值则说明该候选原因与案例超时具有因果关系;
所述FDR是指拒绝原假设的个数占所有被拒绝的原假设个数的比例的期望值,FDR可以灵活调整其取值,作为假设检验错误率的控制指标,通常定为0.05。
在本步骤中,假设检验错误率的控制指标设置为0.05,最终得到根本原因为:Resolve ticket-duration:>6.092,即Resolve ticket执行时间超过设置阈值6.092天的事件是导致其案例超时的根本原因。
5)生成事件超时因果假设的结果,确定潜在原因,进行因果检验,得到事件超时原因:
5.1)步骤4)中得到的案例超时根本原因为Resolve ticket活动的执行事件超时,则针对此事件超时情况分析其根本原因;
5.2)针对步骤5.1)中的超时事件,生成基于时间性能的事件超时因果假设的结果,统计步骤1)预处理后的事件执行时间,以最大事件的执行时间乘以一个给定阈值作为超时事件的判断标准,或者用户可以制定具体的事件执行所需时长,根据确定时长将所有超时事件进行筛选并标记其为“事件超时”;
5.3)确定事件超时因果假设的潜在原因,从步骤1)预处理的事件日志中选择可能为事件超时原因的属性,包括事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,以及事件发生前的所有事件与对应执行资源的捆绑属性共同作为潜在原因;
所述事件级别属性是指在案例的整个生命周期中会变化的属性;所述事件开始时间包含事件开始时间戳中的月、星期、日期;所述同时期事件的工作负载是指在某事件的生命周期中,与其执行时间有重叠的事件个数,所述资源同时期处理事件的工作负载是指事件的执行者在此事件的执行期间还同步执行的事件数;
在本步骤中,最终确定的Resolve ticket活动执行事件超时潜在原因共220个,分别为事件级别属性,包含org:resource、product、seriousness_2、service_level、service_type、workgroup,案例开始时间,离散处理后的month、day、week,同时期事件的工作负载eventLoad、资源同时期处理事件的工作负载resourceLoad,以及事件发生前的所有事件与对应执行资源的捆绑属性concept:name-org:resource,事件超时潜在原因片段如表3所示。
表3 Resolve ticket活动执行事件超时潜在原因片段
事件 | 潜在原因 |
Event 110 | day:21-31 |
Event 110 | service_type(Value 1) |
Event 110 | service_level(Level 2) |
Event 110 | workgroup(Value 1) |
Event 110 | week:0-4 |
Event 110 | eventLoad:Resolve ticket 3-251 |
Event 110 | product(Value 3) |
Event 110 | month:10-12 |
Event 110 | org:resource(Value 2) |
Event 110 | resourceLoad:org:resource(Value 2)1-46 |
Event 110 | seriousness_2(Value 1) |
Event 110 | Assign seriousness-org:resource(Value 13) |
5.4)将步骤5.3)确定的潜在原因依次采用步骤3)和4)的检验方法评估潜在原因,得到导致事件超时的根本原因。
在本步骤中,经过初步筛选220个潜在原因最终保留了196个候选原因,计算了案例超时所有候选原因的epsilon值,假设检验错误率的控制指标设置为0.05,最终得到根本原因为:eventLoad:Resolve ticket>251,即Resolve ticket同时期事件的工作负载超过251件的事件是导致其事件超时的根本原因。
6)对于得到的超时根本原因进行分析:
6.1)将步骤3)、4)得到的案例超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,方便用户直观了解导致案例超时的根本原因和其它相关原因;
在本步骤中,案例超时候选原因按照epsilon值进行排序,并将列出了取值较高的候选原因如表4所示,其中排名第一的Resolve ticket事件超时即为最终确定的根本原因,此外Take in charge ticket和Closed的执行时间也对于案例超时具有重要影响,业务流程中包含Wait活动时也容易发生超时风险。
表4Helpdesk事件日志案例超时候选原因的epsilon值列表片段
6.2)若步骤6.1)所展示的案例超时原因包含某事件超时,则将步骤5)分析得到的事件超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,否则省略该步骤。
在本步骤中,Resolve ticket事件超时候选原因按照epsilon值进行排序,并将列出了取值较高的候选原因如表6所示,其中排名第一的事件负载过多即为最终确定的根本原因,此外执行资源和资源负载也对于案例超时具有重要影响。
表6Resolve ticket事件超时候选原因的epsilon值列表片段
实施例2
本实施例公开了一种基于因果推断的流程时间异常根因追溯分析系统,用于实现实施例1所述的基于因果推断的流程时间异常根因追溯分析方法,如图2所示,该系统包括以下功能模块:
日志预处理模块,根据事件日志和业务背景了解具体的业务流程,将事件日志进行预处理,区分事件日志的案例与事件级别属性,删除无关、重复属性,将时间戳属性扩展为5个数值属性,包括执行时间、总执行时间、月份、日期和星期,计算案例、事件及同一类型事件中资源的工作负载,并将所有的数值属性进行离散化处理;
案例超时潜在原因生成模块,生成基于时间性能的案例超时因果假设的结果,统计预处理后的案例执行时间,以最大案例的执行时间乘以一个给定阈值作为超时案例的判断标准,或者用户可以制定具体的案例执行所需时长,根据确定时长将所有超时案例进行筛选并标记其为“案例超时”,然后确定案例超时因果假设的潜在原因,从预处理的事件日志中选择可能为案例超时原因的属性,包括案例级别属性、案例开始时间、同时期案例的工作负载,以及生成的案例变体、活动与其执行时间的捆绑属性共同作为潜在原因;
潜在原因检验模块,对潜在原因进行初步筛选,删除未增加超时发生概率的潜在原因,若潜在原因增加了超时结果发生的概率,保留该原因,否则删除该原因,经过初步筛选后的潜在原因集合称为候选原因,然后计算候选原因的epsilon值,由于筛选出的候选原因中存在虚假原因,为了将虚假原因与真实原因进行区分,采用epsilon值作为因果关系的衡量标准,可后续进行假设检验,所有候选原因都计算一个epsilon值;
因果关系假设检验模块,计算候选原因epsilon值的z-value值,将标准化的z-value值采用误发现率FDR对其进行一一进行评估,通过泊松回归拟合z-value值计算FDR,若FDR小于给定阈值则说明该候选原因与案例超时具有因果关系;
事件超时因果检验模块,若案例超时的根本原因确定为某事件超时,则针对此事件超时情况分析其根本原因,生成基于时间性能的事件超时因果假设的结果,统计预处理后的事件执行时间,以最大事件的执行时间乘以一个给定阈值作为超时事件的判断标准,或者用户可以制定具体的事件执行所需时长,根据确定时长将所有超时事件进行筛选并标记其为“事件超时”,然后生成事件超时因果假设的潜在原因,从预处理的事件日志中选择可能为事件超时原因的属性,包括事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,以及事件发生前的所有事件与对应执行资源的捆绑属性共同作为潜在原因,最后将确定的潜在原因依次采用因果推断和假设检验方法评估潜在原因,得到导致事件超时的根本原因;
超时根本原因分析模块,将分析所得的案例超时原因进行可视化,并根据epsilon值的排序展示其他相关原因,方便用户直观了解导致案例超时的根本原因和其它相关原因,若案例超时原因包含某事件超时,则将分析得到的事件超时原因进行可视化,并根据epsilon值的排序展示其它相关原因。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.基于因果推断的流程时间异常根因追溯分析方法,其特征在于,包括以下步骤:
1)业务理解与事件日志预处理:
理解真实业务流程,区分事件日志的案例与事件级别属性,删除重复属性,扩展时间信息,添加工作负载,离散化数值属性;
2)生成案例超时因果假设,确定潜在原因:
生成基于时间性能的案例超时因果假设,从步骤1)预处理的日志中选取案例级别属性、案例开始时间、同时期案例的工作负载,生成案例变体、捆绑活动及其执行时间共同作为案例超时的潜在原因;
3)案例超时原因检验:
将步骤2)中确定的潜在原因应用Kleinberg的因果推断方法进行原因检验,删除未增加超时发生概率的初步原因,计算候选原因的epsilon值;
其中,将步骤2)中确定的潜在原因应用Kleinberg的因果推断方法进行原因检验,具体检验方法如下:
3.1)初步原因筛选,删除未增加超时发生概率的潜在原因,判断方法如下:
式中,e表示超时案例,c表示某潜在原因,cases表示所有案例,P(e)为超时案例发生的概率,P(e|c)为在潜在原因c发生的案例中案例超时的概率,若P(e|c)>P(e),则说明潜在原因c增加了超时案例e发生的概率,保留该原因,否则删除该原因,经过初步筛选后的潜在原因集合称为候选原因;
3.2)计算候选原因的epsilon值,由于步骤3.1)筛选出的候选原因中存在虚假原因,为了将虚假原因与真实原因进行区分,采用epsilon值作为因果关系的衡量标准,为后续进行假设检验,epsilon值的计算方法由Kleinberg提出,记为εavg,其计算公式如下:
式中,x表示除c以外的某候选原因,X\c表示所有除c以外的候选原因集合,P(e|c^x)表示在候选原因c和x共同发生的案例中案例超时的概率,表示在候选原因c不发生和x发生的案例中案例超时的概率,εx(c,e)表示在候选原因x发生的情况下c是否发生对于超时案例发生的概率变化,εavg(c,e)为在所有其它候选原因的影响下c是否发生对于超时案例发生的概率变化平均值,即表示c的发生对于超时案例发生的影响,所有候选原因都计算一个epsilon值;
4)因果关系假设检验:
将步骤3)的候选原因进行假设检验,采用误发现率FDR作为评估指标,若某候选原因的FDR小于给定阈值则说明其为根本原因;
5)生成事件超时因果假设,确定潜在原因,检验因果关系:
若步骤4)中根本原因为事件超时,则生成基于时间性能的事件超时因果假设,从步骤1)预处理的日志中选取事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,生成的流程轨迹前缀、捆绑前缀事件的活动与资源共同作为潜在原因,采用步骤3)、4)的检验方法得到事件超时的根本原因;
6)超时根本原因分析:
将步骤4)、5)得到的超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,方便用户直观了解导致超时的根本原因和其它相关原因。
2.根据权利要求1所述的基于因果推断的流程时间异常根因追溯分析方法,其特征在于,所述步骤1)包括以下步骤:
1.1)根据事件日志和业务背景,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,区分事件日志的案例与事件级别属性,删除无关、重复属性,将时间戳扩展为5个数值属性,包括执行时间、总执行时间、月份、日期和星期,计算案例、事件及同一类型事件中资源的工作负载,并将所有的数值属性进行离散化处理,即根据四分之一分位数、四分之三分位数划分为三类。
3.根据权利要求2所述的基于因果推断的流程时间异常根因追溯分析方法,其特征在于,所述步骤2)包括以下步骤:
2.1)生成基于时间性能的案例超时因果假设的结果,统计步骤1)预处理后的案例执行时间,以最大案例的执行时间乘以一个给定阈值作为超时案例的判断标准,或用户制定具体的案例执行所需时长,根据确定时长将所有超时案例进行筛选并标记其为“案例超时”;
2.2)确定案例超时因果假设的潜在原因,从步骤1)预处理的事件日志中选择可能为案例超时原因的属性,包括案例级别属性、案例开始时间、同时期案例的工作负载,以及生成的案例变体、活动与其执行时间的捆绑属性共同作为潜在原因;
所述案例级别属性是指在案例的整个生命周期中不会变化的属性;所述案例开始时间包含案例开始时间戳中的月、星期、日期;所述同时期案例的工作负载是指在某案例的生命周期中,与其执行时间有重叠的案例个数。
4.根据权利要求3所述的基于因果推断的流程时间异常根因追溯分析方法,其特征在于,在步骤4)中,将步骤3)所有候选原因的epsilon值作为假设检验的基础,采用误发现率FDR进行评估,得到影响案例超时的根本原因,包括以下步骤:
4.1)计算候选原因epsilon值的z-value值,计算公式如下:
z=(εavg-μ)/σ
式中,z代表计算出的z-value值,μ表示总体样本空间的均值,σ表示总体样本空间的标准差;
所述z-value是对某一原始分值进行转换,转变成的一个标准分值,该标准分值能使得原来无法比较的数值变得可比;
4.2)将步骤4.1)标准化的z-value值采用误发现率FDR对其进行一一评估,通过泊松回归拟合z-value值计算FDR,若FDR小于给定阈值则说明该候选原因与案例超时具有因果关系;
所述FDR是指拒绝原假设的个数占所有被拒绝的原假设个数的比例的期望值,FDR能够灵活调整其取值,作为假设检验错误率的控制指标。
5.根据权利要求4所述的基于因果推断的流程时间异常根因追溯分析方法,其特征在于,在步骤5)中,生成事件超时因果假设的结果,确定潜在原因,检验因果关系,得到事件超时原因,包括以下步骤:
5.1)若步骤4)中得到的案例超时根本原因为某事件超时,则针对此事件超时情况分析其根本原因;
5.2)针对步骤5.1)中的超时事件,生成基于时间性能的事件超时因果假设的结果,统计步骤1)预处理后的事件执行时间,以最大事件的执行时间乘以一个给定阈值作为超时事件的判断标准,或者用户制定具体的事件执行所需时长,根据确定时长将所有超时事件进行筛选并标记其为“事件超时”;
5.3)确定事件超时因果假设的潜在原因,从步骤1)预处理的事件日志中选择可能为事件超时原因的属性,包括事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,以及事件发生前的所有事件与对应执行资源的捆绑属性共同作为潜在原因;
所述事件级别属性是指在案例的整个生命周期中会变化的属性;所述事件开始时间包含事件开始时间戳中的月、星期、日期;所述同时期事件的工作负载是指在某事件的生命周期中,与其执行时间有重叠的事件个数,所述资源同时期处理事件的工作负载是指事件的执行者在此事件的执行期间还同步执行的事件数;
5.4)将步骤5.3)确定的潜在原因依次采用步骤3)和4)的检验方法评估潜在原因,得到导致事件超时的根本原因。
6.根据权利要求5所述的基于因果推断的流程时间异常根因追溯分析方法,其特征在于,在步骤6)中,对于得到的超时根本原因进行分析,包括以下步骤:
6.1)将步骤3)和4)得到的案例超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,方便用户直观了解导致案例超时的根本原因和其它相关原因;
6.2)若步骤6.1)所展示的案例超时原因包含某事件超时,则将步骤5)分析得到的事件超时原因进行可视化,并根据epsilon值的排序展示其它相关原因,否则省略该步骤。
7.基于因果推断的流程时间异常根因追溯分析系统,其特征在于,用于实现权利要求1至6中任一项所述的基于因果推断的流程时间异常根因追溯分析方法,其包括:
日志预处理模块,根据事件日志和业务背景了解具体的业务流程,将事件日志进行预处理,区分事件日志的案例与事件级别属性,删除无关、重复属性,将时间戳属性扩展为5个数值属性,包括执行时间、总执行时间、月份、日期和星期,计算案例、事件及同一类型事件中资源的工作负载,并将所有的数值属性进行离散化处理;
案例超时潜在原因生成模块,生成基于时间性能的案例超时因果假设的结果,统计预处理后的案例执行时间,以最大案例的执行时间乘以一个给定阈值作为超时案例的判断标准,或者用户制定具体的案例执行所需时长,根据确定时长将所有超时案例进行筛选并标记其为“案例超时”,然后确定案例超时因果假设的潜在原因,从预处理的事件日志中选择可能为案例超时原因的属性,包括案例级别属性、案例开始时间、同时期案例的工作负载,以及生成的案例变体、活动与其执行时间的捆绑属性共同作为潜在原因;
潜在原因检验模块,对潜在原因进行初步筛选,删除未增加超时发生概率的潜在原因,若潜在原因增加了超时结果发生的概率,保留该原因,否则删除该原因,经过初步筛选后的潜在原因集合称为候选原因,然后计算候选原因的epsilon值,由于筛选出的候选原因中存在虚假原因,为了将虚假原因与真实原因进行区分,采用epsilon值作为因果关系的衡量标准,为后续进行假设检验,所有候选原因都计算一个epsilon值;
因果关系假设检验模块,计算候选原因epsilon值的z-value值,将标准化的z-value值采用误发现率FDR对其进行一一进行评估,通过泊松回归拟合z-value值计算FDR,若FDR小于给定阈值则说明该候选原因与案例超时具有因果关系;
事件超时因果检验模块,若案例超时的根本原因确定为某事件超时,则针对此事件超时情况分析其根本原因,生成基于时间性能的事件超时因果假设的结果,统计预处理后的事件执行时间,以最大事件的执行时间乘以一个给定阈值作为超时事件的判断标准,或者用户可以制定具体的事件执行所需时长,根据确定时长将所有超时事件进行筛选并标记其为“事件超时”,然后生成事件超时因果假设的潜在原因,从预处理的事件日志中选择可能为事件超时原因的属性,包括事件级别属性、事件开始时间、同时期事件的工作负载、资源同时期处理事件的工作负载,以及事件发生前的所有事件与对应执行资源的捆绑属性共同作为潜在原因,最后将确定的潜在原因依次采用因果推断和假设检验方法评估潜在原因,得到导致事件超时的根本原因;
超时根本原因分析模块,将分析所得的案例超时原因进行可视化,并根据epsilon值的排序展示其他相关原因,方便用户直观了解导致案例超时的根本原因和其它相关原因,若案例超时原因包含某事件超时,则将分析得到的事件超时原因进行可视化,并根据epsilon值的排序展示其它相关原因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727846.4A CN117194083B (zh) | 2023-06-19 | 2023-06-19 | 基于因果推断的流程时间异常根因追溯分析方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727846.4A CN117194083B (zh) | 2023-06-19 | 2023-06-19 | 基于因果推断的流程时间异常根因追溯分析方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117194083A CN117194083A (zh) | 2023-12-08 |
CN117194083B true CN117194083B (zh) | 2024-03-29 |
Family
ID=88989433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310727846.4A Active CN117194083B (zh) | 2023-06-19 | 2023-06-19 | 基于因果推断的流程时间异常根因追溯分析方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194083B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363634A (zh) * | 2018-01-18 | 2018-08-03 | 阿里巴巴集团控股有限公司 | 一种业务处理失败原因识别方法、装置及设备 |
CN110147387A (zh) * | 2019-05-08 | 2019-08-20 | 腾讯科技(上海)有限公司 | 一种根因分析方法、装置、设备及存储介质 |
CN111160329A (zh) * | 2019-12-27 | 2020-05-15 | 深圳前海微众银行股份有限公司 | 一种根因分析的方法及装置 |
CN113590451A (zh) * | 2021-09-29 | 2021-11-02 | 阿里云计算有限公司 | 一种根因定位方法、运维服务器及存储介质 |
CN114757468A (zh) * | 2022-02-18 | 2022-07-15 | 北京凡得科技有限公司 | 一种面向流程挖掘中流程执行异常的根源分析方法 |
CN114971710A (zh) * | 2022-05-25 | 2022-08-30 | 北京凡得科技有限公司 | 基于事件日志的多维度流程变体差异分析方法与系统 |
CN115952919A (zh) * | 2023-01-16 | 2023-04-11 | 哈尔滨工业大学(威海) | 基于流程挖掘的风险智能预测方法 |
CN116225769A (zh) * | 2023-05-04 | 2023-06-06 | 北京优特捷信息技术有限公司 | 一种系统故障根因的确定方法、装置、设备及介质 |
-
2023
- 2023-06-19 CN CN202310727846.4A patent/CN117194083B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363634A (zh) * | 2018-01-18 | 2018-08-03 | 阿里巴巴集团控股有限公司 | 一种业务处理失败原因识别方法、装置及设备 |
CN110147387A (zh) * | 2019-05-08 | 2019-08-20 | 腾讯科技(上海)有限公司 | 一种根因分析方法、装置、设备及存储介质 |
CN111160329A (zh) * | 2019-12-27 | 2020-05-15 | 深圳前海微众银行股份有限公司 | 一种根因分析的方法及装置 |
CN113590451A (zh) * | 2021-09-29 | 2021-11-02 | 阿里云计算有限公司 | 一种根因定位方法、运维服务器及存储介质 |
CN114757468A (zh) * | 2022-02-18 | 2022-07-15 | 北京凡得科技有限公司 | 一种面向流程挖掘中流程执行异常的根源分析方法 |
CN114971710A (zh) * | 2022-05-25 | 2022-08-30 | 北京凡得科技有限公司 | 基于事件日志的多维度流程变体差异分析方法与系统 |
CN115952919A (zh) * | 2023-01-16 | 2023-04-11 | 哈尔滨工业大学(威海) | 基于流程挖掘的风险智能预测方法 |
CN116225769A (zh) * | 2023-05-04 | 2023-06-06 | 北京优特捷信息技术有限公司 | 一种系统故障根因的确定方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
"基于事件日志的业务过程控制流异常检测算法";付建平等;《计算机集成制造系统》;1-18 * |
Also Published As
Publication number | Publication date |
---|---|
CN117194083A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354210B2 (en) | Quality prediction | |
CN110490720A (zh) | 财务数据分析预警方法、装置、计算机设备和存储介质 | |
US20180268258A1 (en) | Automated decision making using staged machine learning | |
CN106708738B (zh) | 一种软件测试缺陷预测方法及系统 | |
CN114757468B (zh) | 一种面向流程挖掘中流程执行异常的根源分析方法 | |
CN108345670B (zh) | 一种用于95598电力工单的服务热点发现方法 | |
CN112418738B (zh) | 一种基于逻辑回归的员工操作风险预测方法 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN104699735A (zh) | 企业级数据中心的数据处理方法及装置 | |
CN113887126A (zh) | 焊点质量分析方法、装置、终端设备及介质 | |
CN110879820A (zh) | 工业数据处理方法、装置 | |
CN117194083B (zh) | 基于因果推断的流程时间异常根因追溯分析方法与系统 | |
KR20220067924A (ko) | 인공지능을 이용한 대출 상시감사지원시스템 | |
CN111352820A (zh) | 一种高性能应用运行状态预测和监控方法、设备和装置 | |
Yeshchenko et al. | Comprehensive process drift analysis with the visual drift detection tool | |
KR102543211B1 (ko) | 비정형 기업 데이터를 이용한 기업성장 예측 시스템 | |
CN117093407B (zh) | 基于改进s-学习器的流程异常级联根因分析方法与系统 | |
Borucka et al. | Application of the digital twin concept in assessing the readiness of production systems | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
Reiter et al. | AIOps–A Systematic Literature Review | |
CN117807545B (zh) | 一种基于数据挖掘的异常检测方法及系统 | |
US11593335B2 (en) | Automatically defining arrival rate meters | |
Kumar et al. | Requirements Engineering Process Model Add-On For Software Development | |
Adanza Dopazo et al. | A Leakage Detection System with an Efficient Prioritization at a District Meter Area Level | |
Foster | Predicting solder defects in printed circuit board assembly (PCBA) process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |