CN114757468A - 一种面向流程挖掘中流程执行异常的根源分析方法 - Google Patents

一种面向流程挖掘中流程执行异常的根源分析方法 Download PDF

Info

Publication number
CN114757468A
CN114757468A CN202210154271.7A CN202210154271A CN114757468A CN 114757468 A CN114757468 A CN 114757468A CN 202210154271 A CN202210154271 A CN 202210154271A CN 114757468 A CN114757468 A CN 114757468A
Authority
CN
China
Prior art keywords
event log
root
attribute
abnormal
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210154271.7A
Other languages
English (en)
Other versions
CN114757468B (zh
Inventor
程龙
杜丽
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fande Technology Co ltd
Original Assignee
Beijing Fande Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fande Technology Co ltd filed Critical Beijing Fande Technology Co ltd
Priority to CN202210154271.7A priority Critical patent/CN114757468B/zh
Publication of CN114757468A publication Critical patent/CN114757468A/zh
Application granted granted Critical
Publication of CN114757468B publication Critical patent/CN114757468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种面向流程挖掘中流程执行异常的根源分析方法,尤指一种基于集合统计的根源分析方法。本发明基于用户选定的属性,导入大规模事件日志,并识别其中的不合规行为;将导入的事件日志拆分为正常事件日志和不合规事件日志,根据正常事件日志构建合法属性值集合,并根据分析目的对不合规事件的属性值进行检查,发现异常根源;从多个维度对异常根源进行影响程度排序,得到更为精确和科学的异常根源分析结果。该方法针对企业信息系统中积累的大量事件日志数据,能够在利用流程挖掘中一致性检测技术识别流程不合规行为的基础上,快速高效地分析产生各种不合规行为的原因。

Description

一种面向流程挖掘中流程执行异常的根源分析方法
技术领域
本发明涉及计算机流程挖掘领域,具体说是一种面向流程挖掘中流程执行异常的根源分析方法,尤指一种基于集合统计的根源分析方法。
背景技术
现有的商业智能(Business Intelligence)软件通常假设企业流程是已知的,并且它们只执行与数据相关的分析操作(如分类、聚类、关联分析等),或在聚合层面上对流程执行的性能进行评估(如平均执行时间等)。这意味着,在当前商业智能的研究和应用中缺少对显示流程的支持,而这就形成了一个新的研究领域--流程挖掘。
流程挖掘是一种从工作流日志中提取有用信息的技术。其是数据挖掘在工作流管理领域的一种较新的应用。工作流挖掘的初衷是通过对工作流运行产生的日志进行分析,重现业务流程的真实过程,利用这些知识对工作流进行分析和优化等。
流程挖掘始于对企业信息系统中业务执行行为的记录,而这样的执行信息通常是以事件日志的形式保存。以事件日志为基础,根据具体的分析目标,流程挖掘技术总的来说可以分为三类:流程发现、一致性检测和流程增强。
流程挖掘不是解决问题的技术,而是发现问题的方法。进一步,通过一致性检查技术将通过流程发现得出的模型和实际流程的各种行为或者事件日志进行比较,检测挖掘得到的模型和实际流程行为的符合程度,检验它们之间的偏差以及权衡其严重性,从而发现出目前的流程存在哪些问题。
根源分析的目标是识别企业真实业务流程中执行异常或者不合规的原因,并以此为基础进一步进行流程或者规范优化。实际场景中,组织中业务流程往往复杂、数量众多,且执行方式灵活多样,会产生大量的业务流程运行数据。一致性检测可以很好的识别用户执行行为与企业规范之间的偏差,但是分析导致这种偏差的原因却非常具有挑战性。根源分析技术就是在这种应用背景下提出来的。
根源分析以实际发生的情况为基础,便于客观地查明各种不合规行为的根本原因,从而最大限度地减少主观看法对结果的影响。它可以确定流程错误的原因,并改进或纠正给定的流程,降低错误再次发生的可能性,以避免未来发生更大的问题;同时,根源分析还可以提高产品质量和生产效率。
常见的根源分析方法包括:通过决策树模型构建技术进行根源分析,通过因果推断技术进行根源分析。
通过决策树模型构建技术进行根源分析,是指基于输入的事件日志,自动构建全量特征集合,根据具体业务场景,构建0-1类型的目标值,通过决策树的方式计算特征与目标值的相关性,将相关性作为重要度进行不合规行为的根源分析(图1)。但该方法评估构建分类器的特征重要程度过程混淆了相关性和因果关系,且该方法基于所有事件的属性值,构建高维度的特征集合,容易导致特征稀疏,模型训练效果差。而且在构建决策树过程中,需要计算流程中的全量特征,特征计算量大。
通过因果推断技术进行根源分析,是指引入因果方程模型对不合规流程进行根源分析,找到导致问题的特征及其影响程度,有针对性的进行流程改进,使结果更有效(图2)。该方法虽并未混淆相关性和因果关系,但需要构建因果图,最终效果严重依赖因果图的合理性。另外,该方法需要处理大量日志数据,计算量大,效率低,不适用于大数据场景下的计算。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种面向流程挖掘中流程执行异常的根源分析方法,尤指一种基于集合统计的根源分析方法。
该方法针对企业信息系统中积累的大量事件日志数据,在利用流程挖掘中一致性检测技术识别流程不合规行为的基础上,快速高效地分析产生各种不合规行为的原因。
为达到以上目的,本发明采取的技术方案是:
一种面向流程挖掘中流程执行异常的根源分析方法,其特征在于,包括如下步骤:
步骤一,基于用户选定的属性,导入大规模事件日志,并识别其中的不合规行为;
步骤二,按照识别的不合规行为,将导入的事件日志拆分为正常事件日志和不合规事件日志,根据正常事件日志构建合法属性值集合,并根据分析目的对不合规事件的属性值进行检查,发现异常根源;
步骤三,从多个维度对异常根源进行影响程度排序。
进一步,步骤二中:
构建合法属性值集合的过程为:根据正常事件日志中每个属性的全部属性值构建合法属性值集合,为(属性,属性值集合)二元组的集合;
对不合规事件的属性值进行检查的过程为:根据分析目的提取不合规事件日志中不合规事件的所有属性值,循环检测各个属性值是否属于对应属性的合法属性值集合,如果不属于其集合,则该属性值将作为一个异常根源。
进一步,步骤三所述排序过程包括:
从影响案例数和相关性两个维度计算异常根源对流程执行异常的影响程度,构建(属性,异常根源,相关性,影响案例数)四元组;
根据构建的四元组对异常根源进行排序。
进一步,影响案例数和相关性的计算过程为:
对于不合规事件的每个异常根源属性值,循环计算在该不合规行为中属性值涉及的流程实例数,作为影响案例数;
循环计算导入的事件日志中包含异常根源属性值的流程实例占比的倒数作为相关性。
进一步,异常根源排序过程为:
根据每个异常根源的相关性对所属属性的异常根源属性值列表进行排序;
根据所有四元组中影响案例数的最大值对异常根源所属属性进行排序;
根据所有属性中影响案例数的最大值对不合规行为进行排序。
本发明所述的一种面向流程挖掘中流程执行异常的根源分析方法,采用分类及集合统计的方式执行根源分析,最终效果没有对模型的依赖性,构建低维度的属性集合,计算量小,简单快速,使得技术使用成本更低,应用范围更广,更加适应大数据场景。
附图说明
本发明有如下附图:
图1通过决策树模型构建技术进行根源分析步骤示意图;
图2通过因果推断技术进行根源分析步骤示意图;
图3本发明一种面向流程挖掘中流程执行异常的根源分析方法流程图;
图4正常事件日志示意图;
图5合法属性集构建示意图;
图6属性值检查示意图;
图7不合法属性值影响案例示意图;
图8包含不合法属性值流程实例示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明主要是通过一致性检测技术发现流程中的不合规行为,然后在此基础上进行根源分析,识别流程中执行异常或者不合规的原因,最终给出精确和科学的异常根源分析结果。本发明所述方法的输入是大规模事件日志,输出为流程中不合规行为的根源分析排序结果。本发明所述方法的总体流程如图3所示,其中关键流程为:
异常根源发现:按照识别的不合规行为,将日志集合拆分为正常事件日志与不合规事件日志,通过统计的方式,构建合法属性值集合,循环检查不合规事件的所有属性值,发现异常根源。
异常根源影响程度排序:为得到更为精确和科学的异常根源分析结果,根据发现的异常根源对流程执行异常的影响程度进行排序。
1.异常根源发现:
根据一致性检测技术识别的不合规行为,可以将导入的事件日志划分为正常事件日志和不合规事件日志两部分。对于正常事件日志,所有属性的属性值构建一个完备的合法属性值集合;对于不合规事件日志中的不合规事件的所有属性值,循环检测各个属性值是否属于对应属性的合法属性值集合,如果不属于其集合,则该属性值将作为一个异常根源。
其中:
1)合法属性集构建:根据正常事件日志中每个属性的全部属性值构建合法属性值集合,为(属性,属性值集合)二元组的集合。
2)属性值检查:根据分析目的提取不合规事件日志中不合规事件的所有属性值,循环检测各个属性值是否属于对应属性的合法属性值集合,如果不属于其集合,则该属性值将作为一个异常根源。
实现示例:
合法属性集构建:如图5,该图是根据正常事件日志(图4)中的流程实例3、2、6构建的合法属性集。
属性值检查:如图6,例如不合规行为“examine thoroughly不应该跟随registerrequest”中,活动“examine thoroughly”所属的不合规事件的每个属性值循环与合法属性值集合中对应属性的所有属性值对比。属性值“Sue”不在合法属性值集合,所以“Sue”是一个异常根源。
2.异常根源影响程度排序
为得到更为精确和科学的异常根源分析结果,计算异常根源对流程执行异常的影响程度,对异常根源进行排序,客观地查明流程执行异常的原因及重要程度。
1)计算异常根源影响程度:从影响案例数和相关性两个维度计算异常根源对流程执行异常的影响程度,构建(属性,异常根源,相关性,影响案例数)四元组。
2)异常根源排序:分别从异常根源、属性、不合规行为三个维度对根源分析结果进行排序。a)异常根源:根据每个异常根源的相关性对所属属性的异常根源列表进行排序;b)属性:涉及到的所有四元组中影响案例数的最大值作为属性排序依据;c)不合规行为:涉及到的所有属性中影响案例数的最大值作为不合规流程排序依据。
3)异常根源分析结果可视化:按上述计算结果对不合规行为、属性、异常根源列表进行可视化排序,得到更为精确和科学的异常根源分析结果,便于用户查看、理解。
实现示例:
计算异常根源影响程度:主要是异常根源的影响案例数和相关性。例如属性Resource中的属性值“Sue”是一个异常根源,循环计算在该不合规行为中“Sue”涉及的流程实例数,由图7知该异常根源影响案例数为1。例如导入的事件日志中流程实例数为6,由图8知包含该异常根源的流程实例数为2,则该异常根源的相关性为3。最后构建的四元组为(Resource,Sue,1,3)。
异常根源排序:例如不合规行为1中的三个四元组(Resource,Sue,1,3)、(Resource,Pete,2,2)、(Costs,400,1,2);不合规行为2中的一个四元组(Resource,Sue,3,3)。
a)属性值维度:例如不合规行为1中对于属性Resource,Sue的相关性为3,Pete为2,所以Sue>Pete;
b)属性维度:例如不合规行为1中对于属性Resource和Costs,Resource涉及的四元组中影响案例数最大值为2,Costs涉及的四元组中影响案例数最大值为1,所以Resource>Costs;
c)不合规行为维度:例如不合规行为1中影响案例数最大值为2,不合规行为2中影响案例数最大值为3,所以不合规行为2>不合规行为1。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (5)

1.一种面向流程挖掘中流程执行异常的根源分析方法,其特征在于,包括如下步骤:
步骤一,基于用户选定的属性,导入大规模事件日志,并识别其中的不合规行为;
步骤二,按照识别的不合规行为,将导入的事件日志拆分为正常事件日志和不合规事件日志,根据正常事件日志构建合法属性值集合,并根据分析目的对不合规事件的属性值进行检查,发现异常根源;
步骤三,从多个维度对异常根源进行影响程度排序。
2.如权利要求1所述的一种面向流程挖掘中流程执行异常的根源分析方法,其特征在于:步骤二中:
构建合法属性值集合的过程为:根据正常事件日志中每个属性的全部属性值构建合法属性值集合,为(属性,属性值集合)二元组的集合;
对不合规事件的属性值进行检查的过程为:根据分析目的提取不合规事件日志中不合规事件的所有属性值,循环检测各个属性值是否属于对应属性的合法属性值集合,如果不属于其集合,则该属性值将作为一个异常根源。
3.如权利要求1所述的一种面向流程挖掘中流程执行异常的根源分析方法,其特征在于:步骤三所述排序过程包括:
从影响案例数和相关性两个维度计算异常根源对流程执行异常的影响程度,构建(属性,异常根源,相关性,影响案例数)四元组;
根据构建的四元组对异常根源进行排序。
4.如权利要求3所述的一种面向流程挖掘中流程执行异常的根源分析方法,其特征在于:影响案例数和相关性的计算过程为:
对于不合规事件的每个异常根源属性值,循环计算在该不合规行为中属性值涉及的流程实例数,作为影响案例数;
循环计算导入的事件日志中包含异常根源属性值的流程实例占比的倒数作为相关性。
5.如权利要求3所述的一种面向流程挖掘中流程执行异常的根源分析方法,其特征在于:异常根源排序过程为:
根据每个异常根源的相关性对所属属性的异常根源属性值列表进行排序;
根据所有四元组中影响案例数的最大值对异常根源所属属性进行排序;
根据所有属性中影响案例数的最大值对不合规行为进行排序。
CN202210154271.7A 2022-02-18 2022-02-18 一种面向流程挖掘中流程执行异常的根源分析方法 Active CN114757468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210154271.7A CN114757468B (zh) 2022-02-18 2022-02-18 一种面向流程挖掘中流程执行异常的根源分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210154271.7A CN114757468B (zh) 2022-02-18 2022-02-18 一种面向流程挖掘中流程执行异常的根源分析方法

Publications (2)

Publication Number Publication Date
CN114757468A true CN114757468A (zh) 2022-07-15
CN114757468B CN114757468B (zh) 2023-09-29

Family

ID=82324962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210154271.7A Active CN114757468B (zh) 2022-02-18 2022-02-18 一种面向流程挖掘中流程执行异常的根源分析方法

Country Status (1)

Country Link
CN (1) CN114757468B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470640A (zh) * 2022-09-20 2022-12-13 山东理工大学 基于流程树分解和轨迹匹配策略的合规性检测方法与系统
CN117093407A (zh) * 2023-10-19 2023-11-21 北京凡得科技有限公司 基于改进s-学习器的流程异常级联根因分析方法与系统
CN117194083A (zh) * 2023-06-19 2023-12-08 山东理工大学 基于因果推断的流程时间异常根因追溯分析方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789912A (zh) * 2016-11-22 2017-05-31 清华大学 基于分类回归决策树的路由器数据平面异常行为检测方法
CN109873812A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 异常检测方法、装置及计算机设备
CN110515365A (zh) * 2019-07-29 2019-11-29 电子科技大学 一种基于过程挖掘的工控系统异常行为分析方法
CN112231194A (zh) * 2020-12-11 2021-01-15 北京基调网络股份有限公司 一种指标异常根源分析方法、装置及计算机可读存储介质
CN112434245A (zh) * 2020-11-23 2021-03-02 北京八分量信息科技有限公司 基于ueba进行异常行为事件的判断方法、装置及相关产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789912A (zh) * 2016-11-22 2017-05-31 清华大学 基于分类回归决策树的路由器数据平面异常行为检测方法
CN109873812A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 异常检测方法、装置及计算机设备
CN110515365A (zh) * 2019-07-29 2019-11-29 电子科技大学 一种基于过程挖掘的工控系统异常行为分析方法
CN112434245A (zh) * 2020-11-23 2021-03-02 北京八分量信息科技有限公司 基于ueba进行异常行为事件的判断方法、装置及相关产品
CN112231194A (zh) * 2020-12-11 2021-01-15 北京基调网络股份有限公司 一种指标异常根源分析方法、装置及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470640A (zh) * 2022-09-20 2022-12-13 山东理工大学 基于流程树分解和轨迹匹配策略的合规性检测方法与系统
CN115470640B (zh) * 2022-09-20 2024-02-20 山东理工大学 基于流程树分解和轨迹匹配策略的合规性检测方法与系统
CN117194083A (zh) * 2023-06-19 2023-12-08 山东理工大学 基于因果推断的流程时间异常根因追溯分析方法与系统
CN117194083B (zh) * 2023-06-19 2024-03-29 山东理工大学 基于因果推断的流程时间异常根因追溯分析方法与系统
CN117093407A (zh) * 2023-10-19 2023-11-21 北京凡得科技有限公司 基于改进s-学习器的流程异常级联根因分析方法与系统
CN117093407B (zh) * 2023-10-19 2024-03-19 北京凡得科技有限公司 基于改进s-学习器的流程异常级联根因分析方法与系统

Also Published As

Publication number Publication date
CN114757468B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN114757468B (zh) 一种面向流程挖掘中流程执行异常的根源分析方法
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN110278201B (zh) 安全策略评价方法及装置、计算机可读介质和电子设备
CN111539493A (zh) 一种告警预测方法、装置、电子设备及存储介质
CN105302911A (zh) 一种数据筛选引擎建立方法及数据筛选引擎
CN111079937A (zh) 一种快速建模的方法
CN111160329A (zh) 一种根因分析的方法及装置
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
WO2018036402A1 (zh) 模型中关键变量的探测方法及装置
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质
CN113609008A (zh) 测试结果分析方法、装置和电子设备
Rosli et al. The design of a software fault prone application using evolutionary algorithm
Wang et al. Measuring robustness of feature selection techniques on software engineering datasets
CN114912510B (zh) 一种线上调研样本质量评估系统
CN115456092A (zh) 电力系统异常数据实时监测方法
Du et al. Prediction of bug‐fixing time based on distinguishable sequences fusion in open source software
Li et al. Generic and robust root cause localization for multi-dimensional data in online service systems
Wu et al. Scenario-based software reliability testing and evaluation of complex information systems
Chen et al. Blocking bugs identification via binary relevance and logistic regression analysis
Nguyen et al. Clustering automation test faults
Imtiaz et al. Predicting vulnerability for requirements
Reiter et al. AIOps–A Systematic Literature Review
Azzalini et al. Data Quality and Data Ethics: Towards a Trade-off Evaluation
CN111626586B (zh) 数据质量检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant