CN117114116A

CN117114116A - 一种基于机器学习的根因分析方法、介质和设备

Info

Publication number: CN117114116A
Application number: CN202310980219.1A
Authority: CN
Inventors: 白杰; 陈志强; 梅珂; 胡兵
Original assignee: Beijing Jiecheng Heli Technology Co ltd
Current assignee: Beijing Jiecheng Heli Technology Co ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-24

Abstract

本发明公开了一种基于机器学习的根因分析方法、介质和设备，该方法包括以下步骤：全量采集企业的历史流程日志，并对采集到的企业历史流程日志进行排序；对排序后的企业历史流程日志中的每行日志数据进行编码处理；统计每个编码值出现的次数，并从大到小排序；删除低于给定支持度的编码值，并构建FP树，从FP树中挖掘条件模式基，并从条件模式基中递归挖掘大于最小支持度的频繁项集；从频繁项集中挖掘得到强关联规则，将被关联项不是0或1的强关联规则剔除；将强关联规则输入到约简集算法中，剔除冗余属性，求得最终的根因属性集；本发明将FP树算法和约简集算法相结合，解决了根因分析适配大数据且考虑了症状源与结果之间因果关系的问题。

Description

一种基于机器学习的根因分析方法、介质和设备

技术领域

本发明涉及流程挖掘根因分析的技术领域，尤其是指一种基于机器学习的根因分析方法、介质和设备。

背景技术

近年来，随着流程挖掘领域中自动化因果推理技术的发展使得从流程日志中挖掘有症状案例的影响要素成为可能。流程日志是一系列事件、活动以及决策的集合，共同影响着结果。有些结果是正向的，而有些结果是反向的。显然，将流程的积极结果率最大化，或者相反将负面结果最小化，是有积极意义的。如果能够精准的发现负面结果的影响因素，那么就能够更快的定位问题所在，提高流程的效率以节约不必的时间、人力成本，从而提供更优质的服务。

以往的根因分析分析方法侧重于分析观测数据与结果之间的相关性，而不是分析因果关系。与此同时，影响负面结果的因素可能来自很多方面，比如资源限制、不平衡的工作负载、流程设计不佳等等，然而日志数据中可能包含了很多不必要的信息来解释风险事件发生的可能的根本原因，这会给根因分析模型的运算带来极大的挑战，尤其是面对海量数据运算场景时。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于机器学习的根因分析方法、介质和设备，将FP树算法和约简集算法相结合，在保证挖掘能力不变的前提下，剔除掉了决策表中的冗余要素，能够很好的应对案例级别中个别属性值为空的分析场景。

本发明的目的通过下述技术方案实现：一种基于机器学习的根因分析方法，包括以下步骤：

S1、全量采集企业的历史流程日志，并对该历史流程日志进行排序；

S2、对排序后的历史流程日志进行字段剔除的处理，并对每行日志数据的数值属性列做分区处理；

S3、对步骤S2获得的数据做数值映射，并保存映射字典；

S4、遍历步骤S3获得的数据，计算每个映射值出现的次数和支持度，设定最小支持度，并对其进行排序，删除小于最小支持度的映射值，将这些数据存入到项头表中；

S5、根据项头表中的信息，对每行日志数据排序，并删除小于最小支持度的映射值；

S6、遍历步骤S5的每行日志数据，建立FP树；

S7、遍历步骤S6中FP树的项头表，从项头表的底部项依次向上找项头表项对应的条件模式基，从条件模式基中递归挖掘大于最小支持度的频繁项集；

S8、根据步骤S7挖掘出的频繁项集生成关联规则，并计算对应关联规则的置信度以及提升度，删除小于最小置信度的规则，得到强关联规则；

S9、将步骤S8中的被关联项不是0或1的强关联规则剔除，得到关联规则，并计算对应关联规则的得分；

S10、将步骤S9中的关联规则通过步骤S3中的映射字典做还原操作，对于缺失的属性值，用该列属性出现最多次数的属性值填充，构建决策表；

S11、将步骤S10得到的决策表输入到属性约简算法中，剔除冗余属性，计算有症状案例的根因属性。

进一步，所述步骤S1包括以下步骤：

全量采集企业的历史流程日志，设定为采集的历史流程日志，所述历史流程日志包括Case ID、TimeStamp、Activity和RcaFlag数据，其中设定/>为Activity的集合，/>为TimeStamp的集合，RcaFlag标记当前Case ID是否有症状，/>为其它属性列，l为每行日志数据，因此l＝(α，τ，d₁，d₂，…，d_n)，α为/>的子集，τ为/>的子集，d_i为/>的子集，且1≤i≤n。

进一步，所述步骤S2包括以下步骤：

对步骤S1中采集的历史流程日志按照/>从小到大进行排序；将符合有症状条件案例的RcaFlag标记为1，其余无症状案例标记的RcaFlag标记为0；将历史流程日志的CaseID字段和TimeStamp字段剔除，将历史流程日志的每行数据l中数值属性列做分区处理，选取数值属性列的前clusterNum个点作为初始中心点，设定最小误差阈值为0.01*clusterNum，通过KMeans聚类算法迭代运算，计算出每个点所属的类簇，最终得到所有的分区区间，然后将属于对应分区区间的数值作区间替换。

进一步，所述步骤S4包括以下步骤：

S4-01、给定一个关联规则X→Y，其中项集X为关联规则的前件，项集Y为关联规则的后件，且

S4-02、计算关联规则X→Y的支持度support(X→Y)，其计算方式为：

其中，P(X∩Y)为频繁项集中{X，Y}同时发生的次数，N为总项集的个数。

进一步，所述步骤S6包括以下步骤：

将排序后的日志数据插入FP树，插入时按照排序后的顺序插入到FP树中，排序靠前的节点是父节点，靠后的是子节点，若有共用的父节点，则对应的公用父节点计数加1；若有新节点出现，则项头表对应的节点会通过节点链表链接到新节点，直到所有的数据都插入到FP树后，FP树的建立完成。

进一步，所述步骤S8包括以下步骤：

S8-01、计算关联规则X→Y的置信度Confidence(X→Y)，其计算方式为：

其中，P(X∩Y)为频繁项集中含{X，Y}同时发生的次数，P(X)为频繁项集中包含{X}发生的次数；

S8-02、计算关联规则X→Y的提升度Lift(X→Y)，其计算方式为：

其中，P(Y)为频繁项集中包含{Y}发生的次数。

进一步，所述步骤S11包括以下步骤：

S11-01、给定一个决策表S＝(U，A＝C∪D，V，f)，U为非空有限对象集并称为论域，C为条件属性集，D为决策属性集，V为属性值域范围，f为信息函数，若论域中有m个关于B的等价类U/B＝{e₁，e₂，…，e_m}，其中e_i为B的第i个等价类，目1≤i≤m，则B的知识粒度GP_U(B)为：

S11-02、计算条件属性a_j关于条件属性集C相对于决策属性集D的内部属性重要度其中1≤j≤|C|，其计算方式为：

GP_U(D|C-{a_j})＝GP_U(C-{a_j})-GP_U(C-{a_j}∪D)；

GP_U(D|C)＝GP_U(C)-GP_U(C∪D)；

知识粒度计算方式根据步骤S11-01求得，将内部属性重要度的条件属性a_j放入到约简集RED_U中；

S11-03、计算不同属性子集a_i∈(C-RED_U)关于约简集RED_U相对于决策属性集D的外部属性重要度选择最优的单个属性/>将a₀放入到约简集RED_U中；其中，/>的计算方式为：

GP_U(D|RED_U)＝GP_U(RED_U)-GP_U(RED_U∪D)；

GP_U(D|RED_U∪{a_i})＝GP_U(RED_U∪{a_i})-GP_U(D|RED_U∪{a_i}∪D)；

S11-04、重复步骤S11-03，直到满足以下条件：

GP_U(D|RED_U)＝GP_U(D|C)；

以确保约简集RED_U有着与所有条件属性集C相同的划分能力；

S11-05、从步骤S11-04输出的约简集的尾部开始从后往前对每个属性a_i∈RED_U进行判断是否可省，若存满足以下条件：

GP_U(D|(RED_U-{a_i}))＝GP_U(D|C)；

则说明a_i是冗余属性，将a_i从约简集RED_U中剔除，以确保约简集RED_U内没有冗余属性；

S11-06、输出约简集RED_U。

一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据上述的根因分析方法的步骤。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的根因分析方法。

本发明与现有技术相比，具有如下优点与有益效果：

1、与现有基于机器学习的根因分析方法相比，本发明在千万数据场景下达到了秒级别的性能；

2、与现有基于机器学习的根因分析方法相比，本发明的根因分析精度更高，具体来说，在保证挖掘能力不变的前提下，剔除掉了决策表中的冗余要素；

3、与现有基于机器学习的根因分析方法相比，本发明能够很好的应对案例级别中个别属性值为空的分析场景，对数据的要求更为宽松。

附图说明

图1为本发明的流程图。

图2为约简算法的伪代码示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

实施例1

参见图1所示，本实施例基于JDK8运算环境下实现，本发明实施例的数据集与合同审批日志相关，这份合同审批日志涵盖的日期为2019年6月1日至2022年12月1日，平均每天55.96案例；该数据共包含17,356个案例，包含459,004个事件和245个活动名称。本实施例所提供的基于机器学习的根因分析方法包括以下步骤：

S1、全量采集企业的历史流程日志，并对该历史流程日志进行排序，包括以下步骤：

S2、对排序后的历史流程日志进行字段剔除的处理，并对每行日志数据的数值属性列做分区处理，包括以下步骤：

对步骤S1中采集的历史流程日志按照/>从小到大进行排序；参见表1所示，将符合有症状条件案例的RcaFlag标记为1，其余无症状案例标记的RcaFlag标记为0；将历史流程日志的Case ID字段和TimeStamp字段剔除，将历史流程日志的每行数据l中数值属性列做分区处理，参见表2所示，选取数值属性列的前clusterNum个点作为初始中心点，设定最小误差阈值为0.01*clusterNum，通过KMeans聚类算法迭代运算，计算出每个点所属的类簇，最终得到所有的分区区间，然后将属于对应分区区间的数值作区间替换。

表1.截取的标记后的日志数据

表2.截取的数值属性列分区后的日志数据

S3、对步骤S2获得的数据做数值映射，并保存映射字典，如表3所示为数值映射后的日志数据，映射的规则为属性值的索引拼接列的索引，如第2列的Activity的索引为2，该列中的Price review的索引为3，因此数值映射后的值为32；

表3.截取的数值映射后的日志数据

Processor	Activity	Construction	Amount	RcaFlag
					11	12	13	14	1
21	22	13	14	1
					31	32	13	14	1
41	42	13	14	1
					51	52	13	14	1
61	62	23	24	0
					71	72	23	24	0
81	82	23	24	0
					91	92	23	24	0
101	102	23	24	0
					51	52	23	24	0

S4、遍历步骤S3获得的数据，计算每个映射值出现的次数和支持度，设定最小支持度为0.1，并对其进行从小到大的排序，删除小于最小支持度的映射值，将这些数据存入到项头表中，包括以下步骤：

S5、根据项头表中的信息，对每行日志数据进行从大到小的排序，并删除小于最小支持度的映射值；

S6、遍历步骤S5的每行日志数据，建立FP树，包括以下步骤：

S8、根据步骤S7挖掘出的频繁项集生成关联规则，设定最小置信度为0.1，并计算对应关联规则的置信度以及提升度，删除小于最小置信度的规则，得到强关联规则，包括以下步骤：

S8-02、计算关联规则X→Y的提升度Lift(X→Y)，其计算方式为：

其中，P(Y)为频繁项集中包含{Y}发生的次数。

S10、将步骤S9中的关联规则通过步骤S3中的映射字典做还原操作，对于缺失的属性值，用该列属性出现最多次数的属性值填充，构建决策表，如表4所示中一些属性没有值，填充后的决策表如表5所示；

表4未填充的决策表

索引	Processor	Activity	Construction	Amount	RcaFlag
						R1	21	32	13	14	0
R2	21	22	13	—	1
						R3	21	32	13	14	1
R4	31	—	23	14	0
						R5	31	—	23	24	0
R6	61	62	23	14	1

表5填充后的决策表

索引	Processor	Activity	Construction	Amount	RcaFlag
						R1	21	32	13	14	0
R2	21	22	13	14	1
						R3	21	32	13	14	1
R4	31	32	23	14	0
						R5	31	32	23	24	0
R6	61	62	23	14	1

S11、参见图2的伪代码所示，将步骤S10得到的决策表输入到属性约简算法中，剔除冗余属性，计算有症状案例的根因属性，包括以下步骤：

S11-01、给定一个决策表S＝(U，A＝C∪D，V，f)，U为非空有限对象集并称为论域，C为条件属性集，D为决策属性集，V为属性值域范围，f为信息函数，若论域中有m个关于B的等价类U/B＝{e₁，e₂，…，e_m}，其中e_i为B的第i个等价类，且1≤i≤m，则B的知识粒度GP_U(B)为：

GP_U(D|C-{a_j})＝GP_U(C-{a_j})-GP_U(C-{a_j}∪D)；

GP_U(D|C)＝GP_U(C)-GP_U(C∪D)；

GP_U(D|RED_U)＝GP_U(RED_U)-GP_U(RED_U∪D)；

GP_U(D|RED_U∪{a_i})＝GP_U(RED_U∪{a_i})-GP_U(D|RED_U∪{a_i}∪D)；

S11-04、重复步骤S11-03，直到满足以下条件：

GP_U(D|RED_U)＝GP_U(D|C)；

以确保约简集RED_U有着与所有条件属性集C相同的划分能力；

GP_U(D|(RED_U-{a_i}))＝GP_U(D|C)；

S11-06、输出约简集RED_U。

实施例2

本实施例公开了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据实施例1所述的根因分析方法的步骤。

本实施例中的非暂时性计算机可读介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例3

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的根因分析方法。

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑、可编程逻辑控制器(PLC，Programmable Logic Controller)、或其它具有处理器功能的终端设备。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于机器学习的根因分析方法，其特征在于，包括以下步骤：

S3、对步骤S2获得的数据做数值映射，并保存映射字典；

S6、遍历步骤S5的每行日志数据，建立FP树；

2.根据权利要求1所述的一种基于机器学习的根因分析方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求1所述的一种基于机器学习的根因分析方法，其特征在于，所述步骤S2包括以下步骤：

对步骤S1中采集的历史流程日志按照/>从小到大进行排序；将符合有症状条件案例的RcaFlag标记为1，其余无症状案例标记的RcaFlag标记为0；将历史流程日志的Case ID字段和TimeStamp字段剔除，将历史流程日志的每行数据l中数值属性列做分区处理，选取数值属性列的前clusterNum个点作为初始中心点，设定最小误差阈值为0.01*clusterNum，通过KMeans聚类算法迭代运算，计算出每个点所属的类簇，最终得到所有的分区区间，然后将属于对应分区区间的数值作区间替换。

4.根据权利要求1所述的一种基于机器学习的根因分析方法，其特征在于，所述步骤S4包括以下步骤：

5.根据权利要求1所述的一种基于机器学习的根因分析方法，其特征在于，所述步骤S6包括以下步骤：

6.根据权利要求1所述的一种基于机器学习的根因分析方法，其特征在于，所述步骤S8包括以下步骤：

S8-02、计算关联规则X→Y的提升度Lift(X→Y)，其计算方式为：

其中，P(Y)为频繁项集中包含{Y}发生的次数。

7.根据权利要求1所述的一种基于机器学习的根因分析方法，其特征在于，所述步骤S11包括以下步骤：

GP_U(D|C-{a_j})＝GP_U(C-{a_j})-GP_U(C-{a_j}∪D)；

GP_U(D|C)＝GP_U(C)-GP_U(C∪D)；

GP_U(D|RED_U)＝GP_U(RED_U)-GP_U(RED_U∪D)；

GP_U(D|RED_U∪{a_i})＝GP_U(RED_U∪{a_i})-GP_U(D|RED_U∪{a_i}∪D)；

S11-04、重复步骤S11-03，直到满足以下条件：

GP_U(D|RED_U)＝GP_U(D|C)；

以确保约简集RED_U有着与所有条件属性集C相同的划分能力；

GP_U(D|(RED_U-{a_i}))＝GP_U(D|C)；

S11-06、输出约简集RED_U。

8.一种存储有指令的非暂时性计算机可读介质，其特征在于，当所述指令由处理器执行时，执行根据权利要求1-7任意一项所述的根因分析方法的步骤。

9.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任意一项所述的根因分析方法。