CN117114116A - 一种基于机器学习的根因分析方法、介质和设备 - Google Patents
一种基于机器学习的根因分析方法、介质和设备 Download PDFInfo
- Publication number
- CN117114116A CN117114116A CN202310980219.1A CN202310980219A CN117114116A CN 117114116 A CN117114116 A CN 117114116A CN 202310980219 A CN202310980219 A CN 202310980219A CN 117114116 A CN117114116 A CN 117114116A
- Authority
- CN
- China
- Prior art keywords
- attribute
- red
- root cause
- cause analysis
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- 238000010801 machine learning Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012163 sequencing technique Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 12
- 238000005192 partition Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 6
- 230000001364 causal effect Effects 0.000 abstract description 3
- 208000024891 symptom Diseases 0.000 abstract 1
- 238000010276 construction Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Abstract
本发明公开了一种基于机器学习的根因分析方法、介质和设备,该方法包括以下步骤:全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序;对排序后的企业历史流程日志中的每行日志数据进行编码处理;统计每个编码值出现的次数,并从大到小排序;删除低于给定支持度的编码值,并构建FP树,从FP树中挖掘条件模式基,并从条件模式基中递归挖掘大于最小支持度的频繁项集;从频繁项集中挖掘得到强关联规则,将被关联项不是0或1的强关联规则剔除;将强关联规则输入到约简集算法中,剔除冗余属性,求得最终的根因属性集;本发明将FP树算法和约简集算法相结合,解决了根因分析适配大数据且考虑了症状源与结果之间因果关系的问题。
Description
技术领域
本发明涉及流程挖掘根因分析的技术领域,尤其是指一种基于机器学习的根因分析方法、介质和设备。
背景技术
近年来,随着流程挖掘领域中自动化因果推理技术的发展使得从流程日志中挖掘有症状案例的影响要素成为可能。流程日志是一系列事件、活动以及决策的集合,共同影响着结果。有些结果是正向的,而有些结果是反向的。显然,将流程的积极结果率最大化,或者相反将负面结果最小化,是有积极意义的。如果能够精准的发现负面结果的影响因素,那么就能够更快的定位问题所在,提高流程的效率以节约不必的时间、人力成本,从而提供更优质的服务。
以往的根因分析分析方法侧重于分析观测数据与结果之间的相关性,而不是分析因果关系。与此同时,影响负面结果的因素可能来自很多方面,比如资源限制、不平衡的工作负载、流程设计不佳等等,然而日志数据中可能包含了很多不必要的信息来解释风险事件发生的可能的根本原因,这会给根因分析模型的运算带来极大的挑战,尤其是面对海量数据运算场景时。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于机器学习的根因分析方法、介质和设备,将FP树算法和约简集算法相结合,在保证挖掘能力不变的前提下,剔除掉了决策表中的冗余要素,能够很好的应对案例级别中个别属性值为空的分析场景。
本发明的目的通过下述技术方案实现:一种基于机器学习的根因分析方法,包括以下步骤:
S1、全量采集企业的历史流程日志,并对该历史流程日志进行排序;
S2、对排序后的历史流程日志进行字段剔除的处理,并对每行日志数据的数值属性列做分区处理;
S3、对步骤S2获得的数据做数值映射,并保存映射字典;
S4、遍历步骤S3获得的数据,计算每个映射值出现的次数和支持度,设定最小支持度,并对其进行排序,删除小于最小支持度的映射值,将这些数据存入到项头表中;
S5、根据项头表中的信息,对每行日志数据排序,并删除小于最小支持度的映射值;
S6、遍历步骤S5的每行日志数据,建立FP树;
S7、遍历步骤S6中FP树的项头表,从项头表的底部项依次向上找项头表项对应的条件模式基,从条件模式基中递归挖掘大于最小支持度的频繁项集;
S8、根据步骤S7挖掘出的频繁项集生成关联规则,并计算对应关联规则的置信度以及提升度,删除小于最小置信度的规则,得到强关联规则;
S9、将步骤S8中的被关联项不是0或1的强关联规则剔除,得到关联规则,并计算对应关联规则的得分;
S10、将步骤S9中的关联规则通过步骤S3中的映射字典做还原操作,对于缺失的属性值,用该列属性出现最多次数的属性值填充,构建决策表;
S11、将步骤S10得到的决策表输入到属性约简算法中,剔除冗余属性,计算有症状案例的根因属性。
进一步,所述步骤S1包括以下步骤:
全量采集企业的历史流程日志,设定为采集的历史流程日志,所述历史流程日志包括Case ID、TimeStamp、Activity和RcaFlag数据,其中设定/>为Activity的集合,/>为TimeStamp的集合,RcaFlag标记当前Case ID是否有症状,/>为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,…,dn),α为/>的子集,τ为/>的子集,di为/>的子集,且1≤i≤n。
进一步,所述步骤S2包括以下步骤:
对步骤S1中采集的历史流程日志按照/>从小到大进行排序;将符合有症状条件案例的RcaFlag标记为1,其余无症状案例标记的RcaFlag标记为0;将历史流程日志的CaseID字段和TimeStamp字段剔除,将历史流程日志的每行数据l中数值属性列做分区处理,选取数值属性列的前clusterNum个点作为初始中心点,设定最小误差阈值为0.01*clusterNum,通过KMeans聚类算法迭代运算,计算出每个点所属的类簇,最终得到所有的分区区间,然后将属于对应分区区间的数值作区间替换。
进一步,所述步骤S4包括以下步骤:
S4-01、给定一个关联规则X→Y,其中项集X为关联规则的前件,项集Y为关联规则的后件,且
S4-02、计算关联规则X→Y的支持度support(X→Y),其计算方式为:
其中,P(X∩Y)为频繁项集中{X,Y}同时发生的次数,N为总项集的个数。
进一步,所述步骤S6包括以下步骤:
将排序后的日志数据插入FP树,插入时按照排序后的顺序插入到FP树中,排序靠前的节点是父节点,靠后的是子节点,若有共用的父节点,则对应的公用父节点计数加1;若有新节点出现,则项头表对应的节点会通过节点链表链接到新节点,直到所有的数据都插入到FP树后,FP树的建立完成。
进一步,所述步骤S8包括以下步骤:
S8-01、计算关联规则X→Y的置信度Confidence(X→Y),其计算方式为:
其中,P(X∩Y)为频繁项集中含{X,Y}同时发生的次数,P(X)为频繁项集中包含{X}发生的次数;
S8-02、计算关联规则X→Y的提升度Lift(X→Y),其计算方式为:
其中,P(Y)为频繁项集中包含{Y}发生的次数。
进一步,所述步骤S11包括以下步骤:
S11-01、给定一个决策表S=(U,A=C∪D,V,f),U为非空有限对象集并称为论域,C为条件属性集,D为决策属性集,V为属性值域范围,f为信息函数,若论域中有m个关于B的等价类U/B={e1,e2,…,em},其中ei为B的第i个等价类,目1≤i≤m,则B的知识粒度GPU(B)为:
S11-02、计算条件属性aj关于条件属性集C相对于决策属性集D的内部属性重要度其中1≤j≤|C|,其计算方式为:
GPU(D|C-{aj})=GPU(C-{aj})-GPU(C-{aj}∪D);
GPU(D|C)=GPU(C)-GPU(C∪D);
知识粒度计算方式根据步骤S11-01求得,将内部属性重要度的条件属性aj放入到约简集REDU中;
S11-03、计算不同属性子集ai∈(C-REDU)关于约简集REDU相对于决策属性集D的外部属性重要度选择最优的单个属性/>将a0放入到约简集REDU中;其中,/>的计算方式为:
GPU(D|REDU)=GPU(REDU)-GPU(REDU∪D);
GPU(D|REDU∪{ai})=GPU(REDU∪{ai})-GPU(D|REDU∪{ai}∪D);
S11-04、重复步骤S11-03,直到满足以下条件:
GPU(D|REDU)=GPU(D|C);
以确保约简集REDU有着与所有条件属性集C相同的划分能力;
S11-05、从步骤S11-04输出的约简集的尾部开始从后往前对每个属性ai∈REDU进行判断是否可省,若存满足以下条件:
GPU(D|(REDU-{ai}))=GPU(D|C);
则说明ai是冗余属性,将ai从约简集REDU中剔除,以确保约简集REDU内没有冗余属性;
S11-06、输出约简集REDU。
一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据上述的根因分析方法的步骤。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的根因分析方法。
本发明与现有技术相比,具有如下优点与有益效果:
1、与现有基于机器学习的根因分析方法相比,本发明在千万数据场景下达到了秒级别的性能;
2、与现有基于机器学习的根因分析方法相比,本发明的根因分析精度更高,具体来说,在保证挖掘能力不变的前提下,剔除掉了决策表中的冗余要素;
3、与现有基于机器学习的根因分析方法相比,本发明能够很好的应对案例级别中个别属性值为空的分析场景,对数据的要求更为宽松。
附图说明
图1为本发明的流程图。
图2为约简算法的伪代码示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
实施例1
参见图1所示,本实施例基于JDK8运算环境下实现,本发明实施例的数据集与合同审批日志相关,这份合同审批日志涵盖的日期为2019年6月1日至2022年12月1日,平均每天55.96案例;该数据共包含17,356个案例,包含459,004个事件和245个活动名称。本实施例所提供的基于机器学习的根因分析方法包括以下步骤:
S1、全量采集企业的历史流程日志,并对该历史流程日志进行排序,包括以下步骤:
全量采集企业的历史流程日志,设定为采集的历史流程日志,所述历史流程日志包括Case ID、TimeStamp、Activity和RcaFlag数据,其中设定/>为Activity的集合,/>为TimeStamp的集合,RcaFlag标记当前Case ID是否有症状,/>为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,…,dn),α为/>的子集,τ为/>的子集,di为/>的子集,且1≤i≤n。
S2、对排序后的历史流程日志进行字段剔除的处理,并对每行日志数据的数值属性列做分区处理,包括以下步骤:
对步骤S1中采集的历史流程日志按照/>从小到大进行排序;参见表1所示,将符合有症状条件案例的RcaFlag标记为1,其余无症状案例标记的RcaFlag标记为0;将历史流程日志的Case ID字段和TimeStamp字段剔除,将历史流程日志的每行数据l中数值属性列做分区处理,参见表2所示,选取数值属性列的前clusterNum个点作为初始中心点,设定最小误差阈值为0.01*clusterNum,通过KMeans聚类算法迭代运算,计算出每个点所属的类簇,最终得到所有的分区区间,然后将属于对应分区区间的数值作区间替换。
表1.截取的标记后的日志数据
表2.截取的数值属性列分区后的日志数据
S3、对步骤S2获得的数据做数值映射,并保存映射字典,如表3所示为数值映射后的日志数据,映射的规则为属性值的索引拼接列的索引,如第2列的Activity的索引为2,该列中的Price review的索引为3,因此数值映射后的值为32;
表3.截取的数值映射后的日志数据
Processor | Activity | Construction | Amount | RcaFlag |
11 | 12 | 13 | 14 | 1 |
21 | 22 | 13 | 14 | 1 |
31 | 32 | 13 | 14 | 1 |
41 | 42 | 13 | 14 | 1 |
51 | 52 | 13 | 14 | 1 |
61 | 62 | 23 | 24 | 0 |
71 | 72 | 23 | 24 | 0 |
81 | 82 | 23 | 24 | 0 |
91 | 92 | 23 | 24 | 0 |
101 | 102 | 23 | 24 | 0 |
51 | 52 | 23 | 24 | 0 |
S4、遍历步骤S3获得的数据,计算每个映射值出现的次数和支持度,设定最小支持度为0.1,并对其进行从小到大的排序,删除小于最小支持度的映射值,将这些数据存入到项头表中,包括以下步骤:
S4-01、给定一个关联规则X→Y,其中项集X为关联规则的前件,项集Y为关联规则的后件,且
S4-02、计算关联规则X→Y的支持度support(X→Y),其计算方式为:
其中,P(X∩Y)为频繁项集中{X,Y}同时发生的次数,N为总项集的个数。
S5、根据项头表中的信息,对每行日志数据进行从大到小的排序,并删除小于最小支持度的映射值;
S6、遍历步骤S5的每行日志数据,建立FP树,包括以下步骤:
将排序后的日志数据插入FP树,插入时按照排序后的顺序插入到FP树中,排序靠前的节点是父节点,靠后的是子节点,若有共用的父节点,则对应的公用父节点计数加1;若有新节点出现,则项头表对应的节点会通过节点链表链接到新节点,直到所有的数据都插入到FP树后,FP树的建立完成。
S7、遍历步骤S6中FP树的项头表,从项头表的底部项依次向上找项头表项对应的条件模式基,从条件模式基中递归挖掘大于最小支持度的频繁项集;
S8、根据步骤S7挖掘出的频繁项集生成关联规则,设定最小置信度为0.1,并计算对应关联规则的置信度以及提升度,删除小于最小置信度的规则,得到强关联规则,包括以下步骤:
S8-01、计算关联规则X→Y的置信度Confidence(X→Y),其计算方式为:
其中,P(X∩Y)为频繁项集中含{X,Y}同时发生的次数,P(X)为频繁项集中包含{X}发生的次数;
S8-02、计算关联规则X→Y的提升度Lift(X→Y),其计算方式为:
其中,P(Y)为频繁项集中包含{Y}发生的次数。
S9、将步骤S8中的被关联项不是0或1的强关联规则剔除,得到关联规则,并计算对应关联规则的得分;
S10、将步骤S9中的关联规则通过步骤S3中的映射字典做还原操作,对于缺失的属性值,用该列属性出现最多次数的属性值填充,构建决策表,如表4所示中一些属性没有值,填充后的决策表如表5所示;
表4未填充的决策表
索引 | Processor | Activity | Construction | Amount | RcaFlag |
R1 | 21 | 32 | 13 | 14 | 0 |
R2 | 21 | 22 | 13 | — | 1 |
R3 | 21 | 32 | 13 | 14 | 1 |
R4 | 31 | — | 23 | 14 | 0 |
R5 | 31 | — | 23 | 24 | 0 |
R6 | 61 | 62 | 23 | 14 | 1 |
表5填充后的决策表
索引 | Processor | Activity | Construction | Amount | RcaFlag |
R1 | 21 | 32 | 13 | 14 | 0 |
R2 | 21 | 22 | 13 | 14 | 1 |
R3 | 21 | 32 | 13 | 14 | 1 |
R4 | 31 | 32 | 23 | 14 | 0 |
R5 | 31 | 32 | 23 | 24 | 0 |
R6 | 61 | 62 | 23 | 14 | 1 |
S11、参见图2的伪代码所示,将步骤S10得到的决策表输入到属性约简算法中,剔除冗余属性,计算有症状案例的根因属性,包括以下步骤:
S11-01、给定一个决策表S=(U,A=C∪D,V,f),U为非空有限对象集并称为论域,C为条件属性集,D为决策属性集,V为属性值域范围,f为信息函数,若论域中有m个关于B的等价类U/B={e1,e2,…,em},其中ei为B的第i个等价类,且1≤i≤m,则B的知识粒度GPU(B)为:
S11-02、计算条件属性aj关于条件属性集C相对于决策属性集D的内部属性重要度其中1≤j≤|C|,其计算方式为:
GPU(D|C-{aj})=GPU(C-{aj})-GPU(C-{aj}∪D);
GPU(D|C)=GPU(C)-GPU(C∪D);
知识粒度计算方式根据步骤S11-01求得,将内部属性重要度的条件属性aj放入到约简集REDU中;
S11-03、计算不同属性子集ai∈(C-REDU)关于约简集REDU相对于决策属性集D的外部属性重要度选择最优的单个属性/>将a0放入到约简集REDU中;其中,/>的计算方式为:
GPU(D|REDU)=GPU(REDU)-GPU(REDU∪D);
GPU(D|REDU∪{ai})=GPU(REDU∪{ai})-GPU(D|REDU∪{ai}∪D);
S11-04、重复步骤S11-03,直到满足以下条件:
GPU(D|REDU)=GPU(D|C);
以确保约简集REDU有着与所有条件属性集C相同的划分能力;
S11-05、从步骤S11-04输出的约简集的尾部开始从后往前对每个属性ai∈REDU进行判断是否可省,若存满足以下条件:
GPU(D|(REDU-{ai}))=GPU(D|C);
则说明ai是冗余属性,将ai从约简集REDU中剔除,以确保约简集REDU内没有冗余属性;
S11-06、输出约简集REDU。
实施例2
本实施例公开了一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据实施例1所述的根因分析方法的步骤。
本实施例中的非暂时性计算机可读介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例3
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的根因分析方法。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑、可编程逻辑控制器(PLC,Programmable Logic Controller)、或其它具有处理器功能的终端设备。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (9)
1.一种基于机器学习的根因分析方法,其特征在于,包括以下步骤:
S1、全量采集企业的历史流程日志,并对该历史流程日志进行排序;
S2、对排序后的历史流程日志进行字段剔除的处理,并对每行日志数据的数值属性列做分区处理;
S3、对步骤S2获得的数据做数值映射,并保存映射字典;
S4、遍历步骤S3获得的数据,计算每个映射值出现的次数和支持度,设定最小支持度,并对其进行排序,删除小于最小支持度的映射值,将这些数据存入到项头表中;
S5、根据项头表中的信息,对每行日志数据排序,并删除小于最小支持度的映射值;
S6、遍历步骤S5的每行日志数据,建立FP树;
S7、遍历步骤S6中FP树的项头表,从项头表的底部项依次向上找项头表项对应的条件模式基,从条件模式基中递归挖掘大于最小支持度的频繁项集;
S8、根据步骤S7挖掘出的频繁项集生成关联规则,并计算对应关联规则的置信度以及提升度,删除小于最小置信度的规则,得到强关联规则;
S9、将步骤S8中的被关联项不是0或1的强关联规则剔除,得到关联规则,并计算对应关联规则的得分;
S10、将步骤S9中的关联规则通过步骤S3中的映射字典做还原操作,对于缺失的属性值,用该列属性出现最多次数的属性值填充,构建决策表;
S11、将步骤S10得到的决策表输入到属性约简算法中,剔除冗余属性,计算有症状案例的根因属性。
2.根据权利要求1所述的一种基于机器学习的根因分析方法,其特征在于,所述步骤S1包括以下步骤:
全量采集企业的历史流程日志,设定为采集的历史流程日志,所述历史流程日志包括Case ID、TimeStamp、Activity和RcaFlag数据,其中设定/>为Activity的集合,/>为TimeStamp的集合,RcaFlag标记当前Case ID是否有症状,/>为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,…,dn),α为/>的子集,τ为/>的子集,di为/>的子集,且1≤i≤n。
3.根据权利要求1所述的一种基于机器学习的根因分析方法,其特征在于,所述步骤S2包括以下步骤:
对步骤S1中采集的历史流程日志按照/>从小到大进行排序;将符合有症状条件案例的RcaFlag标记为1,其余无症状案例标记的RcaFlag标记为0;将历史流程日志的Case ID字段和TimeStamp字段剔除,将历史流程日志的每行数据l中数值属性列做分区处理,选取数值属性列的前clusterNum个点作为初始中心点,设定最小误差阈值为0.01*clusterNum,通过KMeans聚类算法迭代运算,计算出每个点所属的类簇,最终得到所有的分区区间,然后将属于对应分区区间的数值作区间替换。
4.根据权利要求1所述的一种基于机器学习的根因分析方法,其特征在于,所述步骤S4包括以下步骤:
S4-01、给定一个关联规则X→Y,其中项集X为关联规则的前件,项集Y为关联规则的后件,且
S4-02、计算关联规则X→Y的支持度support(X→Y),其计算方式为:
其中,P(X∩Y)为频繁项集中{X,Y}同时发生的次数,N为总项集的个数。
5.根据权利要求1所述的一种基于机器学习的根因分析方法,其特征在于,所述步骤S6包括以下步骤:
将排序后的日志数据插入FP树,插入时按照排序后的顺序插入到FP树中,排序靠前的节点是父节点,靠后的是子节点,若有共用的父节点,则对应的公用父节点计数加1;若有新节点出现,则项头表对应的节点会通过节点链表链接到新节点,直到所有的数据都插入到FP树后,FP树的建立完成。
6.根据权利要求1所述的一种基于机器学习的根因分析方法,其特征在于,所述步骤S8包括以下步骤:
S8-01、计算关联规则X→Y的置信度Confidence(X→Y),其计算方式为:
其中,P(X∩Y)为频繁项集中含{X,Y}同时发生的次数,P(X)为频繁项集中包含{X}发生的次数;
S8-02、计算关联规则X→Y的提升度Lift(X→Y),其计算方式为:
其中,P(Y)为频繁项集中包含{Y}发生的次数。
7.根据权利要求1所述的一种基于机器学习的根因分析方法,其特征在于,所述步骤S11包括以下步骤:
S11-01、给定一个决策表S=(U,A=C∪D,V,f),U为非空有限对象集并称为论域,C为条件属性集,D为决策属性集,V为属性值域范围,f为信息函数,若论域中有m个关于B的等价类U/B={e1,e2,…,em},其中ei为B的第i个等价类,且1≤i≤m,则B的知识粒度GPU(B)为:
S11-02、计算条件属性aj关于条件属性集C相对于决策属性集D的内部属性重要度其中1≤j≤|C|,其计算方式为:
GPU(D|C-{aj})=GPU(C-{aj})-GPU(C-{aj}∪D);
GPU(D|C)=GPU(C)-GPU(C∪D);
知识粒度计算方式根据步骤S11-01求得,将内部属性重要度的条件属性aj放入到约简集REDU中;
S11-03、计算不同属性子集ai∈(C-REDU)关于约简集REDU相对于决策属性集D的外部属性重要度选择最优的单个属性/>将a0放入到约简集REDU中;其中,/>的计算方式为:
GPU(D|REDU)=GPU(REDU)-GPU(REDU∪D);
GPU(D|REDU∪{ai})=GPU(REDU∪{ai})-GPU(D|REDU∪{ai}∪D);
S11-04、重复步骤S11-03,直到满足以下条件:
GPU(D|REDU)=GPU(D|C);
以确保约简集REDU有着与所有条件属性集C相同的划分能力;
S11-05、从步骤S11-04输出的约简集的尾部开始从后往前对每个属性ai∈REDU进行判断是否可省,若存满足以下条件:
GPU(D|(REDU-{ai}))=GPU(D|C);
则说明ai是冗余属性,将ai从约简集REDU中剔除,以确保约简集REDU内没有冗余属性;
S11-06、输出约简集REDU。
8.一种存储有指令的非暂时性计算机可读介质,其特征在于,当所述指令由处理器执行时,执行根据权利要求1-7任意一项所述的根因分析方法的步骤。
9.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-7任意一项所述的根因分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980219.1A CN117114116A (zh) | 2023-08-04 | 2023-08-04 | 一种基于机器学习的根因分析方法、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980219.1A CN117114116A (zh) | 2023-08-04 | 2023-08-04 | 一种基于机器学习的根因分析方法、介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117114116A true CN117114116A (zh) | 2023-11-24 |
Family
ID=88810252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310980219.1A Pending CN117114116A (zh) | 2023-08-04 | 2023-08-04 | 一种基于机器学习的根因分析方法、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117114116A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408787A (zh) * | 2023-12-15 | 2024-01-16 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020188424A1 (en) * | 2001-04-20 | 2002-12-12 | Grinstein Georges G. | Method and system for data analysis |
US7433879B1 (en) * | 2004-06-17 | 2008-10-07 | Versata Development Group, Inc. | Attribute based association rule mining |
CN102663232A (zh) * | 2012-03-13 | 2012-09-12 | 江苏润和软件股份有限公司 | 一种面向用户能效评估的多维仿真分析系统及其方法 |
CN103728507A (zh) * | 2013-11-18 | 2014-04-16 | 芜湖大学科技园发展有限公司 | 一种基于数据挖掘的电网故障诊断方法 |
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN106021546A (zh) * | 2016-05-27 | 2016-10-12 | 西华大学 | 基于项目子集事例树的极小非约简关联规则挖掘方法 |
CN106294715A (zh) * | 2016-08-09 | 2017-01-04 | 中国地质大学(武汉) | 一种基于属性约简的关联规则挖掘方法及装置 |
US20180129579A1 (en) * | 2016-11-10 | 2018-05-10 | Nec Laboratories America, Inc. | Systems and Methods with a Realtime Log Analysis Framework |
CN108537259A (zh) * | 2018-03-27 | 2018-09-14 | 北京交通大学 | 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法 |
KR101914874B1 (ko) * | 2017-07-24 | 2018-11-02 | 숭실대학교산학협력단 | 연관 관계 분석 규칙 생성 방법, 이를 수행하기 위한 기록 매체, 연관 관계 분석 규칙을 이용한 내부 정보 유출 탐지 방법 및 장치 |
CN111726248A (zh) * | 2020-05-29 | 2020-09-29 | 北京宝兰德软件股份有限公司 | 一种告警根因定位方法及装置 |
AU2020102424A4 (en) * | 2020-09-25 | 2020-11-12 | Beijing Institute Of Petrochemical Technology | Hazardous chemical safety management assessment method |
CN112183656A (zh) * | 2020-10-12 | 2021-01-05 | 国网新疆电力有限公司 | 一种电网故障中scada数据频繁项集挖掘方法 |
CN112528519A (zh) * | 2020-05-14 | 2021-03-19 | 北京赛宝工业技术研究院有限公司 | 发动机质量预警服务的方法、系统、可读介质和电子设备 |
CN112751418A (zh) * | 2020-12-31 | 2021-05-04 | 国网山东省电力公司青岛供电公司 | 智能配电网区域态势要素感知方法及系统 |
CN114170796A (zh) * | 2021-11-20 | 2022-03-11 | 无锡数据湖信息技术有限公司 | 算法改进型拥堵传播分析方法 |
CN114385391A (zh) * | 2020-10-22 | 2022-04-22 | 中兴通讯股份有限公司 | 一种nfv虚拟化设备运行数据分析方法及装置 |
CN116185758A (zh) * | 2022-12-21 | 2023-05-30 | 浪潮云信息技术股份公司 | 一种基于滑动窗口和关联规则分析的告警数据收敛方法 |
-
2023
- 2023-08-04 CN CN202310980219.1A patent/CN117114116A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020188424A1 (en) * | 2001-04-20 | 2002-12-12 | Grinstein Georges G. | Method and system for data analysis |
US7433879B1 (en) * | 2004-06-17 | 2008-10-07 | Versata Development Group, Inc. | Attribute based association rule mining |
CN102663232A (zh) * | 2012-03-13 | 2012-09-12 | 江苏润和软件股份有限公司 | 一种面向用户能效评估的多维仿真分析系统及其方法 |
CN103728507A (zh) * | 2013-11-18 | 2014-04-16 | 芜湖大学科技园发展有限公司 | 一种基于数据挖掘的电网故障诊断方法 |
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN106021546A (zh) * | 2016-05-27 | 2016-10-12 | 西华大学 | 基于项目子集事例树的极小非约简关联规则挖掘方法 |
WO2017201920A1 (zh) * | 2016-05-27 | 2017-11-30 | 西华大学 | 基于项目子集事例树的极小非约简关联规则挖掘方法 |
CN106294715A (zh) * | 2016-08-09 | 2017-01-04 | 中国地质大学(武汉) | 一种基于属性约简的关联规则挖掘方法及装置 |
US20180129579A1 (en) * | 2016-11-10 | 2018-05-10 | Nec Laboratories America, Inc. | Systems and Methods with a Realtime Log Analysis Framework |
KR101914874B1 (ko) * | 2017-07-24 | 2018-11-02 | 숭실대학교산학협력단 | 연관 관계 분석 규칙 생성 방법, 이를 수행하기 위한 기록 매체, 연관 관계 분석 규칙을 이용한 내부 정보 유출 탐지 방법 및 장치 |
CN108537259A (zh) * | 2018-03-27 | 2018-09-14 | 北京交通大学 | 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法 |
CN112528519A (zh) * | 2020-05-14 | 2021-03-19 | 北京赛宝工业技术研究院有限公司 | 发动机质量预警服务的方法、系统、可读介质和电子设备 |
CN111726248A (zh) * | 2020-05-29 | 2020-09-29 | 北京宝兰德软件股份有限公司 | 一种告警根因定位方法及装置 |
AU2020102424A4 (en) * | 2020-09-25 | 2020-11-12 | Beijing Institute Of Petrochemical Technology | Hazardous chemical safety management assessment method |
CN112183656A (zh) * | 2020-10-12 | 2021-01-05 | 国网新疆电力有限公司 | 一种电网故障中scada数据频繁项集挖掘方法 |
CN114385391A (zh) * | 2020-10-22 | 2022-04-22 | 中兴通讯股份有限公司 | 一种nfv虚拟化设备运行数据分析方法及装置 |
CN112751418A (zh) * | 2020-12-31 | 2021-05-04 | 国网山东省电力公司青岛供电公司 | 智能配电网区域态势要素感知方法及系统 |
CN114170796A (zh) * | 2021-11-20 | 2022-03-11 | 无锡数据湖信息技术有限公司 | 算法改进型拥堵传播分析方法 |
CN116185758A (zh) * | 2022-12-21 | 2023-05-30 | 浪潮云信息技术股份公司 | 一种基于滑动窗口和关联规则分析的告警数据收敛方法 |
Non-Patent Citations (9)
Title |
---|
(加)伊姆兰•艾哈迈德 作: "华章程序员书库 程序员必会的40种算法", 30 September 2021, 机械工业出版社, pages: 122 - 123 * |
YUNGE JING 等: "An incremental approach for attribute reduction based on knowledge granularity", KNOWLEDGE-BASED SYSTEMS, 15 July 2016 (2016-07-15), pages 24 - 38 * |
YUNGE JING 等: "An incremental attribute reduction approach based on knowledge granularity with a multi-granulation view", INFORMATION SCIENCES, 31 October 2017 (2017-10-31), pages 2 * |
丁敬国 等: "基于粗糙集的关联规则数据挖掘在层流冷却中的应用", 东北大学学报(自然科学版), vol. 28, no. 11, 30 November 2007 (2007-11-30) * |
王红 等: "航空安全事件关联分析方法研究", 安全与环境学报, vol. 20, no. 02, 25 April 2020 (2020-04-25), pages 602 - 609 * |
贺超波 等: "基于粗糙集的关联规则挖掘方法", 计算机应用, vol. 30, no. 01, 31 January 2010 (2010-01-31), pages 25 - 28 * |
赵晨 等: "过程控制中的一种数据挖掘算法", 武汉大学学报(工学版), no. 05, 31 October 2005 (2005-10-31), pages 131 - 134 * |
陈俊 等: "基于关联规则挖掘的IPv6入侵检测系统研究", 贵州大学学报(自然科学版), vol. 30, no. 02, 30 April 2013 (2013-04-30), pages 60 - 65 * |
陈梅 等: "数据科学技术与应用", 31 January 2022, 北京理工大学出版社, pages: 90 - 91 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408787A (zh) * | 2023-12-15 | 2024-01-16 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
CN117408787B (zh) * | 2023-12-15 | 2024-03-05 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046035B (zh) | 数据自动化处理方法、系统、计算机设备及可读存储介质 | |
CN110471913A (zh) | 一种数据清洗方法及装置 | |
CN117114116A (zh) | 一种基于机器学习的根因分析方法、介质和设备 | |
CN110287382B (zh) | 一种面向电池生产数据的关联规则的挖掘方法 | |
CN113536081B (zh) | 基于人工智能的数据中心数据管理方法及系统 | |
TW201327228A (zh) | 在雲端平台的大資料檢核系統及其方法 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN111967521A (zh) | 跨境活跃用户识别方法及装置 | |
CN111324594A (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
CN111597806A (zh) | 一种基于统计模型识别短信文本模版的方法、设备及介质 | |
CN111309770A (zh) | 一种基于无监督机器学习的自动生成规则系统及方法 | |
CN115982177A (zh) | 一种基于树形维度的数据归集的方法、装置、设备及介质 | |
CN115688853A (zh) | 一种流程挖掘方法及系统 | |
CN114139490A (zh) | 一种自动数据预处理的方法、装置以及设备 | |
CN114240179A (zh) | 一种基于事件图谱的财务流程挖掘方法和相关装置 | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
CN112667617A (zh) | 一种基于自然语言的可视化数据清洗系统及方法 | |
CN109783464B (zh) | 一种基于Spark平台的频繁项集挖掘方法 | |
CN113485878A (zh) | 一种多数据中心故障检测方法 | |
CN112990246B (zh) | 孤立树模型建立的方法和装置 | |
CN113407648B (zh) | 一种物料分类方法及系统、物料选配方法及系统 | |
CN116365519B (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN111061640B (zh) | 一种软件可靠性测试用例筛选方法及系统 | |
Zhang et al. | An empirical study of code clone clustering based on clone evolution | |
CN113392099A (zh) | 一种自动化的数据清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |