CN109947760A - 一种挖掘kpi根因的方法及装置 - Google Patents
一种挖掘kpi根因的方法及装置 Download PDFInfo
- Publication number
- CN109947760A CN109947760A CN201710620470.1A CN201710620470A CN109947760A CN 109947760 A CN109947760 A CN 109947760A CN 201710620470 A CN201710620470 A CN 201710620470A CN 109947760 A CN109947760 A CN 109947760A
- Authority
- CN
- China
- Prior art keywords
- kpi
- root
- feature
- training
- characteristic value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 252
- 238000003066 decision tree Methods 0.000 claims abstract description 133
- 230000002159 abnormal effect Effects 0.000 claims abstract description 108
- 238000009412 basement excavation Methods 0.000 claims abstract description 46
- 238000004519 manufacturing process Methods 0.000 claims description 132
- 239000012141 concentrate Substances 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000004891 communication Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种挖掘KPI根因的方法及装置,涉及通信技术领域,能够快速、准确地查找到KPI根因。具体方案为:获取参数,该参数包括KPI报表的存储路径以及待挖掘的异常KPI项;根据KPI报表的存储路径读取KPI报表,该KPI报表包括N行,M列;执行以下步骤101‑102至少一次,获取至少一个决策树;101、采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集;102、根据训练数据集的M个特征,分别对训练数据集进行训练,得到决策树;根据至少一个决策树确定目标根因。本发明实施例用于查找KPI根因的过程。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种挖掘KPI根因的方法及装置。
背景技术
随着网络的发展、用户数量的增加以及用户分布的改变,网络性能不断发生变化;网络性能的优化是系统实际运营过程中的一个重要环节,是运行维护工作的一个重要组成部分。通过不断地进行有效的网络优化,在保证网络设备正常运行的前提下,根据系统的实际表现、实际性能,对系统进行分析,并对系统的参数进行调整,可以使网络性能得以逐步改善。而随着通信技术的发展,移动通信网络规模的扩大,如何准确、实时地掌握网络的运行情况,如何从用户的角度感知网络性能,如何评价网络的质量是移动运营商的重要工作之一。
一般地,可以采用网络性能监测分析的方法,依靠预定义的一组关键绩效指标(Key Performance Indicators,KPI)挖掘到网络性能问题的根因。具体的,KPI根因挖掘主要从关键KPI性能指标恶化的现象出发,找出网络异常现象背后产生网络性能问题的最直接、相关的根因,并输出各种根因统计结果。根据挖掘的根因,可以针对性的选择最佳KPI优化方案,从而最大概率降低关键KPI性能指标恶化的次数和比例,减少不必要参数调整或者误调,从而提高网络性能。
现有的技术中,可以通过网络运维人员凭借经验和一些数据处理工具,挖掘出KPI性能指标恶化的根因。
但是,随着数据量的增长,使得传统的人工处理方式的难度增加,挖掘KPI根因的准确性得不到保障,挖掘的速度较慢,使得网络性能问题的不能够及时、有效地解决。
发明内容
本申请提供一种挖掘KPI根因的方法及装置,能够快速、准确地查找到KPI根因。
为达到上述目的,本申请采用如下技术方案:
本申请的第一方面,提供一种挖掘KPI根因的方法,包括:获取参数,该参数包括KPI报表的存储路径以及待挖掘的异常KPI项;根据KPI报表的存储路径读取KPI报表,该KPI报表包括N行,M列,N和M均为大于或者等于1的正整数;其中,一列用于存储一个特征,一个特征为一个KPI项,一个KPI项包括该KPI标识和对应的特征值,待挖掘的异常KPI项为KPI报表中的一个特征;一行用于存储一条记录;执行以下步骤101-102至少一次,获取至少一个决策树;101、采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集,该训练数据集包括M个特征,P条记录,P为大于或者等于1的正整数;第一记录为待挖掘的异常KPI项中的特征值为正常数据的记录,第二记录为待挖掘的异常KPI项中的特征值为异常数据的记录;P小于或者等于N;102、根据训练数据集的M个特征,分别对训练数据集进行训练,得到决策树;其中,决策树包括至少两层节点,一个非叶节点为训练数据集的一个特征的特征值确定的训练条件,该非叶节点的第一子节点包含训练数据集中满足非叶节点的训练条件的记录,该非叶节点的第二子节点包含训练数据集中不满足非叶节点的训练条件的记录;一个非叶节点的训练条件与该非叶节点的子节点的训练条件不同;根据至少一个决策树确定目标KPI根因,目标KPI根因为KPI报表中使得待挖掘的异常KPI项异常的特征。
本申请中,挖掘KPI根因的装置可以根据获取的参数读取KPI报表,并采集KPI报表中的至少一条第一记录和至少一条第二记录,得到训练数据集,然后对训练数据集进行训练得到决策树,再根据决策树得到目标KPI根因。由于挖掘KPI根因的装置可以采用上述挖掘KPI根因的方法自动化的挖掘出KPI根因,而无需采用的人工处理方法挖掘出KPI根因,因此提高了KPI根因挖掘的效率,保证了KPI根因查找的准确性和高效性。
结合第一方面,在本申请的一种可能的实现方式中,上述“采集KPI报表中至少一条第一记录和至少一条第二记录,生成训练数据集”的方法可以包括:根据每个KPI项的特征值对KPI项所处列的缺省值赋值;对待挖掘的异常KPI项中的特征值标注属性信息,该属性信息用于指示待挖掘的异常KPI项中的特征值为正常数据或者异常数据;根据KPI报表中的属性信息,采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。其中,挖掘KPI根因的装置可以将KPI项所处列的缺省值替换为该KPI项的特征值的众数,以完成对KPI报表中数据的清洗。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述“对待挖掘的异常KPI项中的特征值标注属性信息”的方法可以包括:判断待挖掘的异常KPI项中的特征值是否大于或者等于第一阈值;当待挖掘的异常KPI项中的特征值大于或者等于第一阈值时,则标注该特征值为第一属性信息,该第一属性信息用于指示待挖掘的异常KPI项中的特征值为正常数据;当待挖掘的异常KPI项中的特征值小于第一阈值时,则标注该特征值为第二属性信息,该第二属性信息用于指示待挖掘的异常KPI项中的特征值为异常数据。其中,挖掘KPI根因的装置可以根据待挖掘的异常KPI项中的特征值是否异常,对待挖掘的异常KPI项中的特征值进行标注区分,以便于采集第一记录以及第二记录,得到训练数据集。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述参数还可以包括数据采样比率(Ratio,Ra)。相应的,上述“根据KPI报表中的属性信息,采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集”的方法可以包括:计算KPI报表中的每一条记录pi的置信度c(pi),i=0,1,2,...,P-1,P为KPI报表中包含的记录的条数;从KPI报表中随机采集条第一记录,以及从KPI报表中随机采集条c(pi)>random(0,1)的第二记录,得到训练数据集;其中,random(0,1)为一个随机函数,random(0,1)用于生成一个取值范围为0~1的随机数。其中,置信度可以用于表征抽样指标和总体指标的误差不超过一定范围的概率保证度。挖掘KPI根因的装置可以根据Ra以及置信度函数采集至少一条第二记录,可以保证采集的可靠性。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述“根据训练数据集的M个特征,分别对训练数据集进行训练,得到决策树”的方法可以包括:201、确定决策树的第一特征以及第一特征的参考值,该第一特征为决策树的一个非叶节点中的特征;202、根据第一特征以及第一特征的参考值,确定决策树的非叶节点;203、根据非叶节点以及第一特征的特征值,将训练数据集分裂为两个训练数据集;204、将第一特征标记为不可用特征;继续执行201-204,直至满足第一条件,则停止分裂非叶节点的训练数据集。其中,第一条件包括以下任一项:非叶节点的训练数据集中没有可分裂的特征;或者,非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为正常数据;或者,非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为异常数据。其中,挖掘KPI根因的装置可以根据确定的第一特征以及第一特征的参考值,对训练数据集进行分裂,直至满足第一条件,以便于挖掘KPI根因的装置在根据决策树挖掘KPI根因时,能够准确、快速地查找到KPI根因。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述“确定决策树的第一特征以及第一特征的参考值”的方法可以包括:从训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益;其中,第一信息熵增益为训练数据集中可用特征的特征值对应的信息熵增益中的最大信息熵增益;将最大第一信息熵增益对应的特征确定为决策树的第一特征,以及将第一特征的第一信息熵增益对应的特征值确定为第一特征的参考值。其中,本发明实施例可以通过计算训练数据集每个可用特征的信息熵增益,确定决策树的非叶节点的训练条件。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,在上述“从训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益”之前,本申请的方法还可以包括:分别计算训练数据集中每个可用特征的特征值对应的信息熵增益;分别从训练数据集中每个可用特征的特征值对应的信息熵增益中,选取该特征的特征值对应的最大信息熵增益;分别将训练数据集中每个可用特征的特征值对应的最大信息熵增益确定为该特征的第一信息熵增益。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述参数还可以包括决策树生长系数。相应的,上述第一条件还可以包括:第一特征的第一信息熵增益小于决策树生长系数。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,针对一个决策树,本申请中“根据一个决策树确定目标KPI根因”的方法可以包括:统计决策树中每个非叶节点的训练数据集中包含的第二记录的条数;从决策树中读取每个非叶节点的第一特征的第一信息熵增益;根据决策树中每个非叶节点的训练数据集中包含的第二记录的条数以及每个非叶节点的第一特征的第一信息熵增益,分别计算训练数据集中每个特征的加权信息熵增益;将至少一个第二特征确定为目标根因,第二特征为加权信息熵增益中非零的加权信息熵增益对应的特征。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,针对至少两个决策树,本申请中“根据至少两个决策树确定目标根因”的方法可以包括:根据至少两个决策树确定至少两组KPI根因集合,每组KPI根因集合包括至少一个KPI根因,一个KPI根因为第二特征,第二特征为加权信息熵增益中非零的加权信息熵增益对应的特征;将每组KPI根因集合中均包括的KPI根因确定为目标KPI根因。
结合第一方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,在上述“根据至少一个决策树确定目标KPI根因”之后,本申请的方法还可以包括:获取目标KPI根因中每个KPI根因的权重;其中,一个KPI根因的权重为每组KPI根因集合中包含的该KPI根因的加权信息熵增益之和;输出目标KPI根因以及目标KPI根因中每个KPI根因的权重。
本申请的第二方面,提供一种挖掘KPI根因的装置,该挖掘KPI根因的装置可以包括:获取单元、读取单元和确定单元。其中,获取单元,用于获取参数,该参数包括KPI报表的存储路径以及待挖掘的异常KPI项。读取单元,用于根据KPI报表的存储路径读取KPI报表,该KPI报表包括N行,M列,N和M均为大于或者等于1的正整数;其中,一列用于存储一个特征,一个特征为一个KPI项,一个KPI项包括该KPI标识和对应的特征值,待挖掘的异常KPI项为KPI报表中的一个特征;一行用于存储一条记录。获取单元,还可以用于获取至少一个决策树。其中,针对一个决策树,获取单元具体可以包括:采集单元和训练单元。采集单元,用于采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集;其中,训练数据集包括M个特征,P条记录,P为大于或者等于1的正整数;第一记录为待挖掘的异常KPI项中的特征值为正常数据的记录,第二记录为待挖掘的异常KPI项中的特征值为异常数据的记录;P小于或者等于N。训练单元,用于根据训练数据集的M个特征,分别对训练数据集进行训练,得到决策树;其中,决策树包括至少两层节点,一个非叶节点为训练数据集的一个特征的特征值确定的训练条件,该非叶节点的第一子节点包含训练数据集中满足非叶节点的训练条件的记录,该非叶节点的第二子节点包含训练数据集中不满足非叶节点的训练条件的记录;一个非叶节点的训练条件与该非叶节点的子节点的训练条件不同。确定单元,用于根据至少一个决策树确定目标KPI根因,该目标KPI根因为KPI报表中使得待挖掘的异常KPI项异常的特征。
结合第二方面,在本申请的一种可能的实现方式中,上述采集单元,具体可以用于:根据每个KPI项的特征值对KPI项所处列的缺省值赋值;对待挖掘的异常KPI项中的特征值标注属性信息,该属性信息用于指示待挖掘的异常KPI项中的特征值为正常数据或者异常数据;根据KPI报表中的属性信息,采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述采集单元,具体可以用于:判断待挖掘的异常KPI项中的特征值是否大于或者等于第一阈值;当待挖掘的异常KPI项中的特征值大于或者等于第一阈值时,则标注该特征值为第一属性信息,该第一属性信息用于指示待挖掘的异常KPI项中的特征值为正常数据;当待挖掘的异常KPI项中的特征值小于第一阈值时,则标注该特征值为第二属性信息,该第二属性信息用于指示待挖掘的异常KPI项中的特征值为异常数据。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述参数还可以包括数据采样比率(Ratio,Ra)。相应的,上述采集单元,具体可以用于:计算KPI报表中的每一条记录pi的置信度c(pi),i=0,1,2,...,P-1,P为KPI报表中包含的记录的条数;从KPI报表中随机采集条第一记录,以及从KPI报表中随机采集条c(pi)>random(0,1)的第二记录,得到训练数据集;其中,random(0,1)为一个随机函数,random(0,1)用于生成一个取值范围为0~1的随机数。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述训练单元,具体可以用于:确定决策树的第一特征以及第一特征的参考值,该第一特征为决策树的一个非叶节点中的特征;根据第一特征以及第一特征的参考值,确定决策树的非叶节点;根据非叶节点以及第一特征的特征值,将训练数据集分裂为两个训练数据集;将第一特征标记为不可用特征;直至满足第一条件,训练单元则停止分裂非叶节点的训练数据集。其中,第一条件包括以下任一项:非叶节点的训练数据集中没有可分裂的特征;或者,非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为正常数据;或者,非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为异常数据。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述训练单元,具体可以用于:从训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益;其中,第一信息熵增益为训练数据集中可用特征的特征值对应的信息熵增益中的最大信息熵增益;将最大第一信息熵增益对应的特征确定为决策树的第一特征,以及将第一特征的第一信息熵增益对应的特征值确定为第一特征的参考值。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,本申请的挖掘KPI根因的装置还可以包括:计算单元和选取单元。其中,计算单元,用于在训练单元从训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益之前,分别计算训练数据集中每个可用特征的特征值对应的信息熵增益。选取单元,用于分别从训练数据集中每个可用特征的特征值对应的信息熵增益中,选取该特征的特征值对应的最大信息熵增益。确定单元,还用于分别将训练数据集中每个可用特征的特征值对应的最大信息熵增益确定为该特征的第一信息熵增益。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,上述参数还可以包括决策树生长系数。相应的,上述第一条件还可以包括:第一特征的第一信息熵增益小于决策树生长系数。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,针对一个决策树,上述确定单元,具体可以用于:统计决策树中每个非叶节点的训练数据集中包含的第二记录的条数;从决策树中读取每个非叶节点的第一特征的第一信息熵增益;根据决策树中每个非叶节点的训练数据集中包含的第二记录的条数以及每个非叶节点的第一特征的第一信息熵增益,分别计算训练数据集中每个特征的加权信息熵增益;将至少一个第二特征确定为目标根因,第二特征为加权信息熵增益中非零的加权信息熵增益对应的特征。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,针对至少两个决策树,上述确定单元,具体可以用于:根据至少两个决策树确定至少两组KPI根因集合,每组KPI根因集合包括至少一个KPI根因,一个KPI根因为第二特征,第二特征为加权信息熵增益中非零的加权信息熵增益对应的特征;将每组KPI根因集合中均包括的KPI根因确定为目标KPI根因。
结合第二方面和上述可能的实现方式,在本申请的另一种可能的实现方式中,获取单元,还用于确定单元在根据至少一个决策树确定目标KPI根因之后,获取目标KPI根因中每个KPI根因的权重;其中,一个KPI根因的权重为每组KPI根因集合中包含的该KPI根因的加权信息熵增益之和。本申请的挖掘KPI根因的装置还可以包括:输出单元。其中,输出单元,用于输出目标KPI根因以及目标KPI根因中每个KPI根因的权重。
需要说明的是,本发明实施例的第二方面及其各种可能的实现方式的各个功能单元,是为了执行上述第一方面以及第一方面的各种可选方式的挖掘KPI根因的方法,而对挖掘KPI根因的装置进行的逻辑上的划分。第二方面及其各种可能的实现方式的各个功能单元的详细描述以及有益效果分析可以参考上述第一方面及其各种可能的实现方式中的对应描述及技术效果,此处不再赘述。
本申请的第三方面,提供一种挖掘KPI根因的装置,该挖掘KPI根因的装置可以包括:处理器、存储器和显示器。其中,所述存储器用于存储计算机执行指令,所述处理器、所述显示器与所述存储器通过总线连接,当所述挖掘KPI根因的装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述挖掘KPI根因的装置执行如第一方面以及第一方面的各种可选方式所述的挖掘KPI根因的方法。
本申请的第四方面,提供一种计算机存储介质,该计算机存储介质中存储有一个或多个程序代码,当第三方面中的挖掘KPI根因的装置的处理器执行该程序代码时,挖掘KPI根因的装置执行如第一方面以及第一方面的各种可选方式所述的挖掘KPI根因的方法。
本申请的第五方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面以及第一方面的各种可选方式所述的挖掘KPI根因的方法。
上述第三方面中挖掘KPI根因的装置的各个模块的详细描述和相应技术效果分析可参见上述第一方面及其各种可能的实现方式中的详细描述,本发明实施例这里不再赘述。
附图说明
图1为本发明实施例提供的一种挖掘KPI根因的装置的结构示意图一;
图2为本发明实施例提供的一种挖掘KPI根因的方法的流程图一;
图3为本发明实施例提供的一种KPI报表的实例示意图一;
图4为本发明实施例提供的一种挖掘KPI根因的方法的流程图二;
图5为本发明实施例提供的一种KPI报表的实例示意图二;
图6为本发明实施例提供的一种挖掘KPI根因的方法的流程图三;
图7为本发明实施例提供的一种KPI报表的实例示意图三;
图8为本发明实施例提供的一种挖掘KPI根因的方法的流程图四;
图9为本发明实施例提供的一种挖掘KPI根因的方法的流程图五;
图10为本发明实施例提供的一种挖掘KPI根因的方法的流程图六;
图11为本发明实施例提供的一种挖掘KPI根因的方法的流程图七;
图12为本发明实施例提供的一种训练数据集的实例示意图一;
图13为本发明实施例提供的一种训练数据集的实例示意图二;
图14为本发明实施例提供的一种决策树的实例示意图;
图15为本发明实施例提供的一种挖掘KPI根因的方法的流程图八;
图16为本发明实施例提供的一种挖掘KPI根因的装置的结构示意图二;
图17为本发明实施例提供的一种挖掘KPI根因的装置的结构示意图三;
图18为本发明实施例提供的一种挖掘KPI根因的装置的结构示意图四。
具体实施方式
本发明实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一记录和第二记录等是用于区别不同的记录,而不是用于描述记录的特定顺序。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了解决背景技术中,传统的人工处理方式的难度大,挖掘KPI根因的准确性得不到保障,挖掘的速度较慢的问题,本发明实施例提供一种挖掘KPI根因的方法及装置。本发明实施例提供的挖掘KPI根因的方法,其基本原理是:对KPI报表进行采集,得到训练数据集,并对训练数据集进行训练,得到决策树,然后根据决策树挖掘到KPI根因。
本发明实施例提供的挖掘KPI根因的方法及装置可以应用于挖掘KPI根因的过程中,具体的,可以应用于挖掘KPI根因的装置根据决策树挖掘到KPI根因的过程中。
图1为本发明实施例提供的挖掘KPI根因的装置的结构示意图,如图1所示,该挖掘KPI根因的装置01可以包括:处理器10、存储器11、显示器12和总线13。
其中,处理器10是挖掘KPI根因的装置01的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器10是一个中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(FieldProgrammable Gate Array,FPGA)。处理器10利用各种接口和线路连接整个挖掘KPI根因的装置01的各个部分。通过运行或执行存储在存储器11内的软件程序和/或模块,以及调用存储在存储器11内的数据,执行挖掘KPI根因的装置01的各种功能和处理数据,从而对挖掘KPI根因的装置01进行整体监控。
可选的,在具体的实现中,作为一种实施例,处理器10可以包括一个或多个CPU,例如图1中所示的CPU 0和CPU 1。
可选的,在具体实现中,作为一种实施例,挖掘KPI根因的装置01可以包括多个处理器,即挖掘KPI根因的装置01可以包括多核处理器。这些处理器中的每一个可以是一个单核处理器(Single-CPU),也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器11可以用于存储软件程序以及模块,处理器10通过运行存储在存储器11的软件程序以及模块,从而执行挖掘KPI根因的装置01的各种功能应用以及数据处理。存储器11可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据挖掘KPI根因的装置01的使用所创建的数据等。此外,存储器11可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
显示器12,可用于显示由用户输入的信息或提供给用户的信息以及终端的各种菜单。显示器12可包括显示面板121,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板121。
总线13可以是外设部件互连标准(英文:Peripheral Component Interconnect,简称:PCI)总线或扩展工业标准结构(英文:Extended Industry Standard Architecture,简称:EISA)总线等。上述总线13可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
基于图1所示的挖掘KPI根因的装置01的各模块或组成部分,本发明实施例提供一种挖掘KPI根因的方法,该方法对挖掘KPI根因的过程,进行了详细的介绍。具体的,如图2所示,该挖掘KPI根因的方法可以包括S201-S205:
S201、挖掘KPI根因的装置获取参数。
其中,挖掘KPI根因的装置中的处理器10可以获取用户输入的参数,该参数可以包括KPI报表的存储路径以及待挖掘的异常KPI项。KPI报表的存储路径用于处理器10读取KPI报表,待挖掘的异常KPI项为KPI报表中的一个特征。
S202、挖掘KPI根因的装置根据KPI报表的存储路径读取KPI报表。
其中,KPI报表包括N行,M列;N和M均为大于或者等于1的正整数。一列用于存储一个特征,一个特征为一个KPI项,一个KPI项包括该KPI标识和对应的特征值,待挖掘的异常KPI项为KPI报表中的一个特征,一行用于存储一条记录。
例如,如图3所示,为本发明实施例提供的KPI报表的实例示意图。其中,KPI报表包括5行,4列;该KPI报表有4个特征(分别为特征A、特征B、特征C、特征D),5条记录。该KPI报表有4个KPI项:特征A为一个KPI项,该KPI项的KPI标识为A,该KPI项对应的特征值分别为13、15、缺省值(图3中用表示空白格)、13、20;特征B为一个KPI项,该KPI项的KPI标识为B,该KPI项对应的特征值分别为1、5、2、3、1;特征C为一个KPI项,该KPI项的KPI标识为C,该KPI项对应的特征值分别为25、10、25、18、缺省值;特征D为一个KPI项,该KPI项的KPI标识为D,该KPI项对应的特征值分别为1.5、0.8、0.5、2、3。
本发明实施例中,可以执行以下步骤S203-S204至少一次,获取至少一个决策树。
S203、挖掘KPI根因的装置采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。
其中,训练数据集包括M个特征,P条记录;P为大于或者等于1的正整数,P小于或者等于N。第一记录为待挖掘的异常KPI项中的特征值为正常数据的记录,第二记录为待挖掘的异常KPI项中的特征值为异常数据的记录。
示例性的,挖掘KPI根因的装置可以根据KPI报表中的属性信息,采集KPI报表中的至少一条第一记录和至少一条第二记录,得到训练数据集。具体的,本发明实施例中,结合图2,如图4所示,上述S203具体可以通过S203a-S203c实现:
S203a、挖掘KPI根因的装置根据每个KPI项的特征值对KPI项所处列的缺省值赋值。
其中,当KPI报表中的KPI项所处列的存在缺失值时,挖掘KPI根因的装置中的处理器10可以将该列的缺失值替换为该KPI项的特征值的众数(众数即为一列数据中出现次数最多的数据),以完成对KPI项所处列的缺省值赋值。
例如,图3所示的KPI报表中,特征A对应的KPI项所处列存在缺失值,处理器10将该该列的缺失值替换为该KPI项的特征值的众数13;特征C对应的KPI项所处列存在缺失值,处理器10将该该列的缺失值替换为该KPI项的特征值的众数25。如图5所示,为处理器10对图3所示的KPI报表赋值处理后得到的KPI报表。
S203b、挖掘KPI根因的装置对待挖掘的异常KPI项中的特征值标注属性信息。
其中,属性信息用于指示待挖掘的异常KPI项中的特征值为正常数据或者异常数据。
示例性的,处理器10可以通过判断待挖掘的异常KPI项中的特征值是否大于或者等于第一阈值,对待挖掘的异常KPI项中的特征值标注属性信息。具体的,本发明实施例中,结合图4,如图6所示,上述S203b具体可以通过S203b1-S203b3实现:
S203b1、挖掘KPI根因的装置判断待挖掘的异常KPI项中的特征值是否大于或者等于第一阈值。
示例性的,假设用户输入的待挖掘的异常KPI项为特征D,处理器10可以判断图5所示的KPI报表中特征D的特征值是否大于或者等于第一阈值。
示例性的,当处理器10判断待挖掘的异常KPI项中的特征值大于或者等于第一阈值时,执行以下步骤S203b2;当处理器10判断待挖掘的异常KPI项中的特征值小于第一阈值时,执行以下步骤S203b3:
S203b2、挖掘KPI根因的装置则标注该特征值为第一属性信息。
其中,第一属性信息用于指示待挖掘的异常KPI项中的特征值为正常数据。
示例性的,假设用户输入的待挖掘的异常KPI项为特征D,当处理器10判断图5所示的KPI报表中特征D的特征值大于或者等于第一阈值时,则将该特征值标注为+1,+1用于指示该特征值为正常数据。
例如,第一阈值为0.9,特征D的特征值分别为1.5、0.8、0.5、2、3。处理器10分别判断特征值1.5、0.8、0.5、2、3与第一阈值0.9的大小关系,并将大于第一阈值0.9的特征值1.5、2、3标注为+1。
S203b3、挖掘KPI根因的装置则标注该特征值为第二属性信息。
其中,第二属性信息用于指示待挖掘的异常KPI项中的特征值为异常数据。
示例性的,假设用户输入的待挖掘的异常KPI项为特征D,当处理器10判断图5所示的KPI报表中特征D的特征值小于第一阈值时,则将该特征值标注为-1,-1用于指示该特征值为异常数据。
例如,第一阈值为0.9,特征D的特征值分别为1.5、0.8、0.5、2、3。处理器10分别判断特征值1.5、0.8、0.5、2、3与第一阈值0.9的大小关系,并将小于第一阈值0.9的特征值0.8、0.5标注为-1。如图7所示,为处理器10对图5所示的KPI报表标注处理后得到的KPI报表。
S203c、挖掘KPI根因的装置根据KPI报表中的属性信息,采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。
示例性的,处理器10可以根据第一属性信息采集图7所示的KPI报表中至少一条第一记录,以及根据第二属性信息采集图7所示的KPI报表中至少一条第二记录,得到训练数据集。
例如,图7所示的KPI报表中,特征D中的特征值标注为+1的记录有3条,特征D中的特征值标注为-1的记录有2条。处理器10可以随机采集特征D中的特征值标注为+1的至少一条记录,以及随机采集特征D中的特征值标注为-1的至少一条记录,得到训练数据集。
示例性的,本发明实施例中,挖掘KPI根因的装置获取的用户输入的参数还可以包括数据采样比率(Ratio,Ra),挖掘KPI根因的装置可以根据Ra在KPI报表中随机采集至少一条第一记录和至少一条第二记录,得到训练数据集。相应的,本发明实施例中,结合图4,如图8所示,上述S203c具体可以通过S203c′和S203c″实现:
S203c′、挖掘KPI根因的装置计算KPI报表中的每一条记录pi的置信度c(pi)。
其中,i=0,1,2,...,P-1,P为KPI报表中包含的记录的条数。
示例性的,置信度可以用于表征抽样指标和总体指标的误差不超过一定范围的概率保证度。具体的,置信度c(pi)=ct(pi)*cs(pi),ct(pi)为该记录所处小区单元前后一小时内,KPI报表中所有记录中第二记录所占的比例,cs(pi)为该记录所处小区单元内,KPI报表中所有记录中第二记录所占的比例。处理器10可以通过公式c(pi)=ct(pi)*cs(pi)计算图7所示的KPI报表中的每一条记录的置信度。
S203c″、挖掘KPI根因的装置从KPI报表中随机采集条第一记录,以及从KPI报表中随机采集条c(pi)>random(0,1)的第二记录,得到训练数据集。
其中,random(0,1)为一个随机函数,random(0,1)用于生成一个取值范围为0~1的随机数。
示例性的,假设Ra=0.8,KPI报表中包含有100条记录(即P=100)。处理器10可以从100条记录中采集条第一记录;处理器10可以从条记录中采集c(pi)>random(0,1)的第二记录,假设56条记录中c(pi)>random(0,1)的第二记录有36条,则训练数据集中包含有44条第一记录以及36条第二记录。
S204、挖掘KPI根因的装置根据训练数据集的M个特征,分别对训练数据集进行训练,得到决策树。
其中,决策树包括至少两层节点,一个非叶节点为训练数据集的一个特征的特征值确定的训练条件,该非叶节点的第一子节点包含训练数据集中满足非叶节点的训练条件的记录,该非叶节点的第二子节点包含训练数据集中不满足非叶节点的训练题条件的记录。一个非叶节点的训练条件与该非叶节点的子节点的训练条件不同。
示例性的,本发明实施例中,结合图2,如图9所示,上述S204具体可以通过循环执行S204a-S204d实现,直至满足第二条件,则继续执行S205:
S204a、挖掘KPI根因的装置确定决策树的第一特征以及第一特征的参考值。
其中,第一特征为决策树的一个非叶节点中的特征。
示例性的,处理器10可以将训练数据集中每个特征的特征值对应的信息熵增益,确定第一特征以及第一特征的参考值。
可选的,本发明实施例中,结合图9,如图10所示,上述S204a具体可以通过S204a′和S204a″实现:
S204a′、挖掘KPI根因的装置从训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益。
其中,第一信息熵增益为训练数据集中可用特征的特征值对应的信息熵增益中的最大信息熵增益。
本发明实施例中,挖掘KPI根因的装置可以在确定最大第一信息熵增益之前,先计算训练数据集中每个可用特征的第一信息熵增益。具体的,挖掘KPI根因的装置可以先计算训练数据集中每个可用特征的特征值对应的信息熵增益,然后再在得到各个特征的特征值对应的信息熵增益中,选取最大信息熵增益作为该特征的第一信息熵增益。可选的,本发明实施例中,结合图10,如图11所示,在上述S204a′之前,本发明实施例的方法还可以包括S204a1-S204a3:
S204a1、挖掘KPI根因的装置分别计算训练数据集中每个可用特征的特征值对应的信息熵增益。
示例性的,假设训练数据集包括4个特征(分别为特征A、特征B、特征C、特征D),100条记录,则每个特征有100个特征值。处理器10可以分别计算A特征的特征值对应的信息熵增益,得到100个信息熵增益;处理器10可以分别计算B特征的特征值对应的信息熵增益,得到100个信息熵增益;处理器10可以分别计算C特征的特征值对应的信息熵增益,得到100个信息熵增益;处理器10可以分别计算D特征的特征值对应的信息熵增益,得到100个信息熵增益。
例如,如图12所示,为本发明实施例提供的一种训练数据集的实例示意图。该训练数据集包括4个特征(分别为特征A、特征B、特征C、特征D),4条记录,且特征D为待挖掘的异常KPI项。特征A的特征值分别为a1、a2、a3、a4,特征B的特征值分别为b1、b2、b3、b4,特征C的特征值分别为c1、c2、c3、c4,特征D的特征值分别为+1、+1、-1、-1。处理器10可以分别计算a1、a2、a3、a4对应的信息熵增益,得到四个信息熵增益IGa1、IGa2、IGa3、IGa4;处理器10可以分别计算b1、b2、b3、b4对应的信息熵增益,得到四个信息熵增益IGb1、IGb2、IGb3、IGb4;处理器10可以分别计算c1、c2、c3、c4对应的信息熵增益,得到四个信息熵增益IGc1、IGc2、IGc3、IGc4;处理器10可以分别计算+1、+1、-1、-1对应的信息熵增益,得到四个信息熵增益IGd1、IGd2、IGd3、IGd4。
S204a2、挖掘KPI根因的装置分别从训练数据集中每个可用特征的特征值对应的信息熵增益中,选取该特征的特征值对应的最大信息熵增益。
例如,处理器10可以从特征A的特征值对应的四个信息熵增益IGa1、IGa2、IGa3、IGa4中选择最大信息熵增益IGa2,并将IGa2对应的特征值a2作为特征A的参考值;处理器10可以从特征B的特征值对应的四个信息熵增益IGb1、IGb2、IGb3、IGb4中选择最大信息熵增益IGb3,并将IGb3对应的特征值b3作为特征B的参考值;处理器10可以从特征C的特征值对应的四个信息熵增益IGc1、IGc2、IGc3、IGc4中选择最大信息熵增益IGc1,并将IGc1对应的特征值c1作为特征C的参考值;处理器10可以从特征D的特征值对应的四个信息熵增益IGd1、IGd2、IGd3、IGd4中选择最大信息熵增益IGd3,并将IGd3对应的特征值-1作为特征D的参考值。
S204a3、挖掘KPI根因的装置分别将训练数据集中每个可用特征的特征值对应的最大信息熵增益确定为该特征的第一信息熵增益。
其中,处理器10在计算得到训练数据集中每个可用特征的特征值对应的信息熵增益之后,在得到的各个特征的特征值对应的信息熵增益中选取最大信息熵增益作为该特征的第一信息熵增益。
例如,处理器10可以将IGa2确定为特征A的第一信息熵增益;处理器10可以将IGb3确定为特征B的第一信息熵增益;处理器10可以将IGc1确定为特征C的第一信息熵增益;处理器10可以将IGd3确定为特征D的第一信息熵增益。
相应的,处理器10在确定了训练数据集中每个特征的第一信息熵增益之后,可以从每个可用特征的第一信息熵增益中选取最大第一信息熵增益。
例如,处理器10确定的特征A、特征B、特征C、特征D的第一信息熵增益分别为IGa2、IGb3、IGc1、IGd3,且IGc1>IGa2>IGb3>IGd3,处理器10将IGc1确定为最大第一信息熵增益。
S204a″、挖掘KPI根因的装置将最大第一信息熵增益对应的特征确定为决策树的第一特征,以及将第一特征的第一信息熵增益对应的特征值确定为第一特征的参考值。
例如,处理器10将确定的最大第一信息熵增益IGc1对应的特征C,确定为决策树的第一特征,并将c1作为第一特征(即特征C)的参考值。
S204b、挖掘KPI根因的装置根据第一特征以及第一特征的参考值,确定决策树的非叶节点。
其中,一个非叶节点为训练数据集的一个特征的特征值确定的训练条件,处理器10可以根据第一特征以及第一特征的参考值,确定该非叶节点的训练条件。
示例性的,处理器10确定的第一特征为特征C,以及确定的第一特征的参考值为c1,处理器10可以根据特征C和c1,确定一个非叶节点的训练条件特征C<c1。
例如,特征C为平均用户数,c1为20,则处理器10确定的决策树的一个非叶节点为平均用户数<20。
S204c、挖掘KPI根因的装置根据非叶节点以及第一特征的特征值,将训练数据集分裂为两个训练数据集。
其中,处理器10可以在确定非叶节点后,将确定的第一特征的特征值分别与非叶节点中的第一特征的参考值作比较,以此将训练数据集分裂为两个训练数据集(如第一训练数据集和第二训练数据集)。该非叶节点的第一子节点包含训练数据集中满足该非叶节点的训练条件的记录,该非叶节点的第二子节点包含训练数据集中不满足该非叶节点的训练条件的记录。
示例性的,处理器10在确定非叶节点为特征C<c1后,可以将特征C的特征值c1、c2、c3、c4分别与c1作比较,将特征C的特征值小于c1的至少一条记录划分到决策树的非叶节点的第一子节点,即第一子节点包含第一训练数据集(即训练数据集中满足特征C<c1的至少一条记录),将特征C的特征值不小于(即大于或者等于)c1的至少一条记录划分到决策树的非叶节点的第二子节点,即第二子节点包含第二训练数据集(即训练数据集中不满足特征C<c1(即特征C≥c1)的至少一条记录)。
例如,假设图12所示的训练数据集中,第一特征为特征C,特征C的特征值分别为c1=20、c2=10、c3=25、c4=10。处理器10确定的决策树的非叶节点的训练条件为平均用户数<20,特征值c2和c4小于20,c1和c3大于或者等于20,则处理器10将图12所示的训练数据集分裂为如图13所示的第一训练数据集(如图13所示的图a)和第二训练数据集(如图13所示的图b)。
S204d、挖掘KPI根因的装置将第一特征标记为不可用特征。
其中,处理器10在确定非叶节点,并将训练数据集分裂为两个训练数据集后,处理器10可以将第一特征标记为不可用特征,继续确定该非叶节点的子节点的训练条件,一个非叶节点的训练条件与该非叶节点的子节点的训练条件不同。
例如,处理器10确定的第一特征为特征C,在继续确定非叶节点的子节点的训练条件之前,处理器10将特征C标记为不可用特征;处理器10在确定该非叶节点的子节点的训练条件时,选取的特征不为特征C。
需要说明的是,本发明实施例可以继续循环执行204a-204d,直至满足第一条件,则:停止分裂非叶节点的训练数据集。其中,第一条件可以包括:非叶节点的训练数据集中没有可分裂的特征;或者,非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为正常数据;或者,非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为异常数据。
当然,本发明实施例中,处理器获取得用户输入的参数还可以包括决策树生长系数。相应的,上述第一条件还可以包括:非叶节点的第一特征的第一信息熵增益小于决策树生长系数。
示例性的,如图14所示,为本发明实施例提供的一种决策树的实例示意图。该决策树中包括多个非叶节点和多个叶节点。
其中,多个非叶节点包括训练条件为平均用户数<20的非叶节点、训练条件为平均CQI值<13.5的非叶节点、上行丢包率<0.002的非叶节点、RRC建立失败次数<2的非叶节点、训练条件为平均CQI值<20.5的非叶节点、平均下行功率<35.5的非叶节点、RRC建立失败次数<3的非叶节点。
其中,多个叶节点分别为叶节点1至叶节点8。叶节点1、叶节点4、叶节点6、叶节点8的训练数据集中的待挖掘的异常KPI项中的所有特征值均为异常数据,即就是叶节点1、叶节点4、叶节点6、叶节点8的训练数据集包含的记录均为第二记录,图14中用实心的椭圆表示;叶节点2、叶节点3、叶节点5、叶节点7的训练数据集中的待挖掘的异常KPI项中的所有特征值均为正常数据,即就是叶节点1、叶节点4、叶节点6、叶节点8的训练数据集包含的记录均为第一记录,图14中用空心的椭圆表示。
其中,平均用户数<20的非叶节点的第一子节点和第二子节点分别为训练条件为平均CQI值<13.5的非叶节点和上行丢包率<0.002的非叶节点;平均CQI值<13.5的非叶节点的第一子节点和第二子节点分别为叶节点1和RRC建立失败次数<2的非叶节点。需要说明的是,每个非叶节点均有第一子节点和第二子节点,此处不再一一列举。
需要说明的是,本发明实施例中,继续循环执行204a-204d,直至满足第二条件时,完成决策树的生成,则继续执行步骤S205。其中,第二条件为所有非叶节点的的训练数据集中均没有可分裂的特征;或者,所有非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为正常数据;或者,所有非叶节点的训练数据集的待挖掘的异常KPI项中的所有特征值均为异常数据;或者,所有非叶节点中的第一特征的第一信息熵增益小于决策树生长系数。
S205、挖掘KPI根因的装置根据至少一个决策树确定目标根因。
其中,目标KPI根因为KPI报表中使得待挖掘的异常KPI项异常的特征。
在本发明实施例的第一种应用场景中,挖掘KPI根因的装置可以根据执行S203-S204一次得到的决策树,确定目标根因。
具体的,针对一个决策树,本发明实施例中,挖掘KPI根因的装置根据决策树确定目标根因的方法可以包括S205a-S205d:
S205a、挖掘KPI根因的装置统计决策树中每个非叶节点的训练数据集中包含的第二记录的条数。
示例性的,根据图14所示的决策树,处理器10统计训练条件为平均用户数<20的非叶节点(简称第一非叶节点)的训练数据集中包含的第二记录的条数,统计训练条件为平均CQI值<13.5的非叶节点(简称第二非叶节点)的训练数据集中包含的第二记录的条数,统计训练条件为上行丢包率<0.002的非叶节点(简称第三非叶节点)的训练数据集中包含的第二记录的条数,统计训练条件为RRC建立失败次数<2的非叶节点(简称第四非叶节点)的训练数据集中包含的第二记录的条数,统计训练条件为平均CQI值<20.5的非叶节点(简称第五非叶节点)的训练数据集中包含的第二记录的条数,统计训练条件为平均下行功率<35.5的非叶节点(简称第六非叶节点)的训练数据集中包含的第二记录的条数,以及统计训练条件为RRC建立失败次数<3的非叶节点(简称第七非叶节点)的训练数据集中包含的第二记录的条数。
例如,处理器10统计的第一非叶节点的训练数据集中包含的第二记录的条数为60条,第二非叶节点的训练数据集中包含的第二记录的条数为35条,第三非叶节点的训练数据集中包含的第二记录的条数为20条,第四非叶节点的训练数据集中包含的第二记录的条数为25条,第五非叶节点的训练数据集中包含的第二记录的条数为5条,第六非叶节点的训练数据集中包含的第二记录的条数为8条,第七非叶节点的训练数据集中包含的第二记录的条数为10条。
S205b、挖掘KPI根因的装置从决策树中读取每个非叶节点的第一特征的第一信息熵增益。
例如,根据图14所示的决策树,第一非叶节点的第一特征为平均用户数,处理器10读取的该平均用户数的第一信息熵增益为0.7;第二非叶节点的第一特征为平均CQI值,处理器10读取的该平均CQI值的第一信息熵增益为0.6;第三非叶节点的第一特征为上行丢包率,处理器10读取的该上行丢包率的第一信息熵增益为0.65;第四非叶节点的第一特征为RRC建立失败次数,处理器10读取的该RRC建立失败次数的第一信息熵增益为0.4;第五非叶节点的第一特征为平均CQI值,处理器10读取的该平均CQI值的第一信息熵增益为0.5;第六非叶节点的第一特征为平均下行功率,处理器10读取的该平均下行功率的第一信息熵增益为0.55;第七非叶节点的第一特征为RRC建立失败次数,处理器10读取的该RRC建立失败次数的第一信息熵增益为0.6。
S205c挖掘KPI根因的装置根据决策树中每个非叶节点的训练数据集中包含的第二记录的条数以及每个非叶节点的第一特征的第一信息熵增益,分别计算训练数据集中每个特征的加权信息熵增益。
示例性的,处理器10可以根据得到的决策树计算得到训练数据集中每个特征的加权信息熵增益IG′j。其中,j=0,1,2,...,M-1,M为训练数据集中包含的特征个数。
例如,此处仅以处理器10计算图14所示的决策树中的平均CQI值的加权信息熵增益为例,对处理器10分别计算训练数据集中每个特征的加权信息熵增益的方法进行阐述。假设处理器10计算平均CQI值的加权信息熵增益IG′5,处理器10查找到决策树中的第二非叶节点和第五非叶节点的第一特征均为平均CQI值;处理器10统计的第二非叶节点的训练数据集中包含的第二记录的条数为35条,第五非叶节点的训练数据集中包含的第二记录的条数为5条;处理器10读取的第二非叶节点的平均CQI值的第一信息熵增益为0.6,处理器10读取的第五非叶节点的平均CQI值的第一信息熵增益为0.5。处理器10可以计算得到平均CQI值的加权信息熵增益为
S205d、挖掘KPI根因的装置将至少一个第二特征确定为目标根因。
其中,第二特征为加权信息熵增益中非零的加权信息熵增益对应的特征。
示例性的,假设处理器10计算得到的平均CQI值的加权信息熵增益非零,平均用户数的加权信息熵增益非零,以及平均下行功率的加权信息熵增益非零,处理器10则将平均CQI值、平均用户数以及平均下行功率这三个特征确定为KPI根因。
在本发明实施例的第一种应用场景下,由于挖掘KPI根因的装置可以采用上述挖掘KPI根因的方法自动化的挖掘出KPI根因,因此提高了KPI根因挖掘的效率,保证了KPI根因查找的准确性和有效性。
进一步的,为了更加准确的查找出KPI根因,在本发明实施例的第二种应用场景中,挖掘KPI根因的装置执行S203-S204至少两次,得到的至少两个决策树,并根据至少两个决策树确定目标根因。
具体的,挖掘KPI根因的装置根据至少两个决策树确定目标根因的方法可以包括:挖掘KPI根因的装置根据至少两个决策树确定至少两组KPI根因集合,每组KPI根因集合包括至少一个KPI根因,一个KPI根因为第二特征;挖掘KPI根因的装置将每组KPI根因集合中均包括的KPI根因确定为目标KPI根因。
示例性的,挖掘KPI根因的装置在每执行一次S203-S204后,可以得到一个决策树,并根据该决策树确定出至少一个KPI根因;并在下一次执行S203-S204得到一个决策树后,再次确定出至少一个KPI根因;然后,挖掘KPI根因的装置可以从每次得到的至少一个KPI根因中,选取相同的至少一个KPI根因作为目标KPI根因。
例如,处理器10第一次执行S203-S204后,得到一个决策树,并根据该决策树确定出至少一个KPI根因为平均CQI值、平均用户数以及平均下行功率;处理器10第二次执行S203-S204后,得到一个决策树,并根据该决策树确定出至少一个KPI根因为平均CQI值、RRC建立失败次数以及平均下行功率,处理器10则确定目标KPI根因为平均CQI值和平均下行功率。
进一步的,本发明实施例中,挖掘KPI根因的装置在确定目标KPI根因后,输出目标KPI根因以及目标KPI根因中每个KPI根因的权重。具体的,如图15所示,其示出了本发明实施例提供的另一种挖掘KPI根因的方法,与图2所示的挖掘KPI根因的方法相比,主要是在S205之后增加了S1501和S1502,在此只对不同的地方进行详细说明,参见图15,该挖掘KPI根因的方法包括:
S201、挖掘KPI根因的装置获取参数。
S202、挖掘KPI根因的装置根据KPI报表的存储路径读取KPI报表。
本发明实施例中,可以执行以下步骤S203-S204至少一次,获取至少一个决策树。
S203、挖掘KPI根因的装置采集KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。
S204、挖掘KPI根因的装置根据训练数据集的M个特征,分别对训练数据集进行训练,得到决策树。
S205、挖掘KPI根因的装置根据至少一个决策树确定目标根因。
S1501、挖掘KPI根因的装置获取目标KPI根因中每个KPI根因的权重。
其中,一个KPI根因的权重为每组KPI根因集合中包含的该KPI根因的加权信息熵增益之和。
例如,假设处理器10根据第一次执行S203-S204后得到的决策树,确定的至少一个KPI根因为平均CQI值、平均用户数以及平均下行功率,且相应的加权信息熵增益分别为0.05、0.06、0.04;处理器10根据第二次执行S203-S204后得到的决策树,确定的至少一个KPI根因为平均CQI值、RRC建立失败次数以及平均下行功率,且相应的加权信息熵增益分别为0.06、0.07、0.045;处理器10计算两次得到的平均CQI值的加权信息熵增益之和0.05+0.06=0.11,以及计算两次得到的平均下行功率的加权信息熵增益之和0.04+0.045=0.085。
S1502、挖掘KPI根因的装置输出目标KPI根因以及目标KPI根因中每个KPI根因的权重。
本发明实施例中,挖掘KPI根因的装置可以通过显示器12显示目标根因以及于该目标KPI根因中每个KPI根因的权重。
例如,挖掘KPI根因的装置可以通过显示器12显示平均CQI值和平均下行功率以及0.11和0.085。
本发明实施例提供一种挖掘KPI根因的方法,挖掘KPI根因的装置可以根据获取的参数读取KPI报表,并采集KPI报表中的至少一条第一记录和至少一条第二记录,得到训练数据集,然后对训练数据集进行训练得到决策树,再根据决策树得到目标根因。由于挖掘KPI根因的装置可以采用上述挖掘KPI根因的方法自动化的挖掘出KPI根因,而无需采用的人工处理方法挖掘出KPI根因,因此提高了KPI根因挖掘的效率,保证了KPI根因查找的准确性和高效性。
上述主要从挖掘KPI根因的装置的角度对本发明实施例提供的方案进行了介绍。可以理解的是,挖掘KPI根因的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的挖掘KPI根因的装置及算法步骤,本发明能够以硬件,或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例对挖掘KPI根因的装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本发明实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图16示出了上述和实施例中涉及的挖掘KPI根因的装置的一种可能的结构示意图,如图16所示,该挖掘KPI根因的装置1600可以包括:获取单元1601、读取单元1602和确定单元1603。其中,针对一个决策树,获取单元1601可以包括:采集单元1601a和训练单元1601b。
其中,获取模块1601用于支持上述实施例中的S201、S203、S204、S203a-S203c、S203b1-S203b3、S203c′、S203c″、S204a-S204d、S204a′、S204a″和S1501,和/或用于本文所描述的技术的其它过程。采集单元1601a用于支持上述实施例中的S203、S203a-S203c、S203b1-S203b3、S203c′和S203c″,和/或用于本文所描述的技术的其它过程。训练单元1601b用于支持上述实施例中的204、S204a-S204d、S204a′和S204a″,和/或用于本文所描述的技术的其它过程。读取单元1602用于支持上述实施例中的S202,和/或用于本文所描述的技术的其它过程。确定单元1603用于支持上述实施例中的S205、S204a3和S205a-S205d,和/或用于本文所描述的技术的其它过程。
进一步的,如图17所示,图16所示的挖掘KPI根因的装置1600还可以包括:计算单元1604和选取单元1605。
其中,计算单元1604用于支持上述实施例中的S204a1,和/或用于本文所描述的技术的其它过程。选取单元1605用于支持上述实施例中的S204a2,和/或用于本文所描述的技术的其它过程。
进一步的,如图18所示,图16所示的挖掘KPI根因的装置1600还可以包括:输出单元1606。
其中,输出单元1606用于支持上述实施例中的S1502,和/或用于本文所描述的技术的其它过程。
当然,本发明实施例提供的挖掘KPI根因的装置1600包括但不限于上述所述的模块,例如挖掘KPI根因的装置1600中还可以包括发送单元、接收单元以及存储单元。
在采用集成的单元的情况下,上述获取单元1601、读取单元1602、确定单元1603、计算单元1604和选取单元1605和输出单元1606等可以集成在一个处理模块中实现,该处理模块可以是图1所示的挖掘KPI根因的装置01中的处理器10。发送单元和接收单元可以集成在一个通信模块中实现,该通信模块可以是通信接口。存储单元可以是图1所示的挖掘KPI根因的装置01中的存储器11。
本发明实施例还提供一种计算机存储介质,该计算机存储介质中存储有一个或多个程序代码,当挖掘KPI根因的装置01的处理器10执行该程序代码时,该挖掘KPI根因的装置01执行图2、4、6、8-11和图15中任一附图中的相关方法步骤。
其中,本发明实施例提供的挖掘KPI根因的装置01中各个模块的详细描述以及各个模块或单元执行图2、4、6、8-11和图15中任一附图中的相关方法步骤后所带来的技术效果可以参考本发明方法实施例中的相关描述,此处不再赘述。
本发明实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行图2、4、6、8-11和图15中任一附图中的相关方法步骤。
其中,本发明实施例提供的挖掘KPI根因的装置01、挖掘KPI根因的装置1600、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (25)
1.一种挖掘关键绩效指标KPI根因的方法,其特征在于,包括:
获取参数,所述参数包括KPI报表的存储路径以及待挖掘的异常KPI项;
根据所述KPI报表的存储路径读取KPI报表,所述KPI报表包括N行,M列,所述N和所述M均为大于或者等于1的正整数;其中,一列用于存储一个特征,一个特征为一个KPI项,一个所述KPI项包括该KPI标识和对应的特征值,所述待挖掘的异常KPI项为所述KPI报表中的一个特征;一行用于存储一条记录;
执行以下步骤101-102至少一次,获取至少一个决策树;
101、采集所述KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集;其中,所述训练数据集包括M个特征,P条记录,所述P为大于或者等于1的正整数;所述第一记录为所述待挖掘的异常KPI项中的特征值为正常数据的记录,所述第二记录为所述待挖掘的异常KPI项中的特征值为异常数据的记录;所述P小于或者等于所述N;
102、根据所述训练数据集的M个特征,分别对所述训练数据集进行训练,得到决策树;其中,所述决策树包括至少两层节点,一个非叶节点为所述训练数据集的一个特征的特征值确定的训练条件,该非叶节点的第一子节点包含所述训练数据集中满足所述非叶节点的训练条件的记录,该非叶节点的第二子节点包含所述训练数据集中不满足所述非叶节点的训练条件的记录;一个非叶节点的训练条件与该非叶节点的子节点的训练条件不同;
根据所述至少一个决策树确定目标KPI根因,所述目标KPI根因为所述KPI报表中使得所述待挖掘的异常KPI项异常的特征。
2.根据权利要求1所述的方法,其特征在于,所述采集所述KPI报表中至少一条第一记录和至少一条第二记录,生成训练数据集,包括:
根据每个KPI项的特征值对所述KPI项所处列的缺省值赋值;
对所述待挖掘的异常KPI项中的特征值标注属性信息,所述属性信息用于指示所述待挖掘的异常KPI项中的特征值为正常数据或者异常数据;
根据所述KPI报表中的属性信息,采集所述KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。
3.根据权利要求2所述的方法,其特征在于,所述对所述待挖掘的异常KPI项中的特征值标注属性信息,包括:
判断所述待挖掘的异常KPI项中的特征值是否大于或者等于第一阈值;
当所述待挖掘的异常KPI项中的特征值大于或者等于所述第一阈值时,则标注该特征值为第一属性信息,所述第一属性信息用于指示所述待挖掘的异常KPI项中的特征值为正常数据;
当所述待挖掘的异常KPI项中的特征值小于所述第一阈值时,则标注该特征值为第二属性信息,所述第二属性信息用于指示所述待挖掘的异常KPI项中的特征值为异常数据。
4.根据权利要求2或3所述的方法,其特征在于,所述参数还包括数据采样比率Ra;
相应的,所述根据所述KPI报表中的属性信息,采集所述KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集,包括:
计算所述KPI报表中的每一条记录pi的置信度c(pi),i=0,1,2,...,P-1,P为所述KPI报表中包含的记录的条数;
从所述KPI报表中随机采集条所述第一记录,以及从所述KPI报表中随机采集条c(pi)>random(0,1)的所述第二记录,得到所述训练数据集;其中,random(0,1)为一个随机函数,random(0,1)用于生成一个取值范围为0~1的随机数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述训练数据集的M个特征,分别对所述训练数据集进行训练,得到决策树,包括:
201、确定所述决策树的第一特征以及所述第一特征的参考值,所述第一特征为所述决策树的一个非叶节点中的特征;
202、根据所述第一特征以及所述第一特征的参考值,确定所述决策树的非叶节点;
203、根据所述非叶节点以及所述第一特征的特征值,将所述训练数据集分裂为两个训练数据集;
204、将所述第一特征标记为不可用特征;
继续执行201-204,直至满足第一条件,则:停止分裂所述非叶节点的训练数据集;其中,所述第一条件包括以下任一项:
所述非叶节点的训练数据集中没有可分裂的特征;或者,所述非叶节点的训练数据集的所述待挖掘的异常KPI项中的所有特征值均为正常数据;或者,所述非叶节点的训练数据集的所述待挖掘的异常KPI项中的所有特征值均为异常数据。
6.根据权利要求5所述的方法,其特征在于,所述确定所述决策树的第一特征以及所述第一特征的参考值,包括:
从所述训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益;其中,所述第一信息熵增益为所述训练数据集中可用特征的特征值对应的信息熵增益中的最大信息熵增益;
将所述最大第一信息熵增益对应的特征确定为所述决策树的第一特征,以及将所述第一特征的第一信息熵增益对应的特征值确定为所述第一特征的参考值。
7.根据权利要求6所述的方法,其特征在于,在所述从所述训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益之前,所述方法还包括:
分别计算所述训练数据集中每个可用特征的特征值对应的信息熵增益;
分别从所述训练数据集中每个可用特征的特征值对应的信息熵增益中,选取该特征的特征值对应的最大信息熵增益;
分别将所述训练数据集中每个可用特征的特征值对应的最大信息熵增益确定为该特征的第一信息熵增益。
8.根据权利要求6或7所述的方法,其特征在于,所述参数还包括决策树生长系数;
相应的,所述第一条件还包括:
所述第一特征的第一信息熵增益小于所述决策树生长系数。
9.根据权利要求6-8所述的方法,其特征在于,针对一个决策树,根据所述决策树确定目标KPI根因,包括:
统计所述决策树中每个非叶节点的训练数据集中包含的所述第二记录的条数;
从所述决策树中读取每个非叶节点的第一特征的第一信息熵增益;
根据所述决策树中每个非叶节点的训练数据集中包含的所述第二记录的条数以及每个非叶节点的第一特征的第一信息熵增益,分别计算所述训练数据集中每个特征的加权信息熵增益;
将至少一个第二特征确定为所述目标KPI根因,所述第二特征为所述加权信息熵增益中非零的加权信息熵增益对应的特征。
10.根据权利要求1-9任一项所述的方法,其特征在于,针对至少两个决策树,根据所述至少两个决策树确定目标KPI根因,包括:
根据至少两个决策树确定至少两组KPI根因集合,每组KPI根因集合包括至少一个KPI根因,一个所述KPI根因为第二特征,所述第二特征为所述加权信息熵增益中非零的加权信息熵增益对应的特征;
将所述每组KPI根因集合中均包括的KPI根因确定为所述目标KPI根因。
11.根据权利要求1-10任一项所述的方法,其特征在于,在所述根据所述至少一个决策树确定目标KPI根因之后,所述方法还包括:
获取所述目标KPI根因中每个KPI根因的权重;其中,一个KPI根因的权重为每组KPI根因集合中包含的该KPI根因的加权信息熵增益之和;
输出所述目标KPI根因以及所述目标KPI根因中每个KPI根因的权重。
12.一种挖掘关键绩效指标KPI根因的装置,其特征在于,包括:
获取单元,用于获取参数,所述参数包括KPI报表的存储路径以及待挖掘的异常KPI项;
读取单元,用于根据所述KPI报表的存储路径读取KPI报表,所述KPI报表包括N行,M列,所述N和所述M均为大于或者等于1的正整数;其中,一列用于存储一个特征,一个特征为一个KPI项,一个所述KPI项包括该KPI标识和对应的特征值,所述待挖掘的异常KPI项为所述KPI报表中的一个特征;一行用于存储一条记录;
所述获取单元,还用于获取至少一个决策树;
针对一个决策树,所述获取单元,具体包括:采集单元和训练单元;
所述采集单元,用于采集所述KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集;其中,所述训练数据集包括M个特征,P条记录,所述P为大于或者等于1的正整数;所述第一记录为所述待挖掘的异常KPI项中的特征值为正常数据的记录,所述第二记录为所述待挖掘的异常KPI项中的特征值为异常数据的记录;所述P小于或者等于所述N;
所述训练单元,用于根据所述训练数据集的M个特征,分别对所述训练数据集进行训练,得到决策树;其中,所述决策树包括至少两层节点,一个非叶节点为所述训练数据集的一个特征的特征值确定的训练条件,该非叶节点的第一子节点包含所述训练数据集中满足所述非叶节点的训练条件的记录,该非叶节点的第二子节点包含所述训练数据集中不满足所述非叶节点的训练条件的记录;一个非叶节点的训练条件与该非叶节点的子节点的训练条件不同;
确定单元,用于根据所述至少一个决策树确定目标KPI根因,所述目标KPI根因为所述KPI报表中使得所述待挖掘的异常KPI项异常的特征。
13.根据权利要求12所述的挖掘KPI根因的装置,其特征在于,所述采集单元,具体用于:
根据每个KPI项的特征值对所述KPI项所处列的缺省值赋值;
对所述待挖掘的异常KPI项中的特征值标注属性信息,所述属性信息用于指示所述待挖掘的异常KPI项中的特征值为正常数据或者异常数据;
根据所述KPI报表中的属性信息,采集所述KPI报表中至少一条第一记录和至少一条第二记录,得到训练数据集。
14.根据权利要求13所述的挖掘KPI根因的装置,其特征在于,所述采集单元,具体用于:
判断所述待挖掘的异常KPI项中的特征值是否大于或者等于第一阈值;
当所述待挖掘的异常KPI项中的特征值大于或者等于所述第一阈值时,则标注该特征值为第一属性信息,所述第一属性信息用于指示所述待挖掘的异常KPI项中的特征值为正常数据;
当所述待挖掘的异常KPI项中的特征值小于所述第一阈值时,则标注该特征值为第二属性信息,所述第二属性信息用于指示所述待挖掘的异常KPI项中的特征值为异常数据。
15.根据权利要求13或14所述的挖掘KPI根因的装置,其特征在于,所述参数还包括数据采样比率Ra;
相应的,所述采集单元,具体用于:
计算所述KPI报表中的每一条记录pi的置信度c(pi),i=0,1,2,...,P-1,P为所述KPI报表中包含的记录的条数;
从所述KPI报表中随机采集条所述第一记录,以及从所述KPI报表中随机采集条c(pi)>random(0,1)的所述第二记录,得到所述训练数据集;其中,random(0,1)为一个随机函数,random(0,1)用于生成一个取值范围为0~1的随机数。
16.根据权利要求12-15任一项所述的挖掘KPI根因的装置,其特征在于,所述训练单元,具体用于:
确定所述决策树的第一特征以及所述第一特征的参考值,所述第一特征为所述决策树的一个非叶节点中的特征;
根据所述第一特征以及所述第一特征的参考值,确定所述决策树的非叶节点;
根据所述非叶节点以及所述第一特征的特征值,将所述训练数据集分裂为两个训练数据集;
将所述第一特征标记为不可用特征;
直至满足第一条件,所述训练单元则:停止分裂所述非叶节点的训练数据集;其中,所述第一条件包括以下任一项:
所述非叶节点的训练数据集中没有可分裂的特征;或者,所述非叶节点的训练数据集的所述待挖掘的异常KPI项中的所有特征值均为正常数据;或者,所述非叶节点的训练数据集的所述待挖掘的异常KPI项中的所有特征值均为异常数据。
17.根据权利要求16所述的挖掘KPI根因的装置,其特征在于,所述训练单元,具体用于:
从所述训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益;其中,所述第一信息熵增益为所述训练数据集中可用特征的特征值对应的信息熵增益中的最大信息熵增益;
将所述最大第一信息熵增益对应的特征确定为所述决策树的第一特征,以及将所述第一特征的第一信息熵增益对应的特征值确定为所述第一特征的参考值。
18.根据权利要求17所述的挖掘KPI根因的装置,其特征在于,所述挖掘KPI根因的装置,还包括:
计算单元,用于在所述训练单元从所述训练数据集每个可用特征的第一信息熵增益中选取最大第一信息熵增益之前,分别计算所述训练数据集中每个可用特征的特征值对应的信息熵增益;
选取单元,用于分别从所述训练数据集中每个可用特征的特征值对应的信息熵增益中,选取该特征的特征值对应的最大信息熵增益;
所述确定单元,还用于分别将所述训练数据集中每个可用特征的特征值对应的最大信息熵增益确定为该特征的第一信息熵增益。
19.根据权利要求17或18所述的挖掘KPI根因的装置,其特征在于,所述参数还包括决策树生长系数;
相应的,所述第一条件还包括:
所述第一特征的第一信息熵增益小于所述决策树生长系数。
20.根据权利要求17-19所述的挖掘KPI根因的装置,其特征在于,针对一个决策树,所述确定单元,具体用于:
统计所述决策树中每个非叶节点的训练数据集中包含的所述第二记录的条数;
从所述决策树中读取每个非叶节点的第一特征的第一信息熵增益;
根据所述决策树中每个非叶节点的训练数据集中包含的所述第二记录的条数以及每个非叶节点的第一特征的第一信息熵增益,分别计算所述训练数据集中每个特征的加权信息熵增益;
将至少一个第二特征确定为所述目标KPI根因,所述第二特征为所述加权信息熵增益中非零的加权信息熵增益对应的特征。
21.根据权利要求12-20任一项所述的挖掘KPI根因的装置,其特征在于,针对至少两个决策树,所述确定单元,具体用于:
根据至少两个决策树确定至少两组KPI根因集合,每组KPI根因集合包括至少一个KPI根因,一个所述KPI根因为第二特征,所述第二特征为所述加权信息熵增益中非零的加权信息熵增益对应的特征;
将所述每组KPI根因集合中均包括的KPI根因确定为所述目标KPI根因。
22.根据权利要求12-21任一项所述的挖掘KPI根因的装置,其特征在于,所述获取单元,还用于在所述确定单元根据至少一个决策树确定目标KPI根因之后,获取所述目标KPI根因中每个KPI根因的权重;其中,一个KPI根因的权重为每组KPI根因集合中包含的该KPI根因的加权信息熵增益之和;
所述挖掘KPI根因的装置,还包括:
输出单元,用于输出所述目标KPI根因以及所述目标KPI根因中每个KPI根因的权重。
23.一种挖掘关键绩效指标KPI根因的装置,其特征在于,所述挖掘KPI根因的装置包括:处理器、存储器和显示器;
所述存储器用于存储计算机执行指令,所述处理器、所述显示器与所述存储器通过总线连接,当所述挖掘KPI根因的装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述挖掘KPI根因的装置执行如权利要求1-11中任一项所述的挖掘KPI根因的方法。
24.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在一个挖掘关键绩效指标KPI根因的装置上运行时,使得所述挖掘KPI根因的装置执行如权利要求1-11中任一项所述的挖掘KPI根因的方法。
25.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-11中任一项所述的挖掘关键绩效指标KPI根因的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620470.1A CN109947760A (zh) | 2017-07-26 | 2017-07-26 | 一种挖掘kpi根因的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620470.1A CN109947760A (zh) | 2017-07-26 | 2017-07-26 | 一种挖掘kpi根因的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109947760A true CN109947760A (zh) | 2019-06-28 |
Family
ID=67003891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710620470.1A Pending CN109947760A (zh) | 2017-07-26 | 2017-07-26 | 一种挖掘kpi根因的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109947760A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241128A (zh) * | 2020-01-21 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置及电子设备 |
CN111506637A (zh) * | 2020-06-17 | 2020-08-07 | 北京必示科技有限公司 | 一种基于kpi指标的多维异常检测方法、装置及存储介质 |
CN112181767A (zh) * | 2020-09-27 | 2021-01-05 | 深圳前海微众银行股份有限公司 | 软件系统异常的确定方法、装置和存储介质 |
CN113965445A (zh) * | 2020-07-02 | 2022-01-21 | 中国移动通信集团山东有限公司 | 一种质差根因的定位方法、装置、计算机设备和存储介质 |
CN114338351A (zh) * | 2021-12-31 | 2022-04-12 | 天翼物联科技有限公司 | 网络异常根因确定方法、装置、计算机设备及存储介质 |
CN115859944A (zh) * | 2023-02-15 | 2023-03-28 | 莱芜职业技术学院 | 基于大数据的计算机数据挖掘方法 |
WO2023116178A1 (zh) * | 2021-12-21 | 2023-06-29 | 中兴通讯股份有限公司 | 无线侧网络根因定位方法、运行控制装置及存储介质 |
CN117408787A (zh) * | 2023-12-15 | 2024-01-16 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
US20120191465A1 (en) * | 2011-01-21 | 2012-07-26 | General Electric Company | System and method for analyzing hospital data |
CN103942122A (zh) * | 2014-04-22 | 2014-07-23 | 南京邮电大学 | 一种识别AVI类型block的方法 |
US20150229548A1 (en) * | 2014-02-10 | 2015-08-13 | Feeney Wireless, LLC | Universal key performance indicator for the internet of things |
CN105745868A (zh) * | 2013-11-26 | 2016-07-06 | 瑞典爱立信有限公司 | 网络中异常检测的方法和装置 |
CN106452825A (zh) * | 2016-07-20 | 2017-02-22 | 国网江苏省电力公司南京供电公司 | 一种基于改进决策树的配用电通信网告警关联分析方法 |
CN106843941A (zh) * | 2016-12-31 | 2017-06-13 | 广东欧珀移动通信有限公司 | 信息处理方法、装置和计算机设备 |
-
2017
- 2017-07-26 CN CN201710620470.1A patent/CN109947760A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
US20120191465A1 (en) * | 2011-01-21 | 2012-07-26 | General Electric Company | System and method for analyzing hospital data |
CN105745868A (zh) * | 2013-11-26 | 2016-07-06 | 瑞典爱立信有限公司 | 网络中异常检测的方法和装置 |
US20150229548A1 (en) * | 2014-02-10 | 2015-08-13 | Feeney Wireless, LLC | Universal key performance indicator for the internet of things |
CN103942122A (zh) * | 2014-04-22 | 2014-07-23 | 南京邮电大学 | 一种识别AVI类型block的方法 |
CN106452825A (zh) * | 2016-07-20 | 2017-02-22 | 国网江苏省电力公司南京供电公司 | 一种基于改进决策树的配用电通信网告警关联分析方法 |
CN106843941A (zh) * | 2016-12-31 | 2017-06-13 | 广东欧珀移动通信有限公司 | 信息处理方法、装置和计算机设备 |
Non-Patent Citations (4)
Title |
---|
SHILIANG FAN等: "Distributed Data Mining for Root Causes of KPI Faults in Wireless Networks", 《APWEB-WAIM 2017:WEB AND BIG DATA》 * |
刘莺迎: "决策树分类算法的分析和比较", 《科技情报开发与经济》 * |
王春年等: "基于粗糙集与属性值聚类的决策树改进算法", 《计算机工程与应用》 * |
田玲等: "基于神经网络的电信客户流失预测主题建模及实现 ", 《计算机应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241128A (zh) * | 2020-01-21 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置及电子设备 |
CN111506637A (zh) * | 2020-06-17 | 2020-08-07 | 北京必示科技有限公司 | 一种基于kpi指标的多维异常检测方法、装置及存储介质 |
CN113965445A (zh) * | 2020-07-02 | 2022-01-21 | 中国移动通信集团山东有限公司 | 一种质差根因的定位方法、装置、计算机设备和存储介质 |
CN113965445B (zh) * | 2020-07-02 | 2023-10-27 | 中国移动通信集团山东有限公司 | 一种质差根因的定位方法、装置、计算机设备和存储介质 |
CN112181767A (zh) * | 2020-09-27 | 2021-01-05 | 深圳前海微众银行股份有限公司 | 软件系统异常的确定方法、装置和存储介质 |
WO2023116178A1 (zh) * | 2021-12-21 | 2023-06-29 | 中兴通讯股份有限公司 | 无线侧网络根因定位方法、运行控制装置及存储介质 |
CN114338351A (zh) * | 2021-12-31 | 2022-04-12 | 天翼物联科技有限公司 | 网络异常根因确定方法、装置、计算机设备及存储介质 |
CN114338351B (zh) * | 2021-12-31 | 2024-01-12 | 天翼物联科技有限公司 | 网络异常根因确定方法、装置、计算机设备及存储介质 |
CN115859944A (zh) * | 2023-02-15 | 2023-03-28 | 莱芜职业技术学院 | 基于大数据的计算机数据挖掘方法 |
CN115859944B (zh) * | 2023-02-15 | 2023-10-17 | 莱芜职业技术学院 | 基于大数据的计算机数据挖掘方法 |
CN117408787A (zh) * | 2023-12-15 | 2024-01-16 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
CN117408787B (zh) * | 2023-12-15 | 2024-03-05 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947760A (zh) | 一种挖掘kpi根因的方法及装置 | |
Huang et al. | Revealing density-based clustering structure from the core-connected tree of a network | |
US20100030728A1 (en) | Computing selectivities for group of columns and expressions | |
CN114024837B (zh) | 一种微服务系统的故障根因定位方法 | |
CN108777873A (zh) | 基于加权混合孤立森林的无线传感网络异常数据检测方法 | |
CN104794195B (zh) | 一种用于电信潜在换机用户发现的数据挖掘方法 | |
CN104462184B (zh) | 一种基于双向抽样组合的大规模数据异常识别方法 | |
CN103514259B (zh) | 一种基于数值关联性模型的异常数据探测及修正方法 | |
CN110222029A (zh) | 一种大数据多维分析计算效率提升方法及系统 | |
CN106934000A (zh) | 一种呼叫系统的语音自动质检方法及系统 | |
CN108139965A (zh) | 管理服务器以及使用该管理服务器的管理方法 | |
CN107506802A (zh) | 一种基于网格的聚类算法及其装置 | |
CN116401417B (zh) | 一种基于海量农产品数据的分级存储方法 | |
CN114841374A (zh) | 一种基于随机贪心算法的横向联邦梯度提升树优化方法 | |
CN108377788B (zh) | 一种水稻全生育期耐盐性鉴定评价方法 | |
CN112818013A (zh) | 时序数据库查询优化方法、装置、设备以及存储介质 | |
CN108052832A (zh) | 一种基于排序的微聚集匿名化方法 | |
CN105631465A (zh) | 一种基于密度峰值的高效层次聚类方法 | |
CN103353895A (zh) | 一种配电网线损数据的预处理方法 | |
CN114819692A (zh) | 业务风险分析方法、装置、设备及存储介质 | |
CN107093092A (zh) | 数据分析方法和装置 | |
CN106506282A (zh) | 一种提高云平台监控性能及规模的监控方法 | |
CN108090027A (zh) | 数据分析方法及数据分析器 | |
CN109889366A (zh) | 网络流量增量统计、分析方法及系统 | |
CN112948469B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190628 |
|
RJ01 | Rejection of invention patent application after publication |