CN108989075A - 一种网络故障定位方法及系统 - Google Patents

一种网络故障定位方法及系统 Download PDF

Info

Publication number
CN108989075A
CN108989075A CN201710414827.0A CN201710414827A CN108989075A CN 108989075 A CN108989075 A CN 108989075A CN 201710414827 A CN201710414827 A CN 201710414827A CN 108989075 A CN108989075 A CN 108989075A
Authority
CN
China
Prior art keywords
decision tree
node
branch
training sample
initial decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710414827.0A
Other languages
English (en)
Inventor
张兵战
詹晓航
戴天弓
毛平平
罗志全
郑宇�
张思洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Henghao Data Technology Co Ltd
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
Guangzhou Henghao Data Technology Co Ltd
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Henghao Data Technology Co Ltd, China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical Guangzhou Henghao Data Technology Co Ltd
Priority to CN201710414827.0A priority Critical patent/CN108989075A/zh
Publication of CN108989075A publication Critical patent/CN108989075A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种网络故障定位方法及系统。所述方法包括:获取网络故障监测数据的历史训练样本集,历史训练样本集包括样本属性;计算每个样本属性单独分类历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;根据当前结点的取值,将历史训练样本集划分为至少一个子集,每个子集形成一个初始决策树的分支;对每个子集,递归执行上述步骤,对初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将分支结点作为初始决策树的叶子结点,根据预设规则设定初始决策树的每个叶子结点的故障类别。本发明根据历史训练样本集生成网络故障定位初始决策树,具有自动学习的能力,从而快速、准确地定位网络故障。

Description

一种网络故障定位方法及系统
技术领域
本发明涉及通信网络技术领域,具体涉及一种网络故障定位方法及系统。
背景技术
故障定位作为故障管理系统的一个核心模块,对于保障计算机通信网络的正常运作和业务的可持续性有着重要的意义。伴随着计算机通信网络规模的不断扩大,业务应用的大量部署,以及用户对服务质量要求的不断提高,如何在网络和业务出现故障的时候进行快速的定位并解决故障问题,从而保证业务的正常运作成为现在各计算机通信网络故障管理领域的核心问题。
由于当今互联网的飞速发展,以及各类企业应用在计算机通信网络上的大量部署,故障定位系统不再局限于诊断协议栈底层的物理故障,诊断协议栈上层的各类业务应用的故障也逐步成为重点。这类上层业务应用故障的出现,在大型复杂网络中是由不同原因导致的,这对故障定位提出了高准确性的要求。因此,如何在一个复杂、大规模、含有噪声、故障根源具有不确定性的环境中进行有效的故障定位成为现今故障定位应用和研究的重点。
当前,已经从计算机科学的不同领域中派生出多种方法应用于故障定位。例如基于规则推理的故障定位系统,由工作内存、推理引擎和知识库组成。推理引擎与知识库合作,将目前网络状态与知识库中规则的条件部分进行比较,以决定该规则是否被采用。一般情况下,采用一条规则很难确定网络中的故障,会反复将推理引擎的结果作为条件进行多次推理,得出最终结果。这种方法虽然符合人的思维便于理解,但规则的获取主要依靠专家的经验积累,自学习能力差,从而导致故障定位系统无法快速、准确地对故障进行定位,排查解决故障效率低。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种网络故障定位方法及系统。
第一方面,本发明实施例提供一种网络故障定位方法,包括:
获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;
计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;
根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;
对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
第二方面,本发明实施例提供一种网络故障定位系统,包括:
样本获取单元,用于获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;
结点确定单元,用于计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;
分支划分单元,用于根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;
递归单元,用于对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
第三方面,本发明实施例提供一种网络故障定位设备,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
本发明实施例提供的网络故障定位方法及系统,根据网络故障监测数据的历史训练样本集生成网络故障定位初始决策树,不需要人工总结网络故障相关规律,可以从历史数据中自动学习网络故障相关的规则用以决策,具有自动学习的能力,避免了人工归纳的繁复性和可能存在的遗漏,从而快速、准确地定位网络故障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网络故障定位方法流程示意图;
图2为本发明实施例提供的网络故障定位初始决策树示意图;
图3为本发明实施例提供的网络故障定位实时决策树示意图;
图4为本发明实施例提供的网络故障定位系统结构示意图;
图5为本发明实施例提供的网络故障定位设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的网络故障定位方法流程示意图,如图1所示,所述方法包括:
步骤S11、获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;
由于分布在计算机通信网络中的各类实体,当发生不能直接向网络管理系统报告的故障时,故障往往通过网络中的各类物理实体和逻辑实体之间所固有的因果依赖关系,反映到其他实体上,从而使网络中的各种类别的实体互相影响。网络管理系统所检测到的症状信息,实际上已经是故障发生后经过各种实体相互作用进而产生的外在表现的结果。所以此时网络故障定位就体现出其不确定的特点。由于计算机通信网络中的各种实体(包括物理实体和逻辑实体)具有明确的因果依赖关系,将这种因果依赖关系转化成决策树模型,不仅可以对确定性的推理关系进行建模,更为重要的是其可以很好的对不确定的推理关系进行建模,因此非常适用于应用在如今的计算机通信网络中。
具体地,网络故障监测数据是指与计算机网络相关的性能指标、故障工单、处理手段等数据,将其中与故障相关的数据进行汇总,经过数据预处理,数据预处理中需要进行数据变换和特征选择,数据变换是为了消除数据之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性;特征选择是由于汇总的数据可能无法直接反应出故障特征,因而需要构造恰当的故障特征参数来反应故障规律,减少数据冗余和过高维度数据带来的运算复杂度。所选取的故障特征参数作为样本属性,根据实际需要获取样本属性所对应的数据,例如选择DNS解析成功率_4G、GET成功率_4G、GET平均时延_4G(毫秒)、TCP三握手成功率_4G和SYN_ACK平均时延_4G(毫秒)所对应的数据,选取上述数据中的一部分数据作为训练数据集,从训练数据集中选取一部分数据作为历史训练样本集,训练数据集选取的原则是必须包含所有的故障类型,需要说明的是,这里的故障类别只是用来表示网络系统所处的状态,并不表示一定发生故障。例如,故障类别为正常和异常两类,则训练数据集必须包含正常和异常的故障类型。
例如,以性能指标为例,对性能指标数据预处理之后,从训练数据集中选取100条数据作为历史训练样本集来建立故障决策树,其中性能指标所对应的故障特征参数为样本属性,需要说明的是,此处的100条可以根据实际情况设定,本发明实施例对此不作限定。
表1为历史训练样本集数据表(部分),如表1所示:
表1历史训练样本集数据表(部分)
其中,DNS解析成功率_4G、GET成功率_4G、GET平均时延_4G(毫秒)、TCP三握手成功率_4G和SYN_ACK平均时延_4G(毫秒)为样本属性,表1中所有数据构成历史训练样本集的一部分。从表1中可以看出,若DNS解析成功率_4G为90.80%、GET成功率_4G为97.00%、GET平均时延_4G(毫秒)为400、TCP三握手成功率_4G为98.50%且SYN_ACK平均时延_4G(毫秒)为100,则判断此时网络故障类别为正常;若DNS解析成功率_4G为99.20%、GET成功率_4G为97.40%、GET平均时延_4G(毫秒)为600、TCP三握手成功率_4G为98.80%且SYN_ACK平均时延_4G(毫秒)为250,则判断此时网络故障类别为异常。
需要说明的是:故障类别并不局限于正常和异常两种类别,可以自定义故障类别,若定义故障类别为正常、异常和未知三种情况,则历史训练样本集必须包含这三种故障类别,以此确保决策树建立的正确性。
步骤S12、计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;
具体地,可以使用统计测试计算每一个样本属性单独分类历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点。例如可以使用信息熵、信息增益率、Gini系数等计算样本属性的区分度。
以信息增益率为例,计算历史训练样本集的信息熵,然后计算样本属性的信息熵,计算两者之间的差值,作为样本属性的信息增益率,对比每个样本属性的信息增益率,选择信息增益率最大的样本属性作为初始决策树的根结点。信息熵、信息增益率、Gini系数为常见的决策树中确认结点属性的方法,此处不再详细阐述。
步骤S13、根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;
具体地,首先查看当前结点所对应的样本属性取值是连续的还是离散的,即查看上述根结点所对应的样本属性取值是连续的还是离散的,如果是离散的,则将样本属性取值相同的历史训练样本集划分为一个分支样本集,每个分支样本集形成一个初始决策树的分支。如果样本属性取值中存在的值是离散的,则需要先将连续属性取值进行离散化处理。
例如,如果历史训练样本集有N条样本,可以有N-1种离散化的方法:将样本属性取值小于预设阈值的样本分到左子树,将样本属性取值大于预设阈值的样本分到右子树,计算这N-1种情况下信息增益率、熵或Gini系数,选取计算结果最佳的样本属性取值作为划分初始决策树的分支的依据。例如,对于样本属性DNS解析成功率_4G,其中一种离散化方法为,将DNS解析成功率_4G大于90%的样本分到左子树,将DNS解析成功率_4G小于等于90%的样本分到右子树。
上述方法将历史训练样本集分为2个子集,每个子集形成一个初始决策树的分支。在实际应用中,还可以根据具体情况将历史训练样本集分为1个子集或多个子集,本发明实施例对此不作限定。
步骤S14、对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
具体地,对每个子集,判断剩余样本属性中每个样本属性单独分类子集的区分度,将区分度最高的样本属性作为初始决策树的父结点,若判断获知该结点满足预设终止条件,则将该结点作为初始决策树的叶子结点,并根据预设规则设定初始决策树的每个叶子结点的故障类别;否则继续根据当前结点的取值,即上述父结点所对应的样本属性的取值划分子集,形成下一层的分支,继续递归执行上述步骤,直至所有样本都被划分。
例如,对历史训练样本集中的DNS解析成功率_4G大于90%的样本,继续判断剩余样本属性,即GET成功率_4G、GET平均时延_4G(毫秒)、TCP三握手成功率_4G和SYN_ACK平均时延_4G(毫秒)中哪个属性分类样本的区分度最高,则将该样本属性作为左子树的结点,判断该结点是否满足预设终止条件,若满足,则将该结点作为叶子结点,并根据预设规则设定叶子结点的故障类别,例如设定叶子结点的故障类别为异常。
通过上述步骤,就可建立网络故障定位初始决策树,图2为本发明实施例提供的网络故障定位初始决策树示意图,如图2所示,当获取到网络故障监测数据时,将其输入到网络故障定位初始决策树中,就可得到当前网络的故障类型。例如,若输入的网络检测数据为:DNS解析成功率_4G为89.1%、GET成功率_4G为91.80%、GET平均时延_4G(毫秒)为200、TCP三握手成功率_4G为97.90%和SYN_ACK平均时延_4G(毫秒)为180,将上述数据输入到初始决策树中,即可判断网络故障类别为正常状态。
在实际应用中,还可以对网络故障监测数据预处理之后,选取20条训练数据集中的数据作为测试样本集,且测试样本集与历史训练样本集的交集为空。需要说明的是,此处的20条可以根据实际情况设定,本发明实施例对此不作限定。对已经构造好的初始决策树,输入测试样本集,计算初始决策树定位测试样本集中各训练数据的网络故障类型的准确率,若该准确率低于预设准确率阈值,则调整初始决策树的结点,例如,将其他父结点调整为决策树的根结点。
本发明实施例提供的网络故障定位方法,根据网络故障监测数据的历史训练样本集生成网络故障定位初始决策树,不需要人工总结网络故障相关规律,可以从历史数据中自动学习网络故障相关的规则用以决策,具有自动学习的能力,避免了人工归纳的繁复性和可能存在的遗漏,从而快速、准确地定位网络故障。
在上述实施例的基础上,进一步地,所述方法还包括:根据预设剪枝条件,修剪所述初始决策树的分支结点。
在实际应用中,由于初始决策树完全按照历史训练样本集构造生成,若历史训练样本集存在错误样本,则容易造成初始决策树过拟合或欠拟合现象,为此还可以对初始决策树进行剪枝处理,从已生成的初始决策树上修剪掉一些分支或叶子结点,并将其根结点或父结点作为新的叶子结点。
例如,可以使用REP剪枝方法(Reduced-Error Pruning,错误率降低),将初始决策树上的每个结点作为修剪的候选对象,根据预设剪枝条件决定是否修剪该结点,预设剪枝条件为:首先删除以该结点为根的子树,然后使该结点成为叶子结点,然后赋予该结点关联的历史训练样本中的数据的最常见分类,判断修剪后的决策树对于测试样本集的性能不会比初始决策树差时,则真正删除该结点。将初始决策树上满足预设剪枝条件的所有结点进行修剪,得到新的决策树,使用新的决策树定位网络故障。
本发明实施例提供的网络故障定位方法,对初始决策树进行剪枝处理,避免过拟合和欠拟合现象的产生,提高了决策树定位网络故障的准确率。
在上述各实施例的基础上,进一步地,所述预设终止条件包括:第一预设终止条件、第二预设终止条件或第三预设终止条件,其中:
所述第一预设终止条件为所述分支结点所对应的剩余训练样本集属于同一故障类别;
所述第二预设终止条件为所述分支结点没有剩余样本属性划分所述分支结点所对应的剩余训练样本集;
所述第三预设终止条件为所述分支结点所对应的剩余训练样本集为空。
具体地,初始决策树构造过程中,当满足第一预设终止条件、第二预设终止条件或第三预设终止条件时,该结点不再被划分,将该结点作为初始决策树的叶子结点。其中,第一预设终止条件为该分支结点所对应的剩余训练样本集属于同一故障类别,例如,划分到某一分支时,该分支结点所对应的剩余训练样本集中的数据的故障类别都为正常,则没有必要再对该分支做进一步划分,此时就可将该分支结点作为叶子结点。第二预设终止条件为该分支结点没有剩余样本属性划分该分支结点所对应的剩余训练样本集,即,样本属性已经被全部使用,此时没有可以作为分支结点的样本属性,则该分支结点不能再被进一步划分。第三预设条件为该分支结点所对应的剩余训练样本集为空,即,已经没有与该分支结点对应的样本数据,则该分支结点不能再被进一步划分。
例如,如图2所示,对于DNS解析成功率大于90%且GET平均时延_4G(毫秒)小于等于500的分支结点,其对应的剩余样本集的样本数据都属于正常的故障类别,满足第一预设终止条件,则不再对该分支结点做进一步划分,将该分支结点直接作为初始决策树的叶子结点。对于DNS解析成功率大于90%、GET平均时延_4G(毫秒)大于500、GET成功率_4G大于90%、SYN_ACK平均时延_4G(毫秒)大于200并且TCP三握手成功率_4G大于95%的分支结点,其对应的剩余样本集没有剩余样本属性来划分,满足第二预设终止条件,则不再对该分支结点做进一步划分,将该分支结点直接作为初始决策树的叶子结点。对于DNS解析成功率大于90%、GET平均时延_4G(毫秒)大于500、GET成功率_4G大于90%、SYN_ACK平均时延_4G(毫秒)小于等于200的分支结点,其对应的剩余样本集为空,满足第三预设终止条件,则不再对该分支结点做进一步划分,将该分支结点直接作为初始决策树的叶子结点。
本发明实施例提供的网络故障定位方法,对预设终止条件做进一步限定,进一步提高初始决策树定位网络故障的正确率。
在上述各实施例的基础上,进一步地,所述预设规则包括:
若判断获知满足第一预设终止条件,则将所述同一故障类别标记作为所述叶子结点的故障类别;
若判断获知满足第二预设条件,则将所述分支结点所对应的剩余训练样本集中最多的故障类别标记为所述叶子结点的故障类别;
若判断获知满足第三预设条件,则将所述历史训练样本集中最多的故障类别标记为所述叶子结点的故障类别。
具体地,对于不同的预设终止条件,预设规则不同。若该分支结点所对应的剩余训练样本集属于同一故障类别,即满足第一预设终止条件,则将该分支结点作为叶子结点,并将该同一故障类别标记为该叶子结点的故障类别。例如,对于DNS解析成功率大于90%且GET平均时延_4G(毫秒)小于等于500的分支结点,其对应的剩余样本集的样本数据都属于正常的故障类别,则将该分支结点作为初始决策树的叶子结点,并将其故障类别标记为正常。
若该分支结点没有剩余样本属性划分该分支结点所对应的剩余训练样本集,即满足第二预设终止条件,则将该分支结点作为叶子结点,可以采取多数表决策略将该分支结点所对应的剩余训练样本集中最多的故障类别标记为叶子结点的故障类别,也可以采取多数表决策略在叶子结点存放该剩余训练样本集的故障类别分布,例如7正常:3异常。
若该分支结点所对应的剩余训练样本集为空,即满足第三预设终止条件,则将该分支结点作为叶子结点,将历史训练样本集中最多的故障类别标记为该叶子结点的故障类别。例如,对于DNS解析成功率大于90%、GET平均时延_4G(毫秒)大于500、GET成功率_4G大于90%、SYN_ACK平均时延_4G(毫秒)小于等于200的分支结点,其对应的剩余样本集为空,则将整个历史训练样本集所对应的数量最多的故障类别标记为该叶子结点的故障类别,例如,历史训练样本集中多数故障类别为正常,则将该叶子结点的故障类别标记为正常。
本发明实施例提供的网络故障定位方法,针对不同的预设终止条件,使用不同的预设规则设定叶子结点的故障类别,使得初始决策树的所生成的故障定位预测规则更符合实际故障类别,从而提高了初始决策树定位故障类别的准确率。
在上述各实施例的基础上,进一步地,所述方法还包括:
若判断获知满足预设更新条件,则根据网络故障监测数据的实时训练样本集生成实时决策树。
由于网络故障相关数据的更新变化,特征属性集的选取、结构也会发生改变,这些因素的改变将影响初始决策树进行网络故障定位的准确性,因此需要动态对决策树进行更新。若判断获知满足预设更新条件,则根据网络故障监测数据的实时训练样本集生成实时决策树。其中预设更新条件可以为:距离上次构建初始决策树的时间达到预设时间阈值,例如距离上次构建初始决策树的时间达到1周,则重新生成实时决策树。预设更新条件还可以为对于新的网络故障监测数据,初始决策树定位网络故障的准确率低于预设准确率阈值,则重新生成实时决策树。实时决策树使用的是与当前时间最接近的一段时间的网络检测数据,对该数据进行处理,生成实时训练样本集,表2为实时训练样本集数据表(部分):
表2历史训练样本集数据表(部分)
从表2可以看出一段时间之后的实时训练样本集,此时相关的样本属性与之前相比发生改变。为了改善初始决策树不适用于时刻变化的网络故障监测数据,设置了决策树重建步骤,当准确率低于预设准确率阈值或距离上一次构建决策树的时间达到设定十几件阈值时,会触发重建决策树的过程,根据实时训练样本集构建实时决策树,具体方法详见上述构建初始决策树方法实施例,此处不再赘述。图3为本发明实施例提供的网络故障定位实时决策树示意图,如图3所示,实时决策树增加了实时训练样本集中的DNS_响应成功率_4G作为增加的样本属性,对实时训练样本集做划分,最终生成新的决策树。
本发明实施例提供的网络故障定位方法,当判断获知满足预设更新条件时,根据网络故障监测数据的实时训练样本集生成实时决策树,具有自发动态调整能力,当触发条件被激活时,会根据新的数据构造决策树以提供决策结果,保证网络故障定位的准确性维持在较高的水平,抗噪声能力强。
图4为本发明实施例提供的网络故障定位系统结构示意图,如图4所示,所述系统包括:样本获取单元41、结点确定单元42、分支划分单元43和递归单元44,其中:
样本获取单元41用于获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;结点确定单元42用于计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;分支划分单元43用于根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;递归单元44用于对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
具体地,样本获取单元41获取网络故障监测数据中与故障相关的数据进行汇总,经过数据预处理,数据预处理中需要进行数据变换和特征选择,将选取的特征参数作为样本属性,获取样本属性所对应的数据,选取其中一部分数据作为训练数据集,选取训练数据集中的一部分数据作为历史训练样本集,训练数据集选取的原则是必须包含所有的故障类型,需要说明的是,这里的故障类别只是用来表示网络系统所处的状态,并不表示一定发生故障。
然后结点确定单元42使用统计测试计算每一个样本属性单独分类历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点。例如结点确定单元42可以使用信息熵、信息增益率、Gini系数等计算样本属性的区分度。之后结点确定单元42将确定的结点发送至分支划分单元43。
分支划分单元43首先查看样本属性取值是连续的还是离散的,如果是离散的,则将样本属性取值相同的历史训练样本集划分为一个分支样本集,每个分支样本集形成一个初始决策树的分支。如果样本属性取值中存在的值是离散的,则需要先将连续属性取值进行离散化处理。分支划分单元43根据样本属性取值划分初始决策树的分支。
递归单元44对每个子集,判断剩余样本属性中每个样本属性单独分类子集的区分度,将区分度最高的样本属性作为初始决策树的父结点,若判断获知该结点满足预设终止条件,则根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别;否则继续根据当前结点的取值,划分子集,形成下一层的分支,继续递归执行上述步骤,直至所有样本都被划分。本发明实施例提供的系统,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的网络故障定位系统,根据网络故障监测数据的历史训练样本集生成网络故障定位初始决策树,不需要人工总结网络故障相关规律,可以从历史数据中自动学习网络故障相关的规则用以决策,具有自动学习的能力,避免了人工归纳的繁复性和可能存在的遗漏,从而快速、准确地定位网络故障。
在上述实施例的基础上,进一步地,所述系统还包括:
剪枝单元,用于根据预设剪枝条件,修剪所述初始决策树的分支结点。
在实际应用中,由于初始决策树完全按照历史训练样本集构造生成,若历史训练样本集存在错误样本,则容易造成初始决策树过拟合或欠拟合现象,为此剪枝单元对初始决策树进行剪枝处理,从已生成的初始决策树上修剪掉一些分支或叶子结点,并将其根结点或父结点作为新的叶子结点。得到新的决策树,使用新的决策树定位网络故障。本发明实施例提供的系统,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的网络故障定位系统,对初始决策树进行剪枝处理,避免过拟合和欠拟合现象的产生,提高了决策树定位网络故障的准确率。
在上述各实施例的基础上,进一步地,所述系统还包括:
更新单元,用于若判断获知满足预设更新条件,则根据网络故障监测数据的实时训练样本集生成实时决策树。
由于网络故障相关数据的更新变化,特征属性集的选取、结构也会发生改变,这些因素的改变将影响初始决策树进行网络故障定位的准确性,因此需要动态对决策树进行更新。若更新单元判断获知满足预设更新条件,则根据网络故障监测数据的实时训练样本集生成实时决策树。其中预设更新条件可以为:距离上次构建初始决策树的时间达到预设时间阈值,例如距离上次构建初始决策树的时间达到1周,则重新生成实时决策树。预设更新条件还可以为对于新的网络故障监测数据,初始决策树定位网络故障的准确率低于预设准确率阈值,则重新生成实时决策树。本发明实施例提供的系统,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的网络故障定位系统,当判断获知满足预设更新条件时,根据网络故障监测数据的实时训练样本集生成实时决策树,具有自发动态调整能力,当触发条件被激活时,会根据新的数据构造决策树以提供决策结果,保证网络故障定位的准确性维持在较高的水平,抗噪声能力强。
图5为本发明实施例提供的网络故障定位设备结构示意图,如图5所示,所述设备包括:处理器(processor)501、存储器(memory)502和总线503;
其中,处理器501和存储器502通过所述总线503完成相互间的通信;处理器501用于调用存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取网络故障监测数据的历史训练样本集和样本属性;计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取网络故障监测数据的历史训练样本集和样本属性;计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取网络故障监测数据的历史训练样本集和样本属性;计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的网络故障定位设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (10)

1.一种网络故障定位方法,其特征在于,包括:
获取网络故障监测数据的历史训练样本集,所述历史训练样本集包括样本属性;
计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;
根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;
对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设剪枝条件,修剪所述初始决策树的分支结点。
3.根据权利要求1所述的方法,其特征在于,所述预设终止条件包括:第一预设终止条件、第二预设终止条件或第三预设终止条件,其中:
所述第一预设终止条件为所述分支结点所对应的剩余训练样本集属于同一故障类别;
所述第二预设终止条件为所述分支结点没有剩余样本属性划分所述分支结点所对应的剩余训练样本集;
所述第三预设终止条件为所述分支结点所对应的剩余训练样本集为空。
4.根据权利要求3所述的方法,其特征在于,所述预设规则包括:
若判断获知满足第一预设终止条件,则将所述同一故障类别标记作为所述叶子结点的故障类别;
若判断获知满足第二预设条件,则将所述分支结点所对应的剩余训练样本集中最多的故障类别标记为所述叶子结点的故障类别;
若判断获知满足第三预设条件,则将所述历史训练样本集中最多的故障类别标记为所述叶子结点的故障类别。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
若判断获知满足预设更新条件,则根据网络故障监测数据的实时训练样本集生成实时决策树。
6.一种网络故障定位系统,其特征在于,包括:
样本获取单元,用于获取网络故障监测数据的历史训练样本集和样本属性,所述历史训练样本集包括样本属性;
结点确定单元,用于计算每个所述样本属性单独分类所述历史训练样本集的区分度,将区分度最高的样本属性作为初始决策树的根结点;
分支划分单元,用于根据当前结点的取值,将所述历史训练样本集划分为至少一个子集,每个所述子集形成一个初始决策树的分支;
递归单元,用于对每个所述子集,递归执行上述步骤,对所述初始决策树的分支进行划分,直至分支结点达到预设终止条件为止,将所述分支结点作为所述初始决策树的叶子结点,根据预设规则设定所述初始决策树的每个所述叶子结点的故障类别。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
剪枝单元,用于根据预设剪枝条件,修剪所述初始决策树的分支结点。
8.根据权利要求6或7所述的系统,其特征在于,所述系统还包括:
更新单元,用于若判断获知满足预设更新条件,则根据网络故障监测数据的实时训练样本集生成实时决策树。
9.一种网络故障定位设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。
CN201710414827.0A 2017-06-05 2017-06-05 一种网络故障定位方法及系统 Pending CN108989075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710414827.0A CN108989075A (zh) 2017-06-05 2017-06-05 一种网络故障定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710414827.0A CN108989075A (zh) 2017-06-05 2017-06-05 一种网络故障定位方法及系统

Publications (1)

Publication Number Publication Date
CN108989075A true CN108989075A (zh) 2018-12-11

Family

ID=64502632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710414827.0A Pending CN108989075A (zh) 2017-06-05 2017-06-05 一种网络故障定位方法及系统

Country Status (1)

Country Link
CN (1) CN108989075A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858489A (zh) * 2019-01-15 2019-06-07 青岛海信网络科技股份有限公司 一种警情预警方法及设备
CN110233946A (zh) * 2019-06-17 2019-09-13 三角兽(北京)科技有限公司 执行外呼业务方法、电子设备及计算机可读存储介质
CN110909795A (zh) * 2019-11-22 2020-03-24 国网湖南省电力有限公司 电网暂态电压稳定性的判定方法
CN111475146A (zh) * 2019-01-24 2020-07-31 阿里健康信息技术有限公司 布局元素属性的识别方法及装置
CN112052453A (zh) * 2020-09-04 2020-12-08 四川长虹电器股份有限公司 基于Relief算法的webshell检测方法及装置
CN112132221A (zh) * 2020-09-25 2020-12-25 海南电网有限责任公司 一种基于规则学习的电网事故智能识别的方法
CN112801193A (zh) * 2021-02-03 2021-05-14 拉扎斯网络科技(上海)有限公司 定位数据处理方法、装置、电子设备、介质及程序产品
CN112884700A (zh) * 2020-12-11 2021-06-01 武汉光谷航天三江激光产业技术研究院有限公司 基于决策树的激光清洗图像分类方法及设备
WO2021114676A1 (zh) * 2019-12-13 2021-06-17 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN114237265A (zh) * 2022-02-25 2022-03-25 深圳市城市交通规划设计研究中心股份有限公司 最优日常巡检路线的规划方法、系统、计算机及存储介质
US11582249B2 (en) 2019-11-27 2023-02-14 Telefonaktiebolaget Lm Ericsson (Publ) Computer-implemented method and arrangement for classifying anomalies
CN115957510A (zh) * 2023-02-03 2023-04-14 北京畅游时代数码技术有限公司 一种角色行为控制的方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080168011A1 (en) * 2007-01-04 2008-07-10 Health Care Productivity, Inc. Methods and systems for automatic selection of classification and regression trees
CN101789899A (zh) * 2009-12-21 2010-07-28 中兴通讯股份有限公司 一种网络服务质量分析方法及系统
CN102664767A (zh) * 2012-04-18 2012-09-12 郑州三友软件科技有限公司 一种基于ip的wlan网络数据qos分析方法
CN103714348A (zh) * 2014-01-09 2014-04-09 北京泰乐德信息技术有限公司 一种基于决策树的轨道交通故障诊断方法和系统
CN104506338A (zh) * 2014-11-21 2015-04-08 河南中烟工业有限责任公司 一种基于决策树的工业以太网网络故障诊断专家系统
CN104506340A (zh) * 2014-11-21 2015-04-08 河南中烟工业有限责任公司 基于工业以太网故障诊断方法中决策树的创建方法
EP2871803A1 (en) * 2013-11-08 2015-05-13 Accenture Global Services Limited Network node failure predictive system
CN105654106A (zh) * 2015-07-17 2016-06-08 哈尔滨安天科技股份有限公司 一种决策树生成方法及系统
CN106162714A (zh) * 2015-04-23 2016-11-23 中国移动通信集团贵州有限公司 一种投诉信息处理方法及装置
CN106656627A (zh) * 2017-01-09 2017-05-10 周向军 一种基于业务的性能监控和故障定位的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080168011A1 (en) * 2007-01-04 2008-07-10 Health Care Productivity, Inc. Methods and systems for automatic selection of classification and regression trees
CN101789899A (zh) * 2009-12-21 2010-07-28 中兴通讯股份有限公司 一种网络服务质量分析方法及系统
CN102664767A (zh) * 2012-04-18 2012-09-12 郑州三友软件科技有限公司 一种基于ip的wlan网络数据qos分析方法
EP2871803A1 (en) * 2013-11-08 2015-05-13 Accenture Global Services Limited Network node failure predictive system
CN103714348A (zh) * 2014-01-09 2014-04-09 北京泰乐德信息技术有限公司 一种基于决策树的轨道交通故障诊断方法和系统
CN104506338A (zh) * 2014-11-21 2015-04-08 河南中烟工业有限责任公司 一种基于决策树的工业以太网网络故障诊断专家系统
CN104506340A (zh) * 2014-11-21 2015-04-08 河南中烟工业有限责任公司 基于工业以太网故障诊断方法中决策树的创建方法
CN106162714A (zh) * 2015-04-23 2016-11-23 中国移动通信集团贵州有限公司 一种投诉信息处理方法及装置
CN105654106A (zh) * 2015-07-17 2016-06-08 哈尔滨安天科技股份有限公司 一种决策树生成方法及系统
CN106656627A (zh) * 2017-01-09 2017-05-10 周向军 一种基于业务的性能监控和故障定位的方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858489A (zh) * 2019-01-15 2019-06-07 青岛海信网络科技股份有限公司 一种警情预警方法及设备
CN111475146A (zh) * 2019-01-24 2020-07-31 阿里健康信息技术有限公司 布局元素属性的识别方法及装置
CN111475146B (zh) * 2019-01-24 2023-07-07 阿里健康信息技术有限公司 布局元素属性的识别方法及装置
CN110233946A (zh) * 2019-06-17 2019-09-13 三角兽(北京)科技有限公司 执行外呼业务方法、电子设备及计算机可读存储介质
CN110909795A (zh) * 2019-11-22 2020-03-24 国网湖南省电力有限公司 电网暂态电压稳定性的判定方法
US11838308B2 (en) 2019-11-27 2023-12-05 Telefonaktiebolaget Lm Ericsson (Publ) Computer-implemented method and arrangement for classifying anomalies
US11582249B2 (en) 2019-11-27 2023-02-14 Telefonaktiebolaget Lm Ericsson (Publ) Computer-implemented method and arrangement for classifying anomalies
WO2021114676A1 (zh) * 2019-12-13 2021-06-17 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN112052453A (zh) * 2020-09-04 2020-12-08 四川长虹电器股份有限公司 基于Relief算法的webshell检测方法及装置
CN112132221A (zh) * 2020-09-25 2020-12-25 海南电网有限责任公司 一种基于规则学习的电网事故智能识别的方法
CN112884700A (zh) * 2020-12-11 2021-06-01 武汉光谷航天三江激光产业技术研究院有限公司 基于决策树的激光清洗图像分类方法及设备
CN112884700B (zh) * 2020-12-11 2023-08-22 武汉光谷航天三江激光产业技术研究院有限公司 基于决策树的激光清洗图像分类方法及设备
CN112801193B (zh) * 2021-02-03 2023-04-07 拉扎斯网络科技(上海)有限公司 定位数据处理方法、装置、电子设备、介质
CN112801193A (zh) * 2021-02-03 2021-05-14 拉扎斯网络科技(上海)有限公司 定位数据处理方法、装置、电子设备、介质及程序产品
CN114237265A (zh) * 2022-02-25 2022-03-25 深圳市城市交通规划设计研究中心股份有限公司 最优日常巡检路线的规划方法、系统、计算机及存储介质
CN114237265B (zh) * 2022-02-25 2022-07-12 深圳市城市交通规划设计研究中心股份有限公司 最优日常巡检路线的规划方法、系统、计算机及存储介质
CN115957510A (zh) * 2023-02-03 2023-04-14 北京畅游时代数码技术有限公司 一种角色行为控制的方法及系统
CN115957510B (zh) * 2023-02-03 2023-11-10 北京畅游时代数码技术有限公司 一种角色行为控制的方法及系统

Similar Documents

Publication Publication Date Title
CN108989075A (zh) 一种网络故障定位方法及系统
US10878324B2 (en) Problem analysis and priority determination based on fuzzy expert systems
CN109491850A (zh) 一种磁盘故障预测方法及装置
US11429821B2 (en) Machine learning clustering models for determining the condition of a communication system
CN108199795B (zh) 一种设备状态的监测方法和装置
CN109787846A (zh) 一种5g网络服务质量异常监测和预测方法及系统
US20210160266A1 (en) Computer-implemented method and arrangement for classifying anomalies
CN112800116B (zh) 一种业务数据的异常检测方法及装置
CN111310139B (zh) 行为数据识别方法、装置及存储介质
US11816586B2 (en) Event identification through machine learning
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
CN111782491B (zh) 一种磁盘故障预测方法、装置、设备及存储介质
CN105471647B (zh) 一种电力通信网故障定位方法
CN109117350A (zh) 自动监控计算机软硬件的告警方法、装置及服务器
CN110188834A (zh) 一种电力通信网的故障诊断方法、装置及设备
US20210014107A1 (en) Management and control for ip and fixed networking
CN113825165B (zh) 基于时间图网络的5g切片网络拥塞预警方法及装置
CN111832654A (zh) 偷电漏电用户识别方法、装置、计算机设备及存储介质
US20160125297A1 (en) System and method for solving spatiotemporal-based problems
CN114090393B (zh) 一种告警级别的确定方法、装置及设备
CN116794510A (zh) 故障预测方法、装置、计算机设备和存储介质
CN114338351B (zh) 网络异常根因确定方法、装置、计算机设备及存储介质
CN112734699A (zh) 物品状态告警方法、装置、存储介质及电子装置
CN115277220A (zh) 一种工控网络流量安全分类方法、系统及可读存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211