CN114765574A

CN114765574A - 一种网络异常定界定位方法及装置

Info

Publication number: CN114765574A
Application number: CN202011600726.0A
Authority: CN
Inventors: 李敏敏
Original assignee: Unihub China Information Technology Co Ltd
Current assignee: Unihub China Information Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-19
Anticipated expiration: 2040-12-30
Also published as: CN114765574B

Abstract

本发明提供了一种网络异常定界定位方法及装置，涉及网络故障定界定位技术领域，所述方法包括设备指标数据接入、建立设备指标分类模型、建立设备指标重构模型、根据设备指标分类模型进行异常定界以及根据设备指标重构模型进行异常定位五部分。本发明有益效果：不仅根据设备性能指标数据实时判断设备是否异常，定位设备故障点，对于异常设备，还可根据设备指标数据定位到具体问题发生原因，且效率较高，省时省力。

Description

一种网络异常定界定位方法及装置

技术领域

本发明属于网络故障定界定位技术领域，具体地说涉及一种网络异常定界定位方法及装置。

背景技术

现有技术中，实现网络故障定界基本以故障点上下游设备异常收敛到故障点的方式实现。这种方式需要故障点物理拓扑上的设备指标全部采集完整。上下游设备采集指标不全将对结果造成较大影响。而且，一般只能给出故障所在位置，无法给出比较直观的原因解释，导致故障产生原因需要逐一排查，费时费力，效率较低。

基于上述问题，本发明提供一种网络智能异常定界定位方法及装置，定界是给出故障发生的设备点，定位是给出故障发生的可能原因。

发明内容

本发明提供一种网络异常定界定位方法及装置，解决现有技术中网络故障定界定位方法复杂效率低等问题。

在本发明的第一方面，提供了一种网络异常定界定位方法，包括如下步骤：

(1)设备指标数据接入：采集网络设备性能的历史指标数据和实时指标数据；

(2)设备指标分类模型：首先使用Traceroute寻找网络设备中已经发生故障和未发生故障的设备，将设备是否发生故障作为标签数据保存，将保存的标签数据和对应设备同个时间点的采集指标数据对应关联，调用分类算法对指标与网络异常情况做模型训练，实现网络故障的预测模型并保存训练后的模型文件；

(3)设备指标重构模型：计算每个设备历史指标数据的信息增益值，使用受限波尔兹曼机算法对设备指标数据进行训练，构造深度置信网络并保存训练后的模型文件；

(4)异常定界：实时接入设备指标数据，调用步骤(2)训练好的设备指标分类模型，输出指标数据对应设备是否异常的结果；

(5)异常定位：对步骤(4)判断为异常的设备的指标数据调用设备指标重构模型，得到指标数据的重构数据，根据重构数据找出异常问题出现的原因。

本发明所述步骤(1)中采集的历史数据和实时数据包括设备cpu利用率、内存利用率、流入流出流量、设备型号、设备软硬件版本、设备业务类型。

本发明所述步骤(2)中使用Traceroute寻找网络设备中已经发生故障和未发生故障的设备方法具体为：

2.1、从设备A到目的主机设备B，假设设备A为0跳，如果中间经过N个其他设备，那么设备B为N+1跳；

2.2、Traceroute逐跳前进，每前进一跳返回一次结果，保留结果中的时延数据；

2.3、将第m次时延与第m+1次时延之间的差值作为第m+1跳设备的时延情况；

2.4、对各个设备终端做多次Traceroute操作并针对多个时间点进行Traceroute操作，得到各个时间点上的设备间的时延数据；

2.5、对跳数相同的网络设备间的时延数据进行比较，使用3sigma求出上限区间，超出区间为异常。

本发明所述步骤(2)中使用的分类算法为xgboost算法。

本发明所述求上限区间的方法为：求出区间所有时延的均值和方差，上限为均值与三倍方差的和。

本发明所述步骤(5)中根据重构数据找出异常问题出现的原因的具体方法为：对每个数据指标的真实值和重构值进行标准化处理，将标准化处理后的指标数据与真实数据的差求平方，得到的平方值作为指标异常距离，使用数据指标的信息增益值作为权重，权重乘以异常距离得到指标异常数值，对异常数值排序，排序最靠前的指标为最可能异常指标，找到异常指标并针对该指标排查，即找到异常问题出现的原因。

在本发明的第二方面，提供了一种网络异常定界定位装置，包括：

数据接入模块，用于采集网络设备性能的历史数据和实时数据，包括设备cpu利用率、内存利用率、流入流出流量、设备型号、设备软硬件版本、设备业务类型；

异常定界模块，用于对历史设备指标与网络异常情况做模型训练并通过训练结果和实时指标数据对网络设备的异常情况做出判断；

异常定位模块，用于计算每个设备历史指标数据的信息增益值，使用受限波尔兹曼机算法对设备指标数据进行训练，构造深度置信网络并保存训练后的模型文件，对判断为异常的设备的指标数据调用该模型，得到指标数据的重构数据，根据重构数据找出异常问题出现的原因。

在本发明的第三方面，提供了一种电子设备，该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本发明的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

本发明有益效果：本发明提供一种网络异常定界定位方法及装置，通过对历史设备性能指标数据进行学习和训练建立分类模型和重构模型实现网络设备的故障定界和故障可能发生原因的定位，不仅根据设备性能指标数据实时判断设备是否异常，定位设备故障点，对于异常设备，还可根据设备指标数据定位到具体问题发生原因，且效率较高，省时省力。

附图说明

结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1为本发明网络异常定界定位方法的流程示意图；

图2为本发明实施例从设备A到目的主机设备B的traceroute路线图；

图3为本发明设备网络异常定义方法流程图；

图4为本发明设备指标异常分类模型及指标信息增益计算示意图；

图5为本发明设备指标重构模型示意图；

图6为本发明根据设备指标分类模型和设备指标重构模型进行网络故障实时定界和异常原因定位流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明一种网络异常定界定位方法主要使用机器学习算法实现网络设备的故障定界和故障可能发生原因的定位。

故障定界主要使用分类算法，首先使用traceroute寻找网络设备中已经发生的故障和未发生故障的设备，将这些设备是否发生故障作为标签数据保存。然后标签和设备指标数据对应，调用分类算法实现网络故障的预测模型。

故障定位首先使用信息增益对历史设备的指标求出每个指标的信息增益系数，然后使用受限波尔兹曼机算法得到设备的分布情况，然后重构指标数值，使用标准化后的指标的重构值与真实值差值的平方与信息增益系数相乘，对结果排序，排序在前面的指标为可能的原因。

具体地，一种网络异常定界定位方法，包括以下步骤：

(1)设备指标数据接入：采集网络设备性能的历史指标数据和实时指标数据，采集的历史数据和实时数据包括设备cpu利用率、内存利用率、流入流出流量、设备型号、设备软硬件版本、设备业务类型；

(2)设备指标分类模型：首先使用Traceroute寻找网络设备中已经发生故障和未发生故障的设备，将设备是否发生故障作为标签数据保存，将保存的标签数据和对应设备同个时间点的采集指标数据对应关联，调用xgboost算法对指标与网络异常情况做模型训练，实现网络故障的预测模型并保存训练后的模型文件；使用Traceroute寻找网络设备中已经发生故障和未发生故障的设备的方法具体为：

2.5、对跳数相同的网络设备间的时延数据进行比较，使用3sigma(求出区间所有时延的均值和方差，上限为均值与三倍方差的和)求出时延上限区间，超出区间为异常。

(5)异常定位：对步骤(4)判断为异常的设备的指标数据调用设备指标重构模型，得到指标数据的重构数据，对每个数据指标的真实值和重构值进行标准化处理，将标准化处理后的指标数据与真实数据的差求平方，得到的平方值作为指标异常距离，使用数据指标的信息增益值作为权重，权重乘以异常距离得到指标异常数值，对异常数值排序，排序最靠前的指标为最可能异常指标，找到异常指标并针对该指标排查，即找到异常问题出现的原因。

进一步地，对每个数据指标的真实值和重构值进行标准化处理的方法为Xi＝(X-Xmin)/(Xmax-Xmin)，其中：X表示某指标真实值，Xmin表示某指标最小值，Xmax表示某指标最大值，Xi为标准化后的值。

进一步地，如图3所示为设备网络异常定义方法流程图，设备异常判断方法具体为：

设备的时延差＝本设备所在跳数时延差-上跳数时延差；

设备时延差上限＝同跳设备时延差均值+3*同跳设备时延差方差；

设备时延差下限＝同跳设备时延差均值-3*同跳设备时延差方差；

设备异常：设备的时延差是否在设备时延差上下限范围内，如果在，那么正常，否则异常。

进一步地，如图4所示为设备网络指标异常分类模型及指标信息增益计算示意图，具体地，指标信息增益计算方法为：

假设共有N个样本，其中网络异常样本p个，正常样本q个，N＝p+q，那么样本整体熵E(S)为：

E(S)＝-(p/N)*log(p/N)-q/N*log(q/N)；

假设某个特征A中，共有n个取值，每个取值对应的异常样本为pn,正常样本为qn,，每个取值的个数为mn，那么该特征的信息熵为：

E(x1)＝-p1/N*log(p1/N)-q1/N*log(q1/N)；

E(x2)＝-p2/N*log(p2/N)-q2/N*log(q2/N)；

...

E(xn)＝-pn/N*log(pn/N)-qn/N*log(qn/N)；

E(A)＝m1/N*E(x1)+m2/N*E(x2)+...+mn/N*E(xn)；

特征A的信息增益为：

IGAIN(A)＝E(S)-E(A)；

依次推出其他特征的信息增益。

进一步地，如5图所示为设备网络指标重构模型示意图，具体地受限波尔滋曼机算法重构指标流程为：将设备指标数据拆分为训练集和测试集；使用受限波尔滋曼机算法找到与原数据概率分布最相似的概率分布；输入一些特征后，会给出相似分布的新的特征数值。

异常指标计算：

指标异常度＝信息增益*((标准化后重构指标-标准化后设备指标)^2)^(1/2)；

对指标异常度排序，最大的那个指标就是异常指标。

一种网络异常定界定位装置，包括，

数据接入模块：用于接入网络设备采集的性能数据，其中采集的性能数据包括设备cpu利用率，内存利用率、流入流出流量等性能指标和设备型号、设备软硬件版本、设备业务类型等设备属性指标。接入上述指标的历史数据，历史数据时间为1个月数据，这部分数据用于模型训练；接入上述指标的实时数据，实时数据用于定界定位。

标签确定模块：用于使用Traceroute寻找网络设备中已经发生故障和未发生故障的设备，并将设备是否发生故障作为标签数据保存，具体地，从设备A到目的主机设备B的traceroute路线如图1，其中：

1)假设设备A为0跳，如果中间经过N个其他设备，那么设备B为N+1跳；

2)Traceroute逐跳前进，每前进一跳返回一次结果，保留结果中的时延数据，整个Traceroute时间很短，一般不超过数秒；

3)将第m次时延与第m+1次时延之间的差值，可以近似代表第m+1跳设备的时延情况；

4)因设备时延过大是网络异常的表现，因此将网络时延异常作为网络是否正常的标签，如果时延正常，那么网络可能正常，如果时延异常，那么网络异常；

5)对各个终端做多次traceroute操作，使得traceroute尽可能覆盖到各个网络层设备，并针对多个时间点进行操作，得到各个时间点上的设备间的时延数据；

6)对跳数相同的网络设备间的时延数据做比较，使用3sigma(求此区间所有时延均值和方差，按照均值与3倍的方差和作为上限)给出时延上限区间，超过区间则为网络异常。

模型训练模块：用于训练得到设备指标分类模型和设备指标重构模型，

设备指标分类模型：将上述traceroute得到的设备间的标签和对应设备同个时间点的采集指标数据关联，使用xgboost分类算法对指标与网络好坏做模型训练，保存训练后的模型文件；对xgboost中的指标使用信息增益作为指标选择标准，训练结束后输出每个指标的信息增益值。

xgboost分类算法训练过程：将设备指标数据和设备是否异常数4:1；使用训练数据去拟合xgboost的参数，使得xgboost训练出来的模型尽可能在测试集上表现好。保存训练集上预测效果最好的模型。

设备指标重构模型：将设备指标数据使用rbm(受限波尔滋曼机)算法进行训练，构造深度置信网络。保存训练后的模型文件。

如图6所示为根据设备指标分类模型和设备指标重构模型进行网络故障实时定界和异常原因定位流程图，具体为：

异常定界：实时接入指标数据，调用训练好的设备指标分类模型，输出结果显示指标数据对应的设备是否异常。

异常定位：对异常定界模块判断异常的设备的指标数据调用设备指标重构模型，得到指标数据的重构数据，对每个指标的真实值和重构值进行标准化处理，将标准化后的重构的指标数据与真实数据相减再求平方，将此结果作为指标异常距离，使用设备指标分类模型中的指标信息增益值作为权重，使用权重乘以异常距离得到指标异常数值，对异常数值排序，排序最靠前的指标为最可能异常指标，找到异常指标针对此指标排查，得出异常问题出现的原因。

本发明中使用的xgboost分类算法、rbm(受限波尔滋曼机)算法以及计算信息增益系数的方法均为现有技术，本领域技术人员可直接调用。

一种电子设备，该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本发明的第一方面的方法。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种网络异常定界定位方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种网络异常定界定位方法，其特征在于：所述步骤(1)中采集的历史数据和实时数据包括设备cpu利用率、内存利用率、流入流出流量、设备型号、设备软硬件版本、设备业务类型。

3.根据权利要求1所述的一种网络异常定界定位方法，其特征在于：所述步骤(2)中使用Traceroute寻找网络设备中已经发生故障和未发生故障的设备方法具体为：

2.5、对跳数相同的网络设备间的时延数据进行比较，使用3sigma求出区间上限，超出区间为异常。

4.根据权利要求1所述的一种网络异常定界定位方法，其特征在于：所述步骤(2)中使用的分类算法为xgboost算法。

5.根据权利要求3所述的一种网络异常定界定位方法，其特征在于：所述求区间上限的方法为：求出区间所有时延的均值和方差，上限为均值与三倍方差的和。

6.根据权利要求1所述的一种网络异常定界定位方法，其特征在于：所述步骤(5)中根据重构数据找出异常问题出现的原因的具体方法为：对每个数据指标的真实值和重构值进行标准化处理，将标准化处理后的指标数据与真实数据的差求平方，得到的平方值作为指标异常距离，使用数据指标的信息增益值作为权重，权重乘以异常距离得到指标异常数值，对异常数值排序，排序最靠前的指标为最可能异常指标，找到异常指标并针对该指标排查，即找到异常问题出现的原因。

7.一种网络异常定界定位装置，其特征在于，包括：

8.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。