CN114257493A - 网络节点的故障预警方法、装置、介质及电子设备 - Google Patents
网络节点的故障预警方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN114257493A CN114257493A CN202111555490.8A CN202111555490A CN114257493A CN 114257493 A CN114257493 A CN 114257493A CN 202111555490 A CN202111555490 A CN 202111555490A CN 114257493 A CN114257493 A CN 114257493A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- network node
- propagation
- network
- network nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002159 abnormal effect Effects 0.000 claims abstract description 322
- 230000004044 response Effects 0.000 claims description 14
- 230000005856 abnormality Effects 0.000 claims description 6
- 230000002547 anomalous effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请涉及微服务领域,揭示了一种网络节点的故障预警方法、装置、计算机可读程序介质及电子设备。该方法包括:在网络拓扑图中确定出目标异常网络节点;从目标异常网络节点起,在网络拓扑图中找到所有与目标异常网络节点对应的传播异常网络节点;根据目标异常网络节点、传播异常网络节点和目标异常网络节点与目标异常节点之间连接路径上的出边,构建异常传播子图;针对异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;根据各异常网络节点的异常分数,确定异常传播子图的异常分数;根据异常传播子图的异常分数进行故障预警。此方法可以提高预警的准确率。
Description
技术领域
本申请涉及微服务技术领域,特别涉及一种网络节点的故障预警方法、装置、计算机可读程序介质及电子设备。
背景技术
随着业务的复杂性不断提高,网络拓扑结构会越来越复杂,节点之间的信息交互也更加频繁。在整个网络中,如果一个节点出现了延迟等指标异常,都有可能通过调用链的传播,使异常不断累积扩大,导致整个系统发生故障。因此,在故障发生前进行提前的预警是十分必要的。
现有的故障预警方法主要通过对节点内的关键指标进行监测,判断网络中某个节点是否会发生故障。但利用该方法对故障进行预警时可能会出现误报漏报的情况,故障预警的准确率较低。
发明内容
在微服务技术领域,为了解决上述技术问题,本申请的目的在于提供一种网络节点的故障预警方法、装置、计算机可读程序介质及电子设备。
根据本申请的一方面,提供了一种网络节点的故障预警方法,所述方法包括:
在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点,其中,所述网络拓扑图包括多个网络节点和网络节点之间的有向边;
从所述目标异常网络节点起,在所述网络拓扑图中找到所有与所述目标异常网络节点对应的传播异常网络节点,所述传播异常网络节点是通过远离所述目标异常网络节点方向的出边与所述目标异常网络节点直接或间接相连,且与所述目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点;
根据所述目标异常网络节点、所述传播异常网络节点和所述目标异常网络节点与所述目标异常节点之间连接路径上的出边,构建异常传播子图;
针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;
根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数;
根据所述异常传播子图的异常分数进行故障预警。
根据本申请的另一方面,提供了一种网络节点的故障预警装置,所述装置包括:
节点确定模块,用于在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点,其中,所述网络拓扑图包括多个网络节点和网络节点之间的有向边;
查找模块,用于从所述目标异常网络节点起,在所述网络拓扑图中找到所有与所述目标异常网络节点对应的传播异常网络节点,所述传播异常网络节点是通过远离所述目标异常网络节点方向的出边与所述目标异常网络节点直接或间接相连,且与所述目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点;
构建模块,用于根据所述目标异常网络节点、所述传播异常网络节点和所述目标异常网络节点与所述目标异常节点之间连接路径上的出边,构建异常传播子图;
第一分数确定模块,用于针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;
第二分数确定模块,用于根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数;
故障预警模块,用于根据所述异常传播子图的异常分数进行故障预警。
根据本申请的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请所提供的网络节点的故障预警方法,包括如下步骤:在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点,其中,所述网络拓扑图包括多个网络节点和网络节点之间的有向边;从所述目标异常网络节点起,在所述网络拓扑图中找到所有与所述目标异常网络节点对应的传播异常网络节点,所述传播异常网络节点是通过远离所述目标异常网络节点方向的出边与所述目标异常网络节点直接或间接相连,且与所述目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点;根据所述目标异常网络节点、所述传播异常网络节点和所述目标异常网络节点与所述目标异常节点之间连接路径上的出边,构建异常传播子图;针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数;根据所述异常传播子图的异常分数进行故障预警。
此方法下,通过在网络拓扑图中确定出首个异常网络节点之后,利用异常在网络中扩散累积的特点,构建异常传播子图,然后计算各异常网络节点的异常分数,进而确定出整个异常传播子图的异常分数,能够从全局网络层面判断是否会发生故障。因此,可以提高预警的准确率和全面性;同时,还可以实现提升预警效率、缩短预警时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的网络拓扑结构示意图;
图2是根据另一示例性实施例示出的网络拓扑结构示意图;
图3是根据一示例性实施例示出的一种网络节点的故障预警方法的系统架构示意图;
图4是根据一示例性实施例示出的网络节点的故障预警方法的流程图;
图5是根据一示例性实施例示出的构建异常传播子图的原理示意图;
图6是根据一示例性实施例示出的通过构建异常传播子图进行故障早期预警的流程示意图;
图7是根据一示例性实施例示出的一种网络节点的故障预警装置的框图;
图8是根据一示例性实施例示出的一种实现上述网络节点的故障预警方法的电子设备示例框图;
图9是根据一示例性实施例示出的一种实现上述网络节点的故障预警方法的程序产品。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
在相关技术中提供的故障预警方法主要对网络中某个网络节点是否会发生故障进行预警。但是这种方案没有考虑到由于网络延迟等异常指标通过调用链在网络节点之间进行传播引发故障的情况。
图1是根据一示例性实施例示出的网络拓扑结构示意图;图2是根据另一示例性实施例示出的网络拓扑结构示意图。具体而言,图1和图2中每一个圆圈为一个网络节点,圆圈之间的箭头是网络节点之间的有向边,有向边可以代表网络节点的调用链方向或者数据传输方向。圆圈中的200ms等信息代表在相应网络节点中的响应时延。因此,图1和图2中网络节点中可以包括微服务,微服务之间通过调用,形成网络拓扑结构。在图1和图2中,在网络节点中部署的微服务的名称是位于网络节点下方的。比如,网络节点A中微服务的名称为user-center,网络节点A中微服务的名称为app-manage,等等。
在相关技术中,针对图1和图2中示出的网络拓扑结构,通常是采用如下方式进行预警的:以网络节点A为例,根据历史数据统计分析判断网络节点A的当前指标数据是否偏离正常指标阈值,如果是,则可以确定出网络节点A存在故障的概率。由于图1和图2中的网络节点A处的响应时延均相同且均偏离正常指标阈值,那么,针对图1和图2这两个不同的实际场景,基于相关技术就可能预测网络节点A在这两个场景中的故障概率是一样的。
但是,发明人发现:在图1所示网络拓扑结构中,与网络节点A相连的节点的响应时延均比较低,因此,图1中网络节点A的故障概率应当比较低;而在图2所示网络拓扑结构中,与网络节点A相连的节点的响应时延相对较高,因此,图2中网络节点A的故障概率应当较高。由此可见,相关技术中只考虑单个网络节点进行故障预测是由局限性的,进而导致预警准确率和效率较低。
此外,其他一些相关技术在进行故障预警时,通过机器学习等方法,得到局部故障预测模型对节点进行故障预测。虽然过程中也通过对节点的局部预测模型参数取均值,来得到全局预测模型,但是对于更新全局模型的节点是随机选择的,没有按照网络的传播路径进行选择,没有利用异常的传播性,所得到的全局模型本质上仍是用于生成节点的局部故障预测模型。只对节点进行故障预警,可能无法预测到整个网络层面发生故障的风险。
为此,本申请首先提供了一种网络节点的故障预警方法。通过本申请提供的网络节点的故障预警方法可以克服以上缺陷,能够预测整个网络层面发生故障的风险,考虑异常存在传播的性质,从而提高预警的准确率和效率。
本申请的实施终端可以是任何具有运算功能的设备,该设备可以与外部设备相连,用于接收或者发送数据,具体可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施或者服务器集群。
可选地,本申请的实施终端可以为服务器或者云计算的物理基础设施。
图3是根据一示例性实施例示出的一种网络节点的故障预警方法的系统架构示意图。如图3所示,该系统架构300包括用户终端301、服务器302和云端303,其中,用户终端301和服务器302之间、服务器302和云端303之间均通过通信链路连接,云端303中包括多个网络节点,网络节点之间按照一定方向进行调用,用户终端301上部署有故障预警系统的客户端,服务器302中部署有故障预警系统,因此,服务器302为本申请实施例的实施终端。当本申请提供的网络节点的故障预警方法应用于图3所示系统架构中时,一个过程可以是这样的:首先,服务器302通过访问云端303,得到网络拓扑图和网络拓扑图中每个网络节点的特征指标值,网络拓扑图表示了网络节点之间存在的调用链关系;然后,服务器302根据网络节点的特征指标值确定发现的首个异常网络节点;接着,服务器302从首个异常网络节点开始,在网络拓扑图中逐层级进行搜索,根据网络节点的特征指标值判断异常网络节点的出边指向的网络节点是否异常,如果异常,则保留该条边,并继续对该出边指向的网络节点进行搜索和判断,如果无异常,则删除该条边和该条边指向的网络节点,从而构建早期异常传播子图;接下来,服务器302还根据早期异常传播子图中网络节点的的特征指标值,计算各网络节点的异常分数,并根据各网络节点的异常分数,计算整个早期异常传播子图的异常分数;最后,服务器302基于整个早期异常传播子图的异常分数,生成故障预警信息,并向运行在用户终端301中的客户端发送该故障预警信息。
值得一提的是,图1仅为本申请的一个实施例。虽然在本实施例中的实施终端为服务器,但在本申请的其他实施例中,实施终端可以为如前所述的各种终端或设备;虽然在本实施例中故障预警信息是由实施终端向实施终端之外的用户终端发送的,但在本申请的其他实施例中,故障预警信息还可以直接由实施终端向用户提供,比如,实施终端上可以配置显示器,通过显示器来显示故障预警信息;虽然在本实施例的方案用于对位于云端的网络节点进行故障预警,但在本申请的其他实施例中,所需预警的网络节点还可以部署在包括局域网、互联网在各种性质的网络中。本申请对此不作任何限定,本申请的保护范围也不应因此而受到任何限制。
图4是根据一示例性实施例示出的网络节点的故障预警方法的流程图。本实施例提供的网络节点的故障预警方法可以由服务器执行,如图4所示,包括以下步骤:
步骤410,在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点。
其中,网络拓扑图包括多个网络节点和网络节点之间的有向边。
各网络节点上可以部署有微服务,微服务之间的调用形成网络节点之间的调用链;网络节点之间的有向边指向的方向可以是网络节点的调用链方向或者数据传输方向。
首个异常网络节点可以是最先在网络拓扑图中发现的异常网络节点。可以对网络拓扑图中网络节点的特征数据进行特征值的采集,从而对于任意一个网络节点,均可以获得与一个或多个特征对应的特征值。各特征是预先设定的。
在本申请的一个实施例中,异常网络节点是至少一个特征对应的特征值大于相应的特征值阈值的网络节点。
具体地,对于每一特征,均可以设定相应的特征值阈值;各特征对应的特征值阈值通常是不同的。比如,一个特征可以是响应时延,那么,如果一个网络节点的响应时延为200ms,其大于相同的特征值阈值140ms,那么,该网络节点便是异常网络节点,从而可以被确定为目标异常网络节点。
步骤420,从目标异常网络节点起,在网络拓扑图中找到所有与目标异常网络节点对应的传播异常网络节点,传播异常网络节点是通过远离目标异常网络节点方向的出边与目标异常网络节点直接或间接相连,且与目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点。
具体地,一个网络节点的出边是指离开该网络节点的边,传播异常网络节点是在目标异常网络节点处产生的异常所能够传播至的网络节点,目标异常网络节点通过由出边组成的路径指向传播异常网络节点,如果一个传播异常网络节点是通过远离目标异常网络节点方向的出边与目标异常网络节点间接相连的,那么,该传播异常网络节点与目标异常节点之间连接路径上的网络节点均是异常网络节点,且这些异常网络节点也均为传播异常网络节点。
步骤430,根据目标异常网络节点、传播异常网络节点和目标异常网络节点与目标异常节点之间连接路径上的出边,构建异常传播子图。
异常传播子图本质上是网络拓扑图的子集。在获得了目标异常网络节点、传播异常网络节点、目标异常网络节点与目标异常节点之间连接路径上的出边之后,将这些元素进行组合便可以得到异常传播子图。
异常传播子图实际上的生成过程如下:首先,选取目标异常网络节点;然后,对目标异常网络节点执行判断步骤,该判断步骤包括:对通过离开目标异常网络节点的出边直接指向的各网络节点逐一进行判断,判断是否为异常网络节点,如果是,则保留相应的出边,否则,移除该网络节点和相应的出边,如果对通过离开目标异常网络节点的出边直接指向的所有网络节点均进行了判断,则将目标异常网络节点标记为已判断;接着,对所有未被标记为已判断的异常网络节点继续执行判断步骤,并在判断结束之后将这些异常网络节点标记为已判断,直至无法再找到通过出边指向的异常网络节点。这样,便实现了通过对网络拓扑图进行裁剪而得到异常传播子图。
图5是根据一示例性实施例示出的构建异常传播子图的原理示意图。请参见图5所示,所有网络节点以及网络节点之间的有向边构成了网络拓扑图。当虚线框内的各网络节点在响应时延这一特征指标对应的值均变为图2所示的数值时,便可以通过该虚线框对该网络拓扑图进行裁剪,从而得到虚线框内的异常传播子图。最终构建的异常传播子图可以如图2所示,其中,网络节点A为最初异常节点,也就是说,网络节点A是目标异常网络节点。
步骤440,针对异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数。
多个特征可以根据实际情况进行设定。在异常传播子图中,异常网络节点包括目标异常网络节点和传播异常网络节点。
在本申请的一个实施例中,针对异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数,包括:针对每一特征,确定异常网络节点在当前时刻该特征对应的特征值与在当前时刻之前的预定数目个时刻获得的该特征对应的特征值之间的平均偏差值;根据针对各特征对应获取的平均偏差值,确定异常网络节点的异常分数。
对于某一特征,可以通过如下公式确定该特征对应的平均偏差值:
其中,fi,j(xt)为第i个网络节点的与第j个特征对应的特征值,xt表示当前时刻的网络节点,p(fi,j(xt))为第i个网络节点的与第j个特征对应的平均偏差值。
因此,该公式计算第i个网络节点的第j个特征在当前时刻t的特征值与当前时刻之前t-1个历史时刻的特征值之间的平均偏差值。
还是以图2中的网络节点A为例,若要针对网络节点A计算与响应时延这一特征对应的平均偏差值,假如网络节点A在响应时延这一特征的历史数据为{102ms,111ms,120ms,115ms},在当前时刻,网络节点A与响应时延这一特征对应的数据为150ms,那么,针对响应时延这一特征,所确定出的平均偏差值为:
在本申请的一个实施例中,根据针对各特征对应获取的平均偏差值,确定异常网络节点的异常分数,包括:确定针对各特征对应获取的平均偏差值的平均值,作为异常网络节点的异常分数。
具体地,可以通过如下公式计算异常网络节点的异常分数:
其中,m为特征的数目,fi,j(xt)为第i个网络节点的与第j个特征对应的特征值,p(fi,j(xt))为第i个网络节点的与第j个特征对应的平均偏差值,p(fi(xt))为网络节点i的异常分数。
在本申请的一个实施例中,多个特征包括以下中的至少一项:响应时延、内存使用率和CPU温度。
具体地,还是以网络节点A为例,考虑响应时延(ms)、内存占用率(%)、CPU温度(℃)这三个特征,假如,网络节点A与响应时延这一特征对应的平均偏差值为1.38,与内存占用率这一特征对应的平均偏差值为1.54,与CPU温度这一特征对应的平均偏差值为2,那么,该网络节点A的异常分数为:
虽然,在上述实施例中,异常网络节点的异常分数是通过计算各特征对应的平均偏差值的平均值来计算的,但在本申请的其他实施例中,还可以通过其他方式进行计算。比如,可以为每一特征设置相应的权值,然后根据各特征的权值,求取各特征对应的平均偏差值的加权和,作为网络节点的异常分数;再比如,可以将各特征对应的平均偏差值输入至深度学习等机器学习模型中,获取模型的输出结果作为网络节点的异常分数。通过利用机器学习模型来计算网络节点的异常分数,可以使确定出的异常分数更准确。
步骤450,根据各异常网络节点的异常分数,确定异常传播子图的异常分数。
在本申请的一个实施例中,根据各异常网络节点的异常分数,确定异常传播子图的异常分数,包括:以每一异常网络节点的出度与异常传播子图中所有异常网络节点的数量之间的比值作为异常网络节点的权重,根据各异常网络节点的权重,确定各异常网络节点的异常分数的加权平均值,作为异常传播子图的异常分数。
具体地,可以通过如下公式来确定异常传播子图的异常分数:
其中,ki为网络节点i的出度,gt为异常传播子图,n为异常传播子图中异常网络节点的数量,p(fi(xt))为网络节点i的异常分数,p(gt)为异常传播子图的异常分数。
假如,异常传播子图中包含A、B、C、D四个节点,它们的出度分别是2,2,0,0,它们的异常分数分别为1.64,1.48,1.60,1.31,那么,异常传播子图的异常分数为:
步骤460,根据异常传播子图的异常分数进行故障预警。
在本申请的一个实施例中,根据异常传播子图的异常分数进行故障预警,包括:若异常传播子图的异常分数达到预定异常分数阈值,则进行故障预警。
预警的方式可以是各种各样的,比如可以通过发送弹窗、发送邮件、发送短信、呼叫电话、发出振动、声音和闪光等方式进行预警。
图6是根据一示例性实施例示出的通过构建异常传播子图进行故障早期预警的流程示意图。下面,结合图6从整体上介绍本申请实施例的方案:
步骤610,构建异常传播子图。
步骤620,计算各个节点的异常分数。
步骤630,计算整个子图的异常分数。
步骤640,进行故障早期预警。
综上所述,根据本申请实施例提供的网络节点的故障预警方法,充分利用了异常在网络中扩散积累的特点,构建异常传播子图,代替单节点进行异常分析,从整个网络层面对是否会发生故障进行预测,提前实现预警,降低了误报漏报的几率,提升了预警的准确率和效率。
本申请还提供了一种网络节点的故障预警装置,以下是本申请的装置实施例。
图7是根据一示例性实施例示出的一种网络节点的故障预警装置的框图。
如图7所示,装置700包括:
节点确定模块710,用于在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点,其中,所述网络拓扑图包括多个网络节点和网络节点之间的有向边;
查找模块720,用于从所述目标异常网络节点起,在所述网络拓扑图中找到所有与所述目标异常网络节点对应的传播异常网络节点,所述传播异常网络节点是通过远离所述目标异常网络节点方向的出边与所述目标异常网络节点直接或间接相连,且与所述目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点;
构建模块730,用于根据所述目标异常网络节点、所述传播异常网络节点和所述目标异常网络节点与所述目标异常节点之间连接路径上的出边,构建异常传播子图;
第一分数确定模块740,用于针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;
第二分数确定模块750,用于根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数;
故障预警模块760,用于根据所述异常传播子图的异常分数进行故障预警。
根据本申请的第三方面,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本申请的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行,比如与显示单元840通信。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
根据本申请的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
参考图9所示,描述了根据本申请的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种网络节点的故障预警方法,其特征在于,所述方法包括:
在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点,其中,所述网络拓扑图包括多个网络节点和网络节点之间的有向边;
从所述目标异常网络节点起,在所述网络拓扑图中找到所有与所述目标异常网络节点对应的传播异常网络节点,所述传播异常网络节点是通过远离所述目标异常网络节点方向的出边与所述目标异常网络节点直接或间接相连,且与所述目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点;
根据所述目标异常网络节点、所述传播异常网络节点和所述目标异常网络节点与所述目标异常节点之间连接路径上的出边,构建异常传播子图;
针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;
根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数;
根据所述异常传播子图的异常分数进行故障预警。
2.根据权利要求1所述的方法,其特征在于,所述针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数,包括:
针对每一特征,确定所述异常网络节点在当前时刻该特征对应的特征值与在当前时刻之前的预定数目个时刻获得的该特征对应的特征值之间的平均偏差值;
根据针对各特征对应获取的所述平均偏差值,确定所述异常网络节点的异常分数。
3.根据权利要求2所述的方法,其特征在于,所述根据针对各特征对应获取的所述平均偏差值,确定所述异常网络节点的异常分数,包括:
确定针对各特征对应获取的所述平均偏差值的平均值,作为所述异常网络节点的异常分数。
4.根据权利要求1所述的方法,其特征在于,所述根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数,包括:
以每一异常网络节点的出度与所述异常传播子图中所有异常网络节点的数量之间的比值作为所述异常网络节点的权重,根据各异常网络节点的权重,确定各异常网络节点的异常分数的加权平均值,作为所述异常传播子图的异常分数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述异常传播子图的异常分数进行故障预警,包括:
若所述异常传播子图的异常分数达到预定异常分数阈值,则进行故障预警。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述异常网络节点是至少一个特征对应的特征值大于相应的特征值阈值的网络节点。
7.根据权利要求1-5任意一项所述的方法,其特征在于,所述多个特征包括以下中的至少一项:响应时延、内存使用率和CPU温度。
8.一种网络节点的故障预警装置,其特征在于,所述装置包括:
节点确定模块,用于在网络拓扑图中确定出首个异常网络节点,作为目标异常网络节点,其中,所述网络拓扑图包括多个网络节点和网络节点之间的有向边;
查找模块,用于从所述目标异常网络节点起,在所述网络拓扑图中找到所有与所述目标异常网络节点对应的传播异常网络节点,所述传播异常网络节点是通过远离所述目标异常网络节点方向的出边与所述目标异常网络节点直接或间接相连,且与所述目标异常节点之间连接路径上的网络节点中不存在非异常网络节点的异常网络节点;
构建模块,用于根据所述目标异常网络节点、所述传播异常网络节点和所述目标异常网络节点与所述目标异常节点之间连接路径上的出边,构建异常传播子图;
第一分数确定模块,用于针对所述异常传播子图中每一异常网络节点,根据该异常网络节点在当前时刻与多个特征分别对应的特征值,确定该异常网络节点的异常分数;
第二分数确定模块,用于根据各异常网络节点的异常分数,确定所述异常传播子图的异常分数;
故障预警模块,用于根据所述异常传播子图的异常分数进行故障预警。
9.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555490.8A CN114257493B (zh) | 2021-12-17 | 2021-12-17 | 网络节点的故障预警方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555490.8A CN114257493B (zh) | 2021-12-17 | 2021-12-17 | 网络节点的故障预警方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114257493A true CN114257493A (zh) | 2022-03-29 |
CN114257493B CN114257493B (zh) | 2024-04-23 |
Family
ID=80792894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111555490.8A Active CN114257493B (zh) | 2021-12-17 | 2021-12-17 | 网络节点的故障预警方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114257493B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723082A (zh) * | 2022-04-19 | 2022-07-08 | 镇江西门子母线有限公司 | 一种智能低压成套设备的异常预警方法及系统 |
CN116170514A (zh) * | 2023-04-21 | 2023-05-26 | 华能信息技术有限公司 | 一种用于中台业务的服务策略调用实现方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150341379A1 (en) * | 2014-05-22 | 2015-11-26 | Accenture Global Services Limited | Network anomaly detection |
CN106130761A (zh) * | 2016-06-22 | 2016-11-16 | 北京百度网讯科技有限公司 | 数据中心的故障网络设备的识别方法和装置 |
WO2021012795A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 网络节点的调度方法、装置、电子设备和存储介质 |
US20210067527A1 (en) * | 2019-08-28 | 2021-03-04 | Nec Laboratories America, Inc. | Structural graph neural networks for suspicious event detection |
US20210226999A1 (en) * | 2018-08-07 | 2021-07-22 | Triad National Security, Llc | Modeling anomalousness of new subgraphs observed locally in a dynamic graph based on subgraph attributes and a community model |
WO2021189730A1 (zh) * | 2020-03-27 | 2021-09-30 | 深圳壹账通智能科技有限公司 | 检测异常高密子图的方法、装置、设备及存储介质 |
CN113518367A (zh) * | 2021-04-09 | 2021-10-19 | 广东电网有限责任公司电力调度控制中心 | 5g网络切片下基于服务特征的故障诊断方法及系统 |
-
2021
- 2021-12-17 CN CN202111555490.8A patent/CN114257493B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150341379A1 (en) * | 2014-05-22 | 2015-11-26 | Accenture Global Services Limited | Network anomaly detection |
CN106130761A (zh) * | 2016-06-22 | 2016-11-16 | 北京百度网讯科技有限公司 | 数据中心的故障网络设备的识别方法和装置 |
US20210226999A1 (en) * | 2018-08-07 | 2021-07-22 | Triad National Security, Llc | Modeling anomalousness of new subgraphs observed locally in a dynamic graph based on subgraph attributes and a community model |
WO2021012795A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 网络节点的调度方法、装置、电子设备和存储介质 |
US20210067527A1 (en) * | 2019-08-28 | 2021-03-04 | Nec Laboratories America, Inc. | Structural graph neural networks for suspicious event detection |
WO2021189730A1 (zh) * | 2020-03-27 | 2021-09-30 | 深圳壹账通智能科技有限公司 | 检测异常高密子图的方法、装置、设备及存储介质 |
CN113518367A (zh) * | 2021-04-09 | 2021-10-19 | 广东电网有限责任公司电力调度控制中心 | 5g网络切片下基于服务特征的故障诊断方法及系统 |
Non-Patent Citations (1)
Title |
---|
杨英;: "复杂通信网络中异常QoS目标寻迹的研究", 河北软件职业技术学院学报, no. 02 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723082A (zh) * | 2022-04-19 | 2022-07-08 | 镇江西门子母线有限公司 | 一种智能低压成套设备的异常预警方法及系统 |
CN114723082B (zh) * | 2022-04-19 | 2023-08-18 | 镇江西门子母线有限公司 | 一种智能低压成套设备的异常预警方法及系统 |
CN116170514A (zh) * | 2023-04-21 | 2023-05-26 | 华能信息技术有限公司 | 一种用于中台业务的服务策略调用实现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114257493B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220036264A1 (en) | Real-time adaptive operations performance management system | |
CN108322320B (zh) | 业务生存性分析方法及装置 | |
US10379717B2 (en) | Device based visualization and analysis of multivariate data | |
CN114257493B (zh) | 网络节点的故障预警方法、装置、介质及电子设备 | |
CN108574933B (zh) | 用户轨迹恢复方法及装置 | |
US10635521B2 (en) | Conversational problem determination based on bipartite graph | |
US11606378B1 (en) | Lateral movement detection using a mixture of online anomaly scoring models | |
US20220019495A1 (en) | Machine learning-based techniques for providing focus to problematic compute resources represented via a dependency graph | |
US9417949B1 (en) | Generic alarm correlation by means of normalized alarm codes | |
US20230133541A1 (en) | Alert correlating using sequence model with topology reinforcement systems and methods | |
CN113986564A (zh) | 应用数据的流量监控方法、装置、计算机设备及介质 | |
CN111311014B (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN116418653A (zh) | 基于多指标根因定位算法的故障定位方法及装置 | |
CN114417192B (zh) | 更新兴趣点poi状态的方法、装置、设备、介质及产品 | |
CN115373888A (zh) | 故障定位方法、装置、电子设备和存储介质 | |
CN112308455B (zh) | 根因定位方法、装置、设备及计算机存储介质 | |
CN113518367B (zh) | 5g网络切片下基于服务特征的故障诊断方法及系统 | |
CN110515758A (zh) | 一种故障定位方法、装置、计算机设备及存储介质 | |
CN115794473A (zh) | 一种根因告警的定位方法、装置、设备及介质 | |
CN112764957A (zh) | 应用故障定界方法及装置 | |
CN113138903B (zh) | 用于跟踪存储系统的性能的方法和设备 | |
US20230214377A1 (en) | Method, device, and program product for managing log data | |
US11461007B2 (en) | Method, device, and computer program product for determining failures and causes of storage devices in a storage system | |
CN116820826B (zh) | 一种基于调用链的根因定位方法、装置、设备及存储介质 | |
CN117726147B (zh) | 一种基于适配度的服务器管理方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |