CN108650110B - 一种hpc间接网络环境下的链路故障检测方法 - Google Patents

一种hpc间接网络环境下的链路故障检测方法 Download PDF

Info

Publication number
CN108650110B
CN108650110B CN201810256843.6A CN201810256843A CN108650110B CN 108650110 B CN108650110 B CN 108650110B CN 201810256843 A CN201810256843 A CN 201810256843A CN 108650110 B CN108650110 B CN 108650110B
Authority
CN
China
Prior art keywords
link
delay
communication path
delay information
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810256843.6A
Other languages
English (en)
Other versions
CN108650110A (zh
Inventor
肖利民
刘成春
杨章
田泓蕴
闫柏成
王志昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF APPLIED PHYSICS AND COMPUTATIONAL MATHEMATICS
Beihang University
Original Assignee
INSTITUTE OF APPLIED PHYSICS AND COMPUTATIONAL MATHEMATICS
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF APPLIED PHYSICS AND COMPUTATIONAL MATHEMATICS, Beihang University filed Critical INSTITUTE OF APPLIED PHYSICS AND COMPUTATIONAL MATHEMATICS
Priority to CN201810256843.6A priority Critical patent/CN108650110B/zh
Publication of CN108650110A publication Critical patent/CN108650110A/zh
Application granted granted Critical
Publication of CN108650110B publication Critical patent/CN108650110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种HPC间接网络环境下的链路故障检测方法,应用于HPC间接网络环境下,基于链路延迟信息测量的链路故障检测方法,通过检测链路延迟信息的异常来检测链路故障,能保证在较短时间内较精准的确定网络中故障链路。包括以下步骤:(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路。

Description

一种HPC间接网络环境下的链路故障检测方法
技术领域:
本发明涉及一种链路故障检测方法,更具体的说,尤其涉及一种高性能计算机(High Performance Computer,简称HPC)间接网络环境下的链路故障检测方法。
背景技术:
高性能计算是指采取一定的技术将大量处理单元的计算能力聚合起来以解决复杂问题的过程。高性能计算已逐渐成为解决国家经济建设、社会发展、科技创新、国家安全重大挑战性问题的重要手段,是世界各国竞争的战略高地。高性能计算的规模不断增大,目前已向E 级规模迈进,如此体量的计算规模所对应的计算机规模也是十分庞大的,以Top500排名第一的神威太湖之光高性能计算机为例,它是由40个机柜组成,每个机柜有4个超级节点,每个超级节点包括32个节点卡,每个节点卡含两个节点,每个节点装有1个SW26010众核处理器,即共有40960块处理器,各处理器之间又通过基于PCI-E3.0的神威网络系统进行互连。如此庞大的互连网络中常常有一些链路发生故障或者降级的,发生在这些链路上的数据传输往往效率低下。及时检测出这一现象能够帮助计算机运营人员及时解决网络问题,为应用提供更好的网络通信环境。
目前通信网络根据结点是否直接相连可分为直接网络和间接网络。直接网络中,各结点直接相连,不经过路由器、交换机等通信设备,这类网络的链路故障检测相对简单,只需相邻结点之间定时发送检测数据,便可获知每一条链路的通信特征信息。而在间接网络中,结点之间通过一个专门用于数据传输的互连网络相连,结点之间的数据通信往往需要经过若干个路由设备和链路,由于用户无法直接访问到这些路由设备及传输链路,如何检测具体哪些路由设备之间链路出现故障是一个难点。
目前链路故障检测方法主要面向网络规模较小、链路分布较为稀疏的TCP/IP互连网络,往往结合一些丰富的通信协议来获得链路通信特征信息,据此检测出链路故障。但是在HPC 互连网络环境下,出于通信效率考虑,往往没有充足的通信协议支撑,使得这些方法往往不能直接用于检测大规模高性能计算机互连网络中链路故障,并且由于HPC互连网络规模往往十分巨大,在该网络规模下已有的链路故障检测方法的时间开销是十分巨大的。
发明内容:
针对上述方法中所存在的问题,本发明提供一种HPC间接网络环境下的链路故障检测方法,应用于HPC间接网络环境下,基于链路延迟信息测量的链路故障检测方法,通过检测链路延迟信息的异常来检测链路故障,能保证在较短时间内较精准的确定网络中故障链路。
本发明的技术方案是:
一种HPC间接网络环境下的链路故障检测方法,其特征在于,包括以下步骤:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;HPC间接网络中包含n个结点,结点集合为N,以及m条链路,链路集合为M,那么n个结点之间共有n(n-1)/2条通信路径,通过查询网络所提供的路由查询接口,获得组成任意一条通信路径Li的链路集合Mi,且有
Figure BDA0001609155870000022
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;将各通信路径的链路组成转化为矩阵形式,然后对矩阵进行矩阵操作,去掉冗余通信路径,确定最终需要进行延迟测量的关键通信路径集合,根据这些关键路径的延迟信息求解出网络中所有链路的延迟信息;
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;
(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路。
为描述更为简洁规定如下表所示符号:
Figure BDA0001609155870000021
所述步骤(b)的具体过程为,
(b-1)根据所有结点之间通信路径的链路组成确定链路延迟方程组的系数矩阵。由于延迟具有可累加性特点,可累加性具体是指一条路由路径的延迟等于组成该路径各链路的延迟之和。那么一条路由路径的延迟和链路延迟之间存在如下关系:
O(Li)=ai,1·o(l1)+ai,2·o(l2)+…+ai,j·o(lj)+…+ai,m·o(lm)
上式中aij取值0或1,aij=1表示路由路径Li中包含li;aij=0表示路由路径Li中不包含li。那么根据所有路由路径延迟和链路组成,便可得到如下方程组:
Figure BDA0001609155870000031
方程组的系数矩阵为:
Figure BDA0001609155870000032
(b-2)利用高斯消元构建新的系数矩阵。以原系数矩阵的每一行作为行向量,则可得到行向量集合S={α12,…,αi,…,αn(n-1)/2},利用高斯消元求得该向量集合的极大无关组
Figure BDA0001609155870000034
则新的系数矩阵为:
Figure BDA0001609155870000033
(b-3)根据新系数矩阵确定需要进行延迟测量的所有通信路径。对于系数矩阵中的任意一行
Figure BDA0001609155870000035
中的元素
Figure BDA0001609155870000036
它的取值为1或0,分别表示的是通信路径
Figure BDA0001609155870000037
中是否包含链路lj。因此根据
Figure BDA0001609155870000038
中各元素的取值,便能确定具体对应于哪一条通信路径。系数矩阵各行所对应通信路径即为需要进行延迟测量的关键路径。
所述步骤(c)的具体过程为,
(c-1)结合图论算法生成并行测量方案。以关键通信路径集合
Figure BDA0001609155870000039
中每条待测通信路径的链路组成为结点,包含有相同链路的路径所对应的结点间记为相连,否则记为不相连构造无向图。基于图染色算法将无向图各结点进行染色,所有染相同颜色的结点之间可以并行进行延迟测量。
(c-2)测量各通信路径的延迟信息。在测量数据经某一条通信路径
Figure BDA0001609155870000042
上传输的延迟信息
Figure BDA0001609155870000043
时,采取多次测量取平均值的方式。首先,在发送结点之上发送延迟测量数据,记录时间tj,1;数据到达接收结点之后被返回,重新到达发送结点上的时间为tj,2,则时间间隔tj=(tj,2-tj,1)/2即为此次测量的通路延迟信息。最后,重复上述过程x次取平均值
Figure BDA0001609155870000041
(c-3)根据各通信路径的延迟信息,求解各链路延迟信息。构建关于网络中各链路延迟信息的线性方程组,求解方程组得到HPC间接网络中所有链路的延迟信息。
本发明的有益效果是:本发明的链路故障检测方法能够适用于较大规模的HPC间接网络环境,能够在较短时间内获得链路的延迟信息,从而准确确定故障链路。在间接网络环境下,用户往往只能够测量网络边缘的通信结点之间整条通信路径的总延迟信息,而无法直接测量网络中路由设备之间链路的延迟信息,如何获得各链路延迟信息是一个首要解决的问题。同时,HPC网络规模往往十分庞大,一套涵盖所有链路的延迟测量方案执行的时间开销是十分巨大的,如何大规模缩减测量方案的执行开销是另外一个重要问题。针对以上存在的两个关键问题。本发明首先提出了基于线性代数相关知识的链路延迟求解方法,并且针对网络规模巨大所带来的延迟测量总耗时长的问题,分别从缩减总的延迟测量次数和并行测量两个角度提出有效的解决方法。
本发明的链路故障检测方法是以链路延迟信息作为故障与否的判断依据,基于真实测量和数学计算得到各链路的延迟信息,其中延迟信息异常的链路即认为是故障链路。方法首先获得网络中任意结点之间通信路径的链路组成,然后结合线性代数相关知识,确定需要进行延迟测量的关键通信路径集合。为了进一步降低延迟测量过程总的时间开销,本发明提出了一种并行测量关键路径延迟信息的方法,根据测量结果进一步求解出各链路的延迟信息,从而确定故障链路。方法分别从缩减测量次数和并行测量两个方面降低HPC间接网络环境下链路延迟测量的总时间开销,使得方法能够适用于较大规模的互连网络环境。
附图说明:
图1为本发明的HPC间接网络环境下的链路故障检测方法的流程图;
图2为本发明中测量两结点之间通信路径延迟信息的原理示意图。
具体实施方式:
以下结合附图对本发明作进一步详细的说明。
如图1所示,是本发明的HPC间接网络环境下的链路故障检测方法的流程图。
一种HPC间接网络环境下的链路故障检测方法,包括以下步骤:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;HPC间接网络中包含n个结点,结点集合为N,以及m条链路,链路集合为M,那么n个结点之间共有n(n-1)/2条通信路径,通过查询网络所提供的路由查询接口,获得组成任意一条通信路径Li的链路集合Mi,且有
Figure BDA0001609155870000051
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;将各通信路径的链路组成转化为矩阵形式,然后对矩阵进行矩阵操作,去掉冗余通信路径,确定最终需要进行延迟测量的关键通信路径集合,根据这些关键路径的延迟信息求解出网络中所有链路的延迟信息;
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;
(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路。
对于包含n各计算结点,m条通信链路组成的HPC互连网络,结合附图2,介绍本发明的HPC间接网络环境下基于链路延迟测量的链路故障检测方法具体实施的过程,其通过以下几个步骤来实现:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成。链路组成信息往往包括链路、物理链路、结点的编号,以及路由信息。编号信息往往通过查询HPC网络使用手册便可获得。利用网络提供接口便可查询得到任意结点之间路由路径的链路组成。
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合。
(b-1)根据所有结点之间通信路径的链路组成确定链路延迟方程组的系数矩阵。对于任意两通信结点之间的通信路由路径Li,通过查询网络路由信息,便可得到数据从发送结点到接受结点之间所要经过的链路,则定义网络中所有链路构成的集合为:A={li|i∈N*∩i≤m},那么该路径的延迟信息则可以由组成它的子链路延迟信息表示为:
O(Li)=ai,1·o(l1)+ai,2·o(l2)+…+ai,j·o(lj)+…+ai,m·o(lm)
那么n个节点对之间共有n(n-1)/2条路由路径,所有路径的延迟信息组成的延迟方程组则可以表示为:
Figure BDA0001609155870000061
则链路延迟方程组的系数矩阵为:
Figure BDA0001609155870000062
(b-2)利用高斯消元构建新的系数矩阵。使得根据此矩阵构造出来的新的延迟方程组能够求解出所有链路的延迟信息。以原系数矩阵的每一行作为行向量,则可得到行向量集合 S={α12,…,αi,…,αn(n-1)/2},利用高斯消元求得该向量集合的极大无关组
Figure BDA0001609155870000063
Figure BDA0001609155870000064
则新的系数矩阵为:
Figure BDA0001609155870000065
(b-3)根据新系数矩阵确定需要进行延迟测量的所有通信路径。对于系数矩阵中的任意一行
Figure BDA0001609155870000066
中的元素
Figure BDA0001609155870000067
它的取值为1或0,分别表示的是通信路径
Figure BDA0001609155870000068
中是否包含链路lj。因此根据
Figure BDA0001609155870000069
中各元素的取值,便能确定具体对应于哪一条通信路径。系数矩阵各行所对应通信路径即为需要进行延迟测量的关键路径。
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息。
(c-1)结合图论算法生成并行测量方案。系数矩阵的任意一行qi包含着具体一条路由路径的链路组成信息,根据此信息确定路由路径的收发结点,利用一些延迟测量工具测得该路径的延迟信息
Figure BDA00016091558700000610
则可得延迟方程:
Figure BDA00016091558700000611
以每条路径的链路组成为结点,包含有相同链路的路径所对应的结点间记为相连,否则记为不相连构造无向图。基于Welch Powell自适应染色算法将无向图各结点进行染色。所有染同种颜色的结点所对应的通信路径可以在同一伦次进行延迟测量。
(c-2)测量各通信路径的延迟信息。在测量数据经某一条通信路径
Figure BDA0001609155870000071
上传输的延迟信息
Figure BDA0001609155870000072
时,采取多次测量取平均值的方式。延迟测量过程如附图2所示,首先,在发送结点 (结点1)之上发送延迟测量数据,记录时间tj,1;数据到达接收结点(结点2)之后被返回,重新到达发送结点上的时间为tj,2,则时间间隔tj=(tj,2-tj,1)/2即为此次测量的通路延迟信息。最后,重复上述过程x次,取平均值
Figure BDA0001609155870000073
(c-3)根据各通信路径的延迟信息,求解各链路延迟信息。所有染相同颜色的结点之间进行并行测量,获得所有路径的延迟信息,得到如下新的链路延迟方程组:
Figure BDA0001609155870000074
求解该方程组得到HPC间接网络中所有链路的延迟信息。
(d)根据链路延迟信息判断链路是否发生故障。求解链路延迟方程组的解,即为每一条链路的延迟信息o(lj),计算链路延迟的期望值
Figure BDA0001609155870000075
根据具体网络 场景设定延迟阈值s,对于
Figure BDA0001609155870000076
的链路即认为故障链路。

Claims (2)

1.一种HPC间接网络环境下的链路故障检测方法,其特征在于,包括以下步骤:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;HPC间接网络中包含n个结点,结点集合为N,以及m条链路,链路集合为M,那么n个结点之间共有n(n-1)/2条通信路径,通过查询网络所提供的路由查询接口,获得组成任意一条通信路径Li的链路集合Mi,且有
Figure FDA0002612218270000011
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;将各通信路径的链路组成转化为矩阵形式,然后对矩阵进行矩阵操作,去掉冗余通信路径,确定最终需要进行延迟测量的关键通信路径集合,根据这些关键路径的延迟信息求解出网络中所有链路的延迟信息;
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;
(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路;
所述步骤(c)的具体过程为,
(c-1)结合图论算法生成并行测量方案;以关键通信路径集合
Figure FDA0002612218270000012
中每条待测通信路径的链路组成为结点,包含有相同链路的路径所对应的结点间记为相连,否则记为不相连构造无向图;基于图染色算法将无向图各结点进行染色,所有染相同颜色的结点之间可以并行进行延迟测量;
(c-2)测量各通信路径的延迟信息;在测量数据经某一条通信路径
Figure FDA0002612218270000013
上传输的延迟信息
Figure FDA0002612218270000014
时,采取多次测量取平均值的方式:首先,在发送结点之上发送延迟测量数据,记录时间tj,1;数据到达接收结点之后被返回,重新到达发送结点上的时间为tj,2,则时间间隔tj=(tj,2-tj,1)/2即为此次测量的通路延迟信息;最后,重复上述过程x次取平均值
Figure FDA0002612218270000015
(c-3)根据各通信路径的延迟信息,求解各链路延迟信息;构建关于网络中各链路延迟信息的线性方程组,求解方程组得到HPC间接网络中所有链路的延迟信息。
2.根据权利要求1所述的HPC间接网络环境下的链路故障检测方法,其特征在于,所述步骤(b)的具体过程为,
(b-1)根据所有结点之间通信路径的链路组成确定链路延迟方程组的系数矩阵;一条通信路径的延迟信息则可以表示为如下形式:
O(Li)=ai,1·o(l1)+ai,2·o(l2)+…+ai,j·o(lj)+…+ai,m·o(lm)
对于其中的ai,j·o(lj),ai,j取值为0或1,表示lj是否包含于通信路径Li中,因此全网所有通信路径的链路延迟方程组为:
Figure FDA0002612218270000021
方程组的系数矩阵为:
Figure FDA0002612218270000022
(b-2)利用高斯消元构建新的系数矩阵,以原系数矩阵的每一行作为行向量,则可得到行向量集合S={α12,…,αi,…,αn(n-1)/2},利用高斯消元求得该向量集合的极大无关组
Figure FDA0002612218270000023
则新的系数矩阵为:
Figure FDA0002612218270000024
(b-3)根据新系数矩阵确定需要进行延迟测量的所有通信路径;对于系数矩阵中的任意一行
Figure FDA0002612218270000025
中的元素
Figure FDA0002612218270000026
它的取值为1或0,分别表示的是通信路径
Figure FDA0002612218270000027
中是否包含链路lj;因此根据
Figure FDA0002612218270000028
中各元素的取值,便能确定具体对应于哪一条通信路径;系数矩阵各行所对应通信路径即为需要进行延迟测量的关键路径。
CN201810256843.6A 2018-03-27 2018-03-27 一种hpc间接网络环境下的链路故障检测方法 Active CN108650110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810256843.6A CN108650110B (zh) 2018-03-27 2018-03-27 一种hpc间接网络环境下的链路故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810256843.6A CN108650110B (zh) 2018-03-27 2018-03-27 一种hpc间接网络环境下的链路故障检测方法

Publications (2)

Publication Number Publication Date
CN108650110A CN108650110A (zh) 2018-10-12
CN108650110B true CN108650110B (zh) 2021-01-08

Family

ID=63744780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810256843.6A Active CN108650110B (zh) 2018-03-27 2018-03-27 一种hpc间接网络环境下的链路故障检测方法

Country Status (1)

Country Link
CN (1) CN108650110B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522150B (zh) * 2018-10-17 2022-03-15 长安大学 基于超图的自适应可分解部分重复码构造及故障修复方法
CN109839618B (zh) * 2019-03-15 2020-10-30 北京应用物理与计算数学研究所 低信噪比雷达信号识别方法、计算机可读存储介质及系统
CN110022249B (zh) * 2019-04-19 2020-11-17 浙江中烟工业有限责任公司 基于反向波测技术的复杂网络环境网络延时监测方法
CN112383443B (zh) * 2020-09-22 2022-06-14 北京航空航天大学 运行于rdma通信环境的并行应用通信性能预测方法
CN114039889B (zh) * 2021-09-27 2023-06-16 北京邮电大学 基于往返时延的时间序列的网络异常检测方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081318A1 (en) * 2013-11-27 2015-06-04 Futurewei Technologies, Inc. Failure recovery for transplanting algorithms from cluster to cloud
US9804913B2 (en) * 2015-09-25 2017-10-31 Intel Corporation Management of a fault condition in a computing system
CN107533607A (zh) * 2015-05-04 2018-01-02 英特尔公司 通过信号延迟监测来进行攻击检测

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102868572A (zh) * 2012-09-07 2013-01-09 北京歌华有线电视网络股份有限公司 一种基于端到端探测的路径延时的测量方法
US9832085B1 (en) * 2015-01-20 2017-11-28 Mehdi Malboubi System for estimating unknown attributes of interest in the under-determined inverse problem and a process of accomplishing the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081318A1 (en) * 2013-11-27 2015-06-04 Futurewei Technologies, Inc. Failure recovery for transplanting algorithms from cluster to cloud
CN107533607A (zh) * 2015-05-04 2018-01-02 英特尔公司 通过信号延迟监测来进行攻击检测
US9804913B2 (en) * 2015-09-25 2017-10-31 Intel Corporation Management of a fault condition in a computing system

Also Published As

Publication number Publication date
CN108650110A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108650110B (zh) 一种hpc间接网络环境下的链路故障检测方法
US10606726B2 (en) Methods, systems and computer readable media for performing benchmark reference testing of data center and network equipment
Bilal et al. On the characterization of the structural robustness of data center networks
Yoon et al. Fit a compact spread estimator in small high-speed memory
US20160212163A1 (en) Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks
CN110417011A (zh) 一种基于互信息与迭代随机森林的在线动态安全评估方法
CN107483487A (zh) 一种基于topsis的多维网络安全度量方法
CN109587145B (zh) 一种电力网络中的虚假数据入侵检测方法、装置及设备
Sartzetakis et al. Machine learning network tomography with partial topology knowledge and dynamic routing
Tornero et al. A communication-aware topological mapping technique for NoCs
CN113992535B (zh) 一种网络可靠性评估方法、装置、电子设备
Sun et al. Quality-of-protection (QoP): a quantitative methodology to grade security services
Chakaravarthy et al. Mapping strategies for the PERCS architecture
Zhang et al. SDN enhanced tomography for performance profiling in cloud network
Yalagandula et al. Correlations in end-to-end network metrics: impact on large scale network monitoring
Bhardwaj et al. On performance evaluation of advance irregular alpha multi-stage interconnection network-2
Qazi et al. A novel compressed sensing technique for traffic matrix estimation of software defined cloud networks
Zaitsev et al. Verification of hypercube communication structures via parametric Petri nets1
Peng et al. Node importance of data center network based on contribution matrix of information entropy
Gandotra et al. Comparing energy efficiencies of SDN hardware based on forwarding configurations
He et al. Alternatives to betweenness centrality: Ameasure of correlation coefficient
Li et al. A near optimal solution for network topology reconfigurations with limited link resources
Nie Traffic matrix estimation approach based on partial direct measurements in large-scale IP backbone networks
Zhang Link loss inference algorithm with network topology aware in communication networks
US11983472B2 (en) Method for identifying fragile lines in power grids based on electrical betweenness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant