CN108650110B - 一种hpc间接网络环境下的链路故障检测方法 - Google Patents
一种hpc间接网络环境下的链路故障检测方法 Download PDFInfo
- Publication number
- CN108650110B CN108650110B CN201810256843.6A CN201810256843A CN108650110B CN 108650110 B CN108650110 B CN 108650110B CN 201810256843 A CN201810256843 A CN 201810256843A CN 108650110 B CN108650110 B CN 108650110B
- Authority
- CN
- China
- Prior art keywords
- link
- delay
- communication path
- delay information
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种HPC间接网络环境下的链路故障检测方法,应用于HPC间接网络环境下,基于链路延迟信息测量的链路故障检测方法,通过检测链路延迟信息的异常来检测链路故障,能保证在较短时间内较精准的确定网络中故障链路。包括以下步骤:(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路。
Description
技术领域:
本发明涉及一种链路故障检测方法,更具体的说,尤其涉及一种高性能计算机(High Performance Computer,简称HPC)间接网络环境下的链路故障检测方法。
背景技术:
高性能计算是指采取一定的技术将大量处理单元的计算能力聚合起来以解决复杂问题的过程。高性能计算已逐渐成为解决国家经济建设、社会发展、科技创新、国家安全重大挑战性问题的重要手段,是世界各国竞争的战略高地。高性能计算的规模不断增大,目前已向E 级规模迈进,如此体量的计算规模所对应的计算机规模也是十分庞大的,以Top500排名第一的神威太湖之光高性能计算机为例,它是由40个机柜组成,每个机柜有4个超级节点,每个超级节点包括32个节点卡,每个节点卡含两个节点,每个节点装有1个SW26010众核处理器,即共有40960块处理器,各处理器之间又通过基于PCI-E3.0的神威网络系统进行互连。如此庞大的互连网络中常常有一些链路发生故障或者降级的,发生在这些链路上的数据传输往往效率低下。及时检测出这一现象能够帮助计算机运营人员及时解决网络问题,为应用提供更好的网络通信环境。
目前通信网络根据结点是否直接相连可分为直接网络和间接网络。直接网络中,各结点直接相连,不经过路由器、交换机等通信设备,这类网络的链路故障检测相对简单,只需相邻结点之间定时发送检测数据,便可获知每一条链路的通信特征信息。而在间接网络中,结点之间通过一个专门用于数据传输的互连网络相连,结点之间的数据通信往往需要经过若干个路由设备和链路,由于用户无法直接访问到这些路由设备及传输链路,如何检测具体哪些路由设备之间链路出现故障是一个难点。
目前链路故障检测方法主要面向网络规模较小、链路分布较为稀疏的TCP/IP互连网络,往往结合一些丰富的通信协议来获得链路通信特征信息,据此检测出链路故障。但是在HPC 互连网络环境下,出于通信效率考虑,往往没有充足的通信协议支撑,使得这些方法往往不能直接用于检测大规模高性能计算机互连网络中链路故障,并且由于HPC互连网络规模往往十分巨大,在该网络规模下已有的链路故障检测方法的时间开销是十分巨大的。
发明内容:
针对上述方法中所存在的问题,本发明提供一种HPC间接网络环境下的链路故障检测方法,应用于HPC间接网络环境下,基于链路延迟信息测量的链路故障检测方法,通过检测链路延迟信息的异常来检测链路故障,能保证在较短时间内较精准的确定网络中故障链路。
本发明的技术方案是:
一种HPC间接网络环境下的链路故障检测方法,其特征在于,包括以下步骤:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;HPC间接网络中包含n个结点,结点集合为N,以及m条链路,链路集合为M,那么n个结点之间共有n(n-1)/2条通信路径,通过查询网络所提供的路由查询接口,获得组成任意一条通信路径Li的链路集合Mi,且有
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;将各通信路径的链路组成转化为矩阵形式,然后对矩阵进行矩阵操作,去掉冗余通信路径,确定最终需要进行延迟测量的关键通信路径集合,根据这些关键路径的延迟信息求解出网络中所有链路的延迟信息;
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;
(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路。
为描述更为简洁规定如下表所示符号:
所述步骤(b)的具体过程为,
(b-1)根据所有结点之间通信路径的链路组成确定链路延迟方程组的系数矩阵。由于延迟具有可累加性特点,可累加性具体是指一条路由路径的延迟等于组成该路径各链路的延迟之和。那么一条路由路径的延迟和链路延迟之间存在如下关系:
O(Li)=ai,1·o(l1)+ai,2·o(l2)+…+ai,j·o(lj)+…+ai,m·o(lm)
上式中aij取值0或1,aij=1表示路由路径Li中包含li;aij=0表示路由路径Li中不包含li。那么根据所有路由路径延迟和链路组成,便可得到如下方程组:
方程组的系数矩阵为:
(b-2)利用高斯消元构建新的系数矩阵。以原系数矩阵的每一行作为行向量,则可得到行向量集合S={α1,α2,…,αi,…,αn(n-1)/2},利用高斯消元求得该向量集合的极大无关组则新的系数矩阵为:
(b-3)根据新系数矩阵确定需要进行延迟测量的所有通信路径。对于系数矩阵中的任意一行中的元素它的取值为1或0,分别表示的是通信路径中是否包含链路lj。因此根据中各元素的取值,便能确定具体对应于哪一条通信路径。系数矩阵各行所对应通信路径即为需要进行延迟测量的关键路径。
所述步骤(c)的具体过程为,
(c-1)结合图论算法生成并行测量方案。以关键通信路径集合中每条待测通信路径的链路组成为结点,包含有相同链路的路径所对应的结点间记为相连,否则记为不相连构造无向图。基于图染色算法将无向图各结点进行染色,所有染相同颜色的结点之间可以并行进行延迟测量。
(c-2)测量各通信路径的延迟信息。在测量数据经某一条通信路径上传输的延迟信息时,采取多次测量取平均值的方式。首先,在发送结点之上发送延迟测量数据,记录时间tj,1;数据到达接收结点之后被返回,重新到达发送结点上的时间为tj,2,则时间间隔tj=(tj,2-tj,1)/2即为此次测量的通路延迟信息。最后,重复上述过程x次取平均值
(c-3)根据各通信路径的延迟信息,求解各链路延迟信息。构建关于网络中各链路延迟信息的线性方程组,求解方程组得到HPC间接网络中所有链路的延迟信息。
本发明的有益效果是:本发明的链路故障检测方法能够适用于较大规模的HPC间接网络环境,能够在较短时间内获得链路的延迟信息,从而准确确定故障链路。在间接网络环境下,用户往往只能够测量网络边缘的通信结点之间整条通信路径的总延迟信息,而无法直接测量网络中路由设备之间链路的延迟信息,如何获得各链路延迟信息是一个首要解决的问题。同时,HPC网络规模往往十分庞大,一套涵盖所有链路的延迟测量方案执行的时间开销是十分巨大的,如何大规模缩减测量方案的执行开销是另外一个重要问题。针对以上存在的两个关键问题。本发明首先提出了基于线性代数相关知识的链路延迟求解方法,并且针对网络规模巨大所带来的延迟测量总耗时长的问题,分别从缩减总的延迟测量次数和并行测量两个角度提出有效的解决方法。
本发明的链路故障检测方法是以链路延迟信息作为故障与否的判断依据,基于真实测量和数学计算得到各链路的延迟信息,其中延迟信息异常的链路即认为是故障链路。方法首先获得网络中任意结点之间通信路径的链路组成,然后结合线性代数相关知识,确定需要进行延迟测量的关键通信路径集合。为了进一步降低延迟测量过程总的时间开销,本发明提出了一种并行测量关键路径延迟信息的方法,根据测量结果进一步求解出各链路的延迟信息,从而确定故障链路。方法分别从缩减测量次数和并行测量两个方面降低HPC间接网络环境下链路延迟测量的总时间开销,使得方法能够适用于较大规模的互连网络环境。
附图说明:
图1为本发明的HPC间接网络环境下的链路故障检测方法的流程图;
图2为本发明中测量两结点之间通信路径延迟信息的原理示意图。
具体实施方式:
以下结合附图对本发明作进一步详细的说明。
如图1所示,是本发明的HPC间接网络环境下的链路故障检测方法的流程图。
一种HPC间接网络环境下的链路故障检测方法,包括以下步骤:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;HPC间接网络中包含n个结点,结点集合为N,以及m条链路,链路集合为M,那么n个结点之间共有n(n-1)/2条通信路径,通过查询网络所提供的路由查询接口,获得组成任意一条通信路径Li的链路集合Mi,且有
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;将各通信路径的链路组成转化为矩阵形式,然后对矩阵进行矩阵操作,去掉冗余通信路径,确定最终需要进行延迟测量的关键通信路径集合,根据这些关键路径的延迟信息求解出网络中所有链路的延迟信息;
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;
(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路。
对于包含n各计算结点,m条通信链路组成的HPC互连网络,结合附图2,介绍本发明的HPC间接网络环境下基于链路延迟测量的链路故障检测方法具体实施的过程,其通过以下几个步骤来实现:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成。链路组成信息往往包括链路、物理链路、结点的编号,以及路由信息。编号信息往往通过查询HPC网络使用手册便可获得。利用网络提供接口便可查询得到任意结点之间路由路径的链路组成。
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合。
(b-1)根据所有结点之间通信路径的链路组成确定链路延迟方程组的系数矩阵。对于任意两通信结点之间的通信路由路径Li,通过查询网络路由信息,便可得到数据从发送结点到接受结点之间所要经过的链路,则定义网络中所有链路构成的集合为:A={li|i∈N*∩i≤m},那么该路径的延迟信息则可以由组成它的子链路延迟信息表示为:
O(Li)=ai,1·o(l1)+ai,2·o(l2)+…+ai,j·o(lj)+…+ai,m·o(lm)
那么n个节点对之间共有n(n-1)/2条路由路径,所有路径的延迟信息组成的延迟方程组则可以表示为:
则链路延迟方程组的系数矩阵为:
(b-2)利用高斯消元构建新的系数矩阵。使得根据此矩阵构造出来的新的延迟方程组能够求解出所有链路的延迟信息。以原系数矩阵的每一行作为行向量,则可得到行向量集合 S={α1,α2,…,αi,…,αn(n-1)/2},利用高斯消元求得该向量集合的极大无关组 则新的系数矩阵为:
(b-3)根据新系数矩阵确定需要进行延迟测量的所有通信路径。对于系数矩阵中的任意一行中的元素它的取值为1或0,分别表示的是通信路径中是否包含链路lj。因此根据中各元素的取值,便能确定具体对应于哪一条通信路径。系数矩阵各行所对应通信路径即为需要进行延迟测量的关键路径。
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息。
以每条路径的链路组成为结点,包含有相同链路的路径所对应的结点间记为相连,否则记为不相连构造无向图。基于Welch Powell自适应染色算法将无向图各结点进行染色。所有染同种颜色的结点所对应的通信路径可以在同一伦次进行延迟测量。
(c-2)测量各通信路径的延迟信息。在测量数据经某一条通信路径上传输的延迟信息时,采取多次测量取平均值的方式。延迟测量过程如附图2所示,首先,在发送结点 (结点1)之上发送延迟测量数据,记录时间tj,1;数据到达接收结点(结点2)之后被返回,重新到达发送结点上的时间为tj,2,则时间间隔tj=(tj,2-tj,1)/2即为此次测量的通路延迟信息。最后,重复上述过程x次,取平均值
(c-3)根据各通信路径的延迟信息,求解各链路延迟信息。所有染相同颜色的结点之间进行并行测量,获得所有路径的延迟信息,得到如下新的链路延迟方程组:
求解该方程组得到HPC间接网络中所有链路的延迟信息。
Claims (2)
1.一种HPC间接网络环境下的链路故障检测方法,其特征在于,包括以下步骤:
(a)查询HPC互连网络路由信息,获得结点间通信路径的链路组成;HPC间接网络中包含n个结点,结点集合为N,以及m条链路,链路集合为M,那么n个结点之间共有n(n-1)/2条通信路径,通过查询网络所提供的路由查询接口,获得组成任意一条通信路径Li的链路集合Mi,且有
(b)结合各通信路径的链路组成,确定需要进行延迟测量的关键通信路径集合;将各通信路径的链路组成转化为矩阵形式,然后对矩阵进行矩阵操作,去掉冗余通信路径,确定最终需要进行延迟测量的关键通信路径集合,根据这些关键路径的延迟信息求解出网络中所有链路的延迟信息;
(c)并行测量关键路径的延迟信息,并据此信息求解出全网所有链路的延迟信息;
(d)根据链路延迟信息判断链路是否发生故障;求解网络中链路延迟的期望值,延迟与该值存在较大偏差的链路即为故障链路;
所述步骤(c)的具体过程为,
(c-1)结合图论算法生成并行测量方案;以关键通信路径集合中每条待测通信路径的链路组成为结点,包含有相同链路的路径所对应的结点间记为相连,否则记为不相连构造无向图;基于图染色算法将无向图各结点进行染色,所有染相同颜色的结点之间可以并行进行延迟测量;
(c-2)测量各通信路径的延迟信息;在测量数据经某一条通信路径上传输的延迟信息时,采取多次测量取平均值的方式:首先,在发送结点之上发送延迟测量数据,记录时间tj,1;数据到达接收结点之后被返回,重新到达发送结点上的时间为tj,2,则时间间隔tj=(tj,2-tj,1)/2即为此次测量的通路延迟信息;最后,重复上述过程x次取平均值
(c-3)根据各通信路径的延迟信息,求解各链路延迟信息;构建关于网络中各链路延迟信息的线性方程组,求解方程组得到HPC间接网络中所有链路的延迟信息。
2.根据权利要求1所述的HPC间接网络环境下的链路故障检测方法,其特征在于,所述步骤(b)的具体过程为,
(b-1)根据所有结点之间通信路径的链路组成确定链路延迟方程组的系数矩阵;一条通信路径的延迟信息则可以表示为如下形式:
O(Li)=ai,1·o(l1)+ai,2·o(l2)+…+ai,j·o(lj)+…+ai,m·o(lm)
对于其中的ai,j·o(lj),ai,j取值为0或1,表示lj是否包含于通信路径Li中,因此全网所有通信路径的链路延迟方程组为:
方程组的系数矩阵为:
(b-2)利用高斯消元构建新的系数矩阵,以原系数矩阵的每一行作为行向量,则可得到行向量集合S={α1,α2,…,αi,…,αn(n-1)/2},利用高斯消元求得该向量集合的极大无关组则新的系数矩阵为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810256843.6A CN108650110B (zh) | 2018-03-27 | 2018-03-27 | 一种hpc间接网络环境下的链路故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810256843.6A CN108650110B (zh) | 2018-03-27 | 2018-03-27 | 一种hpc间接网络环境下的链路故障检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108650110A CN108650110A (zh) | 2018-10-12 |
CN108650110B true CN108650110B (zh) | 2021-01-08 |
Family
ID=63744780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810256843.6A Active CN108650110B (zh) | 2018-03-27 | 2018-03-27 | 一种hpc间接网络环境下的链路故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108650110B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522150B (zh) * | 2018-10-17 | 2022-03-15 | 长安大学 | 基于超图的自适应可分解部分重复码构造及故障修复方法 |
CN109839618B (zh) * | 2019-03-15 | 2020-10-30 | 北京应用物理与计算数学研究所 | 低信噪比雷达信号识别方法、计算机可读存储介质及系统 |
CN110022249B (zh) * | 2019-04-19 | 2020-11-17 | 浙江中烟工业有限责任公司 | 基于反向波测技术的复杂网络环境网络延时监测方法 |
CN112383443B (zh) * | 2020-09-22 | 2022-06-14 | 北京航空航天大学 | 运行于rdma通信环境的并行应用通信性能预测方法 |
CN114039889B (zh) * | 2021-09-27 | 2023-06-16 | 北京邮电大学 | 基于往返时延的时间序列的网络异常检测方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015081318A1 (en) * | 2013-11-27 | 2015-06-04 | Futurewei Technologies, Inc. | Failure recovery for transplanting algorithms from cluster to cloud |
US9804913B2 (en) * | 2015-09-25 | 2017-10-31 | Intel Corporation | Management of a fault condition in a computing system |
CN107533607A (zh) * | 2015-05-04 | 2018-01-02 | 英特尔公司 | 通过信号延迟监测来进行攻击检测 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102868572A (zh) * | 2012-09-07 | 2013-01-09 | 北京歌华有线电视网络股份有限公司 | 一种基于端到端探测的路径延时的测量方法 |
US9832085B1 (en) * | 2015-01-20 | 2017-11-28 | Mehdi Malboubi | System for estimating unknown attributes of interest in the under-determined inverse problem and a process of accomplishing the same |
-
2018
- 2018-03-27 CN CN201810256843.6A patent/CN108650110B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015081318A1 (en) * | 2013-11-27 | 2015-06-04 | Futurewei Technologies, Inc. | Failure recovery for transplanting algorithms from cluster to cloud |
CN107533607A (zh) * | 2015-05-04 | 2018-01-02 | 英特尔公司 | 通过信号延迟监测来进行攻击检测 |
US9804913B2 (en) * | 2015-09-25 | 2017-10-31 | Intel Corporation | Management of a fault condition in a computing system |
Also Published As
Publication number | Publication date |
---|---|
CN108650110A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108650110B (zh) | 一种hpc间接网络环境下的链路故障检测方法 | |
US10606726B2 (en) | Methods, systems and computer readable media for performing benchmark reference testing of data center and network equipment | |
Bilal et al. | On the characterization of the structural robustness of data center networks | |
Yoon et al. | Fit a compact spread estimator in small high-speed memory | |
US20160212163A1 (en) | Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks | |
CN110417011A (zh) | 一种基于互信息与迭代随机森林的在线动态安全评估方法 | |
CN107483487A (zh) | 一种基于topsis的多维网络安全度量方法 | |
CN109587145B (zh) | 一种电力网络中的虚假数据入侵检测方法、装置及设备 | |
Sartzetakis et al. | Machine learning network tomography with partial topology knowledge and dynamic routing | |
Tornero et al. | A communication-aware topological mapping technique for NoCs | |
CN113992535B (zh) | 一种网络可靠性评估方法、装置、电子设备 | |
Sun et al. | Quality-of-protection (QoP): a quantitative methodology to grade security services | |
Chakaravarthy et al. | Mapping strategies for the PERCS architecture | |
Zhang et al. | SDN enhanced tomography for performance profiling in cloud network | |
Yalagandula et al. | Correlations in end-to-end network metrics: impact on large scale network monitoring | |
Bhardwaj et al. | On performance evaluation of advance irregular alpha multi-stage interconnection network-2 | |
Qazi et al. | A novel compressed sensing technique for traffic matrix estimation of software defined cloud networks | |
Zaitsev et al. | Verification of hypercube communication structures via parametric Petri nets1 | |
Peng et al. | Node importance of data center network based on contribution matrix of information entropy | |
Gandotra et al. | Comparing energy efficiencies of SDN hardware based on forwarding configurations | |
He et al. | Alternatives to betweenness centrality: Ameasure of correlation coefficient | |
Li et al. | A near optimal solution for network topology reconfigurations with limited link resources | |
Nie | Traffic matrix estimation approach based on partial direct measurements in large-scale IP backbone networks | |
Zhang | Link loss inference algorithm with network topology aware in communication networks | |
US11983472B2 (en) | Method for identifying fragile lines in power grids based on electrical betweenness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |