CN114244692A - 一种适用于超大规模互连网络的故障快速定位方法 - Google Patents

一种适用于超大规模互连网络的故障快速定位方法 Download PDF

Info

Publication number
CN114244692A
CN114244692A CN202110480187.XA CN202110480187A CN114244692A CN 114244692 A CN114244692 A CN 114244692A CN 202110480187 A CN202110480187 A CN 202110480187A CN 114244692 A CN114244692 A CN 114244692A
Authority
CN
China
Prior art keywords
network
processes
cpu
bandwidth
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110480187.XA
Other languages
English (en)
Other versions
CN114244692B (zh
Inventor
王飞
张玉浩
郑岩
卢德平
陈淑平
周慧霖
李祎
王申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN202110480187.XA priority Critical patent/CN114244692B/zh
Publication of CN114244692A publication Critical patent/CN114244692A/zh
Application granted granted Critical
Publication of CN114244692B publication Critical patent/CN114244692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种适用于超大规模互连网络的故障快速定位方法,包括以下步骤:S1、以CPU为单位,每个CPU起2个进程,每个进程占用一个引擎,2个进程进行对发带宽测试,检查带宽是否正常,筛选出PCIE链路及存控有问题的点;S2、以中板为单位,每个CPU上选2个进程,每个进程使用1个引擎,进程以异或算法进行A2A测试,检查每轮通信带宽是否低于阈值,筛选出有问题的计算网交换机;S3、以整个队列为单位,从每个中板中选出指定进程,所有中板一起进行A2A测试,筛选出有问题的顶层网交换机。本发明解决网络故障定位效率低和循环连续检查每个节点造成收发堵塞问题,极大提高网络故障的诊断效率。

Description

一种适用于超大规模互连网络的故障快速定位方法
技术领域
本发明涉及一种适用于超大规模互连网络的故障快速定位方法,属于超大规模网络故障定位技术领域。
背景技术
在大规模的互连网络管理系统中,网络中的端口数量和节点个数可以达到十万数量级,要管理如此庞大的互连网络,故障定位的准确性和快速性显得尤为重要。
大规模互连网络的故障定位需要通过发送大量的网络节点信息查询或设置包,以便测试大规模互连网络中的网卡、计算网交换机、顶层网交换机的端口带宽和测试消息。手动逐个测试每个端口的带宽和测试消息只适用于小规模的互连网络故障定位,但如果是超大规模互连网络,则会出现效率低,处理时间太长等情况。
现有技术只提供单一CPU节点故障排查方法,针对网络规模较大的环境,这种网络故障定位的处理方式显然会出现导致网络系统效率低下(处理时间太长,令人无法容忍)。如果采用循环连续检查每个计算节点的处理方法,肯定会出现堵塞现象,同样会出现网络系统管理和网络维护罢工现象。
发明内容
本发明的目的是提供一种适用于超大规模互连网络的故障快速定位方法,便于对超大规模互连网络进行网络故障定位,解决网络故障定位效率低和循环连续检查每个节点造成收发堵塞问题,极大提高网络故障的诊断效率。
为达到上述目的,本发明采用的技术方案是:提供一种适用于超大规模互连网络的故障快速定位方法,包括以下步骤:
S1、以CPU为单位,每个CPU起2个进程,每个进程占用一个引擎,2个进程进行对发带宽测试,检查带宽是否正常,筛选出PCIE链路及存控有问题的点;
S2、以中板为单位,每个CPU上选2个进程,每个进程使用1个引擎,进程以异或算法进行A2A测试,检查每轮通信带宽是否低于阈值,筛选出有问题的计算网交换机;
S3、以整个队列为单位,从每个中板中选出指定进程,缺的CPU用对等位置的CPU补齐,所有中板一起进行A2A测试,检查中板间通信带宽是否正常,筛选出有问题的顶层网交换机。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明提出了一种适用于超大规模互连网络的故障快速定位方法,在大规模网络中,能够逐层检查网卡、计算网交换机、顶层网交换机的端口速率,从而快速定位故障节点,避免了逐个测试每个网卡消息类型与带宽和每个交换机端口的带宽,缩短了故障的检测时间,并通过异或算法控制进程通信的顺序,避免了各个进程在同时发送数据时会相互竞争通信路径的情况,极大的提高了大规模网络网络系统管理和网络维护的工作效率。
附图说明
附图1为以CPU为单位筛选出PCIE链路及存控有问题的点的示意图;
附图2为以中板为单位筛选出有问题的计算网交换机的示意图;
附图3为以队列为单位筛选出有问题的顶层网交换机的示意图;
附图4为本发明实施例中的示意图。
具体实施方式
实施例:本发明提供一种适用于超大规模互连网络的故障快速定位方法,具体包括以下步骤:
S1、以CPU为单位,每个CPU起2个进程,每个进程占用一个引擎,2个进程进行对发带宽测试,检查带宽是否正常,筛选出PCIE链路及存控有问题的点;
S2、以中板为单位,每个CPU上选2个进程,每个进程使用1个引擎,进程以异或算法进行A2A测试,检查每轮通信带宽是否低于阈值,筛选出有问题的计算网交换机;
S3、以整个队列为单位,从每个中板中选出指定进程,缺的CPU用对等位置的CPU补齐,所有中板一起进行A2A测试,检查中板间通信带宽是否正常,筛选出有问题的顶层网交换机。
对上述实施例的进一步解释如下:
基于大规模互连网络的故障快速定位方法,主要分成三层:
(1)以CPU为单位筛选出PCIE链路及存控有问题的点
由于每个CPU连接一块网卡,每块网卡都有两个引擎,两个引擎都可以发送和接收消息,遍历每块网卡的对发消息测试(两个引擎直接互相发送管理包)来筛选出PCIE链路有问题的点。因此可以以CPU为单位,每个CPU起2个进程,每个进程占用一个引擎,2个进程进行对发带宽测试,检查带宽是否正常。
(2)以中板为单位筛选出有问题的计算网交换机
中板内的交换机连接着的CPU互相通信需要经过计算网交换机,但不经过顶层交换机。因此可以以中板为单位筛选出有问题的计算网交换机,每个CPU上起2个进程,每个进程使用1个引擎,进程以异或算法进行A2A测试,检查每轮通信带宽是否低于阈值。
(3)以队列为单位筛选出有问题的顶层网交换机
不同中板内交换机连接着的CPU通信需要经过顶层交换机。以整个队列为单位,从每个中板中选出指定进程(缺的CPU用对等位置的CPU补齐),所有中板一起进行A2A测试,从而测试中板间通信带宽是否正常。
通过上述三个步骤,可以逐层筛选出故障网卡、故障计算网交换机、故障顶层网交换机。
A2A介绍:
A2A是一种典型的集合通信方式,将每个进程的大数据缓冲区切分为N个长度相等、编号分别为0,1,2,…,N-1的小数据缓冲区:对任意0<=i,j<=N-1,进程Pi将其标号为j的缓冲区中的数据发给进程Pj,存放在进程Pj的标号为i的缓冲区中。
异或算法:
dst =(myrank ^ stride) % P,stride ∈{1,2,⋯P−1},(注:要求P是2的幂,^表示异或符号);P表示进程个数,dst表示进程通信的目的地,myrank表示进程号,stride表示步长,当遍历完所有的步长时,表示A2A操作结束。
遍历异或算法所有步长的过程:
以下以8个进程采用异或算法进行A2A通信为例,A2A通信中的每个进程都必须与其他进程进行通信(如图4)。
发生故障时的现象可以归结为两种:一是路由不可达,二是性能下降。因此,对任意一对CPUx和CPUy,通过测试CPUx到CPUx的单向带宽就可以判定CPUx到CPUx经过的各个网络端口是否正常,通过覆盖所有网络端口,就可以对整个网络进行快速故障检测与定位。
故障定位主要流程如下:
输入:CPU列表{Cx}、理想带宽;
输出:各个端口的通信带宽;
算法:
1、设置默认参数(CPU频率,队列信息,路由,发送信息大小等);
2、获取测试的CPU信息(CPU列表,rank_id,guid等);
3、初始化同步资源;初始化发送、接收数据缓冲区和队列资源;
4、用异或算法计算每个进程的发送缓冲区和接收缓冲区;启动投递发送请求和投递接收请求;
5、等待消息同步(所有的投递接受请求完毕);
6、若步长Stride<CPU个数,则跳转到(4);
7、判断消息是否超时,判断端口的通信带宽是否小于理想带宽;
8、若路由不可达或带宽性能下降,则可定位出CPU节点的经过的通信端口有故障;
9、结束。
当CPUx和CPUy的路由不可达时或者CPUx和CPUy的通信带宽下降时,可以判断出CPUx到CPUy之间经过的网络端口有故障。
采用上述一种适用于超大规模互连网络的故障快速定位方法时,其在大规模网络中,能够逐层检查网卡、计算网交换机、顶层网交换机的端口速率,从而快速定位故障节点,避免了逐个测试每个网卡消息类型与带宽和每个交换机端口的带宽,缩短了故障的检测时间,并通过异或算法控制进程通信的顺序,避免了各个进程在同时发送数据时会相互竞争通信路径的情况,极大的提高了大规模网络网络系统管理和网络维护的工作效率。
为了便于更好的理解本发明,下面将对本文中使用的术语进行简要的解释:
顶层网交换机:互连网络中用于管理中板间通信的交换机。
网络管理包:互连网络节点中用于查询或设置网络节点信息的包。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种适用于超大规模互连网络的故障快速定位方法,其特征在于,包括以下步骤:
S1、以CPU为单位,每个CPU起2个进程,每个进程占用一个引擎,2个进程进行对发带宽测试,检查带宽是否正常,筛选出PCIE链路及存控有问题的点;
S2、以中板为单位,每个CPU上选2个进程,每个进程使用1个引擎,进程以异或算法进行A2A测试,检查每轮通信带宽是否低于阈值,筛选出有问题的计算网交换机;
S3、以整个队列为单位,从每个中板中选出指定进程,缺的CPU用对等位置的CPU补齐,所有中板一起进行A2A测试,检查中板间通信带宽是否正常,筛选出有问题的顶层网交换机。
CN202110480187.XA 2021-04-30 2021-04-30 一种适用于超大规模互连网络的故障快速定位方法 Active CN114244692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110480187.XA CN114244692B (zh) 2021-04-30 2021-04-30 一种适用于超大规模互连网络的故障快速定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110480187.XA CN114244692B (zh) 2021-04-30 2021-04-30 一种适用于超大规模互连网络的故障快速定位方法

Publications (2)

Publication Number Publication Date
CN114244692A true CN114244692A (zh) 2022-03-25
CN114244692B CN114244692B (zh) 2024-02-02

Family

ID=80742847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110480187.XA Active CN114244692B (zh) 2021-04-30 2021-04-30 一种适用于超大规模互连网络的故障快速定位方法

Country Status (1)

Country Link
CN (1) CN114244692B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102864A (zh) * 2022-06-21 2022-09-23 中国人民解放军国防科技大学 一种用于Dragonfly拓扑的Allgather方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768300A (en) * 1996-02-22 1998-06-16 Fujitsu Limited Interconnect fault detection and localization method and apparatus
US20070014233A1 (en) * 2005-02-10 2007-01-18 Fujitsu Limited Fault management apparatus and method for identifying cause of fault in communication network
US20070036178A1 (en) * 2005-02-02 2007-02-15 Susan Hares Layer 2 virtual switching environment
US20100208595A1 (en) * 2007-10-09 2010-08-19 Wei Zhao Arrangement and a method for handling failures in a network
CN105490862A (zh) * 2016-01-08 2016-04-13 成都网丁科技有限公司 一种高效的故障诊断引擎
CN106973012A (zh) * 2017-05-22 2017-07-21 商洛学院 一种计算机网络环路检测方法
CN108880914A (zh) * 2018-08-15 2018-11-23 无锡江南计算技术研究所 一种基于网络带宽测试的互连网络故障检测与定位方法
CN109039763A (zh) * 2018-08-28 2018-12-18 曙光信息产业(北京)有限公司 一种基于回溯法的网络故障节点检测方法及网络管理系统
CN109062857A (zh) * 2018-08-14 2018-12-21 苏州硅岛信息科技有限公司 一种能高速实现多处理器间通信的新型消息控制器及其通信方法
CN109088766A (zh) * 2018-08-15 2018-12-25 无锡江南计算技术研究所 一种基于配对测试的互连网络故障检测与定位方法
CN110928687A (zh) * 2019-11-25 2020-03-27 新华三技术有限公司 Cpu资源分配方法及测试设备
US20200159572A1 (en) * 2016-09-27 2020-05-21 Telefonaktiebolaget Lm Ericsson (Publ) Process scheduling

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768300A (en) * 1996-02-22 1998-06-16 Fujitsu Limited Interconnect fault detection and localization method and apparatus
US20070036178A1 (en) * 2005-02-02 2007-02-15 Susan Hares Layer 2 virtual switching environment
US20070014233A1 (en) * 2005-02-10 2007-01-18 Fujitsu Limited Fault management apparatus and method for identifying cause of fault in communication network
US20100208595A1 (en) * 2007-10-09 2010-08-19 Wei Zhao Arrangement and a method for handling failures in a network
CN105490862A (zh) * 2016-01-08 2016-04-13 成都网丁科技有限公司 一种高效的故障诊断引擎
US20200159572A1 (en) * 2016-09-27 2020-05-21 Telefonaktiebolaget Lm Ericsson (Publ) Process scheduling
CN106973012A (zh) * 2017-05-22 2017-07-21 商洛学院 一种计算机网络环路检测方法
CN109062857A (zh) * 2018-08-14 2018-12-21 苏州硅岛信息科技有限公司 一种能高速实现多处理器间通信的新型消息控制器及其通信方法
CN108880914A (zh) * 2018-08-15 2018-11-23 无锡江南计算技术研究所 一种基于网络带宽测试的互连网络故障检测与定位方法
CN109088766A (zh) * 2018-08-15 2018-12-25 无锡江南计算技术研究所 一种基于配对测试的互连网络故障检测与定位方法
CN109039763A (zh) * 2018-08-28 2018-12-18 曙光信息产业(北京)有限公司 一种基于回溯法的网络故障节点检测方法及网络管理系统
CN110928687A (zh) * 2019-11-25 2020-03-27 新华三技术有限公司 Cpu资源分配方法及测试设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊茜;梁家荣;马强;: "交换超立方网络的(t, k)故障诊断度研究", 通信学报, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102864A (zh) * 2022-06-21 2022-09-23 中国人民解放军国防科技大学 一种用于Dragonfly拓扑的Allgather方法及装置
CN115102864B (zh) * 2022-06-21 2023-08-29 中国人民解放军国防科技大学 一种用于Dragonfly拓扑的Allgather方法及装置

Also Published As

Publication number Publication date
CN114244692B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Huo et al. A SDN‐based fine‐grained measurement and modeling approach to vehicular communication network traffic
CN102780637B (zh) 空间容迟容断网络中数据传输的路由方法
US10528682B2 (en) Automatic performance characterization of a network-on-chip (NOC) interconnect
CN102904794A (zh) 一种虚拟网络映射方法和装置
CN102629912B (zh) 面向无缓冲片上网络的容错偏转路由方法及装置
CN115174432B (zh) Rdma网络状态监测方法、装置、设备及可读存储介质
CN111865781A (zh) 用于路径优化的方法、设备和计算机程序产品
CN102104502A (zh) 一种基于Linux系统的以太网网络设备性能测试平台
Pedretti et al. Using the Cray Gemini Performance Counters.
Bhowmik et al. Impact of NoC interconnect shorts on performance metrics
JP2018191279A (ja) テストトラフィック生成および検査の方法、ならびに関連するスイッチ入力ポートまたは出力ポートおよびスイッチ
CN112350897B (zh) 基于动态连接端到端可靠传输协议的网络测试装置
CN102447590B (zh) 一种交换机的线路测试方法、装置和系统
CN103532818A (zh) 一种vpn链路可达性的快速测试方法
CN114244692A (zh) 一种适用于超大规模互连网络的故障快速定位方法
CN103036737B (zh) 一种大规模微系统芯片的片上多节点系统的自测试方法
CN112637010B (zh) 一种设备的检查方法及装置
Zhang et al. Probabilistic analysis of network availability
CN108768778A (zh) 一种网络时延计算方法、装置、设备及存储介质
Tong et al. A novel and efficient link discovery mechanism in SDN
CN109799728B (zh) 一种基于层次化自适应策略的容错cps仿真测试方法
Chang et al. OS Packet Processing Mechanism Simulation Architecture for Enabling Digital Twins of Networks in ns-3
Bhowmik et al. A packet address driven test strategy for stuck-at faults in networks-on-chip interconnects
CN114997380A (zh) 采样器以及用于图神经网络模型执行的装置
CN103491023A (zh) 用于三维torus光电混合网络的路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant