CN108880914B - 一种基于网络带宽测试的互连网络故障检测与定位方法 - Google Patents

一种基于网络带宽测试的互连网络故障检测与定位方法 Download PDF

Info

Publication number
CN108880914B
CN108880914B CN201810930202.4A CN201810930202A CN108880914B CN 108880914 B CN108880914 B CN 108880914B CN 201810930202 A CN201810930202 A CN 201810930202A CN 108880914 B CN108880914 B CN 108880914B
Authority
CN
China
Prior art keywords
cpu
port
bandwidth
pairing
route
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810930202.4A
Other languages
English (en)
Other versions
CN108880914A (zh
Inventor
陈淑平
卢德平
彭龙根
周慧霖
王申
钱炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201810930202.4A priority Critical patent/CN108880914B/zh
Publication of CN108880914A publication Critical patent/CN108880914A/zh
Application granted granted Critical
Publication of CN108880914B publication Critical patent/CN108880914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate

Abstract

本发明公开一种基于网络带宽测试的互连网络故障检测与定位方法,该方法包括:S101、生成配对子集:选出最小、CPU出现次数最均衡的配对子集;S102、运行带宽测试进行故障检测与定位:运行并行测试程序,根据配对表测试每对CPU对间的带宽。本发明能够快速定位大规模互连网络中的故障,缩短排查故障的时间,提升了大规模网络的可用性、易用性、可维护性。

Description

一种基于网络带宽测试的互连网络故障检测与定位方法
技术领域
本发明涉及互连网络领域,尤其涉及一种基于网络带宽测试的互连网络故障检测与定位方法。
背景技术
在高性能计算、大数据、云计算、人工智能等领域,包括Infiniband在内的高速互连网络得到了越来越多的应用。大规模互连网络系统可能包含数十万个节点和端口;Infiniband是一种高性能的网络传输解决方案,改方案支持verbs和rdma两种通讯方式,具有高带宽、低延迟的特点,是当前构建超大规模低延迟高带宽数据传输网络的优先选择。在系统运行过程中,可能出现各种网络故障,故障的类型多种多样,如硬件故障包括链路Down、链路速率降级、链路丢包等,软件故障包括路由配置错误、LID重复等。这些故障有些比较容易定位,如PCIE链路复位、HCA端口Down等;有些则很难被发现,例如内存访问错误、IB端口丢包严重、PCIE接口不稳定等,出现这类错误时,出错现象为运行挂住或直接退出,很难定位到具体的故障原因。网络规模的增大导致进行一次故障检测的时间大幅增加。常用的诊断工具如ibnetdiscover、ibibqueryerrors、ibportstate等在大规模互连网络中存在时间开销大、难于精确定位故障等问题。
发明内容
本发明的目的在于通过一种基于网络带宽测试的互连网络故障检测与定位方法,来解决以上背景技术部分提到的问题。
为达此目的,本发明采用以下技术方案:
一种基于网络带宽测试的互连网络故障检测与定位方法,该方法包括如下步骤:
S101、生成配对子集:选出最小、CPU出现次数最均衡的配对子集;
S102、运行带宽测试进行故障检测与定位:运行并行测试程序,根据配对表测试每对CPU对间的带宽。
特别地,所述步骤S101中生成配对文件时,按CPU对的路径长短从大到小选择。
特别地,所述步骤S101中对路径长度相等的CPU对,按随机顺序检查是否需要将其加入配对子集。
特别地,所述生成配对子集,具体包括:一、计算任意一组CPU对(Cx,Cy)的路由,并按路由长度进行降序排序;二、对长度相等的一组CPU对:(a)用随机方式选择一个配对(Cx,Cy),如果其路由中至少有一个端口不在已覆盖的端口列表{Port}中,则i.将(Cx,Cy)加入配对列表{P};ii.将该路由中未加入端口列表{Port}的所有端口加入{Port};(b)如果还有路由长度相等的其他CPU配对,则;三、如果还有其他路由长度的CPU配对,则返回执行所述步骤二。
特别地,所述步骤S102中并行测试将所有CPU组织成一个环,设置一个令牌在该环上按顺序传递,仅持有令牌的CPU进行带宽测试;令牌持有者解析配对表,找出该CPU需要跟哪些CPU通信,然后测试到每个CPU的带宽。
特别地,所述步骤S102中并行测试程序根据下列规则定位故障点:一、如果CPUx到CPUy的传输超时,则可以判断二者之间的路由不可达;二、如果CPUx到CPUy的带宽低于设定值,则检查经过的所有端口;对每个端口,如果有另一对CPU对的路由经过该端口,且带宽正常,则判定该端口正常;最终定位出存在故障的端口。
本发明提出的基于网络带宽测试的互连网络故障检测与定位方法能够快速定位大规模互连网络中的故障,缩短排查故障的时间,提升了大规模网络的可用性、易用性、可维护性。
附图说明
图1为本发明实施例提供的基于网络带宽测试的互连网络故障检测与定位方法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述具体的实施例,不是旨在于限制本发明。
在大规模互连网路中不管故障类型是什么,发生故障时的现象可以归结为两种:一是路由不可达,二是性能下降。因此对任意一对HCA x与y,通过测试x到y的单向带宽就可以判定x到y经过的各个网络端口是否正常。通过覆盖所有网络端口,就可以对整个网络进行快速故障检测与定位。在超大规模互连网络中,遍历测试所有CPU对间的带宽所需的时间对运行中的系统来说是不可接受的。例如,假设单个端口的最大带宽为6GB/s,带宽测试时消息长度为16MB,则一次带宽测试的时间开销为1.3毫秒;如果网络中有4万块HCA卡,则总共需要进行1.6x109次带宽测试;为了保证测试时没有路由冲突,这些测试需要串行进行,因此所需的总时间超过24天。为了减少测试时间,没有必要遍历测试所有CPU对,仅需要从中选出一个很小的子集,使该子集所经过的路径覆盖到网络所有端口即可。本实施例中采用基于网络带宽测试的互连网络故障检测与定位方法实现对大规模互连网络系统中故障的快速检测与定位。
请参照图1所示,图1为本发明实施例提供的基于网络带宽测试的互连网络故障检测与定位方法流程图。
本实施例中基于网络带宽测试的互连网络故障检测与定位方法具体包括如下步骤:,该方法包括
S101、生成配对子集:选出最小、CPU出现次数最均衡的配对子集。
好的配对子集除了要求配对数尽量少以外,还要求每个CPU出现的次数尽量均衡。对每个CPU来说,在配对子集中出现的次数越多,需要创建的Queue Pair(简写为QP)数也越多,相应消耗的内存也越多。在超大规模互连网络中,如果CPU出现次数不均衡,就会出现某些CPU上内存不足的情况。如何从中选出最小、CPU出现次数最均衡的配对子集是极其困难的。为了快速选出合适的配对子集,采用下列方法:(1)生成配对文件时,优先选择那些路径长的CPU对,这样可以减少配对数;(2)对路径长度相等的CPU对,按随机顺序检查是否需要将这些CPU对加入配对子集,这样可以降低频繁使用同一个CPU的概率。
具体的,配对子集生成算法如下:输入:CPU列表{Cx},输出:配对列表{P},变量:已覆盖的端口列表{Port},过程如下:
一、计算任意一组CPU对(Cx,Cy)的路由,并按路由长度进行降序排序;二、对长度相等的一组CPU对:用随机方式选择一个配对(Cx,Cy),如果其路由中至少有一个端口不在已覆盖的端口列表{Port}中,则i.将(Cx,Cy)加入配对列表{P};ii.将该路由中未加入端口列表{Port}的所有端口加入{Port};三、如果还有其他路由长度的CPU配对,则返回执行所述步骤二。
S102、运行带宽测试进行故障检测与定位:运行并行测试程序,根据配对表测试每对CPU对间的带宽。该并行测试将所有CPU组织成一个环,设置一个令牌在该环上按顺序传递,仅持有令牌的CPU进行带宽测试;令牌持有者解析配对表,找出该CPU需要跟哪些CPU通信,然后测试到每个CPU的带宽。
具体的,在本实施例中并行测试程序根据下列规则定位故障点:一、如果CPUx到CPUy的传输超时,则可以判断二者之间的路由不可达;二、如果CPUx到CPUy的带宽低于设定值,则检查经过的所有端口;对每个端口,如果有另一对CPU对的路由经过该端口,且带宽正常,则判定该端口正常;最终定位出存在故障的端口。
本发明的技术方案通过选择一组CPU对进行带宽测试,以覆盖所有网络端口,进而可以对整个网络进行快速故障检测与定位;生成配对子集的方法,以生成配对数尽量少、同时每个CPU出现的次数尽量均衡的配对;进行带宽测试时,将所有CPU组织成一个环,有一个令牌在该环上按顺序传递,只有持有令牌的CPU才可以进行带宽测试。本发明能够快速定位大规模互连网络中的故障,缩短排查故障的时间,提升了大规模网络的可用性、易用性、可维护性。
本领域普通技术人员可以理解实现上述实施例中的全部部分是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种基于网络带宽测试的互连网络故障检测与定位方法,其特征在于,包括如下步骤:
S101、生成配对子集:选出最小、CPU出现次数最均衡的配对子集;其中,所述生成配对子集,具体包括:一、计算任意一组CPU对(Cx,Cy)的路由,并按路由长度进行降序排序;二、对长度相等的一组CPU对:用随机方式选择一个配对(Cx,Cy),如果其路由中至少有一个端口不在已覆盖的端口列表{Port}中,则i.将(Cx,Cy)加入配对列表{P};ii.将该路由中未加入端口列表{Port}的所有端口加入{Port};三、如果还有其他路由长度的CPU配对,则返回执行所述步骤二;
S102、运行带宽测试进行故障检测与定位:运行并行测试程序,根据配对表测试每对CPU对间的带宽。
2.根据权利要求1所述的基于网络带宽测试的互连网络故障检测与定位方法,其特征在于,所述步骤S101中生成配对文件时,按CPU对的路径长短从大到小选择。
3.根据权利要求1所述的基于网络带宽测试的互连网络故障检测与定位方法,其特征在于,所述步骤S101中对路径长度相等的CPU对,按随机顺序检查是否需要将其加入配对子集。
4.根据权利要求1至3之一所述的基于网络带宽测试的互连网络故障检测与定位方法,其特征在于,所述步骤S102中并行测试将所有CPU组织成一个环,设置一个令牌在该环上按顺序传递,仅持有令牌的CPU进行带宽测试;令牌持有者解析配对表,找出该CPU需要跟哪些CPU通信,然后测试到每个CPU的带宽。
5.根据权利要求4所述的基于网络带宽测试的互连网络故障检测与定位方法,其特征在于,所述步骤S102中并行测试程序根据下列规则定位故障点:一、如果CPUx到CPUy的传输超时,则可以判断二者之间的路由不可达;二、如果CPUx到CPUy的带宽低于设定值,则检查经过的所有端口;对每个端口,如果有另一对CPU对的路由经过该端口,且带宽正常,则判定该端口正常;最终定位出存在故障的端口。
CN201810930202.4A 2018-08-15 2018-08-15 一种基于网络带宽测试的互连网络故障检测与定位方法 Active CN108880914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810930202.4A CN108880914B (zh) 2018-08-15 2018-08-15 一种基于网络带宽测试的互连网络故障检测与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810930202.4A CN108880914B (zh) 2018-08-15 2018-08-15 一种基于网络带宽测试的互连网络故障检测与定位方法

Publications (2)

Publication Number Publication Date
CN108880914A CN108880914A (zh) 2018-11-23
CN108880914B true CN108880914B (zh) 2021-08-10

Family

ID=64318789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810930202.4A Active CN108880914B (zh) 2018-08-15 2018-08-15 一种基于网络带宽测试的互连网络故障检测与定位方法

Country Status (1)

Country Link
CN (1) CN108880914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244692B (zh) * 2021-04-30 2024-02-02 无锡江南计算技术研究所 一种适用于超大规模互连网络的故障快速定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457403A (zh) * 2010-10-15 2012-05-16 无锡江南计算技术研究所 一种网络连接的故障检测方法及装置
CN102496910A (zh) * 2011-12-02 2012-06-13 广州捷能电力科技有限公司 多设备互联网络的故障分析方法
CN104601407A (zh) * 2015-01-23 2015-05-06 北京奥普维尔科技有限公司 一种网络智能测试方法
CN104734909A (zh) * 2015-01-23 2015-06-24 北京奥普维尔科技有限公司 一种网络双向测试的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9240940B2 (en) * 2013-03-15 2016-01-19 Silicon Graphics International Corp. Scalable infiniband interconnect performance and diagnostic tool

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457403A (zh) * 2010-10-15 2012-05-16 无锡江南计算技术研究所 一种网络连接的故障检测方法及装置
CN102496910A (zh) * 2011-12-02 2012-06-13 广州捷能电力科技有限公司 多设备互联网络的故障分析方法
CN104601407A (zh) * 2015-01-23 2015-05-06 北京奥普维尔科技有限公司 一种网络智能测试方法
CN104734909A (zh) * 2015-01-23 2015-06-24 北京奥普维尔科技有限公司 一种网络双向测试的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大规模InfiniBand网络自学习的故障诊断方法;胡银辉等;《计算机应用》;20151110;全文 *

Also Published As

Publication number Publication date
CN108880914A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
US10594582B2 (en) Introspection driven monitoring of multi-container applications
US10523540B2 (en) Display method of exchanging messages among users in a group
US10528682B2 (en) Automatic performance characterization of a network-on-chip (NOC) interconnect
US8345558B2 (en) Packet-based memory test of a network device
US7176792B2 (en) Method and apparatus for identifying faults in a network that has generated a plurality of fault alarms
US10831630B2 (en) Fault analysis method and apparatus based on data center
CN110138630A (zh) 内置测试业务生成器
Leng et al. A mechanism for reducing flow tables in software defined network
CN111510344B (zh) 一种节点的转发时延确定方法和装置
CN112532408B (zh) 提取故障传播条件的方法、装置及存储介质
US8953462B2 (en) Protocol free testing of a fabric switch
CN104283780A (zh) 建立数据传输路径的方法和装置
CN108880914B (zh) 一种基于网络带宽测试的互连网络故障检测与定位方法
Bhowmik et al. Reliability monitoring in a smart noc component
Zhang et al. Service failure diagnosis in service function chain
CN102308524B (zh) 动态隧道故障诊断方法及设备和系统
CN109088766B (zh) 一种基于配对测试的互连网络故障检测与定位方法
Bhowmik et al. A packet address driven test strategy for stuck-at faults in networks-on-chip interconnects
US10320618B2 (en) Network system, network management method, and network management device
CN112866052B (zh) 网络链路状态的检测方法、检验矩阵的训练方法和装置
GB2537085A (en) Determining bandwidth requirements for network services
CN114244692B (zh) 一种适用于超大规模互连网络的故障快速定位方法
CN111884954A (zh) 一种交换机链路选择方法、系统、终端及存储介质
CN105721234A (zh) 端口聚合方法及装置
CN116760763B (zh) 链路切换方法、装置、计算系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant