CN105933143B - 一种支持多节点高端计算机系统中的链路检测方法 - Google Patents

一种支持多节点高端计算机系统中的链路检测方法 Download PDF

Info

Publication number
CN105933143B
CN105933143B CN201610220814.5A CN201610220814A CN105933143B CN 105933143 B CN105933143 B CN 105933143B CN 201610220814 A CN201610220814 A CN 201610220814A CN 105933143 B CN105933143 B CN 105933143B
Authority
CN
China
Prior art keywords
link
cpu
cpu0
flag
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610220814.5A
Other languages
English (en)
Other versions
CN105933143A (zh
Inventor
黄家明
乔英良
王建红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610220814.5A priority Critical patent/CN105933143B/zh
Publication of CN105933143A publication Critical patent/CN105933143A/zh
Application granted granted Critical
Publication of CN105933143B publication Critical patent/CN105933143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种支持多节点高端计算机系统中的链路检测方法,所述方法通过依次在各节点的处理器之间进行数据传送来检测各个链路状态。本发明方通过判断传输的成功与否,判断链路是否正常并报告相关结果;该方法的应用,大大降低了故障链路的定位时间,极大的提升了用户的体验感受。

Description

一种支持多节点高端计算机系统中的链路检测方法
技术领域
本发明涉及计算机技术领域,具体涉及一种支持多节点高端计算机系统中的链路检测方法,一种多节点系统各个节点之中,主节点选定的优化方法。
背景技术
可扩展高端计算机系统,一般由多个节点组成,节点之间的互连拓扑结构往往很复杂。节点间的互连链路有成百甚至上千条。而当多个节点进行数据交互时,任意一条链路不通,都会导致整个计算机系统宕机。
对计算机使用者或实施人员来说,在遇到由于链路不通造成宕机的情况时,往往需要耗费大量的时间来重复实验,定位故障链路。
发明内容
本发明要解决的技术问题是:本发明提出了一种支持多节点高端计算机系统中的链路检测方法,在多节点进行互连之前,对各个链路状态进行测试。若有故障时给出故障链路指示。该方法的应用,大大降低了故障链路的定位时间,极大的提升了用户的体验感受。
本发明所采用的技术方案为:
一种支持多节点高端计算机系统中的链路检测方法,所述方法通过依次在各节点的处理器之间进行数据传送来检测各个链路状态。
所述方法操作内容如下:
首先,对多节点高端计算机系统中各个节点的各个CPU进行唯一编码;
然后,分别在各个CPU链路之间设置flag(标记),表示各个CPU之间的连通与否;
之后运行链路检测程序;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,确定故障链路。
所述链路检测程序运行过程如下:
设置flagX,bit0,用来表示CPUX到CPU0的链路连通与否;
首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……N的命令,使CPU1到CPUN依次完成各自的访问检测;
非CPU0的其他CPU,在检测程序开始时,持续查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
以上流程保证了系统在同一时间内只有一条链路在进行数据传输;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
如若flagX的最高位为0,对flagX从高位到低位进行监测,最后一个不为1的为bitY,则故障链路出现在CPU X-CPUY,再结合其他flag信息,准确判断出具体的故障链路。
CPU之间访问的命令发送接收过程由带外系统完成。
通过以上方法,完成了系统链路检测和故障链路定位。
本发明的有益效果为:
本发明方法通过在节点互连之前,依次在单个CPU之间的链路上进行数据传输,通过判断传输的成功与否,判断链路是否正常并报告相关结果。该方法的应用,大大降低了故障链路的定位时间,极大的提升了用户的体验感受。
附图说明
图1为发明方法涉及系统拓扑图;
图2为flag2 解析示意图;
图3为检测流程图;
图4为各个节点CPU 编码表。
具体实施方式
下面结合说明书附图,根据具体实施方式对本发明进一步说明:
实施例1:
一种支持多节点高端计算机系统中的链路检测方法,通过依次在各节点的处理器之间进行数据传送来检测各个链路状态。
实施例2
在实施例1的基础上,本实施例所述方法操作内容如下:
首先,对多节点高端计算机系统中各个节点的各个CPU进行唯一编码;
然后,分别在各个CPU链路之间设置flag(标记),表示各个CPU之间的连通与否;
之后运行链路检测程序;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,确定故障链路。
实施例3
在实施例2的基础上,本实施例所述链路检测程序运行过程如下:
设置flagX,bit0,用来表示CPUX到CPU0的链路连通与否;
首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……N的命令,使CPU1到CPUN依次完成各自的访问检测;
非CPU0的其他CPU,在检测程序开始时,持续查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
以上流程保证了系统在同一时间内只有一条链路在进行数据传输;所以当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
如若flagX的最高位为0,对flagX从高位到低位进行监测,最后一个不为1的为bitY,则故障链路出现在CPU X-CPUY,再结合其他flag信息,准确判断出具体的故障链路。
实施例4
在实施例3的基础上,本实施例CPU之间访问的命令发送接收过程由带外系统完成。
通过以上方法,完成了系统链路检测和故障链路定位。
实施例4
在实施例3的基础上,本实施例以一个4节点的系统进行说明,如图1所示,该系统中4个节点,每个节点2个处理器;
对这4个节点的各个CPU进行唯一编码,如图4所示;
然后,设置多个flag,表示各个CPU之间的连通与否,如图2所示,FlagX,bit 0,用来表示CPUX到CPU0的链路连通与否;
如图3流程图所示,首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……7的命令,使CPU1到CPU7依次完成各自的访问检测;命令发送接收过程由带外系统完成;
非CPU0的其他CPU,在检测程序开始时,持续发出查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
以上流程保证了系统在同一时间内只有一条链路在进行数据传输;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
如,若系统在链路检测时发生宕机,flag0= 0xfe,flag1=0xfc,flag2=0xf8,flag3=0x30时,宕机链路为CPU3-CPU6的链路,且CPU3-B,CPU6-D的链路都没有问题,可得出是互连芯片B到D的链路故障。
如此,完成了系统链路检测和故障链路定位。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (2)

1.一种支持多节点高端计算机系统中的链路检测方法,其特征在于:所述方法通过依次在各节点的处理器之间进行数据传送来检测各个链路状态;
所述方法操作内容如下:
首先,对多节点高端计算机系统中各个节点的各个CPU进行唯一编码;
然后,分别在各个CPU链路之间设置flag,表示各个CPU之间的连通与否;
之后运行链路检测程序;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,确定故障链路;
所述链路检测程序运行过程如下:
设置flagX,bit0,用来表示CPUX到CPU0的链路连通与否;
首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……N的命令,使CPU1到CPUN依次完成各自的访问检测;
非CPU0的其他CPU,在检测程序开始时,持续查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
若flagX的最高位为0,对flagX从高位到低位进行监测,最后一个不为1的为bitY,则故障链路出现在CPU X-CPUY,再结合其他flag信息,准确判断出具体的故障链路。
2.根据权利要求1所述的一种支持多节点高端计算机系统中的链路检测方法,其特征在于:CPU之间访问的命令发送接收过程由带外系统完成。
CN201610220814.5A 2016-04-11 2016-04-11 一种支持多节点高端计算机系统中的链路检测方法 Active CN105933143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610220814.5A CN105933143B (zh) 2016-04-11 2016-04-11 一种支持多节点高端计算机系统中的链路检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610220814.5A CN105933143B (zh) 2016-04-11 2016-04-11 一种支持多节点高端计算机系统中的链路检测方法

Publications (2)

Publication Number Publication Date
CN105933143A CN105933143A (zh) 2016-09-07
CN105933143B true CN105933143B (zh) 2018-09-21

Family

ID=56840113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610220814.5A Active CN105933143B (zh) 2016-04-11 2016-04-11 一种支持多节点高端计算机系统中的链路检测方法

Country Status (1)

Country Link
CN (1) CN105933143B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108400903A (zh) * 2018-01-22 2018-08-14 济南浪潮高新科技投资发展有限公司 一种物理层链路状态检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729307A (zh) * 2008-10-25 2010-06-09 华为技术有限公司 一种故障检测方法、通信设备及网络系统
CN103124225A (zh) * 2012-12-19 2013-05-29 杭州华为数字技术有限公司 多节点初始化的检测方法及装置、系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2462492B (en) * 2008-08-14 2012-08-15 Gnodal Ltd A multi-path network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729307A (zh) * 2008-10-25 2010-06-09 华为技术有限公司 一种故障检测方法、通信设备及网络系统
CN103124225A (zh) * 2012-12-19 2013-05-29 杭州华为数字技术有限公司 多节点初始化的检测方法及装置、系统

Also Published As

Publication number Publication date
CN105933143A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
US6874052B1 (en) Expansion bridge apparatus and method for an I2C bus
CN101976217B (zh) 网络处理器异常检测方法及系统
JP5285690B2 (ja) 並列コンピュータ・システム、並列コンピュータ・システム上のノード・トラフィックを動的に再経路指定するためのコンピュータ実装方法、コンピュータ可読記録媒体及びコンピュータ・プログラム
US9367374B2 (en) Handling system interrupts with long running recovery actions
JP4086472B2 (ja) システム・コンフィギュレーションを決定するための方法、システム、及びプログラム
US20070242611A1 (en) Computer Hardware Fault Diagnosis
CN101589370A (zh) 大规模并行计算机系统上的故障恢复以处理节点故障而不结束执行的作业
CN110580235B (zh) 一种sas扩展器通信方法及装置
US20040216003A1 (en) Mechanism for FRU fault isolation in distributed nodal environment
CN111966189B (zh) 一种灵活配置的多计算节点服务器主板结构和程序
CN105933143B (zh) 一种支持多节点高端计算机系统中的链路检测方法
CN106502944A (zh) 计算机、pcie设备以及pcie设备的心跳检测方法
CN102063356A (zh) 一种多中央处理单元cpu心跳检测系统及方法
US20070195716A1 (en) Ring bus in an emulation environment
JPH09507938A (ja) 処理装置からクロックへのインターフェース
CN101126994A (zh) 数据处理装置及其模式管理装置以及模式管理方法
US6529979B1 (en) Method and apparatus for a high-speed serial communications bus protocol with positive acknowledgement
CN115037651B (zh) 一种rdma带宽传输测试方法、系统及存储介质
US6292851B1 (en) System for allowing a supervisory module to obtain alarm and status information from at least one supervised module without having to specify physical addresses
US20070286087A1 (en) Distributed Network Enhanced Wellness Checking
US8264948B2 (en) Interconnection device
US6581121B1 (en) Maintenance link system and method
CN102541577A (zh) 基于fpga的嵌入式系统及其配置方法
JP2021106373A (ja) 有線ネットワーク伝送データ
CN106547719A (zh) 一种系统通信和控制处理同步方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant