CN105933143B - 一种支持多节点高端计算机系统中的链路检测方法 - Google Patents
一种支持多节点高端计算机系统中的链路检测方法 Download PDFInfo
- Publication number
- CN105933143B CN105933143B CN201610220814.5A CN201610220814A CN105933143B CN 105933143 B CN105933143 B CN 105933143B CN 201610220814 A CN201610220814 A CN 201610220814A CN 105933143 B CN105933143 B CN 105933143B
- Authority
- CN
- China
- Prior art keywords
- link
- cpu
- cpu0
- flag
- computer system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 230000004888 barrier function Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种支持多节点高端计算机系统中的链路检测方法,所述方法通过依次在各节点的处理器之间进行数据传送来检测各个链路状态。本发明方通过判断传输的成功与否,判断链路是否正常并报告相关结果;该方法的应用,大大降低了故障链路的定位时间,极大的提升了用户的体验感受。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种支持多节点高端计算机系统中的链路检测方法,一种多节点系统各个节点之中,主节点选定的优化方法。
背景技术
可扩展高端计算机系统,一般由多个节点组成,节点之间的互连拓扑结构往往很复杂。节点间的互连链路有成百甚至上千条。而当多个节点进行数据交互时,任意一条链路不通,都会导致整个计算机系统宕机。
对计算机使用者或实施人员来说,在遇到由于链路不通造成宕机的情况时,往往需要耗费大量的时间来重复实验,定位故障链路。
发明内容
本发明要解决的技术问题是:本发明提出了一种支持多节点高端计算机系统中的链路检测方法,在多节点进行互连之前,对各个链路状态进行测试。若有故障时给出故障链路指示。该方法的应用,大大降低了故障链路的定位时间,极大的提升了用户的体验感受。
本发明所采用的技术方案为:
一种支持多节点高端计算机系统中的链路检测方法,所述方法通过依次在各节点的处理器之间进行数据传送来检测各个链路状态。
所述方法操作内容如下:
首先,对多节点高端计算机系统中各个节点的各个CPU进行唯一编码;
然后,分别在各个CPU链路之间设置flag(标记),表示各个CPU之间的连通与否;
之后运行链路检测程序;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,确定故障链路。
所述链路检测程序运行过程如下:
设置flagX,bit0,用来表示CPUX到CPU0的链路连通与否;
首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……N的命令,使CPU1到CPUN依次完成各自的访问检测;
非CPU0的其他CPU,在检测程序开始时,持续查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
以上流程保证了系统在同一时间内只有一条链路在进行数据传输;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
如若flagX的最高位为0,对flagX从高位到低位进行监测,最后一个不为1的为bitY,则故障链路出现在CPU X-CPUY,再结合其他flag信息,准确判断出具体的故障链路。
CPU之间访问的命令发送接收过程由带外系统完成。
通过以上方法,完成了系统链路检测和故障链路定位。
本发明的有益效果为:
本发明方法通过在节点互连之前,依次在单个CPU之间的链路上进行数据传输,通过判断传输的成功与否,判断链路是否正常并报告相关结果。该方法的应用,大大降低了故障链路的定位时间,极大的提升了用户的体验感受。
附图说明
图1为发明方法涉及系统拓扑图;
图2为flag2 解析示意图;
图3为检测流程图;
图4为各个节点CPU 编码表。
具体实施方式
下面结合说明书附图,根据具体实施方式对本发明进一步说明:
实施例1:
一种支持多节点高端计算机系统中的链路检测方法,通过依次在各节点的处理器之间进行数据传送来检测各个链路状态。
实施例2
在实施例1的基础上,本实施例所述方法操作内容如下:
首先,对多节点高端计算机系统中各个节点的各个CPU进行唯一编码;
然后,分别在各个CPU链路之间设置flag(标记),表示各个CPU之间的连通与否;
之后运行链路检测程序;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,确定故障链路。
实施例3
在实施例2的基础上,本实施例所述链路检测程序运行过程如下:
设置flagX,bit0,用来表示CPUX到CPU0的链路连通与否;
首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……N的命令,使CPU1到CPUN依次完成各自的访问检测;
非CPU0的其他CPU,在检测程序开始时,持续查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
以上流程保证了系统在同一时间内只有一条链路在进行数据传输;所以当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
如若flagX的最高位为0,对flagX从高位到低位进行监测,最后一个不为1的为bitY,则故障链路出现在CPU X-CPUY,再结合其他flag信息,准确判断出具体的故障链路。
实施例4
在实施例3的基础上,本实施例CPU之间访问的命令发送接收过程由带外系统完成。
通过以上方法,完成了系统链路检测和故障链路定位。
实施例4
在实施例3的基础上,本实施例以一个4节点的系统进行说明,如图1所示,该系统中4个节点,每个节点2个处理器;
对这4个节点的各个CPU进行唯一编码,如图4所示;
然后,设置多个flag,表示各个CPU之间的连通与否,如图2所示,FlagX,bit 0,用来表示CPUX到CPU0的链路连通与否;
如图3流程图所示,首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……7的命令,使CPU1到CPU7依次完成各自的访问检测;命令发送接收过程由带外系统完成;
非CPU0的其他CPU,在检测程序开始时,持续发出查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
以上流程保证了系统在同一时间内只有一条链路在进行数据传输;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
如,若系统在链路检测时发生宕机,flag0= 0xfe,flag1=0xfc,flag2=0xf8,flag3=0x30时,宕机链路为CPU3-CPU6的链路,且CPU3-B,CPU6-D的链路都没有问题,可得出是互连芯片B到D的链路故障。
如此,完成了系统链路检测和故障链路定位。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (2)
1.一种支持多节点高端计算机系统中的链路检测方法,其特征在于:所述方法通过依次在各节点的处理器之间进行数据传送来检测各个链路状态;
所述方法操作内容如下:
首先,对多节点高端计算机系统中各个节点的各个CPU进行唯一编码;
然后,分别在各个CPU链路之间设置flag,表示各个CPU之间的连通与否;
之后运行链路检测程序;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,确定故障链路;
所述链路检测程序运行过程如下:
设置flagX,bit0,用来表示CPUX到CPU0的链路连通与否;
首先使CPU0发出对其他各个CPU的访问,每次访问成功后都对flag0的对应位置进行标记;
当CPU0的访问检测完成后,CPU0依次发出1,2,……N的命令,使CPU1到CPUN依次完成各自的访问检测;
非CPU0的其他CPU,在检测程序开始时,持续查询命令,若检测到命令与自身的ID相同时,依次发起对比自身ID数大的CPU的访问,每次访问成功后,设置相应的flag;
当系统由于链路不通导致系统宕机时,读出系统已完成设置的flag,其下一个bit所对应的链路即为故障链路;
若flagX的最高位为0,对flagX从高位到低位进行监测,最后一个不为1的为bitY,则故障链路出现在CPU X-CPUY,再结合其他flag信息,准确判断出具体的故障链路。
2.根据权利要求1所述的一种支持多节点高端计算机系统中的链路检测方法,其特征在于:CPU之间访问的命令发送接收过程由带外系统完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610220814.5A CN105933143B (zh) | 2016-04-11 | 2016-04-11 | 一种支持多节点高端计算机系统中的链路检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610220814.5A CN105933143B (zh) | 2016-04-11 | 2016-04-11 | 一种支持多节点高端计算机系统中的链路检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105933143A CN105933143A (zh) | 2016-09-07 |
CN105933143B true CN105933143B (zh) | 2018-09-21 |
Family
ID=56840113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610220814.5A Active CN105933143B (zh) | 2016-04-11 | 2016-04-11 | 一种支持多节点高端计算机系统中的链路检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105933143B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108400903A (zh) * | 2018-01-22 | 2018-08-14 | 济南浪潮高新科技投资发展有限公司 | 一种物理层链路状态检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729307A (zh) * | 2008-10-25 | 2010-06-09 | 华为技术有限公司 | 一种故障检测方法、通信设备及网络系统 |
CN103124225A (zh) * | 2012-12-19 | 2013-05-29 | 杭州华为数字技术有限公司 | 多节点初始化的检测方法及装置、系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2462492B (en) * | 2008-08-14 | 2012-08-15 | Gnodal Ltd | A multi-path network |
-
2016
- 2016-04-11 CN CN201610220814.5A patent/CN105933143B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101729307A (zh) * | 2008-10-25 | 2010-06-09 | 华为技术有限公司 | 一种故障检测方法、通信设备及网络系统 |
CN103124225A (zh) * | 2012-12-19 | 2013-05-29 | 杭州华为数字技术有限公司 | 多节点初始化的检测方法及装置、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105933143A (zh) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6874052B1 (en) | Expansion bridge apparatus and method for an I2C bus | |
CN101976217B (zh) | 网络处理器异常检测方法及系统 | |
JP5285690B2 (ja) | 並列コンピュータ・システム、並列コンピュータ・システム上のノード・トラフィックを動的に再経路指定するためのコンピュータ実装方法、コンピュータ可読記録媒体及びコンピュータ・プログラム | |
US9367374B2 (en) | Handling system interrupts with long running recovery actions | |
JP4086472B2 (ja) | システム・コンフィギュレーションを決定するための方法、システム、及びプログラム | |
US20070242611A1 (en) | Computer Hardware Fault Diagnosis | |
CN101589370A (zh) | 大规模并行计算机系统上的故障恢复以处理节点故障而不结束执行的作业 | |
CN110580235B (zh) | 一种sas扩展器通信方法及装置 | |
US20040216003A1 (en) | Mechanism for FRU fault isolation in distributed nodal environment | |
CN111966189B (zh) | 一种灵活配置的多计算节点服务器主板结构和程序 | |
CN105933143B (zh) | 一种支持多节点高端计算机系统中的链路检测方法 | |
CN106502944A (zh) | 计算机、pcie设备以及pcie设备的心跳检测方法 | |
CN102063356A (zh) | 一种多中央处理单元cpu心跳检测系统及方法 | |
US20070195716A1 (en) | Ring bus in an emulation environment | |
JPH09507938A (ja) | 処理装置からクロックへのインターフェース | |
CN101126994A (zh) | 数据处理装置及其模式管理装置以及模式管理方法 | |
US6529979B1 (en) | Method and apparatus for a high-speed serial communications bus protocol with positive acknowledgement | |
CN115037651B (zh) | 一种rdma带宽传输测试方法、系统及存储介质 | |
US6292851B1 (en) | System for allowing a supervisory module to obtain alarm and status information from at least one supervised module without having to specify physical addresses | |
US20070286087A1 (en) | Distributed Network Enhanced Wellness Checking | |
US8264948B2 (en) | Interconnection device | |
US6581121B1 (en) | Maintenance link system and method | |
CN102541577A (zh) | 基于fpga的嵌入式系统及其配置方法 | |
JP2021106373A (ja) | 有線ネットワーク伝送データ | |
CN106547719A (zh) | 一种系统通信和控制处理同步方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |