CN116340068A - 一种服务器、主板及一种服务器的外接设备故障定位方法 - Google Patents
一种服务器、主板及一种服务器的外接设备故障定位方法 Download PDFInfo
- Publication number
- CN116340068A CN116340068A CN202310332349.4A CN202310332349A CN116340068A CN 116340068 A CN116340068 A CN 116340068A CN 202310332349 A CN202310332349 A CN 202310332349A CN 116340068 A CN116340068 A CN 116340068A
- Authority
- CN
- China
- Prior art keywords
- expansion card
- fault
- expansion
- server
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种服务器、主板及一种服务器的外接设备故障定位方法,应用于故障处理技术领域,包括:将信息获取指令发送至各块扩展卡,以使得任一扩展卡的信息获取装置在接收该指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口信息,并按照扩展卡插槽与物理位置之间的对应关系,确定出各端口信息各自对应的物理位置并反馈至主板;接收各块扩展卡的反馈数据并记录;当监测到任一外接设备故障时,基于该外接设备的CPU端口信息以及记录下的反馈数据,得到该外接设备的物理位置;输出携带有发生故障的外接设备的物理位置的提示信息。应用本申请的方案,可以方便有效地进行服务器外接设备的故障定位,也就有利于提高故障处理效率。
Description
技术领域
本发明涉及故障处理技术领域,特别是涉及一种服务器、主板及一种服务器的外接设备故障定位方法。
背景技术
随着服务器技术的日新月异,对于服务器外接设备提出了故障精准定位的要求。
目前的一些服务器系统配置十分复杂,存在着不同的设备搭配情况,设备的连接方式也具有很多种。例如在最新的Eagle Stream平台中,CPU就支持很多的PCIe(Peripheral Component Interconnect express,高速串行计算机扩展总线标准)资源,为了支持灵活的设备搭配,一般都是通过线缆实现转接,因此,对于服务器后窗固定的一个物理位置而言,在不同场合中,便可能出现不同的接法。
例如图1a为目前的Eagle Stream平台中一种2路服务器的结构示意图,其中的每个CPU(Central Processing Unit,中央处理器)最大可以支持5个PCIe X16的Root Port,即每个CPU最大支持5个PCIe X16的端口,因此在2路服务器上最大可以支持10个PCIe X16的PCIe设备。可参阅图1b,为一种具体场合中2U服务器的8卡配置示意图,图1b中支持8个PCIe X16的配置,以CPU0的PCIe端口1为例,该端口通过线缆固定到了图1b的左下角位置,也即第1列的底部位置,在图1b中标记为CPU0_PE1。目前的方案中,工作人员可以通过日志发现CPU0_PE1所连接的外接设备故障,但是CPU0_PE1这一端口,当前具体是设置在图1b的8个位置中的哪个位置,工作人员并不知道,因为在不同的场合中存在不同的接线方式,即左下角位置处未必始终是CPU0_PE1这一端口。此时,工作人员只能通过打开服务器机箱,观察线缆走线,才能得知当前场合中的CPU0_PE1是位于第1列的底部位置,又或者是查阅服务器安装时的安装记录,来确定CPU0_PE1对应的是哪个物理位置,但是实际应用中该安装记录未必有进行妥善保存,还可能存在记录错误、线缆安装之后进行过调整修改等情况,导致在目前情况下,如果出现了服务器的外接设备故障,工作人员很难方便、快速地定位出该外接设备在服务器后窗中具体所处的物理位置,也就不利于保障工作人员的故障处理效率。
综上所述,如何方便、有效地进行服务器外接设备的故障定位,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种服务器、主板及一种服务器的外接设备故障定位方法,以方便、有效地进行服务器外接设备的故障定位。
为解决上述技术问题,本发明提供如下技术方案:
一种服务器的外接设备故障定位方法,所述服务器中包括主板以及与所述主板连接的多块扩展卡,所述服务器的外接设备故障定位方法应用于所述主板中,包括:
将信息获取指令发送至各块所述扩展卡,以使得任意一块扩展卡的信息获取装置在接收到所述信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,并按照设定的扩展卡插槽与物理位置之间的对应关系,确定出各个所述端口信息各自对应的物理位置并反馈至所述主板;
接收各块所述扩展卡的反馈数据并记录;
当监测到任意一块扩展卡所连接的外接设备故障时,基于发生故障的所述外接设备的CPU端口信息以及记录下的各块所述扩展卡的反馈数据,得到发生故障的所述外接设备的物理位置;
输出携带有发生故障的所述外接设备的物理位置的提示信息。
优选的,所述主板中设置有N个切换开关、BMC以及处理装置,且均挂载在第一总线下;在默认状态下,所述BMC占用所述第一总线并通过N个所述切换开关分别与N块所述扩展卡通信连接;N为不小于2的正整数;
相应的,所述将信息获取指令发送至各块所述扩展卡,包括:
所述处理装置向BMC发送第一申请指令以获取所述第一总线的占用权;
在获取了占用权之后,所述处理装置通过N个切换开关将信息获取指令依次发送至N块所述扩展卡;
相应的,所述接收各块所述扩展卡的反馈数据并记录,包括:
所述处理装置接收N块所述扩展卡的反馈数据并记录,并在记录完毕之后归还所述第一总线的占用权。
优选的,所述处理装置为PCH,所述第一总线为I2C总线,N个所述切换开关均为支持2个主机1个从机的I2C切换开关。
优选的,在所设定的扩展卡插槽与物理位置之间的对应关系中,针对任一扩展卡插槽,通过该扩展卡插槽的插槽编号以及与该扩展卡插槽所连接的切换开关的总线地址,设定该扩展卡插槽与物理位置之间的对应关系;或者,通过该扩展卡插槽的插槽编号以及该扩展卡插槽所在的扩展卡的位置信号,设定该扩展卡插槽与物理位置之间的对应关系。
优选的,每一块扩展卡中的所述信息获取装置均为GPIO扩展装置,在任意一块扩展卡中,该扩展卡中的所述GPIO扩展装置以及该扩展卡中的各个插槽均连接至具有多个切换通道的第一切换电路中,且该扩展卡中的所述第一切换电路与所述主板通信连接。
优选的,当监测到任意一块扩展卡所连接的外接设备故障时,包括:
当通过BIOS监测到任意一块扩展卡所连接的外接设备故障时。
优选的,所述输出携带有发生故障的所述外接设备的物理位置的提示信息,包括:
将携带有发生故障的所述外接设备的物理位置的提示信息发送至Web页面中进行显示。
优选的,任意一块扩展卡的信息获取装置在接收到所述信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,包括:
任意一块扩展卡的信息获取装置在接收到所述信息获取指令之后,基于获取到的该扩展卡的扩展卡ID,识别出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息;
其中,CPU端口的端口信息包括CPU的ID以及该CPU的端口编号。
一种主板,所述主板设置于服务器中,并与多块扩展卡连接,所述主板用于执行计算机程序以实现如上述所述的服务器的外接设备故障定位方法的步骤。
一种服务器,包括如上述所述的主板,以及与所述主板连接的多块扩展卡。
应用本发明实施例所提供的技术方案,通过所输出的携带有发生故障的外接设备的物理位置的提示信息,使得工作人员可以方便、有效地进行服务器外接设备的故障定位。具体的,服务器中包括主板以及与主板连接的多块扩展卡,主板会将信息获取指令发送至各块扩展卡,任意一块扩展卡的信息获取装置在接收到信息获取指令之后,可以确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,也就是说,可以确定出各个扩展卡插槽在电路上是连接了哪个CPU端口,而设定的扩展卡插槽与物理位置之间的对应关系中,反映了扩展卡插槽与物理位置之间的对应关系,因此,结合该对应关系,便可以建立CPU的端口信息与相应物理位置之间的一一对应关系。将该对应关系反馈至主板进行记录,此后,如果出现外接设备故障的情况,根据发生故障的外接设备的CPU端口信息,以及此前记录下的该CPU的端口信息与相应物理位置之间的一一对应关系,便可以确定出发生故障的外接设备的物理位置,进而通过提示信息输出。可以看出,本申请的方案中,工作人员通过提示信息,可以直接确定出发生故障的外接设备的物理位置,也即本申请的方案可以方便、有效地进行服务器外接设备的故障定位,也就有利于提高故障处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为目前的Eagle Stream平台中一种2路服务器的结构示意图;
图1b为一种具体场合中2U服务器的8卡配置示意图;
图2为本发明中一种服务器的外接设备故障定位方法的实施流程图;
图3为本发明一种具体实施方式中的服务器结构示意图;
图4为本发明一种具体实施方式中两个PCA 9555芯片所连接的引脚示意图;
图5为本发明一种具体实施方式一种服务器的结构示意图。
具体实施方式
本发明的核心是提供一种服务器、主板及一种服务器的外接设备故障定位方法,可以方便、有效地进行服务器外接设备的故障定位,也就有利于提高故障处理效率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图2,图2为本发明中一种服务器的外接设备故障定位方法的实施流程图,服务器中包括主板以及与主板连接的多块扩展卡,该服务器的外接设备故障定位方法可以应用于主板中,包括以下步骤:
步骤S201:将信息获取指令发送至各块扩展卡,以使得任意一块扩展卡的信息获取装置在接收到信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,并按照设定的扩展卡插槽与物理位置之间的对应关系,确定出各个端口信息各自对应的物理位置并反馈至主板。
为了便于理解,后文中会结合图3和图4进行说明,图3为一种具体实施方式中的服务器结构示意图,图4则为一种具体实施方式中两个PCA 9555芯片所连接的引脚示意图。
具体的,主板可以将信息获取指令发送至各块扩展卡,具体的实现方式可以有多种,并不影响本发明的实施,只要使得各块扩展卡均能够成功接收到主板发送的信息获取指令即可。
例如各块扩展卡均挂载在同一总线上时,按照地址的不同,主板可以将信息获取指令依次发送至各块扩展卡。又如,如果不同的扩展卡挂载在不同的总线上,则主板可以通过相应总线,分别发送信息获取指令至相应的扩展卡。
以某一块扩展卡为例进行说明,本申请的方案中,在该扩展卡上配置了信息获取装置,该信息获取装置能够接收主板发送的信息获取指令,接收了信息获取指令之后,该信息获取装置可以确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,例如,信息获取装置通过检测相关引脚的电平状态,便可以确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息。
可以理解的是,得到了该扩展卡上的每一个插槽各自连接的CPU端口的端口信息之后,再根据扩展卡插槽与物理位置之间的对应关系,便可以确定出各个端口信息各自对应的物理位置,进而反馈给主板,也就是说,反馈给主板的数据,表示的是该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,与不同物理位置之间的对应关系。
步骤S202:接收各块扩展卡的反馈数据并记录;
每块扩展卡均会将自身的反馈数据发送给主板,主板会进行记录
步骤S203:当监测到任意一块扩展卡所连接的外接设备故障时,基于发生故障的外接设备的CPU端口信息以及记录下的各块扩展卡的反馈数据,得到发生故障的外接设备的物理位置;
步骤S204:输出携带有发生故障的外接设备的物理位置的提示信息。
主板可以进行每一个外接设备的故障监测,例如通过各个外接设备的日志实现监测。如果监测到某一块扩展卡所连接的某一个外接设备故障,则可以通过日志等信息,确定出发生故障的这一外接设备的CPU端口信息。该外接设备的CPU端口信息可以反映出该外接设备在电路上连接到了哪一个CPU端口,实际应用中,可以通过故障日志等方式确定出发生故障的外接设备的CPU端口信息。
得到了发生故障的这一外接设备的CPU端口信息之后,便需要进行物理位置的具体定位,此时,便可以基于此前记录下的各块扩展卡的反馈数据,也即基于此前记录下的每一块扩展卡上的每一个插槽各自连接的CPU端口的端口信息与相应物理位置之间的对应关系,便可以得知当前发生故障的这一外接设备的CPU端口信息所对应的物理位置。
得到了发生故障的外接设备的物理位置之后,便可以输出携带有发生故障的外接设备的物理位置的提示信息,使得工作人员通过查看该提示信息,便可以直接、方便地确定出外接设备的物理位置。
在本发明的一种具体实施方式中,主板中设置有N个切换开关、BMC以及处理装置,且均挂载在第一总线下;在默认状态下,BMC占用第一总线并通过N个切换开关分别与N块扩展卡通信连接;N为不小于2的正整数;
相应的,步骤S201中描述的将信息获取指令发送至各块扩展卡,可以具体包括:
处理装置向BMC发送第一申请指令以获取第一总线的占用权;
在获取了占用权之后,处理装置通过N个切换开关将信息获取指令依次发送至N块扩展卡;
相应的,步骤S202可以具体包括:
处理装置接收N块扩展卡的反馈数据并记录,并在记录完毕之后归还第一总线的占用权。
如上文的描述,主板将信息获取指令发送至各块扩展卡的具体实现方式有多种,根据实际需要进行选取即可。该种具体实施方式中则是考虑到,通常情况下,各块扩展卡均会与主板的BMC通信连接,因此,可以设置处理装置通过向BMC申请总线的占用权,使得该处理装置可以与各块扩展卡通信连接,进而便可以方便地将信息获取指令发送至各块扩展卡。
还需要说明的是,主板所接收的反馈数据,反映的是扩展卡插槽所连接的CPU端口的端口信息,与物理位置之间的对应关系,该对应关系不会频繁变化,甚至在很多情况下服务器安装完成之后就不变,因此,实际应用中,可以设置为每当服务器开机启动时,主板执行一次本申请的方案。
该种实施方式中,在默认状态下,BMC会占用第一总线并通过N个切换开关分别与N块扩展卡通信连接,例如BMC可以与N块扩展卡通信连接,实现扩展卡的状态监测等功能。
在服务器开机启动之后,处理装置可以向BMC发送第一申请指令,从而获取第一总线的占用权。可以理解的是,如果BMC当前正在与某块扩展卡进行通信,则BMC可以在通信完成之后,再触发ack信号,以告知处理装置可以接管第一总线。
由于该种实施方式中N个切换开关、BMC以及处理装置均挂载在第一总线下,因此,处理装置在获取了占用权之后,需要依次进行指令发送,即处理装置通过N个切换开关,将信息获取指令依次发送至N块扩展卡。处理装置后续在接收到N块扩展卡的反馈数据并记录之后,便可以归还第一总线的占用权给BMC。
该种实施方式中的处理装置可以是专门设置的硬件设备,进一步的,在本发明的一种具体实施方式中,考虑到主板上通常设置有PCH(Platform Controller Hub,集成南桥)与BMC通信连接,因此,实际应用中可以选择PCH来实现本申请的处理装置,有利于节约成本。
第一总线的具体类型可以根据需要进行设定和调整,实际应用中通常为I2C总线。
对于N个切换开关中的任意1个而言,该切换开关需要与BMC,处理装置以及扩展卡通信连接,因此可以使用支持2个主机1个从机的切换开关。例如当第一总线为I2C总线时,N个切换开关可以均为支持2个主机1个从机的I2C切换开关。
可参阅图3,为一种具体实施方式中的服务器结构示意图,在图3的实施方式中,处理装置便具体选取为PCH,N个切换开关则均使用PCA9641芯片来实现,PCA9641芯片是支持2个主机1个从机的I2C switch。当然,其他具体实施方式中,可以根据需要选用其他形式的处理装置以及N个切换开关。此外,图3示出了主板与扩展卡连接时,具体使用的是MCIO接口。
在本发明的一种具体实施方式中,任意一块扩展卡的信息获取装置在接收到信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,可以具体包括:
任意一块扩展卡的信息获取装置在接收到信息获取指令之后,基于获取到的该扩展卡的扩展卡ID,识别出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息;
其中,CPU端口的端口信息包括CPU的ID以及该CPU的端口编号。
如上文的描述,扩展卡的信息获取装置需要在接收到信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,通常可以基于相应引脚的电平状态实现。
该种实施方式考虑到,当扩展卡型号不同时,信息获取装置需要检测的引脚数量,以及通过各个引脚电平识别出各CPU端口的端口信息的具体规则会存在区别,因此,需要先获取到扩展卡的扩展卡ID。
例如图3的实施方式中,某一块扩展卡的信息获取装置包括2个PCA9555芯片。例如图4为一种具体实施方式中这两个PCA9555芯片所连接的引脚示意图,在图4中,是由第一PCA 9555芯片通过与自身连接的8个引脚的电平状态监控这张扩展卡的扩展卡ID。可以理解的是,扩展卡ID是唯一的,即不同的扩展卡具有的扩展卡ID不同。
可参阅图4,第一PCA 9555芯片可以检测到与自身连接的16个引脚的电平状态,第二PCA 9555芯片也可以检测到与自身连接的16个引脚的电平状态。基于获取到的该扩展卡的扩展卡ID,第一PCA9555芯片便可以确定IO_1_0至IO_1_7这8引脚各自的含义,例如图4的例子中,可以确定IO_1_0和IO_1_1这2个引脚的电平状态反映的是插槽Slot0所连接的CPU的ID,而IO_1_4至IO_1_7这4个引脚的电平状态反映的是插槽Slot0所连接的CPU的端口编号。
同样的,图4的实施方式中,通过图4的第二PCA 9555芯片的上部分的8个引脚,可以确定出该扩展卡的插槽Slot1所连接的CPU的ID以及该CPU的端口编号。而通过图4下部分的8个引脚,可以确定出该扩展卡的插槽SLOT2所连接的CPU的ID以及该CPU的端口编号。
该种实施方式中,CPU端口的端口信息包括CPU的ID以及该CPU的端口编号,这也是实际应用中较为常用的方式,当然,其他实施方式中可以使用其他形式的CPU端口信息,并不影响本发明的实施。
对于任意扩展卡而言,识别出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,相当于是建立了该扩展卡的各个插槽与相应的CPU端口信息之间的对应关系,即确定出了在电路上,该扩展卡的不同插槽分别连接了哪个CPU端口,之后,只需要确定出该扩展卡的不同插槽与相应物理位置之间的对应关系,便可以得到不同的CPU端口与相应物理位置之间的对应关系,得到的这些对应关系便是该扩展卡需要反馈给主板的反馈数据。
在本发明的一种具体实施方式中,在所设定的扩展卡插槽与物理位置之间的对应关系中,针对任一扩展卡插槽,通过该扩展卡插槽的插槽编号以及与该扩展卡插槽所连接的切换开关的总线地址,设定该扩展卡插槽与物理位置之间的对应关系;或者,通过该扩展卡插槽的插槽编号以及该扩展卡插槽所在的扩展卡的位置信号,设定该扩展卡插槽与物理位置之间的对应关系。
具体的,在设定扩展卡插槽与物理位置之间的对应关系时,可以由工作人员预先手动设定,也可以由扩展卡在检测相应信号之后进行设定,或者是由主板在检测相应信号之后进行设定并告知扩展卡。
例如该种实施方式中,考虑到扩展卡被放置在不同的物理位置时,可以使用不同的位置信号来表示,也就是说,通过扩展卡的位置信号,可以得知该扩展卡被放到了哪个物理位置上。例如一种场合中,检测到扩展卡的位置信号为00时,表示该扩展卡放置在服务器后窗的左侧第一列,而检测到扩展卡的位置信号为01时,表示该扩展卡放置在服务器后窗的左侧第二列,检测到扩展卡的位置信号为10时,表示该扩展卡放置在服务器后窗的左侧第三列。之后,结合扩展卡插槽的插槽编号,便可以设定扩展卡插槽与物理位置之间的对应关系。
例如一种场合中,检测到某块扩展卡的位置信号为00时,说明该扩展卡放置在服务器后窗的左侧第一列,则如果插槽编号为0,则该扩展卡插槽SLOT0对应的物理位置为:左侧第一列的底部位置,相应的,如果插槽编号为1,则该扩展卡插槽Slot1对应的物理位置为:左侧第一列的中部位置,如果插槽编号为2,则该扩展卡插槽Slot2对应的物理位置为:左侧第一列的顶部位置。可以理解的是,以插槽Slot0为例,插槽Slot0具体对应的是该场合中的底部位置还是中部位置还是顶部位置,可以预先进行设定,当然,在实际应用中,通常是按照从底部向顶部的顺序,进行插槽Slot0至插槽SlotK的顺序放置,此处的插槽SlotK表示该例子中扩展卡的插槽编号为0至K。
前述例子中,可以基于扩展卡的位置信号来设定扩展卡插槽与物理位置之间的对应关系,但是这样的实施方式需要设定金手指,使得扩展卡放置在不同物理位置时,可以检测到不同的位置信号。而在部分场合中,可能没有进行这样的金手指设置,则也可以按照与该扩展卡插槽所连接的切换开关的总线地址的不同,也即,按照与不同的扩展卡所连接的不同切换开关的总线地址,设定扩展卡插槽与物理位置之间的对应关系。
例如上文例子中,切换开关采用的是PCA9641芯片,不同的PCA9641芯片具有不同的I2C地址,例如某个扩展卡插槽所连接的切换开关的总线地址为A,也即该扩展卡插槽所在的扩展卡连接的切换开关的总线地址为A,便可以确定该扩展卡放置在服务器后窗的左侧第一列。
而如果某个扩展卡插槽所连接的切换开关的总线地址为B,也即该扩展卡插槽所在的扩展卡连接的切换开关的总线地址为B,便可以确定该扩展卡放置在服务器后窗的左侧第二列。
与前文同理,按照扩展卡插槽所连接的切换开关的总线地址,结合扩展卡插槽的插槽编号,便可以设定扩展卡插槽与物理位置之间的对应关系。
在本发明的一种具体实施方式中,每一块扩展卡中的信息获取装置均为GPIO扩展装置,在任意一块扩展卡中,该扩展卡中的GPIO扩展装置以及该扩展卡中的各个插槽均连接至具有多个切换通道的第一切换电路中,且该扩展卡中的第一切换电路与主板通信连接。
该种实施方式中,信息获取装置采用GPIO扩展装置时,可以有效地进行相应引脚的电平状态检测,从而获取到不同插槽各自连接的CPU端口的端口信息。
并且该种实施方式考虑到,扩展卡中设置有信息获取装置和多个插槽,主板既需要与信息获取装置实现通信,也需要与各个插槽通信,因此,在任意一块扩展卡中,该扩展卡中的信息获取装置以及该扩展卡中的各个插槽可以均连接至具有多个切换通道的第一切换电路中。
例如图3的实施方式中,第一切换电路具体采用的是PCA9546芯片,PCA9546芯片为I2C switch,主板通过I2C指令,可以切换到4个不同的I2C通道上。在图3中,在PCA9546芯片的第一个通道上设置有两个PCA 9555芯片,并且还设置有1个FRU以及1个温度传感器。而剩余的3个通道则分别连接插槽Slot0,插槽Slot1以及插槽Slot2。
本申请的方案中,主板需要监测各个外接设备的故障状态,具体的实现方式可以有多种,例如一种具体实施方式中,步骤S203描述的当监测到任意一块扩展卡所连接的外接设备故障时,可以具体包括:当通过BIOS监测到任意一块扩展卡所连接的外接设备故障时。也就是说,该种实施方式中,具体是通过BIOS监测各个外接设备的故障状态,例如通过日志实现监测。BIOS运行在PCH上,因此如果如上文的实施方式中,选取PCH作为处理装置时,则是由处理装置监测各个外接设备的故障情况。
此外,实际应用中,BIOS监测到外接设备故障时,还可以将监测结果发送至OS以及BMC。
本申请的方案中,需要输出携带有发生故障的外接设备的物理位置的提示信息,例如发生故障的外接设备的CPU端口信息为:CPU的ID为ID0,CPU的端口编号为PE2。而按照记录,这一CPU端口信息对应的物理位置例如为:服务器后窗左侧第一列的顶部位置。则该例子中,提示信息中需要携带有“服务器后窗左侧第一列的顶部位置”这一信息,当然,部分实施方式中,提示信息中还可以携带有更多的信息,以方便工作人员进行后续的故障处理。
此外,在进行提示信息的输出时,方式也有多种,考虑到工作人员查看该提示信息的便捷性,在本发明的一种具体实施方式中,输出携带有发生故障的外接设备的物理位置的提示信息,可以具体包括:
将携带有发生故障的外接设备的物理位置的提示信息发送至Web页面中进行显示。在Web页面中进行提示信息的显示,使得工作人员通过手机,电脑等电子设备便可以方便地进行提示信息的查看。
应用本发明实施例所提供的技术方案,通过所输出的携带有发生故障的外接设备的物理位置的提示信息,使得工作人员可以方便、有效地进行服务器外接设备的故障定位。具体的,服务器中包括主板以及与主板连接的多块扩展卡,主板会将信息获取指令发送至各块扩展卡,任意一块扩展卡的信息获取装置在接收到信息获取指令之后,可以确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,也就是说,可以确定出各个扩展卡插槽在电路上是连接了哪个CPU端口,而设定的扩展卡插槽与物理位置之间的对应关系中,反映了扩展卡插槽与物理位置之间的对应关系,因此,结合该对应关系,便可以建立CPU的端口信息与相应物理位置之间的一一对应关系。将该对应关系反馈至主板进行记录,此后,如果出现外接设备故障的情况,根据发生故障的外接设备的CPU端口信息,以及此前记录下的该CPU的端口信息与相应物理位置之间的一一对应关系,便可以确定出发生故障的外接设备的物理位置,进而通过提示信息输出。可以看出,本申请的方案中,工作人员通过提示信息,可以直接确定出发生故障的外接设备的物理位置,也即本申请的方案可以方便、有效地进行服务器外接设备的故障定位,也就有利于提高故障处理效率。
相应于上面的方法实施例,本发明实施例还提供了一种主板,可与上文相互对应参照。
该主板设置于服务器中,并与多块扩展卡连接,主板用于执行计算机程序以实现如上述任一实施例中的服务器的外接设备故障定位方法的步骤。
本发明实施例还提供了一种服务器,可与上文相互对应参照。服务器中包括如上述任一实施例中的主板,以及与主板连接的多块扩展卡。
例如,可参阅图5,该服务器包括:主板10以及与主板10连接的多块扩展卡20;
主板10用于:将信息获取指令发送至各块扩展卡20;接收各块扩展卡20的反馈数据并记录;当监测到任意一块扩展卡20所连接的外接设备故障时,基于发生故障的外接设备的CPU端口信息以及记录下的各块扩展卡20的反馈数据,得到发生故障的外接设备的物理位置,并输出携带有发生故障的外接设备的物理位置的提示信息。
任意一块扩展卡20的信息获取装置均用于:在接收到信息获取指令之后,确定出该扩展卡20上的每一个插槽各自连接的CPU端口的端口信息,并按照设定的扩展卡插槽与物理位置之间的对应关系,确定出各个端口信息各自对应的物理位置并反馈至主板10。
在图5的实施方式中,示出了3块扩展卡20。
在本发明的一种具体实施方式中,主板10中设置有N个切换开关、BMC以及处理装置,且均挂载在第一总线下;在默认状态下,BMC占用第一总线并通过N个切换开关分别与N块扩展卡20通信连接;N为不小于2的正整数;
处理装置用于:向BMC发送第一申请指令以获取第一总线的占用权,在获取了占用权之后,通过N个切换开关将信息获取指令依次发送至N块扩展卡20;接收N块扩展卡20的反馈数据并记录,并在记录完毕之后归还第一总线的占用权;当监测到任意一块扩展卡所连接的外接设备故障时,基于发生故障的外接设备的CPU端口信息以及记录下的各块所述扩展卡的反馈数据,得到发生故障的所述外接设备的物理位置。
在本发明的一种具体实施方式中,处理装置为PCH,第一总线为I2C总线,N个切换开关均为支持2个主机1个从机的I2C切换开关。
在本发明的一种具体实施方式中,在所设定的扩展卡插槽与物理位置之间的对应关系中,针对任一扩展卡插槽,通过该扩展卡插槽的插槽编号以及与该扩展卡插槽所连接的切换开关的总线地址,设定该扩展卡插槽与物理位置之间的对应关系;或者,通过该扩展卡插槽的插槽编号以及该扩展卡插槽所在的扩展卡20的位置信号,设定该扩展卡插槽与物理位置之间的对应关系。
在本发明的一种具体实施方式中,每一块扩展卡20中的信息获取装置均为GPIO扩展装置,在任意一块扩展卡20中,该扩展卡20中的GPIO扩展装置以及该扩展卡20中的各个插槽均连接至具有多个切换通道的第一切换电路中,且该扩展卡20中的第一切换电路与主板10通信连接。
在本发明的一种具体实施方式中,当主板10监测到任意一块扩展卡20所连接的外接设备故障时,具体包括:
当主板10通过BIOS监测到任意一块扩展卡20所连接的外接设备故障时。
在本发明的一种具体实施方式中,主板10输出携带有发生故障的外接设备的物理位置的提示信息,包括:
主板10将携带有发生故障的外接设备的物理位置的提示信息发送至Web页面中进行显示。
在本发明的一种具体实施方式中,任意一块扩展卡20的信息获取装置在接收到信息获取指令之后,确定出该扩展卡20上的每一个插槽各自连接的CPU端口的端口信息,包括:
任意一块扩展卡20的信息获取装置在接收到信息获取指令之后,基于获取到的该扩展卡20的扩展卡ID,识别出该扩展卡20上的每一个插槽各自连接的CPU端口的端口信息;
其中,CPU端口的端口信息包括CPU的ID以及该CPU的端口编号。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
Claims (10)
1.一种服务器的外接设备故障定位方法,其特征在于,所述服务器中包括主板以及与所述主板连接的多块扩展卡,所述服务器的外接设备故障定位方法应用于所述主板中,包括:
将信息获取指令发送至各块所述扩展卡,以使得任意一块扩展卡的信息获取装置在接收到所述信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,并按照设定的扩展卡插槽与物理位置之间的对应关系,确定出各个所述端口信息各自对应的物理位置并反馈至所述主板;
接收各块所述扩展卡的反馈数据并记录;
当监测到任意一块扩展卡所连接的外接设备故障时,基于发生故障的所述外接设备的CPU端口信息以及记录下的各块所述扩展卡的反馈数据,得到发生故障的所述外接设备的物理位置;
输出携带有发生故障的所述外接设备的物理位置的提示信息。
2.根据权利要求1所述的服务器的外接设备故障定位方法,其特征在于,所述主板中设置有N个切换开关、BMC以及处理装置,且均挂载在第一总线下;在默认状态下,所述BMC占用所述第一总线并通过N个所述切换开关分别与N块所述扩展卡通信连接;N为不小于2的正整数;
相应的,所述将信息获取指令发送至各块所述扩展卡,包括:
所述处理装置向BMC发送第一申请指令以获取所述第一总线的占用权;
在获取了占用权之后,所述处理装置通过N个切换开关将信息获取指令依次发送至N块所述扩展卡;
相应的,所述接收各块所述扩展卡的反馈数据并记录,包括:
所述处理装置接收N块所述扩展卡的反馈数据并记录,并在记录完毕之后归还所述第一总线的占用权。
3.根据权利要求2所述的服务器的外接设备故障定位方法,其特征在于,所述处理装置为PCH,所述第一总线为I2C总线,N个所述切换开关均为支持2个主机1个从机的I2C切换开关。
4.根据权利要求2所述的服务器的外接设备故障定位方法,其特征在于,在所设定的扩展卡插槽与物理位置之间的对应关系中,针对任一扩展卡插槽,通过该扩展卡插槽的插槽编号以及与该扩展卡插槽所连接的切换开关的总线地址,设定该扩展卡插槽与物理位置之间的对应关系;或者,通过该扩展卡插槽的插槽编号以及该扩展卡插槽所在的扩展卡的位置信号,设定该扩展卡插槽与物理位置之间的对应关系。
5.根据权利要求1所述的服务器的外接设备故障定位方法,其特征在于,每一块扩展卡中的所述信息获取装置均为GPIO扩展装置,在任意一块扩展卡中,该扩展卡中的所述GPIO扩展装置以及该扩展卡中的各个插槽均连接至具有多个切换通道的第一切换电路中,且该扩展卡中的所述第一切换电路与所述主板通信连接。
6.根据权利要求1所述的服务器的外接设备故障定位方法,其特征在于,当监测到任意一块扩展卡所连接的外接设备故障时,包括:
当通过BIOS监测到任意一块扩展卡所连接的外接设备故障时。
7.根据权利要求1所述的服务器的外接设备故障定位方法,其特征在于,所述输出携带有发生故障的所述外接设备的物理位置的提示信息,包括:
将携带有发生故障的所述外接设备的物理位置的提示信息发送至Web页面中进行显示。
8.根据权利要求1至7任一项所述的服务器的外接设备故障定位方法,其特征在于,任意一块扩展卡的信息获取装置在接收到所述信息获取指令之后,确定出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息,包括:
任意一块扩展卡的信息获取装置在接收到所述信息获取指令之后,基于获取到的该扩展卡的扩展卡ID,识别出该扩展卡上的每一个插槽各自连接的CPU端口的端口信息;
其中,CPU端口的端口信息包括CPU的ID以及该CPU的端口编号。
9.一种主板,其特征在于,所述主板设置于服务器中,并与多块扩展卡连接,所述主板用于执行计算机程序以实现如权利要求1至8任一项所述的服务器的外接设备故障定位方法的步骤。
10.一种服务器,其特征在于,包括如权利要求9所述的主板,以及与所述主板连接的多块扩展卡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310332349.4A CN116340068A (zh) | 2023-03-31 | 2023-03-31 | 一种服务器、主板及一种服务器的外接设备故障定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310332349.4A CN116340068A (zh) | 2023-03-31 | 2023-03-31 | 一种服务器、主板及一种服务器的外接设备故障定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340068A true CN116340068A (zh) | 2023-06-27 |
Family
ID=86892739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310332349.4A Pending CN116340068A (zh) | 2023-03-31 | 2023-03-31 | 一种服务器、主板及一种服务器的外接设备故障定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340068A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117687858A (zh) * | 2024-01-31 | 2024-03-12 | 苏州元脑智能科技有限公司 | 扩展卡的装配检测方法、系统、电子设备及可读存储介质 |
-
2023
- 2023-03-31 CN CN202310332349.4A patent/CN116340068A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117687858A (zh) * | 2024-01-31 | 2024-03-12 | 苏州元脑智能科技有限公司 | 扩展卡的装配检测方法、系统、电子设备及可读存储介质 |
CN117687858B (zh) * | 2024-01-31 | 2024-04-30 | 苏州元脑智能科技有限公司 | 扩展卡的装配检测方法、系统、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1204924B1 (en) | Diagnostic caged mode for testing redundant system controllers | |
US7715450B2 (en) | Sideband bus setting system and method thereof | |
US4729124A (en) | Diagnostic system | |
CN111289922B (zh) | 线缆插接检测方法及相关设备 | |
CN111124775A (zh) | 一种上电时序异常检测方法、装置、mcu及存储介质 | |
US20070022333A1 (en) | Testing of interconnects associated with memory cards | |
CN116340068A (zh) | 一种服务器、主板及一种服务器的外接设备故障定位方法 | |
WO2007133038A1 (en) | Apparatus and method for controlling power to usb device | |
CN211505789U (zh) | 一种pcie板卡测试装置 | |
CN111176913A (zh) | 一种检测服务器中Cable Port的电路和方法 | |
US8391162B2 (en) | Apparatus and method for testing SMNP cards | |
CN112650612A (zh) | 一种内存故障定位方法及装置 | |
CN116627729A (zh) | 外接线缆、外接线缆在位检测装置、开机自检方法及系统 | |
CN115729872A (zh) | 一种计算设备及pcie线缆连接的检测方法 | |
CN115098342A (zh) | 系统日志收集方法、系统、终端及存储介质 | |
TW202343237A (zh) | 資料中心安全控制模組及其控制方法 | |
CN211787062U (zh) | Mctp设备测试装置 | |
CN112596983A (zh) | 一种服务器内连接器的监测方法 | |
TWI234705B (en) | Detecting method for PCI system | |
CN218273375U (zh) | 基于ast2500的bmc管理模块及服务器系统 | |
CN114138540B (zh) | 一种多个相同板卡共用时的区分结构及方法 | |
CN212111668U (zh) | 快递柜测试治具 | |
JPH05134790A (ja) | ケーブルの誤接続防止回路 | |
CN115567429A (zh) | 一种列控中心系统的物理通道可用性的出厂检测方法 | |
CN115686896A (zh) | 扩展内存错误处理方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |