CN111176942A - 一种故障加速卡快速定位装置及故障加速卡快速定位方法 - Google Patents

一种故障加速卡快速定位装置及故障加速卡快速定位方法 Download PDF

Info

Publication number
CN111176942A
CN111176942A CN201911356438.2A CN201911356438A CN111176942A CN 111176942 A CN111176942 A CN 111176942A CN 201911356438 A CN201911356438 A CN 201911356438A CN 111176942 A CN111176942 A CN 111176942A
Authority
CN
China
Prior art keywords
gpu
card
pin
vacant
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911356438.2A
Other languages
English (en)
Inventor
杨智军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911356438.2A priority Critical patent/CN111176942A/zh
Publication of CN111176942A publication Critical patent/CN111176942A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/409Mechanical coupling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明涉及服务器技术领域,提供一种故障加速卡快速定位装置及故障加速卡快速定位方法,装置包括模拟卡;模拟卡包括一封装壳体和PCB板,封装壳体的结构与空缺GPU卡槽相适应,PCB板上设有I2C存储芯片和X16金手指,I2C存储芯片用于存储对应的GPU卡槽的预烧录信息,I2C存储芯片和X16金手指连接,X16金手指与GPU卡槽之间进行信号交互;当在空缺GPU卡槽插入模拟卡时,训练服务器GPU状态图显示空缺GPU卡槽已插入加速卡,从而实现预烧录信息与加速卡物理位置的统一,有效防止空白空缺GPU卡槽引起BMC识别乱序,快速有效的对故障加速卡进行定位,为运维管理员提供便利。

Description

一种故障加速卡快速定位装置及故障加速卡快速定位方法
技术领域
本发明属于服务器技术领域,尤其涉及一种故障加速卡快速定位装置及故障加速卡快速定位方法。
背景技术
随着AI人工智能在各行业的应用越来越多,AI训练,推理的服务器的应用保持300%的发展,主要应用于视频,语音,图像识别的程序的训练。为能快速的训练开发,训练完善的人工智能SDK,行业内集中使用NVIDIA的多个加速卡进行集群训练。
目前,AI训练服务器中有8个加速卡。在训练过程中,出现故障时AI服务器BMC报错,但不能正确定位故障加速卡的物理位置,导致定位故障板块困难,降低服务效率。
发明内容
针对现有技术中的缺陷,本发明提供了一种故障加速卡快速定位装置,旨在解决现有技术不能正确定位故障加速卡的物理位置,导致定位故障板块困难,降低服务效率的问题。
本发明所提供的技术方案是:一种故障加速卡快速定位装置,包括设置在训练服务器的空缺GPU卡槽上的模拟卡;
所述模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
作为一种改进的方案,所述X16金手指的I2C数据和时钟信号与所述I2C存储芯片的对应管脚连接;
所述X16金手指的3.3V电压信号、接地信号也分别与所述I2C存储芯片的对应管脚连接。
作为一种改进的方案,所述I2C存储芯片的型号为24LC64的64K大容量I2C串行存储芯片。
作为一种改进的方案,所述I2C存储芯片设有管脚VCC、管脚WP、管脚SCL、管脚SDA、管脚A0、管脚A1、管脚A2以及管脚GND;
其中,所述管脚SCL、管脚SDA分别通过SCL信号线、SDA信号线与所述X16金手指连接,所述管脚WP、管脚A0、管脚A1、管脚A2以及管脚GND分别接地,所述引脚VCC与所述PCB板的IOVDD端连接。
作为一种改进的方案,所述管脚SCL与所述X16金手指之间的所述SCL信号线上设有第一电路节点,所述第一电路节点引出的线路串接电阻R5后与所述IOVDD端连接;
所述管脚SDA与所述X16金手指之间的所述SDA信号线上设有第二电路节点,所述第二电路节点引出的线路串接电阻R6后与所述IOVDD端连接。
作为一种改进的方案,所述管脚A0、管脚A1、管脚A2以及管脚GND的接地线路依次接通。
作为一种改进的方案,所述管脚A0与管脚A1之间的接通线路上设有第三电路节点,所述第三电路节点引出的线路串接电容C23后与所述IOVDD端连接。
本发明的另一目的在于提供一种故障加速卡快速定位方法,所述方法包括下述步骤:
当在空缺的GPU卡槽上安装预先配置的模拟卡时,控制BMC通过I2C总线对包含所述模拟卡在内的所有加速卡进行预烧录信息的读取;
对读取到的所有预烧录信息进行解析,并根据对预烧录信息的解析,在训练服务器GPU状态图上显示所有GPU卡槽的状态,所述状态包括空缺、正常和故障。
作为一种改进的方案,所述方法包括下述步骤:
预先配置的模拟卡,所述模拟卡用于安装在训练服务器的空缺GPU卡槽上,且模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器的训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
在本发明实施例中,故障加速卡快速定位装置包括设置在训练服务器的空缺GPU卡槽上的模拟卡;模拟卡包括一封装壳体和设置在封装壳体内的PCB板,封装壳体的结构与空缺GPU卡槽相适应,PCB板上设有I2C存储芯片和X16金手指,I2C存储芯片用于存储对应的GPU卡槽的预烧录信息,I2C存储芯片和X16金手指连接,X16金手指与GPU卡槽之间进行信号交互;当在空缺GPU卡槽插入模拟卡时,训练服务器GPU状态图显示空缺GPU卡槽已插入加速卡,从而实现预烧录信息与加速卡物理位置的统一,有效防止空白空缺GPU卡槽引起BMC识别乱序,快速有效的对故障加速卡进行定位,为运维管理员提供便利。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1是本发明提供的故障加速卡快速定位装置的结构示意图;
图2是本发明提供的I2C存储芯片的电路图;
图3是本发明提供的训练服务器GPU状态图;
图4是本发明提供的故障加速卡快速定位方法的实现流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的、技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
图1示出了本发明提供的故障加速卡快速定位装置的结构示意图,为了便于说明,图中仅给出了与本发明实施例相关的部分。
故障加速卡快速定位装置包括设置在训练服务器的空缺GPU卡槽上的模拟卡;
所述模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片1和X16金手指,所述I2C存储芯片1用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片1和X16金手指2连接,所述X16金手指2与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡,其中,该训练服务器GPU状态图如图3所示。
在该实施例中,所述X16金手指2的I2C数据和时钟信号与所述I2C存储芯片1的对应管脚连接;
所述X16金手指2的3.3V电压信号、接地信号也分别与所述I2C存储芯片1的对应管脚连接。
同时,I2C存储芯片1的型号为24LC64的64K大容量I2C串行存储芯片,如图2所示,该I2C存储芯片1设有管脚VCC、管脚WP、管脚SCL、管脚SDA、管脚A0、管脚A1、管脚A2以及管脚GND;
其中,所述管脚SCL、管脚SDA分别通过SCL信号线、SDA信号线与所述X16金手指2连接,所述管脚WP、管脚A0、管脚A1、管脚A2以及管脚GND分别接地,所述引脚VCC与所述PCB板的IOVDD端连接;
在该实施例中,24LC64的64K大容量I2C串行存储芯片具有温度系数好(-40℃ to+125℃),容量大,价格便宜等优点,并且具有3个可以定制的地址管脚方便多个芯片在一个系统中区分地址避免通信混乱,即:为了避免I2C的地址重复造成通信混乱,也在芯片的三个地址管脚(A0-A2)可以设置为高电平或者接地从而设定芯片的I2C地址。
在该实施例中,所述管脚SCL与所述X16金手指2之间的所述SCL信号线上设有第一电路节点3,所述第一电路节点3引出的线路串接电阻R5后与所述IOVDD端连接;
所述管脚SDA与所述X16金手指2之间的所述SDA信号线上设有第二电路节点4,所述第二电路节点4引出的线路串接电阻R6后与所述IOVDD端连接;
所述管脚A0、管脚A1、管脚A2以及管脚GND的接地线路依次接通;
所述管脚A0与管脚A1之间的接通线路上设有第三电路节点5,所述第三电路节点5引出的线路串接电容C23后与所述IOVDD端连接。
上述仅给出了其中一种I2C存储芯片1的实现方式,当然也可以采用其他方式,在此不再赘述。
在本发明实施例中,图4示出了本发明提供的故障加速卡快速定位方法的实现流程图,其具体包括下述步骤:
在步骤S101中,当在空缺的GPU卡槽上安装预先配置的模拟卡时,控制BMC通过I2C总线对包含所述模拟卡在内的所有加速卡进行预烧录信息的读取;
在步骤S102中,对读取到的所有预烧录信息进行解析,并根据对预烧录信息的解析,在训练服务器GPU状态图上显示所有GPU卡槽的状态,所述状态包括空缺、正常和故障。
其中,该模拟卡的结构如上图1所示,在此不再赘述。
在图3所示的训练服务器GPU状态图上,处于空缺状态、正常状态和故障状态的GPU卡槽分别用不同的颜色进行标识,以便进行运维管理。
在本发明实施例中,故障加速卡快速定位装置及故障加速卡快速定位方法,装置包括模拟卡;模拟卡包括一封装壳体和PCB板,封装壳体的结构与空缺GPU卡槽相适应,PCB板上设有I2C存储芯片1和X16金手指2,I2C存储芯片1用于存储对应的GPU卡槽的预烧录信息,I2C存储芯片1和X16金手指2连接,X16金手指2与GPU卡槽之间进行信号交互;当在空缺GPU卡槽插入模拟卡时,训练服务器GPU状态图显示空缺GPU卡槽已插入加速卡,从而实现预烧录信息与加速卡物理位置的统一,有效防止空白空缺GPU卡槽引起BMC识别乱序,快速有效的对故障加速卡进行定位,为运维管理员提供便利。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (9)

1.一种故障加速卡快速定位装置,其特征在于,包括设置在训练服务器的空缺GPU卡槽上的模拟卡;
所述模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
2.根据权利要求1所述的故障加速卡快速定位装置,其特征在于,所述X16金手指的I2C数据和时钟信号与所述I2C存储芯片的对应管脚连接;
所述X16金手指的3.3V电压信号、接地信号也分别与所述I2C存储芯片的对应管脚连接。
3.根据权利要求2所述的故障加速卡快速定位装置,其特征在于,所述I2C存储芯片的型号为24LC64的64K大容量I2C串行存储芯片。
4.根据权利要求3所述的故障加速卡快速定位装置,其特征在于,所述I2C存储芯片设有管脚VCC、管脚WP、管脚SCL、管脚SDA、管脚A0、管脚A1、管脚A2以及管脚GND;
其中,所述管脚SCL、管脚SDA分别通过SCL信号线、SDA信号线与所述X16金手指连接,所述管脚WP、管脚A0、管脚A1、管脚A2以及管脚GND分别接地,所述引脚VCC与所述PCB板的IOVDD端连接。
5.根据权利要求4所述的故障加速卡快速定位装置,其特征在于,所述管脚SCL与所述X16金手指之间的所述SCL信号线上设有第一电路节点,所述第一电路节点引出的线路串接电阻R5后与所述IOVDD端连接;
所述管脚SDA与所述X16金手指之间的所述SDA信号线上设有第二电路节点,所述第二电路节点引出的线路串接电阻R6后与所述IOVDD端连接。
6.根据权利要求5所述的故障加速卡快速定位装置,其特征在于,所述管脚A0、管脚A1、管脚A2以及管脚GND的接地线路依次接通。
7.根据权利要求6所述的故障加速卡快速定位装置,其特征在于,所述管脚A0与管脚A1之间的接通线路上设有第三电路节点,所述第三电路节点引出的线路串接电容C23后与所述IOVDD端连接。
8.一种故障加速卡快速定位方法,其特征在于,所述方法包括下述步骤:
当在空缺的GPU卡槽上安装预先配置的模拟卡时,控制BMC通过I2C总线对包含所述模拟卡在内的所有加速卡进行预烧录信息的读取;
对读取到的所有预烧录信息进行解析,并根据对预烧录信息的解析,在训练服务器GPU状态图上显示所有GPU卡槽的状态,所述状态包括空缺、正常和故障。
9.根据权利要求8所述的故障加速卡快速定位方法,其特征在于,所述方法包括下述步骤:
预先配置的模拟卡,所述模拟卡用于安装在训练服务器的空缺GPU卡槽上,且模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器的训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
CN201911356438.2A 2019-12-25 2019-12-25 一种故障加速卡快速定位装置及故障加速卡快速定位方法 Withdrawn CN111176942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911356438.2A CN111176942A (zh) 2019-12-25 2019-12-25 一种故障加速卡快速定位装置及故障加速卡快速定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911356438.2A CN111176942A (zh) 2019-12-25 2019-12-25 一种故障加速卡快速定位装置及故障加速卡快速定位方法

Publications (1)

Publication Number Publication Date
CN111176942A true CN111176942A (zh) 2020-05-19

Family

ID=70622484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911356438.2A Withdrawn CN111176942A (zh) 2019-12-25 2019-12-25 一种故障加速卡快速定位装置及故障加速卡快速定位方法

Country Status (1)

Country Link
CN (1) CN111176942A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112272122A (zh) * 2020-10-14 2021-01-26 北京中科网威信息技术有限公司 Fpga加速卡检测方法、装置及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112272122A (zh) * 2020-10-14 2021-01-26 北京中科网威信息技术有限公司 Fpga加速卡检测方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN107423169B (zh) 用于测试高速外围设备互连设备的方法和系统
US6002638A (en) Memory device having a switchable clock output and method therefor
CN103076858A (zh) 扩展卡及支持所述扩展卡的主板
CN105701044A (zh) 电子装置
EP0088591A3 (en) On board memory for multi component manufacturing products
US6751740B1 (en) Method and system for using a combined power detect and presence detect signal to determine if a memory module is connected and receiving power
CN112069766A (zh) 一种服务器内减少硬盘背板线缆的方法及装置
CN112579382A (zh) 一种NVMe固态硬盘坏块解析方法、装置、终端及存储介质
JPH07306922A (ja) Icメモリカードおよびそのicメモリカードの検査方法
JP2007265391A (ja) 無線周波数インターフェースを含んだ電子サブシステムアセンブリ
CN111176942A (zh) 一种故障加速卡快速定位装置及故障加速卡快速定位方法
CN113190395B (zh) 一种状态监控方法及装置
CN101354673B (zh) 内存之spd芯片错误信息仿真装置
CN108491299A (zh) 一种信号检测板卡以及用于信号检测的主板
CN114691573A (zh) 一种硬件识别电路、方法及相关设备
CN116662042A (zh) 内存装置及其工作方法、计算机可读存储介质及设备
CN103366830A (zh) 存储卡的测试装置
CN114443445A (zh) 硬盘点灯方法、装置、电子设备及存储介质
US7119708B2 (en) Apparatus and method for providing visual and hardware addressing information
CN102610276A (zh) Smbus接口存储芯片烧录装置
CN101963823B (zh) 服务器装置
CN213814665U (zh) 一种双控存储设备vpd信息写入结构
JP2870001B2 (ja) 論理回路パッケージ
Nan et al. Design and development of module management controller for MicroTCA. 4 standard
CN220773504U (zh) 一种可延长服务器寿命的测试平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200519

WW01 Invention patent application withdrawn after publication