CN111176942A - 一种故障加速卡快速定位装置及故障加速卡快速定位方法 - Google Patents
一种故障加速卡快速定位装置及故障加速卡快速定位方法 Download PDFInfo
- Publication number
- CN111176942A CN111176942A CN201911356438.2A CN201911356438A CN111176942A CN 111176942 A CN111176942 A CN 111176942A CN 201911356438 A CN201911356438 A CN 201911356438A CN 111176942 A CN111176942 A CN 111176942A
- Authority
- CN
- China
- Prior art keywords
- gpu
- card
- pin
- vacant
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004806 packaging method and process Methods 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000004088 simulation Methods 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 239000003990 capacitor Substances 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3041—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/328—Computer systems status display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/40—Bus structure
- G06F13/4063—Device-to-bus coupling
- G06F13/409—Mechanical coupling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明涉及服务器技术领域,提供一种故障加速卡快速定位装置及故障加速卡快速定位方法,装置包括模拟卡;模拟卡包括一封装壳体和PCB板,封装壳体的结构与空缺GPU卡槽相适应,PCB板上设有I2C存储芯片和X16金手指,I2C存储芯片用于存储对应的GPU卡槽的预烧录信息,I2C存储芯片和X16金手指连接,X16金手指与GPU卡槽之间进行信号交互;当在空缺GPU卡槽插入模拟卡时,训练服务器GPU状态图显示空缺GPU卡槽已插入加速卡,从而实现预烧录信息与加速卡物理位置的统一,有效防止空白空缺GPU卡槽引起BMC识别乱序,快速有效的对故障加速卡进行定位,为运维管理员提供便利。
Description
技术领域
本发明属于服务器技术领域,尤其涉及一种故障加速卡快速定位装置及故障加速卡快速定位方法。
背景技术
随着AI人工智能在各行业的应用越来越多,AI训练,推理的服务器的应用保持300%的发展,主要应用于视频,语音,图像识别的程序的训练。为能快速的训练开发,训练完善的人工智能SDK,行业内集中使用NVIDIA的多个加速卡进行集群训练。
目前,AI训练服务器中有8个加速卡。在训练过程中,出现故障时AI服务器BMC报错,但不能正确定位故障加速卡的物理位置,导致定位故障板块困难,降低服务效率。
发明内容
针对现有技术中的缺陷,本发明提供了一种故障加速卡快速定位装置,旨在解决现有技术不能正确定位故障加速卡的物理位置,导致定位故障板块困难,降低服务效率的问题。
本发明所提供的技术方案是:一种故障加速卡快速定位装置,包括设置在训练服务器的空缺GPU卡槽上的模拟卡;
所述模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
作为一种改进的方案,所述X16金手指的I2C数据和时钟信号与所述I2C存储芯片的对应管脚连接;
所述X16金手指的3.3V电压信号、接地信号也分别与所述I2C存储芯片的对应管脚连接。
作为一种改进的方案,所述I2C存储芯片的型号为24LC64的64K大容量I2C串行存储芯片。
作为一种改进的方案,所述I2C存储芯片设有管脚VCC、管脚WP、管脚SCL、管脚SDA、管脚A0、管脚A1、管脚A2以及管脚GND;
其中,所述管脚SCL、管脚SDA分别通过SCL信号线、SDA信号线与所述X16金手指连接,所述管脚WP、管脚A0、管脚A1、管脚A2以及管脚GND分别接地,所述引脚VCC与所述PCB板的IOVDD端连接。
作为一种改进的方案,所述管脚SCL与所述X16金手指之间的所述SCL信号线上设有第一电路节点,所述第一电路节点引出的线路串接电阻R5后与所述IOVDD端连接;
所述管脚SDA与所述X16金手指之间的所述SDA信号线上设有第二电路节点,所述第二电路节点引出的线路串接电阻R6后与所述IOVDD端连接。
作为一种改进的方案,所述管脚A0、管脚A1、管脚A2以及管脚GND的接地线路依次接通。
作为一种改进的方案,所述管脚A0与管脚A1之间的接通线路上设有第三电路节点,所述第三电路节点引出的线路串接电容C23后与所述IOVDD端连接。
本发明的另一目的在于提供一种故障加速卡快速定位方法,所述方法包括下述步骤:
当在空缺的GPU卡槽上安装预先配置的模拟卡时,控制BMC通过I2C总线对包含所述模拟卡在内的所有加速卡进行预烧录信息的读取;
对读取到的所有预烧录信息进行解析,并根据对预烧录信息的解析,在训练服务器GPU状态图上显示所有GPU卡槽的状态,所述状态包括空缺、正常和故障。
作为一种改进的方案,所述方法包括下述步骤:
预先配置的模拟卡,所述模拟卡用于安装在训练服务器的空缺GPU卡槽上,且模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器的训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
在本发明实施例中,故障加速卡快速定位装置包括设置在训练服务器的空缺GPU卡槽上的模拟卡;模拟卡包括一封装壳体和设置在封装壳体内的PCB板,封装壳体的结构与空缺GPU卡槽相适应,PCB板上设有I2C存储芯片和X16金手指,I2C存储芯片用于存储对应的GPU卡槽的预烧录信息,I2C存储芯片和X16金手指连接,X16金手指与GPU卡槽之间进行信号交互;当在空缺GPU卡槽插入模拟卡时,训练服务器GPU状态图显示空缺GPU卡槽已插入加速卡,从而实现预烧录信息与加速卡物理位置的统一,有效防止空白空缺GPU卡槽引起BMC识别乱序,快速有效的对故障加速卡进行定位,为运维管理员提供便利。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1是本发明提供的故障加速卡快速定位装置的结构示意图;
图2是本发明提供的I2C存储芯片的电路图;
图3是本发明提供的训练服务器GPU状态图;
图4是本发明提供的故障加速卡快速定位方法的实现流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的、技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
图1示出了本发明提供的故障加速卡快速定位装置的结构示意图,为了便于说明,图中仅给出了与本发明实施例相关的部分。
故障加速卡快速定位装置包括设置在训练服务器的空缺GPU卡槽上的模拟卡;
所述模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片1和X16金手指,所述I2C存储芯片1用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片1和X16金手指2连接,所述X16金手指2与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡,其中,该训练服务器GPU状态图如图3所示。
在该实施例中,所述X16金手指2的I2C数据和时钟信号与所述I2C存储芯片1的对应管脚连接;
所述X16金手指2的3.3V电压信号、接地信号也分别与所述I2C存储芯片1的对应管脚连接。
同时,I2C存储芯片1的型号为24LC64的64K大容量I2C串行存储芯片,如图2所示,该I2C存储芯片1设有管脚VCC、管脚WP、管脚SCL、管脚SDA、管脚A0、管脚A1、管脚A2以及管脚GND;
其中,所述管脚SCL、管脚SDA分别通过SCL信号线、SDA信号线与所述X16金手指2连接,所述管脚WP、管脚A0、管脚A1、管脚A2以及管脚GND分别接地,所述引脚VCC与所述PCB板的IOVDD端连接;
在该实施例中,24LC64的64K大容量I2C串行存储芯片具有温度系数好(-40℃ to+125℃),容量大,价格便宜等优点,并且具有3个可以定制的地址管脚方便多个芯片在一个系统中区分地址避免通信混乱,即:为了避免I2C的地址重复造成通信混乱,也在芯片的三个地址管脚(A0-A2)可以设置为高电平或者接地从而设定芯片的I2C地址。
在该实施例中,所述管脚SCL与所述X16金手指2之间的所述SCL信号线上设有第一电路节点3,所述第一电路节点3引出的线路串接电阻R5后与所述IOVDD端连接;
所述管脚SDA与所述X16金手指2之间的所述SDA信号线上设有第二电路节点4,所述第二电路节点4引出的线路串接电阻R6后与所述IOVDD端连接;
所述管脚A0、管脚A1、管脚A2以及管脚GND的接地线路依次接通;
所述管脚A0与管脚A1之间的接通线路上设有第三电路节点5,所述第三电路节点5引出的线路串接电容C23后与所述IOVDD端连接。
上述仅给出了其中一种I2C存储芯片1的实现方式,当然也可以采用其他方式,在此不再赘述。
在本发明实施例中,图4示出了本发明提供的故障加速卡快速定位方法的实现流程图,其具体包括下述步骤:
在步骤S101中,当在空缺的GPU卡槽上安装预先配置的模拟卡时,控制BMC通过I2C总线对包含所述模拟卡在内的所有加速卡进行预烧录信息的读取;
在步骤S102中,对读取到的所有预烧录信息进行解析,并根据对预烧录信息的解析,在训练服务器GPU状态图上显示所有GPU卡槽的状态,所述状态包括空缺、正常和故障。
其中,该模拟卡的结构如上图1所示,在此不再赘述。
在图3所示的训练服务器GPU状态图上,处于空缺状态、正常状态和故障状态的GPU卡槽分别用不同的颜色进行标识,以便进行运维管理。
在本发明实施例中,故障加速卡快速定位装置及故障加速卡快速定位方法,装置包括模拟卡;模拟卡包括一封装壳体和PCB板,封装壳体的结构与空缺GPU卡槽相适应,PCB板上设有I2C存储芯片1和X16金手指2,I2C存储芯片1用于存储对应的GPU卡槽的预烧录信息,I2C存储芯片1和X16金手指2连接,X16金手指2与GPU卡槽之间进行信号交互;当在空缺GPU卡槽插入模拟卡时,训练服务器GPU状态图显示空缺GPU卡槽已插入加速卡,从而实现预烧录信息与加速卡物理位置的统一,有效防止空白空缺GPU卡槽引起BMC识别乱序,快速有效的对故障加速卡进行定位,为运维管理员提供便利。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (9)
1.一种故障加速卡快速定位装置,其特征在于,包括设置在训练服务器的空缺GPU卡槽上的模拟卡;
所述模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
2.根据权利要求1所述的故障加速卡快速定位装置,其特征在于,所述X16金手指的I2C数据和时钟信号与所述I2C存储芯片的对应管脚连接;
所述X16金手指的3.3V电压信号、接地信号也分别与所述I2C存储芯片的对应管脚连接。
3.根据权利要求2所述的故障加速卡快速定位装置,其特征在于,所述I2C存储芯片的型号为24LC64的64K大容量I2C串行存储芯片。
4.根据权利要求3所述的故障加速卡快速定位装置,其特征在于,所述I2C存储芯片设有管脚VCC、管脚WP、管脚SCL、管脚SDA、管脚A0、管脚A1、管脚A2以及管脚GND;
其中,所述管脚SCL、管脚SDA分别通过SCL信号线、SDA信号线与所述X16金手指连接,所述管脚WP、管脚A0、管脚A1、管脚A2以及管脚GND分别接地,所述引脚VCC与所述PCB板的IOVDD端连接。
5.根据权利要求4所述的故障加速卡快速定位装置,其特征在于,所述管脚SCL与所述X16金手指之间的所述SCL信号线上设有第一电路节点,所述第一电路节点引出的线路串接电阻R5后与所述IOVDD端连接;
所述管脚SDA与所述X16金手指之间的所述SDA信号线上设有第二电路节点,所述第二电路节点引出的线路串接电阻R6后与所述IOVDD端连接。
6.根据权利要求5所述的故障加速卡快速定位装置,其特征在于,所述管脚A0、管脚A1、管脚A2以及管脚GND的接地线路依次接通。
7.根据权利要求6所述的故障加速卡快速定位装置,其特征在于,所述管脚A0与管脚A1之间的接通线路上设有第三电路节点,所述第三电路节点引出的线路串接电容C23后与所述IOVDD端连接。
8.一种故障加速卡快速定位方法,其特征在于,所述方法包括下述步骤:
当在空缺的GPU卡槽上安装预先配置的模拟卡时,控制BMC通过I2C总线对包含所述模拟卡在内的所有加速卡进行预烧录信息的读取;
对读取到的所有预烧录信息进行解析,并根据对预烧录信息的解析,在训练服务器GPU状态图上显示所有GPU卡槽的状态,所述状态包括空缺、正常和故障。
9.根据权利要求8所述的故障加速卡快速定位方法,其特征在于,所述方法包括下述步骤:
预先配置的模拟卡,所述模拟卡用于安装在训练服务器的空缺GPU卡槽上,且模拟卡包括一封装壳体和设置在所述封装壳体内的PCB板,所述封装壳体的结构与所述空缺GPU卡槽相适应,所述PCB板上设有I2C存储芯片和X16金手指,所述I2C存储芯片用于存储对应的所述GPU卡槽的预烧录信息,所述I2C存储芯片和X16金手指连接,所述X16金手指与所述GPU卡槽之间进行信号交互;
当在所述空缺GPU卡槽插入所述模拟卡时,所述训练服务器的训练服务器GPU状态图显示所述空缺GPU卡槽已插入加速卡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356438.2A CN111176942A (zh) | 2019-12-25 | 2019-12-25 | 一种故障加速卡快速定位装置及故障加速卡快速定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356438.2A CN111176942A (zh) | 2019-12-25 | 2019-12-25 | 一种故障加速卡快速定位装置及故障加速卡快速定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111176942A true CN111176942A (zh) | 2020-05-19 |
Family
ID=70622484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911356438.2A Withdrawn CN111176942A (zh) | 2019-12-25 | 2019-12-25 | 一种故障加速卡快速定位装置及故障加速卡快速定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111176942A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112272122A (zh) * | 2020-10-14 | 2021-01-26 | 北京中科网威信息技术有限公司 | Fpga加速卡检测方法、装置及可读存储介质 |
-
2019
- 2019-12-25 CN CN201911356438.2A patent/CN111176942A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112272122A (zh) * | 2020-10-14 | 2021-01-26 | 北京中科网威信息技术有限公司 | Fpga加速卡检测方法、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423169B (zh) | 用于测试高速外围设备互连设备的方法和系统 | |
US6002638A (en) | Memory device having a switchable clock output and method therefor | |
CN103076858A (zh) | 扩展卡及支持所述扩展卡的主板 | |
CN105701044A (zh) | 电子装置 | |
EP0088591A3 (en) | On board memory for multi component manufacturing products | |
US6751740B1 (en) | Method and system for using a combined power detect and presence detect signal to determine if a memory module is connected and receiving power | |
CN112069766A (zh) | 一种服务器内减少硬盘背板线缆的方法及装置 | |
CN112579382A (zh) | 一种NVMe固态硬盘坏块解析方法、装置、终端及存储介质 | |
JPH07306922A (ja) | Icメモリカードおよびそのicメモリカードの検査方法 | |
JP2007265391A (ja) | 無線周波数インターフェースを含んだ電子サブシステムアセンブリ | |
CN111176942A (zh) | 一种故障加速卡快速定位装置及故障加速卡快速定位方法 | |
CN113190395B (zh) | 一种状态监控方法及装置 | |
CN101354673B (zh) | 内存之spd芯片错误信息仿真装置 | |
CN108491299A (zh) | 一种信号检测板卡以及用于信号检测的主板 | |
CN114691573A (zh) | 一种硬件识别电路、方法及相关设备 | |
CN116662042A (zh) | 内存装置及其工作方法、计算机可读存储介质及设备 | |
CN103366830A (zh) | 存储卡的测试装置 | |
CN114443445A (zh) | 硬盘点灯方法、装置、电子设备及存储介质 | |
US7119708B2 (en) | Apparatus and method for providing visual and hardware addressing information | |
CN102610276A (zh) | Smbus接口存储芯片烧录装置 | |
CN101963823B (zh) | 服务器装置 | |
CN213814665U (zh) | 一种双控存储设备vpd信息写入结构 | |
JP2870001B2 (ja) | 論理回路パッケージ | |
Nan et al. | Design and development of module management controller for MicroTCA. 4 standard | |
CN220773504U (zh) | 一种可延长服务器寿命的测试平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200519 |
|
WW01 | Invention patent application withdrawn after publication |