CN112069002B - 一种服务器热插拔调试装置及方法 - Google Patents
一种服务器热插拔调试装置及方法 Download PDFInfo
- Publication number
- CN112069002B CN112069002B CN202010822316.4A CN202010822316A CN112069002B CN 112069002 B CN112069002 B CN 112069002B CN 202010822316 A CN202010822316 A CN 202010822316A CN 112069002 B CN112069002 B CN 112069002B
- Authority
- CN
- China
- Prior art keywords
- debugging
- connector
- board
- bmc
- cpld
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000004891 communication Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 208000031769 type 15 pontocerebellar hypoplasia Diseases 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
- G06F11/221—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/40—Bus structure
- G06F13/4063—Device-to-bus coupling
- G06F13/4068—Electrical coupling
- G06F13/4081—Live connection to bus, e.g. hot-plugging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提出了一种服务器热插拔调试装置,包括主板以及调试板,所述BMC的远程调试端与XDP连接器通过第一切换模块共用一条线路与PCH连接;所述DB9串口连接器用于获取服务器运行信息;所述CPLD JTAG连接器用于对CPLD的固件进行烧录更新以及调试;所述ME调试连接器用于对主板ME进行通信调试;所述CPLD获取调试板的在位信息,控制调试板的连接器使能,用于实现调试板在热插拔时无漏电,本发明还提出了一种服务器热插拔调试方法,有效的提高了服务器调试的高效性以及稳定性,通过两种热插拔设计均实现了可以不断电直接插接调试板进行调试。
Description
技术领域
本发明涉及服务器调试领域,尤其是涉及一种服务器热插拔调试装置及方法。
背景技术
处于研发阶段的服务器产品因其设计需求会布局CPU(Central ProcessingUnit,中央处理器)、ME(Management Engine,管理引擎)等DB9串口(D型数据接口连接器)、网口及CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)JTAG(JointTest Action Group,联合测试工作做)连接器等,来实现研发过程中异常事件的问题抓取,原因分析及固件烧录等功能,我们将这些连接器统称为debug(调试)连接器。而这些连接器往往在进入量产阶段后就不再需要,需要删除以精简设计。
目前研发采用的方式一般为直接将各个debug连接器布局在主板上,且布局比较分散,一般为方便布线将XDP(蓝盒子调试工具)连接器靠近PCH(Platform ControllerHub,平台控制器中心)或BMC(Baseboard Manager Controller,基板管理控制器),将CPLDJTAG连接器靠近CPLD,待研发阶段结束进入量产后,直接将这些debug连接器去掉,保留原有的布线。
但是,debug连接器比较分散得分布在主板上,进行整机测试时,如果需要抓取log(日志)或升级固件版本就必须要打开机箱,给测试人员的工作造成一定难度,而且分散布局会占用板卡一定面积,造成一定空间浪费且增大了量产成本,在机箱内进行整机测试时,如果出现宕机等需要抓取debug日志的问题时,因为XDP连接器的布局位置靠近Riser卡的PCIE(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)slot(插槽),如果测试时Riser卡在位且连接了PCIE网卡,就会导致XDP连接器处空间狭小,给插接XDP接头造成很大困难,且很容易误触PCIE网卡造成宕机现象消失或抓取日志不准确的问题,这会导致无法精确进行宕机问题的根因分析,不利于降低服务器研发、生产成本以及服务器故障调试定位等。
发明内容
本发明为了解决现有技术中存在的问题,创新提出了一种服务器热插拔调试装置及方法,有效解决由于现有技术造成服务器研发生成成本高、不利于服务器故障调试定位的问题,有效的提高了服务器调试的高效性以及稳定性,通过热插拔设计实现了可以不断电直接插接调试板进行调试。
本发明第一方面提供了一种服务器热插拔调试装置,包括主板以及调试板,所述主板包括ME、BMC、CPLD、CPU、PCH、第一切换模块,所述调试板包括XDP连接器、DB9串口连接器、CPLD JTAG连接器、ME调试连接器,所述主板通过板端连接器与调试板连接,所述BMC的远程调试端与XDP连接器通过第一切换模块共用一条线路与PCH连接,所述PCH通信端与CPU通信连接;所述CPLD的数据读取端与BMC连接,DB9串口连接器通过板端连接器与主板的CPLD连接,用于获取服务器运行信息;所述CPLD JTAG连接器与主板中CPLD的固件升级控制端连接,用于对CPLD的固件进行烧录更新以及调试;所述ME调试连接器与主板ME通信连接,用于对主板ME进行通信调试;所述CPLD获取调试板的在位信息,控制调试板的连接器使能,用于实现调试板在热插拔时无漏电。
可选地,所述CPLD获取调试板的在位信息,控制调试板的连接器使能具体实现方式是:CPLD获取调试板的在位信号,当调试板在位时,CPLD控制主板中的ME、BMC、CPLD、CPU、PCH的调试端使能。
可选地是,所述主板还包括电源控制芯片,所述电源控制芯片的电源输出端与调试板的电源输入端连接,所述电源控制芯片的使能端与CPLD的控制端连接,所述CPLD获取调试板的在位信息,控制调试板的连接器使能具体实现方式是:CPLD获取调试板的在位信号,当调试板在位时,控制电源控制芯片使能为调试板提供电源。
可选地,调试板还包括:ME复位连接器以及BMC复位连接器,所述ME复位连接器与主板ME的复位控制端连接,用于实现主板ME的复位;所述BMC复位连接器与主板BMC的复位控制端连接,用于实现主板BMC的复位。
可选地,主板还包括第二切换模块,所述CPLD、BMC通过第二切换模块与调试板中的DB9串口连接器通信连接,所述ME通过第二切换模块与ME调试连接器连接。
可选地,主板还包括与门逻辑电路,所述第一切换模块的切换端与与门逻辑电路的输出端连接,所述与门逻辑电路的第一输入端与调试板XDP连接器的在位信号输出端连接,所述与门逻辑电路的第二输入端一路与调试板的在位信号输入端连接,另一路与上拉电源连接。
进一步地,所述第一切换模块通过板端连接器与XDP连接器连接,默认与PCH通信连接的是BMC的远程调试端,用于防止漏电以及隔离调试板中的静电干扰。
可选地是,所述第一切换模块为switch芯片。
本发明第二方面提供了一种服务器热插拔调试方法,基于本发明第一方面所述的服务器热插拔调试装置的基础上实现的,包括:
服务器宕机时,将调试板插入主板中,通过XDP连接器获取故障日志;
根据故障日志定位故障原因是否是软件问题,如果是软件问题,进一步确定故障器件,如果故障器件是BMC,通过BMC复位连接器将BMC复位,重启后不再出现宕机故障,则升级BMC固件;如果是故障器件ME,通过ME复位连接器将ME复位,重启后不再出现宕机故障,则升级BIOS固件;
如果是硬件问题,通过DB9串口连接器获取并输出BIOS串口信息。
可选地,还包括:服务器异常掉电时,通过升级更新CPLD固件,如果掉电问题未解决,通过DB9串口连接器获取并输出异常掉电时的BIOS串口信息。
本发明采用的技术方案包括以下技术效果:
1、本发明有效解决由于现有技术造成服务器研发生成成本高、不利于服务器故障调试定位的问题,有效的提高了服务器调试的高效性以及稳定性,通过两种热插拔设计均实现了可以不断电直接插接调试板进行调试。
2、本发明技术方案中调试板还包括:用于ME复位的ME复位连接器以及用于BMC复位的BMC复位连接器,可以在服务器宕机故障时,对ME或BMC进行复位,判断是否是由ME固件或BMC固件导致,提高了故障定位效率。
3、本发明技术方案中主板还包括第二切换模块,所述CPLD、BMC通过第二切换模块与调试板中的DB9串口连接器通信连接,所述ME通过第二切换模块与ME调试连接器连接,可以实现CPLD、BMC与DB9串口连接器通信,获取BMC中服务器运行信息,便于服务器故障调试。
4、本发明技术方案中第一切换模块通过板端连接器与XDP连接器连接,默认与PCH通信连接的是BMC的远程调试端,用于防止漏电以及隔离调试板中的静电干扰。
应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见的,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方案中实施例一装置的结构示意图;
图2为本发明方案中实施例二方法的流程示意图;
图3为本发明方案中实施例三方法的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例一
为了更好理解本发明技术方案,现对于调试连接器类型以及功能进行简要介绍。调试连接器主要包括以下几类:
1、debug连接器:主板出现故障时进行根因分析方式有很多种,他们的侧重点各有不同,主要有以下几种方式:(1)XDP:是最主要的分析工具,利用它可以全面抓取CPU、内存等的错误日志;(2)UART(Universal Asynchronous Receiver/Transmitter,通用异步收发传输器):主要通过DB9串口连接器传输信号,可以使分析软件与BMC、BIOS和CPLD相连,以抓取BIOS日志(完整记录CPU、内存自检等服务器运行信息),并通过ipmitool或I2C指令和BMC、CPLD通讯,获取信息并对服务器进行控制;(3)Beagle等ME分析工具:通过ME调试连接器(3pin插针连接器)连接主板ME,对ME故障日志进行抓取。
2、CPLDJTAG连接器:可以进行CPLD固件firmware烧录和debug。
3、固件recovery(复位)连接器:多为3pin插针,通过对BMC、ME的相关pin进行拉高拉低操作来复位固件,只保留其最基本的功能,可进行故障排除和debug。
如图1所示,本发明提供了一种服务器热插拔调试装置,包括主板1以及调试板2,主板包括ME11、BMC12、CPLD13、CPU14、PCH15、第一切换模块16,调试板2包括XDP连接器21、DB9串口连接器22、CPLDJTAG连接器23、ME调试连接器24,主板1通过板端连接器3与调试板2连接,BMC12的远程调试端与XDP连接器21通过第一切换模块16共用一条线路与PCH15连接,PCH15通信端与CPU14通信连接;CPLD13的数据读取端与BMC12连接,DB9串口连接器22通过板端连接器3与主板1的CPLD13连接,用于获取服务器运行信息;CPLDJTAG连接器23与主板1中CPLD13的固件升级控制端连接,用于对CPLD13的固件进行烧录更新以及调试;ME调试连接器24与主板1ME11通信连接,用于对主板1ME11进行通信调试;CPLD13获取调试板2的在位信息,控制调试板2的连接器使能,用于实现调试板2在热插拔时无漏电。
其中,主板1端设置板端连接器3,位置设置在主板1后方(靠近后窗的位置)以方便不打开机箱直接插接调试板,该位置也相对靠近BMC12和PCH15,布线较为容易。将原本连接到XDP连接器21、CPLDJTAG连接器23等的信号连接到主板1端板端连接器3上。主板1端的板端连接器3与调试板2端的板端连接器3之间可以通过线缆连接。在连接使用过程中需要注意一下几点问题:
JTAG信号频率高,对信号质量要求较高,需要注意使用菊花链的布线方式,layout(布局)走线严格按照PDG要求(施工图审查基本要求)。
XDP连接器21和BMC12的ASD端口(remote debug,远程调试)使用一路JTAG,注意将第一切换模块16布局在主板1端的板端连接器3周围,且为防止漏电,将这路JTAG默认为ASD功能,即默认与PCH通信连接的是BMC的远程调试端,打开XDP调试功能的条件是调试板2在位、XDP连接器21在位,可以通过与门逻辑电路19输出第一切换模块16的选择切换信号。
其中,CPLD13获取调试板2的在位信息,控制调试板2的连接器使能一种具体实现方式是:CPLD13获取调试板2的在位信号,当调试板2在位时,CPLD13控制主板1中的ME11、BMC12、CPLD13、CPU14、PCH15的调试端使能。将主板1端的板端连接器3的在位信号PRSNT#pin拉高,将调试板2的板端连接器3的PRSNT#pin拉低,当调试板2正常插接时,该调试板2的在位信号拉低有效,在主板1上发送给CPLD13,CPLD13接收调试板2的在位信号后通知ME11、BMC12、CPLD13、CPU14、PCH15等芯片,将对应的调试板2上各个debug功能使能,这样就保证了调试板2在热插拔时,主板1识别PRSNT#信号拉低后才会控制各debug功能开始使用,避免漏电现象。
进一步地,主板1还包括电源控制芯片17,电源控制芯片17的电源输出端与调试板2的电源输入端连接,电源控制芯片17的使能端与CPLD13的控制端连接,CPLD13获取调试板2的在位信息,控制调试板2的连接器使能另外一种具体实现方式是:CPLD13获取调试板2的在位信号,当调试板2在位时,控制电源控制芯片17使能为调试板2提供电源。具体地,当调试板2不在位时,调试板2的在位信号PRSNT#信号为高电平,CPLD控制电源控制芯片17为关断状态,无电压输出;当调试板2插接后,调试板2的在位信号PRSNT#信号拉低,CPLD接收信号后控制电源芯片的使能信号有效,将电压输出给调试板2,这样就保证了热插拔调试板2时无漏电现象
调试板2还包括:ME复位连接器25以及BMC复位连接器26,ME复位连接器25与主板1ME11的复位控制端连接,用于实现主板1ME11的复位;BMC复位连接器26与主板1BMC12的复位控制端连接,用于实现主板1BMC12的复位。
主板1还包括第二切换模块18,CPLD13、BMC12通过第二切换模块18与调试板2中的DB9串口连接器22通信连接,ME11通过第二切换模块18与ME调试连接器24连接。进一步地,第二切换模块18可以是I2Cswitch芯片,也可以是其他类型的切换芯片,本发明在此不做限制。
主板1还包括与门逻辑电路19,第一切换模块16的切换端与与门逻辑电路19的输出端连接,与门逻辑电路19的第一输入端与调试板2XDP连接器21的在位信号输出端连接,与门逻辑电路19的第二输入端一路与调试板2的在位信号输入端连接,另一路与上拉电源(3.3V)连接。
第一切换模块16通过板端连接器3与XDP连接器21连接,默认与PCH15通信连接的是BMC12的远程调试端,用于防止漏电以及隔离调试板2中的静电干扰。具体地,第一切换模块16可以为switch芯片,由于调试板2上连接器插针较多,静电干扰较大,为防止静电反向流入主板1造成主板1上更大的信号干扰,可以对于单向信号利用二极管或switch芯片进行隔离,对于双向信号可以设置TVS二极管过滤静电干扰。
ME调试连接器24(3pin插针)、CPLDJTAG连接器23(10pin插针)等采用插针,即连接器的pin裸露在板外,这些连接器在不使用时会受静电干扰的影响,导致连接器周围信号质量变差,主板功能不稳定,本发明通过将ME调试连接器、CPLDJTAG连接器等插针连接器集成在调试板中,并采用第一切换模块、第二切换模块的隔离设计,避免了调试板静电干扰对与主板信号的影响。
本发明有效解决由于现有技术造成服务器研发生成成本高、不利于服务器故障调试定位的问题,有效的提高了服务器调试的高效性以及稳定性,通过两种热插拔设计均实现了可以不断电直接插接调试板进行调试,而且本发明中调试装置,不仅可以在服务器研发生产过程中使用,也可以在实际应用过程中使用,可以实现即用即插,便于对服务器的故障调试定位。
本发明技术方案中调试板还包括:用于ME复位的ME复位连接器以及用于BMC复位的BMC复位连接器,可以在服务器宕机故障时,对ME或BMC进行复位,判断是否是由ME固件或BMC固件导致,提高了故障定位效率。
本发明技术方案中主板还包括第二切换模块,所述CPLD、BMC通过第二切换模块与调试板中的DB9串口连接器通信连接,所述ME通过第二切换模块与ME调试连接器连接,可以实现CPLD、BMC与DB9串口连接器通信,获取BMC中服务器运行信息,便于服务器故障调试。
本发明技术方案中第一切换模块通过板端连接器与XDP连接器连接,默认与PCH通信连接的是BMC的远程调试端,用于防止漏电以及隔离调试板中的静电干扰。
实施例二
如图2所示,本发明技术方案还提供了一种服务器热插拔调试方法,基于本发明实施例一的基础上实现的,包括:
S1,服务器宕机时,将调试板插入主板中,通过XDP连接器获取故障日志;
S2,根据故障日志定位故障原因是否是软件问题,如果判断结果为是,则执行步骤S3;如果判断结果为否,则执行步骤S4;
S3,进一步确定故障器件是否是BMC,如果判断结果为是,则执行步骤S5;如果判断结果为否,则执行步骤S6;
S4,通过DB9串口连接器获取并输出BIOS串口信息;
S5,通过BMC复位连接器将BMC复位,重启后不再出现宕机故障,则升级BMC固件;
S6,通过ME复位连接器将ME复位,重启后不再出现宕机故障,则升级BIOS固件。
在步骤S2中,故障日志中会显示出故障器件以及故障原因,可以故障日志确定故障器件以及故障原因。
在步骤S4中,若无法通过XDP抓取的信息定位,则需要通过D B9串口连接器发送ipmi指令将串口信息的输出由默认的BMC串口信息切换到BIOS串口信息,即调试工具发送到ipmi指令到BMC,BMC根据ipmi指令发送到BIOS(Basic Input OutputSystem,基本输入输出系统),再发送ipmi指令指令打开BIOS串口的debug模式(最大化串口信息输出),使串口输出的BIOS信息完整,获取并输出BIOS串口信息,重启服务器后一旦复现宕机现象即可实现通过B IOS串口信息帮助工程师进一步定位。
在步骤S6中,则可以使用ME debug工具,通过调试板上的ME调试连接器进行抓取查看故障问题,进而使用跳帽启用调试板上的ME复位连接器的recovery功能,将ME启用极简模式,观察是否能复现故障,若不能复现宕机故障,则可通过升级BIOS固件代码(BIOS固件与ME固件集成于同一芯片)或返厂重工解决故障。
当然,故障器件也可能是CPU,如果故障器件是CPU的话,可以通过XDP连接器进一步抓取CPU寄存器的状态信息,通过CPU寄存器的状态信息定位故障原因。
本发明有效解决由于现有技术造成服务器研发生成成本高、不利于服务器故障调试定位的问题,有效的提高了服务器调试的高效性以及稳定性,通过两种热插拔设计均实现了可以不断电直接插接调试板进行调试。
本发明技术方案中调试板还包括:用于ME复位的ME复位连接器以及用于BMC复位的BMC复位连接器,可以在服务器宕机故障时,对ME或BMC进行复位,判断是否是由ME固件或BMC固件导致,提高了故障定位效率。
本发明技术方案中主板还包括第二切换模块,所述CPLD、BMC通过第二切换模块与调试板中的DB9串口连接器通信连接,所述ME通过第二切换模块与ME调试连接器连接,可以实现CPLD、BMC与DB9串口连接器通信,获取BMC中服务器运行信息,便于服务器故障调试。
本发明技术方案中第一切换模块通过板端连接器与XDP连接器连接,默认与PCH通信连接的是BMC的远程调试端,用于防止漏电以及隔离调试板中的静电干扰。
实施例三
如图3所示,本发明技术方案还提供了一种服务器热插拔调试方法,基于本发明实施例一的基础上实现的,包括:
S1,服务器宕机时,将调试板插入主板中,通过XDP连接器获取故障日志;
S2,根据故障日志定位故障原因是否是软件问题,如果判断结果为是,则执行步骤S3;如果判断结果为否,则执行步骤S4;
S3,进一步确定故障器件是否是BMC,如果判断结果为是,则执行步骤S5;如果判断结果为否,则执行步骤S6;
S4,通过DB9串口连接器获取并输出BIOS串口信息;
S5,通过BMC复位连接器将BMC复位,重启后不再出现宕机故障,则升级BMC固件;
S6,通过ME复位连接器将ME复位,重启后不再出现宕机故障,则升级BIOS固件;
S7,服务器异常掉电时,通过升级更新CPLD固件,如果掉电问题未解决,通过DB9串口连接器获取并输出异常掉电时的BIOS串口信息。
在步骤S7中,当服务器出现异常掉电问题现象时,一般直接定位到时序问题或电压控制芯片异常问题,首先应当通过调试板上的CPLDJTAG连接器对CPLD代码进行更新,如果异常掉电问题仍不能解决,则考虑为电压控制芯片异常。如果机器仍能正常开机,此时可以通过debug板上的DB9串口连接器连接串口线,开机后发送ipmi指令打开BIOS串口,截取异常掉电时的串口信息进行分析定位;如果不能正常开机,则等待BMC可以正常工作后,发送ipmi指令给机器抓取CPLD记录的各路供电的信息,定位到某路供电的状态异常,对这路电的电压控制芯片及其周围线路进行排查即可。
在过程中,当BMC抓取出机器出现某一类报错,但没有宕机时,可以通过调试板上DB9串口连接器连接串口线,并编译运行OS脚本,当检测到出现这一类报错后就通过在系统下发送ipmi指令的方式使机器halt住(中断),通过抓取的串口信息初步分析机器运行过程中出现的问题,再通过调试板上的XDP连接器连接XDP工具,抓取具体的寄存器信息进一步定位分析问题,确定部件或模块出现问题的原因。
本发明技术方案主要是调试板中集成调试连接器以及复位连接器,还可以在debug板上增加USB或网口等其他连接器,全面实现各种IO功能,在研发debug或量产维护的过程中不占用主板IO口,使用该调试板进行主板的管理和控制。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种服务器热插拔调试装置,其特征是,包括主板以及调试板,所述主板包括ME、BMC、CPLD、CPU、PCH、第一切换模块,所述调试板包括XDP连接器、DB9串口连接器、CPLD JTAG连接器、ME调试连接器,所述主板通过板端连接器与调试板连接,所述BMC的远程调试端与XDP连接器通过第一切换模块共用一条线路与PCH连接,PCH通信端与CPU通信连接;所述CPLD的数据读取端与BMC连接,DB9串口连接器通过板端连接器与主板的CPLD连接,用于获取服务器运行信息;所述CPLD JTAG连接器与主板中CPLD的固件升级控制端连接,用于对CPLD的固件进行烧录更新以及调试;所述ME调试连接器与主板ME通信连接,用于对主板ME进行通信调试;所述CPLD获取调试板的在位信息,控制调试板的连接器使能,用于实现调试板在热插拔时无漏电;主板还包括与门逻辑电路,所述第一切换模块的切换端与与门逻辑电路的输出端连接,所述与门逻辑电路的第一输入端与调试板XDP连接器的在位信号输出端连接,所述与门逻辑电路的第二输入端一路与调试板的在位信号输入端连接,另一路与上拉电源连接;所述第一切换模块通过板端连接器与XDP连接器连接,默认与PCH通信连接的是BMC的远程调试端,用于防止漏电以及隔离调试板中的静电干扰。
2.根据权利要求1所述的服务器热插拔调试装置,其特征是,所述CPLD获取调试板的在位信息,控制调试板的连接器使能具体实现方式是:CPLD获取调试板的在位信号,当调试板在位时,CPLD控制主板中的ME、BMC、CPLD、CPU、PCH的调试端使能。
3.根据权利要求1所述的服务器热插拔调试装置,其特征是,所述主板还包括电源控制芯片,所述电源控制芯片的电源输出端与调试板的电源输入端连接,所述电源控制芯片的使能端与CPLD的控制端连接,所述CPLD获取调试板的在位信息,控制调试板的连接器使能具体实现方式是:CPLD获取调试板的在位信号,当调试板在位时,控制电源控制芯片使能为调试板提供电源。
4.根据权利要求1所述的服务器热插拔调试装置,其特征是,调试板还包括:ME复位连接器以及BMC复位连接器,所述ME复位连接器与主板ME的复位控制端连接,用于实现主板ME的复位;所述BMC复位连接器与主板BMC的复位控制端连接,用于实现主板BMC的复位。
5.根据权利要求1所述的服务器热插拔调试装置,其特征是,主板还包括第二切换模块,所述CPLD、BMC通过第二切换模块与调试板中的DB9串口连接器通信连接,所述ME通过第二切换模块与ME调试连接器连接。
6.根据权利要求1-5任意一项所述的服务器热插拔调试装置,其特征是,所述第一切换模块为switch芯片。
7.一种服务器热插拔调试方法,其特征是,基于本发明权利要求1-6任意一项所述的服务器热插拔调试装置的基础上实现的,包括:
服务器宕机时,将调试板插入主板中,通过XDP连接器获取故障日志;
根据故障日志定位故障原因是否是软件问题,如果是软件问题,进一步确定故障器件,如果故障器件是BMC,通过BMC复位连接器将BMC复位,重启后不再出现宕机故障,则升级BMC固件;如果是故障器件ME,通过ME复位连接器将ME复位,重启后不再出现宕机故障,则升级BIOS固件;
如果是硬件问题,通过DB9串口连接器获取并输出BIOS串口信息。
8.根据权利要求7所述服务器热插拔调试方法,其特征是,还包括:服务器异常掉电时,通过升级更新CPLD固件,如果掉电问题未解决,通过DB9串口连接器获取并输出异常掉电时的BIOS串口信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010822316.4A CN112069002B (zh) | 2020-08-16 | 2020-08-16 | 一种服务器热插拔调试装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010822316.4A CN112069002B (zh) | 2020-08-16 | 2020-08-16 | 一种服务器热插拔调试装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069002A CN112069002A (zh) | 2020-12-11 |
CN112069002B true CN112069002B (zh) | 2023-04-07 |
Family
ID=73661752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010822316.4A Active CN112069002B (zh) | 2020-08-16 | 2020-08-16 | 一种服务器热插拔调试装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069002B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113741645B (zh) * | 2021-07-30 | 2023-07-14 | 苏州浪潮智能科技有限公司 | 一种无线挂耳服务器及使用方法 |
CN113778924B (zh) * | 2021-09-03 | 2024-03-15 | 深圳市同泰怡信息技术有限公司 | 基于基板管理控制器的计算机大规模调试方法、系统、设备 |
CN114038181B (zh) * | 2021-10-25 | 2023-05-12 | 苏州浪潮智能科技有限公司 | 一种远程调试装置及服务器 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339344A (zh) * | 2016-08-18 | 2017-01-18 | 浪潮(北京)电子信息产业有限公司 | 一种用于服务器系统调试的多路串口切换系统及方法 |
CN207182186U (zh) * | 2017-09-07 | 2018-04-03 | 郑州云海信息技术有限公司 | 一种具有led显示及多功能接口的ui板 |
CN108280002B (zh) * | 2018-01-10 | 2021-09-10 | 郑州云海信息技术有限公司 | 一种8路服务器中xdp和dci混合调试接口硬件拓扑结构 |
CN208271171U (zh) * | 2018-06-19 | 2018-12-21 | 北京航星中云科技有限公司 | 一种服务器调试装置及服务器 |
-
2020
- 2020-08-16 CN CN202010822316.4A patent/CN112069002B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112069002A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069002B (zh) | 一种服务器热插拔调试装置及方法 | |
CN111339010A (zh) | 一种pcie设备热插拔识别方法、系统及相关组件 | |
CN103731663B (zh) | 一种智能电视的测试方法和装置 | |
CN112527582A (zh) | 服务器线缆的检测方法、检测装置、检测设备及存储介质 | |
US7643958B2 (en) | Method and system for validating PCI/PCI-X adapters | |
CN102571498A (zh) | 故障注入控制方法和装置 | |
CN111045930A (zh) | 一种光模块代码下载调试的方法和系统 | |
CN110825547B (zh) | 一种基于smbus的pcie卡异常恢复装置及方法 | |
CN218824636U (zh) | 一种用于服务器硬盘背板的电源检测装置 | |
CN116627729A (zh) | 外接线缆、外接线缆在位检测装置、开机自检方法及系统 | |
CN116662050A (zh) | 一种错误注入支持功能验证方法、装置、终端及介质 | |
CN213365511U (zh) | 一种主机板及服务器 | |
CN212809194U (zh) | 一种远程控制调试装置 | |
GB2398390A (en) | Testing a connection interface between a hot pluggable component and a system | |
Cisco | Troubleshooting Router Startup Problems | |
Cisco | Troubleshooting Router Startup Problems | |
Cisco | Troubleshooting Router Startup Problems | |
CN113765827B (zh) | 一种交换机固件保护系统 | |
CN116382968B (zh) | 外部设备的故障检测方法以及装置 | |
CN111324501B (zh) | 一种模拟人工插拔usb设备诊断usb接口的装置及方法 | |
CN112115000B (zh) | 系统部件电源的远端重置方法、系统及bmc远端设备 | |
CN113535490B (zh) | 侦错装置及其操作方法 | |
CN114115955B (zh) | 服务器资源盒子fpga固件升级方法、系统、终端及存储介质 | |
CN116893938A (zh) | 服务器PCIe插槽压力测试方法、装置、设备及介质 | |
CN115687211A (zh) | 一种串口状态设置电路及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |