CN107621988A - 一种dc测试中宕机故障定位方法及系统 - Google Patents

一种dc测试中宕机故障定位方法及系统 Download PDF

Info

Publication number
CN107621988A
CN107621988A CN201710797904.5A CN201710797904A CN107621988A CN 107621988 A CN107621988 A CN 107621988A CN 201710797904 A CN201710797904 A CN 201710797904A CN 107621988 A CN107621988 A CN 107621988A
Authority
CN
China
Prior art keywords
software
server
information
hardware
logic circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710797904.5A
Other languages
English (en)
Inventor
魏文星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710797904.5A priority Critical patent/CN107621988A/zh
Publication of CN107621988A publication Critical patent/CN107621988A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种DC测试中宕机故障定位方法,在复现故障的过程中抓取软硬件信息,便于故障定位,具体包括以下步骤:服务器将软件信息通过通讯电路上传给上位机;采样分析逻辑电路采集并分析服务器的硬件信息,并通过显示设备显示;根据软件信息和硬件信息相结合进行故障定位。还包括一种DC测试中宕机故障定位系统。用于抓取DC测试宕机时的软、硬件信息,以便用于故障的分析和定位;可以避免传统方法操作时对故障现场的破坏。不采用对关键信号预留测试点,方便Layout走线。同时,可以抓取特定波形的关键信号,较示波器更具有灵活性。可以在复现故障的过程中实时抓取软硬件信息,和传统手段相比更加灵活和方便。

Description

一种DC测试中宕机故障定位方法及系统
技术领域
本发明涉及故障定位技术领域,具体地说是一种DC测试中宕机故障定位方法及系统。
背景技术
在服务器研发过程中,DC循环测试是必不可少的环节,该测试主要模拟用户实际使用中对设备的开关机操作,用来发现设备在开关机过程中的故障,以此来改进产品,提升产品质量。
DC循环测试采用测试仪器自动控制产品开关机,在一定的时间内达到产品设计所要求的开关机次数,根据产品的测试结果,进行判断产品设计是否达标。
在DC循环测试过程中,常遇到的故障是在开关机过程中出现宕机。该故障有以下几个特点:
该类故障是概率性出现,导致对故障发生条件难以预判;
该类故障复现困难,复现周期不确定,导致对故障现场抓取困难;
该类故障现场具有不可破坏性,即断电等操作对故障破坏后,故障往往消失;
DC测试是模拟用户的整机测试,故障发生后往往需要拆开整机露出电路测试点,才能用相关仪器(如万用表、示波器等)进行测量,抓取相关软硬件信息;
因此,抓取故障发生时软硬件信息对判断故障发生的原因、解决故障非常重要。
发明内容
本发明的目的在于提供一种DC测试中宕机故障定位方法及系统,用于解决目前故障排查困难、定位不准确的问题。
本发明解决其技术问题所采取的技术方案是:一种DC测试中宕机故障定位方法,在复现故障的过程中抓取软硬件信息,便于故障定位,具体包括以下步骤:
服务器将软件信息通过通讯电路上传给上位机;
采样分析逻辑电路采集并分析服务器的硬件信息,并通过显示设备显示;
根据软件信息和硬件信息相结合进行故障定位。
进一步地,通讯电路采集服务器的软件信息的具体方法包括:I2C总线获取软件信息,发送给BMC芯片,BMC芯片通过RJ45控制网口上传给上位机,上位机的IPMI Tool记录信息。
进一步地,IPMI Tool记录信息的方式包括:以串口日志的形式保存机器运行时的log。
进一步地,采样分析逻辑电路采用CPLD芯片,采样分析逻辑电路采集并分析服务器的硬件信息的方式具体包括:
CPLD以一定频率对关键信号采样;
根据采样的数据构建关键信号的实际波形;
将实际波形与要求的标准波形做对比;
判断所采集的关键信号是否符合要求;如果实际波形与要求的标准波形相同,则表示采集的关键信号符合要求;否则,不符合要求。
进一步地,进行故障定位的方法具体包括:根据采集到的软件信息与硬件信息进行对比,如果软件信息里出现了异常信号,但是采样分析逻辑电路并没有采集到相应的波形;或,如果软件信息没有出现异常信号,但是采样分析逻辑电路采集到相应的波形,则可对故障进行定位。
一种DC测试中宕机故障定位系统,利用所述的方法,包括服务器、通讯电路、采样分析逻辑电路、上位机、显示装置和故障定位装置;所述的服务器的硬件接口与采样分析逻辑电路的输入端相连,采样分析逻辑电路的输出端与显示装置的输入端相连,显示装置的输出端与故障定位装置相连;服务器的软件接口与通讯电路的输入端相连,通讯电路的输出端与上位机的输入端相连,上位机的输出端与故障定位装置相连。
进一步地,所述的通讯电路包括I2C总线、BMC芯片和RJ45控制网口;所述的BMC芯片通过I2C总线与服务器的软件接口相连,BMC芯片通过RJ45控制网口与上位机相连。
进一步地,所述的采样分析逻辑电路包括CPLD芯片,CPLD芯片的输入端与服务器的硬件接口相连,CPLD芯片的输出端与显示装置的输入端相连。
进一步地,所述的显示装置用于对硬件信息的分析结果进行显示,包括显示屏或多个LED灯。
进一步地,所述的故障定位装置用于判断哪个硬件电路出现了故障,进行故障的精确定位;故障定位装置进行故障定位的标准是将软件信息与硬件信息的区别。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
用于抓取DC测试宕机时的软、硬件信息,以便用于故障的分析和定位;可以避免传统方法操作时对故障现场的破坏。
不采用对关键信号预留测试点,方便Layout走线。同时,可以抓取特定波形的关键信号,较示波器更具有灵活性。
可以在复现故障的过程中实时抓取软硬件信息,和传统手段相比更加灵活和方便。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的系统结构连接示意图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
为了更好的理解本发明,以下是对现有技术进行描述。
1)使用故障板上预留的串口,连接到调试电脑上,通过串口工具获取故障发生时代码运行信息。
2)使用万用表或示波器测量故障发生后关键信号是否正常。
3)将示波器连接到关键信号,重复试验,复现故障,抓取故障发生时的情况。
现有技术的缺点:针对1)所述的获取软件信息即串口log,一般是通过主板上预留的串口来获取的,而串口通常仅在研发调试时使用,对用户是不可见的,一般是位于产品内部。为此,通过串口获取log时需要将产品拆开,露出串口,才能使用。这些操作很有可能破坏故障现场。
针对2)所述使用万用表或示波器测量关键信号,除了会面临1)所述的操作困难外,还会遇到一些关键信号在设计时没有预留测试点导致无法测量的困难。
针对3)所述的连接示波器复现故障,对于一些特殊条件的关键信号,示波器的触发功能无法抓取所需要的波形。
为此,本发明提供了一种DC测试中宕机故障定位方法及系统。本发明的实施例可采用ARM服务器。
如图1所示,一种DC测试中宕机故障定位方法,在复现故障的过程中抓取软硬件信息,便于故障定位,具体包括以下步骤:
步骤1)服务器将软件信息通过通讯电路上传给上位机;
步骤2)采样分析逻辑电路采集并分析服务器的硬件信息,并通过显示设备显示;
步骤3)根据软件信息和硬件信息相结合进行故障定位。
通讯电路采集服务器的软件信息的具体方法包括:I2C总线获取软件信息,发送给BMC芯片,BMC芯片通过RJ45控制网口上传给上位机,上位机的IPMI Tool记录信息。
IPMI Tool记录信息的方式包括:以串口日志的形式保存机器运行时的log。
采样分析逻辑电路采用CPLD芯片,采样分析逻辑电路采集并分析服务器的硬件信息的方式具体包括:
步骤21)CPLD以一定频率对关键信号采样;
步骤22)根据采样的数据构建关键信号的实际波形;
步骤23)将实际波形与要求的标准波形做对比;
步骤24)判断所采集的关键信号是否符合要求;如果实际波形与要求的标准波形相同,则表示采集的关键信号符合要求;否则,不符合要求。
进行故障定位的方法具体包括:根据采集到的软件信息与硬件信息进行对比,如果软件信息里出现了异常信号,但是采样分析逻辑电路并没有采集到相应的波形;或,如果软件信息没有出现异常信号,但是采样分析逻辑电路采集到相应的波形,则可对故障进行定位。如:如果软件信息里有显示CPU发出了关机信号:THUNDERX begein to set gpio forcommand poweroff first!!!
Legacy ON state
Legacy OFF state
但是CPLD没有采样到关机信号的波形,说明是虽然CPU代码跑到关机代码,但是由于某些硬件故障导致发出的波形不正确,从而导致故障。可得出是某硬件出现了故障。CPLD可编程,可以根据对每个关键信号的要求进行单独编程分析。
如图2所示,一种DC测试中宕机故障定位系统,包括服务器、通讯电路、采样分析逻辑电路、上位机、显示装置和故障定位装置;服务器的硬件接口与采样分析逻辑电路的输入端相连,采样分析逻辑电路的输出端与显示装置的输入端相连,显示装置的输出端与故障定位装置相连;服务器的软件接口与通讯电路的输入端相连,通讯电路的输出端与上位机的输入端相连,上位机的输出端与故障定位装置相连。
通讯电路包括I2C总线、BMC芯片和RJ45控制网口;BMC芯片通过I2C总线与服务器的软件接口相连,BMC芯片通过RJ45控制网口与上位机相连。
采样分析逻辑电路包括CPLD芯片,CPLD芯片的输入端与服务器的硬件接口相连,CPLD芯片的输出端与显示装置的输入端相连。如,可将服务器的关键信号POWER_GOOD、CPU_DC_OK、CPU_RST接入CPLD。
显示装置用于对硬件信息的分析结果进行显示,包括显示屏或多个LED灯。如果采用多个LED灯,则每个LED代表不同的结果,如fail、ok,还可保留一个LED灯作为预留项。
故障定位装置用于判断哪个硬件电路出现了故障,进行故障的精确定位;故障定位装置进行故障定位的标准是将软件信息与硬件信息的区别。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.一种DC测试中宕机故障定位方法,其特征是,在复现故障的过程中抓取软硬件信息,便于故障定位,具体包括以下步骤:
服务器将软件信息通过通讯电路上传给上位机;
采样分析逻辑电路采集并分析服务器的硬件信息,并通过显示设备显示;
根据软件信息和硬件信息相结合进行故障定位。
2.根据权利要求1所述的方法,其特征是,通讯电路采集服务器的软件信息的具体方法包括:I2C总线获取软件信息,发送给BMC芯片,BMC芯片通过RJ45控制网口上传给上位机,上位机的IPMI Tool记录信息。
3.根据权利要求2所述的方法,其特征是,IPMI Tool记录信息的方式包括:以串口日志的形式保存机器运行时的log。
4.根据权利要求1所述的方法,其特征是,采样分析逻辑电路采用CPLD芯片,采样分析逻辑电路采集并分析服务器的硬件信息的方式具体包括:
CPLD以一定频率对关键信号采样;
根据采样的数据构建关键信号的实际波形;
将实际波形与要求的标准波形做对比;
判断所采集的关键信号是否符合要求;如果实际波形与要求的标准波形相同,则表示采集的关键信号符合要求;否则,不符合要求。
5.根据权利要求1所述的方法,其特征是,进行故障定位的方法具体包括:根据采集到的软件信息与硬件信息进行对比,如果软件信息里出现了异常信号,但是采样分析逻辑电路并没有采集到相应的波形;或,如果软件信息没有出现异常信号,但是采样分析逻辑电路采集到相应的波形,则可对故障进行定位。
6.一种DC测试中宕机故障定位系统,利用权利要求1至5任意一项所述的方法,其特征是,包括服务器、通讯电路、采样分析逻辑电路、上位机、显示装置和故障定位装置;所述的服务器的硬件接口与采样分析逻辑电路的输入端相连,采样分析逻辑电路的输出端与显示装置的输入端相连,显示装置的输出端与故障定位装置相连;服务器的软件接口与通讯电路的输入端相连,通讯电路的输出端与上位机的输入端相连,上位机的输出端与故障定位装置相连。
7.根据权利要求6所述的系统,其特征是,所述的通讯电路包括I2C总线、BMC芯片和RJ45控制网口;所述的BMC芯片通过I2C总线与服务器的软件接口相连,BMC芯片通过RJ45控制网口与上位机相连。
8.根据权利要求6所述的系统,其特征是,所述的采样分析逻辑电路包括CPLD芯片,CPLD芯片的输入端与服务器的硬件接口相连,CPLD芯片的输出端与显示装置的输入端相连。
9.根据权利要求8所述的系统,其特征是,所述的显示装置用于对硬件信息的分析结果进行显示,包括显示屏或多个LED灯。
10.根据权利要求6所述的系统,其特征是,所述的故障定位装置用于判断哪个硬件电路出现了故障,进行故障的精确定位;故障定位装置进行故障定位的标准是将软件信息与硬件信息的区别。
CN201710797904.5A 2017-09-06 2017-09-06 一种dc测试中宕机故障定位方法及系统 Pending CN107621988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710797904.5A CN107621988A (zh) 2017-09-06 2017-09-06 一种dc测试中宕机故障定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710797904.5A CN107621988A (zh) 2017-09-06 2017-09-06 一种dc测试中宕机故障定位方法及系统

Publications (1)

Publication Number Publication Date
CN107621988A true CN107621988A (zh) 2018-01-23

Family

ID=61088387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710797904.5A Pending CN107621988A (zh) 2017-09-06 2017-09-06 一种dc测试中宕机故障定位方法及系统

Country Status (1)

Country Link
CN (1) CN107621988A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110672898A (zh) * 2019-11-08 2020-01-10 航天柏克(广东)科技有限公司 一种数字控制的故障波形抓取和分析方法
CN113466566A (zh) * 2021-05-26 2021-10-01 山东英信计算机技术有限公司 一种触发式信号采集方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法
CN104021054A (zh) * 2014-06-11 2014-09-03 浪潮(北京)电子信息产业有限公司 服务器故障可视化侦测及处理方法、系统及可编程芯片
CN104461809A (zh) * 2014-11-13 2015-03-25 浪潮(北京)电子信息产业有限公司 一种故障信息管理方法及系统
CN105159851A (zh) * 2015-07-02 2015-12-16 浪潮(北京)电子信息产业有限公司 多控存储系统
US9367424B2 (en) * 2014-03-13 2016-06-14 International Business Machines Corporation Method for performance monitoring and optimization via trend detection and forecasting

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法
US9367424B2 (en) * 2014-03-13 2016-06-14 International Business Machines Corporation Method for performance monitoring and optimization via trend detection and forecasting
CN104021054A (zh) * 2014-06-11 2014-09-03 浪潮(北京)电子信息产业有限公司 服务器故障可视化侦测及处理方法、系统及可编程芯片
CN104461809A (zh) * 2014-11-13 2015-03-25 浪潮(北京)电子信息产业有限公司 一种故障信息管理方法及系统
CN105159851A (zh) * 2015-07-02 2015-12-16 浪潮(北京)电子信息产业有限公司 多控存储系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110672898A (zh) * 2019-11-08 2020-01-10 航天柏克(广东)科技有限公司 一种数字控制的故障波形抓取和分析方法
CN110672898B (zh) * 2019-11-08 2022-07-08 航天柏克(广东)科技有限公司 一种数字控制的故障波形抓取和分析方法
CN113466566A (zh) * 2021-05-26 2021-10-01 山东英信计算机技术有限公司 一种触发式信号采集方法和装置
CN113466566B (zh) * 2021-05-26 2024-02-09 山东英信计算机技术有限公司 一种触发式信号采集方法和装置

Similar Documents

Publication Publication Date Title
US10955461B2 (en) Smart and efficient protocol logic analyzer configured within automated test equipment (ATE) hardware
CN105203980B (zh) 一种电能质量自检系统及其自检方法
CN110502374A (zh) 识别自动测试时设备故障的根本原因的流量捕获调试工具
US8996928B2 (en) Devices for indicating a physical layer error
CN106407059A (zh) 一种服务器节点测试系统及方法
CN103970635A (zh) 一种服务器硬件故障的自诊断方法
US20210173010A1 (en) Diagnostic tool for traffic capture with known signature database
US20210111967A1 (en) Graphical user interface for traffic capture and debugging tool
CN106405383B (zh) 基于视觉检测技术的嵌入式板卡自动测试系统及方法
RU2324967C1 (ru) Программно-аппаратный стенд для диагностики цифровых и микропроцессорных блоков
CN107621988A (zh) 一种dc测试中宕机故障定位方法及系统
US11549997B2 (en) Multi-phase simulation environment
US5691926A (en) Integrated test tools for portable computer
CN112269364A (zh) 一种故障定位自测试系统及方法
US20070262879A1 (en) I/O bus for analog sensors in an IC
US11493549B2 (en) System and method for performing loopback test on PCIe interface
CN114416452A (zh) 片上系统诊断方法和装置
CN110261761B (zh) 一种基于fpga电气信号检测的主板自检装置及方法
CN112231157A (zh) 一种基于硬件拓扑的ai服务器hca卡性能测试方法及系统
CN112527710B (zh) 一种jtag数据捕获分析系统
Kezunovic et al. Developing future substation automation strategies: selecting appropriate IEDs and developing new applications
TWI773140B (zh) 用於流量捕獲及除錯工具之圖形使用者介面
CN109101380B (zh) 一种i2c信号质量的检测方法及设备
CN115629298B (zh) 一种ate设备中异常同步触发信号的捕捉方法及其装置
US11639960B2 (en) Integrated circuit spike check apparatus and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180123

RJ01 Rejection of invention patent application after publication