CN107526664A - 一种服务器异常掉电快速定位方法和装置 - Google Patents

一种服务器异常掉电快速定位方法和装置 Download PDF

Info

Publication number
CN107526664A
CN107526664A CN201710797906.4A CN201710797906A CN107526664A CN 107526664 A CN107526664 A CN 107526664A CN 201710797906 A CN201710797906 A CN 201710797906A CN 107526664 A CN107526664 A CN 107526664A
Authority
CN
China
Prior art keywords
power supply
voltage conversion
bmc
conversion chip
power down
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710797906.4A
Other languages
English (en)
Other versions
CN107526664B (zh
Inventor
曹先帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710797906.4A priority Critical patent/CN107526664B/zh
Publication of CN107526664A publication Critical patent/CN107526664A/zh
Application granted granted Critical
Publication of CN107526664B publication Critical patent/CN107526664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种服务器异常掉电快速定位方法,包括以下步骤:BMC周期读取各供电模块PG信号发生变化的掉电信息;读取BMC日志中最先触发PG信号发生变化的位置信息,即确认引发掉电故障的供电模块。在服务器发生异常掉电关机时,通过BMC日志中收集到的各组供电芯片发出的PG信号时间顺序,定位出最先出现异常的供电模块,进而做出分析,提出相应的解决措施,避免出现批量问题导致影响扩大。

Description

一种服务器异常掉电快速定位方法和装置
技术领域
本发明涉及服务器设计技术领域,尤其是一种服务器异常掉电快速定位方法和装置。
背景技术
在云计算、大数据时代,海量的数据需要存储和计算,数据中心的服务器部署密度越来越大。在数据量暴增的时代,数据时时刻刻都在被分类存储和计算,这就对数据中心服务器的长期稳定性和可靠性要求越来越高;虽然服务器的稳定性较高,但是随着服务器的使用时间变长,服务器的故障率不可避免的会上升,服务器一旦发生异常掉电导致关机故障需要以最快的速度去定位问题点,分析出根本原因并提供解决办法,避免大批量机器出现同样问题。
服务器在客户数据中心机房发生掉电故障时,故障原因通常会和客户当时的使用环境以及运行的业务有一定的相关性,而且故障通常不会稳定的出现,这就给故障的判断和处理的准确性提出了更高的要求,因此,这就要求能够在客户现场第一时间判断故障类型及故障点,然后进行针对性的分析。故障的判断通常是根据BMC记录的日志,但是对于服务器宕机、自动关机等故障的日志通常是记录的所有存在异常的供电部分,无法定位到哪一组供电最先发生的掉电异常,这就会把故障的分析范围扩大,给故障判断带来了较多的不便。
发明内容
本发明的目的是提供一种服务器异常掉电快速定位方法和装置,精准确定最先发生供电异常的电压转换芯片信息,提高了定位的准确性。
为实现上述目的,本发明采用下述技术方案:
一种服务器异常掉电快速定位方法,包括以下步骤:
BMC周期读取各供电模块PG信号发生变化的掉电信息;
读取BMC日志中最先触发PG信号发生变化的位置信息,即确认引发掉电故障的供电模块。
进一步地,所述BMC周期读取各供电模块PG信号发生变化的掉电信息,包括:
供电模块的电压转换芯片在供电异常时PG信号由高电平转换为低电平,电压转换芯片的内部寄存器记录PG信号变化时间信息;
BMC周期的访问供电模块的供电异常地址信息,读取PG引脚电压数据,访问各供电模块的电压转换芯片内部寄存器,读取寄存器记录的供电异常时刻信息。
进一步地,所述供电异常地址信息包括芯片地址信息和PG引脚地址信息;所述芯片地址信息为发生故障的电压转换芯片的地址信息;所述PG引脚地址信息包括电压转换芯片为该芯片PG引脚分配的地址信息。
一种服务器异常掉电快速定位装置,包括:若干只依次顺序连接的电压转换芯片:第一电压转换芯片的输出PG信号传送给第二电压转换芯片,第二电压转换芯片的PG信号输出直至最后一级电压转换芯片,和,BMC;所述BMC的输入端分别与电压转换芯片的PG信号输出端连接。
进一步地,所述第一电压转换芯片的输入端与供电电源连接,所述最后一级电压转换单元的PG信号输出端与电阻连接后接地。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明在服务器发生异常掉电关机时,通过BMC日志中收集到的各组供电芯片发出的PG信号时间顺序,定位出最先出现异常的供电模块,进而做出分析,提出相应的解决措施,避免出现批量问题导致影响扩大。通过硬件线路的设计,在故障发生时将各组电压转换芯片发出的PG信号收集到BMC日志里,根据各组电压转换芯片发出PG时间的先后顺序,可以定位到哪组供电最先发生的异常,进而定位出问题点,研发人员可以根据BMC生成的记录第一时间定位故障点,提高了故障排查效率,保障了服务器的安全运行。在提高故障诊断时效性的同时,提高了产品的竞争力。
附图说明
此处所说明的附图用来提供对本发明的进一步解释,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是目前服务器架构供电时序逻辑示意图;
图2是本发明方法流程图;
图3是本发明BMC增加对每组电压转换芯片的PG信号信息收集示意图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,AC电源提供的12V通过电压转换芯片1之后转换出一组电压,此时电压转换芯片1会立即发出PG1高电平信号给下一级的电压转换芯片2,电压转换芯片2接受到PG1发来的信号之后,开始工作转换出另一组电压,之后会发出PG2高电平信号给下一级。这样,按照主板设计的逻辑时序,通过PG做完电压时序的控制信号,依次转换出各组电压,最后一组电压通过电压转换芯片n转换出来之后,PGn发出的高电平信号通过一个电阻与地相连,不再联通其他地方。
假定其中一组电压转换芯片2工作出现异常,对应的PG2会第一时间做出反应,将高电平变为低电平,此时电压转换芯片2就会停止工作,其他组电依次掉电,主板掉电关机,BMC中会记录部分电压异常,无法精确到哪组电先发生的掉电。BMC会采集每一个电压转换芯片电压输出值,但是实际测试中由于各组电压掉电速度有快有慢,BMC侦测的阈值比较低,通常无法准确判断哪个电先掉,虽然在log中可以看到哪些供电模块出现了掉电,但是无法准确判定是哪组电先发生的异常,而PG(powergood)这个信号不同于输出电压,当转换芯片发现电压异常时会立即将powergood这个信号变成0V,没有延时,可根据这个信号的变化顺序准确判定哪组电先发生的异常。
如图2所示,一种服务器异常掉电快速定位方法,包括以下步骤:
S1、BMC周期读取各供电模块PG信号发生变化的掉电信息;
S2、读取BMC日志中最先触发PG信号发生变化的位置信息,即确认引发掉电故障的供电模块。
在BMC的信息收集项增加对每组电压转换芯片发出的PG信号信息收集。每组电压转换芯片内部都会有一个寄存器,记录芯片本身各信号的变化,BMC通过访问芯片寄存器中对应的PG地址,便可实时掌控每组电压的供电情况。PG地址包括芯片地址信息和PG引脚地址信息;所述芯片地址信息为发生故障的电压转换芯片的地址信息;所述PG引脚地址信息包括电压转换芯片为该芯片PG引脚分配的地址信息。当某一组电压转换芯片发生异常时,PG由高电平变为低电平,此时会触发芯片内部寄存器信息的变更,寄存器存储PG由高电平变为低电平的时刻信息,BMC会根据各PG信号反馈回来的先后顺序进行记录,BMC会记录PG信号的变化顺序,并在记录的内容上标注error。研发人员可以根据BMC生成的记录第一时间定位故障点,提高了故障排查效率,保障了服务器的安全运行。
如图3所示,一种服务器异常掉电快速定位装置,包括若依次顺序连接的第一电压转换芯片、第二电压转换芯片、...第N电压转换芯片(N为大于2的自然数),第一电压转换芯片的输入端与供电电源连接,第一电压转换芯片的输出PG信号传送给第二电压转换芯片,第二电压转换芯片的PG信号输出传递给下一级电压转换芯片,直至第N电压转换芯片的PG信号输出端经电阻后接地,和,BMC;所述BMC的输入端分别与电压转换芯片的PG信号输出端连接。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种服务器异常掉电快速定位方法,其特征是,包括以下步骤:
BMC周期读取各供电模块PG信号发生变化的掉电信息;
读取BMC日志中最先触发PG信号发生变化的位置信息,即确认引发掉电故障的供电模块。
2.如权利要求1所述的一种服务器异常掉电快速定位方法,其特征是,所述BMC周期读取各供电模块PG信号发生变化的掉电信息,包括:
供电模块的电压转换芯片在供电异常时PG信号由高电平转换为低电平,电压转换芯片的内部寄存器记录PG信号变化时间信息;
BMC周期的访问供电模块的供电异常地址信息,读取PG引脚电压数据,访问各供电模块的电压转换芯片内部寄存器,读取寄存器记录的供电异常时刻信息。
3.如权利要求2所述的一种服务器异常掉电快速定位方法,其特征是,所述供电异常地址信息包括芯片地址信息和PG引脚地址信息;所述芯片地址信息为发生故障的电压转换芯片的地址信息;所述PG引脚地址信息包括电压转换芯片为该芯片PG引脚分配的地址信息。
4.一种服务器异常掉电快速定位装置,采用权利要求1至3所述的方法,其特征是,包括:若干只依次顺序连接的电压转换芯片:第一电压转换芯片的输出PG信号传送给第二电压转换芯片,第二电压转换芯片的PG信号输出直至最后一级电压转换芯片,和,BMC;所述BMC的输入端分别与电压转换芯片的PG信号输出端连接。
5.如权利要求4所述的一种服务器异常掉电快速定位装置,其特征是,所述第一电压转换芯片的输入端与供电电源连接,所述最后一级电压转换单元的PG信号输出端与电阻连接后接地。
CN201710797906.4A 2017-09-06 2017-09-06 一种服务器异常掉电快速定位方法和装置 Active CN107526664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710797906.4A CN107526664B (zh) 2017-09-06 2017-09-06 一种服务器异常掉电快速定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710797906.4A CN107526664B (zh) 2017-09-06 2017-09-06 一种服务器异常掉电快速定位方法和装置

Publications (2)

Publication Number Publication Date
CN107526664A true CN107526664A (zh) 2017-12-29
CN107526664B CN107526664B (zh) 2020-07-24

Family

ID=60683796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710797906.4A Active CN107526664B (zh) 2017-09-06 2017-09-06 一种服务器异常掉电快速定位方法和装置

Country Status (1)

Country Link
CN (1) CN107526664B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722690A (zh) * 2020-06-12 2020-09-29 苏州浪潮智能科技有限公司 服务器电源模块监控方法、装置、服务器和存储介质
CN112463501A (zh) * 2020-12-11 2021-03-09 苏州浪潮智能科技有限公司 一种异常掉电的故障快速定位方法、设备及存储介质
CN113868101A (zh) * 2021-12-06 2021-12-31 苏州浪潮智能科技有限公司 一种服务器时序检测方法、装置及系统
CN113866671A (zh) * 2021-08-30 2021-12-31 苏州浪潮智能科技有限公司 一种监测服务器电压漏电的方法、系统、实现方法、装置
CN114201027A (zh) * 2021-12-17 2022-03-18 浪潮商用机器有限公司 一种服务器停止供电侦测方法及相关组件

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243605A (zh) * 2010-05-14 2011-11-16 鸿富锦精密工业(深圳)有限公司 检测装置及其检测方法
CN103792923A (zh) * 2014-02-14 2014-05-14 浪潮电子信息产业股份有限公司 一种采用数字芯片侦测和控制主板各组电源的方法
CN104615063A (zh) * 2014-12-29 2015-05-13 浪潮电子信息产业股份有限公司 电源管理系统及方法
CN106339294A (zh) * 2016-08-29 2017-01-18 浪潮电子信息产业股份有限公司 一种电压监控系统及方法
CN106445055A (zh) * 2016-09-09 2017-02-22 郑州云海信息技术有限公司 一种Rack服务器电源保护机制
CN106527646A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种基于pmbus总线的主板电源管理方法
CN106708234A (zh) * 2016-12-28 2017-05-24 郑州云海信息技术有限公司 一种基于cpld的系统电源状态监控方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243605A (zh) * 2010-05-14 2011-11-16 鸿富锦精密工业(深圳)有限公司 检测装置及其检测方法
CN103792923A (zh) * 2014-02-14 2014-05-14 浪潮电子信息产业股份有限公司 一种采用数字芯片侦测和控制主板各组电源的方法
CN104615063A (zh) * 2014-12-29 2015-05-13 浪潮电子信息产业股份有限公司 电源管理系统及方法
CN106339294A (zh) * 2016-08-29 2017-01-18 浪潮电子信息产业股份有限公司 一种电压监控系统及方法
CN106445055A (zh) * 2016-09-09 2017-02-22 郑州云海信息技术有限公司 一种Rack服务器电源保护机制
CN106527646A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种基于pmbus总线的主板电源管理方法
CN106708234A (zh) * 2016-12-28 2017-05-24 郑州云海信息技术有限公司 一种基于cpld的系统电源状态监控方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722690A (zh) * 2020-06-12 2020-09-29 苏州浪潮智能科技有限公司 服务器电源模块监控方法、装置、服务器和存储介质
CN111722690B (zh) * 2020-06-12 2022-04-22 苏州浪潮智能科技有限公司 服务器电源模块监控方法、装置、服务器和存储介质
CN112463501A (zh) * 2020-12-11 2021-03-09 苏州浪潮智能科技有限公司 一种异常掉电的故障快速定位方法、设备及存储介质
CN113866671A (zh) * 2021-08-30 2021-12-31 苏州浪潮智能科技有限公司 一种监测服务器电压漏电的方法、系统、实现方法、装置
CN113866671B (zh) * 2021-08-30 2024-01-12 苏州浪潮智能科技有限公司 一种监测服务器电压漏电的方法、系统、实现方法、装置
CN113868101A (zh) * 2021-12-06 2021-12-31 苏州浪潮智能科技有限公司 一种服务器时序检测方法、装置及系统
CN114201027A (zh) * 2021-12-17 2022-03-18 浪潮商用机器有限公司 一种服务器停止供电侦测方法及相关组件

Also Published As

Publication number Publication date
CN107526664B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN107526664A (zh) 一种服务器异常掉电快速定位方法和装置
CN105738854B (zh) 智能电表嵌入式应用的模拟存储器测试板系统及测试方法
CN104503306B (zh) 一种多相机同步触发装置及控制方法
CN101976217B (zh) 网络处理器异常检测方法及系统
CN106951587A (zh) Fpga调试系统及方法
CN106155883B (zh) 一种虚拟机可靠性测试方法及装置
TW201128348A (en) Method for generating multiple serial bus chip selects using single chip select signal and modulation of clock signal frequency
CN110727556A (zh) 一种bmc健康状态监控方法、系统、终端及存储介质
CN103593271A (zh) 一种片上系统芯片追踪调试的方法及装置
CN104035845B (zh) 一种内存条安装故障的检测系统及方法
CN111258830A (zh) 一种服务器功耗对比测试系统及方法
CN104917645A (zh) 一种在线检测报文传输超时的方法与装置
CN102074273B (zh) 存储器稳态总剂量效应试验测试方法
CN105738855A (zh) 一种面向智能电表嵌入式应用的测试方法
CN104678982A (zh) 使用独立控制模块进行测试的测试装置及其方法
CN104750600B (zh) 设备状态记录方法和系统
US11112819B2 (en) Method of clock gate analysis for improved efficiency of electronic circuitry system designs and related systems, methods and devices
CN103149468A (zh) 一种电子元器件参数测试装置
CN109002412A (zh) 基于I2C总线hold time定位通信故障的系统及方法
CN109189679A (zh) 接口测试方法及系统、电子设备、存储介质
CN112466386B (zh) 一种面向故障分类的存储器测试系统及方法
CN112463504B (zh) 一种双控存储产品测试方法、系统、终端及存储介质
CN106546850B (zh) 一种基于检测热台的sru故障确认方法及装置
CN104166046A (zh) 瞬态信号的处理方法及系统
CN109920466B (zh) 一种硬盘测试数据解析方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200630

Address after: 215100 No. 1 Guanpu Road, Guoxiang Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant