CN116414611A - 基于冗余存储的开机自检设备故障定位系统 - Google Patents

基于冗余存储的开机自检设备故障定位系统 Download PDF

Info

Publication number
CN116414611A
CN116414611A CN202111651050.2A CN202111651050A CN116414611A CN 116414611 A CN116414611 A CN 116414611A CN 202111651050 A CN202111651050 A CN 202111651050A CN 116414611 A CN116414611 A CN 116414611A
Authority
CN
China
Prior art keywords
bios module
fault
detection
self
error information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111651050.2A
Other languages
English (en)
Inventor
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huanda Computer Shanghai Co Ltd
Original Assignee
Huanda Computer Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huanda Computer Shanghai Co Ltd filed Critical Huanda Computer Shanghai Co Ltd
Priority to CN202111651050.2A priority Critical patent/CN116414611A/zh
Publication of CN116414611A publication Critical patent/CN116414611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

一种基于冗余存储的开机自检设备故障定位系统,其应用于一服务器,包括:一BIOS模块、一EEPROM芯片、一基板管理控制器以及一显示器;其中,该BIOS模块其内集成多个待测设备的检测程序,在该服务器的电源开启后,该BIOS模块依照预先设定的顺序依次执行该些检测程序;当该BIOS模块检测到某一个待测设备发生故障时,则将该故障对应的错误信息记录至该EEPROM芯片,如果没有,则继续执行下一个设备的检测直到对该些待测设备均完成检测后发送一检测完成信息,该BIOS模块在将该错误信息记录至该EEPROM芯片后,将进一步判断是否能继续执行未完成的开机自检,如果是则再将该错误信息发送至该基板管理控制器,并在显示器上提示相关的错误信息。

Description

基于冗余存储的开机自检设备故障定位系统
【技术领域】
本发明是一开机自检系统,特别是一种基于冗余存储的开机自检设备故障定位系统。
【背景技术】
目前,计算机系统开机运行的第一个程序是BIOS(Basic Input Output System),其主要功能是为计算机提供最底层的、最直接的硬件检测,设置和控制。 其中第一个部分是用于电脑刚接通电源时对硬件部分的检测,也叫做加电自检(Power On Self Test,简称POST),功能是检查电脑是否良好,通常POST自检将包括对CPU,内存,PCIE设备,硬盘子系统等内部外部设备进行测试,一旦在自检中发现问题,系统将给出提示信息或鸣笛警告。自检中如发现有错误,将按两种情况处理:对于严重故障(致命性故障)则停机,此时由于各种初始化操作还没完成,不能给出任何提示或信号;对于非严重故障则给出提示或声音报警信号,等待用户处理。 对于服务器系统(亦包含其它类计算机产品)的研究开发,生产,使用,整个过程中必然出现各种设备问题,尤其是使用大量服务器的数据中心,高负荷,长时间的系统运行必然会导致各种设备的老化,故障等。目前通过Silicon Vendor提供的RAS功能,Memory的ECC功能,HDD的S.M.A.R.T.等硬件特性,和各种设备设计时提供的hot swap功能,以及数据中心使用的冗余设计等可以很好的做到运行期间故障检测,问题设备替换,保证服务器系统的稳定运行。但是在POST过程中的自检,因为对开机时间等要求,检测范围和强度相对非常宽松,使得很多原本存在的问题被推迟到系统运行工作期间才被发现,甚至导致问题积累和扩大。
【发明内容】
本发明所要解决的技术问题是提供一种基于冗余存储的开机自检设备故障定位系统,其可实时记录开机自检过程中的设备故障的错误信息,使得问题设备可以在早期被发现,做到早期修复或者替换,把损失降到最低。
为解决上述技术问题,本发明一种基于冗余存储的开机自检设备故障定位系统,其应用于一服务器,包括:一BIOS模块、一EEPROM芯片、一基板管理控制器以及一显示器;其中,
该BIOS模块其内集成多个待测设备的检测程序,用于开机自检,在该服务器的电源开启后,该BIOS模块依照预先设定的顺序依次执行该些检测程序对相应的待测设备进行检测;
该EEPROM芯片,其与该BIOS模块连接,当该BIOS模块检测到某一个待测设备发生故障时,则将该故障对应的错误信息记录至该EEPROM芯片,如果没有,则继续执行下一个设备的检测直到对该些待测设备均完成检测后发送一告知该些设备均无故障的检测完成信息,该BIOS模块在将该错误信息记录至该EEPROM芯片后,将进一步判断是否能继续执行未完成的开机自检,如果是则再将该错误信息发送至该基板管理控制器供远程访问,如果否,则用户可通过一烧录读取设备读取记录于该EEPROM芯片中的错误信息;以及
该显示器,其连接该BIOS模块,用于显示该BIOS模块发送的该检测完成信息以及相关的错误信息。
优选地,该BIOS模块通过IPMI或Redfish接口将该错误信息发送至该基板管理控制器。
与现有技术相比较,本发明的基于冗余存储的开机自检设备故障定位系统由于增加了EEPROM芯片,可实时地记录在服务器开机自检中发生故障的设备所对应的错误信息,使得问题设备可以在早期被发现,做到早期修复或者替换,把损失降到最低,即使在受问题设备影响导致系统无法正常运行,也可以通过烧录设备读取EEPROM芯片中的信息,可快速判断问题设备。
【附图说明】
图1为本发明一种基于冗余存储的开机自检设备故障定位系统的方块原理图。
【具体实施方式】
请参阅图1所示,本发明提供一种基于冗余存储的开机自检设备故障定位系统,其应用于一服务器,包括一BIOS(Basic Input Output System)模块10、一EEPROM(Electrically Erasable Programmable read only memory)芯片11、一基板管理控制器12以及一显示器13。
该BIOS模块10,其内集成多个待测设备的检测程序,用于开机自检,在该服务器的电源开启后,该BIOS模块10依照预先设定的顺序依次执行该些检测程序对相应的待测设备进行检测。
该EEPROM芯片11,其与该BIOS模块10连接,当该BIOS模块10检测到某一个待测设备发生故障时,则将该故障对应的错误信息记录至该EEPROM芯片11,该错误信息包含设备类型,设备位置,错误位置等具体信息,如果没有,则继续执行下一个设备的检测直到对该些待测设备均完成检测后发送一告知该些设备均无故障的检测完成信息。该BIOS模块10在将该错误信息记录至该EEPROM芯片11后,将进一步判断是否能继续执行未完成的开机自检,如果是则再将该错误信息通过IPMI/Redfish接口发送至该基板管理控制器12供远程访问,如果否,则用户可通过一烧录读取设备(未示)读取记录于该EEPROM芯片11中的错误信息以便及时发现故障设备。
该显示器13,其连接该BIOS模块10,用于显示该BIOS模块10发送的该检测完成信息以及相关的错误信息。
由此可见,本发明的基于冗余存储的开机自检设备故障定位系统由于增加了EEPROM芯片11,可实时地记录在服务器开机自检中发生故障的设备所对应的错误信息,使得问题设备可以在早期被发现,做到早期修复或者替换,把损失降到最低,即使在受问题设备影响导致系统无法正常运行,也可以通过烧录设备读取EEPROM芯片11中的信息,可快速判断问题设备。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (2)

1.一种基于冗余存储的开机自检设备故障定位系统,其应用于一服务器,其特征在于,包括:一BIOS模块、一EEPROM芯片、一基板管理控制器以及一显示器,其中,
该BIOS模块其内集成多个待测设备的检测程序,用于开机自检,在该服务器的电源开启后,该BIOS模块依照预先设定的顺序依次执行该些检测程序对相应的待测设备进行检测;
该EEPROM芯片,其与该BIOS模块连接,当该BIOS模块检测到某一个待测设备发生故障时,则将该故障对应的错误信息记录至该EEPROM芯片,如果没有,则继续执行下一个设备的检测直到对该些待测设备均完成检测后发送一告知该些设备均无故障的检测完成信息,该BIOS模块在将该错误信息记录至该EEPROM芯片后,将进一步判断是否能继续执行未完成的开机自检,如果是则再将该错误信息发送至该基板管理控制器供远程访问,如果否,则用户可通过一烧录读取设备读取记录于该EEPROM芯片中的错误信息;以及
该显示器,其连接该BIOS模块,用于显示该BIOS模块发送的该检测完成信息以及相关的错误信息。
2.根据权利要求1所述的基于冗余存储的开机自检设备故障定位系统,其特征在于,该BIOS模块通过IPMI或Redfish接口将该错误信息发送至该基板管理控制器。
CN202111651050.2A 2021-12-30 2021-12-30 基于冗余存储的开机自检设备故障定位系统 Pending CN116414611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111651050.2A CN116414611A (zh) 2021-12-30 2021-12-30 基于冗余存储的开机自检设备故障定位系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111651050.2A CN116414611A (zh) 2021-12-30 2021-12-30 基于冗余存储的开机自检设备故障定位系统

Publications (1)

Publication Number Publication Date
CN116414611A true CN116414611A (zh) 2023-07-11

Family

ID=87058238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111651050.2A Pending CN116414611A (zh) 2021-12-30 2021-12-30 基于冗余存储的开机自检设备故障定位系统

Country Status (1)

Country Link
CN (1) CN116414611A (zh)

Similar Documents

Publication Publication Date Title
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
TWI470420B (zh) 除錯方法及電腦系統
US20070168738A1 (en) Power-on error detection system and method
TW201520895A (zh) Bios自動恢復系統及方法
CN102567171A (zh) 一种测试刀片服务器主板的方法
CN113366576A (zh) 用于存储器系统上的功率损耗操作的保持自测试
CN110502386B (zh) 硬盘的故障在线诊断方法和装置
TW201500919A (zh) 基板管理控制器遠端調試系統及方法
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
US9158646B2 (en) Abnormal information output system for a computer system
CN115525486A (zh) Ssd smbus温度报警及低功耗状态的测试验证方法及装置
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
WO2019184612A1 (zh) 一种终端及电子设备
CN113851180A (zh) 检测ssd备电可靠性的系统、测试治具及ssd
CN116414611A (zh) 基于冗余存储的开机自检设备故障定位系统
TW201706844A (zh) 電源失效偵測系統與其方法
US10922023B2 (en) Method for accessing code SRAM and electronic device
US20110172945A1 (en) Method for monitoring burn-in procedure of electronic device
CN112256535A (zh) 硬盘告警方法、装置、计算机设备及存储介质
TWI777259B (zh) 開機方法
CN112015579A (zh) 计算机装置与基本输入输出系统的检测方法
US7487399B2 (en) System and method for testing a component in a computer system using frequency margining
TWI775360B (zh) 用以記錄電腦系統的硬體元件狀態的儲存裝置及其電腦實施方法
TW201300801A (zh) 測試設備資訊檢查方法及系統
WO2024121938A1 (ja) ピンエレクトロニクス装置、試験装置、および方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination