CN104424084A - 服务器的系统错误信息侦测系统及方法 - Google Patents

服务器的系统错误信息侦测系统及方法 Download PDF

Info

Publication number
CN104424084A
CN104424084A CN201310381583.2A CN201310381583A CN104424084A CN 104424084 A CN104424084 A CN 104424084A CN 201310381583 A CN201310381583 A CN 201310381583A CN 104424084 A CN104424084 A CN 104424084A
Authority
CN
China
Prior art keywords
server
error message
message
chip
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310381583.2A
Other languages
English (en)
Inventor
马淞
张文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Electronics Tianjin Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Electronics Tianjin Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Electronics Tianjin Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Electronics Tianjin Co Ltd
Priority to CN201310381583.2A priority Critical patent/CN104424084A/zh
Publication of CN104424084A publication Critical patent/CN104424084A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种服务器的系统错误信息侦测系统及方法,该服务器包括BMC芯片和BIOS芯片。该方法包括:在BMC芯片中定义一个系统错误码与系统错误信息的错误对照关系表;开启BMC芯片与BIOS芯片之间的LPC总线,并在BIOS芯片中设置一个用于获取服务器的系统启动信息的主板端口;当服务器正常启动时,通过LPC总线从主板端口中获取服务器的系统启动信息并保存在系统侦测文件中;当服务器发生故障时,利用系统侦测文件从保存在错误对照关系表中获取系统错误码;根据BMC芯片中的错误对照关系表解析出获取的系统错误码对应的系统错误信息。本发明能够准确快速简便地找出服务器的系统故障原因,以便尽快完成服务器的系统故障修复。

Description

服务器的系统错误信息侦测系统及方法
技术领域
本发明涉及一种计算机错误侦测系统及方法,特别是关于一种服务器的系统错误信息侦测系统及方法。
背景技术
服务器的应用在当今信息社会应用的越来越广泛,其性能好,安全性高,从而得到了用户的好评。在服务器使用过程中,不论研发人员或用户,都会地对服务器进行开关机、重新启动、强制关机、断电等许多操作。这时,服务器就有可能因为各种各样的故障原因而无法进入操作系统,但却不能确定具体的故障原因,无法继续利用服务器唤醒工作。当这样的情况发生时,用户经常需要将服务器无法启动的各种故障原因都考虑其中,花费大量的时间来对服务器进行调试修复,耗费时间非常巨大,影响了需要依靠服务器来完成的工作。
对于服务器不能进入操作系统的常用调试方法是利用调试(Debug)卡插在服务器的主板端口(例如Port80)上来获得服务器的故障信息,从而对服务器进行调试修复。然而,这种调试方法对于普通用户来说很难实现,并且不能将错误信息保存下来,不方便用户随时查看故障原因。尤其对拥有大量服务器的数据中心(Data Center)来说,这种调试方法更加耗时,并且成本较高,难以实现。
发明内容
鉴于以上内容,有必要提供一种服务器的系统错误信息侦测系统及方法,能够准确快速简便地找出服务器的系统故障原因,以便尽快完成服务器的系统故障修复。
所述服务器的系统错误信息侦测系统,该服务器包括BMC芯片以及BIOS芯片。该系统包括:设置模块,用于定义一个系统错误码与系统错误信息的错误对照关系表,将该错误对照关系表保存在BMC芯片的存储器中,开启BMC芯片与BIOS芯片之间的LPC总线,以及在BIOS芯片中设置一个用于获取服务器的系统启动信息的主板端口;侦测模块,用于当服务器正常启动时,通过LPC总线从所述主板端口中实时获取服务器的系统启动信息,并将系统启动信息保存在所述存储器的系统侦测文件中,当服务器发生故障时,利用所述系统侦测文件从保存在所述错误对照关系表中获取系统错误码;解析模块,用于根据BMC芯片中的错误对照关系表解析出获取的系统错误码对应的系统错误信息,以及将系统错误信息记录在服务器的系统日志表中。
所述服务器的系统错误信息侦测方法,该服务器包括BMC芯片以及BIOS芯片。该方法包括步骤:定义一个系统错误码与系统错误信息的错误对照关系表,并将该错误对照关系表保存在BMC芯片的存储器中;开启BMC芯片与BIOS芯片之间的LPC总线,并在BIOS芯片中设置一个用于获取服务器的系统启动信息的主板端口;当服务器正常启动时,通过LPC总线从主板端口中实时获取服务器的系统启动信息,并将系统启动信息保存在存储器的系统侦测文件中;当服务器发生故障时,利用系统侦测文件从保存在所述错误对照关系表中获取系统错误码;根据BMC芯片中的错误对照关系表解析出获取的系统错误码对应的系统错误信息,并将系统错误信息记录在服务器的系统日志表中。
相较于现有技术,当服务器在启动过程中发生故障时,本发明所述的系统错误信息侦测系统及方法能够通过BMC芯片来准确快速地找出系统故障的原因,其操作简便高效,增强了服务器自身的查错能力,以便尽快完成服务器的系统故障修复。这种方法不仅适用于服务器开发的工作人员,而且同样适用于使用服务器的普通用户。
附图说明
图1是本发明服务器的系统错误信息侦测系统较佳实施例的运行环境示意图。
图2是本发明服务器的系统错误信息侦测方法较佳实施例的流程图。
图3是存储在BMC芯片的存储器中的错误对照关系表的示意图。
主要元件符号说明
服务器                                       1
BMC芯片                                      10
系统错误信息侦测系统                         100
设置模块                                     111
侦测模块                                     112
解析模块                                     113
BIOS芯片                                     11
LPC总线                                      12
存储器                                       110
微处理器                                     120
远程监控设备                                 2
网络                                         3
具体实施方式
参阅图1所示,是本发明系统错误信息侦测系统100较佳实施例的运行环境示意图。在本实施例中,所述的系统错误信息侦测系统100安装并运行于服务器1中,该服务器1还包括,但不仅限于,基板管理控制器(Baseboard Management Controller,BMC芯片)10以及BIOS芯片11。该BMC芯片10和BIOS芯片11通过LPC(Low Pin Count)总线12相互连接。该BMC芯片10包括,但不仅限于,存储器110以及微处理器120。该服务器1通过网络3与远程监控设备2相连接。所述的远程监控设备2可以为一种个人计算机(PC)、工作站计算机(Workstationcomputer)或者其他电子装置。该远程监控设备2用于用户输入侦测服务器1的系统运行发生错误时的侦测指令,以及显示服务器1发生的系统错误信息。所述的网络3可以为一种国际互联网(Internet)或者企业局域网(Intranet)。
在本实施例中,所述的存储器110为一种内置于BMC芯片10中的Flash存储器或者EEPROM存储器,用于存储侦测服务器1的错误对照关系表以及系统侦测文件。该错误对照表定义了服务器1发生故障时的系统错误码与系统错误信息的对照关系。该系统侦测文件用于存储服务器1正常启动时从服务器1获取的系统启动信息,在服务器1发生故障时,侦测服务器1发生故障的系统错误信息。所述的微处理器120是一种微控制器或其他具备数据处理能力的处理芯片。
在本实施例中,所述的系统错误信息侦测系统100包括设置模块111、侦测模块112以及解析模块113。本发明所称的功能模块是指一种能够被微处理器120所执行并且能够完成固定功能的一系列程序指令段,其存储在存储器110中。关于各功能模块111-113将在图2的流程图中作具体描述。
参阅图2所示,是本发明服务器的系统错误信息侦测方法较佳实施例的流程图。在本实施例中,当服务器1在启动过程中发生故障时,该方法可以通过BMC芯片10来准确快速地找出服务器1的系统故障原因,其操作简便高效,增强了服务器1自身的查错能力。
步骤S21,设置模块111定义一个系统错误码与系统错误信息的错误对照关系表,并将该错误对照关系表保存在BMC芯片10的存储器110中。参考图3所示,是一个存储在存储器110中的错误对照关系表的示意图。该错误对照表定义了服务器1发生故障时的系统错误码与系统错误信息的对照关系,例如定义了CPU错误、内存错误、硬盘错误、显卡错误及声卡错误的系统错误码,其分别为:EC00001、EC00002、EC00003、EC00004及EC00005等。
步骤S22,设置模块111开启BMC芯片10与BIOS芯片11之间的LPC总线12,并在BIOS芯片11中设置一个用于获取服务器1的系统启动信息的主板端口。在本实施例中,该主板端口设置为第80号端口(例如Port:80),用于当服务器1正常启动时,BMC芯片10透过该端口获取服务器1的系统启动信息。
步骤S23,当服务器1正常启动时,侦测模块112通过LPC总线12从所述主板端口中实时获取服务器1的系统启动信息,并将系统启动信息保存在存储器110的系统侦测文件(Sensor file)中。在本实施例中,所述的系统侦测文件由BMC芯片10建立,并存储在BMC芯片10的存储器110中。当服务器1正常启动时,该系统侦测文件用于保存从服务器1获取的系统启动信息;当服务器1发生故障时,该系统侦测文件用于侦测服务器1发生故障的系统错误信息。
步骤S24,当服务器发生故障时,侦测模块112利用系统侦测文件从BMC芯片10中的错误对照关系表中获取系统错误码。在本实施例中,侦测模块112判断所述系统侦测文件中的系统启动信息是否被正常记录,当服务器1的硬件设备(例如内存)的启动信息没有被正常记录到系统侦测文件中,侦测模块112即从所述错误对照关系表中获取该硬件设备的系统错误码(例如EC00002)。
步骤S25,解析模块113根据BMC芯片10中的错误对照关系表解析出获取的系统错误码对应的系统错误信息。参考如图3所示,假如获取的系统错误码为EC00002,则解析模块113根据该错误对照关系表解析出的系统错误信息为内存(Memory)错误。
步骤S26,解析模块113将系统错误信息记录在服务器1的系统日志表中,并将该系统错误信息通过网络3显示在远程监控设备2上。当得到服务器1的系统错误信息后,解析模块113将通过网络浏览器(WebGUI)的形式直观将服务器1的系统错误信息显示在远程监控设备2上,同时也会以系统日志表(SEL)的形式将错误类型记录下来,方便用户后续通过多种不同的途径来产看服务器1的系统故障原因。此外,用户也可以通过IPMI命令来读取保存错误对照关系表中的系统错误码来获取服务器1的系统故障原因。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换都不应脱离本发明技术方案的精神和范围。

Claims (10)

1.一种服务器的系统错误信息侦测系统,该服务器包括BMC芯片以及BIOS芯片,其特征在于,所述的系统错误信息侦测系统包括:
设置模块,用于定义一个系统错误码与系统错误信息的错误对照关系表,将该错误对照关系表保存在BMC芯片的存储器中,开启BMC芯片与BIOS芯片之间的LPC总线,以及在BIOS芯片中设置一个用于获取服务器的系统启动信息的主板端口;
侦测模块,用于当服务器正常启动时,通过LPC总线从所述主板端口中实时获取服务器的系统启动信息,并将系统启动信息保存在所述存储器的系统侦测文件中,当服务器发生故障时,利用所述系统侦测文件从保存在所述错误对照关系表中获取系统错误码;以及
解析模块,用于根据BMC芯片中的错误对照关系表解析出获取的系统错误码对应的系统错误信息,以及将系统错误信息记录在服务器的系统日志表中。
2.如权利要求1所述的系统错误信息侦测系统,其特征在于,所述的解析模块还用于将服务器的系统错误信息通过网络显示在远程监控设备上。
3.如权利要求1所述的系统错误信息侦测系统,其特征在于,所述的系统侦测文件由BMC芯片建立,并存储在BMC芯片的存储器中。
4.如权利要求1所述的系统错误信息侦测系统,其特征在于,当服务器正常启动时,所述的系统侦测文件用于保存从服务器获取的系统启动信息,当服务器发生故障时,所述的系统侦测文件用于侦测服务器发生故障的系统错误信息。
5.如权利要求1所述的系统错误信息侦测系统,其特征在于,所述的从错误对照关系表中获取系统错误码的步骤包括:
判断所述系统侦测文件中的系统启动信息是否被正常记录;以及
当服务器的硬件设备的系统启动信息没有被正常记录到系统侦测文件中时,从所述错误对照关系表中获取该硬件设备对应的系统错误码。
6.一种服务器的系统错误信息侦测方法,该服务器包括BMC芯片以及BIOS芯片,其特征在于,该方法包括步骤:
定义一个系统错误码与系统错误信息的错误对照关系表,并将该错误对照关系表保存在BMC芯片的存储器中;
开启BMC芯片与BIOS芯片之间的LPC总线,并在BIOS芯片中设置一个用于获取服务器的系统启动信息的主板端口;
当服务器正常启动时,通过LPC总线从所述主板端口中实时获取服务器的系统启动信息,并将系统启动信息保存在所述存储器的系统侦测文件中;
当服务器发生故障时,利用所述系统侦测文件从保存在所述错误对照关系表中获取系统错误码;以及
根据BMC芯片中的错误对照关系表解析出获取的系统错误码对应的系统错误信息,以及将系统错误信息记录在服务器的系统日志表中。
7.如权利要求6所述的系统错误信息侦测方法,其特征在于,该方法还包括步骤:将服务器的系统错误信息通过网络显示在远程监控设备上。
8.如权利要求6所述的系统错误信息侦测方法,其特征在于,所述的系统侦测文件由BMC芯片建立,并存储在BMC芯片的存储器中。
9.如权利要求6所述的系统错误信息侦测方法,其特征在于,当服务器正常启动时,所述的系统侦测文件用于保存从服务器获取的系统启动信息,当服务器发生故障时,所述的系统侦测文件用于侦测服务器发生故障的系统错误信息。
10.如权利要求6所述的系统错误信息侦测方法,其特征在于,所述的从错误对照关系表中获取系统错误码的步骤包括:
判断所述系统侦测文件中的系统启动信息是否被正常记录;以及
当服务器的硬件设备的系统启动信息没有被正常记录到系统侦测文件中时,从所述错误对照关系表中获取该硬件设备对应的系统错误码。
CN201310381583.2A 2013-08-27 2013-08-27 服务器的系统错误信息侦测系统及方法 Pending CN104424084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310381583.2A CN104424084A (zh) 2013-08-27 2013-08-27 服务器的系统错误信息侦测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310381583.2A CN104424084A (zh) 2013-08-27 2013-08-27 服务器的系统错误信息侦测系统及方法

Publications (1)

Publication Number Publication Date
CN104424084A true CN104424084A (zh) 2015-03-18

Family

ID=52973131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310381583.2A Pending CN104424084A (zh) 2013-08-27 2013-08-27 服务器的系统错误信息侦测系统及方法

Country Status (1)

Country Link
CN (1) CN104424084A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850485A (zh) * 2015-05-25 2015-08-19 深圳国鑫恒宇技术有限公司 一种基于bmc远程诊断服务器开机故障的方法及系统
CN106155706A (zh) * 2015-03-22 2016-11-23 联想(北京)有限公司 保存电子设备启动信息的系统及方法
CN106227540A (zh) * 2016-07-27 2016-12-14 北京百度网讯科技有限公司 获取屏幕显示信息的方法、装置和系统
CN106339281A (zh) * 2016-09-08 2017-01-18 苏州中太服务器有限公司 一种通过bmc在power系统上对系统崩溃日志进行保留的方法
CN106874163A (zh) * 2016-12-29 2017-06-20 广州华多网络科技有限公司 一种显示软件错误码信息的方法及系统
CN107066360A (zh) * 2017-03-24 2017-08-18 联想(北京)有限公司 一种信息传输方法及服务器
CN107357694A (zh) * 2016-05-10 2017-11-17 佛山市顺德区顺达电脑厂有限公司 开机自检过程中错误事件汇报系统及其方法
CN108073738A (zh) * 2016-11-16 2018-05-25 鸿富锦精密电子(天津)有限公司 Gpio验证系统及方法
CN109117299A (zh) * 2017-06-23 2019-01-01 佛山市顺德区顺达电脑厂有限公司 服务器的侦错装置及其侦错方法
CN109144755A (zh) * 2017-06-19 2019-01-04 阿里巴巴集团控股有限公司 网页故障处理方法及设备
CN110209545A (zh) * 2019-06-12 2019-09-06 武汉通威电子有限公司 一种服务器调试及故障快速诊断装置
CN110413469A (zh) * 2018-04-28 2019-11-05 中国长城科技集团股份有限公司 一种故障检测系统
CN111651321A (zh) * 2020-05-26 2020-09-11 深圳市同泰怡信息技术有限公司 系统事件记录解析的方法、装置、存储介质和计算机设备
CN111949430A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 基于gpnv的基本输入输出系统错误信息记录方法、系统及终端
CN112256467A (zh) * 2020-10-23 2021-01-22 英业达科技有限公司 错误类型判断系统及其方法
CN113535502A (zh) * 2020-04-17 2021-10-22 捷普科技(上海)有限公司 用于服务器系统的错误日志收集方法
CN114399007A (zh) * 2021-11-30 2022-04-26 中国建设银行股份有限公司 信息反馈的方法、装置、计算机设备和存储介质
CN117389781A (zh) * 2023-10-18 2024-01-12 上海合芯数字科技有限公司 服务器设备的异常侦测与恢复方法、系统、服务器及介质

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155706A (zh) * 2015-03-22 2016-11-23 联想(北京)有限公司 保存电子设备启动信息的系统及方法
CN106155706B (zh) * 2015-03-22 2021-10-22 联想(北京)有限公司 保存电子设备启动信息的系统及方法
CN104850485A (zh) * 2015-05-25 2015-08-19 深圳国鑫恒宇技术有限公司 一种基于bmc远程诊断服务器开机故障的方法及系统
CN107357694A (zh) * 2016-05-10 2017-11-17 佛山市顺德区顺达电脑厂有限公司 开机自检过程中错误事件汇报系统及其方法
CN106227540A (zh) * 2016-07-27 2016-12-14 北京百度网讯科技有限公司 获取屏幕显示信息的方法、装置和系统
CN106339281A (zh) * 2016-09-08 2017-01-18 苏州中太服务器有限公司 一种通过bmc在power系统上对系统崩溃日志进行保留的方法
CN108073738A (zh) * 2016-11-16 2018-05-25 鸿富锦精密电子(天津)有限公司 Gpio验证系统及方法
CN106874163A (zh) * 2016-12-29 2017-06-20 广州华多网络科技有限公司 一种显示软件错误码信息的方法及系统
CN106874163B (zh) * 2016-12-29 2020-09-11 广州华多网络科技有限公司 一种显示软件错误码信息的方法及系统
CN107066360A (zh) * 2017-03-24 2017-08-18 联想(北京)有限公司 一种信息传输方法及服务器
CN109144755A (zh) * 2017-06-19 2019-01-04 阿里巴巴集团控股有限公司 网页故障处理方法及设备
CN109117299A (zh) * 2017-06-23 2019-01-01 佛山市顺德区顺达电脑厂有限公司 服务器的侦错装置及其侦错方法
CN109117299B (zh) * 2017-06-23 2022-04-05 佛山市顺德区顺达电脑厂有限公司 服务器的侦错装置及其侦错方法
CN110413469A (zh) * 2018-04-28 2019-11-05 中国长城科技集团股份有限公司 一种故障检测系统
CN110209545A (zh) * 2019-06-12 2019-09-06 武汉通威电子有限公司 一种服务器调试及故障快速诊断装置
CN113535502A (zh) * 2020-04-17 2021-10-22 捷普科技(上海)有限公司 用于服务器系统的错误日志收集方法
CN111651321A (zh) * 2020-05-26 2020-09-11 深圳市同泰怡信息技术有限公司 系统事件记录解析的方法、装置、存储介质和计算机设备
CN111949430A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 基于gpnv的基本输入输出系统错误信息记录方法、系统及终端
CN112256467A (zh) * 2020-10-23 2021-01-22 英业达科技有限公司 错误类型判断系统及其方法
CN114399007A (zh) * 2021-11-30 2022-04-26 中国建设银行股份有限公司 信息反馈的方法、装置、计算机设备和存储介质
CN114399007B (zh) * 2021-11-30 2024-04-30 中国建设银行股份有限公司 信息反馈的方法、装置、计算机设备和存储介质
CN117389781A (zh) * 2023-10-18 2024-01-12 上海合芯数字科技有限公司 服务器设备的异常侦测与恢复方法、系统、服务器及介质
CN117389781B (zh) * 2023-10-18 2024-06-04 上海合芯数字科技有限公司 服务器设备的异常侦测与恢复方法、系统、服务器及介质

Similar Documents

Publication Publication Date Title
CN104424084A (zh) 服务器的系统错误信息侦测系统及方法
US9569325B2 (en) Method and system for automated test and result comparison
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
US8024609B2 (en) Failure analysis based on time-varying failure rates
CN110086658B (zh) 接口切换方法、装置及计算机可读存储介质
US8738965B2 (en) Test method and test device for restarting a computer based on a hardware information comparison and a restart count
CN102737724B (zh) 非易失性随机访问存储器测试方法
TW201500935A (zh) 機櫃伺服器基板管理控制器開關機控制系統及方法
US8909952B2 (en) Power supply apparatus of computer system and method for controlling power sequence thereof
CN104423981A (zh) Bmc固件自动更新系统及方法
CN102244591A (zh) 客户端服务器及对其功能测试全程监测的方法
CN104572465A (zh) 一种新型BIOS Debug的方法
CN110647471A (zh) 接口测试用例生成方法、电子装置及存储介质
US8726088B2 (en) Method for processing booting errors
CN112035285B (zh) 基于高通平台的硬件看门狗电路系统及其监控方法
CN104598340A (zh) 硬件故障的检测系统、电子装置及方法
CN114978883B (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
TW201516665A (zh) 伺服器之系統錯誤資訊偵測系統及方法
CN110187922B (zh) 设置并验证bios参数的方法、装置、设备及存储介质
US20140143601A1 (en) Debug device and debug method
CN115098291A (zh) 一种系统重启原因记录的方法、系统、存储介质及设备
US9645873B2 (en) Integrated configuration management and monitoring for computer systems
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
US9141511B2 (en) Method and system for verifying sleep wakeup protocol by computing state transition paths
CN110471800B (zh) 服务器及自动检修基板管理控制器的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150318

WD01 Invention patent application deemed withdrawn after publication