CN104424042A - 错误处理系统和方法 - Google Patents

错误处理系统和方法 Download PDF

Info

Publication number
CN104424042A
CN104424042A CN201310372099.3A CN201310372099A CN104424042A CN 104424042 A CN104424042 A CN 104424042A CN 201310372099 A CN201310372099 A CN 201310372099A CN 104424042 A CN104424042 A CN 104424042A
Authority
CN
China
Prior art keywords
module
mistake
signal
error
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310372099.3A
Other languages
English (en)
Inventor
郭利文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201310372099.3A priority Critical patent/CN104424042A/zh
Priority to US14/466,349 priority patent/US9569299B2/en
Publication of CN104424042A publication Critical patent/CN104424042A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

一种错误处理系统,应用在一服务器系统中,所述错误处理系统包括有南桥芯片及基本输入输出系统;所述南桥芯片连接所述基本输入输出系统,所述南桥芯片用以在侦测到所述服务器系统的中央处理器产生错误时发出的错误信号后发送一错误通知信号至所述基本输入输出系统;所述基板管理控制器用以在接收到所述错误通知信号后查询并处理该错误。本发明进一步揭示一种错误处理方法。

Description

错误处理系统和方法
技术领域
本发明涉及一种错误处理系统和方法,特别是一用以处理服务器中中央处理器产生的错误。
背景技术
随着科技的发展,服务器系统的中央处理器(Central Processing Unit,CPU)嵌入内置电压调整器(Integrate Voltage Regulation, IVR),这种情况下中央处理器内部将产生很多错误,如当中央处理器满载时,内置电压调整器输出的电压不足以满足满载时的电压,而使中央处理器无法正常工作。
发明内容
鉴于以上内容,有必要提供一种自动处理中央处理器产生的错误的错误处理系统和方法。
一种错误处理系统,应用在一服务器系统中,所述错误处理系统包括有南桥芯片及基本输入输出系统;所述南桥芯片连接所述基本输入输出系统,所述南桥芯片用以在侦测到所述服务器系统的中央处理器产生错误时发出的错误信号后发送一错误通知信号至所述基本输入输出系统;所述基板管理控制器用以在接收到所述错误通知信号后查询并处理该错误。
一实施方式中,所述南桥芯片包括有错误侦测模块及错误通知模块,所述错误侦测模块用以侦测所述错误信号,所述错误通知模块用以在所述侦测模块侦测到所述错误信号后发送一错误通知信号至所述基本输入输出系统。
一实施方式中,所述基本输入输出系统包括有错误查询模块,所述错误查询模块用以在接收到所述错误通知信号后查询所述错误。
一实施方式中,所述错误处理系统还包括有基板管理控制器,所述基本输入输出系统还包括有错误判断模块,所述错误判断模块用以在所述错误查询模块查询到所述错误后判断所述错误是否为预设错误;所述错误判断模块用以在所述错误为预设错误时发送一系统重启信号至所述基板管理控制器。
一实施方式中,所述基板管理控制器包括有控制模块及计时器,所述南桥芯片还包括有开机模块及关机模块;所述控制模块用以在接收到所述系统重启信号后发送一关机信号至所述关机模块,所述关机模块用以在接收到所述关机信号后关闭所述服务器系统;所述计时器用以记录所述关机时间,所述开机模块用以在接收到所述控制模块于所述关机时间至预设时间发送的开机信号后开启所述服务器系统。
一种错误处理方法,运用在一服务器系统中,所述方法包括以下步骤:
一南桥芯片侦测到一服务器系统的中央处理器产生错误时发出的错误信号后发送一错误通知信号至一基本输入输出系统;
所述基本输入输出系统在接收到所述错误通知信号后查询并处理所述错误。
一实施方式中,所述南桥芯片的一错误侦测模块侦测所述错误信号;
所述南桥芯片的一错误通知模块发送所述错误通知信号。
一实施方式中,所述基本输入输出系统的错误查询模块查询所述错误。
一实施方式中,所述基本输入输出系统的错误判断模块判断所述错误是否为预设错误;
当所述错误为预设错误时,所述错误判断模块发送一系统重启信号重启信号至所述基板管理控制器;
当所述错误不是预设错误时,所述基本输入输出系统的错误恢复模块恢复所述服务器系统。
一实施方式中,在当错误为预设错误时,所述错误判断模块发送一系统重启信号重启信号至所述基板管理控制器与当所述错误不是预设错误时,所述基本输入输出系统的错误恢复模块恢复所述服务器系统之间,还包括有以下步骤:
所述基板管理控制器的控制模块发送一关机信号;
所述南桥芯片的关机模块关闭服务器系统;
所述基板管理控制器的计时器记录所述服务器系统关机时间至预设时间,所述控制模块发送一开机信号;
所述南桥芯片的开机模块开启所述服务器系统。
相较于现有技术,上述错误处理系统和方法中,通过所述南桥芯片侦测到所述中央处理器产生错误时发出的错误信号后发送错误通知信号至所述基本输入输出系统,所述基本输入输出系统接收到所述错误通知信号查询和处理。
附图说明
图1是本发明错误处理系统法一较佳实施例的一方块图。
图2至图3是本发明错误恢复方法中的一流程图。
主要元件符号说明
服务器系统 100
中央处理器 101
南桥芯片 200
错误侦测模块 201
错误通知模块 202
开机模块 203
关机模块 204
基本输入输出系统 300
错误查询模块 301
错误判断模块 302
错误记录模块 303
错误恢复模块 304
基板管理控制器 400
控制模块 401
计时器 402
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参阅图1,在本发明的一较佳实施方式中,一错误处理系统,运用于一服务器系统100中,用以在所述服务器系统100中的中央处理器(Central Processing Unit,CPU)101内部发生错误时自动恢复所述服务器系统100。所述错误处理系统包括有一南桥芯片200、一基本输入输出系统(Basic Input Output System,BIOS)300及一基板管理控制器(Baseboard Management Controller,BMC)400。所述中央处理器101通过所述南桥芯片200分别连接所述基本输入输出系统300及所述基板管理控制器400。所述南桥芯片200在侦测到所述中央处理器101的错误信号后发送一错误通知信号至所述基本输入输出系统300。所述基本输入输出系统300查询并处理错误。
所述南桥芯片200包括有一错误侦测模块201、一错误通知模块202、一开机模块203及一关机模块204。所述错误侦测模块201用于侦测所述中央处理器101内部产生错误时发出的错误信号。所述错误通知模块202发送所述错误通知信号至所述基本输入输出系统300。
所述基本输入输出系统300包括有一错误查询模块301、一错误判断模块302、一错误记录模块303及一错误恢复模块304。所述错误查询模块301接收到所述错误通知信号后查询错误。所述错误判断模块302判断所述错误是否为预设错误,如中央处理器内部电压调节器产生的IERR错误;当所述错误为预设错误时,所述错误判断模块302发送一系统重启信号至所述基板管理控制器400;当所述错误不是预设错误时,所述错误恢复模块304自行恢复服务器系统100。
所述基板管理控制器400包括有一控制模块401及一计时器402。所述控制模块401用以在接收到所述系统重启信号后发送一关机信号至所述基本输入输出系统300的关机模块204,所述关机模块204关闭所述服务器系统100。所述计时器402记录所述服务器系统100的关机时间,所述控制模块401在所述关机时间至预设时间(例如,关机后5S)后发送一开机信号至所述开机模块203,所述开机模块203在接收到所述开机信号后开启所述服务器系统100。
请参阅图2-3,其为采用本发明错误处理系统实现错误处理犯法的一较佳实施方式的流程图:
步骤S601:所述南桥芯片200的错误侦测模块201侦测到一错误信号。
步骤S602:所述南桥芯片200的错误通知模块202发送一错误通知信号至基本输入输出系统300。
步骤S603:所述基板管理控制器400的错误查询模块301查询错误。
步骤S604:所述基本输入输出系统300的错误判断模块302判断所述错误是否是一预设错误,如中央处理器101内部电压调节器产生的IERR错误;若是,则进入步骤S605;若否,则进入步骤S610。
步骤S605:所述错误判断模块302发送一系统重启信号至所述基板管理控制器400。
步骤S606:所述基板管理控制器400的控制模块401发送一关机信号至所述南桥芯片200。
步骤S607:所述南桥芯片200的关机模块204关闭服务器系统100。
步骤S608:所述基板管理控制器400的计时器记录关机时间至预设时间后,所述控制模块401发送一开机信号至所述南桥芯片。
步骤S609:所述南桥芯片的开机模块开启所述服务器系统100。
步骤S610:所述基本输入输出系统300的错误恢复模块304自行恢复服务器系统100。
通过上述错误处理系统和方法,在所述中央处理器101内部发生错误时,通过所述错误处理系统根据不同错误,自动重启所述服务器系统100,或者通过所述基本输入输出系统300自行恢复处理错误,以确保所述中央处理器101正常工作。

Claims (10)

1.一种错误处理系统,应用在一服务器系统中,其特征在于:所述错误处理系统包括有南桥芯片及基本输入输出系统;所述南桥芯片连接所述基本输入输出系统,所述南桥芯片用以在侦测到所述服务器系统的中央处理器产生错误时发出的错误信号后发送一错误通知信号至所述基本输入输出系统;所述基板管理控制器用以在接收到所述错误通知信号后查询并处理该错误。
2.如权利要求1所述的错误处理系统,其特征在于:所述南桥芯片包括有错误侦测模块及错误通知模块,所述错误侦测模块用以侦测所述错误信号,所述错误通知模块用以在所述侦测模块侦测到所述错误信号后发送一错误通知信号至所述基本输入输出系统。
3.如权利要求1所述的错误处理系统,其特征在于:所述基本输入输出系统包括有错误查询模块,所述错误查询模块用以在接收到所述错误通知信号后查询所述错误。
4.如权利要求3所述的错误处理系统,其特征在于:所述错误处理系统还包括有基板管理控制器,所述基本输入输出系统还包括有错误判断模块,所述错误判断模块用以在所述错误查询模块查询到所述错误后判断所述错误是否为预设错误;所述错误判断模块用以在所述错误为预设错误时发送一系统重启信号至所述基板管理控制器。
5.如权利要求4所述的错误处理系统,其特征在于:所述基板管理控制器包括有控制模块及计时器,所述南桥芯片还包括有开机模块及关机模块;所述控制模块用以在接收到所述系统重启信号后发送一关机信号至所述关机模块,所述关机模块用以在接收到所述关机信号后关闭所述服务器系统;所述计时器用以记录所述关机时间,所述开机模块用以在接收到所述控制模块于所述关机时间至预设时间发送的开机信号后开启所述服务器系统。
6.一种错误处理方法,运用在一服务器系统中,所述方法包括以下步骤:
一南桥芯片侦测到一服务器系统的中央处理器产生错误时发出的错误信号后发送一错误通知信号至一基本输入输出系统;
所述基本输入输出系统在接收到所述错误通知信号后查询并处理所述错误。
7.如权利要求6所述的错误处理方法,其特征在于:
所述南桥芯片的一错误侦测模块侦测所述错误信号;
所述南桥芯片的一错误通知模块发送所述错误通知信号。
8.如权利要求6所述的错误处理方法,其特征在于:
所述基本输入输出系统的错误查询模块查询所述错误。
9.如权利要求8所述的错误处理方法,其特征在于:
所述基本输入输出系统的错误判断模块判断所述错误是否为预设错误;
当所述错误为预设错误时,所述错误判断模块发送一系统重启信号重启信号至所述基板管理控制器;
当所述错误不是预设错误时,所述基本输入输出系统的错误恢复模块恢复所述服务器系统。
10.如权利要求9所述的错误处理方法,其特征在于:在当错误为预设错误时,所述错误判断模块发送一系统重启信号重启信号至所述基板管理控制器与当所述错误不是预设错误时,所述基本输入输出系统的错误恢复模块恢复所述服务器系统之间,还包括有以下步骤:
所述基板管理控制器的控制模块发送一关机信号;
所述南桥芯片的关机模块关闭服务器系统;
所述基板管理控制器的计时器记录所述服务器系统关机时间至预设时间,所述控制模块发送一开机信号;
所述南桥芯片的开机模块开启所述服务器系统。
CN201310372099.3A 2013-08-23 2013-08-23 错误处理系统和方法 Pending CN104424042A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310372099.3A CN104424042A (zh) 2013-08-23 2013-08-23 错误处理系统和方法
US14/466,349 US9569299B2 (en) 2013-08-23 2014-08-22 System and method for treating server errors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310372099.3A CN104424042A (zh) 2013-08-23 2013-08-23 错误处理系统和方法

Publications (1)

Publication Number Publication Date
CN104424042A true CN104424042A (zh) 2015-03-18

Family

ID=52481501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310372099.3A Pending CN104424042A (zh) 2013-08-23 2013-08-23 错误处理系统和方法

Country Status (2)

Country Link
US (1) US9569299B2 (zh)
CN (1) CN104424042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610712A (zh) * 2015-10-21 2017-05-03 鸿富锦精密电子(天津)有限公司 基板管理控制器复位系统及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424042A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CN104424041A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CN113868667A (zh) * 2021-09-29 2021-12-31 北京东土科技股份有限公司 一种安全检测系统、方法、装置及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099934B1 (en) * 1996-07-23 2006-08-29 Ewing Carrel W Network-connecting power manager for remote appliances
US20050050385A1 (en) * 2003-08-26 2005-03-03 Chih-Wei Chen Server crash recovery reboot auto activation method and system
JP2005309552A (ja) * 2004-04-19 2005-11-04 Hitachi Ltd 計算機
JP2006178557A (ja) * 2004-12-21 2006-07-06 Nec Corp コンピュータシステム及びエラー処理方法
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US20080256400A1 (en) * 2007-04-16 2008-10-16 Chih-Cheng Yang System and Method for Information Handling System Error Handling
TWI436588B (zh) * 2010-03-16 2014-05-01 Acer Inc 電源鎖定的設定方法及其電子裝置
CN102467417B (zh) * 2010-11-19 2014-04-23 英业达股份有限公司 计算机系统
CN102486746A (zh) * 2010-12-03 2012-06-06 鸿富锦精密工业(深圳)有限公司 服务器及其检测pci系统错误的方法
CN104424042A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610712A (zh) * 2015-10-21 2017-05-03 鸿富锦精密电子(天津)有限公司 基板管理控制器复位系统及方法
CN106610712B (zh) * 2015-10-21 2020-08-28 鸿富锦精密电子(天津)有限公司 基板管理控制器复位系统及方法

Also Published As

Publication number Publication date
US20150058666A1 (en) 2015-02-26
US9569299B2 (en) 2017-02-14

Similar Documents

Publication Publication Date Title
CN104424041A (zh) 错误处理系统和方法
WO2017185806A1 (zh) 充电唤醒装置及充电唤醒装置的控制方法
CN104424042A (zh) 错误处理系统和方法
WO2017090098A1 (ja) 設備管理装置および方法
US20130073876A1 (en) Network wake up system with protection function
US10181976B2 (en) System and method of adjusting data collection frequency
US20190138484A1 (en) Control circuit
WO2018232858A1 (zh) 一种机床运行状态的智能监控方法及系统
CN103605596B (zh) 用于atca刀片上的fpga芯片与bmc芯片协同电源管理系统和方法
US20120136970A1 (en) Computer system and method for managing computer device
CN102455950A (zh) 基板管理控制器的韧体恢复系统及方法
US20120131361A1 (en) Remote controller and method for remotely controlling motherboard using the remote controller
CN106610712B (zh) 基板管理控制器复位系统及方法
CN103414332B (zh) 一种电源芯片故障检测和控制电路、方法及系统
US20170083425A1 (en) Detection system and method for baseboard management controller
US9075586B2 (en) Power switching system, computer system, and reboot controlling method thereof
JPWO2016021395A1 (ja) 機器監視システム、機器監視プログラム、及び、機器監視方法
GB0502703D0 (en) Method and system for remote monitoring
CN108763005B (zh) 一种内存ecc故障报错方法及系统
CN102375775A (zh) 一种系统不可恢复错误指示信号检测电路
US11294444B2 (en) Actual or apparent power failure detecting system and method
CN104485991A (zh) 一种光模块故障自动报警方法及系统
CN103926991A (zh) 自动开机系统及方法
CN116668265A (zh) 一种监测i2c总线通信异常的方法及系统
US20150046128A1 (en) Filtration method for abnormal sensing data of monitoring chip

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150318

WD01 Invention patent application deemed withdrawn after publication