JP2007109238A - 回復可能なエラーのロギングのためのシステム及び方法 - Google Patents

回復可能なエラーのロギングのためのシステム及び方法 Download PDF

Info

Publication number
JP2007109238A
JP2007109238A JP2006278678A JP2006278678A JP2007109238A JP 2007109238 A JP2007109238 A JP 2007109238A JP 2006278678 A JP2006278678 A JP 2006278678A JP 2006278678 A JP2006278678 A JP 2006278678A JP 2007109238 A JP2007109238 A JP 2007109238A
Authority
JP
Japan
Prior art keywords
chipset
status register
recoverable
bmc
memory unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006278678A
Other languages
English (en)
Inventor
Saurabh Gupta
サウラブフ・グプタ
Akkiah Maddukuri
アッキア・マッドゥクリ
Bi Chong Wang
ビ−チョン・ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dell Products LP
Original Assignee
Dell Products LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dell Products LP filed Critical Dell Products LP
Publication of JP2007109238A publication Critical patent/JP2007109238A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware

Abstract

【課題】情報ハンドリングシステムにおける回復可能なエラーのソース及びそのソースの場所を示す情報をログする。
【解決手段】システムは、基板管理コントローラ(BMC)及び基本入出力システム(BIOS)を含むメモリユニットを含む。システム管理割り込み(SMI)は周期的に呼び出される。ステータスレジスタは、回復可能なエラーが発生したか否かを検出するためにスキャンされる。回復可能なエラーが検出された場合、システムは基板管理コントローラに関連付けられたメモリユニットにログする。システムは、回復可能なエラーのソース及びそのソースの場所を示す情報をログする。回復可能なエラーの検出がない場合には、システムは回復可能なエラーが発生していないことを示す通信を伝送する。
【選択図】図1

Description

本発明は、一般的に、コンピュータシステム及び情報ハンドリングシステムに関し、特に、回復可能なエラーのロギングのためのシステム及び方法に関する。
情報の使用及び価値が増大し続けるにつれて、個人及びビジネスは情報を処理し格納するための更なる方法を求めている。これらユーザが利用可能な1つのオプションは、情報ハンドリングシステムである。情報ハンドリングシステムは、一般的に、ビジネス、パーソナル或いは他の目的のための情報或いはデータを処理し、コンパイル及び格納し、これにより、ユーザが情報の価値を利用することを可能にする。技術及び情報ハンドリングのニーズ及び要求は異なるユーザ間或いはアプリケーション間で異なるので、ハンドルされる情報の種類、情報をハンドリングする方法、情報を処理し、格納し、或いは通信する方法、処理され、格納され或いは通信される情報の量及び情報が処理され、格納され或いは通信されるスピード及び効率に対して、情報ハンドリングシステムは変化する。情報ハンドリングシステムの種類は、情報ハンドリングシステムが一般的に、或いは特定のユーザのために構成され、或いは財務トランザクション処理、航空券予約、企業のデータ記憶、グローバルな通信のような特定の用途のために構成されることを可能とする。加えて、情報ハンドリングシステムは、種々のハードウェア及びソフトウェアコンポーネントを含み、これらは情報を処理し、格納し、通信可能なように構成され、1つ以上のコンピュータシステム、データ格納システム及びネットワーキングシステムを含む。
サーバシステムは、通常のシステム動作中に回復可能或いは修正可能なエラーを経験する。このような回復可能なエラーは発生しても差し支えなく、例えば、回復可能なエラーはサーバに接続されているメモリユニットが故障した場合である。システムの信頼性を増大するために、サーバシステムは、しばしば回復可能或いは修正可能なエラーをそれらが発生するときに、キャプチャしログするように設計されている。回復可能なエラーはしばしば、差し迫ったメモリ故障の警告信号であるので、このキャプチャ−ログ処理は、サーバシステムユーザにシステム全体がクラッシュする前に欠陥メモリユニットを交換する機会を与える。サーバシステムは、しばしばサイドバンド信号を介してシステム管理割り込み(SMI)を生成することによってログされるべきエラーをルートする。SMIはサイドバンドを通してCPUへ行き、次にCPUは進行中のサーバシステムプロセスをフリーズする。SMIによって引き起こされるプロセスにおけるこれら中断は、サーバシステムに常駐する基本入出力システム(BIOS)に、SMIハンドラを使用して、回復可能なエラーが発生するごとに当該回復可能なエラーをログすることを可能にする。BIOSが一旦エラーをログするとSMIは終了し、サーバシステムはどんな割り込みされたプロセスの実行を再開することができる。基本基板管理コントローラ(BMC)は、システム管理ソフトウェアとプラットフォームハードウェアとの間のインターフェイスを管理するものであり、BIOSから受信したエラーロギングコマンドを処理し、基本基板管理コントローラの不揮発性メモリへの実際の書き込みを行なう。全体の通知処理を通して、サーバシステムに常駐しているオペレーティングシステム(OS)はエラー及びそのエラーの後のロギングに気付かない。
しかしながら、いくつかのサーバシステムは、サイドバンド信号容量を含まない。全ての通信はメイントランスポートリンクを通らなければならない。回復可能なエラーは修正可能であるので、サーバシステムは回復可能なエラーが発生した場合に通知を生成しない。これらサーバシステムは、したがって、サーバシステムBIOS或いは周期的SMIのような周期的なスキャンを実行するためのチップセットを使用することによって、回復可能なエラーを報告するように設計されている。同様に、これらサーバシステムは、周期的にシステムのスキャンを行なうサーバシステムOSが必要とされる。例えば、OSはシステム及びマシンチェックステータスレジスタにおいて検出されているいくつかの回復可能なエラーのログを周期的にスキャンしても良い。典型的なOSは、約1分ごとに1回スキャンを行なう。しかしながら、システムを周期的にスキャンするためのサーバシステムOSを使用することは、その欠点を有する。例えば、ほとんどのハードウェアエラーはシステム特有である。しかしながら、一般的には、OSはシステムに対しての特有のアーキテクチャのいくつかの理解に欠ける。OSは、しばしばシステムBIOSからの助けを求めることなく、どのコンポーネントが故障状態にあるのかを認識することができず、これにより、双方のリソースをタイアップする。サーバシステムユーザは、特に、問題となるシステムがハイエンドサーバシステムである場合には、しばしばOSによって実行される一般的なエラーロギングよりも詳細なものを要求する。さらに、OSはしばしばマシンチェックステータスレジスタにおけるエラーをログする。マシンチェックステータスレジスタは、エラーソースに関する情報を格納せず、したがって、このシステム或いはユーザに、そのエラーソースの場所をあとで決定することを許可しない。いくつかのOSヴァージョンはスキャン毎に10個程度の回復可能なエラーを維持することが可能であり、一般的には、OSはさらに、このことが一旦起こると、回復可能なエラーのロギングをディスエーブルし、これによりユーザを問題のソースを決定するためにオーバタイムでエラーを見ることを防ぐ。
本開示においては、情報ハンドリングシステムにおける回復可能なエラーのロギングのための方法及び装置が開示される。このシステムは、中央処理ユニット、この中央処理ユニットに接続されたチップセット及びチップセットに関連付けられ、接続されたチップセットメモリユニットを含む。このシステムは、さらに基本基板管理コントローラ(BMC)及び基本入出力システム(BIOS)を含むメモリユニットを含む。
システム管理割り込み(SMI)は定期的に呼び出される。エラーステータスレジスタは回復可能なエラーが起きたか否かを検出するためにスキャンされる。もし回復可能なエラーが検出された場合、システムは回復可能なエラーをBMCに関連付けられた不揮発性メモリユニットにログする。システムは、回復可能なエラーのソース及びそのソースのロケーションを示す情報をログする。回復可能なエラーが検出されない場合、システムは回復可能がエラーが起きていないことを示す通信を伝送する。
ここにおいて開示されるシステム及び方法は、例え情報ハンドリングシステムがサイドバンドを介して信号を送るための能力を有していない場合でも、情報ハンドリングシステムが回復可能なエラーのソース及びそのソースの場所を可能にするので有利である。OSではないBMC或いはBIOSは、回復可能なエラーのソースを認識しログする。ここにおいて開示されるシステム及び方法は、さらに、SMIの周期性が情報ハンドリングシステムの動作中のイベント或いは情報ハンドリングシステムの動作における変化に基づいて動的に調整されるので有利である。この周期的スキャンは、OSの回復可能エラースキャンニングレートより速くすることができる。
本実施の形態のより完全な理解及びその利点は添付した図面とともに以下の記述を参照することによって得られる。この図面においては同様の参照番号は同様の特徴を示す。
この開示の目的のために、情報ハンドリングシステムは、ビジネス、科学、制御或いは他の目的のための情報、インテリジェンス或いはデータのどんなフォームも計算し、分類し、処理し、伝送し、受信し、検索し、創始し、切り替え、格納し、表示し、明らかにし、検出し、記録し、再生し、ハンドルし利用することができるどんな手段或いは手段の集合体を含む。例えば、情報ハンドリングシステムは、パーソナルコンピュータ、ネットワーク記憶装置或いはどんな他の適切な装置であっても良く、大きさ、形、性能、機能及び価格も種々のものであって良い。情報ハンドリングシステムはランダムアクセスメモリ(RAM)、中央処理ユニット(CPU)、ハードウェア或いはソフトウェア制御ロジックのような1つ以上の処理リソース、ROM及び/又は他のタイプの不揮発性メモリ(ROM)を含んでいても良い。情報ハンドリングシステムのさらなるコンポーネントは、1つ以上のディスクドライバ、キーボード、マウス及びビデオディスプレイのような種々の入出力(I/O)装置と同様の外部機器と通信を行なうための1つ以上のネットワークポートを含む。
図1は数字100で全体的に示されるマザーボードのアーキテクチャを示し、このアーキテクチャはサーバシステムのような情報ハンドリングシステムにおいて使用される。図1に示されるアーキテクチャは、例示的な目的のみのためのものであり、マザーボードに可能な多くのアーキテクチャのうちの1つのみが示されているものとして理解されるべきである。図1に示されるように、マザーボード100はマイクロプロセッサ110を含む。マイクロプロセッサ110は、マザーボードのCPUとして動作する。マイクロプロセッサ110は、図1において130で示される通常”ノースブリッジ”と呼ばれるチップにプロセッサバス120を介して接続される。ノースブリッジ130は一般的にメモリユニットのような情報ハンドリングシステムの他のコンポーネントとCPUとの間の通信を管理する。したがって、一般的に140で示される1つ以上のメモリユニット及びメモリコントローラはノースブリッジ130に接続可能である。図1において150で示される”サウスブリッジ”として知られているチップもまたノースブリッジ130に接続されている。サウスブリッジ150は、一般的にノースブリッジ130によって実行されるよりも遅いマザーボードのサービスを実行する。例えば、電源管理及び周辺コンポーネントインターフェイス(PCI)バスである。サウスブリッジ150は、ロウピンカウント(LPC)バス160を介してBIOS170を含むメモリユニットに接続されることが可能である。BIOSはしばしば”ファームウェア”として参照される。ノースブリッジ130及びサウスブリッジ150はまとめてマザーボード100の”チップセット”としてしばしば参照される。しかしながら、マザーボード100は他の或いは追加のチップを含むべきであり、これらコンポーネントは同様にチップセットの一部となることができる。
図1の下部に示されているように、BMC180はLPCバス160に接続されている。190によって概略的に示されているコントローラ及び1つ以上のメモリユニットはBMC180に接続する。メモリユニット190は、望ましくは不揮発性メモリユニットである。BMC180は、図1には電源は示されていないが、自己電源を有している。前述したように、BMC180は一般的にシステム管理ソフトウェアとプラットフォームハードウェアとの間のインターフェイスを管理する。情報ハンドリングシステムに組み込まれる異なるセンサはBMC180に情報ハンドリングシステムの状態及び操作性に関するパラメータを報告する。このパラメータは、温度、空冷ファンスピード及び種々の電圧などである。BMC180が監視されているパラメータのいずれかが所望の事前に設定されたリミットを超えたことを検出した場合、BMCはユーザ或いはシステム管理者に警告を送る。BMC180は、従って、図1に示されてはいないが、多くのハードウェアコンポーネント及びネットワークに接続され、これらパラメータを監視し、必要であれば警告を行なう。
図1に示されているマザーボード100のアーキテクチャは、マイクロプロセッサ110及びサウスブリッジ150の間のサイドバンド信号容量を含まない。全ての通信はメイントランスポートリンクを通らなければならず、マザーボード100を含む情報ハンドリングシステムは回復可能なエラーのレポートのためのサイドバンド信号に依存することができない。さらに、回復可能なエラーは修正可能であるため、情報ハンドリングシステムは、一般的に、周期的にエラーを探索していない限り、このようなエラーが発生したことをユーザに通知しない。従って、マザーボード100を含む情報ハンドリングシステムは、周期SMIのような周期的なスキャンを実行するBIOS170を使用することによって、回復可能なエラーを報告するように設計される。同様に、マザーボード100を含む情報ハンドリングシステムは、情報ハンドリングシステムに常駐する周期的なスキャンを呼び出すOSに依存するように設計される。しかしながら、これららの方法は本開示において前述したように、それらの障害がないわけではない。例えば、一般的にOSは回復可能なエラーのソースがどのコンポーネントであるかを認識することはできない。OSパッケージは一般的なものであり、特定のシステムのそのアーキテクチャのマップを含まないからである。さらに、OSはマシンチェックステータスレジスタにおける回復可能なエラーをログし(これはエラーを引き起こすコンポーネントに対して局所的なものではない)、その後、このマシンチェックステータスレジスタをクリアする。
周期的なスキャンをOS或いはBIOS170単独に依存する代わりに、マザーボード100を含む情報ハンドリングシステムは、代わりにBMC180に依存し周期的にソフトSMIを呼び出す。すなわち、一旦、情報ハンドリングシステムがアップし動作すると、BMC180は所定周期時間後、ソフトSMIを呼び起こす。BMC180及びマザーボード100のチップセットの間の割り込み要求線195はソフトSMIを呼び起こすことが可能なように形成されている。図1に示されていない一般目的入出力(GPIO)ポートはBIOS170及びBMC180の間の通信を可能にするように構成される。BMC180がソフトSMIを呼び出す場合、BIOS170は、例えば、チップセットのステータスレジスタ、メモリステータスレジスタ及び/又はマイクロプロセッサ110のステータスレジスタを読み込むことにより、回復可能なエラーを探索する。BIOS170がステータスレジスタにおけるエラーを見つけない場合、BIOS170はエラーが無いことをBMC180に通信する。BIOS170がステータスレジスタにおけるエラーを見つけた場合には、BIOS170はそのエラーをBMC180に通信し、そのエラーを含むステータスレジスタをクリアする。BIOS170は、さらに、BMC180を介してそのエラーをメモリユニット190にログする。一般的には、当該エラーは不揮発性システムイベントログにログされる。BIOS170はマザーボード100のアーキテクチャに通じていることから、BIOS170はログにおける回復可能なエラーのソースの位置を認識する。
BMC180がソフトSMIを呼び出す周期は、製造者或いはユーザによる所望のいくつかの期間に対して事前に設定される。例えば、本開示において以前に述べたように、いくつかのヴァージョンのOSはシステムのマシンチェックステータスレジスタの周期的スキャンを1分毎に行なう。したがって、BMC180がソフトSMIを呼び出す周期は1分よりも短く設定され、その結果、BIOS170は常駐するOSがそのスキャンをするよりもより頻繁にステータスレジスタをチェックする。これにより、BIOS170がエラーを検出する前に、OSがマシンチェックステータスレジスタからエラーをクリアするリスクを低減する。BMC180もOSが常にいくつかのエラーを検出することを十分に防ぐように頻繁にソフトSMIを呼び出す。しかしながら、ソフトSMI間の期間は、BIOS170とBMC180の不必要なタイアップをすることによりシステムパフォーマンスが低下するのを避けるのに十分に大きいべきである。
また、BMC180はBIOS170からエラーステータスを学習した後にソフトSMIの頻度を適応的に変更する。図2はソフトSMIの頻度を適応的に変更することが可能な方法を示すフローチャートを含む。このフローチャートのブロック200において示されるように、BMCは最初にソフトSMIを呼び出す。フローチャートのブロック210において示されるように、BIOS170は次に適切なマシンチェックステータスレジスタをチェックする。BIOS170はブロック220に示すようにエラーが突き止められたか否かを判断する。BIOS170がいずれのエラーも検出しない場合には、BIOS170はブロック230に示すように、エラー検出がないことを示す単一ビット通信をBMC180に送信する。フローチャートのブロック240が示すように、BMC180は次にBMCがソフトSMIを呼び出す頻度を減少する。一方、BIOS170がエラーを検出した場合には、BIOS170は次にエラーが回復可能であるか否かを決定する。BIOS170は1つ以上のエラーを検出した場合には、ブロック260に示すようにBIOS170はその事実をBMC180に通信する。ブロック270に示すようにBMC180はBMCがソフトSMIを呼び出す頻度を増加することができる。しかしながら、BIOS170が回復不可能なエラーを検出した場合には、その事実をBMC180に通信する。ブロック290に示すように、その時点では、システム全体はリセット可能であり、ソフトSMIの頻度はデフォルトの設定まで戻ってリセットされる。
ソフトSMIの生成はシステムタイマを使用して制御される。エラーの頻度は一般的にステップ毎に増大或いは減少し、故に、ソフトSMIの頻度の急激な変化がないことはシステムの正しいエラー状態を捉えるために必要である。ソフトSMIの頻度を適応的に変更するシステムについては、しかしながら、ユーザ或いは製造者は、BMCがいずれかのSMIを呼び出すことができる頻度のための所定の最小値及び最大値を設定するべきである。
図3は概略的に300で示されているマザーボードの択一的アーキテクチャを示しており、このアーキテクチャはサーバシステムのような情報ハンドリングシステムにおいて使用される。図3に示されているアーキテクチャは図1に示されているものと同様である。したがって、双方の図面における同様のコンポーネントには同一の参照番号によって認識される。マザーボード300においては、しかしながら、BMC180及びチップセット或いはノースブリッジ130までもがInter-Interconnect(IC)バス310を介して図3に示すように接続されている。マザーボード300もメモリユニット140のステータスレジスタがチップセットによってシャドウされ或いはトラックされることを可能にするように設計される。特に、マザーボード300はノースブリッジ130がメモリユニット140のステータスレジスタをそれ自身のステータスレジスタにシャドウすることを可能にする。したがって、BMC180はノースブリッジ130のステータスレジスタをICバス310を介してスキャンし、メモリユニット140のいくつかの回復可能なエラーが起こったか否かを決定する。BMC180が回復可能なメモリエラーを検出した場合に、BMC180はソフトSMIを呼び出し、BIOS170に回復可能なエラーをログするように命令する。しかしながら、BMC180が回復可能なメモリエラーを検出しない場合には、BMC180はBIOS170の動作を妨げない。したがって、BMC180によって以前に検出された実際のエラーについて動作することのみが必要とされるので、BIOS170の負荷が低減される。特定のシステムにおいては、BMC180は回復可能なエラーをログする。しかしながら、多くのシステムでは、アルゴリズムがすでに一般的なBIOSに組み込まれ、エラーの原因及びエラーの原因であるコンポーネントの場所を決定するので、BIOS170は回復可能なエラーをログするより効率的な選択が残る。したがって、BMC180がBIOS170にソフトSMIを生成することによってエラーが検出されたことを知らせた場合に、BIOS170がエラーの原因を決定し、その情報をログできる。BMC180がノースブリッジ130のマシンチェック状態をスキャンする頻度は予め決定することができる。また、本開示において前述したように、頻度は適応的に変更されることが可能である。例えば、シングルビットエラーが検出された場合には頻度が増加され、エラーの検出が無い場合には減少される。
本開示は検出されたエラーに応答し、BIOS170及び/又はBMC180による周期的なスキャンの間のタイムインターバルに適応的な変更を含むシステム及び方法について述べられたけれども、他の要素がこれらのスキャンの頻度を調整するために使用されることが可能である。例えば、BIOS170或いはBMC180であるスキャンを実行するコンポーネントによる負荷はスキャンの周期性に影響する。スキャンを実行するコンポーネントが他のタスクでオーバロードである場合には、例えば、そのコンポーネントの負荷を減らすためにスキャンの頻度を低減することができる。本開示が詳細に述べられたけれども、添付した請求の範囲によって定義される本発明の精神及び観点から離れることなく、種々の変更、置き換え及び交替をこれに行なうことができる。
例示的なマザーボードのための例示的なアーキテクチャのブロック図である。 システムが周期的スキャンを実行する際の頻度に適合するための例示的な方法を示すフローチャートである。 例示的なマザーボードのための例示的なアーキテクチャのブロック図である。
符号の説明
110…マイクロプロセッサ、130…ノースブリッジ、150…サウスブリッジ、170…BIOS/ファームウェア、180…BMC。

Claims (20)

  1. 情報ハンドリングシステムにおける回復可能なエラーをロギングする方法において、
    システム管理割り込み(SMI)を周期的に呼び出し、
    回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンし、
    回復可能なエラーが検出された場合に回復可能なエラーをログし、回復可能なエラーをログすることは回復可能なエラーのソース及びそのソースの場所を示す情報を基幹管理コントローラと関連付けられた不揮発性メモリにログすることを含み、
    回復可能なエラーが検出されない場合に、回復可能なエラーが発生していないことを示す通信を伝送する方法。
  2. SMIを呼び出すステップは、基板管理コントローラを使用する割り込みを呼び出すことを含む請求項1の回復可能なエラーをロギングする方法。
  3. 回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンするステップは、情報ハンドリングシステムにおけるメモリユニットに格納されている基本入出力システム(BIOS)を使用してステータスレジスタをスキャンするステップを含む請求項1の回復可能なエラーをロギングする方法。
  4. 回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンするステップは、BMCを使用してステータスレジスタをスキャンするステップを含む請求項1の回復可能なエラーをロギングする方法。
  5. 回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンするステップは、中央処理ユニットに関連付けられたプロセッサステータスレジスタをスキャンするステップを含む請求項1の回復可能なエラーをロギングする方法。
  6. 回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンするステップは、チップセットに関連付けられたチップセットステータスレジスタをスキャンするステップを含む請求項1の回復可能なエラーをロギングする方法。
  7. 回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンするステップは、チップセットに接続された少なくとも1つのメモリユニットに関連付けられたメモリステータスレジスタをスキャンするステップを含む請求項1の回復可能なエラーをロギングする方法。
  8. チップセットに関連付けられた少なくとも1つのメモリユニットの動作中のエラーから現れる回復可能なエラーをメモリユニットステータスレジスタに記録し、
    メモリユニットステータスレジスタに記録されたどんな回復可能なエラーもチップステータスレジスタにおいてトラッキングすることをさらに具備する請求項1の回復可能なエラーをロギングする方法。
  9. 回復可能なエラーが発生したか否かを検出するためにステータスレジスタをスキャンするステップは、回復可能なエラーが発生したか否かを検出するためにチップセットステータスレジスタをスキャンすることをさらに含む請求項8の方法。
  10. 情報ハンドリングシステムの動作中のイベントに基づいてSMIが周期的に呼び出されることを何度か変更することをさらに含む請求項1の方法。
  11. 情報ハンドリングシステムの動作中のイベントに基づいてSMIが周期的に呼び出されることを何度か変更することは、回復可能なエラーが検出されたか否かに基づいてSMIが周期的に呼び出されることを何度か変更することを含む請求項10の方法。
  12. 情報ハンドリングシステムの動作における変更に基づいてSMIが周期的に呼び出されることを何度か変更することをさらに含む請求項1の方法。
  13. 情報ハンドリングシステムの動作における変更に基づいてSMIが周期的に呼び出されることを何度か変更することは、情報ハンドリングシステムに格納された基本入出力システムの動作負荷の変化に基づいてSMIが周期的に呼び出されることを何度か変更することを含む請求項12の方法。
  14. 中央処理ユニットと、
    前記中央処理ユニットに接続されたチップセットと、
    前記チップセットに関連付けられ、かつ接続された少なくとも1つのチップセットメモリユニットと、
    基本入出力システム(BIOS)を含む少なくとも1つのファームウェアメモリユニットと、前記少なくとも1つのファームウェアメモリユニットは少なくとも1つのチップセットに接続され、
    前記チップセット及び少なくとも1つのファームウェアメモリユニットに接続された基板管理コントローラ(BMC)と、前記BMCは前記BIOSに回復可能なエラーのチェック及びどんな検出された回復可能なエラーをログすることを要求する割り込みを呼び出すことができ、
    前記BMCに関連付けられ、かつ接続された少なくとも1つのBMCメモリユニットと、前記少なくとも1つのBMCメモリユニットは検出された回復可能なエラーを格納することができる回復可能なエラーをロギングするシステム。
  15. 前記BMCを前記チップセットに接続する割り込み要求線をさらに具備し、
    前記BMCは前記割り込み要求線を介して割り込みを前記チップセットに伝送できる請求項14の回復可能なエラーをロギングするシステム。
  16. 前記少なくとも1つのチップセットメモリユニットに関連付けられたメモリステータスレジスタをさらに具備し、
    前記BIOSは回復可能なエラーをチェックするメモリステータスレジスタをチェックする請求項14の回復可能なエラーをロギングするシステム。
  17. 前記中央処理ユニットに関連付けられたプロセッサステータスレジスタをさらに具備し、
    前記BIOSは回復可能なエラーをチェックするプロセッサステータスレジスタをチェックする請求項14の回復可能なエラーをロギングするシステム。
  18. 前記チップセットに関連付けられたチップセットステータスレジスタをさらに具備し、
    前記BIOSは回復可能なエラーをチェックするチップセットステータスレジスタをチェックする請求項14の回復可能なエラーをロギングするシステム。
  19. 中央処理ユニットと、
    前記中央処理ユニットに接続されたチップセットと、
    前記チップセットに関連付けられ、かつ接続された少なくとも1つのチップセットメモリユニットと、前記少なくとも1つのチップセットメモリユニットはメモリステータスレジスタに関連付けられ、
    前記チップセットに関連付けられたチップセットステータスレジスタと、前記チップセットステータスレジスタは前記メモリステータスレジスタの内容をトラックし、
    基本入出力システム(BIOS)を含む少なくとも1つのファームウェアメモリユニットと、前記少なくとも1つのファームウェアメモリユニットは少なくとも1つのチップセットに接続され、
    前記チップセット及び少なくとも1つのファームウェアメモリユニットに接続された基板管理コントローラ(BMC)と、前記BMCは割り込みを呼び出すことができ、チップセットステータスレジスタにおける回復可能なエラーをチェックすることができ及び前記BIOSがどんな検出された回復可能なエラーをログすることを要求でき、
    前記BMCに関連付けられ、かつ接続された少なくとも1つのBMCメモリユニットと、前記少なくとも1つのBMCメモリユニットは検出された回復可能なエラーのログを格納することができる回復可能なエラーをロギングするシステム。
  20. 前記BMCを前記チップセットに接続するInter-Interconnectバスをさらに具備する請求項19の回復可能なエラーをロギングするシステム。
JP2006278678A 2005-10-14 2006-10-12 回復可能なエラーのロギングのためのシステム及び方法 Withdrawn JP2007109238A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/250,603 US20070088988A1 (en) 2005-10-14 2005-10-14 System and method for logging recoverable errors

Publications (1)

Publication Number Publication Date
JP2007109238A true JP2007109238A (ja) 2007-04-26

Family

ID=37491397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006278678A Withdrawn JP2007109238A (ja) 2005-10-14 2006-10-12 回復可能なエラーのロギングのためのシステム及び方法

Country Status (11)

Country Link
US (1) US20070088988A1 (ja)
JP (1) JP2007109238A (ja)
CN (1) CN100440157C (ja)
AU (1) AU2006228051A1 (ja)
DE (1) DE102006048115B4 (ja)
FR (1) FR2892210A1 (ja)
GB (1) GB2431262B (ja)
HK (1) HK1104631A1 (ja)
IT (1) ITTO20060737A1 (ja)
SG (1) SG131870A1 (ja)
TW (1) TWI337707B (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010033355A (ja) * 2008-07-29 2010-02-12 Fujitsu Ltd 情報処理装置
JP2011215751A (ja) * 2010-03-31 2011-10-27 Nec Corp コンピュータシステム及びその余剰コアを用いた通信エミュレート方法
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
US8782643B2 (en) 2010-02-10 2014-07-15 Nec Corporation Device and method for controlling communication between BIOS and BMC
WO2015057353A1 (en) * 2013-10-18 2015-04-23 Intel Corporation Determine when an error log was created
US9425953B2 (en) 2013-10-09 2016-08-23 Intel Corporation Generating multiple secure hashes from a single data buffer
KR101733903B1 (ko) * 2013-03-07 2017-05-08 인텔 코포레이션 피어 모니터에서 신뢰성, 이용 가능성 및 서비스 가능성(ras) 흐름들을 지원하기 위한 메커니즘
JP2017207903A (ja) * 2016-05-18 2017-11-24 Necプラットフォームズ株式会社 処理装置、方法及びプログラム
JP2020004338A (ja) * 2018-07-02 2020-01-09 富士通株式会社 監視装置,監視制御方法および情報処理装置

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
JP2009121832A (ja) * 2007-11-12 2009-06-04 Sysmex Corp 分析装置、分析システム及びコンピュータプログラム
CN101446915B (zh) * 2007-11-27 2012-01-11 中国长城计算机深圳股份有限公司 一种bios级日志的记录方法及装置
US8122176B2 (en) * 2009-01-29 2012-02-21 Dell Products L.P. System and method for logging system management interrupts
TWI529525B (zh) * 2010-04-30 2016-04-11 聯想企業解決方案(新加坡)有限公司 處理系統錯誤之方法及系統
CN102375775B (zh) * 2010-08-11 2014-08-20 英业达股份有限公司 一种具有检测系统不可恢复错误指示信号的计算机系统
CN102446146B (zh) * 2010-10-13 2015-04-22 淮南圣丹网络工程技术有限公司 服务器及其避免总线冲突的方法
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102467434A (zh) * 2010-11-10 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置状态信号的方法
CN102541787A (zh) * 2010-12-15 2012-07-04 鸿富锦精密工业(深圳)有限公司 串口切换使用系统及方法
CN102567177B (zh) * 2010-12-25 2014-12-10 鸿富锦精密工业(深圳)有限公司 计算机系统错误侦测系统及方法
WO2013027297A1 (ja) * 2011-08-25 2013-02-28 富士通株式会社 半導体装置、管理装置、及びデータ処理装置
WO2013101140A1 (en) * 2011-12-30 2013-07-04 Intel Corporation Early fabric error forwarding
CN102681931A (zh) * 2012-05-15 2012-09-19 天津市天元新泰科技发展有限公司 一种日志和异常探针的实现方法
CN103455455A (zh) * 2012-05-30 2013-12-18 鸿富锦精密工业(深圳)有限公司 串口切换系统、服务器及串口切换方法
TW201405303A (zh) * 2012-07-30 2014-02-01 Hon Hai Prec Ind Co Ltd 底板管理控制器監控系統及方法
CN103577298A (zh) * 2012-07-31 2014-02-12 鸿富锦精密工业(深圳)有限公司 基板管理控制器监控系统及方法
EP2901281B1 (en) 2012-09-25 2017-11-01 Hewlett-Packard Enterprise Development LP Notification of address range including non-correctable error
CN104219105A (zh) * 2013-05-31 2014-12-17 英业达科技有限公司 错误通报装置及方法
CN104424041A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CN104424042A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CA2942045C (en) 2014-06-24 2019-04-16 Huawei Technologies Co., Ltd. Fault processing method, related apparatus, and computer
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
FR3040523B1 (fr) * 2015-08-28 2018-07-13 Continental Automotive France Procede de detection d'une erreur non corrigible dans une memoire non volatile d'un microcontroleur
CN105183600A (zh) * 2015-09-09 2015-12-23 浪潮电子信息产业股份有限公司 一种远程定位硬盘故障的装置和方法
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
US9875165B2 (en) * 2015-11-24 2018-01-23 Quanta Computer Inc. Communication bus with baseboard management controller
TWI654518B (zh) 2016-04-11 2019-03-21 神雲科技股份有限公司 錯誤狀態儲存方法及伺服器
US10223187B2 (en) * 2016-12-08 2019-03-05 Intel Corporation Instruction and logic to expose error domain topology to facilitate failure isolation in a processor
US10296434B2 (en) * 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN111221677B (zh) * 2018-11-27 2023-06-09 环达电脑(上海)有限公司 侦错备份方法与服务器
CN110377469B (zh) * 2019-07-12 2022-11-18 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
US11403162B2 (en) * 2019-10-17 2022-08-02 Dell Products L.P. System and method for transferring diagnostic data via a framebuffer
EP3859526A1 (en) * 2020-01-30 2021-08-04 Hewlett-Packard Development Company, L.P. Error information storage
US11132314B2 (en) * 2020-02-24 2021-09-28 Dell Products L.P. System and method to reduce host interrupts for non-critical errors
CN111488288A (zh) * 2020-04-17 2020-08-04 苏州浪潮智能科技有限公司 一种测试bmc acd稳定性的方法、装置、终端及存储介质
CN112906009A (zh) * 2021-03-09 2021-06-04 南昌华勤电子科技有限公司 工作日志生成方法、计算设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) * 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US5267246A (en) * 1988-06-30 1993-11-30 International Business Machines Corporation Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
US4996688A (en) * 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
JPH0355640A (ja) * 1989-07-25 1991-03-11 Nec Corp 周辺制御装置の障害解析情報採取方式
US5287363A (en) * 1991-07-01 1994-02-15 Disk Technician Corporation System for locating and anticipating data storage media failures
EP0666530A3 (en) * 1994-02-02 1996-08-28 Advanced Micro Devices Inc Periodic system management interrupt source and power management system using it.
US5600785A (en) * 1994-09-09 1997-02-04 Compaq Computer Corporation Computer system with error handling before reset
EP1000395B1 (en) * 1997-07-28 2004-12-01 Intergraph Hardware Technologies Company Apparatus and method for memory error detection and error reporting
US6119248A (en) * 1998-01-26 2000-09-12 Dell Usa L.P. Operating system notification of correctable error in computer information
US6189117B1 (en) * 1998-08-18 2001-02-13 International Business Machines Corporation Error handling between a processor and a system managed by the processor
US7689875B2 (en) * 2002-04-25 2010-03-30 Microsoft Corporation Watchdog timer using a high precision event timer
US7389454B2 (en) * 2002-07-31 2008-06-17 Broadcom Corporation Error detection in user input device using general purpose input-output
US7107493B2 (en) * 2003-01-21 2006-09-12 Hewlett-Packard Development Company, L.P. System and method for testing for memory errors in a computer system
US7299331B2 (en) * 2003-01-21 2007-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adding main memory in computer systems operating with mirrored main memory
US7010630B2 (en) * 2003-06-30 2006-03-07 International Business Machines Corporation Communicating to system management in a data processing system
US7076708B2 (en) * 2003-09-25 2006-07-11 International Business Machines Corporation Method and apparatus for diagnosis and behavior modification of an embedded microcontroller
US7213176B2 (en) * 2003-12-10 2007-05-01 Electronic Data Systems Corporation Adaptive log file scanning utility
US7321990B2 (en) * 2003-12-30 2008-01-22 Intel Corporation System software to self-migrate from a faulty memory location to a safe memory location
JP2006178557A (ja) * 2004-12-21 2006-07-06 Nec Corp コンピュータシステム及びエラー処理方法
US7350007B2 (en) * 2005-04-05 2008-03-25 Hewlett-Packard Development Company, L.P. Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4571996B2 (ja) * 2008-07-29 2010-10-27 富士通株式会社 情報処理装置及び処理方法
US8020040B2 (en) 2008-07-29 2011-09-13 Fujitsu Limited Information processing apparatus for handling errors
JP2010033355A (ja) * 2008-07-29 2010-02-12 Fujitsu Ltd 情報処理装置
US8782643B2 (en) 2010-02-10 2014-07-15 Nec Corporation Device and method for controlling communication between BIOS and BMC
JP2011215751A (ja) * 2010-03-31 2011-10-27 Nec Corp コンピュータシステム及びその余剰コアを用いた通信エミュレート方法
US9141463B2 (en) 2010-11-12 2015-09-22 Fujitsu Limited Error location specification method, error location specification apparatus and computer-readable recording medium in which error location specification program is recorded
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
JP5532143B2 (ja) * 2010-11-12 2014-06-25 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
KR101733903B1 (ko) * 2013-03-07 2017-05-08 인텔 코포레이션 피어 모니터에서 신뢰성, 이용 가능성 및 서비스 가능성(ras) 흐름들을 지원하기 위한 메커니즘
US9425953B2 (en) 2013-10-09 2016-08-23 Intel Corporation Generating multiple secure hashes from a single data buffer
US9917689B2 (en) 2013-10-09 2018-03-13 Intel Corporation Generating multiple secure hashes from a single data buffer
US9389942B2 (en) 2013-10-18 2016-07-12 Intel Corporation Determine when an error log was created
WO2015057353A1 (en) * 2013-10-18 2015-04-23 Intel Corporation Determine when an error log was created
US10430267B2 (en) 2013-10-18 2019-10-01 Intel Corporation Determine when an error log was created
JP2017207903A (ja) * 2016-05-18 2017-11-24 Necプラットフォームズ株式会社 処理装置、方法及びプログラム
JP2020004338A (ja) * 2018-07-02 2020-01-09 富士通株式会社 監視装置,監視制御方法および情報処理装置
JP7081344B2 (ja) 2018-07-02 2022-06-07 富士通株式会社 監視装置,監視制御方法および情報処理装置

Also Published As

Publication number Publication date
FR2892210A1 (fr) 2007-04-20
CN1949182A (zh) 2007-04-18
GB0620260D0 (en) 2006-11-22
US20070088988A1 (en) 2007-04-19
DE102006048115B4 (de) 2019-07-04
GB2431262A (en) 2007-04-18
TWI337707B (en) 2011-02-21
AU2006228051A1 (en) 2007-05-03
IE20060744A1 (en) 2007-06-13
SG131870A1 (en) 2007-05-28
ITTO20060737A1 (it) 2007-04-15
DE102006048115A1 (de) 2007-06-06
CN100440157C (zh) 2008-12-03
HK1104631A1 (en) 2008-01-18
TW200805056A (en) 2008-01-16
GB2431262B (en) 2008-10-22

Similar Documents

Publication Publication Date Title
JP2007109238A (ja) 回復可能なエラーのロギングのためのシステム及び方法
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
US7949904B2 (en) System and method for hardware error reporting and recovery
TWI229796B (en) Method and system to implement a system event log for system manageability
US7702971B2 (en) System and method for predictive failure detection
US11132314B2 (en) System and method to reduce host interrupts for non-critical errors
US11526411B2 (en) System and method for improving detection and capture of a host system catastrophic failure
US7783872B2 (en) System and method to enable an event timer in a multiple event timer operating environment
US20210081234A1 (en) System and Method for Handling High Priority Management Interrupts
KR101063720B1 (ko) 피어 프로그램 가능 하드웨어 장치에 대한 자동화 펌웨어 복구
US10635554B2 (en) System and method for BIOS to ensure UCNA errors are available for correlation
US6904546B2 (en) System and method for interface isolation and operating system notification during bus errors
US20120023379A1 (en) Storage device, storage system, and control method
US8726102B2 (en) System and method for handling system failure
US10515682B2 (en) System and method for memory fault resiliency in a server using multi-channel dynamic random access memory
EP2096550B1 (en) Information processing apparatus and control method thereof
US9495230B2 (en) Testing method
US20240012651A1 (en) Enhanced service operating system capabilities through embedded controller system health state tracking
IE85357B1 (en) System and method for logging recoverable errors
US10742359B2 (en) Apparatus and method for improving messaging system reliability
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
CN107451035B (zh) 用于计算机装置的错误状态数据提供方法
CN117687822A (zh) 一种内存故障的处理方法、装置、终端设备、介质和产品
CN115543666A (zh) 故障处理的方法、设备和计算机可读存储介质
JP2005108034A (ja) 計算機システム

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090727