JP6333410B2

JP6333410B2 - 障害処理方法、関連装置、およびコンピュータ

Info

Publication number: JP6333410B2
Application number: JP2016562222A
Authority: JP
Inventors: ▲剛▼ 宋
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2018-05-30
Anticipated expiration: 2034-06-24
Also published as: US11360842B2; JP2017517060A; EP3121726B1; AU2014399227A1; CN105659215B; CN105659215A; CN107357671A; DK3121726T3; EP3121726A4; CA2942045A1; US20190332453A1; CA2942045C; KR101944874B1; NO3121726T3; SG11201607545PA; EP3355197A1; ES2667322T3; EP3355197B1; WO2015196365A1; US20170102985A1

Description

本発明の諸実施形態はコンピュータ技術に関し、特に、障害処理方法、関連装置、およびコンピュータに関する。

情報技術の大規模な発展とともに、コンピュータは様々な分野で広く適用されている。コンピュータ内の障害は、一般に、ソフトウェア障害、ハードウェア障害、動作（構成）障害、および他の障害を含みうる。ハードウェア障害には、再現の困難さ、主に職員の経験に依存した判定、エラーが発生したときの障害の特定の困難さ、複数回の挿入および除去／置換えの必要性等のような特徴がある。したがって、ハードウェア障害、例えば、メモリ、プロセッサ、入出力（ＩＯ）デバイス等で発生した障害は通常、最も処理が難しいものである。

一般に、ハードウェア障害はコンピュータ上の訂正不能なエラー（Ｕｎｃｏｒｒｅｃｔａｂｌｅｅｒｒｏｒ）の原因となる。訂正不能なエラーは、コンピュータにおけるサービス割込みの原因となりコンピュータの動作時間を減少させうるだけでなく、機能停止事象の原因にすらなりうる。先行技術では、コンピュータ内の障害は主に以下の方法を用いて処理される。即ち、訂正不能なエラーがシステムで発生したとき、プロセッサはエラー・データを記録し、通知をオペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）に送信する。当該通知を受信した後、ＯＳは、ユーザが障害を分析、特定し、当該障害からの復旧を行うように、プロセッサにより記録されたエラー・データを捕捉し、当該エラー・データをプリントする。

先行技術では、ＯＳはエラー・データの捕捉を実装する必要がある。しかし、いったん深刻な訂正不能なエラーがコンピュータ内で発生し、コンピュータをクラッシュさせると（本発明では、コンピュータのクラッシュとは、ブラック・スクリーンがコンピュータで発生し、コンピュータのマウスまたはキーボードのような入力装置を用いてどの入力も受け付けられず、コンピュータのプロセッサがコンピュータ命令を実行できないことを指す）、ＯＳはもはや動作できず、コンピュータ内のエラー・データを捕捉できず、障害を分析し、処理し、当該障害からの復旧を行うのを困難にする。

本発明の諸実施形態では障害処理方法、関連装置、およびコンピュータを提案する。その結果、深刻な訂正不能なエラーがコンピュータで生じコンピュータをクラッシュさせた後にコンピュータ内のエラー・データを取得することができる。

第１の態様によれば、本発明の１実施形態では、プロセッサおよびベースボード管理コントローラを備えたコンピュータを提案する。ベースボード管理コントローラは、コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージをプロセッサに送信するように構成され、読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用され、プロセッサは、読取り要求メッセージを受信し、読取り応答メッセージをベースボード管理コントローラに送信するように構成され、ベースボード管理コントローラは、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するように構成される。

第１の態様を参照して、第１の可能な実装方式では、プロセッサは、第１のエラー・データを取得し、第１のエラー・データを記録するようにさらに構成され、
ベースボード管理コントローラが、コンピュータがクラッシュしたと判定するように構成されることは特に、ベースボード管理コントローラが、プロセッサにより送信された深刻な障害事象指示を受信するように構成され、プロセッサが第１のエラー・データを取得し第１のエラー・データが深刻な訂正不能エラー・タイプであるとき、当該深刻な障害事象指示はプロセッサにより送信され、プロセッサにより送信された第１のエラー・データの少なくとも一部が当該深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、ベースボード管理コントローラは、コンピュータがクラッシュしたと判定するように構成されることである。

第１の態様または第１の態様の第１の可能な実装方式を参照して、第２の可能な実装方式では、ベースボード管理コントローラが、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するように構成されることは特に、読取り応答メッセージが第１のエラー・データを運搬するとき、ベースボード・マネージャが、読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得するように構成されることである。

第１の態様または第１の態様の第１の可能な実装方式を参照して、第３の可能な実装方式では、ベースボード管理コントローラが、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するように構成されることは特に、読取り応答メッセージが読取り障害指示を運搬するとき、ベースボード管理コントローラが、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示するように構成され、当該読取り障害指示は、第１のエラー・データがプロセッサから読み取られるのに失敗したことを示すために使用され、その結果、プロセッサが、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データをベースボード管理コントローラに送信し、ベースボード管理コントローラが、プロセッサにより送信された第１のエラー・データを受信するように構成されることである。

第１の態様または第１の態様の第１乃至第３の可能な実装方式の何れか１つを参照して、第４の可能な実装方式では、ベースボード管理コントローラは、第１のエラー・データを障害解析機構に従って解析して、第１のエラー・データの障害解析情報を取得するようにさらに構成される。

第１の態様の第４の可能な実装方式を参照して、第５の可能な実装方式では、ベースボード管理コントローラは、第１のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するようにさらに構成される。

第１の態様の第５の可能な実装方式を参照して、第６の可能な実装方式では、コンピュータがクラッシュしたと判定される前に、ベースボード管理コントローラは、プロセッサにより送信された第２のエラー・データを受信し、第２のエラー・データを障害解析機構に従って解析して、第２のエラー・データの障害解析情報を取得するようにさらに構成され、第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、
ベースボード管理コントローラが、第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、ベースボード管理コントローラが、第２のエラー・データの障害解析情報および第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることを含む。

第２の態様によれば、本発明の１実施形態では、ベースボード管理コントローラとプロセッサを備えたコンピュータに適用される障害処理方法を提案する。当該方法は、
コンピュータがクラッシュしたと判定されたとき、ベースボード管理コントローラにより、読取り要求メッセージをプロセッサに送信するステップであって、読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される、ステップと、
ベースボード管理コントローラにより、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するステップと
を含む。

第２の態様を参照して、第１の可能な実装方式では、当該方法はさらに、ベースボード管理コントローラにより、プロセッサにより送信された深刻な障害事象指示を受信するステップであって、プロセッサが第１のエラー・データを取得し第１のエラー・データが深刻な訂正不能エラー・タイプであるとき、当該深刻な障害事象指示はプロセッサにより送信される、ステップと、プロセッサにより送信された第１のエラー・データの少なくとも一部が当該深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、コンピュータがクラッシュしたと判定するステップとを含む。

第２の態様または第２の態様の第１の可能な実装方式を参照して、第２の可能な実装方式では、ベースボード管理コントローラにより、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するステップは、読取り応答メッセージが第１のエラー・データを運搬するとき、ベースボード管理コントローラにより、読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得するステップを含む。

第２の態様または第２の態様の第１の可能な実装方式を参照して、第３の可能な実装方式では、ベースボード管理コントローラにより、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するステップは、読取り応答メッセージが読取り障害指示を運搬するとき、ベースボード管理コントローラにより、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示し、その結果、プロセッサが、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データをベースボード管理コントローラに送信するステップであって、当該読取り障害指示は、第１のエラー・データがプロセッサから読み取られるのに失敗したことを示すために使用される、ステップと、ベースボード管理コントローラにより、プロセッサにより送信された第１のエラー・データを受信するステップとを含む。

第２の態様または第２の態様の第１乃至第３の可能な実装方式の何れか１つを参照して、第４の可能な実装方式では、ベースボード管理コントローラにより読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得した後に、当該方法はさらに、ベースボード管理コントローラにより、第１のエラー・データを障害解析機構に従って解析して、第１のエラー・データの障害解析情報を取得するステップを含む。

第２の態様の第４の可能な実装方式を参照して、第５の可能な実装方式では、当該方法はさらに、ベースボード管理コントローラにより、第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップを含む。

第２の態様の第５の可能な実装方式を参照して、第６の可能な実装方式では、ベースボード管理コントローラにより、コンピュータがクラッシュしたと判定する前に、当該方法はさらに、ベースボード管理コントローラにより、プロセッサにより送信された第２のエラー・データを受信するステップであって、第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データである、ステップと、
ベースボード管理コントローラにより、第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップは、ベースボード管理コントローラにより、第２のエラー・データを障害解析機構に従って解析して、第２のエラー・データの障害解析情報を取得し、第２のエラー・データの障害解析情報および第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップと
を含む。

第３の態様によれば、本発明の１実施形態では、コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージをプロセッサに送信するように構成された送信ユニットであって、読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される、送信ユニットと、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するように構成された受信ユニットとを備えたベースボード管理コントローラを提案する。

第３の態様を参照して、第１の可能な実装方式では、ベースボード管理コントローラはさらに、プロセッサにより送信された深刻な障害事象指示を受信し、プロセッサにより送信された第１のエラー・データの少なくとも一部が当該深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、コンピュータがクラッシュしたと判定するように構成された判定ユニットを備える。プロセッサが第１のエラー・データを取得し第１のエラー・データが深刻な訂正不能エラー・タイプであるとき、当該深刻な障害事象指示はプロセッサにより送信される。

第３の態様または第３の態様の第１の可能な実装方式を参照して、第２の可能な実装方式では、受信ユニットが、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得することは、読取り応答メッセージが第１のエラー・データを運搬するとき、受信ユニットが、読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得することを含む。

第３の態様または第３の態様の第１の可能な実装方式を参照して、第３の可能な実装方式では、受信ユニットが、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得することは、読取り応答メッセージが読取り障害指示を運搬するとき、受信ユニットがウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・ユニットまたはユーザに指示し、その結果、プロセッサが、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データを受信ユニットに送信し、当該読取り障害指示は、第１のエラー・データがプロセッサから読み取られるのに失敗したことを示すために使用され、受信ユニットはプロセッサにより送信された第１のエラー・データを受信することを含む。

第３の態様または第３の態様の第１乃至第３の可能な実装方式の何れか１つを参照して、第４の可能な実装方式では、ベースボード管理コントローラはさらに、第１のエラー・データを障害解析機構に従って解析して、第１のエラー・データの障害解析情報を取得するように構成された障害処理ユニットを備える。

第３の態様の第４の可能な実装方式を参照して、第５の可能な実装方式では、障害処理ユニットは、第１のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するようにさらに構成される。

第３の態様の第５の可能な実装方式を参照して、第６の可能な実装方式では、受信ユニットは、プロセッサにより送信された第２のエラー・データを受信するようにさらに構成され、障害処理ユニットは、第２のエラー・データを障害解析機構に従って解析して、第２のエラー・データの障害解析情報を取得するようにさらに構成され、第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、障害処理ユニットが、第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、障害処理ユニットが、第２のエラー・データの障害解析情報および第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得することを含む。

第４の態様によれば、本発明の１実施形態ではベースボード管理コントローラを提案する。ベースボード管理コントローラは、プロセッサ、メモリ、バス、および通信インタフェースを備え、
メモリはコンピュータ実行可能命令を格納するように構成され、プロセッサはバスを用いてメモリに接続され、ベースボード管理コントローラが実行したとき、プロセッサは、メモリに格納されたコンピュータ実行可能命令を実行し、その結果、ベースボード管理コントローラは、第２の態様に従う障害処理方法、または第２の態様の可能な実装方式の何れか１つに従う障害処理方法を実施する。

第５の態様によれば、本発明の１実施形態ではコンピュータ実行可能命令を含むコンピュータ可読媒体を提案する。その結果、コンピュータのプロセッサがコンピュータ実行可能命令を実行したとき、コンピュータが第２の態様に従う障害処理方法、または第２の態様の可能な実装方式の何れか１つに従う障害処理方法を実施する。

本発明の諸実施形態では、コンピュータがクラッシュしたと判定されたとき、コンピュータ内のベースボード管理コントローラは、読取り要求メッセージをコンピュータ内のプロセッサに送信し、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得してもよい。読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される。以上の方式により、オペレーティング・システムを使用する必要はなく、ベースボード管理コントローラのみがコンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装する必要があり、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。

本発明の諸実施形態の技術的解決策をより明確に説明するために、以下では実施形態または先行技術を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は本発明の幾つかの実施形態を示すにすぎず、当業者は創造的努力なしにこれらの添付図面から他の図面を依然として導出することができる。

本発明の１実施形態に従うコンピュータの略図である。本発明の１実施形態に従う別のコンピュータの略図である。本発明の１実施形態に従う障害処理方法の方法の流れ図である。本発明の１実施形態に従う別の障害処理方法の方法の流れ図である。本発明の１実施形態に従うベースボード管理コントローラの略図である。本発明の１実施形態に従う別のベースボード管理コントローラの構成物の略構造図である。

本発明の諸実施形態では障害処理方法、関連装置、およびコンピュータを提案する。その結果、深刻な訂正不能なエラーがコンピュータで生じコンピュータのクラッシュを生じさせた後にコンピュータ内のエラー・データを取得することができる。

本発明の明細書、特許請求の範囲、および添付図面において、「第１の」および「第２の」という用語は類似のオブジェクトを区別することを意図したものであるが、必ずしも特定の順序またはシーケンスを示すものではないことに留意すべきである。このように使用される番号は適切なケースでは交換可能であることは理解されるべきである。本発明の明細書の明細書および特許請求の範囲および添付図面では、コンピュータのクラッシュとは、ブラック・スクリーンがコンピュータで発生し、コンピュータのプロセッサがコンピュータ命令を実行できず、コンピュータのマウスまたはキーボードのような入力装置を用いてどの入力も受け付けられないことを指す。

実施形態１
図１は本発明の当該実施形態に従うコンピュータの略図である。コンピュータはプロセッサ１１とベースボード管理コントローラ１２（ＢａｓｅｂｏａｒｄＭａｎａｇｅｍｅｎｔＣｏｎｔｒｏｌｌｅｒ、ＢＭＣ）を備える。

ベースボード管理コントローラ１２は、コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージをプロセッサ１１に送信するように構成される。読取り要求メッセージは、プロセッサ１１により記録された第１のエラー・データの読取りを要求するために使用され、第１のエラー・データはコンピュータ内で生成されたエラー・データであり、コンピュータ内で生成されたエラー・データ全てであってもよく、または、さらにコンピュータ内で生成されたエラー・データの一部であってもよい。例えば、第１のエラー・データが、コンピュータがクラッシュする前２秒以内に生成されたエラー・データであってもよく、本発明の当該実施形態においてここでは限定されない。

プロセッサ１１は、読取り要求メッセージを受信し、読取り応答メッセージをベースボード管理コントローラ１２に送信するように構成される。この時点で、コンピュータはクラッシュしておりプロセッサはどのコンピュータ命令も実行できないが、プロセッサは読取り要求メッセージを受信し、読取り要求メッセージに応答してもよい。

ベースボード管理コントローラ１２は、プロセッサ１１により返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサ１１により記録された第１のエラー・データを取得するように構成される。

例えば、プロセッサ１１が第１のエラー・データをプロセッサ１１のレジスタに記録してもよい。ベースボード管理コントローラ１２は、当該レジスタのアドレスを用いて読取り要求メッセージをプロセッサ１１に送信して、第１のエラー・データを当該レジスタから取得してもよい。コンピュータはクラッシュしておりコンピュータ命令を実行できないが、プロセッサ１１のレジスタは、読取り要求メッセージに応答し、読取り応答メッセージ、例えば、第１のエラー・データを返してもよく、その結果、ベースボード管理コントローラ１２は、第１のエラー・データを読取り応答メッセージに従って取得することができる。本発明の当該実施形態では、第１のエラー・データが１つまたは複数のエラー・データを含んでもよく、本発明の当該実施形態においてここでは限定されないことに留意すべきである。

本発明の当該実施形態では、コンピュータがクラッシュしたと判定されたとき、ベースボード管理コントローラ１２は、読取り要求メッセージをプロセッサ１１に送信し、プロセッサ１１により返された読取り応答メッセージを受信し、プロセッサ１１により記録された読取り応答メッセージに従って第１のエラー・データを取得してもよい。読取り要求メッセージは、プロセッサ１１により記録された第１のエラー・データの読取りを要求するために使用される。本発明の当該実施形態では、オペレーティング・システムを使用する必要はなく、ベースボード管理コントローラのみがコンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装する必要があり、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。

本発明の当該実施形態を以下で詳細に説明する。

（１）どのようにコンピュータのクラッシュを判定するかについて

一般に、コンピュータ内の障害により生ずる訂正不能なエラー（Ｕｎｃｏｒｒｅｃｔａｂｌｅｅｒｒｏｒ）を、破局的なエラー（ＣａｔａｓｔｒｏｐｈｉｃＥｒｒｏｒ）、致命的なエラー（ＦａｔａｌＥｒｒｏｒ）、および復旧可能なエラー（ＲｅｃｏｖｅｒａｂｌｅＥｒｒｏｒ）に分類してもよい。破局的なエラーと致命的なエラーは最も深刻であり、ブルー・スクリーン、パープル・スクリーンまたはクラッシュ（例えば、ブラック・スクリーンおよび一時停止）すらコンピュータ内で生じさせうる。したがって、コンピュータ内の破局的なエラーまたは致命的なエラーを監視してもよい。例えば、内部エラー（ＩｎｔｅｒｎａｌＥｒｒｏｒ、ＩＥＲＲ、破局的なエラーに属する）またはマシン・チェック・エラー（ＭａｃｈｉｎｅＣｈｅｃｋＥｒｒｏｒ、ＭＣＥＲＲ、致命的なエラーに属する）が監視される。破局的なエラーまたは致命的なエラーがコンピュータ内で発生したとき、コンピュータが基本入出力システム（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ、ＢＩＯＳ）の命令またはオペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）の命令を実行できない場合、コンピュータがクラッシュしたと判定してもよい。

特に、プロセッサ１１をさらに、第１のエラー・データを取得し、第１のエラー・データを記録するように構成してもよい。例えば、プロセッサ１１が、第１のエラー・データを生成または受信し、第１のエラー・データを、コンピュータのキャッシュまたはプロセッサ１１のレジスタまたは記憶能力を有する別のモジュールに記録してもよい。１態様では、プロセッサ１１が第１のエラー・データを取得した後、コンピュータがクラッシュしない場合、プロセッサ１１は、第１のエラー・データをベースボード管理コントローラに送信し、例えば、基本入出力システムのエラー収集命令をコンピュータ内で前もって構成してもよい。コンピュータがクラッシュしない場合、プロセッサ１１は基本入出力システムのエラー収集命令を実行し、第１のエラー・データを基本入出力システムのエラー収集命令に従ってベースボード管理コントローラ１２に送信する。コンピュータがクラッシュした場合、プロセッサ１１はどのコンピュータ命令も実行することができない。別の態様では、プロセッサ１１が第１のエラー・データを取得した後、第１のエラー・データが深刻な訂正不能エラー・タイプである場合、プロセッサ１１がさらに、深刻な障害事象指示を送信し、破局的なエラーまたは致命的なエラーがコンピュータ内で発生しクラッシュを生じさせうることをベースボード管理コントローラ１２に通知してもよい。第１のエラー・データが深刻な訂正不能エラー・タイプであるとは、第１のエラー・データが破局的なエラーまたは致命的なエラーに属することをいう。したがって、ベースボード管理コントローラ１２を、プロセッサ１１により送信された深刻な障害事象指示を受信するように構成してもよい。プロセッサ１１により送信された第１のエラー・データの少なくとも一部が当該深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、ベースボード管理コントローラ１２はコンピュータがクラッシュしたと判定してもよい。

さらに、ベースボード管理コントローラ１２がさらに、ユーザからの通知に従って、コンピュータがクラッシュしたと判定してもよい。例えば、コンピュータがクラッシュしたことを発見したとき、ユーザがベースボード管理コントローラ１２に通知してもよく、ベースボード管理コントローラ１２は、ユーザからの通知に従って、コンピュータがクラッシュしたと判定し、第１のエラー・データの取得を開始してもよい。

（２）第１のエラー・データの取得について

読取り要求メッセージを受信したとき、プロセッサ１１は読取り要求メッセージに従って第１のエラー・データを読取り応答メッセージに追加し、読取り応答メッセージをベースボード管理コントローラ１２に返してもよい。この時点で、ベースボード管理コントローラ１２はデータの読取りに成功し、ベースボード管理コントローラ１２は、読取り応答メッセージから、プロセッサ１１により記録された第１のエラー・データを取得してもよい。

しかし、幾つかのハードウェア障害が訂正不能なエラーを引き起こし、さらに、コンピュータのクラッシュをもたらすとき、ベースボード管理コントローラ１２は、第１のエラー・データの読取りに失敗したかもしれず、読取り応答メッセージが読取り障害指示を運搬する。当該読取り障害指示は、第１のエラー・データがプロセッサ１１から読み取られるのに失敗したことを示すために使用される。ベースボード管理コントローラ１２を、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示するように構成してもよく、その結果、プロセッサ１１が、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データをベースボード管理コントローラ１２に送信する。ベースボード管理コントローラ１２は、プロセッサ１１により送信された第１のエラー・データを受信して、第１のエラー・データの取得を完了してもよい。

コンピュータのリブートを、ウォーム・リブート・およびコールド・リブートに分類してもよいことに留意すべきである。コールド・リブートの間、コンピュータの電源は落とされ、コンピュータが初期化され、コールド・リブートの後、情報の損失が生じうる。例えば、コールド・リブートの後、プロセッサのレジスタに保存された情報が失われる。コールド・リブートは、リブートの電源スイッチが押下されたときにコンピュータで実施される。コールド・リブートと異なり、ウォーム・リブートの間は、コンピュータの電源は落とされず、コンピュータは初期化されず、プロセッサのレジスタに保存した情報は失われない。ウォーム・リブートとは、通常の手続きに従って初めに「再起動」をクリックしてコンピュータをシャットダウンし開始することをいう。本発明の当該実施形態および後続の実施形態では、コンピュータで実施されるウォーム・リブートは上と同じ意味を有する。

さらに、ベースボード管理コントローラ１２をさらに、第１のエラー・データが取得された後、クリア・データ・メッセージをプロセッサ１１に送信し、プロセッサ１１により記録された第１のエラー・データを削除するようにプロセッサ１１に指示し、それにより記憶リソースの無駄を回避するように構成してもよい。

任意選択で、ベースボード管理コントローラ１２をさらに、プロセッサ１１により送信された深刻な障害事象指示が受信された後、警告メッセージをコンピュータの障害警告モジュールに送信するかまたはプリント動作を実施して、コンピュータ内の障害を時間通りに取得できるようにするためにユーザに当該深刻な障害警告事象を通知するように構成してもよい。

（３）障害の分析、特定、および処理について

先行技術では、一般に、コンピュータがクラッシュしないケースではエラー・データのみをプリントでき、したがって完全な障害記録はなく、障害を手動でのみ分析し、特定し、処理することができる。本発明の当該実施形態では、ベースボード管理コントローラ１２は、完全な障害記録を記録し、さらに自動的に障害の原因を特定し、障害処理示唆を提供してもよく、これは、時間通りに障害を処理し障害からの復旧を行う際の支援を提供する。具体的な解決策は以下の通りである。

プロセッサ１１により記録された第１のエラー・データは一般に「０」または「１」で表される情報である。したがって、ベースボード管理コントローラ１２をさらに、第１のエラー・データを障害解析機構に従って解析して、第１のエラー・データの障害解析情報を取得するように構成してもよい。第１のエラー・データの障害解析情報が、第１のエラー・データ内のエラー・データの各々が生成された時間、誰がエラー・データを収集したか、どのプロセッサからエラー・データが来たか、どのコア（Ｃｏｒｅ）か、エラー・データがどのエラーに属するか等を含んでもよい。例えば、Ｘ８６のコンピュータの場合、ベースボード管理コントローラ１２は、Ｉｎｔｅｌからの障害コード定義に従って、バイナリ形式の第１のエラー・データを解析して、障害解析情報を取得してもよい。障害解析情報を、障害のケースを理解するために保守員またはユーザに提供できるだけでなく、当該障害の後続の特定、分析、および処理にさらに使用してもよい。

ベースボード管理コントローラ１２をさらに、第１のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成してもよい。事前に設定された障害処理機構がＸ８６に対する障害機構または障害処理経験であってもよく、当該取得された障害処理示唆が障害位置情報および／または処理示唆情報を含んでもよく、その結果、ユーザまたは障害修正員が障害処理示唆に従って処理をコンピュータに実施してコンピュータを復旧することができる。さらに、第１のエラー・データが、コンピュータがクラッシュする前の非常に短期間内に生成されたエラー・データのみであってもよい。例えば、第１のエラー・データはコンピュータがクラッシュする前０．５秒内に生成されたエラー・データであり、したがって、障害を特定し分析する精度を高めるために、より多くのエラー・データの障害解析情報を分析してもよい。特に、コンピュータがクラッシュしたと判定される前に、ベースボード管理コントローラ１２がさらに、プロセッサ１１により送信された第２のエラー・データを受信してもよい。第２のエラー・データは第１のエラー・データと異なり、第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データである。ベースボード管理コントローラ１２は、第２のエラー・データを障害解析機構に従って解析して、第２のエラー・データの障害解析情報を取得し、第２のエラー・データの障害解析情報と第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得してもよい。例えば、第１のエラー・データが、コンピュータがクラッシュする前０．５秒内に生成されたエラー・データであってもよく、当該事前に設定された時間が４．５秒であるとき、第２のエラー・データが、コンピュータがクラッシュする前５秒からコンピュータがクラッシュする前０．５秒を引いた時間の間に生成されたエラー・データであってもよく、この場合、ベースボード管理コントローラ１２は、事前に設定された障害処理機構に従って、コンピュータがクラッシュする前５秒内にエラー・データの障害解析情報を分析して、障害処理示唆を取得してもよい。

さらに、ベースボード管理コントローラ１２をさらに、第１のエラー・データの障害解析情報または第１のエラー・データの障害解析情報または障害処理示唆をプリントするように構成してもよく、その結果、ユーザまたは障害修正員がコンピュータ内の障害を当該プリントされた情報に従って処理することができる。

さらに、ベースボード管理コントローラ１２がさらに、後に障害を特定し障害からの復旧を行う際の支援を提供するために、第１のエラー・データの障害解析情報、第２のエラー・データの障害解析情報、第１のエラー・データ、および第２のエラー・データのうち少なくとも１つをコンピュータの障害情報ベースに保存して、コンピュータの障害記録を取得してもよい。例えば、ベースボード管理コントローラ１２は、第１のエラー・データの障害解析情報および第２のエラー・データの障害解析情報を障害情報ベースに保存してもよく、その結果、障害情報ベースが完全なエラー・データを保存し、完全な障害記録を提供することができる。本発明の当該実施形態では、障害情報ベースを、ベースボード管理コントローラ１２内で設定してもよく、または、ベースボード管理コントローラ１２外部で設定してもよい。

実際のアプリケーションのプロセスにおいて、異なる方式を、異なる適用シナリオに従って使用してコンピュータ内の障害を特定し、分析し、処理してもよいことに留意すべきである。例えば、非単一ノードの適用シナリオに対して、システムが本発明の当該実施形態に従う複数のコンピュータを含んでもよい。本発明の当該実施形態に従う各コンピュータは、障害を特定し、分析し、処理する能力を有してもよい。この時点で、当該複数のコンピュータの或るコンピュータ（例えば、プライマリ・コンピュータ）のベースボード管理コントローラがエラー・データを他のコンピュータのベースボード管理コントローラから収集してもよく、当該或るコンピュータのベースボード管理コントローラは連帯的な障害の特定、分析、および処理を当該システム内の全てのコンピュータに実施する。あるいは、当該システム内の複数のコンピュータのベースボード管理コントローラは、ベースボード管理コントローラにより取得されたエラー・データを当該システム内の管理装置（例えば、管理サーバ）に報告してもよく、当該管理装置は、当該方法の実施形態における方式を使用して連帯的な障害の特定、分析、および処理を当該システム内の全てのコンピュータに実施する。

本発明の当該実施形態では、オペレーティング・システムを使用する必要はなく、ベースボード管理コントローラ１２のみがコンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装する必要があり、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。さらに、ベースボード管理コントローラ１２がさらに、完全な障害を障害記録ベースに記録してもよく、さらに、第１のエラー・データを解析して、第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害の原因を特定し処理示唆を提供してもよい。

実施形態２
本発明をより良く説明するために、様々な具体的な詳細を以下の具体的な実装方式で提供する。当業者は本発明をまた幾つかの具体的な詳細なしに実装できることを理解すべきである。本発明の当該実施形態では、実施形態１におけるプロセッサ１１およびベースボード管理コントローラ１２の構造的構成および機能を、図２を参照して詳細に説明する。

図２は本発明の当該実施形態に従うコンピュータの構成の略構造図である。コンピュータはプロセッサ１１とベースボード管理コントローラ１２を備える。プロセッサ１１が記録モジュール２１、記憶モジュール２２、および命令実行モジュール２３を備えてもよい。記録モジュール２１が、特に、プロセッサ１１の内部機能モジュールを担当するハードウェア障害チェック・アーキテクチャ（ＭａｃｈｉｎｅＣｈｅｃｋＡｒｃｈｉｔｅｃｔｕｒｅ、ＭＣＡ）、および／または、コンピュータの入出力装置のＰＣＩｅ標準を担当する障害報告機構（ＡｄｖａｎｃｅｄＥｒｒｏｒＲｅｐｏｒｔｉｎｇ、ＡＥＲ）であってもよい。対応して、記憶モジュール２２が、ＭＣＡのレジスタおよび／またはＡＥＲのレジスタであってもよい。ＭＣＡのレジスタおよびＡＥＲのレジスタをプロセッサ１１内部に配置してもよい。命令実行モジュール２３が、プロセッサ１１のコアであってもよく、基本入出力システムの命令およびオペレーティング・システムの命令を実行するように構成される。

記録モジュール２１を、コンピュータ内のエラー・データを取得し、例えば、プロセッサ１１の内部機能モジュール内で障害が発生した際に生成されるエラー・データを生成するか、または、別の例として、障害がＩＯデバイス内で発生した際に生成されるエラー・データを受信するように構成してもよい。コンピュータ内のエラー・データは、本発明の当該実施形態における第１のエラー・データと第２のエラー・データを含むがこれらに限られない。記録モジュール２１は、記憶モジュール２２に、コンピュータ内の取得されたエラー・データを記録してもよい。特に、コンピュータ内のエラー・データがＭＣＡにより取得される場合、ＭＣＡは、ＭＣＡのレジスタに、コンピュータ内のエラー・データを記録してもよい。コンピュータ内のエラー・データがＡＥＲにより取得される場合、ＡＥＲは、ＡＥＲのレジスタに、コンピュータ内のエラー・データを記録してもよい。ＭＣＡまたはＡＥＲにより取得された或る範囲のエラー・データを、ＢＩＯＳを用いて対応するレジスタを構成することによって実装してもよい。任意選択で、対応するレジスタにコンピュータ内のエラー・データを記録したとき／後に、ＭＡＣまたはＡＥＲがさらに、第１のレジスタに、コンピュータ内のエラー・データを記録するレジスタのアドレスを保存してもよく、その結果、後に命令実行モジュール２３がコンピュータ内のエラー・データを基本入出力システムのエラー収集命令に従ってかつ第１のレジスタに記録されたアドレスを用いて取得することができる。

コンピュータ内のエラー・データを取得するとき、記録モジュール２１がさらに、システム管理割込み（ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＩｎｔｅｒｒｕｐｔ、ＳＭＩ）をトリガしてもよい。当該システム管理割込みは、命令実行モジュール２３をトリガして基本入出力システムのエラー収集命令を実行するように構成される。コンピュータがクラッシュしない場合、命令実行モジュール２３は、記憶モジュール２２から、コンピュータ内のエラー・データを基本入出力システムのエラー収集命令に従って取得し、当該エラー・データをベースボード管理コントローラ１２に送信してもよい。コンピュータがクラッシュした場合、命令実行モジュール２３はどのコンピュータ命令も実行することができない。基本入出力システムのエラー収集命令を、基本入出力システムの当該命令を格納するメモリ内で前もって構成してもよい。

実際には、実施形態１によれば、第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、したがって、記録モジュール２１がまず第２のエラー・データを取得し次いで第１のエラー・データを取得することが分かりうる。したがって、第２のエラー・データを取得するとき、１態様では、記録モジュール２１が、第２のエラー・データを記憶モジュール２２に記録してもよく、別の態様では当該システム管理割込みをトリガしてもよい。コンピュータがクラッシュしない場合、命令実行モジュール２３は、基本入出力システムのエラー収集命令を当該システム管理割込みに従って実行し、第２のエラー・データを記憶モジュール２２から基本入出力システムのエラー収集命令に従って取得し、第２のエラー・データをベースボード管理コントローラ１２に送信してもよい。任意選択で、命令実行モジュール２３は、インテリジェント・プラットフォーム管理インタフェース（ＩｎｔｅｌｌｉｇｅｎｔＰｌａｔｆｏｒｍＭａｎａｇｅｍｅｎｔＩｎｔｅｒｆａｃｅ、ＩＰＭＩ）標準を用いて第２のエラー・データをベースボード管理コントローラ１２に送信してもよく、ベースボード管理コントローラ１２は、当該ＩＰＭＩ標準を用いて、命令実行モジュール２３により送信された第２のエラー・データを受信してもよい。第２のエラー・データが複数のエラー・データを含み記録モジュール２１が複数回の後第２のエラー・データのみを取得できるとき、記録モジュール２１は、記録モジュール２１が第２のエラー・データの一部を取得するたびに当該システム管理割込みをトリガしてもよいことに留意すべきである。対応して、命令実行モジュール２３は、基本入出力システムのエラー収集命令を複数回実行して、第２のエラー・データをベースボード管理コントローラ１２に複数回送信することを実施してもよい。任意選択で、第２のエラー・データをベースボード管理コントローラ１２に送信した後、命令実行モジュール２３は、オペレーティング・システムの削除命令を実行して、当該オペレーティング・システムの当該削除命令に従って、記録モジュール２１に保存された第２のエラー・データを削除してもよい。換言すれば、命令実行モジュール２３は、記憶モジュール２２から、ベースボード管理コントローラ１２に送信されているエラー・データを削除し、それによりエラー・データのベースボード管理コントローラ１２への反復送信を回避してもよい。

第２のエラー・データを取得した後に記録モジュール２１が第１のエラー・データを取得した場合、記録モジュール２１はまたシステム管理割込みをトリガしてもよい。さらに、第１のエラー・データが深刻な訂正不能エラー・タイプである場合、即ち、第１のエラー・データが破局的なエラーまたは致命的なエラーに属する場合、記録モジュール２１はさらに、深刻な障害事象指示をトリガして、破局的なエラーまたは致命的なエラーがコンピュータ内で発生しクラッシュを生じさせうることをベースボード管理コントローラ１２に通知してもよい。第１のエラー・データが実際に当該深刻な訂正不能エラー・タイプでありコンピュータがクラッシュしたとき、命令実行モジュール２３はコンピュータ命令を実行できず、記録モジュール２１がシステム管理割込みをトリガしたとしても、命令実行モジュール２３は依然として基本入出力システムのエラー収集命令を実行できず、第１のエラー・データをベースボード管理コントローラ１２に対する記憶モジュール２２から取得することができない。したがって、ベースボード管理コントローラ１２がプロセッサ１１により送信された第１のエラー・データの少なくとも一部を深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信しない場合には、コンピュータがクラッシュしたと判定してもよい。特に、記録モジュール２１による深刻な障害事象指示のトリガを、ピンＣＡＴＥＥＲ＿ＮまたはＥＲＲＯＲ＿Ｎのレベルを変更することによって実装してもよく、ベースボード管理コントローラ１２は、ピンＣＡＴＥＥＲ＿ＮまたはＥＲＲＯＲ＿Ｎからのレベル信号を受信することによって深刻な障害事象指示を受信してもよい。

コンピュータがクラッシュしたと判定されたとき、ベースボード管理コントローラ１２は読取り要求メッセージを記録モジュール２１に送信してもよい。読取り要求メッセージは第１のエラー・データの読取りを要求するために使用される。コンピュータがクラッシュした後、記録モジュール２１は依然として、読取り要求メッセージを受信し、読取り応答メッセージをベースボード管理コントローラ１２に送信してもよい。したがって、ベースボード管理コントローラ１２は、読取り応答メッセージを受信し、プロセッサ１１により記録された読取り応答メッセージに従って第１のエラー・データを取得してもよい。特に、ベースボード管理コントローラ１２は、プラットフォーム環境制御インタフェース（ＰｌａｔｆｏｒｍＥｎｖｉｒｏｎｍｅｎｔＣｏｎｔｒｏｌＩｎｔｅｒｆａｃｅ、ＰＥＣＩ）バスを用いてＭＡＣのレジスタまたはＡＥＲのレジスタをトラバースして、第１のエラー・データをＭＡＣのレジスタまたはＡＥＲのレジスタから読み出してもよい。ベースボード管理コントローラ１２がＭＡＣのレジスタまたはＡＥＲのレジスタからデータの読取りに成功した場合、ＭＡＣのレジスタまたはＡＥＲのレジスタにより返された読取り応答メッセージは第１のエラー・データを運搬し、ベースボード管理コントローラ１２は第１のエラー・データを取得してもよい。ベースボード管理コントローラ１２がＭＡＣのレジスタまたはＡＥＲのレジスタからデータの読み取りに失敗した場合、ＭＡＣのレジスタまたはＡＥＲのレジスタにより返された読取り応答メッセージは、読取り障害指示、例えば、不明瞭な文字を運搬する。したがって、ベースボード管理コントローラ１２は、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示してもよく、その結果、命令実行モジュール２３が、コンピュータのウォーム・リブートの間に、基本入出力システムの障害収集命令を実行し、ＭＡＣのレジスタまたはＡＥＲのレジスタを基本入出力システムの障害収集命令に従ってトラバースし、第１のエラー・データを取得し、ＩＰＭＩ標準を用いて第１のエラー・データをベースボード管理コントローラ１２に送信し、ベースボード管理コントローラ１２が当該障害収集命令により送信された第１のエラー・データを受信することができる。

本発明の当該実施形態では、ベースボード管理コントローラ１２はプロセッサ１１と協調して、コンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装し、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。

実施形態３
本発明の当該実施形態では、図１または図２に示すコンピュータで使用される障害処理方法を提供する。当該コンピュータはベースボード管理コントローラとプロセッサを備える。当該方法は以下を含む。

Ｓ３０１：コンピュータがクラッシュしたと判定されたとき、ベースボード管理コントローラが読取り要求メッセージをプロセッサに送信する。読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される。

プロセッサが第１のエラー・データを取得し、第１のエラー・データを記録してもよい。コンピュータがクラッシュしたと判定されたとき、ベースボード管理コントローラは、読取り要求メッセージをプロセッサに送信し、プロセッサにより記録された第１のエラー・データを読み取ってもよい。この時点で、コンピュータはクラッシュしておりプロセッサはどのコンピュータ命令も実行できないが、プロセッサは読取り要求メッセージを受信し、読取り要求メッセージに応答でき、その結果、ベースボード管理コントローラは第１のエラー・データを取得することができる。例えば、プロセッサは第１のエラー・データをプロセッサのレジスタに記録してもよく、ベースボード管理コントローラは読取り要求メッセージをプロセッサのレジスタに送信してもよい。プロセッサのレジスタは、読取り要求メッセージを受信し、読取り応答メッセージを返してもよい。本発明の当該実施形態では、第１のエラー・データが１つまたは複数のエラー・データを含んでもよく、本発明の当該実施形態においてここでは限定されない。

ベースボード管理コントローラはコンピュータがクラッシュしたことを複数の方式で判定し、特に、実施形態１または実施形態２を参照してもよく、詳細については本発明の当該実施形態ではここでは再度説明しない。

Ｓ３０２：ベースボード管理コントローラがプロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得する。

ベースボード管理コントローラがプロセッサからのデータの読取りに成功した場合、読取り応答メッセージは第１のエラー・データを運搬してもよく、ベースボード管理コントローラは、読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得してもよい。ベースボード管理コントローラがプロセッサからのデータの読取りに失敗した場合、読取り応答メッセージは読取り障害指示を運搬してもよく、ベースボード管理コントローラは第１のエラー・データを別の方式で取得してもよい。例えば、基本入出力システムの障害収集命令をコンピュータ内で前もって構成してもよい。読取り応答メッセージが読取り障害指示を運搬するとき、ベースボード管理コントローラは、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示してもよく、その結果、プロセッサが、コンピュータのウォーム・リブートの間に、基本入出力システムのコンピュータ収集命令における障害を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データをベースボード管理コントローラに送信し、ベースボード管理コントローラはプロセッサにより送信された第１のエラー・データを受信することによって第１のエラー・データの取得を完了することができる。

本発明の当該実施形態では、コンピュータがクラッシュしたと判定されたとき、コンピュータのベースボード管理コントローラは読取り要求メッセージをコンピュータのプロセッサに送信し、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得してもよい。読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される。本発明の当該実施形態により、オペレーティング・システムを使用する必要はなく、ベースボード管理コントローラのみがコンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装する必要があり、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。

実施形態４
本発明の当該実施形態では、図１または図２に示すコンピュータで使用される障害処理方法を提供する。当該コンピュータはベースボード管理コントローラとプロセッサを備え、当該方法は以下を含む。

Ｓ４０１：ベースボード管理コントローラがプロセッサにより送信された深刻な障害事象指示を受信する。プロセッサが第１のエラー・データを取得し第１のエラー・データが深刻な訂正不能エラー・タイプであるとき、当該深刻な障害事象指示がプロセッサにより送信される。

Ｓ４０２：ベースボード管理コントローラが警告メッセージをコンピュータの障害警告モジュールに送信するかまたはプリント動作を実施して、ユーザに深刻な障害警告事象を通知する。

プロセッサにより送信された深刻な障害事象指示を受信した後、ベースボード管理コントローラは、当該警告メッセージを用いて障害警告センサをトリガするか、または、プリント動作を実施して、深刻な障害がコンピュータで生じクラッシュの原因となりうることをユーザに通知してもよい。本発明の当該実施形態ではＳ４０２は任意選択のステップである。

Ｓ４０３：ベースボード管理コントローラがプロセッサにより送信された第１のエラー・データの少なくとも一部を深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信しない場合、コンピュータがクラッシュしたと判定し、ステップＳ４０４を実施する。

プロセッサが第１のエラー・データを取得した後、コンピュータがクラッシュしない場合、プロセッサは、基本入出力システムのエラー収集命令を実行し、基本入出力システムのエラー収集命令に従って第１のエラー・データをベースボード管理コントローラに送信してもよい。コンピュータがクラッシュした場合、プロセッサはどのコンピュータ命令も実行することができない。したがって、ベースボード管理コントローラが深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内にプロセッサにより送信された第１のエラー・データの少なくとも一部を受信しなかった場合、コンピュータがクラッシュしたと判定してもよい。

Ｓ４０４：ベースボード管理コントローラが読取り要求メッセージをプロセッサに送信する。読取り要求メッセージはプロセッサにより記録された第１のエラー・データの読取りを要求するために使用される。

コンピュータがクラッシュしたと判定された後、ベースボード管理コントローラが第１のエラー・データをプロセッサから取得して、コンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装してもよい。

Ｓ４０５：ベースボード管理コントローラがプロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得する。

ベースボード管理コントローラは、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得し、特に、Ｓ４０５ａの方式を使用してもよく、または、Ｓ４０５ａの方式を使用してもよい。

Ｓ４０５ａ：読取り応答メッセージが第１のエラー・データを運搬する場合、ベースボード管理コントローラは、読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得する。

読取り応答メッセージが第１のエラー・データを運搬する場合、これはベースボード管理コントローラが第１のエラー・データをプロセッサから読み取るのに成功したことを示し、ベースボード管理コントローラは読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得してもよい。

Ｓ４０５ｂ：読取り応答メッセージが読取り障害指示を運搬し、当該読取り障害指示は、第１のエラー・データがプロセッサから読み取られるのに失敗したことを示すために使用される場合、ベースボード管理コントローラは、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示し、その結果、プロセッサは、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データをベースボード管理コントローラに送信し、ベースボード管理コントローラはプロセッサにより送信された第１のエラー・データを受信する。

基本入出力システムの障害収集命令をコンピュータ内で前もって構成してもよい。ベースボード管理コントローラが第１のエラー・データをプロセッサから読み取るのに失敗したとき、読取り応答メッセージは読取り障害指示を運搬し、ベースボード管理コントローラは、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・モジュールまたはユーザに指示し、その結果、プロセッサは、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、ベースボード管理コントローラに送信する。

Ｓ４０６：ベースボード管理コントローラが障害解析機構に従って第１のエラー・データを解析して、第１のエラー・データの障害解析情報を取得する。

第１のエラー・データを取得した後、ベースボード管理コントローラは第１のエラー・データを障害解析機構に従って解析して、第１のエラー・データの障害解析情報を取得する。第１のエラー・データの障害解析情報が、第１のエラー・データ内のエラー・データの各々が生成された時間、誰がエラー・データを収集したか、どのプロセッサからエラー・データが来たか、どのコア（Ｃｏｒｅ）か、エラー・データがどのエラーに属するか等を含んでもよい。障害解析情報を、障害のケースを理解するために保守員またはユーザに提供できるだけでなく、障害の後続の特定、分析、および処理にさらに使用してもよい。

Ｓ４０７：ベースボード管理コントローラが事前に設定された障害処理機構に従って第１のエラー・データの障害解析情報を分析して、障害処理示唆を取得する。

事前に設定された障害処理機構が、Ｘ８６に対する障害機構または障害処理経験であってもよい。ベースボード管理コントローラは第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得する。障害処理示唆が、障害位置情報または処理示唆情報であってもよく、その結果、ユーザまたは障害修正員は、障害処理示唆に従って処理をコンピュータに実施してコンピュータを復旧することができる。

Ｓ４０８：ベースボード管理コントローラが障害処理示唆をプリントする。

障害処理示唆を取得した後、ベースボード管理コントローラは、障害処理示唆をプリントしてもよいか、または、さらに、第１のエラー・データの障害処理示唆および障害解析情報をプリントしてもよく、その結果、ユーザまたは障害修正員は当該プリントされた情報に従ってコンピュータに処理を実施して、コンピュータを復旧することができる。

本発明の当該実施形態では、オペレーティング・システムを使用する必要はなく、ベースボード管理コントローラのみがコンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装する必要があり、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。さらに、ベースボード管理コントローラがさらに第１のエラー・データを解析し、第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害の原因を特定し処理示唆を提供してもよい。

ステップＳ４０７において、第１のエラー・データのみの障害解析情報を分析して障害処理示唆を取得するので、第１のエラー・データが、コンピュータがクラッシュする前の非常に短期間内に生成されたエラー・データのみであってもよい。例えば、第１のエラー・データは、コンピュータがクラッシュする前２秒以内に生成されたエラー・データであり、したがって、障害を特定し分析する精度を高めるために、より多くのエラー・データの障害解析情報を分析してもよい。

ステップＳ４０３の前に、ベースボード管理コントローラがさらに、プロセッサにより送信された第２のエラー・データを受信してもよい。第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データである。

ステップＳ４０７がさらに、ベースボード管理コントローラが第２のエラー・データを障害解析機構に従って解析して、第２のエラー・データの障害解析情報を取得し、第２のエラー・データの障害解析情報および第１のエラー・データの障害解析情報を分析して、障害処理示唆を取得するというものであってもよい。

本発明の当該実施形態では、ベースボード管理コントローラが、第２のエラー・データの障害解析情報および第１のエラー・データの障害解析情報を分析して、障害処理示唆を取得し、障害を特定し分析する精度を高めてもよい。

任意選択で、ステップＳ４０５の後に、ベースボード管理コントローラがさらに、第１のエラー・データの障害解析情報、第２のエラー・データの障害解析情報、第１のエラー・データ、および第２のエラー・データのうち少なくとも１つをコンピュータの障害情報ベースに保存してもよい。例えば、完全な障害記録を障害記録ベースに記録するために、第１のエラー・データの障害解析情報および第２のエラー・データの障害解析情報は障害情報ベースに保存されるか、または、第１のエラー・データおよび第２のエラー・データは障害情報ベースに保存される。

任意選択で、ステップＳ４０５の後に、ベースボード管理コントローラがさらに、クリア・データ・メッセージをプロセッサに送信して、プロセッサにより記録された第１のエラー・データを削除するようにプロセッサに指示し、それにより記憶リソースの無駄を回避してもよい。

本発明の実施形態３または実施形態４におけるベースボード管理コントローラについては、特に、本発明の実施形態１または実施形態２におけるベースボード管理コントローラおよびプロセッサの対話および障害処理を参照してもよい。

実施形態５
本発明の当該実施形態では、ベースボード管理コントローラとプロセッサを備えたコンピュータで使用される、例えば、図１または２に示すコンピュータで使用される、ベースボード管理コントローラを提供する。図５に示すように、当該ベースボード管理制御が送信ユニットおよび受信ユニットを備えてもよい。

当該送信ユニットは、コンピュータがクラッシュしたと判定されたとき読取り要求メッセージをプロセッサに送信するように構成される。読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される。コンピュータはクラッシュしておりプロセッサはどのコンピュータ命令も実行できないが、プロセッサは読取り要求メッセージを受信し、読取り要求メッセージに応答することができる。

当該受信ユニットは、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得するように構成される。例えば、読取り応答メッセージが第１のエラー・データを運搬するとき、受信ユニットは読取り応答メッセージから、プロセッサにより記録された第１のエラー・データを取得してもよい。別の例として、読取り応答メッセージが読取り障害指示を運搬するとき、受信ユニットは、ウォーム・リブートをコンピュータで実施するようにコンピュータのウォーム・リブート・ユニットまたはユーザに指示してもよく、その結果、プロセッサが、コンピュータのウォーム・リブートの間に、コンピュータの基本入出力システムの障害収集命令を実行し、第１のエラー・データを基本入出力システムの障害収集命令に従って取得し、第１のエラー・データを受信ユニットに送信する。当該読取り障害指示は、第１のエラー・データがプロセッサから読み取られるのに失敗したことを示すために使用され、受信ユニットはプロセッサにより送信された第１のエラー・データを受信する。任意選択で、第１のエラー・データが取得された後、受信ユニットがさらに、クリア・データ・メッセージをプロセッサに送信し、プロセッサにより記録された第１のエラー・データを削除するようにプロセッサに指示し、それにより記憶リソースの無駄を回避してもよい。

任意選択で、ベースボード管理コントローラがさらに、プロセッサにより送信された深刻な障害事象指示を受信し、プロセッサにより送信された第１のエラー・データの少なくとも一部が当該深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、コンピュータがクラッシュしたと判定するように構成された判定ユニットを含んでもよい。プロセッサが第１のエラー・データを取得し第１のエラー・データが深刻な訂正不能エラー・タイプであるとき、当該深刻な障害事象指示はプロセッサにより送信される。

任意選択で、ベースボード管理コントローラがさらに、判定ユニットがプロセッサにより送信された深刻な障害事象指示を受信した後に、警告メッセージをコンピュータの障害障害警告ユニットに送信するかまたはプリント動作を実施して、ユーザに当該深刻な障害警告事象を通知するように構成された障害警告ユニットを含んでもよい。

任意選択で、ベースボード管理コントローラがさらに、第１のエラー・データを障害解析機構に従って解析して、第１のエラー・データの障害解析情報を取得するように構成された障害処理ユニットを含んでもよい。第１のエラー・データの障害解析情報が、第１のエラー・データ内のエラー・データの各々が生成された時間、誰がエラー・データを収集したか、どのプロセッサからエラー・データが来たか、どのコア（Ｃｏｒｅ）か、エラー・データがどのエラーに属するか等を含んでもよい。障害解析情報を、障害のケースを理解するために保守員またはユーザに提供できるだけでなく、当該障害の後続の特定、分析、および処理にさらに使用してもよい。

さらに、障害処理ユニットをさらに、第１のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成してもよい。当該事前に設定された障害処理機構が、Ｘ８６に対する障害機構または障害処理経験であってもよい。当該障害処理示唆が、障害位置情報または処理示唆情報であってもよく、その結果、ユーザまたは障害修正員が障害処理示唆に従って処理をコンピュータに実施してコンピュータを復旧することができる。

障害処理ユニットは第１のエラー・データのみの障害解析情報を分析して障害処理示唆を取得するので、第１のエラー・データが、コンピュータがクラッシュする前の非常に短期間内に生成されたエラー・データのみであってもよい。例えば、第１のエラー・データは、コンピュータがクラッシュする前０．８秒内に生成されたエラー・データであり、したがって、障害を特定し分析する精度を高めるために、障害処理ユニットは、より多くのエラー・データの障害解析情報を分析してもよい。特に、受信ユニットは、プロセッサにより送信された第２のエラー・データを受信するようにさらに構成され、第２のエラー・データを障害解析機構に従って解析して、第２のエラー・データの障害解析情報を取得し、第２のエラー・データの障害解析情報および第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得してもよい。第２のエラー・データは、コンピュータが第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データである。

任意選択で、障害処理ユニットは、第１のエラー・データの障害解析情報または障害処理示唆をプリントするようにさらに構成される。

任意選択で、障害処理ユニットは、第１のエラー・データの障害解析情報、第２のエラー・データの障害解析情報、第１のエラー・データ、および第２のエラー・データのうち少なくとも１つをコンピュータの障害情報ベースに保存するようにさらに構成される。例えば、完全な障害記録を障害記録ベースに記録するために、第１のエラー・データの障害解析情報および第２のエラー・データの障害解析情報は障害情報ベースに保存されるか、または、第１のエラー・データおよび第２のエラー・データは障害情報ベースに保存される。

本発明の当該実施形態におけるベースボード管理コントローラについて、特に、本発明の実施形態１または実施形態２におけるベースボード管理コントローラおよびプロセッサの対話および障害処理を参照してもよい。

本発明の当該実施形態では、コンピュータがクラッシュしたと判定されたとき、送信ユニットは読取り要求メッセージをコンピュータのプロセッサに送信してもよい。読取り要求メッセージは、プロセッサにより記録された第１のエラー・データの読取りを要求するために使用され、受信ユニットは、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第１のエラー・データを取得してもよい。本発明の当該実施形態により、オペレーティング・システムを使用する必要はなく、ベースボード管理コントローラのみがコンピュータがクラッシュした後のコンピュータ内のエラー・データの取得を実装する必要があり、コンピュータ内で生ずる深刻な訂正不能なエラーがシステム・クラッシュを生じさせた後にコンピュータ内のエラー・データを取得できないという先行技術の問題が解決される。

本発明の１実施形態ではコンピュータ実行可能命令を含むコンピュータ可読媒体を提供し、その結果、コンピュータのプロセッサがコンピュータ実行可能命令を実行したとき、コンピュータが実施形態３または実施形態４の障害処理方法を実行することができる。

図６は、本発明の１実施形態で提供するベースボード管理コントローラを示す。当該ベースボード管理コントローラがプロセッサ６０１、メモリ６０２、システム・バス６０４、および通信インタフェース６０５を備えてもよい。プロセッサ６０１、メモリ６０２、および通信インタフェース６０５は、システム・バス６０４を用いて接続され、相互通信を実現する。

プロセッサ６０１が、シングルコアまたはマルチコアの中央演算装置であってもよく、または、特定の集積回路であってもよく、または、本発明の当該実施形態を実装するための１つまたは複数の集積回路として構成されてもよい。

メモリ６０２が、高速ＲＡＭメモリであってもよく、または、不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば、少なくとも１つのディスク・メモリであってもよい。

メモリ６０２は、コンピュータ実行可能命令６０３に対して構成される。特に、コンピュータ実行可能命令６０３がプログラム・コードを含んでもよい。

ベースボード管理コントローラが実行したとき、プロセッサ６０１は、コンピュータ実行可能命令６０３を実行して、実施形態３または実施形態４における障害処理方法の方法の手続きを実施する。

当業者は、本発明の各態様または各態様の可能な実装方式を、特にシステム、方法、またはコンピュータ・プログラム製品として実装してもよいことを理解しうる。したがって、本発明の各態様または各態様の可能な実装方式は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態（ファームウェア、常駐ソフトウェア等を含む）、またはソフトウェアおよびハードウェアの組合せを有する実施形態の形を使用してもよく、これらは本明細書では一律に「回路」、「モジュール」、または「システム」と称される。さらに、本発明の各態様または各態様の可能な実装方式がコンピュータ・プログラム製品の形をとってもよい。コンピュータ・プログラム製品とは、コンピュータ可読媒体に格納されたコンピュータ可読プログラム・コードを指す。

コンピュータ可読媒体がコンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体はランダム・アクセス・メモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能プログラム可能読取専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、光ファイバ、およびコンパクト・ディスク読取専用メモリ（ＣＤ−ＲＯＭ）のような、電子、磁気、光学、電磁気、赤外線、または半導体システム、デバイス、または装置、またはそれらの任意の適切な組合せが含まれるがこれらに限られない。

コンピュータ内のプロセッサはコンピュータ可読媒体に格納されたコンピュータ可読プログラム・コードを読み取り、その結果、プロセッサは、流れ図における各ステップまたはステップの組合せで指定された機能と動作を実施でき、ブロック図における各ブロックまたはブロックの組合せで指定された機能と動作を実装するための装置が生成される。

全てのコンピュータ可読プログラム・コードをユーザのコンピュータで実行してもよく、または、一部をスタンドアロンのソフトウェア・パッケージとしてユーザのコンピュータで実行してもよく、または、一部をユーザのコンピュータで実行し、一部をリモート・コンピュータで実行してもよく、または、全てのコードをリモート・コンピュータまたはコンピュータで実行してもよい。幾つかの代替的な実装の解決策では、流れ図における各ステップまたはブロック図において各ブロックで指定した機能を図示した順序で行わなくてもよいことにも留意すべきである。例えば、図における２つの連続的なステップまたは２つのブロックは、含まれる機能に依存し、実際には実質的に同時に実行されてもよく、または、これらのブロックは場合によっては逆順に実行されてもよい。

本明細書で開示した実施形態で説明した例と組み合わせて、ユニットおよびアルゴリズムのステップを電子ハードウェアまたはコンピュータ・ソフトウェアと電子ハードウェアの組合せにより実装してもよいことを当業者は認識しうる。機能がハードウェアまたはソフトウェアにより実施されるか否かは技術的解決策の特定の応用と設計制約条件に依存する。当業者は、様々な方法を用いて、特定の応用ごとに説明した機能を実装してもよいが、当該実装が本発明の範囲を超えると考えるべきではない。

以上の説明は、本発明の具体的な実装方式にすぎず、本発明の保護範囲を限定しようとするものではない。本発明で開示した技術的範囲内で当業者が容易に想到する任意の変形または置換えは本発明の保護範囲内に入るものとする。したがって、本発明の保護範囲は特許請求の範囲の保護範囲により支配されるものとする。

１１プロセッサ
１２ベースボード管理コントローラＢＭＣ
２１記録モジュール
２２記憶モジュール
２３命令実行モジュール
５０１送信ユニット
５０２受信ユニット
５０３決定ユニット
６０１プロセッサ
６０２メモリ
６０３プログラム
６０４通信バス
６０５通信インタフェース

Claims

プロセッサおよびベースボード管理コントローラを備えたコンピュータであって、
前記ベースボード管理コントローラは、前記コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージを前記プロセッサに送信するように構成され、前記読取り要求メッセージは、前記プロセッサにより記録された第１のエラー・データの読取りを要求するために使用され、
前記プロセッサは、前記読取り要求メッセージを受信し、読取り応答メッセージを前記ベースボード管理コントローラに送信するように構成され、
前記ベースボード管理コントローラは、前記プロセッサにより返された前記読取り応答メッセージを受信するように構成され、
前記読取り応答メッセージが読取り障害指示を運搬するとき、前記ベースボード管理コントローラが、ウォーム・リブートを前記コンピュータで実施するように前記コンピュータのウォーム・リブート・モジュールまたはユーザに指示するように構成され、前記読取り障害指示は、前記第１のエラー・データが前記プロセッサから読み取られるのに失敗したことを示すために使用され、その結果、前記プロセッサは、前記コンピュータの前記ウォーム・リブートの間に、前記コンピュータの基本入出力システムの障害収集命令を実行し、前記第１のエラー・データを前記基本入出力システムの前記障害収集命令に従って取得し、前記ベースボード管理コントローラに送信し、
前記ベースボード管理コントローラは、前記プロセッサにより送信された前記第１のエラー・データを受信するように構成される
コンピュータ。
前記プロセッサは、前記第１のエラー・データを取得し、前記第１のエラー・データを記録するようにさらに構成され、
前記ベースボード管理コントローラが、前記コンピュータがクラッシュしたと判定するように構成されることは特に、
前記ベースボード管理コントローラは、前記プロセッサにより送信された深刻な障害事象指示を受信するように構成され、前記プロセッサが前記第１のエラー・データを取得し前記第１のエラー・データが深刻な訂正不能エラー・タイプであるとき、前記深刻な障害事象指示は前記プロセッサにより送信され、
前記プロセッサにより送信された前記第１のエラー・データの少なくとも一部が前記深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、前記ベースボード管理コントローラは、前記コンピュータがクラッシュしたと判定するように構成される
ことである、請求項１に記載のコンピュータ。
前記読取り応答メッセージが前記第１のエラー・データを運搬するとき、前記ベースボード管理コントローラが、前記読取り応答メッセージから、前記プロセッサにより記録された前記第１のエラー・データを取得するように構成されることである、請求項１または２に記載のコンピュータ。
前記ベースボード管理コントローラは、前記第１のエラー・データを障害解析機構に従って解析して、前記第１のエラー・データの障害解析情報を取得するようにさらに構成される、請求項１乃至３の何れか１項に記載のコンピュータ。
前記ベースボード管理コントローラは、前記第１のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するようにさらに構成される、請求項４に記載のコンピュータ。
前記コンピュータがクラッシュしたと判定される前に、前記ベースボード管理コントローラは、前記プロセッサにより送信された第２のエラー・データを受信し、前記第２のエラー・データを前記障害解析機構に従って解析して、前記第２のエラー・データの障害解析情報を取得するようにさらに構成され、前記第２のエラー・データは、前記コンピュータが前記第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、
前記ベースボード管理コントローラが、前記第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、
前記ベースボード管理コントローラが、前記第２のエラー・データの障害解析情報および前記第１のエラー・データの障害解析情報を前記事前に設定された障害処理機構に従って分析して、前記障害処理示唆を取得するように構成されることを含む、
請求項５に記載のコンピュータ。
前記プロセッサにより記録された前記第１のエラー・データが前記読取り応答メッセージに従って取得された後、前記ベースボード管理コントローラはさらに、クリア・データ・メッセージを前記プロセッサに送信して、前記プロセッサにより記録された前記第１のエラー・データを削除するように前記プロセッサに指示するように構成される、請求項１乃至３の何れか１項に記載のコンピュータ。
ベースボード管理コントローラおよびプロセッサを備えたコンピュータに適用される障害処理方法であって、
前記コンピュータがクラッシュしたと判定されたとき、前記ベースボード管理コントローラにより、読取り要求メッセージを前記プロセッサに送信するステップであって、前記読取り要求メッセージは、前記プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される、ステップと、
前記ベースボード管理コントローラにより、前記プロセッサにより返された読取り応答メッセージを受信するステップと、
前記読取り応答メッセージが読取り障害指示を運搬するとき、前記ベースボード管理コントローラにより、ウォーム・リブートを前記コンピュータで実施するように前記コンピュータのウォーム・リブート・モジュールまたはユーザに指示し、その結果、前記プロセッサが、前記コンピュータの前記ウォーム・リブートの間に、前記コンピュータの基本入出力システムの障害収集命令を実行し、前記第１のエラー・データを前記基本入出力システムの前記障害収集命令に従って取得し、前記第１のエラー・データを前記ベースボード管理コントローラに送信するステップであって、前記読取り障害指示は、前記第１のエラー・データが前記プロセッサから読み取られるのに失敗したことを示すために使用される、ステップと、
前記ベースボード管理コントローラにより、前記プロセッサにより送信された前記第１のエラー・データを受信するステップと、
を含む、方法。
前記方法はさらに、
前記ベースボード管理コントローラにより、前記プロセッサにより送信された障害事象指示を受信し、前記プロセッサにより送信された前記第１のエラー・データの少なくとも一部が前記障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されないとき、前記コンピュータがクラッシュしたと判定するステップであって、前記プロセッサが前記第１のエラー・データを取得し前記第１のエラー・データが訂正不能エラー・タイプであるとき、前記障害事象指示が前記プロセッサにより送信される、ステップを含む、
請求項８に記載の方法。
前記読取り応答メッセージが前記第１のエラー・データを運搬するとき、前記方法はさらに、
前記ベースボード管理コントローラにより、前記読取り応答メッセージから、前記プロセッサにより記録された前記第１のエラー・データを取得するステップ
を含む、請求項８または９に記載の方法。
前記ベースボード管理コントローラにより、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第１のエラー・データを取得した後に、前記方法はさらに、前記ベースボード管理コントローラにより、前記第１のエラー・データを障害解析機構に従って解析して、前記第１のエラー・データの障害解析情報を取得するステップを含む、請求項８乃至１０の何れか１項に記載の方法。
前記方法はさらに、前記ベースボード管理コントローラにより、前記第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って解析して、障害処理示唆を取得するステップを含む、請求項１１に記載の方法。
前記ベースボード管理コントローラにより、前記コンピュータがクラッシュしたと判定する前に、前記方法はさらに、前記ベースボード管理コントローラにより、前記プロセッサにより送信された第２のエラー・データを受信するステップであって、前記第２のエラー・データは、前記コンピュータが前記第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データである、ステップを含み、
前記ベースボード管理コントローラにより、前記第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップは、
前記ベースボード管理コントローラにより、前記第２のエラー・データを前記障害解析機構に従って解析して、前記第２のエラー・データの障害解析情報を取得し、前記第２のエラー・データの障害解析情報および前記第１のエラー・データの障害解析情報を前記事前に設定された障害処理機構に従って分析して、前記障害処理示唆を取得するステップ
を含む、請求項１２に記載の方法。
コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージをプロセッサに送信するように構成された送信ユニットであって、前記読取り要求メッセージは、前記プロセッサにより記録された第１のエラー・データの読取りを要求するために使用される、送信ユニットと、
前記プロセッサにより返された読取り応答メッセージを受信するように構成された受信ユニットであって、前記読取り応答メッセージが読取り障害指示を運搬するとき、前記受信ユニットがウォーム・リブートを前記コンピュータで実施するように前記コンピュータのウォーム・リブート・ユニットまたはユーザに指示し、その結果、前記プロセッサが、前記コンピュータの前記ウォーム・リブートの間に、前記コンピュータの基本入出力システムの障害収集命令を実行し、前記第１のエラー・データを前記基本入出力システムの前記障害収集命令に従って取得し、前記第１のエラー・データを前記受信ユニットに送信し、前記受信ユニットは前記プロセッサにより送信された前記第１のエラー・データを受信し、前記読取り障害指示は、前記第１のエラー・データが前記プロセッサから読み取られるのに失敗したことを示すために使用される、受信ユニットと、
を備える、ベースボード管理コントローラ。
前記プロセッサにより送信された障害事象指示を受信し、前記プロセッサにより送信された前記第１のエラー・データの少なくとも一部が前記障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されないとき、前記コンピュータがクラッシュしたと判定するように構成された判定ユニットであって、前記プロセッサが前記第１のエラー・データを取得し前記第１のエラー・データが訂正不能エラー・タイプであるとき、前記障害事象指示が前記プロセッサにより送信される、判定ユニットをさらに備える、請求項１４に記載のベースボード管理コントローラ。
前記読取り応答メッセージが前記第１のエラー・データを運搬するとき、前記受信ユニットが、前記読取り応答メッセージから、前記プロセッサにより記録された前記第１のエラー・データを取得する、請求項１４または１５に記載のベースボード管理コントローラ。
前記第１のエラー・データを障害解析機構に従って解析して、前記第１のエラー・データの障害解析情報を取得するように構成された障害処理ユニットをさらに備える、請求項１４乃至１６の何れか１項に記載のベースボード管理コントローラ。
前記障害処理ユニットは、前記第１のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するようにさらに構成される、請求項１７に記載のベースボード管理コントローラ。
前記受信ユニットは、前記プロセッサにより送信された第２のエラー・データを受信するようにさらに構成され、
前記障害処理ユニットは、前記第２のエラー・データを前記障害解析機構に従って解析して、前記第２のエラー・データの障害解析情報を取得するようにさらに構成され、前記第２のエラー・データは、前記コンピュータが前記第１のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、
前記障害処理ユニットが、前記第１のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、
前記障害処理ユニットが、前記第２のエラー・データの障害解析情報および前記第１のエラー・データの障害解析情報を前記事前に設定された障害処理機構に従って分析して、前記障害処理示唆を取得する
ことを含む、請求項１８に記載のベースボード管理コントローラ。
ベースボード管理コントローラであって、前記ベースボード管理コントローラはプロセッサ、メモリ、システム・バス、および通信インタフェースを備え、
前記メモリはコンピュータ実行可能命令を格納するように構成され、前記プロセッサは前記システム・バスを用いて前記メモリに接続され、前記ベースボード管理コントローラが実行したとき、前記プロセッサは前記メモリに格納された前記コンピュータ実行可能命令を実行し、その結果、前記ベースボード管理コントローラが請求項８乃至１３の何れか１項に記載の障害処理方法を実行する、ベースボード管理コントローラ。
コンピュータ実行可能命令を備え、その結果、コンピュータのプロセッサがコンピュータ実行可能命令を実行したとき、前記コンピュータが請求項８乃至１３の何れか１項に記載の障害処理方法を実行する、コンピュータ可読記憶媒体。