JP2017517060A - 障害処理方法、関連装置、およびコンピュータ - Google Patents
障害処理方法、関連装置、およびコンピュータ Download PDFInfo
- Publication number
- JP2017517060A JP2017517060A JP2016562222A JP2016562222A JP2017517060A JP 2017517060 A JP2017517060 A JP 2017517060A JP 2016562222 A JP2016562222 A JP 2016562222A JP 2016562222 A JP2016562222 A JP 2016562222A JP 2017517060 A JP2017517060 A JP 2017517060A
- Authority
- JP
- Japan
- Prior art keywords
- error data
- processor
- computer
- management controller
- baseboard management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000004044 response Effects 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims description 118
- 238000012545 processing Methods 0.000 claims description 69
- 230000007246 mechanism Effects 0.000 claims description 53
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 238000007639 printing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013481 data capture Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Retry When Errors Occur (AREA)
- Hardware Redundancy (AREA)
- Stored Programmes (AREA)
Abstract
Description
ベースボード管理コントローラが、コンピュータがクラッシュしたと判定するように構成されることは特に、ベースボード管理コントローラが、プロセッサにより送信された深刻な障害事象指示を受信するように構成され、プロセッサが第1のエラー・データを取得し第1のエラー・データが深刻な訂正不能エラー・タイプであるとき、当該深刻な障害事象指示はプロセッサにより送信され、プロセッサにより送信された第1のエラー・データの少なくとも一部が当該深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、ベースボード管理コントローラは、コンピュータがクラッシュしたと判定するように構成されることである。
ベースボード管理コントローラが、第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、ベースボード管理コントローラが、第2のエラー・データの障害解析情報および第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることを含む。
コンピュータがクラッシュしたと判定されたとき、ベースボード管理コントローラにより、読取り要求メッセージをプロセッサに送信するステップであって、読取り要求メッセージは、プロセッサにより記録された第1のエラー・データの読取りを要求するために使用される、ステップと、
ベースボード管理コントローラにより、プロセッサにより返された読取り応答メッセージを受信し、読取り応答メッセージに従って、プロセッサにより記録された第1のエラー・データを取得するステップと
を含む。
ベースボード管理コントローラにより、第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップは、ベースボード管理コントローラにより、第2のエラー・データを障害解析機構に従って解析して、第2のエラー・データの障害解析情報を取得し、第2のエラー・データの障害解析情報および第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップと
を含む。
メモリはコンピュータ実行可能命令を格納するように構成され、プロセッサはバスを用いてメモリに接続され、ベースボード管理コントローラが実行したとき、プロセッサは、メモリに格納されたコンピュータ実行可能命令を実行し、その結果、ベースボード管理コントローラは、第2の態様に従う障害処理方法、または第2の態様の可能な実装方式の何れか1つに従う障害処理方法を実施する。
図1は本発明の当該実施形態に従うコンピュータの略図である。コンピュータはプロセッサ11とベースボード管理コントローラ12(Baseboard Management Controller、BMC)を備える。
本発明をより良く説明するために、様々な具体的な詳細を以下の具体的な実装方式で提供する。当業者は本発明をまた幾つかの具体的な詳細なしに実装できることを理解すべきである。本発明の当該実施形態では、実施形態1におけるプロセッサ11およびベースボード管理コントローラ12の構造的構成および機能を、図2を参照して詳細に説明する。
本発明の当該実施形態では、図1または図2に示すコンピュータで使用される障害処理方法を提供する。当該コンピュータはベースボード管理コントローラとプロセッサを備える。当該方法は以下を含む。
本発明の当該実施形態では、図1または図2に示すコンピュータで使用される障害処理方法を提供する。当該コンピュータはベースボード管理コントローラとプロセッサを備え、当該方法は以下を含む。
本発明の当該実施形態では、ベースボード管理コントローラとプロセッサを備えたコンピュータで使用される、例えば、図1または2に示すコンピュータで使用される、ベースボード管理コントローラを提供する。図5に示すように、当該ベースボード管理制御が送信ユニットおよび受信ユニットを備えてもよい。
12 ベースボード管理コントローラBMC
21 記録モジュール
22 記憶モジュール
23 命令実行モジュール
501 送信ユニット
502 受信ユニット
503 決定ユニット
601 プロセッサ
602 メモリ
603 プログラム
604 通信バス
605 通信インタフェース
Claims (32)
- プロセッサおよびベースボード管理コントローラを備えたコンピュータであって、
前記ベースボード管理コントローラは、前記コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージを前記プロセッサに送信するように構成され、前記読取り要求メッセージは、前記プロセッサにより記録された第1のエラー・データの読取りを要求するために使用され、
前記プロセッサは、前記読取り要求メッセージを受信し、読取り応答メッセージを前記ベースボード管理コントローラに送信するように構成され、
前記ベースボード管理コントローラは、前記プロセッサにより返された前記読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するように構成される、
コンピュータ。 - 前記プロセッサは、前記第1のエラー・データを取得し、前記第1のエラー・データを記録するようにさらに構成され、
前記ベースボード管理コントローラが、前記コンピュータがクラッシュしたと判定するように構成されることは特に、
前記ベースボード管理コントローラは、前記プロセッサにより送信された深刻な障害事象指示を受信するように構成され、前記プロセッサが前記第1のエラー・データを取得し前記第1のエラー・データが深刻な訂正不能エラー・タイプであるとき、前記深刻な障害事象指示は前記プロセッサにより送信され、
前記プロセッサにより送信された前記第1のエラー・データの少なくとも一部が前記深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、前記ベースボード管理コントローラは、前記コンピュータがクラッシュしたと判定するように構成される
ことである、請求項1に記載のコンピュータ。 - 前記ベースボード管理コントローラが、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するように構成されることは特に、前記読取り応答メッセージが前記第1のエラー・データを運搬するとき、前記ベースボード・マネージャが、前記読取り応答メッセージから、前記プロセッサにより記録された前記第1のエラー・データを取得するように構成されることである、請求項1または2に記載のコンピュータ。
- 前記ベースボード管理コントローラが、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するように構成されることは特に、
前記読取り応答メッセージが読取り障害指示を運搬するとき、前記ベースボード管理コントローラが、ウォーム・リブートを前記コンピュータで実施するように前記コンピュータのウォーム・リブート・モジュールまたはユーザに指示するように構成され、前記読取り障害指示は、前記第1のエラー・データが前記プロセッサから読み取られるのに失敗したことを示すために使用され、その結果、前記プロセッサは、前記コンピュータの前記ウォーム・リブートの間に、前記コンピュータの基本入出力システムの障害収集命令を実行し、前記第1のエラー・データを前記基本入出力システムの前記障害収集命令に従って取得し、前記ベースボード管理コントローラに送信し、
前記ベースボード管理コントローラは、前記プロセッサにより送信された前記第1のエラー・データを受信するように構成される
ことである、請求項1または2に記載のコンピュータ。 - 前記プロセッサにより記録された前記第1のエラー・データが前記読取り応答メッセージに従って取得された後、前記ベースボード管理コントローラは、クリア・データ・メッセージを前記プロセッサに送信し、前記プロセッサにより記録された前記第1のエラー・データを削除するように前記プロセッサに指示するようにさらに構成される、請求項1乃至4の何れか1項に記載コンピュータ。
- 前記ベースボード管理コントローラは、前記プロセッサにより送信された前記深刻な障害事象指示が受信された後、警告メッセージを前記コンピュータの障害警告モジュールに送信するかまたはプリント動作を実施して、ユーザに前記深刻な障害警告事象を通知するようにさらに構成される、請求項2に記載のコンピュータ。
- 前記ベースボード管理コントローラは、前記第1のエラー・データを障害解析機構に従って解析して、前記第1のエラー・データの障害解析情報を取得するようにさらに構成される、請求項1乃至6の何れか1項に記載コンピュータ。
- 前記ベースボード管理コントローラは、前記第1のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するようにさらに構成される、請求項7に記載のコンピュータ。
- 前記コンピュータがクラッシュしたと判定される前に、前記ベースボード管理コントローラは、前記プロセッサにより送信された第2のエラー・データを受信し、前記第2のエラー・データを前記障害解析機構に従って解析して、前記第2のエラー・データの障害解析情報を取得するようにさらに構成され、前記第2のエラー・データは、前記コンピュータが前記第1のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、
前記ベースボード管理コントローラが、前記第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、
前記ベースボード管理コントローラが、前記第2のエラー・データの障害解析情報および前記第1のエラー・データの障害解析情報を前記事前に設定された障害処理機構に従って分析して、前記障害処理示唆を取得するように構成されることを含む、
請求項8に記載のコンピュータ。 - 前記ベースボード管理コントローラは、前記第1のエラー・データの障害解析情報または前記障害処理示唆をプリントするようにさらに構成される、請求項7乃至9の何れか1項に記載コンピュータ。
- 前記ベースボード管理コントローラは、前記第1のエラー・データの障害解析情報、前記第2のエラー・データの障害解析情報、前記第1のエラー・データ、および前記第2のエラー・データのうち少なくとも1つを前記コンピュータの障害情報ベースに保存するようにさらに構成される、請求項7乃至9の何れか1項に記載コンピュータ。
- ベースボード管理コントローラおよびプロセッサを備えたコンピュータに適用される障害処理方法であって、
前記コンピュータがクラッシュしたと判定されたとき、前記ベースボード管理コントローラにより、読取り要求メッセージを前記プロセッサに送信するステップであって、前記読取り要求メッセージは、前記プロセッサにより記録された第1のエラー・データの読取りを要求するために使用される、ステップと、
前記ベースボード管理コントローラにより、前記プロセッサにより返された読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するステップと、
を含む、方法。 - 前記方法はさらに、
前記ベースボード管理コントローラにより、前記プロセッサにより送信された深刻な障害事象指示を受信し、前記プロセッサにより送信された前記第1のエラー・データの少なくとも一部が前記深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、前記コンピュータがクラッシュしたと判定するステップであって、前記プロセッサが前記第1のエラー・データを取得し前記第1のエラー・データが深刻な訂正不能エラー・タイプであるとき、前記深刻な障害事象指示が前記プロセッサにより送信される、ステップを含む、
請求項12に記載の方法。 - 前記ベースボード管理コントローラにより、前記プロセッサにより返された読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するステップは、
前記読取り応答メッセージが前記第1のエラー・データを運搬するとき、前記ベースボード管理コントローラにより、前記読取り応答メッセージから、前記プロセッサにより記録された前記第1のエラー・データを取得するステップ
を含む、請求項12または13に記載の方法。 - 前記ベースボード管理コントローラにより、前記プロセッサにより返された読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するステップは、
前記読取り応答メッセージが読取り障害指示を運搬するとき、前記ベースボード管理コントローラにより、ウォーム・リブートを前記コンピュータで実施するように前記コンピュータのウォーム・リブート・モジュールまたはユーザに指示し、その結果、前記プロセッサが、前記コンピュータの前記ウォーム・リブートの間に、前記コンピュータの基本入出力システムの障害収集命令を実行し、前記第1のエラー・データを前記基本入出力システムの前記障害収集命令に従って取得し、前記第1のエラー・データを前記ベースボード管理コントローラに送信するステップであって、前記読取り障害指示は、前記第1のエラー・データが前記プロセッサから読み取られるのに失敗したことを示すために使用される、ステップと、
前記ベースボード管理コントローラにより、前記プロセッサにより送信された前記第1のエラー・データを受信するステップと、
を含む、請求項12または13に記載の方法。 - 前記ベースボード管理コントローラにより、前記プロセッサにより送信された深刻な障害事象指示を受信した後、前記方法はさらに、
前記ベースボード管理コントローラにより、警告メッセージを前記コンピュータの障害警告モジュールに送信するかまたはプリント動作を実施して、ユーザに前記深刻な障害警告事象を通知するステップ
を含む、請求項13に記載の方法。 - 前記ベースボード管理コントローラにより、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得した後に、前記方法はさらに、前記ベースボード管理コントローラにより、前記第1のエラー・データを障害解析機構に従って解析して、前記第1のエラー・データの障害解析情報を取得するステップを含む、請求項12乃至16の何れか1項に記載の方法。
- 前記方法はさらに、前記ベースボード管理コントローラにより、前記第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って解析して、障害処理示唆を取得するステップを含む、請求項17に記載の方法。
- 前記ベースボード管理コントローラにより、前記コンピュータがクラッシュしたと判定する前に、前記方法はさらに、前記ベースボード管理コントローラにより、前記プロセッサにより送信された第2のエラー・データを受信するステップであって、前記第2のエラー・データは、前記コンピュータが前記第1のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データである、ステップを含み、
前記ベースボード管理コントローラにより、前記第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するステップは、
前記ベースボード管理コントローラにより、前記第2のエラー・データを前記障害解析機構に従って解析して、前記第2のエラー・データの障害解析情報を取得し、前記第2のエラー・データの障害解析情報および前記第1のエラー・データの障害解析情報を前記事前に設定された障害処理機構に従って分析して、前記障害処理示唆を取得するステップ
を含む、請求項18に記載の方法。 - 前記ベースボード管理コントローラにより、前記第1のエラー・データの障害解析情報または前記障害処理示唆をプリントするステップをさらに含む、請求項17乃至19の何れか1項に記載の方法。
- 前記方法はさらに、前記ベースボード管理コントローラにより、前記第1のエラー・データの障害解析情報、前記第2のエラー・データの障害解析情報、前記第1のエラー・データ、および前記第2のエラー・データのうち少なくとも1つを前記コンピュータの障害情報ベースに保存するステップを含む、請求項17乃至19の何れか1項に記載の方法。
- 前記コンピュータがクラッシュしたと判定されたとき、読取り要求メッセージを前記プロセッサに送信するように構成された送信ユニットであって、前記読取り要求メッセージは、前記プロセッサにより記録された第1のエラー・データの読取りを要求するために使用される、送信ユニットと、
前記プロセッサにより返された読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得するように構成された受信ユニットと、
を備える、ベースボード管理コントローラ。 - 前記プロセッサにより送信された深刻な障害事象指示を受信し、前記プロセッサにより送信された前記第1のエラー・データの少なくとも一部が前記深刻な障害事象指示が受信された時刻から開始する事前に設定された待機時間内に受信されない場合、前記コンピュータがクラッシュしたと判定するように構成された判定ユニットであって、前記プロセッサが前記第1のエラー・データを取得し前記第1のエラー・データが深刻な訂正不能エラー・タイプであるとき、前記深刻な障害事象指示が前記プロセッサにより送信される、判定ユニットをさらに備える、請求項22に記載のベースボード管理コントローラ。
- 前記受信ユニットが、前記プロセッサにより返された読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得することは、前記読取り応答メッセージが前記第1のエラー・データを運搬するとき、前記受信ユニットが、前記読取り応答メッセージから、前記プロセッサにより記録された前記第1のエラー・データを取得することを含む、請求項22または23に記載のベースボード管理コントローラ。
- 前記受信ユニットが、前記プロセッサにより返された読取り応答メッセージを受信し、前記読取り応答メッセージに従って、前記プロセッサにより記録された前記第1のエラー・データを取得することは、
前記読取り応答メッセージが読取り障害指示を運搬するとき、前記受信ユニットがウォーム・リブートを前記コンピュータで実施するように前記コンピュータのウォーム・リブート・ユニットまたはユーザに指示し、その結果、前記プロセッサが、前記コンピュータの前記ウォーム・リブートの間に、前記コンピュータの基本入出力システムの障害収集命令を実行し、前記第1のエラー・データを前記基本入出力システムの前記障害収集命令に従って取得し、前記第1のエラー・データを前記受信ユニットに送信し、前記読取り障害指示は、前記第1のエラー・データが前記プロセッサから読み取られるのに失敗したことを示すために使用され、
前記受信ユニットは前記プロセッサにより送信された前記第1のエラー・データを受信する
ことを含む、請求項22または23に記載のベースボード管理コントローラ。 - 前記判定ユニットが前記プロセッサにより送信された前記深刻な障害事象指示を受信した後に、警告メッセージを前記コンピュータの前記障害障害警告ユニットに送信するかまたはプリント動作を実施して、ユーザに前記深刻な障害警告事象を通知するように構成された障害警告ユニットをさらに備える、請求項23に記載のベースボード管理コントローラ。
- 前記第1のエラー・データを障害解析機構に従って解析して、前記第1のエラー・データの障害解析情報を取得するように構成された障害処理ユニットをさらに備える、請求項22乃至26の何れか1項に記載のベースボード管理コントローラ。
- 前記障害処理ユニットは、前記第1のエラー・データの障害解析情報を、事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するようにさらに構成される、請求項27に記載のベースボード管理コントローラ。
- 前記受信ユニットは、前記プロセッサにより送信された第2のエラー・データを受信するようにさらに構成され、
前記障害処理ユニットは、前記第2のエラー・データを前記障害解析機構に従って解析して、前記第2のエラー・データの障害解析情報を取得するようにさらに構成され、前記第2のエラー・データは、前記コンピュータが前記第1のエラー・データを生成する前に事前に設定された時間内に生成されたエラー・データであり、
前記障害処理ユニットが、前記第1のエラー・データの障害解析情報を事前に設定された障害処理機構に従って分析して、障害処理示唆を取得するように構成されることは、
前記障害処理ユニットが、前記第2のエラー・データの障害解析情報および前記第1のエラー・データの障害解析情報を前記事前に設定された障害処理機構に従って分析して、前記障害処理示唆を取得する
ことを含む、請求項28に記載のベースボード管理コントローラ。 - 前記障害処理ユニットは、前記第1のエラー・データの障害解析情報、前記第2のエラー・データの障害解析情報、前記第1のエラー・データ、および前記第2のエラー・データのうち少なくとも1つを前記コンピュータの障害情報ベースに保存するようにさらに構成される、請求項27乃至29の何れか1項に記載のベースボード管理コントローラ。
- ベースボード管理コントローラであって、前記ベースボード管理コントローラはプロセッサ、メモリ、バス、および通信インタフェースを備え、
前記メモリはコンピュータ実行可能命令を格納するように構成され、前記プロセッサは前記バスを用いて前記メモリに接続され、前記ベースボード管理コントローラが実行したとき、前記プロセッサは前記メモリに格納された前記コンピュータ実行可能命令を実行し、その結果、前記ベースボード管理コントローラが請求項12乃至21の何れか1項に記載の障害処理方法を実行する、ベースボード管理コントローラ。 - コンピュータ実行可能命令を備え、その結果、コンピュータのプロセッサがコンピュータ実行可能命令を実行したとき、前記コンピュータが請求項12乃至21の何れか1項に記載の障害処理方法を実行する、コンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/080618 WO2015196365A1 (zh) | 2014-06-24 | 2014-06-24 | 一种故障处理方法、相关装置及计算机 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017517060A true JP2017517060A (ja) | 2017-06-22 |
JP6333410B2 JP6333410B2 (ja) | 2018-05-30 |
Family
ID=54936439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016562222A Active JP6333410B2 (ja) | 2014-06-24 | 2014-06-24 | 障害処理方法、関連装置、およびコンピュータ |
Country Status (14)
Country | Link |
---|---|
US (3) | US10353763B2 (ja) |
EP (2) | EP3355197B1 (ja) |
JP (1) | JP6333410B2 (ja) |
KR (1) | KR101944874B1 (ja) |
CN (2) | CN105659215B (ja) |
AU (1) | AU2014399227B2 (ja) |
BR (1) | BR112016022329B1 (ja) |
CA (1) | CA2942045C (ja) |
DK (1) | DK3121726T3 (ja) |
ES (1) | ES2667322T3 (ja) |
NO (1) | NO3121726T3 (ja) |
SG (1) | SG11201607545PA (ja) |
WO (1) | WO2015196365A1 (ja) |
ZA (1) | ZA201606180B (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975377B (zh) * | 2016-04-29 | 2018-05-25 | 浪潮电子信息产业股份有限公司 | 一种监控内存的方法及装置 |
CN107077408A (zh) | 2016-12-05 | 2017-08-18 | 华为技术有限公司 | 故障处理的方法、计算机系统、基板管理控制器和系统 |
JP7063445B2 (ja) * | 2017-03-22 | 2022-05-09 | Necプラットフォームズ株式会社 | 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム |
CN108108259A (zh) * | 2018-01-11 | 2018-06-01 | 郑州云海信息技术有限公司 | 一种内核故障定位方法及装置 |
CN108958965B (zh) * | 2018-06-28 | 2021-03-02 | 苏州浪潮智能科技有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
CN109240847A (zh) * | 2018-09-27 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种post过程中内存错误上报方法、装置、终端及存储介质 |
US10846162B2 (en) * | 2018-11-29 | 2020-11-24 | Oracle International Corporation | Secure forking of error telemetry data to independent processing units |
CN109783325B (zh) * | 2018-12-14 | 2023-07-25 | 平安证券股份有限公司 | 业务监控方法、装置、设备及存储介质 |
CN109947585A (zh) * | 2019-03-13 | 2019-06-28 | 西安易朴通讯技术有限公司 | Pcie设备故障的处理方法及装置 |
TWI709082B (zh) * | 2019-07-08 | 2020-11-01 | 神雲科技股份有限公司 | 應用於開機階段及開機後運行階段的除錯訊息紀錄方法 |
CN112346786B (zh) * | 2019-08-08 | 2022-07-12 | 佛山市顺德区顺达电脑厂有限公司 | 应用于开机阶段及开机后运行阶段的除错信息纪录方法 |
CN110532160B (zh) * | 2019-09-03 | 2023-07-25 | 深圳市智微智能科技股份有限公司 | 一种bmc记录服务器系统热重启事件的方法 |
TWI715201B (zh) * | 2019-09-18 | 2021-01-01 | 神雲科技股份有限公司 | 開機錯誤資訊記錄方法 |
US11243859B2 (en) * | 2019-10-09 | 2022-02-08 | Microsoft Technology Licensing, Llc | Baseboard management controller that initiates a diagnostic operation to collect host information |
CN111008091A (zh) * | 2019-12-06 | 2020-04-14 | 苏州浪潮智能科技有限公司 | 一种内存ce的故障处理方法、系统及相关装置 |
US11132314B2 (en) * | 2020-02-24 | 2021-09-28 | Dell Products L.P. | System and method to reduce host interrupts for non-critical errors |
CN113535502B (zh) * | 2020-04-17 | 2024-06-25 | 捷普科技(上海)有限公司 | 用于服务器系统的错误日志收集方法 |
US11204821B1 (en) * | 2020-05-07 | 2021-12-21 | Xilinx, Inc. | Error re-logging in electronic systems |
CN111581058B (zh) * | 2020-05-09 | 2024-03-19 | 西安易朴通讯技术有限公司 | 故障管理方法、装置、设备及计算机可读存储介质 |
CN112181522A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 数据处理的方法、装置以及电子设备 |
CN112256467B (zh) * | 2020-10-23 | 2022-08-02 | 英业达科技有限公司 | 错误类型判断系统及其方法 |
US11269729B1 (en) * | 2020-12-21 | 2022-03-08 | Microsoft Technology Licensing, Llc | Overloading a boot error signaling mechanism to enable error mitigation actions to be performed |
CN113190396A (zh) * | 2021-03-15 | 2021-07-30 | 山东英信计算机技术有限公司 | 一种收集cpu寄存器数据的方法、系统及介质 |
CN113076210B (zh) * | 2021-03-26 | 2023-01-20 | 山东英信计算机技术有限公司 | 服务器故障诊断结果通知方法、系统、终端及存储介质 |
CN113726555A (zh) * | 2021-08-02 | 2021-11-30 | 华迪计算机集团有限公司 | 一种适用于数据通信网络辅助解析告警的系统及方法 |
CN114201360B (zh) * | 2021-11-26 | 2023-11-17 | 苏州浪潮智能科技有限公司 | 一种aer功能管理方法、装置、服务器和存储介质 |
US11921582B2 (en) * | 2022-04-29 | 2024-03-05 | Microsoft Technology Licensing, Llc | Out of band method to change boot firmware configuration |
TWI800443B (zh) * | 2022-08-15 | 2023-04-21 | 緯穎科技服務股份有限公司 | 快速周邊組件互連裝置的錯誤回報優化方法以及快速周邊組件互連裝置的錯誤回報優化系統 |
CN118132358A (zh) * | 2024-04-29 | 2024-06-04 | 苏州元脑智能科技有限公司 | 注错方法、系统、上位机、控制器、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02234241A (ja) * | 1989-03-08 | 1990-09-17 | Hitachi Ltd | リセット・リトライ回路 |
JPH0375844A (ja) * | 1989-08-17 | 1991-03-29 | Nec Corp | 障害自動解析方式 |
JPH05233377A (ja) * | 1992-01-09 | 1993-09-10 | Nec Corp | レジスタ情報収集方式 |
JPH09288602A (ja) * | 1996-04-23 | 1997-11-04 | Fujitsu Ltd | 障害情報記憶装置の書込み保護装置とリセット制御方法 |
JP2004320267A (ja) * | 2003-04-15 | 2004-11-11 | Nec Software Chubu Ltd | 障害通報装置および障害通報方法 |
JP2005251060A (ja) * | 2004-03-08 | 2005-09-15 | Hitachi Ltd | 故障表示装置および故障部位表示方法 |
JP2012003713A (ja) * | 2010-06-21 | 2012-01-05 | Hitachi Solutions Ltd | 障害原因判定ルール変化検知装置及びプログラム |
JP2012079266A (ja) * | 2010-10-06 | 2012-04-19 | Nec Computertechno Ltd | 情報処理装置、故障部位判別方法および故障部位判別プログラム |
JP2014048785A (ja) * | 2012-08-30 | 2014-03-17 | Nec Computertechno Ltd | 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09286602A (ja) | 1996-04-24 | 1997-11-04 | Mitsubishi Gas Chem Co Inc | 一酸化炭素及び水素の混合ガスの製造方法 |
US20030070115A1 (en) * | 2001-10-05 | 2003-04-10 | Nguyen Tom L. | Logging and retrieving pre-boot error information |
US7844866B2 (en) * | 2007-10-02 | 2010-11-30 | International Business Machines Corporation | Mechanism to report operating system events on an intelligent platform management interface compliant server |
US7409594B2 (en) * | 2004-07-06 | 2008-08-05 | Intel Corporation | System and method to detect errors and predict potential failures |
US7546487B2 (en) * | 2005-09-15 | 2009-06-09 | Intel Corporation | OS and firmware coordinated error handling using transparent firmware intercept and firmware services |
US20070088988A1 (en) | 2005-10-14 | 2007-04-19 | Dell Products L.P. | System and method for logging recoverable errors |
US20070234123A1 (en) * | 2006-03-31 | 2007-10-04 | Inventec Corporation | Method for detecting switching failure |
US7594144B2 (en) * | 2006-08-14 | 2009-09-22 | International Business Machines Corporation | Handling fatal computer hardware errors |
US20080270827A1 (en) * | 2007-04-26 | 2008-10-30 | International Business Machines Corporation | Recovering diagnostic data after out-of-band data capture failure |
US8024609B2 (en) * | 2009-06-03 | 2011-09-20 | International Business Machines Corporation | Failure analysis based on time-varying failure rates |
CN102375775B (zh) | 2010-08-11 | 2014-08-20 | 英业达股份有限公司 | 一种具有检测系统不可恢复错误指示信号的计算机系统 |
CN102467440A (zh) | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN102467417B (zh) | 2010-11-19 | 2014-04-23 | 英业达股份有限公司 | 计算机系统 |
TWI446161B (zh) * | 2010-12-30 | 2014-07-21 | Ibm | 處理一多處理器資訊處理系統之一故障處理器的裝置及方法 |
US8898408B2 (en) * | 2011-12-12 | 2014-11-25 | Dell Products L.P. | Memory controller-independent memory mirroring |
EP2859459B1 (en) * | 2012-06-06 | 2019-12-25 | Intel Corporation | Recovery after input/ouput error-containment events |
CN103514068A (zh) * | 2012-06-28 | 2014-01-15 | 北京百度网讯科技有限公司 | 内存故障自动定位方法 |
CN103647804B (zh) | 2013-11-22 | 2017-04-26 | 华为技术有限公司 | 一种存储单元的数据处理方法、设备及系统 |
US10439823B2 (en) | 2015-04-13 | 2019-10-08 | Samsung Electronics Co., Ltd. | Technique for managing profile in communication system |
-
2014
- 2014-06-24 ES ES14896215.2T patent/ES2667322T3/es active Active
- 2014-06-24 BR BR112016022329A patent/BR112016022329B1/pt active IP Right Grant
- 2014-06-24 NO NO14896215A patent/NO3121726T3/no unknown
- 2014-06-24 SG SG11201607545PA patent/SG11201607545PA/en unknown
- 2014-06-24 JP JP2016562222A patent/JP6333410B2/ja active Active
- 2014-06-24 DK DK14896215.2T patent/DK3121726T3/en active
- 2014-06-24 CN CN201480056020.9A patent/CN105659215B/zh active Active
- 2014-06-24 AU AU2014399227A patent/AU2014399227B2/en active Active
- 2014-06-24 EP EP17199084.9A patent/EP3355197B1/en active Active
- 2014-06-24 WO PCT/CN2014/080618 patent/WO2015196365A1/zh active Application Filing
- 2014-06-24 EP EP14896215.2A patent/EP3121726B1/en active Active
- 2014-06-24 CN CN201710454179.1A patent/CN107357671A/zh active Pending
- 2014-06-24 CA CA2942045A patent/CA2942045C/en active Active
- 2014-06-24 KR KR1020167027222A patent/KR101944874B1/ko active IP Right Grant
-
2016
- 2016-09-06 ZA ZA2016/06180A patent/ZA201606180B/en unknown
- 2016-12-20 US US15/385,701 patent/US10353763B2/en active Active
-
2019
- 2019-07-11 US US16/509,218 patent/US20190332453A1/en not_active Abandoned
-
2021
- 2021-02-26 US US17/187,111 patent/US11360842B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02234241A (ja) * | 1989-03-08 | 1990-09-17 | Hitachi Ltd | リセット・リトライ回路 |
JPH0375844A (ja) * | 1989-08-17 | 1991-03-29 | Nec Corp | 障害自動解析方式 |
JPH05233377A (ja) * | 1992-01-09 | 1993-09-10 | Nec Corp | レジスタ情報収集方式 |
JPH09288602A (ja) * | 1996-04-23 | 1997-11-04 | Fujitsu Ltd | 障害情報記憶装置の書込み保護装置とリセット制御方法 |
JP2004320267A (ja) * | 2003-04-15 | 2004-11-11 | Nec Software Chubu Ltd | 障害通報装置および障害通報方法 |
JP2005251060A (ja) * | 2004-03-08 | 2005-09-15 | Hitachi Ltd | 故障表示装置および故障部位表示方法 |
JP2012003713A (ja) * | 2010-06-21 | 2012-01-05 | Hitachi Solutions Ltd | 障害原因判定ルール変化検知装置及びプログラム |
JP2012079266A (ja) * | 2010-10-06 | 2012-04-19 | Nec Computertechno Ltd | 情報処理装置、故障部位判別方法および故障部位判別プログラム |
JP2014048785A (ja) * | 2012-08-30 | 2014-03-17 | Nec Computertechno Ltd | 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム |
Also Published As
Publication number | Publication date |
---|---|
AU2014399227B2 (en) | 2017-07-27 |
EP3355197B1 (en) | 2019-10-23 |
BR112016022329B1 (pt) | 2019-01-02 |
JP6333410B2 (ja) | 2018-05-30 |
WO2015196365A1 (zh) | 2015-12-30 |
US20210182136A1 (en) | 2021-06-17 |
EP3121726A1 (en) | 2017-01-25 |
US20190332453A1 (en) | 2019-10-31 |
CN105659215A (zh) | 2016-06-08 |
US11360842B2 (en) | 2022-06-14 |
BR112016022329A2 (pt) | 2017-08-15 |
US20170102985A1 (en) | 2017-04-13 |
EP3355197A1 (en) | 2018-08-01 |
US10353763B2 (en) | 2019-07-16 |
CN107357671A (zh) | 2017-11-17 |
DK3121726T3 (en) | 2018-05-22 |
CA2942045C (en) | 2019-04-16 |
ES2667322T3 (es) | 2018-05-10 |
CN105659215B (zh) | 2017-08-25 |
EP3121726B1 (en) | 2018-01-31 |
AU2014399227A1 (en) | 2016-09-22 |
KR101944874B1 (ko) | 2019-02-01 |
NO3121726T3 (ja) | 2018-06-30 |
KR20160128404A (ko) | 2016-11-07 |
SG11201607545PA (en) | 2016-10-28 |
ZA201606180B (en) | 2019-04-24 |
CA2942045A1 (en) | 2015-12-30 |
EP3121726A4 (en) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6333410B2 (ja) | 障害処理方法、関連装置、およびコンピュータ | |
US9495233B2 (en) | Error framework for a microprocesor and system | |
WO2017063505A1 (zh) | 一种服务器硬件故障检测方法及其装置和服务器 | |
US10037238B2 (en) | System and method for encoding exception conditions included at a remediation database | |
US20120174112A1 (en) | Application resource switchover systems and methods | |
US10275330B2 (en) | Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus | |
US9436539B2 (en) | Synchronized debug information generation | |
CN117389790B (zh) | 可恢复故障的固件检测系统、方法、存储介质及服务器 | |
CN110704228B (zh) | 一种固态硬盘异常处理方法及系统 | |
JP2018180982A (ja) | 情報処理装置、およびログ記録方法 | |
US8880956B2 (en) | Facilitating processing in a communications environment using stop signaling | |
CN115599617A (zh) | 总线检测方法、装置、服务器及电子设备 | |
CN112988442B (zh) | 一种服务器运行阶段传送故障信息的方法和设备 | |
JP6222759B2 (ja) | 障害通知装置、障害通知方法及びプログラム | |
JPH11120154A (ja) | コンピュータシステムにおけるアクセス制御装置および方法 | |
US11797368B2 (en) | Attributing errors to input/output peripheral drivers | |
JP2017151511A (ja) | 情報処理装置、動作ログ取得方法および動作ログ取得プログラム | |
CN114356708A (zh) | 一种设备故障监控方法、装置、设备及可读存储介质 | |
JP2011159234A (ja) | 障害対応システム及び障害対応方法 | |
CN116431373A (zh) | 服务器故障上报方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6333410 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |