JP6235365B2 - 情報処理装置及びエラー情報取得方法 - Google Patents

情報処理装置及びエラー情報取得方法 Download PDF

Info

Publication number
JP6235365B2
JP6235365B2 JP2014026481A JP2014026481A JP6235365B2 JP 6235365 B2 JP6235365 B2 JP 6235365B2 JP 2014026481 A JP2014026481 A JP 2014026481A JP 2014026481 A JP2014026481 A JP 2014026481A JP 6235365 B2 JP6235365 B2 JP 6235365B2
Authority
JP
Japan
Prior art keywords
error information
operating system
interface
processing apparatus
hardware error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014026481A
Other languages
English (en)
Other versions
JP2015153151A (ja
Inventor
裕 志村
裕 志村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2014026481A priority Critical patent/JP6235365B2/ja
Publication of JP2015153151A publication Critical patent/JP2015153151A/ja
Application granted granted Critical
Publication of JP6235365B2 publication Critical patent/JP6235365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置におけるエラー情報取得の技術に関する。
情報処理装置の信頼性、可用性、保守性向上のためのさまざまな関連技術が知られている。そのような技術の1つとして、情報処理装置において障害が発生した場合に、その情報処理装置の内部情報を収集し、障害原因の特定に供するための技術がある。
例えば、特許文献1は、障害情報を取得し、取得したその障害情報に基づいて障害原因個所を推定し、推定されたその障害個所を特定し、終了させるシステムを開示する。そのシステムは、障害情報を確実に収集するために、第1の経路を介して障害情報を取得する第1の取得部と、その第1の取得部が障害情報を取得できない場合に、第2の経路を介して障害情報を取得する第2の取得部と、を有する。
国際公開第2012/029147号
しかしながら、上述した先行技術文献に記載された技術は、以下の問題点を解決できない。
その問題点は、サーバのマネージメントコントローラが、IMPI(Intelligent Platform Management Interface)に準拠したインターフェースによってハードウェアエラー情報を収集する場合、発生した障害によっては、ハードウェアエラー情報を収集することができないことである。その障害は、オペレーティングシステムが正常に動作できなくなる障害である。即ち、オペレーティングシステムが正常に動作できない障害が発生した場合、そのIMPIにインターフェースを動作させるドライバも正常に動作せず、そのマネージメントコントローラは、ハードウェアエラー情報を収集することができない。
特許文献1は、IMPIに準拠したインターフェースによってハードウェアエラー情報を収集する場合の、オペレーティングシステムが正常に動作できない障害が発生した場合における、ハードウェアエラー情報の収集について言及していない。
本発明の目的は、上述した問題点を解決できる情報処理装置及びエラー情報取得方法を提供することにある。
本発明の一様態における情報処理装置は、オペレーティングシステムと、前記オペレーティングシステムの動作が正常でない状態においても、正常にハードウェアエラー情報を転送する第1のインターフェース手段と、前記第1のインターフェース手段及びインテリジェントプラットフォームマネジメントインタフェースに準拠する第2のインターフェース手段のそれぞれを利用して、前記ハードウェアエラー情報を受信し、保持するマネージメントコントローラと、を含む。
本発明の一様態におけるエラー情報取得方法は、オペレーティングシステムを含む情報処理装置が、インテリジェントプラットフォームマネジメントインタフェースに準拠する第2のインターフェース手段を利用して、ハードウェアエラー情報を受信し、保持し、前記オペレーティングシステムの動作が正常でない状態においても、正常にハードウェアエラー情報を転送する第1のインターフェース手段を利用して、ハードウェアエラー情報を受信し、保持する。
本発明は、オペレーティングシステムが正常に動作できなくなる障害であっても、ハードウェアエラー情報を収集することが可能になるという効果がある。
図1は、本発明の第1の実施形態に係る情報処理装置の機能単位に分割された構成を示すブロック図である。 図2は、第1の実施形態に係る情報処理装置のハードウェア単位の構成を示すブロック図である。 図3は、第1の実施形態における情報処理装置の動作を示すフローチャートである。 図4は、本発明の第2の実施形態に係る情報処理装置の機能単位に分割された構成を示すブロック図である。
本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の構成要素には同様の符号を付与し、適宜説明を省略する。
<<<第1の実施形態>>>
図1は、本発明の第1の実施形態に係る情報処理装置100の、コンピュータ装置の機能単位に分割された構成を示すブロック図である。情報処理装置100は、サーバや、コンピュータ、端末、或いは通信制御装置などである。
図1に示すように、本実施形態に係る情報処理装置100は、オペレーティングシステム120、プロセッサ140、チップセット150、マネージメントコントローラ160及びエラー情報保持部170を含む。尚、図1に示す各構成要素は、コンピュータ装置の機能単位に分割された構成要素である。
図2は、情報処理装置100のハードウェア単位の構成要素を示すブロック図である。
図2に示すように、本実施形態に係る情報処理装置100は、サーキットボード130、出力部131及び通信部132を含む。
サーキットボード130は、例えば、マザーボードである。サーキットボード130上には、少なくとも、上述のメモリ111やプロセッサ140、チップセット150などの主要な部品が搭載され、更にマネージメントコントローラ160が搭載されている。
出力部131は、出力部705は、例えばディスプレイで実現される。出力部705は、例えば、オペレーティングシステム120及びチップセット150の制御に基づいて、マネージメントコントローラ160に保持されているハードウェアエラー情報を表示する。そのハードウェアエラー情報については、後述する。
通信部132は、外部装置とのインターフェースを実現する。通信部132は、例えば、オペレーティングシステム120及びチップセット150の制御に基づいて、マネージメントコントローラ160に保持されているハードウェアエラー情報を外部装置へ送信する。
===オペレーティングシステム120===
オペレーティングシステム120は、メモリ111にプログラムとして保持され、プロセッサ140上で動作する。
オペレーティングシステム120は、オペレーティングシステム本体部121とインターフェースドライバ123とを含む。更に、オペレーティングシステム本体部121は、IPMI(Intelligent Platform Management Interface)ドライバ122を含む。
IPMIドライバ122は、チップセット150とマネージメントコントローラ160間のIPMI規格に準拠したインターフェースを制御する。尚、IPMIドライバ122とそのIPMI規格に準拠したインターフェースとの組は、第2のインターフェース手段とも呼ばれる。
インターフェースドライバ123は、後述のチップセット150のポート158及びマネージメントコントローラ160のポート168を制御し、ポート158とポート168とを通信させる。尚、インターフェースドライバ123とポート158とポート168との組は、第1のインターフェース手段とも呼ばれる。
===プロセッサ140===
プロセッサ140は、オペレーティングシステム120を動作させて、情報処理装置100の全体の動作を制御する。
===チップセット150===
チップセット150は、例えば、メモリやグラフィック回路などを制御するチップセットである。またチップセット150は、ハードディスクや光学ドライブ、キーボード・マウス、USB(Universal Serial Bus)、LAN(Local Area Network)、オーディオなどを制御するチップセットであってもよい。
チップセット150は、ポート158を含む。ポート158は、例えば、検査や保守用のデバッグポートである。チップセット150は、ポート158を介して、マネージメントコントローラ160と接続される。
チップセット150は、マネージメントコントローラ160から受信する取得要求に応答して、エラー情報取得インターフェース190を介してマネージメントコントローラ160へ、ハードウェアエラー情報を送信する。そのハードウェアエラー情報は、例えば、プロセッサ140やチップセット150などの、主要部品の内部レジスタの情報である。チップセット150は、例えば、それらの主要部品を接続する内部バス(不図示)を経由して、それらの主要部品の内部レジスタの情報を収集してよい。
===マネージメントコントローラ160===
マネージメントコントローラ160は、情報処理装置100の障害等を監視する。例えば、マネージメントコントローラ160は、オペレーティングシステム120の動作を監視し、オペレーティングシステム120の動作が正常でないことを検出する。
マネージメントコントローラ160は、ポート168を含む。ポート168は、例えば、USBやその他のはん用シリアルポートである。マネージメントコントローラ160は、ポート168を介して、チップセット150と接続される。
マネージメントコントローラ160は、エラー情報を取得する。具体的には、マネージメントコントローラ160は、エラー情報取得インターフェース190を介してチップセット150に、ハードウェアエラー情報の取得要求を送信する。そして、マネージメントコントローラ160は、その取得要求の応答であるハードウェアエラー情報を、エラー情報取得インターフェース190を介してチップセット150から受信する。
更に、マネージメントコントローラ160は、エラー情報保持部170を含む。エラー情報保持部170は、その取得したエラー情報を保持(記憶)する。更に、エラー情報保持部170は、前述の第1のインターフェースを介して取得した情報(IPMI規格に準拠した任意の情報)を、保持してよい。尚、マネージメントコントローラ160は、図2に示す構成に係わらず、例えば、メモリ111の一部であってもよい。
===エラー情報取得インターフェース190===
エラー情報取得インターフェース190は、ポート158とポート168とにより実現(接続)されるインターフェースである。エラー情報取得インターフェース190は、オペレーティングシステム120の動作異常時に、マネージメントコントローラ160がチップセット150からハードウェアエラー情報を取得するために使用される。
ポート158は、プロセッサ140に含まれてもよい。この場合、エラー情報取得インターフェース190は、オペレーティングシステム120の動作異常時に、マネージメントコントローラ160がプロセッサ140からハードウェアエラー情報を取得するために使用される。更に、ポート158は、プロセッサ140とチップセット150の両方に含まれてもよい。この場合、エラー情報取得インターフェース190は、オペレーティングシステム120の動作異常時に、マネージメントコントローラ160がプロセッサ140及びチップセット150からハードウェアエラー情報を取得するために使用される。
次に本実施形態の動作について、図面を参照して詳細に説明する。
図3は、本実施形態の動作を示すフローチャートである。処理のステップ名については、S601のように、記号で記載する。
情報処理装置100は、オペレーティングシステム120が起動され、オペレーティングシステム120によるサーキットボード130の初期化が完了したことを契機に、図3に示す動作を開始する。尚、オペレーティングシステム120の起動は、インターフェースドライバ123の起動を含む。サーキットボード130の初期化は、インターフェースドライバ123によるエラー情報取得インターフェース190(ポート158及びポート168)の初期化を含む。
マネージメントコントローラ160は、オペレーティングシステム120の動作を監視し、オペレーティングシステム120が正常に動作しなくなったことを検出すると、ステップS602の動作へ進む(ステップS601)。
次に、マネージメントコントローラ160は、ポート168からエラー情報取得インターフェース190を介して、チップセット150にハードウェアエラー情報の取得要求を送信する(ステップS602)。ここで、インターフェースドライバ123は、ポート168からエラー情報取得インターフェース190へのその取得要求の送信を制御する。
次に、チップセット150は、エラー情報取得インターフェース190からポート158を介して、その取得要求を受信する(ステップS603)。ここで、インターフェースドライバ123は、エラー情報取得インターフェース190からポート158を介してのその取得要求の受信を制御する。
次に、チップセット150は、その取得要求に応答して、ポート158からエラー情報取得インターフェース190を介して、ハードウェアエラー情報を送信する(ステップS604)。ここで、インターフェースドライバ123は、ポート158からエラー情報取得インターフェース190へのそのハードウェアエラー情報の送信を制御する。
次に、マネージメントコントローラ160は、エラー情報取得インターフェース190からポート168を介して、そのハードウェアエラー情報を受信する(ステップS605)。ここで、インターフェースドライバ123は、エラー情報取得インターフェース190からポート168を介してのそのハードウェアエラー情報の受信を制御する。
次に、マネージメントコントローラ160は、受信したそのハードウェアエラー情報をエラー情報保持部170に出力する(ステップS606)。
次に、エラー情報保持部170は、そのハードウェアエラー情報を保持する(ステップS607)。
例えば、オペレータは、上述のようにして保持されたそのハードウェアエラー情報を、出力部131及び通信部132を介して接続された端末等を利用して、参照することができる。
上述した本実施形態における第1の効果は、オペレーティングシステムが正常に動作できなくなる障害であっても、ハードウェアエラー情報を収集することが可能になる点である。
その理由は、以下のような構成を含むからである。即ち、第1に、第1のインターフェース手段のエラー情報取得インターフェース190は、オペレーティングシステム120の動作が正常でない状態においても、正常にハードウェアエラー情報を転送する。第2に、マネージメントコントローラ160が、エラー情報取得インターフェース190及びIPMI規格に準拠する第2のインターフェース手段のそれぞれを利用して、ハードウェアエラー情報を受信し、保持する。
上述した本実施形態における第2の効果は、オペレーティングシステムが正常に動作できなくなる障害であっても、ハードウェアエラー情報をより確実に或いはより高速に収集することが可能になる点である。
その理由は、プロセッサ140とチップセット150の両方が、第1のインターフェース手段のポート158を含むからである。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図4は、本発明の第2の実施形態に係る情報処理装置200の構成を示すブロック図である。
図4に示すように、本実施形態における情報処理装置200は、オペレーティングシステム120、マネージメントコントローラ260及びインターフェース部(第1のインターフェース手段とも呼ばれる)290を含む。オペレーティングシステム120は、図1に示すオペレーティングシステム120と同じである。
===インターフェース部290===
インターフェース部290は、情報処理装置200のオペレーティングシステム120の動作が正常でない状態においても、正常にハードウェアエラー情報を転送する。
例えば、インターフェース部290は、その状態において、図1に示すチップセット150とマネージメントコントローラ260間の通信を実現する。換言すると、その状態において、マネージメントコントローラ260は、インターフェース部290を介して、チップセット150にハードウェアエラー情報の取得要求を送信することができる。そして、その状態において、マネージメントコントローラ260は、インターフェース部290を介して、チップセット150からハードウェアエラー情報を受信することができる。
===マネージメントコントローラ260===
マネージメントコントローラ260は、インターフェース部290を利用して、例えば図1に示すチップセット150から、ハードウェアエラー情報を受信する。そして、マネージメントコントローラ260は、受信したそのハードウェアエラー情報を、保持する。
また、マネージメントコントローラ260は、IPMI規格に準拠する第2のインターフェース手段(不図示)を利用して、例えば図1に示すチップセット150から、ハードウェアエラー情報を受信し、保持する。
上述した本実施形態における効果は、第1の実施形態と同様に、オペレーティングシステム120が正常に動作できなくなる障害であっても、ハードウェアエラー情報を収集することが可能になる点である。
その理由は、以下のような構成を含むからである。即ち、第1に、第1のインターフェース手段のインターフェース部290は、オペレーティングシステムの動作が正常でない状態においても、正常にハードウェアエラー情報を転送する。第2に、マネージメントコントローラ260が、インターフェース部290及びIPMI規格に準拠する第2のインターフェース手段のそれぞれを利用して、ハードウェアエラー情報を受信し、保持する。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、複数個の任意のその構成要素が1個のモジュールとして実現されてよい。また、その構成要素の内の任意のひとつが複数のモジュールで実現されてもよい。また、その構成要素の内の任意のひとつがその構成要素の内の任意の他のひとつであってよい。また、その構成要素の内の任意のひとつの一部と、その構成要素の内の任意の他のひとつの一部とが重複してもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
以上、各実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しえるさまざまな変更をすることができる。
100 情報処理装置
111 メモリ
120 オペレーティングシステム
121 オペレーティングシステム本体部
122 IPMIドライバ
123 インターフェースドライバ
130 サーキットボード
131 出力部
132 通信部
140 プロセッサ
150 チップセット
158 ポート
160 マネージメントコントローラ
168 ポート
170 エラー情報保持部
190 エラー情報取得インターフェース
200 情報処理装置
260 マネージメントコントローラ
290 インターフェース部

Claims (9)

  1. オペレーティングシステムと、
    前記オペレーティングシステムの動作が正常でない状態においても、正常にハードウェアエラー情報を転送する第1のインターフェース手段と、
    前記第1のインターフェース手段及びインテリジェントプラットフォームマネジメントインタフェースに準拠する第2のインターフェース手段のそれぞれを利用して、前記ハードウェアエラー情報を受信し、保持するマネージメントコントローラと、を含む
    情報処理装置。
  2. 前記マネージメントコントローラは、前記オペレーティングシステムの動作を監視し、前記オペレーティングシステムの動作が正常でないことを検出した場合に、前記第1のインターフェース手段を利用して、前記ハードウェアエラー情報を受信する
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記第1のインターフェース手段は、
    前記情報処理装置の部品に搭載される第1のポートと、
    前記マネージメントコントローラに搭載される第2のポートと、
    前記オペレーティングシステムに対して独立して動作し、前記第1のポート及び前記第2のポートを制御するインターフェースドライバと、を含む
    ことを特徴とする請求項1または2記載の情報処理装置。
  4. 前記第1のポートが搭載される前記部品は、チップセットである
    ことを特徴とする請求項3記載の情報処理装置。
  5. 前記第1のポートが搭載される前記部品は、プロセッサである
    ことを特徴とする請求項3または4記載の情報処理装置。
  6. 前記ハードウェアエラー情報は、前記部品のレジスタの値である
    ことを特徴とする請求項乃至5のいずれか1項に記載の情報処理装置。
  7. 前記マネージメントコントローラに保持された前記ハードウェアエラー情報を表示する手段及び外部へ送信する手段の少なくともいずれかを更に含む
    ことを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. オペレーティングシステムを含む情報処理装置が、
    インテリジェントプラットフォームマネジメントインタフェースに準拠する第2のインターフェース手段を利用して、ハードウェアエラー情報を受信し、保持し、
    前記オペレーティングシステムの動作が正常でない状態においても、正常にハードウェアエラー情報を転送する第1のインターフェース手段を利用して、ハードウェアエラー情報を受信し、保持する
    エラー情報取得方法。
  9. 前記オペレーティングシステムの動作を監視し、
    前記オペレーティングシステムの動作が正常でないことを検出した場合に、前記第1のインターフェース手段を利用して、前記ハードウェアエラー情報を受信する
    ことを特徴とする請求項8記載のエラー情報取得方法。
JP2014026481A 2014-02-14 2014-02-14 情報処理装置及びエラー情報取得方法 Active JP6235365B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014026481A JP6235365B2 (ja) 2014-02-14 2014-02-14 情報処理装置及びエラー情報取得方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014026481A JP6235365B2 (ja) 2014-02-14 2014-02-14 情報処理装置及びエラー情報取得方法

Publications (2)

Publication Number Publication Date
JP2015153151A JP2015153151A (ja) 2015-08-24
JP6235365B2 true JP6235365B2 (ja) 2017-11-22

Family

ID=53895319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014026481A Active JP6235365B2 (ja) 2014-02-14 2014-02-14 情報処理装置及びエラー情報取得方法

Country Status (1)

Country Link
JP (1) JP6235365B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046546A1 (en) * 2006-08-18 2008-02-21 Parmar Pankaj N EFI based mechanism to export platform management capabilities to the OS

Also Published As

Publication number Publication date
JP2015153151A (ja) 2015-08-24

Similar Documents

Publication Publication Date Title
US9916270B2 (en) Virtual intelligent platform management interface (IPMI) satellite controller and method
US9043527B2 (en) PCI express channel implementation in intelligent platform management interface stack
US11509505B2 (en) Method and apparatus for operating smart network interface card
US9898435B2 (en) Aggregate baseboard management controller (BMC) controller
US10355968B2 (en) Diagnosis of a network adapter during network operation
EP2605458A1 (en) Management device, information processing device, control method and control program
EP3015985A1 (en) Retrieving console messages after device failure
US10261937B2 (en) Method and system for communication of device information
US7996594B2 (en) Interrupt-driven link status feedback mechanism for embedded switches
JP6235365B2 (ja) 情報処理装置及びエラー情報取得方法
CN104571098B (zh) 基于Atom平台的远程自诊断方法
US10664339B2 (en) Information processing apparatus, information processing system, and information processing apparatus control method
US11003562B2 (en) Computer-implemented method, computer program product and computing system
CN110244638B (zh) 数据监控装置及方法
US20220254248A1 (en) Cable erroneous disconnection prevention system, management apparatus, cable erroneous disconnection prevention method, and program
US20110145655A1 (en) Input/output hub to input/output device communication
CN103326897A (zh) 一种分布式计算环境通用监测装置与失效检测方法
CN107659413B (zh) 小型通信设备
CN113434324A (zh) 异常信息获取方法、系统、设备及存储介质
US9058294B2 (en) Programmable logic controller
CN102096617B (zh) 一种检测装置和检测方法
US9639438B2 (en) Methods and systems of managing an interconnection
KR101649824B1 (ko) Emc 시험 시스템
JP2011253285A (ja) 診断システム、診断装置及び診断プログラム
WO2015198402A1 (ja) 情報処理システム、接続支援方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171026

R150 Certificate of patent or registration of utility model

Ref document number: 6235365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150