JP5696492B2 - 故障検出装置、故障検出方法、及び、故障検出プログラム - Google Patents

故障検出装置、故障検出方法、及び、故障検出プログラム Download PDF

Info

Publication number
JP5696492B2
JP5696492B2 JP2011009702A JP2011009702A JP5696492B2 JP 5696492 B2 JP5696492 B2 JP 5696492B2 JP 2011009702 A JP2011009702 A JP 2011009702A JP 2011009702 A JP2011009702 A JP 2011009702A JP 5696492 B2 JP5696492 B2 JP 5696492B2
Authority
JP
Japan
Prior art keywords
partition
component
configuration information
reliability
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011009702A
Other languages
English (en)
Other versions
JP2012150699A (ja
Inventor
保雄 宮部
保雄 宮部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011009702A priority Critical patent/JP5696492B2/ja
Publication of JP2012150699A publication Critical patent/JP2012150699A/ja
Application granted granted Critical
Publication of JP5696492B2 publication Critical patent/JP5696492B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は故障したコンポーネントを特定する故障検出装置に関し、特に、複数の被疑コンポーネントから故障したコンポーネントを特定する故障検出装置に関する。
ミッションクリティカルな領域では、部品の交換などの保守を行う場合であっても、長時間サーバの運用を停止することは許されない。そのため、サーバの運用を継続しながらサーバ内部の部品の保守・交換を可能にする技術が開発され、活用されている。例えば、サーバを構成する各種ハードウェアであるコンポーネントを、相互干渉のないパーティションと呼ばれるグループに分割した情報処理装置において、パーティション毎にコンポーネントを取り外したり組み込んだりする技術が開発されている。なお、コンポーネントは、例えばCPU(Central Processing Unit)、メモリ、IO(Input Output)カードやIOブリッジなどの、サーバを構成する要素である。
特許文献1には、リソース(サーバを構成する部品)の追加/交換に際して、運用に組み入れる前にリソースの診断を行う情報処理システムが記載されている。特許文献1の情報処理システムは、情報処理サービスを提供する運用パーティションと、オンラインで追加/交換したリソースに対して診断を行う診断パーティションを含む。特許文献1の情報処理システムは、追加又は修理・交換されたリソースを、まず診断パーティションに組み入れ、追加又は修理・交換されたリソースがオンライン状態で正常動作するか検証を行う。診断の結果、診断対象のリソースの正常動作が確認されれば、情報処理システムは、診断対象のリソースを診断パーティションから取り外し、運用パーティションに組み入れる。
特許文献2には、1個以上のパーティションと、各パーティションに接続され、パーティション構成を自由に変更可能なサービスプロセッサと、予備セルを含む、予備セル(プロセッサと記憶が実装されるボード)試験システムが記載されている。各パーティションは1個以上のセルと、I/O(Input/Output)ノードによって構成される。サービスプロセッサは、例えば所定の時間毎に、予備セルのみを含むパーティションを構成し、構成したパーティションにBIOS(Basic Input/Output System)ブートを行わせることで、予備セルの試験を行う。BIOSブート完了後、サービスプロセッサは構成したパーティションの削除を行わせる。サービスプロセッサは、BIOSブート時に何らかの異常が検出された場合、その予備セルを以後パーティションに組み込まれることがないよう管理を行う。BIOSブートが正常に終了した場合、サービスプロセッサは、次の試験開始時間まで待って、再び予備セルの試験を行う。
特許文献3には、複数の装置及びこれらの各装置に動作タイミング信号を出力する動作タイミング発生手段を含む系と、故障の被疑装置の故障の箇所を特定する診断制御手段を含む自動診断装置が記載されている。診断制御手段は、障害を検出した装置からの障害情報に基づいて被疑装置を系内の通常運転状態から論理的に切り離し、診断プログラムを実行して切り離された被疑装置の故障箇所を特定する。診断制御手段は、診断プログラムが正常に終了した場合、タイミング発生装置が被疑装置に対して動作タイミング信号を出力する周期を変更させ、再度診断プログラムを実行する。診断制御手段は、診断プログラムが正常に終了する度に、動作タイミング信号を出力する周期を異なる値に変更し、診断プログラムの実行を繰り返す。
特許文献4には、複数階層からなる機能装置が順次接続され、それぞれが冗長構成を備えた無線ネットワーク制御装置と、その障害処理方法が記載されている。特許文献4の無線ネットワーク制御装置は、サービス異常が有る場合、まずそのサービスの運用経路上の最上位階層にある装置を、対応する待機状態の装置に切り替えて一定時間監視し、サービス異常の有無を検出する。対応する待機状態の装置に切り替えても、サービス異常が検出される場合、無線ネットワーク制御装置は、その装置の階層より1階層下の装置を、対応する待機状態の装置に切り替えて一定時間監視し、サービス異常の有無を検出する。無線ネットワーク制御装置は、同様の処理を、待機状態の装置に切り替えると、サービス異常が検出しなくなるまで繰り返す。無線ネットワーク制御装置は、異常があるサービスの運用経路上の装置を、対応する待機状態の装置に切り替えると、サービス異常が検出されなくなった場合、切り替え元の装置及びその装置の下位階層の装置を、被疑装置とする。特許文献4の無線ネットワーク制御装置は、以上の処理を、サービスを提供しながら行う。
特開2009−205427 特開2006−268521 特開平2−197931 特開2009−135731
特許文献1に記載の情報処理システムは、診断対象のリソースを、メモリに診断プログラムをロードした診断専用セルと共に診断パーティションに組み込む。そして、診断専用セルが、診断パーティションに組み込まれたリソースの診断を行う。特許文献1に記載の情報処理システムには、メモリに診断プログラムをロードした診断専用セルが診断パーティションに必要であるという問題がある。
特許文献2に記載のシステムでは、予備セルが、通常のBIOS立ち上げの仕組みを使って定期的に正常性確認試験を実施する。特許文献2に記載のシステムには、CPU及び主記憶で構成されるセル単位での故障の検出しかできないという問題がある。
特許文献3に記載の自動診断装置は、障害を検出した装置を論理的に切り離し、切り離した装置で診断プログラムを実行し、切り離した装置内の故障箇所を特定する。特許文献3に記載の自動診断装置は、被疑コンポーネント単位で切り離しを行うことができないという問題があった。
特許文献4に記載されている方法は、運用中のシステムで発生するサービス異常を検出することで、被疑装置の特定を行うものである。特許文献4に記載されている方法には、被疑装置を特定する際に、運用中のシステムでサービス異常が発生するという問題があった。
本発明の目的は、運用中のパーティションに対して、故障特定の際に発生するエラーの影響を与えず、診断専用のコンポーネントを必要としない、コンポーネント毎の故障の診断が可能な故障診断装置を提供することにある。
本発明の故障検出装置は、1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数記憶する構成情報記憶手段と、複数のコンポーネントを含む運用パーティションと、前記運用パーティションに含まれない空きコンポーネントを備える情報処理装置の、前記運用パーティションに含まれる被疑コンポーネントを特定するエラー解析手段と、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶手段から読み出す切り分け手順生成手段と、読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成する構成制御手段と、前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する切り分け実施手段とを含む。
本発明の故障検出方法は、1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数、構成情報記憶手段に記憶し、複数のコンポーネントを含む運用パーティションと、前記運用パーティションに含まれない空きコンポーネントを備える情報処理装置の、前記運用パーティションに含まれる被疑コンポーネントを特定し、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶手段から読み出し、読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成し、前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する。
本発明の故障検出プログラムは、コンピュータを、1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数記憶する構成情報記憶手段と、複数のコンポーネントを含む運用パーティションと、前記運用パーティションに含まれない空きコンポーネントを備える情報処理装置の、前記運用パーティションに含まれる被疑コンポーネントを特定するエラー解析手段と、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶手段から読み出す切り分け手順生成手段と、読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成する構成制御手段と、前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する切り分け実施手段として動作させる。
本発明には、運用中のパーティションに対して、故障特定の際に発生するエラーの影響を与えず、診断専用のコンポーネントを必要としない、コンポーネント毎の故障の診断が可能であるという効果がある。
第1の実施形態の構成の例を表すブロック図である。 第1の実施形態の動作の例を表すフローチャートである。 テストパーティション生成後の情報処理装置1の構成の例を表すブロック図である。 運用パーティション再構成後の情報処理装置1の構成の例を表すブロック図である。 第2の実施形態の構成の例を表すブロック図である。 第2の実施形態の動作の例を表すフローチャートである。 第3の実施形態の構成の例を表すブロック図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。以下に示す本発明の各実施形態は、ハードウェア、コンピュータとコンピュータを制御するプログラム、あるいは、ハードウェアと、コンピュータとコンピュータを制御するプログラムとの組み合わせにより実現することができる。
図1は、本発明の第1の実施形態にかかる情報処理システムの構成を表すブロック図である。
図1を参照すると、本実施形態の情報処理システムは、情報処理装置1と、故障検出装置2を含む。
情報処理装置1は、複数のコンポーネント(コンポーネント100、…、コンポーネント107)運用パーティション10と1個以上の空きコンポーネント(コンポーネント200〜コンポーネント20N)を含む。コンポーネントは、例えばサーバである情報処理装置1を構成する要素である。前述のように、コンポーネントは、例えばCPU、メモリ、IOカードやIOブリッジなどである。
運用パーティション10の内部では、例えば図1に示すように、各コンポーネントが適宜組み合わされ、接続されて動作している。運用パーティション10は冗長性を備えており、一部のコンポーネントを切り離しても動作する。図1の運用パーティション10のコンポーネント100及びコンポーネント104は、例えばCPUである。また、コンポーネント101及びコンポーネント105は、例えばIOブリッジである。さらに、コンポーネント102及び106は、例えばメモリである。コンポーネント103及び107は、例えばIOカードである。以上はあくまで例であり、各コンポーネントの種類や接続状態はこれらに限られるものではない。
空きコンポーネントは、運用パーティション10に含まれず、動作中でないコンポーネントである。各空きコンポーネントは、例えば、情報処理装置1が運用パーティション10に含まれる各コンポーネントにさらに冗長性を持たせるために備えるコンポーネントである。各空きコンポーネントが空きパーティション20を構成していてもよい。
ただし、図1に記載されている運用パーティション10や他のパーティションの数は単なる一例であり、パーティションの数はこれらの例に限られるものではない。また、運用パーティション10が含むコンポーネントの数及び空きコンポーネントの数は、単なる一例である。同様に、運用パーティション10が含む各コンポーネントの接続状態も、単なる一例である。後述の、図3に記載の運用パーティション10Aや図4に記載の運用パーティション10Bについても同様である。各コンポーネント及び空きコンポーネントの数及び接続状態は、図1及び他の図の記載に限られるものではない。
運用パーティション10では、例えばOS(Operationg System)や他のソフトウエアが動作している。運用パーティション10は、情報処理装置1の利用者に対してサービスを提供する。パーティションがサービスを提供している状態が、運用状態である。
各パーティションは、それぞれ別のシステムとして動作する。各パーティションは、例えば他のパーティションに含まれるコンポーネント等の、外部のコンポーネントに故障が発生しても動作可能である。
また、本実施形態では、情報処理装置1と故障検出装置2は別の装置として説明するが、これらの装置は同一の装置であってもよい。例えば、故障検出装置2は、情報処理装置1が含む運用パーティションの一つであってもよい。
故障検出装置2は、エラー解析部30と、切り分け手順生成部40と、構成制御部50と、切り分け実施部60と、構成記憶部70を含む。
エラー解析部30は、情報処理装置1が含むいずれかのパーティションでエラーが発生した場合、エラーが発生したパーティションに属する各コンポーネントのログを受け取る。エラー解析部30は、受け取ったログを解析し、エラーの要因である故障が発生したことが疑われるコンポーネント(被疑コンポーネント)を特定する。
切り分け手順生成部40は、エラー解析部30が特定した被疑コンポーネントを含み、その被疑コンポーネント及び空きコンポーネント以外のコンポーネントを含まないパーティションの構成情報を、後述の構成記憶部70から読み出す。構成情報は、後述のテストパーティションを動作させるためのテストデータを含んでいてもよい。切り分け手順生成部40が構成情報を構成記憶部70から読み出すパーティションは、そのパーティションに含まれる全てのコンポーネントが正常である場合、動作可能であればよい。
構成制御部50は、切り分け手順生成部40が読み出した構成情報に含まれるコンポーネントで構成されるテストパーティションを生成する。構成制御部50は、後述するように、生成するテストパーティション内の各コンポーネントの接続状態を表す情報を、例えば構成情報やデータベースから読み出せばよい。あるいは、構成制御部50は、ディスプレイに表示するなどしてオペレータに構成を提示し、テストパーティションを生成する際の接続状態の切り替え指示をオペレータに入力させ、接続状態の情報を得ることもできる。構成制御部50は、テストパーティション内の各コンポーネントのIOポートやアドレス空間を、テストパーティション外のコンポーネントに対して直接アクセスできないように適宜設定することで、テストパーティションの生成を行えばよい。あるいは、構成制御部50は、テストパーティションの生成を、例えば、コンポーネント間の接続スイッチを自動的に切り替えることで行ってもよい。
切り分け実施部60は、構成制御部50が生成したテストパーティションを動作させた場合のエラー発生の有無に基づき、そのテストパーティションが含む被疑コンポーネントの故障の有無を判定する。
構成記憶部70は、動作可能なパーティションの構成を表す構成情報を、複数記憶する。構成情報は、例えば、組み合わせることでパーティションとして動作可能な、複数のコンポーネントのそれぞれを特定するための情報を含んでいればよい。
次に、本実施形態の動作について、図面を参照して詳細に説明する。
図2は、本実施形態の故障検出装置2の動作を表すフローチャートである。
情報処理装置1の運用パーティション10にエラーが発生した場合、エラー解析部30は、エラー発生時のログを情報処理装置1から受け取る(ステップS10)。
例えば、図1に示した情報処理装置1の運用パーティション10でエラーが発生した場合、エラー解析部30は、運用パーティション10からログを受け取ればよい。例えば、情報処理装置1には図示しないエラー収集パーティションが存在し、運用パーティションの10ログを収集、記録している場合、エラー解析部30は、エラー収集パーティションからログを受け取ればよい。
エラー解析部30は、受け取ったログを解析して、被疑コンポーネントを特定する(ステップS11)。
エラー解析部30は、例えば、ログと被疑コンポーネントの対応の情報を複数含む、図示しないエラー情報データベースを参照して、受け取ったログから被疑コンポーネントを特定すればよい。エラー解析部30は、被疑コンポーネントを一つに絞れない場合、複数のコンポーネントを被疑コンポーネントとして特定すればよい。
エラー解析部30は、被疑コンポーネントを特定するための情報を、切り分け手順生成部40及び構成制御部50に送信する。
次に、構成制御部50が、運用パーティション10から被疑コンポーネントを切り離す(ステップS12)。
構成制御部50は、運用パーティション10を動作させたまま、被疑コンポーネントを運用パーティション10から切り離せばよい。エラーにより運用パーティション10が停止するなど、運用パーティション10を動作させたままの被疑コンポーネントの切り離しが不可能な場合、構成制御部50は、運用パーティション10の停止時に被疑コンポーネントの切り離しを行えばよい。
次に、切り分け手順生成部40が、エラー解析部30が特定した被疑コンポーネントを含み、その被疑コンポーネント及び空きコンポーネント以外のコンポーネントを含まないパーティションの構成情報を、構成記憶部70から読み出す(ステップS13)。切り分け手順生成部40は、読み出した構成情報を、構成制御部50に渡す。
被疑コンポーネントが複数存在する場合、切り分け手順生成部40は、被疑コンポーネント1個を含み、他の被疑コンポーネントを含まない前述の構成情報を、被疑コンポーネント毎に構成記憶部70から読み出し、構成制御部50に渡せばよい。この場合、ある被疑コンポーネント1個を含み、他の被疑コンポーネントを含まない構成情報が、その被疑コンポーネントの故障の有無を判定するための構成情報である。後述の故障の有無の判定の際、ある被疑コンポーネントを含むパーティションの構成情報から生成したテストパーティションを動作させ、エラーが発生した場合、切り分け手順生成部40は、その被疑コンポーネントに故障があると判定すればよい。また、エラーが発生しなかった場合、切り分け手順生成部40は、その被疑コンポーネントには故障が無いと判定すればよい。
また、1個の被疑コンポーネントだけが故障してることが、例えばエラーの種類により分かっている場合が考えられる。この場合、切り分け手順生成部40は、各被疑コンポーネントに対して、1個の被疑コンポーネントを除く全ての被疑コンポーネントを含むパーティションの構成情報を、構成記憶部70から読み出し、構成制御部50に渡してもよい。この場合、ある被疑コンポーネント以外の全ての被疑コンポーネントを含む構成情報が、その被疑コンポーネントの故障の有無を判定するための構成情報である。後述の故障の有無の判定の際、ある被疑コンポーネント以外の全ての被疑コンポーネントを含むパーティションの構成情報から生成したテストパーティションを動作させ、エラーが発生した場合、切り分け手順生成部40は、その被疑コンポーネントは故障していないと判定すればよい。
一つの被疑コンポーネントの故障の有無を判定するための構成情報が複数存在する場合、構成制御部50は、それらの構成情報からいずれか一つの構成情報を選択する(ステップS14)。構成制御部50は種々の方法で構成情報を選択してよい。
構成制御部50は、例えば、構成するコンポーネントの数が最も少ないパーティションの構成情報を選択することができる。構成制御部50は、例えば、消費電力の和が最も小さいパーティションを選択したり、構成情報が最も早く読み出されたパーティションを選択するなど、他の方法で構成情報を選択してもよい。なお、構成情報制御部50ではなく、切り分け手順生成部40が、構成情報の選択を行ってもよい。
故障の有無を判定が終了していない被疑コンポーネントが存在する場合(ステップS15、Y)、構成制御部50は、故障の有無を判定していない被疑コンポーネントから、いずれか一つの被疑コンポーネントを選択する。構成制御部50は、選択した被疑コンポーネントの故障を判定するための構成情報が含む各コンポーネントで構成される、テストパーティションを生成する(ステップS16)。
構成情報は、その構成情報が構成を表す動作可能なパーティション内の、各コンポーネントの接続状態を表す情報を含んでいてもよい。あるいは、コンポーネントの集合と、その集合に対応するコンポーネントの接続状態を複数記憶する図示しないデータベースから、構成制御部50が、構成情報に含まれる各コンポーネントの接続状態を読み出してもよい。構成制御部50は、これらに限らず、他の方法で各コンポーネントの接続状態を特定してもよい。構成制御部50は、選択した構成情報に含まれる各コンポーネントが、前述の接続状態に従って接続されたテストパーティションを生成すればよい。
各テストパーティションの構成は、全てのコンポーネントが正常であれば動作する構成であればよく、各被疑コンポーネントを切り離す前の運用パーティション10と同等の構成である必要はない。
図3は、図1の情報処理装置1の運用パーティション10でエラーが発生し、構成制御部50がテストパーティション作成した場合の、情報処理装置1の構成を表すブロック図である。
図3の例では、コンポーネント101、コンポーネント102、及び、コンポーネント103が被疑コンポーネントである。運用パーティション10Aは、図1の運用パーティション10から、各被疑コンポーネントを切り離したパーティションである。テストパーティション21は、コンポーネント101を含む構成情報に基づき、構成制御部50が生成したテストパーティションの例である。コンポーネント201、コンポーネント203〜コンポーネント20Nは、コンポーネント101を含むテストパーティションに含まれない空きコンポーネントである。テストパーティション21に含まれない、各被疑コンポーネント及び各空きコンポーネントが、空きパーティション20Aを構成するとみなすこともできる。
次に、切り分け実施部60が、テストパーティションを動作させた場合のエラーの発生の有無に基づき、そのテストパーティションが含む被疑コンポーネントの故障の有無を判定し、故障したコンポーネントを特定する(ステップS17)。
例えば、ある被疑コンポーネントが含まれ、他の被疑コンポーネントが含まれないテストパーティションを動作させてエラーが発生した場合、その被疑コンポーネントが故障していると判定すればよい。また、ある被疑コンポーネント含まれ、他の被疑コンポーネントが含まれないテストパーティションを動作させてエラーが発生しなかった場合、そのテストパーティションに含まれる被疑コンポーネントは故障していないと判定すればよい。
また、故障している被疑コンポーネントの個数が1個であることが判明しており、テストパーティションには1個の被疑コンポーネントを除く全ての被疑コンポーネントが含まれる場合は、次のようにして被疑コンポーネントの故障の有無を判定することができる。テストパーティションを動作させてエラーが発生した場合、テストパーティションに含まれる被疑コンポーネントのいずれかが故障していることになるので、テストパーティションに含まれない被疑コンポーネントは正常であると判定する。
判定の終了後、構成制御部50は、判定に使用したテストパーティションを解消して、そのテストパーティションに含まれていた被疑コンポーネント以外のコンポーネントを、空きコンポーネントに戻せばよい。
全ての被疑コンポーネントの故障の有無を判定した場合(ステップS15、N)、ステップS18に進む。
構成制御部50は、次に、故障していないと判定された被疑コンポーネントを、再び運用パーティション10に組み込むなどの、運用パーティション10の再構築を行う(ステップS18)。
構成制御部50は、故障していないと判定された被疑コンポーネントを、必ずしも全て再び運用パーティション10に組み込まなくてもよい。ステップS17において、構成制御部50は、空きコンポーネントであったいずれか1個以上のコンポーネントを運用パーティション10に組み込んでもよい。
構成制御部50は、故障していると判定された被疑コンポーネントを、例えばコンポーネントをラベル付けしたり、故障コンポーネントのリストにその被疑コンポーネントを特定する情報を追加するなどして、故障していることが判別できるようにしておく。
構成制御部50は、故障していると判定された被疑コンポーネントを、以後、運用パーティション10や他の運用パーティション、他のテストパーティションには組み込まないようにする。
図4は、故障があると判定されたコンポーネントがコンポーネント101である場合の、運用パーティション10の再構築後の、情報処理装置1の構成の例を表す図である。
図4の例では、再構築後の情報処理装置1は、運用パーティション10の代わりに運用パーティション10Bを含む。運用パーティション10Bは、構成制御部50が再構成を行った後の運用パーティション10である。図1の運用パーティション10と比較すると、運用パーティション10Bは、コンポーネント101の代わりにコンポーネント201を含む点が異なる。図4の例では、構成制御部50は、コンポーネント201、コンポーネント102、及び、コンポーネント103を、図3に記載の被疑コンポーネント切り離し後の運用コンポーネント10Aに組み込んで、運用パーティション10Bとしている。
故障があると判定されたコンポーネント101は、いずれのコンポーネントにも組み込まれない。情報処理装置1の管理者が、適宜コンポーネント101の交換を行えばよい。
残った空きコンポーネントである、コンポーネント202〜コンポーネント20Nが、空きパーティション20Bを構成するとみなすこともできる。
以上で説明した本実施形態には、運用中のパーティションに対して、故障特定の際に発生するエラーの影響を与えず、診断専用のコンポーネントを必要としない、コンポーネント毎の故障の診断が可能であるという効果がある。
その理由は、構成制御部50が、被疑コンポーネント毎に、被疑コンポーネントを含み、被疑コンポーネント及び空きコンポーネント以外のコンポーネントを含まないパーティションの構成情報を、構成情報記憶部70から読み出すからである。構成制御部50は、読み出した構成情報に含まれるコンポーネントで構成され、運用パーティション10に影響を与えないテストパーティションを作成する。切り分け実施部60は、被疑コンポーネント毎に作成したテストパーティションを動作させた場合のエラーの有無により、故障したコンポーネントを特定する。
従って、切り分け実施部60による故障したパーティションの特定において、診断専用のコンポーネントは必要ない。また、テストパーティションで故障したコンポーネントの特定を行うので、運用パーティション10に対する、故障特定の際に発生するエラーの影響は無い。
次に、第1の実施形態の変形例について、図面を参照して詳細に説明する。
本変形例の構成は、図1に示す第1の実施形態の構成と同じである。
また、本変形例の動作を表すフローチャートは、図2に示す第1の実施形態の動作を表すフローチャートと同じである。
本変形例は、ステップS14において、構成制御部50が行う構成情報の選択方法が、第1の実施形態と異なる。本変形例の構成制御部50は、被疑コンポーネントを含み、その被疑コンポーネント及び空きコンポーネント以外のコンポーネントを含まない全てのパーティションを、テストパーティションの候補とする。本変形例の構成制御部50は、テストパーティションの候補としたパーティションのうち、最も少ない数のコンポーネントで構成されるパーティションの構成情報を選択する。
次に、本変形例の効果について説明する。
本変形例には、前述の第1の実施例の効果に加えて、被疑コンポーネントが故障しているか否かの判定の誤りを低減できるという効果がある。
その理由は、構成制御部50が、テストパーティションの候補となる全てのパーティションのうち、最も少ない数のコンポーネントで構成されるパーティションを選択し、選択したパーティションの構成情報を選択するからである。各コンポーネントが故障する確率が同じであれば、テストパーティション構成するコンポーネントの数が少ないほど、被疑コンポーネント以外のコンポーネントが故障している可能性が低い。従って、被疑コンポーネント以外のコンポーネントが故障していることに起因する、被疑コンポーネントに対する故障判定の誤りが減少する。
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。
図5は、本実施形態の構成を表すブロック図である。
図5と図1を比較すると、本実施形態の故障検出装置2Aは、信頼度記憶部80を含む点が、第1の実施形態の故障検出装置2と異なる。
信頼度記憶部80は、各コンポーネントの信頼性の度合いを表す信頼度を記憶する。
本実施形態の他の構成要素は、第1の実施形態の同一の番号を付した構成要素と同じであるので、説明を省略する。
次に、本実施形態の動作について、図面を参照して詳細に説明する。
図6は、本実施形態の動作を表すフローチャートである。
図6と図2を比較すると、本実施形態の動作を表すフローチャートは、ステップS13とステップS14の間に、ステップS20及びステップS21がある点が異なる。
図6のステップS11〜ステップS13は、第1の実施形態におけるステップS11〜ステップS13と同じであるので、説明を省略する。
ステップS13の後、構成制御部50は、切り分け手順生成部40が読み出した各構成情報が含む、各コンポーネントの信頼性の度合いを表す信頼度を、信頼度記憶部80から読み出す。
信頼度は、例えば、MTBF(Mean Time Before Failure)や、故障率のような、信頼性の度合いを表す既存の指標であればよい。
構成制御部50は、切り分け手順生成部40が読み出した各構成情報から生成される、全てのパーティションの信頼度を算出する。構成制御部50は、パーティションの信頼度の算出を、既存の方法で行えばよい。なお、構成制御部50は、パーティションに含まれる被疑コンポーネントを除外して(例えば信頼できると仮定するなどして)、パーティションの信頼度を算出してもよい。
次に、構成制御部50は、被疑コンポーネントの故障の有無を判定するための構成情報の選択を行う(ステップS14)。構成制御部50は、選択の際、算出したパーティションの信頼度をもとに、信頼性の低いパーティションの構成情報を、被疑コンポーネントの故障の有無を判定するための構成情報の選択の対象から除外する。構成制御部50は、例えば算出した信頼度に対する閾値によって、信頼性の高低を判定すればよい。構成制御部50は、算出した信頼度を比較し、最も信頼性が高いパーティションの構成情報を被疑コンポーネントの故障の有無を判定するための構成情報として選択してもよい。
本実施形態のステップS15以降の動作は、第1の実施形態の動作と同じであるので、説明を省略する。
以上で説明した本実施形態には、被疑コンポーネントが故障しているか否かの判定の誤りを低減できるという効果がある。
その理由は、構成制御部50が、信頼性の低いパーティションを、テストパーティションに使用しないからである。
次に、本発明の第3の実施形態について、図面を参照して詳細に説明する。
図7は、本実施形態の構成を表すブロック図である。
本実施形態の故障検出装置2は、1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数記憶する構成情報記憶部70と、複数のコンポーネントを含む運用パーティション10と、前記運用パーティション10に含まれない空きコンポーネントを備える情報処理装置1の、前記運用パーティション10に含まれる被疑コンポーネントを特定するエラー解析部30と、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶部30から読み出す切り分け手順生成部40と、読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成する構成制御部50と、前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する切り分け実施部60とを含む。
本実施形態には、運用中のパーティションに対して、故障特定の際に発生するエラーの影響を与えず、診断専用のコンポーネントを必要としない、コンポーネント毎の故障の診断が可能であるという効果がある。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
1 情報処理装置
2、2A 故障検出装置
10、10A、10B 運用パーティション
20、20A 空きパーティション
21 テストパーティション
30 エラー解析部
40 切り分け手順生成部
50 構成制御部
60 切り分け実施部
70 構成記憶部
80 信頼度記憶部
100、101、102、103、104、105、106、107、201、202、203、204、20N コンポーネント

Claims (10)

  1. 1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数記憶する構成情報記憶手段と、
    複数のコンポーネントを含む運用パーティションと、前記運用パーティションに含まれない空きコンポーネントを備える情報処理装置の、前記運用パーティションに含まれる被疑コンポーネントを特定するエラー解析手段と、
    前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶手段から読み出す切り分け手順生成手段と、
    読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成する構成制御手段と、
    前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する切り分け実施手段と
    を含む故障検出装置。
  2. 前記構成制御手段は、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まない前記パーティションのうち、最も少ない数のコンポーネントで構成される前記パーティションの前記構成情報から前記テストパーティションを生成する
    請求項1に記載の故障検出装置。
  3. 各コンポーネントの信頼性の度合いを表す信頼度を記憶する信頼度記憶手段を含み、
    前記構成制御手段は、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まない前記パーティション各々が含む、前記空きコンポーネント各々の前記信頼度を前記信頼度記憶手段から読み出し、読み出した前記信頼度から前記パーティション各々の信頼度を算出し、算出した前記信頼度に対する閾値に基づき判定した信頼性の低い前記パーティションの前記構成情報を、前記テストパーティションを生成するための前記構成情報から除外する
    請求項1又は2に記載の故障検出装置。
  4. 前記情報処理装置と、請求項1乃至3のいずれか一項に記載の故障検出装置を含む情報処理システム。
  5. 1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数、構成情報記憶手段に記憶し、
    エラー解析手段が、複数のコンポーネントを含む運用パーティションと、前記運用パーティションに含まれない空きコンポーネントを備える情報処理装置の、前記運用パーティションに含まれる被疑コンポーネントを特定し、
    切り分け手順生成手段が、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶手段から読み出し、
    構成制御手段が、読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成し、
    切り分け実施手段が、前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する
    動作を、前記構成情報記憶手段と、前記エラー解析手段と、前記切り分け手順生成手段と、前記構成制御手段と、前記切り分け実施手段とを含む故障検出装置に行わせる故障検出方法。
  6. 前記構成制御手段は、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まない前記パーティションのうち、最も少ない数のコンポーネントで構成される前記パーティションの前記構成情報から前記テストパーティションを生成する
    請求項5に記載の故障検出方法。
  7. 各コンポーネントの信頼性の度合いを表す信頼度を信頼度記憶手段に記憶し、
    前記構成制御手段は、前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まない前記パーティション各々が含む、前記空きコンポーネント各々の前記信頼度を前記信頼度記憶手段から読み出し、読み出した前記信頼度から前記パーティション各々の信頼度を算出し、算出した前記信頼度に対する閾値に基づき判定した信頼性の低い前記パーティションの前記構成情報を、前記テストパーティションを生成するための前記構成情報から除外する
    請求項5又は6に記載の故障検出方法。
  8. コンピュータを、
    1個以上のコンポーネントで構成されるパーティションの、動作可能な構成を表す構成情報を、複数記憶する構成情報記憶手段と、
    複数のコンポーネントを含む運用パーティションと、前記運用パーティションに含まれない空きコンポーネントを備える情報処理装置の、前記運用パーティションに含まれる被疑コンポーネントを特定するエラー解析手段と、
    前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まないパーティションの構成情報を、前記構成情報記憶手段から読み出す切り分け手順生成手段と、
    読み出した前記構成情報に含まれるコンポーネントで構成されるテストパーティションを生成する構成制御手段と、
    前記テストパーティションを動作させた場合のエラー発生の有無に基づき、前記テストパーティションが含む前記被疑コンポーネントの故障の有無を判定する切り分け実施手段と
    して動作させる故障検出プログラム。
  9. コンピュータを、
    前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まない前記パーティションのうち、最も少ない数のコンポーネントで構成される前記パーティションの前記構成情報から前記テストパーティションを生成する前記構成制御手段
    として動作させる請求項8に記載の故障検出プログラム。
  10. コンピュータを、
    各コンポーネントの信頼性の度合いを表す信頼度を記憶する信頼度記憶手段と、
    前記被疑コンポーネントを含み、前記被疑コンポーネント及び前記空きコンポーネント以外を含まない前記パーティション各々が含む、前記空きコンポーネント各々の前記信頼度を前記信頼度記憶手段から読み出し、読み出した前記信頼度から前記パーティション各々の信頼度を算出し、算出した前記信頼度に対する閾値に基づき判定した信頼性の低い前記パーティションの前記構成情報を、前記テストパーティションを生成するための前記構成情報から除外する前記構成制御手段と
    して動作させる請求項8又は9に記載の故障検出プログラム。
JP2011009702A 2011-01-20 2011-01-20 故障検出装置、故障検出方法、及び、故障検出プログラム Active JP5696492B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011009702A JP5696492B2 (ja) 2011-01-20 2011-01-20 故障検出装置、故障検出方法、及び、故障検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011009702A JP5696492B2 (ja) 2011-01-20 2011-01-20 故障検出装置、故障検出方法、及び、故障検出プログラム

Publications (2)

Publication Number Publication Date
JP2012150699A JP2012150699A (ja) 2012-08-09
JP5696492B2 true JP5696492B2 (ja) 2015-04-08

Family

ID=46792880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011009702A Active JP5696492B2 (ja) 2011-01-20 2011-01-20 故障検出装置、故障検出方法、及び、故障検出プログラム

Country Status (1)

Country Link
JP (1) JP5696492B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6550733B2 (ja) * 2014-12-01 2019-07-31 富士通株式会社 情報処理装置、診断方法及び診断プログラム
JP7351129B2 (ja) * 2019-07-26 2023-09-27 富士通株式会社 情報処理装置および情報処理装置の制御プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02197931A (ja) * 1989-01-27 1990-08-06 Nec Corp 自動診断装置
US7565398B2 (en) * 2002-06-27 2009-07-21 International Business Machines Corporation Procedure for dynamic reconfiguration of resources of logical partitions
JP2006268521A (ja) * 2005-03-24 2006-10-05 Nec Corp 予備cell試験システム
JP2009135731A (ja) * 2007-11-30 2009-06-18 Fujitsu Ltd 無線ネットワーク制御装置およびその障害処理方法
JP2009163646A (ja) * 2008-01-10 2009-07-23 Hitachi Ltd パーティション構成方法
JP5251165B2 (ja) * 2008-02-27 2013-07-31 日本電気株式会社 情報処理システム、リソース診断方法、および診断管理プログラム
JP5234115B2 (ja) * 2008-11-27 2013-07-10 富士通株式会社 情報処理装置,処理部切換方法及び処理部切換プログラム

Also Published As

Publication number Publication date
JP2012150699A (ja) 2012-08-09

Similar Documents

Publication Publication Date Title
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
US7313717B2 (en) Error management
CN100451977C (zh) 检测错误和预报潜在故障的系统以及方法
US8108724B2 (en) Field replaceable unit failure determination
JP5643321B2 (ja) 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム
US9274902B1 (en) Distributed computing fault management
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
US20040221198A1 (en) Automatic error diagnosis
Soualhia et al. Infrastructure fault detection and prediction in edge cloud environments
CN111858254B (zh) 数据的处理方法、装置、计算设备和介质
US8006133B2 (en) Non-disruptive I/O adapter diagnostic testing
KR100990700B1 (ko) 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체
CN111414268A (zh) 故障处理方法、装置及服务器
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
JP2007299213A (ja) Raid制御装置および障害監視方法
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
US8451019B2 (en) Method of detecting failure and monitoring apparatus
US8977892B2 (en) Disk control apparatus, method of detecting failure of disk apparatus, and recording medium for disk diagnosis program
US7673082B2 (en) Method and system to determine device criticality for hot-plugging in computer configurations
EP2312443A2 (en) Information processing apparatus, method of controlling information processing apparatus and control program
JP5419639B2 (ja) 計算機装置及び情報処理方法及びプログラム
CN209343321U (zh) 一种计算机故障检测装置
JP2011180673A (ja) ディスク劣化診断装置
JP5335150B2 (ja) 計算機装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150126

R150 Certificate of patent or registration of utility model

Ref document number: 5696492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150