JP4209866B2 - 監視装置、監視方法および情報処理装置 - Google Patents

監視装置、監視方法および情報処理装置 Download PDF

Info

Publication number
JP4209866B2
JP4209866B2 JP2005181114A JP2005181114A JP4209866B2 JP 4209866 B2 JP4209866 B2 JP 4209866B2 JP 2005181114 A JP2005181114 A JP 2005181114A JP 2005181114 A JP2005181114 A JP 2005181114A JP 4209866 B2 JP4209866 B2 JP 4209866B2
Authority
JP
Japan
Prior art keywords
failure
monitoring
section
bus
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005181114A
Other languages
English (en)
Other versions
JP2007004296A (ja
Inventor
進 富永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005181114A priority Critical patent/JP4209866B2/ja
Publication of JP2007004296A publication Critical patent/JP2007004296A/ja
Application granted granted Critical
Publication of JP4209866B2 publication Critical patent/JP4209866B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

この発明は、監視装置、監視方法および情報処理装置に関し、特に、複雑な構成を有する情報処理装置においても障害の発生した部位を確実に特定することができる監視装置、監視方法および情報処理装置に関するものである。
近年、情報化の進展にともない、情報処理装置には性能の高さに加え、信頼性の高さが
強く求められるようになっている。情報処理装置の信頼性を高めるための手法の一つに、監視装置をもちいる手法がある。情報処理装置の内部もしくは外部に監視装置を備え、稼動状態を常時監視することにより、障害の早期発見と迅速な対処が可能になる。
たとえば、特許文献1には、メモリの障害を監視する監視装置に関する技術が開示されている。この技術をもちいれば、メモリのリード時に発生した障害がメモリ自体の故障によるものか、あるいは、配線を含む回路の故障によるものかを切り分け、さらに、その障害が固定的なものであるか否かを判別することができる。
特開2003−15962号公報
しかしながら、特許文献1に示したような従来の監視装置は、CPU(Central Processing Unit)等の制御装置とメモリ等の被制御装置がバスによって直結されているような単純な構成であることを前提としている。
近年の情報処理装置は、性能向上等の目的でCPU等が多重化されている場合が多く、制御装置と被制御装置の間のインターフェースが複雑化している。このインターフェースに複雑化により、従来の監視装置では、障害の検出をおこなうことはできても、障害の発生箇所を特定することが困難になっている。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、複雑な構成を有する情報処理装置においても障害の発生した部位を確実に特定することができる監視装置、監視方法および情報処理装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、監視対象装置における障害の発生の有無を監視する監視装置であって、監視対象装置と自装置とを接続する接続手段と、前記接続手段による接続を通じて監視対象機器の稼動状態を監視する状態監視手段と、障害を検出した場合に、前記状態監視手段が監視していた監視対象機器の稼動状態を基にして障害が発生した装置を特定する障害検出手段とを備えたことを特徴とする。
また、本発明は、監視対象装置における障害の発生の有無を監視する監視方法であって、監視対象装置と自装置とを接続する接続工程と、前記接続工程による接続を通じて監視対象機器の稼動状態を監視する状態監視工程と、障害を検出した場合に、前記状態監視工程が監視していた監視対象機器の稼動状態を基にして障害が発生した装置を特定する障害検出工程とを含んだことを特徴とする。
また、本発明は、監視対象装置と、前記監視対象装置における障害の発生の有無を監視する監視装置とを備えた情報処理装置であって、前記監視装置は、監視対象装置と自装置とを接続する接続手段と、前記接続手段による接続を通じて監視対象機器の稼動状態を監視する状態監視手段と、障害を検出した場合に、前記状態監視手段が監視していた監視対象機器の稼動状態を基にして障害が発生した装置を特定する障害検出手段とを備えたことを特徴とする。
この発明によれば、監視対象の装置と監視装置とを接続し、その接続を通じて監視装置が監視対象装置の稼動状態を監視するように構成したので、複雑な構成を有する情報処理装置においても、障害発生時に障害の発生部位を確実に特定することができる。
また、本発明は、上記の発明において、前記障害検出手段が障害が発生したと特定した装置が冗長化されている場合に、該装置を正常な装置と切り替えるか否かを判定する切替判定手段をさらに備えたことを特徴とする。
また、本発明は、上記の発明において、前記障害検出工程が障害が発生したと特定した装置が冗長化されている場合に、該装置を正常な装置と切り替えるか否かを判定する切替判定工程をさらに含んだことを特徴とする。
また、本発明は、上記の発明において、前記障害検出手段が障害が発生したと特定した装置が冗長化されている場合に、該装置を正常な装置と切り替えるか否かを判定する切替判定手段をさらに備えたことを特徴とする。
この発明によれば、障害発生時に障害の発生部位を確実に特定した上で、障害の発生部位が冗長化されている場合には正常な装置へ切り替えるように構成したので、障害による処理の停止時間を最小限に抑えることができる。
また、本発明は、上記の発明において、前記障害検出手段が検出した障害情報を履歴情報として記憶する障害履歴記憶手段をさらに備え、前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報に基づいて、障害が発生した装置を正常な装置と切り替えるか否かを判定することを特徴とする。
また、本発明は、上記の発明において、前記障害検出工程が検出した障害情報を履歴情報として記憶手段に記憶させる障害履歴記憶工程をさらに備え、前記切替判定工程は、前記記憶手段に記憶された履歴情報に基づいて、障害が発生した装置を正常な装置と切り替えるか否かを判定することを特徴とする。
この発明によれば、障害の発生部位が冗長化されている場合に、記憶手段に記憶されている障害の発生履歴を参照して冗長切替をおこなうか否かを判定するように構成したので、障害の発生頻度に応じて対処法を切り替えることができる。
また、本発明は、上記の発明において、前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報を参照し、障害が発生した装置の障害発生頻度が所定の値よりも小さい場合は、該装置を正常な装置と切り替えずに、処理の再実行をおこなわせることを特徴とする。
また、本発明は、上記の発明において、前記切替判定工程は、前記記憶手段に記憶された履歴情報を参照し、障害が発生した装置の障害発生頻度が所定の値よりも小さい場合は、該装置を正常な装置と切り替えずに、処理の再実行をおこなわせることを特徴とする。
この発明によれば、障害の発生部位が冗長化されている場合に、記憶手段に記憶されている障害の発生履歴を参照し、同じ装置の障害発生頻度が低い場合は、冗長切替ではなくリトライをおこなうように構成したので、障害の誤検出により不要な冗長切替をおこなうことを回避することができる。
本発明によれば、監視対象の装置と監視装置とを接続し、その接続を通じて監視装置が監視対象装置の稼動状態を監視するように構成したので、複雑な構成を有する情報処理装置においても、障害発生時に障害の発生部位を確実に特定することができるという効果を奏する。
また、本発明によれば、障害発生時に障害の発生部位を確実に特定した上で、障害の発生部位が冗長化されている場合には正常な装置へ切り替えるように構成したので、障害による処理の停止時間を最小限に抑えることができるという効果を奏する。
また、本発明によれば、障害の発生部位が冗長化されている場合に、記憶手段に記憶されている障害の発生履歴を参照して冗長切替をおこなうか否かを判定するように構成したので、障害の発生頻度に応じて対処法を切り替えることができるという効果を奏する。
また、本発明によれば、障害の発生部位が冗長化されている場合に、記憶手段に記憶されている障害の発生履歴を参照し、同じ装置の障害発生頻度が低い場合は、冗長切替ではなくリトライをおこなうように構成したので、障害の誤検出により不要な冗長切替をおこなうことを回避することができるという効果を奏する。
以下に添付図面を参照して、本発明に係る監視装置、監視方法および情報処理装置の好適な実施の形態を詳細に説明する。なお、下記の実施例では、CPUとメモリの障害を監視する監視装置を例にして説明をおこなうが、監視する対象はどのようなものであってもよい。また、1台の監視装置で3種類以上の対象を監視するように構成してもよい。
まず、従来の監視方式について例を示して説明する。図5は、従来の監視方式を説明するための説明図である。同図に示した情報処理装置は、監視装置101と、CPU201と、メモリ302とを有している。CPU201とメモリ302は、バス14を介して接続され、バス14を通じて制御信号やデータのやりとりをおこなう。同じバス14に監視装置101も接続され、バス14を流れる制御信号やデータを監視して障害の検出をおこなう。
ここでバスを流れる信号について説明しておく。図6は、バスを流れる信号の一例を示すサンプル図である。同図に示すように、一般的に、信号の送受信はクロックに同期して制御信号とデータとをやりとりすることで実現される。
バスの制御権を獲得した制御装置(たとえば、CPU201)は、リード/ライト信号によってデータの書き込み動作をおこなうのか、読み込み動作をおこなうのかを指定し、さらに、アドレス信号によって対向装置とデータ位置とを指定する。
データの書き込み動作をおこなう場合は、制御装置がデータバスに書き込み用のデータを送り込み、このデータに対応するECC(Error Correcting Code)やパリティデータ等の誤り訂正データを誤り訂正データバスに送り込む。対向装置である被制御装置(たとえば、メモリ302)は、データバスからデータを取得し、データに誤りがないことを誤り訂正データをもちいて確認し、誤りがなければ、指定された位置にデータの書き込みをおこなう。
データの読み込み動作をおこなう場合は、被制御装置が指定された位置のデータをデータバスに送り込み、このデータに対応する誤り訂正データを誤り訂正データバスに送り込む。データの要求元の制御装置は、データバスからデータを取得し、データに誤りがないことを誤り訂正データをもちいて確認し、誤りがなければ、取得したデータに所定の処理をおこなう。
監視装置101は、これらのやりとりを監視し、たとえば、誤り訂正データからデータに誤りがあることが判明した場合には、送信元に再送信を指示する。また、アドレス信号にて不正なアドレスが指定された場合には、その旨を自装置内の記憶部に記憶したり、監視用のコンソール画面に表示させたりといった動作をおこなう。
このように従来の監視方式では、バスを流れる信号を監視することにより、どの装置間でデータのやりとりがおこなわれているのかの認識と障害の検出をおこなう。しかし、近年の複雑化した情報処理装置においては、データのやりとりをおこなう装置間にセレクタやブリッジ等が介在する場合が多く、バスを監視するだけでは、どの装置間でデータのやりとりがおこなわれているのかを特定することが困難な場合がある。
このように障害が発生している装置を特定することができないと、管理者等が故障箇所を特定する作業が必要になるため、障害の対応時間が長くなり、処理停止による損害が大きくなる可能性がある。また、同一の装置を複数備えた冗長構成をとっていたとしても、迅速な切り替えを実現することができない。
次に、本実施例に係る監視方式の概要について説明する。図1は、本実施例に係る監視方式の概要について説明するための説明図である。同図は、メモリアクセス用のバスを二重化した情報処理装置に本実施例に係る監視方式を適用した場合を示している。
図1に示した情報処理装置は、監視装置100と、CPU200と、メモリ300と、メモリ301と、ブリッジ400とを有している。メモリ300とメモリ301は、それぞれ、バス12aとバス12bという個別のバスに接続され、CPU200が接続されているバス11とブリッジ400を介して接続されている。
監視装置100は、バス11に接続されるとともに、CPU200、メモリ300およびメモリ301と、それぞれ、信号線21、信号線22および信号線23によって接続される。CPU200がメモリとの間でデータのやりとりをおこなう場合、やり取りをおこなう相手がメモリ300とメモリ301のいずれであるのかは、ブリッジ400が介在しているため、バス11を監視するだけでは判別が難しい。本実施例に係る監視方式では、監視装置と監視対象装置との間を個別の信号線で接続することにより、この問題を解決している。
具体例を挙げて説明する。CPU200がメモリにデータの書き込みをおこなう必要が生じたとする。CPU200は、バス11の制御権を獲得すると、バス11を通じて、書き込みをおこなう旨と、書き込み先のアドレスとをブリッジ400に対して通知する。このとき、CPU200は、信号線21を通じて、データの送信を開始する旨を監視装置100に対して通知する。
CPU200からの通知を受けたブリッジ400は、通知されたアドレスから書き込み先がメモリ300であることを判断し、バス12aを通じて、書き込みがおこなわれる旨と、書き込み先のアドレスとをメモリ300へ通知する。このとき、通知を受けたメモリ300は、信号線22を通じて、データの受信を開始する旨を監視装置100に対して通知する。
監視装置100は、信号線21と信号線22から受信した通知により、データの送り元がCPU200であり、データの送り先がメモリ300であることを特定することができる。そして、バス11を監視し、データ誤りが発生していれば、データの送り元であるCPU200に対してリトライ等を指示する。
本実施例に係る監視方式では、監視装置100がデータの送り元と送り先を確実に特定することができるため、障害の発生した装置が冗長化されている場合には、即座に正常な装置と切り替えをおこなって、障害を短時間で解消することが可能なように構成することもできる。
なお、図1に示した構成では、監視装置100は、バス11に接続されているため、バス12aおよびバス12bにおいて障害が発生してもそれを検出することができない可能性がある。そのため、バス12aやバス12bで障害が発生した場合は、メモリ300やメモリ301が、信号線22や信号線23を通じて、監視装置100に対して障害を通知するようにしてもよい。
次に、本実施例に係る監視装置の構成について説明する。図2は、本実施例に係る監視装置100の構成を示すブロック図である。
図2に示した情報処理装置は、監視装置100と、CPU200と、メモリ300と、セレクタ501と、セレクタ502とを有している。CPU200とメモリ300を接続するバスは、二重化されており、バス13aもしくはバス13bのいずれか一方をもちいて制御信号やデータのやりとりがおこなわれる。このようにバスを二重化することにより、一方のバスに障害が発生しても、もう一方のバスを使用して処理を継続することができるようになっている。
CPU200は、セレクタ501を介してバス13aおよびバス13bと接続されている。セレクタ501は、制御信号やデータをバス13aを通じて送信するか、バス13bを通じて送信するかを選択する装置である。メモリ300も、セレクタ501と同様の装置であるセレクタ502を介してバス13aおよびバス13bと接続されている。
監視装置100は、障害の検出のためにバス13aおよびバス13bと接続されている。また、バス13aおよびバス13b上で信号のやりとりをおこなう装置を特定するために、信号線24を介してCPU200と接続され、信号線25を介してメモリ300と接続されている。さらに、障害検出時にバスの切り替えを実施するために、信号線26を介してセレクタ501と接続され、信号線27を介してセレクタ502と接続されている。
図2に示すように、監視装置100は、エラー検出部110と、状態監視部120と、履歴記録部130と、タイマ140と、切替判定部150とを有する。
エラー検出部110は、バス13aおよびバス13bを監視し、障害が発生した場合に、それを検出する処理部である。エラー検出部110は、障害を検出すると、障害に関する情報を履歴記録部130に記憶させるとともに、障害が発生した旨を切替判定部150に対して通知する。なお、監視対象の装置の障害を検出する方式は、バスを監視する方式以外の方式であってもよい。
状態監視部120は、信号線24や信号線25を通じて送信される信号を監視して、現在、どの装置の間でやりとりがおこなわれているのかを判別する処理部である。状態監視部120は、信号線24や信号線25を通じて送信された情報を履歴記録部130に記憶させ、どの装置の間でやりとりがおこなわれているかを、エラー検出部110に通知する。
履歴記録部130は、信号線24や信号線25を通じて送信された監視対象装置の稼動状況に関する情報や、エラー検出部110が検出した障害に関する情報を記憶する記憶装置である。ここに記憶された情報は、システム管理用プログラム等によってシステム管理者等に読み取られるほか、切替判定部150からも参照され、障害に対する対処法を判断する判断材料となる。
タイマ140は、履歴記録部130に各種情報とともに記録される日時情報を提供する装置である。
切替判定部150は、エラー検出部110にて障害が検出された場合に、その障害に対してどのような対応をとるかを判定し、必要であれば、対応を実行する処理部である。判定は、予め定められた判定ルールに基づいておこなわれる。
図3は、切替判定部150がもちいる判定ルールの一例を示すサンプル図である。同図は、制御装置がCPUであり、被制御装置がメモリの場合を示している。判定ルールの内容は、制御装置と被制御装置の組合せごとに定めることができる。
図3に示した例では、障害の発生頻度によって対応を判定している。具体的には、履歴記録部130を参照し、所定の期間内に同じ装置間で発生した障害が今回のものだけであれば、誤検出の可能性があるため、何も対応をおこなわない。所定の期間内に同じ装置間で発生した障害が2〜4回であれば、バス13aもしくはバス13b等を通じてCPU200に対してリトライを指示する。また、所定の期間内に同じ装置間で発生した障害が5回以上の場合は、信号線26を通じてセレクタ501に対してバスの切り替えを指示する。
このように、履歴記録部130に記憶された情報を参照して対応を判定することにより、障害検出の精度を向上させ、障害の進行度に応じた対応をとることが可能になる。
次に、図2に示した監視装置100の処理手順について説明する。図4は、図2に示した監視装置100の処理手順を示すフローチャートである。同図に示すように、監視装置100は、監視対象の装置と直接接続された信号線を通じて稼動状態に関する個別信号を受信したならば(ステップS101)、どの装置間でデータのやりとりがおこなわれるかを特定し(ステップS102)、それを履歴記録部130に記録する(ステップS103)。
そして、バスを監視する等して障害の検出を試み、障害が検出されなければ(ステップS104否定)、ステップS101へ復帰して、監視対象の装置と直接接続された信号線を通じて稼動状態が通知されるのを待ち受ける。
障害が検出された場合は(ステップS104肯定)、障害に関する情報を履歴記録部130に記録し(ステップS105)、障害への対応方法を判定する(ステップS106)。ここで、対応不要と判定した場合は(ステップS107なし)、特に処理をおこなわずに、ステップS101へ復帰する。
冗長切替が必要と判定した場合は(ステップS107冗長切替)、対象の装置に冗長切替指示を送信し(ステップS108)、その後、ステップS101へ復帰する。また、リトライが必要と判定した場合は(ステップS107リトライ)、対象の装置にリトライ指示を送信し(ステップS109)、その後、ステップS101へ復帰する
上述してきたように、本実施例では、監視対象の装置と監視装置とを接続し、その接続を通じて監視装置が監視対象装置の稼動状態を監視するように構成したので、複雑な構成を有する情報処理装置においても、障害発生時に障害の発生部位を確実に特定することができる。
(付記1)監視対象装置における障害の発生の有無を監視する監視装置であって、
監視対象装置と自装置とを接続する接続手段と、
前記接続手段による接続を通じて監視対象機器の稼動状態を監視する状態監視手段と、
障害を検出した場合に、前記状態監視手段が監視していた監視対象機器の稼動状態を基にして障害が発生した装置を特定する障害検出手段と
を備えたことを特徴とする監視装置。
(付記2)前記障害検出手段が障害が発生したと特定した装置が冗長化されている場合に、該装置を正常な装置と切り替えるか否かを判定する切替判定手段をさらに備えたことを特徴とする付記1に記載の監視装置。
(付記3)前記障害検出手段が検出した障害情報を履歴情報として記憶する障害履歴記憶手段をさらに備え、
前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報に基づいて、障害が発生した装置を正常な装置と切り替えるか否かを判定することを特徴とする付記2に記載の監視装置。
(付記4)前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報を参照し、障害が発生した装置の障害発生頻度が所定の値よりも小さい場合は、該装置を正常な装置と切り替えずに、処理の再実行をおこなわせることを特徴とする付記3に記載の監視装置。
(付記5)監視対象装置における障害の発生の有無を監視する監視方法であって、
監視対象装置と自装置とを接続する接続工程と、
前記接続工程による接続を通じて監視対象機器の稼動状態を監視する状態監視工程と、
障害を検出した場合に、前記状態監視工程が監視していた監視対象機器の稼動状態を基にして障害が発生した装置を特定する障害検出工程と
を含んだことを特徴とする監視方法。
(付記6)前記障害検出工程が障害が発生したと特定した装置が冗長化されている場合に、該装置を正常な装置と切り替えるか否かを判定する切替判定工程をさらに含んだことを特徴とする付記5に記載の監視方法。
(付記7)前記障害検出工程が検出した障害情報を履歴情報として記憶手段に記憶させる障害履歴記憶工程をさらに備え、
前記切替判定工程は、前記記憶手段に記憶された履歴情報に基づいて、障害が発生した装置を正常な装置と切り替えるか否かを判定することを特徴とする付記6に記載の監視方法。
(付記8)前記切替判定工程は、前記記憶手段に記憶された履歴情報を参照し、障害が発生した装置の障害発生頻度が所定の値よりも小さい場合は、該装置を正常な装置と切り替えずに、処理の再実行をおこなわせることを特徴とする付記7に記載の監視方法。
(付記9)監視対象装置と、前記監視対象装置における障害の発生の有無を監視する監視装置とを備えた情報処理装置であって、
前記監視装置は、
監視対象装置と自装置とを接続する接続手段と、
前記接続手段による接続を通じて監視対象機器の稼動状態を監視する状態監視手段と、
障害を検出した場合に、前記状態監視手段が監視していた監視対象機器の稼動状態を基にして障害が発生した装置を特定する障害検出手段と
を備えたことを特徴とする情報処理装置。
(付記10)前記障害検出手段が障害が発生したと特定した装置が冗長化されている場合に、該装置を正常な装置と切り替えるか否かを判定する切替判定手段をさらに備えたことを特徴とする付記9に記載の情報処理装置。
(付記11)前記障害検出手段が検出した障害情報を履歴情報として記憶する障害履歴記憶手段をさらに備え、
前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報に基づいて、障害が発生した装置を正常な装置と切り替えるか否かを判定することを特徴とする付記10に記載の情報処理装置。
(付記12)前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報を参照し、障害が発生した装置の障害発生頻度が所定の値よりも小さい場合は、該装置を正常な装置と切り替えずに、処理の再実行をおこなわせることを特徴とする付記11に記載の情報処理装置。
以上のように、本発明に係る監視装置、監視方法および情報処理装置は、障害監視に有用であり、特に、複雑な構成を有する情報処理装置においても障害の発生した部位を確実に特定することが必要な場合に適している。
本実施例に係る監視方式の概要について説明するための説明図である。 本実施例に係る監視装置の構成を示すブロック図である。 切替判定部がもちいる判定ルールの一例を示すサンプル図である。 図2に示した監視装置の処理手順を示すフローチャートである。 従来の監視方式を説明するための説明図である。 バスを流れる信号の一例を示すサンプル図である。
符号の説明
11、12a、12b、13a、13b、14 バス
21、22、23、24、25、26、27 信号線
100、101 監視装置
110 エラー検出部
120 状態監視部
130 履歴記録部
140 タイマ
150 切替判定部
200、201 CPU
300、301、302 メモリ
400 ブリッジ
501、502 セレクタ

Claims (10)

  1. 監視対象装置における障害の発生の有無を監視する監視装置であって、
    監視対象装置に含まれる複数部位と自装置とを接続する第1の接続手段と、
    前記複数の部位間を接続するバスと自装置とを接続する第2の接続手段と、
    前記第2の接続手段による接続を通じて前記バスを介するデータ送信の開始が検出された場合に、前記第1の接続手段による接続を通じて通知される情報に基づいて前記データ送信の送信元の部位と送信先の部位を特定する状態監視手段と、
    前記データ送信における障害を検出した場合に、前記状態監視手段によって特定された前記送信元の部位と前記送信先の部位の間を障害の発生区間として特定する障害検出手段と
    を備えたことを特徴とする監視装置。
  2. 前記障害検出手段が障害の発生区間と特定した区間が冗長化されている場合に、該区間を正常な区間と切り替えるか否かを判定する切替判定手段をさらに備えたことを特徴とする請求項1に記載の監視装置。
  3. 前記障害検出手段が検出した障害情報を履歴情報として記憶する障害履歴記憶手段をさらに備え、
    前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報に基づいて、障害が発生した区間を正常な区間と切り替えるか否かを判定することを特徴とする請求項2に記載の監視装置。
  4. 前記切替判定手段は、前記障害履歴記憶手段に記憶された履歴情報を参照し、障害が発生した区間の障害発生頻度が所定の値よりも小さい場合は、該区間を正常な区間と切り替えずに、処理の再実行をおこなわせることを特徴とする請求項3に記載の監視装置。
  5. 監視対象装置における障害の発生の有無を監視する監視方法であって、
    監視装置が、
    監視対象装置の各部位間を接続するバスと自装置とを接続する接続手段を通じて、前記バスを介するデータ送信の開始を検出するデータ送信検出工程と、
    監視対象装置の各部位と自装置とを接続する接続手段を通じて通知される情報に基づいて前記データ送信の送信元の部位と送信先の部位を特定する送信区間特定工程と、
    前記データ送信における障害を検出した場合に、前記送信区間特定工程において特定された前記送信区間を障害の発生区間として特定する障害区間特定工程と
    を含んだことを特徴とする監視方法。
  6. 前記障害区間特定工程において障害の発生区間と特定された区間が冗長化されている場合に、該区間を正常な区間と切り替えるか否かを判定する切替判定工程をさらに含んだことを特徴とする請求項5に記載の監視方法。
  7. 障害区間特定工程において検出された障害情報を履歴情報として記憶手段に記憶させる障害履歴記憶工程をさらに備え、
    前記切替判定工程は、前記記憶手段に記憶された履歴情報に基づいて、障害が発生した区間を正常な区間と切り替えるか否かを判定することを特徴とする請求項6に記載の監視方法。
  8. 前記切替判定工程は、前記記憶手段に記憶された履歴情報を参照し、障害が発生した区間の障害発生頻度が所定の値よりも小さい場合は、該区間を正常な区間と切り替えずに、処理の再実行をおこなわせることを特徴とする請求項7に記載の監視方法。
  9. 監視対象装置と、前記監視対象装置における障害の発生の有無を監視する監視装置とを備えた情報処理装置であって、
    前記監視装置は、
    監視対象装置に含まれる複数部位と自装置とを接続する第1の接続手段と、
    前記複数の部位間を接続するバスと自装置とを接続する第2の接続手段と、
    前記第2の接続手段による接続を通じて前記バスを介するデータ送信の開始が検出された場合に、前記第1の接続手段による接続を通じて通知される情報に基づいて前記データ送信の送信元の部位と送信先の部位を特定する状態監視手段と、
    前記データ送信における障害を検出した場合に、前記状態監視手段によって特定された前記送信元の部位と前記送信先の部位の間を障害の発生区間として特定する障害検出手段と
    を備えたことを特徴とする情報処理装置。
  10. 前記障害検出手段が障害の発生区間と特定した区間が冗長化されている場合に、該区間を正常な区間と切り替えるか否かを判定する切替判定手段をさらに備えたことを特徴とする請求項9に記載の情報処理装置。
JP2005181114A 2005-06-21 2005-06-21 監視装置、監視方法および情報処理装置 Expired - Fee Related JP4209866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005181114A JP4209866B2 (ja) 2005-06-21 2005-06-21 監視装置、監視方法および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005181114A JP4209866B2 (ja) 2005-06-21 2005-06-21 監視装置、監視方法および情報処理装置

Publications (2)

Publication Number Publication Date
JP2007004296A JP2007004296A (ja) 2007-01-11
JP4209866B2 true JP4209866B2 (ja) 2009-01-14

Family

ID=37689887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005181114A Expired - Fee Related JP4209866B2 (ja) 2005-06-21 2005-06-21 監視装置、監視方法および情報処理装置

Country Status (1)

Country Link
JP (1) JP4209866B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5425720B2 (ja) * 2010-06-21 2014-02-26 株式会社日立システムズ 仮想化環境監視装置とその監視方法およびプログラム

Also Published As

Publication number Publication date
JP2007004296A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
JP5347414B2 (ja) 同期制御装置,情報処理装置及び同期管理方法
JP4387968B2 (ja) 障害検出装置および障害検出方法
JP2006309700A (ja) 動的代替機能を持つ論理集積回路、これを用いた情報処理装置及び論理集積回路の動的代替方法
JP2010205064A (ja) 障害解析のためのトレース装置およびトレース方法
JP4209866B2 (ja) 監視装置、監視方法および情報処理装置
JP5104479B2 (ja) 情報処理装置
JP4629793B2 (ja) 情報処理装置、エラー処理方法
JP4893746B2 (ja) アドレス線故障処理装置、アドレス線故障処理方法、アドレス線故障処理プログラム、情報処理装置およびメモリコントローラ
JP2008015704A (ja) マルチプロセッサシステム
JP4456060B2 (ja) Raid制御装置、raid制御プログラム、raid制御方法
JP6111605B2 (ja) コンピュータシステム、コンピュータシステムの診断方法及び診断プログラム
JP2009075719A (ja) 冗長構成装置及びその自己診断方法
JP4241405B2 (ja) コンピュータシステムおよびi/oリトライ方法ならびにプログラム
JP5011159B2 (ja) システム監視回路を備えた計算機
CN113868000B (zh) 一种链路故障修复方法、系统及相关组件
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
KR100922409B1 (ko) 정보 처리 장치 및 메모리 이상 감시 방법
WO2008062511A1 (fr) Système multiprocesseur
JP2003337758A (ja) 二重化メモリシステム
JP2685061B2 (ja) マイクロ初期診断方式
JP3913221B2 (ja) 情報処理装置
JP2014235503A (ja) 情報処理装置、情報処理システム、ハードディスク障害検知方法、サービス継続方法、ハードディスク障害検知プログラム、サービス継続プログラム
JP2003345676A (ja) 二重化メモリシステム
JP2009037448A (ja) 障害検出装置、障害検出方法及び障害検出プログラム
JP2010044701A (ja) メモリパトロール障害検出システム、メモリパトロール検出障害報告抑止方法、bmc、及び集積回路

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081023

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees