JP2007249741A - 被疑箇所特定装置および処理方法 - Google Patents

被疑箇所特定装置および処理方法 Download PDF

Info

Publication number
JP2007249741A
JP2007249741A JP2006074062A JP2006074062A JP2007249741A JP 2007249741 A JP2007249741 A JP 2007249741A JP 2006074062 A JP2006074062 A JP 2006074062A JP 2006074062 A JP2006074062 A JP 2006074062A JP 2007249741 A JP2007249741 A JP 2007249741A
Authority
JP
Japan
Prior art keywords
suspected
configuration information
score
component
suspected place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006074062A
Other languages
English (en)
Other versions
JP4584853B2 (ja
Inventor
Hiroaki Sato
弘章 佐藤
Koji Yamaguchi
浩二 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006074062A priority Critical patent/JP4584853B2/ja
Priority to US11/492,073 priority patent/US7694179B2/en
Publication of JP2007249741A publication Critical patent/JP2007249741A/ja
Application granted granted Critical
Publication of JP4584853B2 publication Critical patent/JP4584853B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields

Abstract

【課題】 統計的に被疑箇所を判定する場合に,同じ異常について別の被疑箇所を特定できる装置を提供する。
【解決手段】 統計加点計算部12は,エラー情報受信部11が受信したエラー情報の異常内容に関連する部品に統計加点を行い加点テーブル13に設定する。被疑箇所特定部14は,加点テーブル13を参照し,判定対象の統計加点が閾値を超えていれば被疑箇所に特定する。構成情報テーブル18を参照して,この処理の対象が被疑箇所の保守部品であれば,初期値を2倍した閾値を用いて比較する。さらに,次に統計加点が高い部品を第二被疑箇所に特定する。部品切り離し処理部15は被疑箇所の部品を切り離す。構成情報管理部17は,構成情報テーブル18の該当する部品に第二被疑箇所フラグを設定する。
【選択図】 図1

Description

本発明は,コンピュータシステムで異常が生じた場合などに,異常の原因として疑われる箇所(以下,被疑箇所という)を特定する処理技術に関する。詳しくは,あるエラー情報にもとづいて統計的に特定された被疑箇所の部品が交換された後に,再度,同じエラー情報が通知された場合に,被疑箇所または次に被疑箇所と推定される箇所(以下,第二被疑箇所という)を特定する処理技術に関する。
本発明は,コンピュータシステムの,例えばRAS制御(信頼性,可用性,保守性の制御)の障害管理として実施される。
コンピュータシステム内で,例えばバス通信に異常が発生した場合に,バスに接続されたどちら側の部品に原因があるのかを確実に特定できない場合がある。
そのため,エラー情報をもとに統計的に被疑箇所を特定する処理が行われる。この特定処理では,異常内容や部品ごとに加算される重み付けが設定され,通知されたエラー情報の異常情報に関連する箇所に対して所定の重み付けが加算され,所定の閾値を超過した箇所が被疑箇所として特定される。そして,被疑箇所の部品を切り離す処理が行われる。
また,特許文献1の障害監視/通知方式のように,ネットワークの障害管理において,報告するアラーム情報の障害内容ごとに所定の閾値を設け,閾値の規定回数以上に発生した障害内容を管理者に報告して,予防保守実施の判断を行う手法がある。
特開平6−175887号公報
しかし,統計的に被疑箇所を判定する処理では,実際に異常が発生している部品とは異なる部品が特定されてしまうおそれがある。
図8を用いて,統計的に被疑箇所を特定する処理における問題点を説明する。
図8(A)に示すように,コンピュータシステムを構成する部品モジュール(部品M)901および部品モジュール(部品M)903間の2つのバスに,それぞれ制御モジュール(CM)907a,907bが備えられてRAS制御などを行っている。制御モジュール907aで,部品モジュール903−制御モジュール907a間でのバス通信の異常が検出されたとする。ここでは,異常の原因が制御モジュール907a側にあるとする。
被疑箇所判定機能によって,通信ドライバから通知されたエラー情報をもとに,部品モジュール903,制御モジュール907a,バス905aそれぞれに対して所定の重み付けが加算され,加算された重み付けが所定の閾値に達していれば,その部品が被疑箇所として特定される。例えば,部品モジュール903の重み付けが閾値に達していた場合に,部品モジュール903が被疑箇所として特定される。そして,図8(B)に示すように,部品モジュール903が切り離され,新たな保守部品の部品モジュール910が組み込まれる。
しかし,被疑箇所の部品モジュール903を切り離して部品モジュール910を組み込んでも,異常の原因となっている部品は取り除かれていないため,同じエラー情報が通知される。そして,同様の統計加点の処理が行われ,異常に関連する制御モジュール907a,部品モジュール910それぞれに,同様に重み付けが加点される。
そのため,図8(C)に示すように,同じ箇所が被疑箇所として特定され,被疑箇所に新たに組み込まれた部品モジュール910が切り離し処理の対象となってしまう。または,部品モジュール910の組み込み処理中に,制御モジュール907aへのアクセスにおいて異常を検出し,組み込み処理が失敗してしまう。
このように,統計的に被疑箇所を特定する場合は,所定の重み付けが加算されることにより,同じ箇所が被疑箇所として特定されるため,同じ異常を検出するたびに組み込まれた部品モジュールが切り離し対象となって,同一箇所で何度も部品交換を行うような状態が生じてしまう。
本発明は,被疑箇所を統計的に判定し,部品切り離し処理の対象とする場合に,新たな保守部品の組み込み後に同じ異常が通知されたときに,その異常原因と考えられる別の被疑箇所を特定できるような被疑箇所特定装置および処理方法を提供することを目的とする。
本発明は,統計的に特定した被疑箇所の部品を切り離して保守を行った場合に,一定期間はこの被疑箇所に対する被疑箇所判定の閾値を高くする。これによって,異常原因である可能性が高い別の箇所が被疑箇所として特定されることが可能となる。
よって,同じ異常に対して同じ被疑箇所が特定され続けた結果,交換された保守部品の切り離しが繰り返されることを防止し,異常原因である可能性が次に高い箇所(第二被疑箇所)を特定できるようにするものである。
そのため,本発明は,1)保守対象のシステムを構成する部品および当該構成に関する構成情報を記憶する構成情報テーブルと,2)前記部品ごとの統計加点を記憶する加点テーブルと,3)前記システム内のエラー情報を取得し,当該エラーに関連する部品に所定点数を加算して前記加点テーブルに設定する統計加点計算手段と,4)前記加点テーブルの各部品について,当該部品の統計加点が閾値を超過していれば,当該部品を被疑箇所として特定する処理を行い,前記構成情報テーブルを参照して当該部品が前記被疑箇所に組み込まれた保守部品であるときは,前記閾値を所定の程度増加させた被疑箇所用の閾値を用いて前記統計加点と比較する被疑箇所特定手段と,5)前記被疑箇所の特定処理の結果をもとに,前記構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する構成情報管理手段とを備える。
本発明は,保守対象のシステムを構成する部品および構成に関する構成情報を記憶する構成情報テーブルと,部品ごとの統計加点を記憶する加点テーブルとを備える。そして,統計加点計算手段は,システム内のエラー情報を取得し,エラー内容に関連する部品に所定点数を加算して加点テーブルに設定する。
被疑箇所特定手段は,加点テーブルの各部品について,その部品の統計加点が閾値を超過していれば,その部品を被疑箇所として特定する処理を行う。この場合に,構成情報テーブルを参照して,前記処理の対象が,被疑箇所に組み込まれた保守部品である場合に,閾値を所定の程度増加させた被疑箇所用の閾値を生成して前記統計加点と比較する。
その後,構成情報管理手段は,被疑箇所の判定処理の結果をもとに,構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する。被疑箇所情報として,例えば,部品のステータス,被疑フラグなどを用いる。
このように,被疑箇所特定処理において,被疑箇所に組み込まれた保守部品に対する閾値を,他の部品に対する閾値より大きな値(例えば2倍)にすることによって,同じ異常が通知されたときに,既に特定された被疑箇所以外の部品が被疑箇所として特定されやすくなる。
また,本発明において,前記被疑箇所特定手段は,前記加点テーブルに前記閾値を超えている統計加点がある場合に,当該閾値を超える統計加点の次に高い統計加点を持つ部品を第二被疑箇所として特定し,前記構成情報管理手段は,前記構成情報テーブルに,前記第二被疑箇所に特定された部品を示す第二被疑箇所情報を設定する。
被疑箇所の次に異常原因である可能性が高い第二被疑箇所を提示することによって,被疑箇所に対する保守を行う際に,第二被疑箇所に対する注意を喚起して保守準備を行うことができる。
また,前記構成情報管理手段は,被疑箇所に対する保守部品の組み込み処理完了通知を受信した時点から所定時間が経過した場合に,構成情報テーブルに設定された第二被疑箇所情報を削除する。被疑箇所に対する組み込み処理が完了して一定時間内に同じ異常が発生しないならば,被疑箇所の切り離しが正常に行われたと判断できるため,第二被疑箇所の特定が不要となるからである。
また,前記構成情報管理手段は,第二被疑箇所に対する保守部品の組み込み処理完了通知を受信した場合に,構成情報テーブルに設定された第二被疑箇所情報を削除する。完了通知を受信したことにより,第二被疑箇所に対する保守が正常に行われたと判断できるため,第二被疑箇所の特定が不要となるからである。
また,本発明は,上記装置の各処理手段で実行される処理過程を,コンピュータが実行する処理方法である。
また,本発明は,上記各処理手段で実行される処理を,コンピュータに実行させるためのプログラムとして実施することができる。本発明を実施するプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
本発明によれば,統計的に被疑箇所が特定され,その被疑箇所の部品が交換された場合に,新たな保守部品の組み込み処理完了後の一定期間に実行される被疑箇所判定処理において,保守部品が組み込まれた被疑箇所に対する閾値のみを高く設定し,被疑箇所の判定を甘くすることができる。
これによって,同じ異常が通知された場合に,すでに特定されている被疑箇所以外の箇所が新たに特定されることが期待できる。よって,同じ異常に対して同じ被疑箇所が特定され,新たに組み込んだ保守部品が切り離し処理の対象となるという状態が繰り返されることを防止できる。
また,新たに特定された被疑箇所は,異常の原因である可能性が高いため,適切な切り離し処理が早期に実行でき,システムの保守性能の向上が期待できる。
また,本発明によれば,被疑箇所とともに第二被疑箇所を特定し,構成情報テーブルに設定することができる。保守管理者は,被疑箇所に対する保守を行う場合に,次に保守が必要となる可能性がある第二被疑箇所を把握でき,対応する保守部品の準備などの保守作業の効率化を図ることが期待できる。
図1は,本発明の最良の実施形態における構成例を示す図である。
本形態において,本発明にかかる被疑箇所特定装置1は,保守対象となるシステムの制御モジュール(CM)内に備えられる。
被疑箇所特定装置1は,エラー情報受信部11,統計加点計算部12,加点テーブル13,閾値変更部141を備える被疑箇所特定部14,部品切り離し処理部15,部品組み込み処理部16,フラグ設定部171を備える構成情報管理部17,および構成情報テーブル18で構成されている。
加点テーブル13は,部品ごとの統計加点を記憶する記憶手段である。
図2に,加点テーブル13のレコードのデータ構造例を示す。加点テーブル13には,システムを構成するすべての部品モジュールについて,部品モジュールを識別するための部品モジュールID,およびその部品に対して加点された統計加点の累計であるモジュール加点が格納される。ここで,部品モジュールとは,切り離しおよび組み込み処理の単位となる部品の構成要素である。
構成情報テーブル18は,保守対象のコンピュータシステムの部品モジュールの構成情報を記憶する記憶手段である。
図3に,構成情報テーブル18のレコードのデータ構造例を示す。構成情報テーブル18には,すべての部品モジュールについて,部品を特定する部品モジュールID,ステータス,および第二被疑箇所として特定されているか否かを示す第二被疑フラグが格納される。
エラー情報受信部11は,保守対象のシステム内で発生した異常を示すエラー情報を取得する処理手段である。
統計加点計算部12は,エラー情報受信部11が取得したエラー情報をもとに,関連する部品モジュールに対して所定の統計加点を加算し,加算結果を加点テーブル13に格納する。統計加点は,異常内容,部品モジュール種別ごとに,それぞれ異なる値が設定されている。
被疑箇所特定部14は,加点テーブル13に記憶されている各部品について,そのモジュール加点を所定の閾値と比較し,閾値を超えた統計加点を持つ部品モジュールを被疑箇所とする処理手段である。
閾値変更部141は,構成情報テーブル18を参照して,被疑箇所特定処理の対象が,被疑箇所に組み入れられた保守部品である場合に,閾値を所定の程度増加させる処理手段である。例えば,閾値の初期値を2倍にする。
具体的には,被疑箇所特定部14は,加点テーブル13に記憶されている各部品モジュールのモジュール加点を,所定の閾値と比較して,閾値を超えている部品を被疑箇所と特定する。この場合に,判定対象の部品が,被疑箇所に組み込まれた保守部品であれば,閾値変更部141で変更された閾値を用いて比較する。そして,モジュール加点が閾値を超えていれば,その部品モジュールを被疑箇所として特定する。
さらに,被疑箇所特定部14は,加点テーブル13に閾値を超えるモジュール加点が存在している場合に,次に高いモジュール加点を持つ部品モジュールを第二被疑箇所として特定する。被疑箇所および第二被疑箇所に特定された部品モジュールIDは,部品切り離し処理部15へ通知される。
部品切り離し処理部15は,被疑箇所として通知された部品モジュールに対する部品切り離し処理を行う処理手段である。
部品組み込み処理部16は,被疑箇所に対する保守部品の部品組み込み処理を行う処理手段である
構成情報管理部17は,構成情報テーブル18を管理する処理手段である。
構成情報管理部17は,部品切り離し処理部15から,被疑箇所として切り離された部品モジュールIDが通知されると,構成情報テーブル18の該当する部品モジュールのステータスに「故障」を設定する。また,部品組み込み処理部16から,被疑箇所への部品組み込み処理の失敗が通知されると,第二被疑フラグが設定されている部品モジュールのステータスに「警告」を設置する。また,被疑箇所への保守部品の部品組み込み処理の完了が通知されると,組み込まれた保守部品に関する情報を取得して構成情報テーブル18に追加する。
フラグ設定部171は,構成情報テーブル18の第二被疑フラグの付与または削除を行う処理手段である。
フラグ設定部171は,部品切り離し処理部15から,第二被疑箇所として特定された部品モジュールIDが通知されると,構成情報テーブル18の該当する部品モジュールの第二被疑フラグにフラグを設定する。
図4を用いて,本発明の処理を説明する。
図4は,被疑箇所特定装置1が処理対象とするコンピュータシステムの部品モジュール構成の一部を示す図である。
システムを構成する部品モジュール(M)101,103,105は,例えばPCIなどでそれぞれ接続され,部品モジュール101および部品モジュール103の間に制御モジュール(CM)107,部品モジュール105および部品モジュール103の間に制御モジュール(CM)109が,それぞれ設けられているとする。
図4(A)のシステムの制御モジュール107−部品モジュール103間の通信で異常が発生したとする。制御モジュール107側に異常原因があると仮定する。
被疑箇所特定装置1のエラー情報受信部11が,通信ドライバからエラー情報を受信すると,統計加点計算部12は,エラー情報から,関連する部品モジュール103,制御モジュール107に対して,所定の統計加点を加算して加点テーブル13に格納する。エラー情報の異常内容から,部品モジュール103に対する統計加点が,制御モジュール107に対する統計加点より大きいとする。
閾値変更部141は,構成情報テーブル18を参照して,第二被疑フラグが設定されているか否かをチェックする。ここでは,新たに生じた異常であるので,構成情報テーブル18には第二被疑フラグが設定されていないため,閾値変更部141は,閾値の変更を行わない。
被疑箇所特定部14は,加点テーブル13から,部品モジュール103と制御モジュール107のモジュール加点が閾値を超えるかどうかを判定する。部品モジュール103のモジュール加点が閾値を超過していれば,部品モジュール103が被疑箇所として特定される。そして,次に統計加点が高い制御モジュール107が第二被疑箇所として特定される。
図4(B)に示すように,部品切り離し処理部15は,被疑箇所として特定された部品モジュール103の切り離し処理を行い,部品組み込み処理部16は,交換部品である部品モジュール113の組み込み処理を行う。
構成情報管理部17は,構成情報テーブル18の部品モジュール103のステータスを「故障」とし,部品モジュール113を構成情報に追加する。また,構成情報テーブル18の制御モジュール107に第二被疑フラグを立てる。
ここで,異常の原因は制御モジュール107であるから,部品モジュール113の組み込み処理が終了した後も,エラー情報が通知される。統計加点計算部12は,同様に,部品モジュール113,制御モジュール107に対して統計加点の加算を行う。
閾値変更部141は,構成情報テーブル18を参照すると,制御モジュール107に第二被疑フラグが設定されているので,部品モジュール113の閾値を2倍にする。被疑箇所特定部14は,被疑箇所に特定された部品モジュール103の保守部品である部品モジュール113のモジュール加点に対してのみ,2倍に変更された閾値を用いて判定処理を行う。制御モジュール107のモジュール加点に対する判定処理では,通常の閾値を用いる。その結果,部品モジュール113のモジュール加点は,2倍となっている閾値を超えず,制御モジュール107のモジュール加点が閾値を超えていることが期待できる。
そして,被疑箇所特定部14は,今回の判定では制御モジュール107を被疑箇所として特定する。部品切り離し処理部15は,被疑箇所として通知された制御モジュール107の切り離し処理を行う。
または,最初に被疑箇所に特定された部品モジュール103の保守部品である部品モジュール113の組み込み処理に失敗したとする。部品切り離し処理部15は,第二被疑箇所として特定された制御モジュール107のステータスの変更依頼を構成情報管理部17に送る。
構成情報管理部17は,構成情報テーブル18の制御モジュール107のステータスを「警告」に変更する。その結果,保守管理者は,構成情報テーブル18の設定から,次に被疑箇所に特定される可能性が高い制御モジュール107を,より早く知ることができる。
図5〜図7に,本発明の処理フロー例を示す。
図5は,新たなエラーを検出した場合に被疑箇所の部品モジュールを切り離す処理の処理フローを示す図である。
被疑箇所特定装置1のエラー情報受信部11は,通信ドライバからエラー情報を受信する(ステップS1)。エラー情報には,エラー内容,通信相手先の部品モジュールID,通信経路などが含まれている。
統計加点計算部12は,エラー情報をもとに,エラーに関連する部品モジュールを決定し,加点テーブル13の該当する部品モジュールのモジュール加点に,所定の統計加点を加算する(ステップS2)。
被疑箇所特定部14は,被疑箇所特定処理を行う(ステップS3)。被疑箇所特定処理の詳細は,後述する。
被疑箇所特定部14は,被疑箇所特定処理において,閾値th1を超えるモジュール加点を持つ部品モジュールがあれば,部品切り離し処理部15へ切り離し依頼を通知する(ステップS4のYES)。切り離し依頼には,被疑箇所として特定された部品モジュールID,切り離し要因(統計値),第二被疑箇所に特定された部品モジュールがあればその部品モジュールIDなどの情報が含まれる。
部品切り離し処理部15は,切り離し依頼を受けて,被疑箇所の部品モジュールの部品切り離し処理を行う(ステップS5)。具体的には,通信ドライバへ該当する部品モジュールの閉塞を通知し,部品モジュールをハード的にリセットするなどの処理を行う。さらに,被疑箇所の部品モジュールを切り離した後,構成情報管理部17へ,切り離した部品モジュールID,第二被疑箇所の部品モジュールIDを通知する。なお,さらにホストなどへ部品故障を通知してもよい。
構成情報管理部17は,切り離された部品モジュールIDをもとに,構成情報テーブル18の該当する部品モジュールのステータスに「故障」を設定する。
また,フラグ設定部171は,第二被疑箇所に特定された部品モジュールIDをもとに,構成情報テーブル18の該当する部品モジュールIDに第二被疑フラグを設定する(ステップS6)。
構成情報管理部17は,更新された構成情報テーブル18の構成情報を,全ての制御モジュールへ配信する(ステップS7)。
図6に,ステップS3の被疑箇所特定処理の処理フローを示す。
被疑箇所特定部14は,初期値として,被疑箇所判定用の「閾値th1」=128,切り離し処理の対象となる部品モジュールIDを格納する変数「切り離しMid」=0xFF,第二被疑箇所判定用の「閾値th2」=0,第二被疑箇所に特定する部品モジュールIDを格納する変数「第二被疑Mid」=0xFFを設定する(ステップS30)。
そして,システムを構成するすべての部品モジュールについて被疑箇所特定処理が完了するまで,以下のステップS31〜ステップS37の処理を繰り返す。
まず,閾値変更部141は,構成情報テーブル18を参照して,被疑箇所特定処理の対象となっている部品モジュール(以下,対象モジュールという)の構成情報に第二被疑フラグが立っていれば,閾値th1を2倍(=256)にする(ステップS31)。
対象モジュールのモジュール加点(対象モジュール加点)と閾値th1とを比較する(ステップS32)。対象モジュール加点が閾値th1より小さければ(閾値th1>対象モジュール加点),閾値th2と対象モジュール加点とを比較する(ステップS33)。対象モジュール加点が閾値th2以上であって(閾値th2<=対象モジュール加点),かつ,対象モジュール加点が0でなければ(対象モジュール加点≠0),閾値th2に対象モジュール加点を設定し,第二被疑Midに対象モジュールIDを格納する(ステップS34)。
一方,ステップS32の比較処理で,対象モジュール加点が閾値th1以上であれば(閾値th1<=対象モジュール加点),さらに,切り離しMidの値をチェックする(ステップS35)。切り離しMidにモジュールIDが格納され,登録済みであれば(切り離しMid≠0xFF),閾値th2に閾値th1を設定し,第二被疑Midに切り離しMidの値を格納する(ステップS36)。
切り離しMidにモジュールIDが格納されておらず,未登録であれば(切り離しMid=0xFF),閾値th1に対象モジュール加点を設定し,切り離しMidに対象モジュールIDを格納する(ステップS37)。
すべての対象モジュールについて,ステップS31〜ステップS37の処理が行われていれば,処理を終了する。
被疑箇所特定部14は,処理の結果,切り離しMidに格納されている対象モジュールID(部品モジュールID)を被疑箇所と特定し,第二被疑Midに格納されている対象モジュールID(部品モジュールID)を第二被疑箇所と特定する。切り離しMidに対象モジュールIDが格納されていない場合には,第二被疑箇所を特定しない。
図7は,被疑箇所に保守部品(新たな部品モジュール)を組み込む処理の処理フローを示す図である。
システム制御部の活性保守機能などによって保守部品の組み込みが検出されると(ステップS50),部品組み込み処理部16は,部品組み込み処理を行う(ステップS51)。具体的には,通信ドライバに通信可能を通知し,制御情報の転写などを行う。
部品組み込み処理部16は,部品組み込み処理が成功したか否かを判定する(ステップS52)。部品組み込み処理が成功した場合には,構成情報管理部17は,構成情報テーブル18の該当する部品モジュールのステータスを「正常」に変更し,全ての制御モジュールへ構成情報を配信する(ステップS53)。さらに,所定の部品組み込み後処理を行う(ステップS54)。なお,部品組み込み後処理は既知の処理を行えばよい。
フラグ設定部171は,部品組み込み処理の完了通知を受信すると,閾値変更監視タイマを起動し,一定時間(1時間)の経過後に,構成情報テーブル18に設定されている第二被疑フラグを削除する(ステップS55)。
一方,ステップS52の処理で,保守部品の組み込み処理を失敗と判定した場合には,部品切り離し処理部15は,組み込み失敗通知を受信して,部品切り離し処理を行う(ステップS56)。そして,構成情報管理部17に,構成情報テーブル18の構成情報の変更依頼と,第二被疑フラグが設定された部品モジュールのステータスを「警告」に変更する依頼とを通知する(ステップS57)。
構成情報管理部17は,構成情報テーブル18の組み込まれた部品モジュールのステータスを「故障」に変更し,第二被疑フラグが設定された部品モジュールのステータスに「警告」を設定する(ステップS58)。そして,全ての制御モジュールへ構成情報を配信する(ステップS59)。その後,部品切り離し処理部15は,所定の部品切り離し後処理を行う(ステップS510)。
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。例えば,構成情報テーブル18において,被疑箇所を特定する被疑箇所情報として「故障」ステータスを利用し,第二被疑箇所を示す情報として第二被疑フラグが設定される処理例を説明した。しかし,被疑箇所情報として被疑箇所フラグが設定されるデータ構造であってもよい。この場合に,フラグ設定部171が,被疑箇所フラグの設定を行う。
また,被疑箇所特定装置は,複数のシステム制御部が設けられているシステムにおいては,各システム制御部内に構成される。この場合には,1つの被疑箇所特定装置が,マスタとして,全ての部品モジュールの構成情報を管理し,他のシステム制御部へ構成情報を配信する。
本発明の形態および実施例の特徴を列記すると以下のとおりである。
(付記1) 保守対象のシステムを構成する部品および当該構成に関する構成情報を記憶する構成情報テーブルと,
前記部品ごとの統計加点を記憶する加点テーブルと,
前記システム内のエラー情報を取得し,当該エラーに関連する部品に所定点数を加算して前記加点テーブルに設定する統計加点計算手段と,
前記加点テーブルの各部品について,当該部品の統計加点が閾値を超過していれば,当該部品を被疑箇所として特定する処理を行い,前記構成情報テーブルを参照して前記部品が前記被疑箇所に組み込まれた保守部品であるときは,前記閾値を所定の程度増加させた被疑箇所用の閾値を用いて前記統計加点と比較する被疑箇所特定手段と,
前記被疑箇所の特定処理の結果をもとに,前記構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する構成情報管理手段とを備える
ことを特徴とする被疑箇所特定装置。
(付記2) 前記被疑箇所特定手段は,前記加点テーブルに前記閾値を超える統計加点がある場合に,当該閾値を超える統計加点の次に高い統計加点を持つ部品を第二被疑箇所として特定し,
前記構成情報管理手段は,前記構成情報テーブルに,前記第二被疑箇所に特定された部品を示す第二被疑箇所情報を設定する
ことを特徴とする前記付記1に記載の被疑箇所特定装置。
(付記3) 前記構成情報管理手段は,前記被疑箇所に対する保守部品の組み込み処理完了通知を受信した時点から所定時間が経過した場合に,前記構成情報テーブルに設定された前記第二被疑箇所情報を削除する
ことを特徴とする前記付記1または前記付記2のいずれか一項に記載の被疑箇所特定装置。
(付記4) 前記構成情報管理手段は,前記第二被疑箇所に対する保守部品の組み込み処理完了通知を受信した場合に,前記構成情報テーブルに設定された前記第二被疑箇所情報を削除する
ことを特徴とする前記付記3に記載の被疑箇所特定装置。
(付記5) 前記構成情報管理手段は,前記被疑箇所に対する保守部品の組み込み処理の失敗通知を受信した場合に,前記構成情報テーブルの第二被疑箇所情報に関連する部品のステータスに警告を設定する
ことを特徴とする前記付記3に記載の被疑箇所特定装置。
(付記6) 保守対象のシステムを構成する部品および当該構成に関する構成情報を記憶する構成情報テーブルと,前記部品ごとの統計加点を記憶する加点テーブルとを備えたコンピュータが実行する処理方法であって,
前記システム内のエラー情報を取得し,当該エラーに関連する部品に所定点数を加算して前記加点テーブルに設定する処理過程と,
前記加点テーブルの各部品について,当該部品の統計加点が閾値を超過していれば,当該部品を被疑箇所として特定する処理を行い,前記構成情報テーブルを参照して当該部品が前記被疑箇所に組み込まれた保守部品であるときは,前記閾値を所定の程度増加させた被疑箇所用の閾値を用いて前記統計加点と比較する処理過程と,
前記被疑箇所の特定処理の結果をもとに,前記構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する処理過程とを備える
ことを特徴とする被疑箇所特定処理方法。
(付記7) コンピュータに,
保守対象のシステムを構成する部品および当該構成に関する構成情報が格納される構成情報テーブルを記憶する処理と,
前記部品ごとの統計加点が格納される加点テーブルを記憶する処理と,
前記システム内のエラー情報を取得し,当該エラーに関連する部品に所定点数を加算して前記加点テーブルに設定する処理と,
前記加点テーブルの各部品について,当該部品の統計加点が閾値を超過していれば,当該部品を被疑箇所として特定する処理を行い,前記構成情報テーブルを参照して当該部品が前記被疑箇所に組み込まれた保守部品であるときは,前記閾値を所定の程度増加させた被疑箇所用の閾値を用いて前記統計加点と比較する処理と,
被疑箇所の特定処理の結果をもとに,前記構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する処理とを
実行させるための被疑箇所特定プログラム。
本発明の最良の実施形態における構成例を示す図である。 加点テーブルのデータ構造例を示す図である。 構成情報テーブルのデータ構造例を示す図である。 本発明の処理を説明するための図である。 新たなエラーを検出した場合に被疑箇所の部品モジュールを切り離す処理の処理フローを示す図である。 被疑箇所特定処理の処理フローを示す図である。 被疑箇所に保守部品(新たな部品モジュール)を組み込む処理の処理フローを示す図である。 統計的に被疑箇所を特定する処理における問題点を説明するための図である。
符号の説明
1 被疑箇所特定装置
11 エラー情報受信部
12 統計加点計算部
13 加点テーブル
14 被疑箇所特定部
141 閾値変更部
15 部品切り離し処理部
16 部品組み込み処理部
17 構成情報管理部
171 フラグ設定部
18 構成情報テーブル

Claims (5)

  1. 保守対象のシステムを構成する部品および当該構成に関する構成情報を記憶する構成情報テーブルと,
    前記部品ごとの統計加点を記憶する加点テーブルと,
    前記システム内のエラー情報を取得し,当該エラーに関連する部品に所定点数を加算して前記加点テーブルに設定する統計加点計算手段と,
    前記加点テーブルの各部品について,当該部品の統計加点が閾値を超過していれば,当該部品を被疑箇所として特定する処理を行い,前記構成情報テーブルを参照して当該部品が前記被疑箇所に組み込まれた保守部品であるときは,前記閾値を所定の程度増加させた被疑箇所用の閾値を用いて前記統計加点と比較する被疑箇所特定手段と,
    前記被疑箇所の特定処理の結果をもとに,前記構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する構成情報管理手段とを備える
    ことを特徴とする被疑箇所特定装置。
  2. 前記被疑箇所特定手段は,前記加点テーブルに前記閾値を超える統計加点がある場合に,当該閾値を超える統計加点の次に高い統計加点を持つ部品を第二被疑箇所として特定し,
    前記構成情報管理手段は,前記構成情報テーブルに,前記第二被疑箇所に特定された部品を示す第二被疑箇所情報を設定する
    ことを特徴とする請求項1に記載の被疑箇所特定装置。
  3. 前記構成情報管理手段は,前記被疑箇所に対する保守部品の組み込み処理完了通知を受信した時点から所定時間が経過した場合に,前記構成情報テーブルに設定された前記第二被疑箇所情報を削除する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の被疑箇所特定装置。
  4. 前記構成情報管理手段は,前記第二被疑箇所に対する保守部品の組み込み処理完了通知を受信した場合に,前記構成情報テーブルに設定された前記第二被疑箇所情報を削除する
    ことを特徴とする請求項3に記載の被疑箇所特定装置。
  5. 保守対象のシステムを構成する部品および当該構成に関する構成情報を記憶する構成情報テーブルと,前記部品ごとの統計加点を記憶する加点テーブルとを備えたコンピュータが実行する処理方法であって,
    前記システム内のエラー情報を取得し,当該エラーに関連する部品に所定点数を加算して前記加点テーブルに設定する処理過程と,
    前記加点テーブルの各部品について,当該部品の統計加点が閾値を超過していれば,当該部品を被疑箇所として特定する処理を行い,前記構成情報テーブルを参照して当該部品が前記被疑箇所に組み込まれた保守部品であるときは,前記閾値を所定の程度増加させた被疑箇所用の閾値を用いて前記統計加点と比較する処理過程と,
    前記被疑箇所の特定処理の結果をもとに,前記構成情報テーブルに,前記被疑箇所に特定された部品を示す被疑箇所情報を設定する処理過程とを備える
    ことを特徴とする被疑箇所特定処理方法。
JP2006074062A 2006-03-17 2006-03-17 被疑箇所特定装置および処理方法 Expired - Fee Related JP4584853B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006074062A JP4584853B2 (ja) 2006-03-17 2006-03-17 被疑箇所特定装置および処理方法
US11/492,073 US7694179B2 (en) 2006-03-17 2006-07-25 Suspected place identifying apparatus and processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006074062A JP4584853B2 (ja) 2006-03-17 2006-03-17 被疑箇所特定装置および処理方法

Publications (2)

Publication Number Publication Date
JP2007249741A true JP2007249741A (ja) 2007-09-27
JP4584853B2 JP4584853B2 (ja) 2010-11-24

Family

ID=38517970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006074062A Expired - Fee Related JP4584853B2 (ja) 2006-03-17 2006-03-17 被疑箇所特定装置および処理方法

Country Status (2)

Country Link
US (1) US7694179B2 (ja)
JP (1) JP4584853B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010137063A1 (ja) * 2009-05-26 2010-12-02 株式会社日立製作所 管理サーバ及び管理システム
WO2012032676A1 (ja) * 2010-09-09 2012-03-15 株式会社日立製作所 計算機システムの管理方法、及び管理システム
EP2608034A1 (en) 2011-12-20 2013-06-26 Fujitsu Limited Information processing apparatus and operation status monitoring method
US8819220B2 (en) 2010-09-09 2014-08-26 Hitachi, Ltd. Management method of computer system and management system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082687A1 (en) * 2006-09-28 2008-04-03 Ryan Kirk Cradick Method, system, and computer program product for implementing collaborative correction of online content
JP2012014574A (ja) * 2010-07-02 2012-01-19 Fujitsu Ltd ストレージ装置、構成情報保存方法および構成情報保存プログラム
US11797422B2 (en) * 2020-10-12 2023-10-24 Arris Enterprises Llc Cloud controlled bug recovery

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233376A (ja) * 1992-02-21 1993-09-10 Nippon Denki Joho Service Kk 発生傾向値によるターミナルコンピュータ向け障害監視装置
JPH06175887A (ja) * 1992-12-02 1994-06-24 Hitachi Ltd 障害監視/通知方式
JP2000089981A (ja) * 1998-09-16 2000-03-31 Hitachi Commun Syst Inc 障害発生自動判定方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0630068B2 (ja) 1988-05-11 1994-04-20 株式会社日立製作所 処理装置の予防保全処理方法
US6625745B1 (en) * 1999-03-17 2003-09-23 Hewlett-Packard Development Co.Lp Network component failure identification with minimal testing
US6370659B1 (en) * 1999-04-22 2002-04-09 Harris Corporation Method for automatically isolating hardware module faults
US6678639B2 (en) * 2000-08-04 2004-01-13 Sun Microsystems, Inc. Automated problem identification system
US6598195B1 (en) * 2000-08-21 2003-07-22 General Electric Company Sensor fault detection, isolation and accommodation
US7373382B2 (en) * 2000-10-03 2008-05-13 Sharp Kabushiki Kaisha Electronic apparatus, information communications apparatus, management system for same electronic apparatus, and management method for same electronic apparatus
US6904544B2 (en) * 2001-01-30 2005-06-07 Sun Microsystems, Inc. Method, system, program, and data structures for testing a network system including input/output devices
US6986075B2 (en) * 2001-02-23 2006-01-10 Hewlett-Packard Development Company, L.P. Storage-device activation control for a high-availability storage system
US6834363B2 (en) * 2001-03-22 2004-12-21 International Business Machines Corporation Method for prioritizing bus errors
GB2373607B (en) * 2001-03-23 2003-02-12 Sun Microsystems Inc A computer system
GB2373606B (en) * 2001-03-23 2003-06-04 Sun Microsystems Inc A computer system
JP3587250B2 (ja) * 2001-04-27 2004-11-10 日本電気株式会社 自動障害回復を行う通信装置及び自動障害回復方法
JP3536829B2 (ja) * 2001-06-14 2004-06-14 日本電気株式会社 Fc−alシステムのリンク診断方法及び装置
JP2003271422A (ja) 2002-03-18 2003-09-26 Fujitsu Ltd 予防保守判定処理方法、予防保守判定処理プログラム、および保守管理方法
DE10344460B4 (de) * 2003-09-25 2022-03-24 Zf Cv Systems Hannover Gmbh Verfahren zur Fehlerbehandlung bei elektronischen Steuergeräten
JP2005182647A (ja) 2003-12-22 2005-07-07 Nec Corp 機器の異常検知装置
JP4560367B2 (ja) * 2004-10-05 2010-10-13 株式会社日立製作所 ストレージネットワーク性能情報の収集・保存方法及び計算機システム並びにプログラム
US7523359B2 (en) * 2005-03-31 2009-04-21 International Business Machines Corporation Apparatus, system, and method for facilitating monitoring and responding to error events

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233376A (ja) * 1992-02-21 1993-09-10 Nippon Denki Joho Service Kk 発生傾向値によるターミナルコンピュータ向け障害監視装置
JPH06175887A (ja) * 1992-12-02 1994-06-24 Hitachi Ltd 障害監視/通知方式
JP2000089981A (ja) * 1998-09-16 2000-03-31 Hitachi Commun Syst Inc 障害発生自動判定方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010137063A1 (ja) * 2009-05-26 2010-12-02 株式会社日立製作所 管理サーバ及び管理システム
JP5325981B2 (ja) * 2009-05-26 2013-10-23 株式会社日立製作所 管理サーバ及び管理システム
WO2012032676A1 (ja) * 2010-09-09 2012-03-15 株式会社日立製作所 計算機システムの管理方法、及び管理システム
US8819220B2 (en) 2010-09-09 2014-08-26 Hitachi, Ltd. Management method of computer system and management system
EP2608034A1 (en) 2011-12-20 2013-06-26 Fujitsu Limited Information processing apparatus and operation status monitoring method
US9164824B2 (en) 2011-12-20 2015-10-20 Fujitsu Limited Information processing apparatus and operation status monitoring method

Also Published As

Publication number Publication date
JP4584853B2 (ja) 2010-11-24
US20070217815A1 (en) 2007-09-20
US7694179B2 (en) 2010-04-06

Similar Documents

Publication Publication Date Title
CN107515796B (zh) 一种设备异常监控处理方法及装置
JP4584853B2 (ja) 被疑箇所特定装置および処理方法
US11513935B2 (en) System and method for detecting anomalies by discovering sequences in log entries
US8713350B2 (en) Handling errors in a data processing system
CN105808394B (zh) 一种服务器自愈的方法和装置
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US9021317B2 (en) Reporting and processing computer operation failure alerts
CN109408328A (zh) 一种硬盘健康状态的监测方法、装置以及设备
US7430688B2 (en) Network monitoring method and apparatus
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN113704052B (zh) 一种微服务架构的运维系统、方法、设备及介质
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN103761180A (zh) 一种集群存储中磁盘故障的预防及检测方法
CN112764956B (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
CN109062723A (zh) 服务器故障的处理方法和装置
CN112463492A (zh) 一种内存可纠正错误处理方法、系统、设备以及介质
CN102981939B (zh) 磁盘监控方法
JP5588295B2 (ja) 情報処理装置、および障害復旧方法
CN103824017A (zh) 监控恶意程序的方法和监控平台
CN106557380A (zh) 用于保持服务器稳定的方法及其系统
US7206975B1 (en) Internal product fault monitoring apparatus and method
US20160197994A1 (en) Storage array confirmation of use of a path
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
CN115190046B (zh) 一种服务器集群的检测方法、检测装置及计算设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100121

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100121

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100902

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees