JP4089339B2 - 障害情報表示装置及びプログラム - Google Patents

障害情報表示装置及びプログラム Download PDF

Info

Publication number
JP4089339B2
JP4089339B2 JP2002223066A JP2002223066A JP4089339B2 JP 4089339 B2 JP4089339 B2 JP 4089339B2 JP 2002223066 A JP2002223066 A JP 2002223066A JP 2002223066 A JP2002223066 A JP 2002223066A JP 4089339 B2 JP4089339 B2 JP 4089339B2
Authority
JP
Japan
Prior art keywords
failure
fault
unit
message
display device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002223066A
Other languages
English (en)
Other versions
JP2004062741A (ja
Inventor
英明 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002223066A priority Critical patent/JP4089339B2/ja
Publication of JP2004062741A publication Critical patent/JP2004062741A/ja
Application granted granted Critical
Publication of JP4089339B2 publication Critical patent/JP4089339B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数のユニットから構成されるデータ処理システムの障害情報を表示する障害情報表示技術に関し、特に、障害箇所を視覚的に認識できるようにした障害情報表示技術に関する。
【0002】
【従来の技術】
コンピュータシステムに代表されるデータ処理システムは、CPU、メモリ、IOP、OS、アプリケーションなどの各種ユニットから構成されている。そして、これらのユニットは、一般に、障害復旧を容易に行えるようにするため、自ユニットに障害が発生すると、そのことを示す障害メッセージを障害情報表示装置に対して通知するようにしている。また、障害情報表示装置では、一般に、通知された障害メッセージを、図2(A)のメッセージ表示画面30に示すように、発生順に羅列表示するようにしている。データ処理システムにおいては、或るユニットに障害(根本障害)が発生すると、それに誘発されて上記ユニットと動作上関連する他のユニットに障害(誘発障害)が発生し、多くのユニットから独自の障害メッセージが障害情報表示装置に通知される場合がある。従って、従来の一般的な障害情報表示装置では、非常に多くの障害メッセージが羅列表示されることになる。
【0003】
ところで、障害を復旧する場合は、障害情報表示装置によって表示された障害メッセージに基づいて障害発生元を推定する必要があるが、従来の一般的な障害情報表示装置では、障害メッセージが発生順に羅列表示されるだけでなので、管理者は、表示されている障害メッセージの関連を分析し、障害発生元を推定する必要がある。この推測作業は、管理者の経験やユニットに対する知識によるところが大きいため、経験の浅い者にとっては困難な作業であった。
【0004】
このような問題点を解決するため、特開2001−256032公報に記載されている障害情報表示装置では、通知された各障害メッセージの通知時刻の差分に基づいて、障害メッセージを依存関係のある障害(根本障害と、それによって誘発された誘発障害)に関連するもの同士のグループにグループ分けするようにしている。そして、障害メッセージを表示する際には、障害メッセージをグループ分けして表示するようにしている。
【0005】
【発明が解決しようとする課題】
特開2001−256032公報に記載されている技術によれば、依存関係を有する障害に関連する障害メッセージがグループ化されて表示されるため、障害メッセージを発生順に羅列表示する場合に比較して、障害発生元の推測作業を容易に行うことが可能になる。しかし、上記公報に記載されている障害情報表示装置においても、表示されるのはテキスト形式の障害メッセージであるため、障害発生元を推定するためには、障害メッセージを読み、その内容を理解しなけらばならず、障害発生元の推測作業を短時間で行うことは困難であった。
【0006】
そこで本発明の目的は、視覚的に障害の発生箇所、発生順を認識できるようにすることにより、障害発生元の推測作業を短時間で行えるようにすることにある。
【0007】
【課題を解決するための手段】
本発明の障害情報表示装置は、上記目的を達成するため、
複数のハードウェア要素から構成されるユニットを複数備えたシステムの障害情報を表示する障害情報表示装置であって、
表示装置と、
メッセージバッファと、
一定時間を計測するとタイムアウトするタイマと、
シリアル番号を保持するポインタと、
障害の発生した障害ユニットから該障害ユニットの識別子を含んだ障害メッセージが通知されたとき、前記障害メッセージに受信時刻を付加すると共に前記タイマがタイムアウトしていることを条件にして前記タイマをリセットし、その後、前記受信時刻の付加された障害メッセージに前記ポインタに保持されているシリアル番号を付加して前記メッセージバッファに登録し、前記タイマがタイムアウトしたとき、前記ポインタを更新するグループ化手段と、
シリアル番号が選択されたとき、前記メッセージバッファから前記選択されたシリアル番号と対応付けて登録されている障害メッセージ及び受信時刻を全て検索し、該検索した各障害メッセージに含まれている識別子に基づいて、その識別子によって特定されるユニットを表すと共にそのユニットに障害が発生していることを表す障害オブジェクトを前記表示装置に表示し、更に、前記検索した受信時刻に基づいて前記表示装置に表示された前記障害オブジェクト間に障害の発生順を示す矢印を表示する表示制御手段とを備えている。
【0008】
より具体的には、本発明の障害情報表示装置は、
前記表示制御手段が、前記表示装置に前記障害オブジェクトを表示する際、該障害オブジェクトによって表されるユニットと同種類の正常なユニットそれぞれに対応した、表示属性が前記障害オブジェクトとは異なる正常オブジェクトを、前記障害オブジェクトとの配置関係をユニットの実際の配置関係通りにして前記表示装置に表示する
【0009】
また、本発明の障害情報表示装置は、障害ユニットが複数のサブユニットによって構成されている場合(部品の交換単位がサブユニットである場合)、障害ユニット中のどのサブユニットに障害が発生しているのかを短時間で認識できるようにするため、
前記複数のユニットが、それぞれ自ユニットを構成するハードウェア要素であるサブユニット毎の障害フリップフロップを備え、
前記グループ化手段が、前記メッセージバッファに登録した前記障害ユニットからの障害メッセージに対応付けて前記障害ユニット内の障害フリップフロップの内容を登録し、
前記表示制御手段が、前記表示装置に表示されている障害オブジェクトの1つが選択されたとき、該選択された障害オブジェクトに対応するユニットの構成要素であるサブユニットを表すオブジェクトを、サブユニットの実際の配置関係通りに前記表示装置に表示し、更に、前記選択された障害オブジェクトに対応する障害フリップフロップの内容を前記メッセージバッファから検索し、該検索した障害フリップフロップの内容に基づいて、障害の発生したサブユニットを表すオブジェクトの表示属性と障害の発生していないサブユニットを表すオブジェクトの表示属性とを異なるものにする。
【0010】
また、本発明の障害情報表示装置は、障害メッセージを表示する際、その視認性を高めるため、
前記表示制御手段が、前記メッセージバッファから同じシリアル番号が付加されている障害メッセージ毎に受信時刻が最も古いものを検索して該検索した各障害メッセージを受信時刻が古い順に前記表示装置に表示し、前記表示装置に表示されている障害メッセージの内の1つが選択されたとき、該選択された障害メッセージに付加されていたシリアル番号と同一のシリアル番号が付加されている障害メッセージを前記メッセージバッファから検索し、該検索した障害メッセージを受信時刻が古い順に前記表示装置に表示する
【0011】
【作用】
障害ユニットから通知された障害メッセージは、グループ化手段によって、依存関係を有する障害に起因して発生した障害メッセージ毎のグループにグループ分けされる。表示制御手段は、管理者によって或るグループが選択されると、そのグループ中の各障害メッセージに基づいて、障害の発生した障害ユニットを表すオブジェクト(シンボル)と、障害の発生順を示す表記とを含んだロケーション表示画面を表示する。このロケーション表示画面は、視覚的に障害ユニットや障害の発生順を認識できる形式になっているので、管理者は、短時間で障害発生元(障害に発生順が最も早いユニット)を推定することができる。
【0012】
また、障害ユニットが複数のサブユニット(部品の交換単位)から構成されている場合は、管理者が、障害ユニットに対応するオブジェクトを選択することにより、表示制御手段が、障害ユニットを構成する各サブユニットに対応するオブジェクトをサブユニットの実際の配置関係に則して配置し、且つ障害の発生したサブユニットを表すオブジェクトの表示属性と障害の発生していないサブユニットを表すオブジェクトの表示属性とを異なるものにした下位階層のロケーション表示画面を表示するので、障害の発生しているサブユニットを短時間で認識し、部品交換を短時間で行うことが可能になる。
【0013】
【発明の実施の形態】
次に本発明の実施の形態について図面を参照して詳細に説明する。
【0014】
図1は、本発明の実施例のブロック図であり、障害情報表示装置1と、障害情報の表示対象とするコンピュータ2とから構成されている。
【0015】
コンピュータ2は、CPU群21と、メモリ群22と、IOP群23と、その他のリソース群24とを含んでいる。本実施例においては、CPU群21は、8個のユニットCPU#00〜CPU#07から構成され、メモリ群22は、32個のユニットMMU#00〜MMU#31から構成され、IOP群23は、8個のユニットIOP#00〜IOP#07から構成されているとする。また、本実施例では、上記した各ユニットは、それぞれ複数のサブユニットから構成され、サブユニットが部品の交換単位であるとする。また、各ユニットは、自ユニットに障害が発生した場合、そのことを示す障害メッセージを障害情報表示装置1に通知する機能を有する。更に、各ユニットは、そのユニットを構成する各サブユニット毎の障害フリップフロップを有しており、各障害フリップフロップには、対応するサブユニットの状態(正常、障害)がセットされる。
【0016】
障害情報表示装置1は、コンピュータにより構成される処理部11と、キーボード等の入力部16と、LCD等の表示部17と、記録媒体18とから構成されている。
【0017】
処理部11は、表示制御部12と、グループ化部13と、障害検出部14と、メッセージバッファ15とから構成されている。
【0018】
障害検出部14は、障害の発生した障害ユニットから通知された障害メッセージをグループ化部13に渡す機能等を有する。
【0019】
グループ化部13は、障害検出部14から渡された障害メッセージを、依存関係を有する障害に起因して発生した障害メッセージ毎のグループにグループ分けしてメッセージバッファ15に格納する機能を有する。更に、グループ化部13は、障害検出部14から障害メッセージが渡された場合、OSに対して上記障害メッセージの通知元のユニットを処理対象にした障害処理の開始を指示する機能を有する。OSによる障害処理においては、例えば処理対象にされたユニット内の各障害フリップフロップの内容を読み込む処理が行われ、グループ化部13は、上記障害処理によって読み込まれた各障害フリップフロップの内容を、上記ユニットから送られてきた障害メッセージと関連付けてメッセージバッファ15に格納する。
【0020】
表示制御部12は、デフォルトでは、メッセージバッファ15にグループ分けして格納されている障害メッセージの内の、各グループ中の最初に発生した障害メッセージを発生順に並べたメッセージ表示画面を表示部17に表示する。つまり、デフォルトのメッセージ表示画面においては、根本障害に起因する障害メッセージのみが発生順に表示されることになる。図2(B)にデフォルトのメッセージ表示画面34の一例を示す。
【0021】
また、表示制御部12は、管理者によって或る根本障害に対応する障害メッセージαの下位階層の障害メッセージ(誘発障害に起因する障害メッセージ)を表示することが指示された場合、メッセージバッファ15から上記障害メッセージαと同一グループに属する障害メッセージを全て取り出し、メッセージ表示画面上に上記障害メッセージαと関連付けて表示する。図2(C)に下位階層の障害メッセージを表示したときのメッセージ表示画面36の一例を示す。
【0022】
また、表示制御部12は、管理者によって或る障害メッセージのグループGのロケーション表示画面を表示することが指示された場合、メッセージバッファ15に格納されているグループGの各障害メッセージに基づいて、障害の発生した障害ユニットを表す障害オブジェクト(シンボル)と、障害ユニットと同種類の正常なユニットそれぞれに対応した、表示属性が上記障害オブジェクトとは異なる正常オブジェクトと、障害の発生順を示す表記とを含み、且つ、障害オブジェクトと正常オブジェクトとの配置関係が、ユニットの実際の配置関係に則したものになっているロケーション表示画面を表示部17に表示する。図3(A)にロケーション表示画面40の一例を示す。このロケーション表示画面40には、根本障害(第1障害)が発生したユニットCPU#02、第2障害が発生したユニットMMU#00及び第3障害が発生したユニットIOP#00を表すオブジェクトが、他のユニットと異なる表示属性で表示され、且つ、障害の発生順を示す矢印が表示されている。このようにロケーション表示画面40は、障害の発生したユニット及び障害の発生順をオブジェクト(シンボル)形式で表しているので、短時間で根本障害や障害の誘発関係を認識することができる。
【0023】
更に、表示制御部12は、管理者によってロケーション表示画面40上で障害ユニットを表すオブジェクトが選択された場合、選択された障害ユニットを構成する各サブユニットを表すオブジェクトを、サブユニットの実際の配置関係に則して配置し、且つ障害の発生したサブユニットを表すオブジェクトの表示属性と障害の発生していないサブユニットを表すオブジェクトの表示属性とを異なるものにした下位階層のロケーション表示画面を表示部17に表示する。図3(B)に下位階層のロケーション表示画面50の一例を示す。
【0024】
本実施例では、障害復旧時の部品の交換単位をサブユニットとしたが、もし、部品の交換単位がサブユニットを構成するサブブロックである場合には、表示制御部12は、管理者によって下位階層のロケーション表示画面50上で障害サブユニットを表すオブジェクトが選択された場合、選択された障害サブユニットの構成要素であるサブブロックを表すオブジェクトを、サブブロックの実際の配置関係に則して配置し、且つ障害の発生したサブブロックを表すオブジェクトの表示属性を障害の発生していないサブブロックを表すオブジェクトの表示属性と異なるものにした更に下位階層のロケーション表示画面を表示部17に表示する。図3(C)に更に下位階層のロケーション表示画面60の一例を示す。
【0025】
記録媒体18は、ディスク,半導体メモリ,その他の記録媒体であり、コンピュータからなる処理部11を障害情報表示装置1の一部として機能させるためのプログラムが記録されている。このプログラムは、処理部11によって読み取られ、その動作を制御することで、処理部11上に表示制御部12、グループ化部13、障害検出部14を実現する。
【0026】
【実施例の動作の説明】
次に本実施例の動作を図4〜図6のフローチャートを参照して詳細に説明する。
【0027】
先ず、図4のフローチャートを参照して、障害メッセージの格納処理について説明する。
【0028】
今、例えば、CPU群21の構成要素であるユニットCPU#02に障害(根本障害)が発生し、それに誘発されてメモリ群22の構成要素であるユニットMMU#00に障害(誘発障害)が発生し、更に、ユニットMMU#00の障害に誘発されてIOP群23の構成要素であるユニットIOP#00に障害(誘発障害)が発生したとする。
【0029】
ユニットCPU#02は、自ユニットに障害が発生すると、そのことを示す障害メッセージ「CPU#02 ERROR」を障害情報表示装置1に通知する。この障害メッセージ「CPU#02 ERROR」は、障害情報表示装置1内の障害検出部14で受信され、受信時刻が付加された後、グループ化部13に渡される。
【0030】
グループ化部13は、障害検出部14から受信時刻の付加された障害メッセージ31(「03/15:22:25 CPU#02 ERROR」)が渡されると(図4、H71がYES)、タイマをリセットすると共に、OSに対してユニットCPU#02を処理対象にした障害処理を行うことを指示する(S71)。尚、上記タイマは、障害メッセージをグループ分けのために使用されるものであり、タイマアップする時間を適当なものとしておくことにより、コンピュータ2から通知される障害メッセージを、依存関係を有する障害に起因して発生した障害メッセージ毎のグループにグループ分けすることができる。
【0031】
その後、グループ化部13は、障害メッセージ31にシリアル番号(グループ番号)のポインタが示しているシリアル番号(例えば、#28とする)を付加してメッセージバッファ15に追記する(S72、S73)。また、OSは、ユニットCPU#02内の各障害フリップフロップの値を読み込み、読み込んだ値をグループ化部13に渡す。グループ化部13は、OSから渡されたユニットCPU#02内の各障害フリップフロップの値を、障害メッセージ31に対応付けてメッセージバッファ15に格納する。
【0032】
その後、ユニットCPU#02の障害に誘発されて、ユニットMMU#00に誘発障害が発生したとする。ユニットMMU#00は、自ユニットに障害が発生すると、そのことを示す障害メッセージ「MMU#00 ERROR」を障害情報表示装置1に通知する。障害情報表示装置1内の障害検出部14は、上記障害メッセージに受信時刻を付加してグループ化手段13に渡す。
【0033】
グループ化部13は、タイマがタイムアウトする前に、障害検出部14から受信時刻の付加された障害メッセージ32(「03/15:22:26 MMU#00 ERROR」)が渡されると(H72がNO、H73がYES)、OSに対してユニットMMU#00に対する障害処理を行うことを指示する(S74)。
【0034】
その後、グループ化部13は、障害メッセージ32に、障害メッセージ31に付加したシリアル番号と同一のシリアル番号#28を付加してメッセージバッファ15に追記する(S75、S76)。また、OSは、ユニットMMU#00内の各障害フリップフロップの値を読み込み、読み込んだ値をグループ化部13に渡す。グループ化部13は、OSから渡されたユニットMMU#00内の各障害フリップフロップの値を障害メッセージ32に対応付けてメッセージバッファ15に格納する。
【0035】
その後、ユニットIOP#00に誘発障害が発生すると、ユニットIOP#00は、そのことを示す障害メッセージ「IOP#00 ERROR」を障害情報表示装置1に通知する。障害検出部14は、上記障害メッセージに受信時刻を付加してグループ化部13に渡す。
【0036】
グループ化部13は、タイマがタイムアウトする前に、障害検出部14から受信時刻の付加された障害メッセージ33(「03/15:22:27 IOP#00 ERROR」)が渡されると(H72がNO、H73がYES)、OSに対してユニットIOP#00に対する障害処理を行うことを指示する(S74)。
【0037】
その後、グループ化部13は、障害メッセージ33に、障害メッセージ31,32に付加したシリアル番号と同一のシリアル番号#28を付加してメッセージバッファ15に追記する(S75、S76)。また、OSは、ユニットIOP#00内の各障害フリップフロップの値を読み込み、読み込んだ値をグループ化部13に渡す。グループ化部13は、OSから渡されたユニットIOP#00内の各障害フリップフロップの値を障害メッセージ33に対応付けてメッセージバッファ15に格納する。
【0038】
以上の処理により、ユニットCPU#02に発生した根本障害、ユニットMMU#00に発生した誘発障害、ユニットIOP#00に発生した誘発障害に起因して発生した障害メッセージ31、32、33に同一のシリアル番号#28が付加されてメッセージバッファ15に格納される。同一のシリアル番号が付加されている障害メッセージは、同一グループに属する。
【0039】
その後、タイマがタイムアウトすると、グループ化部13は、シリアル番号のポインタを1つ進めて#29とし(H72はYES、S77)、その後、ステップH71の処理に戻る。グループ化部13は、以上の処理を、管理者によって処理終了が指示されるまで(H74がNOとなるまで)、繰り返し行う。
【0040】
次に、図5のフローチャートを参照してメッセージ表示画面の表示処理について詳細に説明する。
【0041】
今、例えば、シリアル番号#28の付加された障害メッセージ31〜33が、グループ化部13によってメッセージバッファ15に格納されたとする。
【0042】
障害メッセージ31〜33がメッセージバッファ15に格納され、メッセージバッファ15の内容が更新されると(図5、H81がYES)、表示制御部12は、変数iの値を「0」に初期化する(S81)。
【0043】
その後、表示制御部12は、シリアル番号「i(=0)」に対応する縮退アイコンが選択されているか否かを調べる(H82)。メッセージバッファ15の更新時には、縮退アイコンは選択されていないので、ステップH82の判断結果は、NOとなり、ステップS83の処理が行われる。
【0044】
ステップS83においては、メッセージバッファ15から、シリアル番号「0」が付加されている障害メッセージのグループ中の、根本障害に対応する障害メッセージを取り出し、取り出した障害メッセージと、シリアル番号「0」と、縮退アイコンとを対応付けてメッセージ表示画面上に表示する処理が行われる。尚、グループ中に障害メッセージが1つしかない場合には、縮退アイコンは表示しない。
【0045】
その後、表示制御部12は、変数iの値を+1し(S85)、シリアル番号が「1」の障害メッセージのグループに対して同様の処理を行う(H82がNO、S83)。表示制御部12は、変数iの値が、i<(メッセージバッファ15に格納されている障害メッセージのグループのグループ数−1)なる条件を満たしている間、上述した処理を繰り返し行う。これにより、例えば、図2(B)に示すようなメッセージ表示画面34が表示部17に表示される。また、変数iの値が上記した条件を満たさなくなると(H83がNO)、表示制御部12は、ステップH81の処理に戻る。
【0046】
図2(B)に示すメッセージ表示画面34には、根本障害に起因して発生した障害メッセージのみが表示されているが、或るグループ中の全ての障害メッセージを参照したい場合、管理者は、縮退アイコンをクリックする。例えば、シリアル番号#28が付与されているグループ中の障害メッセージを全て参照したい場合は、縮退アイコン341をクリックする。
【0047】
表示制御部12は、縮退アイコン341がクリックされると(図5のH81がYES)、変数iの値を「0」に初期化する(S81)。
【0048】
その後、表示制御部12は、シリアル番号「i(=0)」に対応する縮退アイコンが選択されているか否かを調べる(H82)。この例の場合、シリアル番号#28に対応する縮退アイコン341が選択されているので、ステップH82の判断結果はNOとなる。ステップH82の判断結果がNOとなると、表示制御部12は、メッセージバッファ15から、シリアル番号「0」が付加されている障害メッセージのグループ中の、根本障害に対応する障害メッセージのみを取り出し、取り出した障害メッセージと、シリアル番号「0」と、縮退アイコンとを対応付けてメッセージ表示画面に表示する(S83)。
【0049】
その後、表示制御部12は、変数iの値を+1し(S85)、シリアル番号が「1」の障害メッセージのグループに対して、同様の処理を行う(H82がNO、S83)。以上の処理を変数iの値が、管理者が選択した縮退アイコン341に対応するシリアル番号#28になるまで(H82がYESとなるまで)、繰り返し行う。そして、変数iの値が、縮退アイコン341に対応するシリアル番号#28になると(H82がYES)、メッセージバッファ15から、シリアル番号が#28のグループ中の全ての障害メッセージ31〜33を取り出し、取り出したメッセージ31〜33とシリアル番号#28とを対応付けてメッセージ表示画面上に表示する(S84)。尚、根本障害に対応する障害メッセージ31には、展開アイコン361を対応付けて表示する。更に、表示制御部12は、変数iの値がi<(メッセージバッファ15に格納されている障害メッセージのグループ数−1)の条件を満たしている間(H83がYESの間)、上述した処理を繰り返し行う。そして、変数iの値が上記した条件を満たさなくなると、表示制御部12は、再び、ステップH81の処理を行う。
【0050】
以上の処理により、例えば、図2(C)に示すようなメッセージ表示画面36が表示部17上に表示される。管理者は、障害メッセージ32、33を折り畳みたい場合は、展開アイコン361をクリックする。尚、表示制御部12は、管理者によって動作の終了が指示されるまで(H84がYESとなるまで)、上述した処理を繰り返し行う。
【0051】
次に、図6のフローチャートを参照して、ロケーション表示画面の表示処理について説明する。
【0052】
管理者は、表示部17にメッセージ表示画面が表示されている状態において、或る障害メッセージのグループについてのロケーション表示画面を表示したい場合は、メッセージ表示画面上で、上記或る障害メッセージのグループに付与されているシリアル番号をクリックする。今、例えば、表示部17に図2(B)に示すメッセージ表示画面34が表示されているときに、管理者がシリアル番号#28をクリックしたとする。
【0053】
表示制御部12は、シリアル番号#28がクリックされたことを検出すると(図6、H91がYES)、シリアル番号が選択されているか否かを判断する(H92)。この例の場合、シリアル番号#28が選択されているので、ステップH92の判断結果はYESとなり、ステップS91の処理が行われることになる。
【0054】
ステップS91では、メッセージバッファ15から、シリアル番号#28が付与されているグループ中の障害メッセージ31〜33を全て取り出し、取り出した障害メッセージ31〜33に基づいて、図3(A)に示すような最上位階層のロケーション表示画面40を表示する。このステップS91の処理を詳しく説明すると、次のようになる。
【0055】
先ず、発生順が最初の障害メッセージ31に基づいて、根本障害が発生したユニットの種類がCPUであり、障害ユニットがCPU#02であることを認識する。次に、発生順が第2番目の障害メッセージ32に基づいて、根本障害によって障害が誘発されたユニットの種類がMMUであり、障害ユニットがMMU#00であることを認識する。更に、発生順が第3番目の障害メッセージ33に基づいて、ユニットMMU#00の障害によって障害が誘発されたユニットの種類がIOPであり、障害ユニットがIOP#00であることを認識する。
【0056】
そして、これらの認識結果に基づいて、先ず、根本障害が発生したユニットCPU#02と同種類のユニットCPU#00〜CPU#07を表す8個のオブジェクトをロケーション表示画面の右側に表示する。オブジェクトの配置関係は、実際のユニットCPU#00〜CPU#07の配置関係に則したものになっている。その後、ユニットCPU#00〜CPU#07を表す8個のオブジェクトの内の、根本障害が発生したユニットCPU#02を表すオブジェクトの表示属性を他のオブジェクトと異なるものとする。例えば、他のオブジェクトと表示色を異なるものにしたり、根本障害であることを示す文字列(第1要因)を付加したりする。
【0057】
次に、根本障害によって障害が誘発されたユニットMMU#00と同種類のユニットMMU#00〜MMU#31を表す32個のオブジェクトを、ユニットCPU#00〜CPU#07を表すオブジェクトの左側に表示する。これら32個のオブジェクトの配置関係は、実際のユニットMMU#00〜MMU#31の配置関係に則したものとなっている。その後、ユニットMMU#00〜MMU#31を表す32個のオブジェクトの内の、誘発障害が発生したユニットMMU#00を表すオブジェクトの表示属性を他のオブジェクトと異なるものにする。例えば、他のオブジェクトと表示色を異なるものにしたり、根本原因によって誘発された障害であることを示す文字列(第2要因)を付加したりする。
【0058】
その後、ユニットMMU#00の障害によって障害が誘発されたIOP#00と同種類のユニットIOP#00〜IOP#07を表す8個のオブジェクトを、ユニットMMU#00〜MMU#31を表すオブジェクトの左側に表示する。これら8個のオブジェクトの配置関係は、実際のユニットIOP#00〜IOP#07の配置関係に則したものになっている。その後、ユニットIOP#00〜IOP#07を表す8個のオブジェクトの内の、誘発障害の発生したユニットIOP#00を表すオブジェクトの表示属性を他のユニットと異なるものにする。例えば、他のオブジェクトと表示色を異なるものにしたり、第3番目に発生した障害であることを示す文字列(第3要因)を付加したりする。そして、最後に障害の発生順を示す矢印を配置する。
【0059】
以上の処理により、図3(A)に示すような最上位階層のロケーション表示画面40が表示部17に表示される。この表示により管理者は、障害ロケーション(障害箇所)や、障害の伝搬状況を視覚的に短時間で認識することができる。
【0060】
図3(A)のロケーション表示画面40を見た管理者は、障害が発生した或るユニット(例えば、根本障害の発生したユニットCPU#02)に関する下位階層のロケーション表示画面を見たい場合は、障害ユニットCPU#02を表しているオブジェクトをクリックする。
【0061】
表示制御部12は、障害ユニットCPU#02を表すオブジェクトが選択されると(H91がYES、H92がNO)、図3(B)に示すような下位階層のロケーション表示画面50を表示する(S92)。
【0062】
このステップS92の処理を詳細に説明すると、次のようになる。先ず、選択されたオブジェクトが表しているユニットの種類(CPU)に基づいて、CPU用に予め定められてる画面を表示する。この画面には、CPUを構成する各サブユニットを表すオブジェクトが、サブユニットの実際の配置関係に則して配置されている。その後、表示制御部12は、管理者が最上位階層のロケーション表示画面40を表示させる際に選択したシリアル番号(この例の場合、#28)と、管理者が下位階層のロケーション表示画面50を表示するために選択したユニットCPU#02とに基づいて、メッセージバッファ15から、シリアル番号#28が付されているグループ中に存在するユニットCPU#02内の障害フリップフロップの値を読み込む。そして、読み込んだ障害フリップフロップの値に基づいて、障害の発生しているサブユニットを特定する。その後、障害が発生しているサブユニットを表すオブジェクトの表示属性を他のオブジェクトと異なるものにする。例えば、オブジェクトの表示色を他のオブジェクトと異なるものにする。以上の処理により、図3(B)に示す下位階層のロケーション表示画面50が表示部17に表示される。この表示を見ることにより、管理者は、サブユニットDを交換すれば良いことを短時間で認識することができる。本実施例では、障害復旧時の部品の交換単位をサブユニットとしているので、ロケーション表示画面50より下位階層のロケーション表示画面が表示されることはないが、部品の交換単位がサブユニットを構成するサブブロックである場合には、ロケーション表示画面50上で障害の発生したサブユニットDを表すオブジェクトが選択された場合、図3(C)に示すような更に下位階層のロケーション表示画面60を表示するようにしても良い。
【0063】
【発明の効果】
以上説明したように、本発明の障害情報表示装置は、視覚的に障害ユニットや障害の発生順を認識できるオブジェクト(シンボル)形式のロケーション表示画面を表示するので、短時間で障害発生元(障害の発生順が最も早いユニット)を推定することができる。この結果、経験の浅い管理者であっても、障害の復旧を効率的に短時間で行うことが可能になる。
【0064】
また、本発明の障害情報表示装置は、上位階層のロケーション表示画面において、障害ユニットを表すオブジェクトが選択された場合、上記障害ユニットを構成する各サブユニットを表すオブジェクトを、実際のサブユニットの配置関係に則して配置し、且つ障害の発生したサブユニットを表すオブジェクトの表示属性を他のオブジェクトと異なるものにした下位階層のロケーション表示画面を表示するようにしているので、部品の交換単位がサブユニットである場合、短時間で部品交換を行うことが可能になる。
【0065】
また、本発明の障害情報表示装置は、通常時には、障害ユニットから送られてきた障害メッセージの内、根本障害に起因する障害メッセージのみを表示し、管理者から指示があった場合、誘発障害に起因する障害メッセージも表示するようにしているので、視認性に優れている。
【図面の簡単な説明】
【図1】本発明の実施例のブロック図である。
【図2】メッセージ表示画面の一例を示す図である。
【図3】ロケーション表示画面の一例を示す図である。
【図4】障害メッセージをメッセージバッファに格納する際の処理例を示すフローチャートである。
【図5】メッセージ表示画面を表示する際の処理例を示すフローチャートである。
【図6】ロケーション表示画面を表示する際の処理例を示すフローチャートである。
【符号の説明】
1…障害情報表示装置
11…処理部
12…表示制御部
13…グループ化部
14…障害検出部
15…メッセージバッファ
16…入力部
17…表示部
18…記録媒体
2…コンピュータ
21…CPU群
22…メモリ群
23…IOP群
24…リソース群

Claims (8)

  1. 複数のハードウェア要素から構成されるユニットを複数備えたシステムの障害情報を表示する障害情報表示装置であって、
    表示装置と、
    メッセージバッファと、
    一定時間を計測するとタイムアウトするタイマと、
    シリアル番号を保持するポインタと、
    障害の発生した障害ユニットから該障害ユニットの識別子を含んだ障害メッセージが通知されたとき、前記障害メッセージに受信時刻を付加すると共に前記タイマがタイムアウトしていることを条件にして前記タイマをリセットし、その後、前記受信時刻の付加された障害メッセージに前記ポインタに保持されているシリアル番号を付加して前記メッセージバッファに登録し、前記タイマがタイムアウトしたとき、前記ポインタを更新するグループ化手段と、
    シリアル番号が選択されたとき、前記メッセージバッファから前記選択されたシリアル番号と対応付けて登録されている障害メッセージ及び受信時刻を全て検索し、該検索した各障害メッセージに含まれている識別子に基づいて、その識別子によって特定されるユニットを表すと共にそのユニットに障害が発生していることを表す障害オブジェクトを前記表示装置に表示し、更に、前記検索した受信時刻に基づいて前記表示装置に表示された前記障害オブジェクト間に障害の発生順を示す矢印を表示する表示制御手段とを備えたことを特徴とする障害情報表示装置。
  2. 請求項1記載の障害表示装置において、
    前記表示制御手段が、前記表示装置に前記障害オブジェクトを表示する際、該障害オブジェクトによって表されるユニットと同種類の正常なユニットそれぞれに対応した、表示属性が前記障害オブジェクトとは異なる正常オブジェクトを、前記障害オブジェクトとの配置関係をユニットの実際の配置関係通りにして前記表示装置に表示することを特徴とする障害情報表示装置。
  3. 請求項1または2記載の障害情報表示装置において、
    前記複数のユニットが、それぞれ自ユニットを構成するハードウェア要素であるサブユニット毎の障害フリップフロップを備え、
    前記グループ化手段が、前記メッセージバッファに登録した前記障害ユニットからの障害メッセージに対応付けて前記障害ユニット内の障害フリップフロップの内容を登録し、
    前記表示制御手段が、前記表示装置に表示されている障害オブジェクトの1つが選択されたとき、該選択された障害オブジェクトに対応するユニットの構成要素であるサブユニットを表すオブジェクトを、サブユニットの実際の配置関係通りに前記表示装置に表示し、更に、前記選択された障害オブジェクトに対応する障害フリップフロップの内容を前記メッセージバッファから検索し、該検索した障害フリップフロップの内容に基づいて、障害の発生したサブユニットを表すオブジェクトの表示属性と障害の発生していないサブユニットを表すオブジェクトの表示属性とを異なるものにすることを特徴とする障害情報表示装置。
  4. 請求項1乃至3の何れか1項に記載の障害情報表示装置において、
    前記表示制御手段が、前記メッセージバッファから同じシリアル番号が付加されている障害メッセージ毎に受信時刻が最も古いものを検索して該検索した各障害メッセージを受信時刻が古い順に前記表示装置に表示し、前記表示装置に表示されている障害メッセージの内の1つが選択されたとき、該選択された障害メッセージに付加されていたシリアル番号と同一のシリアル番号が付加されている障害メッセージを前記メッセージバッファから検索し、該検索した障害メッセージを受信時刻が古い順に前記表示装置に表示することを特徴とする障害情報表示装置。
  5. 表示装置、メッセージバッファ、一定時間を計測するとタイムアウトするタイマ及びシリアル番号を保持するポインタを備えたコンピュータを、複数のハードウェア要素から構成されるユニットを複数備えたシステムの障害情報を表示する障害情報表示装置として機能させるためのプログラムであって、
    前記コンピュータを、
    障害の発生した障害ユニットから該障害ユニットの識別子を含んだ障害メッセージが通知されたとき、前記障害メッセージに受信時刻を付加すると共に前記タイマがタイムアウトしていることを条件にして前記タイマをリセットし、その後、前記受信時刻の付加された障害メッセージに前記ポインタに保持されているシリアル番号を付加して前記メッセージバッファに登録し、前記タイマがタイムアウトしたとき、前記ポインタを更新するグループ化手段、
    シリアル番号が選択されたとき、前記メッセージバッファから前記選択されたシリアル番号と対応付けて登録されている障害メッセージ及び受信時刻を全て検索し、該検索した各障害メッセージに含まれている識別子に基づいて、その識別子によって特定されるユニットを表すと共にそのユニットに障害が発生していることを表す障害オブジェクトを前記表示装置に表示し、更に、前記検索した受信時刻に基づいて前記表示装置に表示された前記障害オブジェクト間に障害の発生順を示す矢印を表示する表示制御手段として機能させるためのプログラム。
  6. 請求項5記載のプログラムにおいて、
    前記表示制御手段が、前記表示装置に前記障害オブジェクトを表示する際、該障害オブジェクトによって表されるユニットと同種類の正常なユニットそれぞれに対応した、表示属性が前記障害オブジェクトとは異なる正常オブジェクトを、前記障害オブジェクトとの配置関係をユニットの実際の配置関係通りにして前記表示装置に表示することを特徴とするプログラム。
  7. 請求項5または6記載のプログラムにおいて、
    前記複数のユニットが、それぞれ自ユニットを構成するハードウェア要素であるサブユニット毎の障害フリップフロップを備え、
    前記グループ化手段が、前記メッセージバッファに登録した前記障害ユニットからの障害メッセージに対応付けて前記障害ユニット内の障害フリップフロップの内容を登録し、
    前記表示制御手段が、前記表示装置に表示されている障害オブジェクトの1つが選択されたとき、該選択された障害オブジェクトに対応するユニットの構成要素であるサブユニットを表すオブジェクトを、サブユニットの実際の配置関係通りに前記表示装置に表示し、更に、前記選択された障害オブジェクトに対応する障害フリップフロップの内容を前記メッセージバッファから検索し、該検索した障害フリップフロップの内容に基づいて、障害の発生したサブユニットを表すオブジェクトの表示属性と障害の発生していないサブユニットを表すオブジェクトの表示属性とを異なるものにすることを特徴とするプログラム。
  8. 請求項5乃至7の何れか1項に記載のプログラムにおいて、
    前記表示制御手段が、前記メッセージバッファから同じシリアル番号が付加されている障害メッセージ毎に受信時刻が最も古いものを検索して該検索した各障害メッセージを受信時刻が古い順に前記表示装置に表示し、前記表示装置に表示されている障害メッセージの内の1つが選択されたとき、該選択された障害メッセージに付加されていたシリアル番号と同一のシリアル番号が付加されている障害メッセージを前記メッセージバッファから検索し、該検索した障害メッセージを受信時刻が古い順に前記表示装置に表示することを特徴とするプログラム。
JP2002223066A 2002-07-31 2002-07-31 障害情報表示装置及びプログラム Expired - Fee Related JP4089339B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002223066A JP4089339B2 (ja) 2002-07-31 2002-07-31 障害情報表示装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002223066A JP4089339B2 (ja) 2002-07-31 2002-07-31 障害情報表示装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2004062741A JP2004062741A (ja) 2004-02-26
JP4089339B2 true JP4089339B2 (ja) 2008-05-28

Family

ID=31942935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002223066A Expired - Fee Related JP4089339B2 (ja) 2002-07-31 2002-07-31 障害情報表示装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4089339B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010032701A1 (ja) 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107926A (ja) * 2006-10-23 2008-05-08 Matsushita Electric Works Ltd 駆動制御装置、ロボットコントローラおよび自律移動装置
WO2011046228A1 (ja) 2009-10-15 2011-04-21 日本電気株式会社 システム運用管理装置、システム運用管理方法、及びプログラム記憶媒体
JP5446894B2 (ja) 2010-01-12 2014-03-19 富士通株式会社 ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム
JP5494808B2 (ja) * 2010-08-11 2014-05-21 富士通株式会社 集積回路,障害情報処理方法および障害情報収集装置
JP5637077B2 (ja) 2011-06-08 2014-12-10 富士通株式会社 システムの管理装置、システムの管理方法及びシステムの管理プログラム
WO2014068773A1 (ja) * 2012-11-02 2014-05-08 株式会社日立製作所 情報処理装置及びプログラム
JP6852421B2 (ja) * 2017-01-31 2021-03-31 オムロン株式会社 情報処理装置、情報処理プログラムおよび情報処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010032701A1 (ja) 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program

Also Published As

Publication number Publication date
JP2004062741A (ja) 2004-02-26

Similar Documents

Publication Publication Date Title
US10372722B2 (en) Displaying events based on user selections within an event limited field picker
US10185740B2 (en) Event selector to generate alternate views
US8001481B2 (en) Implementation of an interactive progress bar in a test application environment
US8086970B2 (en) Address range viewer
JP4411929B2 (ja) バックアップ方法、システム、及びプログラム
US6684180B2 (en) Apparatus, system and method for reporting field replaceable unit replacement
US20080195377A1 (en) Method, device, and program product for verifying translation in resource file
US8161399B2 (en) Automated learning system for improving graphical user interfaces
JP2006065845A (ja) 最適化された復元プランの生成
JP2005235176A (ja) 計算機の構成表示方法
JP7262506B2 (ja) 設備について発生した又は発生し得る事象の原因診断の結果を可視化するシステム及び方法
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
JP4089339B2 (ja) 障害情報表示装置及びプログラム
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
US8621276B2 (en) File system resiliency management
JP2005258501A (ja) 障害影響範囲解析システム及び障害影響範囲解析方法及びプログラム
JP2016134721A (ja) 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
US9176954B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium for presenting associated information upon selection of information
JP7268748B2 (ja) 情報分析装置、方法およびプログラム
CN115114086A (zh) 基于磁盘阵列的阵列卷恢复方法、系统、设备及存储介质
JP4665575B2 (ja) 付帯情報書込プログラム、付帯情報書込装置及び付帯情報書込方法
WO2016120989A1 (ja) 管理計算機及びルールの試験方法
JP6636656B2 (ja) 管理システム、管理装置、および管理方法
JP3303215B2 (ja) 通信網障害表示方式
JP2020204869A (ja) 障害解析支援システム、障害解析支援方法、及び、コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080218

R150 Certificate of patent or registration of utility model

Ref document number: 4089339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120307

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120307

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140307

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees