JP3211799B2 - Fc−alの障害情報収集装置、障害情報収集方法および記録媒体 - Google Patents

Fc−alの障害情報収集装置、障害情報収集方法および記録媒体

Info

Publication number
JP3211799B2
JP3211799B2 JP01627299A JP1627299A JP3211799B2 JP 3211799 B2 JP3211799 B2 JP 3211799B2 JP 01627299 A JP01627299 A JP 01627299A JP 1627299 A JP1627299 A JP 1627299A JP 3211799 B2 JP3211799 B2 JP 3211799B2
Authority
JP
Japan
Prior art keywords
information
failure
file
hub
loop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01627299A
Other languages
English (en)
Other versions
JP2000215086A (ja
Inventor
恵子 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP01627299A priority Critical patent/JP3211799B2/ja
Publication of JP2000215086A publication Critical patent/JP2000215086A/ja
Application granted granted Critical
Publication of JP3211799B2 publication Critical patent/JP3211799B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数のコンピュー
タシステム(以下、ノードと記す。)ディスクアレイ装
置がハブ(hub:集線装置)を介してファイバー・チャ
ネル・アービトレイテッド・ループ(Fiber Channel Ar
bitrated Loop、以下FC-ALと記す。)と接続されている
システムにおけるFC-ALの障害情報収集装置および障害
情報収集方法に関する。
【0002】
【従来の技術】複数のノードとアレイ装置がハブを介し
てFC-AL接続されているシステム構成における障害は、
ノードとディスクアレイ装置間をポイント・ツー・ポイ
ント(point-to-point)接続したしシステム構成時の障
害と比べて障害箇所の特定が困難であるが、迅速かつ正
確な障害箇所の特定が必要とされることには相違はな
い。 従来、この種のシステムにおける障害情報収集の
ための診断プログラム起動方式の一例が、特開平4−3
49541号公報に記載されている。この技術は、稼働
中の装置に発生した異常情報を格納するログファイルを
有する診断プログラム起動方式であって、ログファイル
中のログ情報の書き換えを管理するログ情報書き換え管
理手段と、ログファイル全領域の更新を契機としてログ
ファイルの内容を解析するログ情報解析手段と、解析し
たログ情報を参照して診断プログラムを起動する診断プ
ログラム起動手段と、診断結果表示手段とを有すること
を特徴とし、ログファイルに記録されている情報を有効
に活用し早期に装置の異常を発見することを目的とする
ものである。
【0003】
【発明が解決しようとする課題】しかし、この従来技術
には、次のような問題点がある。第1の問題点は、障害
発生時のシステムの情報を収集できないということであ
る。その理由は、ログファイルの全領域の更新を契機に
ログファイルを退避させ、退避したログファイルの内容
を解析し、解析したログ情報を参照して診断プログラム
を起動し実行しているためである。すなわち、障害発生
時に即時に診断プログラムを実行させていないため、障
害発生時のシステムの稼働情報を収集できず、また間欠
障害時のような障害箇所特定が難しいケースにおいては
障害情報を収集できない可能性が高いのである。また、
第2の問題点は、診断プログラムの実行結果の再確認と
その実行結果がログファイル内のどの異常情報に対する
診断結果であるかを把握することができないということ
である。その理由は、診断プログラムの実行結果は表示
されるが、ファイル出力されず、またログファイルの異
常情報と対応づけをしていないためである。
【0004】したがって、この技術においては、検出し
たログファイルの異常情報を解析し、診断すべき装置と
診断プログラムを決定し診断プログラムを起動する手段
は最良なものではあるが、診断プログラムの実行結果を
再確認する必要が生じた場合や、ログファイルの異常情
報と診断プログラムの実行結果との関係を対応づける場
合には、前に行った診断プログラムの実行結果を利用す
ることができない。さらに、第3の問題点は、間欠障害
に対する障害情報の収集を考慮していないということで
ある。その理由は、長時間システムの稼働状況を監視し
障害情報を収集するよう考慮されていないためである。
間欠障害は、固定障害と異なり障害が発生したままでは
ないため、1回の診断プログラムの実行だけでは障害が
発生せず、エラー検出されないケースがあり、障害情報
の精度の低下や保守作業の滞りや保守漏れが起こる可能
性があるのである。したがって、本発明の目的は、障害
発生時のシステムのより詳細な障害情報と稼動情報を自
動収集できるFC-ALの障害情報収集装置、障害情報収集
方法、およびこの方法にかかる処理手順を記録した記録
媒体を提供することにある。また、本発明の他の目的
は、障害箇所特定のために必要な情報を少ない工数で得
ることができるFC-ALの障害情報収集装置、障害情報収
集方法、および、この方法にかかる処理手順を記録した
記録媒体を提供することにある。また、本発明の他の目
的は、間欠障害時にも障害情報を収集できるFC-ALの障
害情報収集装置、障害情報収集方法、および、この方法
にかかる処理手順を記録した記録媒体を提供することに
ある。
【0005】
【課題を解決するための手段】本発明のFC-AL障害情報
収集装置は、複数のノードと複数のディスクアレイ装置
とがハブを介してファイバー・チャネル・アービトレイ
テッド・ループ(FC-AL)接続されたシステムにおける
障害情報収集装置において、前記各ノードは、前記シス
テムまたは該システムに接続されている装置に障害が発
生した場合に採集されるログ情報を管理するためのシス
ログファイルと、FC-AL関連のログ情報やT&Dの実行結果
を管理するためのFC-AL障害情報ファイルと、T&D実行結
果を管理するためのT&D実行結果ファイルと、前記シス
ログファイルの出力内容を監視するシスログ監視モニタ
ーと、該監視によってFC-AL障害のログ情報が存在する
ときは障害ループの閉塞を行って代替ループに切り替え
るループ閉塞モニターと、前記ハブをポート単位に強制
バイパスする機能を有するハブ管理アプリケーション
と、前記ループの切り替え後に、前記ハブ管理アプリケ
ーションを使用して前記障害ループに接続されているノ
ードまたはディスクアレイ装置のうちの一つの接続ポー
トをハブから強制バイパスするハブ制御指示モニター
と、前記ハブ制御指示モニターからの指示によりT&Dの
実行指示をするT&D実行指示モニターと、T&Dを実行しそ
の結果を前記T&D実行結果ファイルに出力するT&D実行手
段と、T&Dの実行結果をチェックしてエラー情報があれ
ば前記FC-AL障害情報ファイルへ出力するT&D実行結果監
視モニターとを有し、前記システムまたは当該システム
に接続されている各種装置に障害が発生した場合には、
前記各種モニターの連携によりハブに接続されている装
置をポート単位にバイパスさせT&Dを実行させて障害情
報を収集する一連の処理を、前記障害ループに接続され
ている全ての前記ノードとディスクアレイ装置について
繰り返し行うことを特徴とする。また、本発明のFC-AL
障害情報収集方法は、複数のノードと複数のディスクア
レイ装置とがハブを介してファイバー・チャネル・アー
ビトレイテッド・ループ(FC-AL)接続されたシステム
における障害情報収集方法において、システムまたは該
システムに接続されている各種装置に障害が発生した場
合に採集されるシスログファイルの出力内容を監視する
手順と、該監視によってFC-AL障害のログ情報が存在す
るときは障害ループの閉塞を行って代替ループに切り替
える手順と、前記ループの切り替え後に、ハブをポート
単位に強制バイパスする機能を有するハブ管理アプリケ
ーションを使用して前記障害ループに接続されているノ
ードまたはディスクアレイ装置のうちの一つの接続ポー
トをハブから強制バイパスする手順と、T&Dを実行する
手順と、T&Dの実行結果をファイルに出力する手順と、T
&Dの実行結果をチェックしてエラー情報があればFC-AL
障害情報ファイルへ出力する手順とを有し、前記システ
ムまたは当該システムに接続されている各種装置に障害
が発生した場合には、前記各種モニターの連携によりハ
ブに接続されている装置をポート単位にバイパスさせT&
Dを実行させて障害情報を収集する一連の処理を前記障
害ループに接続されている全ての前記ノードとディスク
アレイ装置について繰り返し行うことを特徴とする。ま
た、本発明の記録媒体は、上記方法の各手順をコンピュ
ータに実行させるプログラムを記録することを特徴とす
る。本発明では、システムまたは装置に障害が発生した
場合採取されるシステムのログ情報をある一定間隔毎に
監視するシスログ(syslog)監視モニターにより、シス
テムのログ情報内のFC-AL障害のログ情報の有無をチェ
ックし、l当該ログ情報が存在した場合、FC-AL障害情
報ファイルに出力し、障害ループを閉塞するスープ閉塞
モニターへ動作指示する。ループ閉塞モニターは、障害
ループを閉塞し、運用を代替ループに切り替えた後、障
害ループに接続されているノードやディスクアレイ装置
をハブからポート単位で強制バイパスすることを可能に
するハブ制御モニターへ動作指示する。ハブ制御モニタ
ーは、ハブの管理APとインターフェースをとり、障害ル
ープに接続されているノードやディスクアレイ装置のう
ち1装置の接続ポートをハブから強制バイパスし、試験
・診断プログラム(T&D)を投入するT&D実行指示モニタ
ーへ動作指示する。T&D実行指示モニターは、T&Dコマン
ドを投入してT&Dを実行させ、実行結果をT&D実行結果フ
ァイルに出力し、T&Dの実行結果をチェックするT&D実行
結果監視モニターへ動作指示する。T&D実行結果監視モ
ニターは、 T&D実行結果内のT&Dのエラー情報の有無を
チェックし、当該エラー情報が存在した場合は、先のロ
グ情報と対にしてFC-AL障害情報ファイルへ出力した
後、当該エラー情報が存在しない場合は出力しないでFC
-AL障害情報ファイルを削除する。この一連の処理を障
害ループに接続されているノードとディスクアレイ装置
に対して、1装置ずつ順次強制バイパスとT&D実行を繰
り返し行いながら、 全ノードとディスクアレイ装置に
対する処理が終了するまで行う。また、障害ループに接
続されている全ノードとディスクアレイ装置に対する処
理を予め設定しておいたT&D実行回数/時間を満足する
まで繰り返し行う。収集した障害情報は、T&D実行結果
監視モニターにより、 保守センターに自動通報され、
保守員による障害箇所特定作業のために利用する。な
お、本発明における前提条件として、ハブはハブ管理AP
により強制バイパス可能なインテリジェント・ハブを使
用し、また、ハブ管理APは、ハブの各ポート毎の強制バ
イパス機能を有し、イーサネットを介してハブ制御モニ
ターからの強制バイパス指示の受信とハブの制御を可能
とするアプリケーションインターフェースを有している
こととする。
【0006】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。図2は、本発明が適用され
るシステム構成例を示す。本システムは、複数のノード
11n(1≦n 実施形態では3つ)と複数のファイバー・
チャネル・ケーブル(以下、FCケーブルと記す。)12n
(1≦n 実施形態では6本)と、複数のハブ13n(1≦
n 実施形態では4つ)と、複数のディスクアレイ装置1
4n(1≦n 実施形態では5つ)によって構成される。
ノード11nとディスクアレイ装置14n間を接続するチャネ
ル部分は、中間にハブ13nを介するFC-AL接続形態にて構
成され、ハブ13nにはノード11nまたはディスクアレイ装
置14nがFCケーブル12nで接続される。FC-ALは、運用時
に使用する運用ループ15と運用ループ15が障害等により
使用不可となった場合に使用する待機ループ16の二重化
構成で、ノード11nまたはディスクアレイ装置14nは各々
のループ15,16に接続されている。図1を参照すると、
本発明の一実施形態(第1実施形態)であるノード111
の構成が示されており、ソフトウェア(モニターを含
む)と各種ファイルとの関係が明らかにされている。ノ
ード111内のファイルは、システムのログ情報を管理す
るためのsyslogファイル21と、FC-AL関連のログ情報やT
&Dの実行結果を管理するためのFC-AL障害情報ファイル2
2と、システムの構成情報を管理するための構成情報フ
ァイル23と、T&Dの実行結果を管理するためのT&D実行結
果ファイル24と、モニターの制御情報やT&Dの実行・終
了情報や障害情報の収集状況を管理するための制御情報
ファイル25から成る。
【0007】また、ノード111内のソフトウェア(以
下、SWと記す。)は、syslogファイル21の出力内容を監
視するsyslog監視モニター26と、障害ループの閉塞を行
うループ閉塞モニター27と、ループ接続されている装置
を強制バイパス指示する(ハブ管理AP29へのインターフ
ェースである)ハブ制御指示モニター28と、ハブ111を
ポート単位に強制バイパスするハブ管理AP29と、T&Dの
実行指示を行うT&D実行指示モニター2Aと、T&D実行手段
2Bと、T&Dの実行結果の監視や障害情報収集の終了時に
障害情報を自動通報するT&D実行結果監視モニター2Cと
で構成される。SW間とSWとファイル間の関係は図1で示
す通りである。なお、全てのノード11nが、図1に示し
たのと同一のSWとファイルを有する同一構成である。図
3に、本発明を実施する時に使用する各種モニターとT&
Dの制御情報や、T&Dの実行・終了情報や、障害情報の収
集状況を管理するための制御情報ファイル25の構成を示
す。この制御情報ファイル25中のsyslog監視間隔31と、
FC-AL障害メッセージコード32と、T&D終了条件(回数/
時間)33と、T&D名称34と、T&Dエラーコード35とは、予
め保守員や利用者により登録しておく必要がある。sysl
og監視間隔31は、syslog監視モニター26がsyslogファイ
ル21を監視(検索)するタイミングを示す。FC-AL障害
メッセージコード32は、FC-AL関連で障害が発生したこ
とを認識・判断することが可能なコードであり、syslog
監視モニター26がsyslogファイル21の出力内容を基に、
FC-ALの障害情報の有無をチェックする時に使用するキ
ーとなるコードである。
【0008】T&D終了条件(回数/時間)33は、T&D実行
時の終了条件を回数又は時間で示すもので、この条件を
満足した場合に当該FC-ALの障害情報に対するT&Dの実行
を終了させる。T&D名称34は、実行するT&Dの名称を示
す。T&Dエラーコード35は、T&Dの実行結果にエラーが
発生したことを認識・判断することが可能なコードであ
り、T&D実行結果監視モニター2CがT&D実行結果ファイル
24の出力内容を基にT&Dのエラー情報の有無をチェック
する時に使用するキーとなるコードである。また、イン
デックスコード36は、syslog監視モニター26がFC-AL障
害情報ファイル22に出力するFC-AL障害のログ情報と、T
&D実行結果監視モニター2CがT&D実行結果ファイル24か
ら抽出したT&Dのエラー情報とを対にさせFC-AL障害情報
ファイル22に出力する時に使用するキーとなるユニーク
なコードである。このT&Dのエラー情報は、syslog監視
モニター26が抽出したFC-AL障害のログ情報に対するT&D
の実行結果に含まれる。運用ループ(閉塞前)37はルー
プ閉塞前の運用ループを示し、運用ループ(閉塞後)38
はループ閉塞後の運用ループを示す。バイパス装置情報
39はバイパスさせた装置情報(HWパス、スペシャルファ
イル名等)を示す。ハブバイパス状況3Aはループ接続さ
れている全装置に対するバイパスが終了したか否かを示
す。T&D実行回数3BはT&Dの実行回数を示し、ハブ制御指
示モニター28がT&Dは終了したか否かを判断する時に使
用する。T&D実行開始時間3CはT&Dの実行開始時間を示
し、ハブ制御指示モニター28がT&Dは終了しやか否かを
判断する時に使用する。障害情報収集状況3Dは、syslog
監視モニター26が抽出したFC-AL障害のログ情報に対す
る障害情報の収集作業が終了したか否かを示す。
【0009】図4に、本発明を実施する時に各種モニタ
ーにより収集される障害情報のうち、FC-AL障害情報フ
ァイル22の管理項目と管理情報例を示す。収集されるタ
イミングと基となる情報の所在は後述する。FC-AL障害
情報ファイル22は、世代管理を行い、障害情報の収集作
業が終了後、T&D実行結果監視モニター2Cにより保守セ
ンターへ自動通報される。次に図1〜図9を参照して、
本実施形態の動作について詳細に説明する。図1に示し
た各種モニターは、システムが立ち上がると立ち上が
り、動作可能な状態となる。以下、図5〜図9に示すフ
ローチャートを参照しながら、モニター毎の動作を説明
する。図5は、syslog監視モニター26の処理フローを示
す。syslog監視モニター26は、予め保守員や利用者によ
り登録された制御情報ファイル25のsyslog監視間隔31毎
に以下の処理を行う。まず、syslogファイル21の出力内
容を検索し(図5のステップ51)、制御情報ファイル25
からFC-AL障害メッセージコード32を取得し、インデッ
クスコード36を設定し(ステップ52)、取得したFC-AL
障害メッセージコード32と一致するログ情報の有無をチ
ェックする(ステップ53)。その結果、一致するログ情
報を検出すると(ステップ54)、そのログ情報を抽出し
(ステップ55)、構成情報ファイル23から障害装置に対
するHWパスやスペシャルファイル名等の装置情報を取得
し(ステップ56)、ユニークなインデックスコードと障
害装置の装置情報を付加してFC-AL障害情報ファイル22
に出力し(ステップ57)、障害ループを閉塞するために
ループ閉塞モニター27へ動作指示し(ステップ58)、処
理を終了する。一方、取得したFC-AL障害メッセージコ
ード32と一致するログ情報が存在しない場合(ステップ
54)は、FC-AL障害情報ファイル22への出力処理(ステ
ップ55〜57)とループ閉塞モニターへの動作指示(ステ
ップ58)は行わず処理を終了する。
【0010】図6は、ループ閉塞モニター27の処理フロ
ーチャートを示す。ループ閉塞モニター27は、構成情報
ファイル23を検索し運用ループ(障害ループ)情報と代
替パスのループ情報を取得し(ステップ61)、ループ閉
塞実行コマンドにパラメータを指示し(ステップ62)、
制御情報ファイル25の運用ループ(閉塞前)37に閉塞前
の運用ループ(障害ループ)情報をセットし更新し(ス
テップ63)、ループ閉塞実行コマンドを投入する(ステ
ップ64)。そして、ループ閉塞を実行させ(ステップ6
5)、閉塞後の運用ループ(代替パス)情報を制御情報
ファイル25の運用ループ(閉塞後)38にセットし更新し
(ステップ66)、ループ接続されている装置を強制バイ
パス指示するためにハブ制御指示モニター28へ動作指示
し(ステップ67)、処理を終了する。図7は、ハブ制御
指示モニター28の処理フローチャートを示す。ハブ制御
指示モニター28は、制御情報ファイル25を検索し、障害
ループ情報である運用ループ(閉塞前)37とバイパス装
置情報39とハブバイパス状況3AとT&D終了条件(回数/
時間)33とT&D実行回数3BとT&D実行開始時間3Cとを取得
し(ステップ71)、取得したT&D終了条件33とT&D実行
回数3BまたはT&D実行開始時間3Cを基にT&Dの終了条件を
満足しているか否かをチェックする(ステップ72)。そ
の結果、終了条件を満足していない場合は(ステップ7
3)、構成情報ファイル23を検索し、ループ閉塞したル
ープの接続装置のうち取得したバイパス装置情報39の装
置が接続されているポートの次のポートに接続されてい
る装置の情報を取得し(ステップ74)、取得したバイパ
ス装置情報39と次ポートに接続されている装置の情報を
基にバイパスの制御状況をチェックする(ステップ7
5)。
【0011】全装置に対して終了していない場合は(ス
テップ76)、ハブ管理AP29へのインターフェース・パラ
メータを指示し(ステップ77)、ハブ管理AP29へインタ
ーフェースし(ステップ78)、ハブ管理AP29はハブ制御
モニター28からの制御指示によりハブ上のポートを強制
バイパスし(ステップ79)、ハブ管理AP29は制御結果を
戻し(ステップ7A)、制御情報ファイル25のバイパス装
置情報39に強制バイパス指示した装置情報をセットし更
新し(ステップ7B)、T&D実行手段28を機能させるため
にT&D実行指示モニター2Aへ動作指示し(ステップ7
C)、処理を終了する。また、ハブ制御が全装置に対し
て終了した場合は(ステップ76)、制御情報ファイル25
のハブバイパス状況3Aに終了ステータスをセットし更新
し(ステップ7D)、処理を終了する。また、終了条件を
満足した場合は(ステップ73)、制御情報ファイル25の
障害情報収集状況3Dに終了ステータスをセットして更新
し(ステップ7E)処理を終了する。図8は、T&D実行指
示モニター2Aの処理フローチャートを示す。T&D実行指
示モニター2Aは構成情報ファイル23を検索し、障害が発
生した装置のHWパスやスペシャルファイル名等の装置情
報を取得し(図8のステップ81)、制御情報ファイル25
からT&D名称34とインデックスコード36を取得し(ステ
ップ82)、T&D実行コマンドに取得したT&D名称34等のパ
ラメータを指示する(ステップ83)。また、制御情報フ
ァイル25にT&D実行回数(初期値=0 同一名称のT&Dを
繰り返し実行させる場合は+1する)3BとT&D実行開始
時間3Cをセットして更新し(ステップ84)、T&D実行コ
マンドを投入し(ステップ85)、T&D実行手段2Bを機能
させ、その実行結果は取得したインデックスコード36を
付加してT&D実行結果ファイル24に格納し(ステップ8
6)、T&D実行結果を監視するためにT&D実行結果監視モ
ニター2Cへ動作指示して(ステップ87)、処理を終了す
る。図9は、T&D実行結果監視モニター2Cの処理フロー
チャートを示す。T&D実行結果監視モニター2Cは、制御
情報ファイル25からT&Dエラーコード35とインデックス
コード36と障害情報収集状況3Dを取得し(図9のステッ
プ91)、取得した障害情報収集状況3Dを基に、syslog監
視モニター26が抽出したFC-AL障害のログ情報に対する
障害情報の収集状況をチェックする(ステップ92)。そ
の結果、情報収集が終了していない場合は(ステップ9
3)、T&D実行結果ファイル24を検索し(ステップ94)、
取得したT&Dエラーコード35と一致するエラー情報の有
無をチェックする(ステップ95)。
【0012】一致するエラー情報を検出すると (ステ
ップ96)、そのエラー情報を抽出し(ステップ97)、取
得したインデックスコード36をキーにFC-AL障害情報フ
ァイル22を検索し位置づけ(ステップ98)、syslog監視
モニター26が出力した当該ログ情報と対応づけてFC-AL
障害情報ファイル22へ出力し(ステップ99)、T&D実行
結果ファイル24を削除し(ステップ9A)、ループ接続さ
れている次装置を強制バイパスするためにハブ制御指示
モニター28へ動作指示し(ステップ9B)、処理を終了す
る。一方、取得したT&Dエラーコード35と一致するエラ
ー情報が存在しない場合は(ステップ96)、FC-AL障害
情報ファイル22への出力処理(ステップ97〜99)は行わ
ず、T&D実行結果ファイル24を削除し(ステップ9A)、
ハブ制御指示モニター28へ動作指示し(ステップ9B)、
処理を終了する。また、情報収集が終了している場合は
(ステップ93)、FC-AL障害情報ファイル22内の障害情
報を保守センターへ自動通報指示し(ステップ9C)、処
理を終了する。
【0013】次に、本発明の他の実施形態について説明
する。図10を参照すると、本実施形態は図1に示され
た第1実施形態が各ノード11n毎に独立して情報収集を
行うのに対して、ノード17n間で連携をとり、あるノー
ド17nでsyslog監視モニター26がFC-ALの障害情報を検出
した場合には、syslog監視モニター動作指示手段2dが、
他ノード17nへネットワークを介してsyslog監視モニタ
ー26への動作指示を行う。syslog監視モニター26の起動
指示を受けたノード17nでは、第1実施形態におけるの
と同様の処理を開始し、収集したFC-ALの障害情報はネ
ットワークを介して、システム内のあるノード内に、シ
ステムを構成する全ノード17nのFC-ALの障害情報を格納
し管理する。各ノード17nは、ノード17n毎に独立して第
1実施形態と同様の処理を行う他に、他ノード17nでFC-
ALの障害情報を検出した場合は、これを契機に自syslog
ファイル21を監視しFC-ALの障害情報を収集することに
より、障害情報の精度を上げることができる。これは、
特に間欠障害時のような障害情報が収集され難い場合に
は有益である。また、全ノード17nのFC-ALの障害情報
を、あるノード17nで集中管理することにより、保守員
は障害箇所特定を行うために集中管理されているファイ
ルの障害情報のみを参照すればよく、障害情報の検出作
業工数の削減が図れるという点でも本実施形態は優れて
いる。なお、上記FC-AL の障害情報収集方法にかかる処
理手順をプログラミングし、半導体メモリ、磁気ディス
ク等の記録媒体に記録してノードに読み込ませ、実行さ
せるようにしてもよい。
【0014】
【発明の効果】本発明の第1の効果は、システムで障害
が発生した直後に、各種モニターと管理APの連携で自動
的に障害ループを閉塞させ、ループ接続されている全ノ
ードとディスクアレイ装置を被擬と仮定し、1装置ずつ
ハブ上の接続ポートを強制バイパス機能を使用してルー
プから切り離し、T&Dを実行させるという一連の動作を
人手を介することなく順次に行い、障害箇所を特定させ
るために必要な情報を得るようにしたため、障害発生時
のシステムのより詳細な障害情報と稼働情報を自動収集
することができ、保守員によるT&Dの実行作業工数及び
情報収集工数を削減することができるということであ
る。また、第2の効果は、大量のsyslogからFC-ALの障
害情報を別ファイルに抽出・管理し、その情報にT&Dの
実行結果を付加して管理することとしたため、FC-ALの
障害情報を即時に確認することができ、障害情報の検出
作業工数の削減が図れるということである。また、第3
の効果は、一回のT&D実行でエラーが検出されず障害箇
所特定の為に必要な情報が収集できない場合を考慮し
て、予め設定しておいた回数、または時間内でT&Dを複
数回実行させることとしたため、エラーを確実に検出
し、障害情報の精度を上げ、また間欠障害時のような障
害箇所特定が難しいケースにおいても、障害情報が収集
される可能性を高くすることができるということであ
る。また、第4の効果は、収集した障害情報を保守セン
ターに自動通報すれば、保守拠点間にスキルの差がある
場合にも、保守センター内のある高スキルの保守員によ
り送られた障害情報を解析することで高い確率で障害箇
所を特定することが可能となり、その解析結果を基にサ
イトの保守員へ被擬部品の交換等の指示を行うことがで
きるということである。
【図面の簡単な説明】
【図1】 本発明の第1実施形態を示すブロック図。
【図2】 本発明が適用されるシステムを示す図。
【図3】 図1における制御情報ファイル25の内容例を
示す図。
【図4】 図1におけるFC-AL障害情報ファイル22の内
容例を示す図。
【図5】 図1におけるSyslog監視モニター26の処理フ
ローチャート。
【図6】 図1におけるループ閉塞モニター27の処理フ
ローチャート。
【図7】 図1におけるハブ制御指示モニター28の処理
フローチャート。
【図8】 図1におけるT&D実行指示モニター2Aの処理
フローチャート。
【図9】 図1におけるT&D実行結果監視モニタ2Cの処
理フローチャート。
【図10】 本発明の第2実施形態を示すブロック図。
【符号の説明】
11n、17n(1≦n) ノード 12n(1≦n) FCケーブル 13n(1≦n) ハブ 14n(1≦n) ディスクアレイ装置 15 FC-ALケーブル(運用) 16 FC-ALケーブル(待機) 21 syslogファイル 22 FC-AL障害情報ファイル 23 構成情報ファイル 24 T&D実行結果ファイル 25 制御情報ファイル 26 syslog監視モニター 27 ループ閉塞モニター 28 ハブ制御指示モニター 29 ハブ管理AP 2A T&D実行指示モニター 2B T&D実行手段 2C T&D実行結果監視モニター 2D syslog監視モニター動作指示手段
フロントページの続き (56)参考文献 特開 平4−349541(JP,A) 特開 平8−314763(JP,A) 特開 平6−75806(JP,A) 特開 平5−324386(JP,A) 特開 平9−218798(JP,A) 特開 昭60−171561(JP,A) 特開 平8−265369(JP,A) 特開 平10−326242(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 11/22 - 11/36 G06F 13/00 G06F 15/16 - 15/177

Claims (18)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数のノードと複数のディスクアレイ装
    置とがハブを介してファイバー・チャネル・アービトレ
    イテッド・ループ(FC-AL)接続されたシステムにおけ
    る障害情報収集装置において、前記各ノードは、 前記システムまたは該システムに接続されている装置
    障害が発生した場合に採集されるログ情報を管理するた
    めのシスログファイルと、 FC-AL関連のログ情報やT&Dの実行結果を管理するための
    FC-AL障害情報ファイルと、 T&D実行結果を管理するためのT&D実行結果ファイルと、 前記シスログファイルの出力内容を監視するシスログ監
    視モニターと、 該監視によってFC-AL障害のログ情報が存在するときは
    障害ループの閉塞を行って代替ループに切り替えるルー
    プ閉塞モニターと、 前記ハブをポート単位に強制バイパスする機能を有する
    ハブ管理アプリケーションと、前記ループの切り替え後
    に、前記ハブ管理アプリケーションを使用して前記障害
    ループに接続されているノードまたはディスクアレイ装
    置のうちの一つの接続ポートをハブから強制バイパスす
    るハブ制御指示モニターと、 前記ハブ制御指示モニターからの指示によりT&Dの実行
    指示をするT&D実行指示モニターと、 T&Dを実行しその結果を前記T&D実行結果ファイルに出力
    するT&D実行手段と、 T&Dの実行結果をチェックしてエラー情報があれば前記F
    C-AL障害情報ファイルへ出力するT&D実行結果監視モニ
    ターとを有し、前記システムまたは当該システムに接続されている各種
    装置に障害が発生した場合には、前記各種モニターの連
    携によりハブに接続されている装置をポート単位にバイ
    パスさせT&Dを実行させて障害情報を収集する一連の処
    理を、 前記障害ループに接続されている全ての前記ノー
    ドとディスクアレイ装置について繰り返し行うことを特
    徴とするFC-AL障害情報収集装置。
  2. 【請求項2】 前記シスログ監視モニターがFC-ALの障
    害情報を検出した場合には、ネットワークを介して他の
    ノードのシスログ監視モニターへ起動指示を行うシスロ
    グ監視モニター動作指示手段を付加したことを特徴とす
    る請求項1記載のFC-AL障害情報収集装置。
  3. 【請求項3】 前記シスログ監視モニターは、予め設定
    した時間毎に前記シスログファイルを監視し、FC-AL障
    害のログ情報のみを前記FC-AL障害情報ファイルに出力
    することを特徴とする請求項1または請求項2記載のFC
    -AL障害情報収集装置。
  4. 【請求項4】 前記請求項1における一連の処理は、
    め設定した回数または時間だけ継続して行うことを特徴
    とする請求項1ないし請求項3のいずれかに記載のFC-A
    L障害情報収集装置。
  5. 【請求項5】 前記ログ情報と前記請求項1における一
    連の処理で収集したT&Dのエラー情報とを対にして管理
    することを特徴とする請求項1ないし請求項4のいずれ
    かに記載のFC-AL障害情報収集装置。
  6. 【請求項6】 前記請求項1における一連の処理により
    収集した障害情報を前記T&D実行結果監視モニターによ
    り保守センターへ自動通報することを特徴とする請求項
    1ないし請求項5のいずれかに記載のFC-AL障害情報収
    集装置。
  7. 【請求項7】 複数のノードと複数のディスクアレイ装
    置とがハブを介してファイバー・チャネル・アービトレ
    イテッド・ループ(FC-AL)接続されたシステムにおけ
    る障害情報収集方法において、 システムまたは該システムに接続されている各種装置
    障害が発生した場合に採集されるシスログファイルの出
    力内容を監視する手順と、 該監視によってFC-AL障害のログ情報が存在するときは
    障害ループの閉塞を行って代替ループに切り替える手順
    と、 前記ループの切り替え後に、ハブをポート単位に強制バ
    イパスする機能を有するハブ管理アプリケーションを使
    用して前記障害ループに接続されているノードまたはデ
    ィスクアレイ装置のうちの一つの接続ポートをハブから
    強制バイパスする手順と、 T&Dを実行する手順と、 T&Dの実行結果をファイルに出力する手順と、T&Dの実行
    結果をチェックしてエラー情報があればFC-AL障害情報
    ファイルへ出力する手順とを有し、前記システムまたは当該システムに接続されている各種
    装置に障害が発生した 場合には、前記各種モニターの連
    携によりハブに接続されている装置をポート単位にバイ
    パスさせT&Dを実行させて障害情報を収集する一連の
    理を前記障害ループに接続されている全ての前記ノード
    とディスクアレイ装置について繰り返し行うことを特徴
    とするFC-AL障害情報収集方法。
  8. 【請求項8】 前記シスログファイルの出力内容の監視
    によってFC-AL の障害情報を検出した場合に、ネットワ
    ークを介して他のノードへシスログファイルの出力内容
    の監視起動指示を行う手順を付加したことを特徴とする
    請求項7記載のFC-AL 障害情報収集方法。
  9. 【請求項9】 予め設定された時間毎に前記シスログフ
    ァイルを監視し、FC-AL 障害のログ情報のみをFC-AL 障
    害情報ファイルに出力することを特徴とする請求項7ま
    たは8記載のFC-AL 障害情報収集方法。
  10. 【請求項10】 前記請求項7記載の一連の処理は、
    め設定された回数または時間だけ継続されることを特徴
    とする請求項7ないし9のいずれかに記載のFC-AL 障害
    情報収集方法。
  11. 【請求項11】 前記ログ情報と前記請求項7記載の一
    連の処理で収集したT&D のエラー情報とを対にして管理
    することを特徴とする請求項7ないし10のいずれかに
    記載のFC-AL 障害情報収集方法。
  12. 【請求項12】 前記請求項7記載の一連の処理により
    収集した障害情報を保守センターへ自動通報することを
    特徴とする請求項7ないし11のいずれかに記載のFC-A
    L 障害情報収集方法。
  13. 【請求項13】 複数のノードと複数のディスクアレイ
    装置とがハブを介してファイバー・チャネル・アービト
    レイテッド・ループ(FC-AL)接続されたシステムにお
    ける障害情報収集方法におけるシステムまたは当該シス
    テムに接続されている各種装置に障害が発生した場合に
    採集されるシスログファイルの出力内容を監視する手順
    と、 該監視によってFC-AL障害のログ情報が存在するときは
    障害ループの閉塞を行って代替ループに切り替える手順
    と、 前記ループの切り替え後に、ハブをポート単位に強制バ
    イパスする機能を有するハブ管理アプリケーションを使
    用して前記障害ループに接続されているノードまたはデ
    ィスクアレイ装置のうちの一つの接続ポートをハブから
    強制バイパスする手順と、 T&Dを実行する手順と、 T&Dの実行結果をファイルに出力する手順と、T&Dの実行
    結果をチェックしてエラー情報があればFC-AL障害情報
    ファイルへ出力する手順とを有し、前記システムまたは当該システムに接続されている各種
    装置に障害が発生した場合には、前記各種モニターの連
    携によりハブに接続されている装置をポート単位にバイ
    パスさせT&Dを実行させて障害情報を収集する一連の
    理を前記障害ループに接続されている全ての前記ノード
    とディスクアレイ装置について繰り返しコンピュータに
    実行させるプログラムが記録された記録媒体。
  14. 【請求項14】 前記シスログファイルの出力内容の監
    視によってFC-AL の障害情報を検出した場合には、ネッ
    トワークを介して他のノードへシスログファイルの出力
    内容の監視動作指示を行うことを特徴とする請求項13
    記載の記録媒体。
  15. 【請求項15】 予め設定された時間毎に前記シスログ
    ファイルを監視し、FC-AL 障害のログ情報のみをFC-AL
    障害情報ファイルに出力することを特徴とする請求項1
    3または14記載の記録媒体。
  16. 【請求項16】 前記請求項13記載の一連の処理は、
    予め設定された回数または時間だけ継続して行うことを
    特徴とする請求項13ないし15のいずれかに記載の記
    録媒体。
  17. 【請求項17】 前記ログ情報と前記請求項13記載の
    一連の処理で収集したT&D のエラー情報とを対にして管
    理することを特徴とする請求項13ないし16のいずれ
    かに記載の記録媒体。
  18. 【請求項18】 前記請求項13記載の一連の処理に
    り収集した障害情報を保守センターへ自動通報すること
    を特徴とする請求項13ないし17のいずれかに記載の
    記録媒体。
JP01627299A 1999-01-25 1999-01-25 Fc−alの障害情報収集装置、障害情報収集方法および記録媒体 Expired - Fee Related JP3211799B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01627299A JP3211799B2 (ja) 1999-01-25 1999-01-25 Fc−alの障害情報収集装置、障害情報収集方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01627299A JP3211799B2 (ja) 1999-01-25 1999-01-25 Fc−alの障害情報収集装置、障害情報収集方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2000215086A JP2000215086A (ja) 2000-08-04
JP3211799B2 true JP3211799B2 (ja) 2001-09-25

Family

ID=11911920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01627299A Expired - Fee Related JP3211799B2 (ja) 1999-01-25 1999-01-25 Fc−alの障害情報収集装置、障害情報収集方法および記録媒体

Country Status (1)

Country Link
JP (1) JP3211799B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3536829B2 (ja) 2001-06-14 2004-06-14 日本電気株式会社 Fc−alシステムのリンク診断方法及び装置
JP4234730B2 (ja) 2006-05-09 2009-03-04 富士通株式会社 Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム

Also Published As

Publication number Publication date
JP2000215086A (ja) 2000-08-04

Similar Documents

Publication Publication Date Title
US9900226B2 (en) System for managing a remote data processing system
US6904544B2 (en) Method, system, program, and data structures for testing a network system including input/output devices
US6678839B2 (en) Troubleshooting method of looped interface and system provided with troubleshooting function
JP3536829B2 (ja) Fc−alシステムのリンク診断方法及び装置
US5822302A (en) LAN early warning system
US7516352B2 (en) Isolating a drive from disk array for diagnostic operations
US6604137B2 (en) System and method for verification of remote spares in a communications network when a network outage occurs
CN102075368A (zh) 一种业务故障诊断方法、装置和系统
US20080052561A1 (en) Method and system for triggering a protocol analyzer
JP3211799B2 (ja) Fc−alの障害情報収集装置、障害情報収集方法および記録媒体
JPH09205429A (ja) ネットワーク故障診断装置及び故障予測装置並びにその診断及び予測方法
EP0632381B1 (en) Fault-tolerant computer systems
JP3221538B2 (ja) ネットワーク稼動情報収集システム
JP4485344B2 (ja) サーバ装置、障害経路診断方法、および障害経路診断プログラム
JPH0983516A (ja) ネットワーク障害診断装置
KR100506248B1 (ko) 사설 교환시스템에서 링크를 진단하는 방법
JP3166730B2 (ja) 交換機の自動試験装置および交換機の自動試験方法、並びに記録媒体
JP2003132019A (ja) 計算機システムの障害監視方法
CN111752741A (zh) 一种系统性能检测的方法及装置
JP3301383B2 (ja) ネットワークシステムの試験方法とネットワーク試験システム
JPH0955735A (ja) 通信網故障診断システムおよび通信網故障診断方法
JP2001067248A (ja) 障害ログの採取方式及びその方法
JPH06244935A (ja) 電子交換機構成装置の故障診断システム
JPH06282457A (ja) 障害診断起動装置
JP3439365B2 (ja) 転送制御システムのノード障害検出方法およびファイル転送時のノード障害検出方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010619

LAPS Cancellation because of no payment of annual fees