JP2001005739A - データパスにおける障害部位の特定方法および装置 - Google Patents

データパスにおける障害部位の特定方法および装置

Info

Publication number
JP2001005739A
JP2001005739A JP11173665A JP17366599A JP2001005739A JP 2001005739 A JP2001005739 A JP 2001005739A JP 11173665 A JP11173665 A JP 11173665A JP 17366599 A JP17366599 A JP 17366599A JP 2001005739 A JP2001005739 A JP 2001005739A
Authority
JP
Japan
Prior art keywords
failure
data path
storage
controller
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11173665A
Other languages
English (en)
Inventor
Yusuke Hirakawa
裕介 平川
Kenji Yamakami
憲司 山神
Yutaka Takada
豊 高田
Takashi Oeda
高 大枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11173665A priority Critical patent/JP2001005739A/ja
Publication of JP2001005739A publication Critical patent/JP2001005739A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 データパスを構成する装置に故障などの致命
的な障害が発生した場合に、障害が発生した装置を絞り
込む。 【解決手段】 データパスに障害が発生すると、障害が
起きた場所で、信号が喪失もしくは変化する。記憶制御
装置および記憶装置は、信号を受信しない、もしくは変
化した信号を受信することで、データパスの障害を認識
(ステップ300)し、データパスの回復命令を送信す
る(ステップ310)。記憶制御装置は、このデータパ
スの回復命令を監視し(ステップ320〜350)、一
定時間経過しても、障害回復処理が正常に終了しない場
合は、当該データパスの回復命令の発行部位から障害が
発生している可能性のある部位を特定し(ステップ36
0)、保守員に通知する(ステップ370)。保守員
は、記憶システムが特定した部位を調べ、故障している
部位を交換する(ステップ380)。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は、記憶装置システム
のデータパス内の部位に対する障害部位の特定技術に関
する。
【従来の技術】記憶制御装置と複数の記憶装置をリング
状にシリアル接続する接続形態を採用する記憶装置シス
テムが存在する。この接続形態の例は、アメリカン・ナ
ショナル・スタンダード・インスティテユート(ANS
I)X3T11タスクグループのファイバチャネルアー
ビトレイテッドループ(FC−AL)で定義されてい
る。図1を用いてFC−ALの接続形態での通信方式に
ついて説明する。以下、記憶制御装置120および記憶
装置130をまとめてノードと呼ぶ。ノードは、ユニー
クな番号(AL_PA)をもつ。各ノードは接続線15
0でシリアル接続され、接続線150には常に通信プロ
トコルに従った信号が流れている。各ノードが図1に示
すAL_PAをもち、信号の転送方向は、記憶制御装置
120、AL_PA=2の記憶装置130、AL_PA
=3の記憶装置130、AL_PA=4の記憶装置13
0、記憶制御装置120とする。データ転送の説明とし
て、記憶制御装置120がAL_PA=3の記憶装置1
30からデータを読み出す場合について説明する。記憶
制御装置120は、データパスを使用するため、まず、
データパス使用権の取得を行う。データパス使用権を取
得できた後、記憶制御装置120は、リード命令、他の
命令と区別するための番号であるエクスチェンジID、
送信先である命令対象の部位のAL_PA=3、送信元
部位のAL_PA=1等を格納したフレームをデータパ
ス、つまり、AL_PA=2の記憶装置130に送信す
る。ノードはフレームを受信した場合、フレーム内の命
令対象の部位のAL_PAと自身のAL_PAを比較
し、等しい場合はフレーム内の命令の動作をし、等しく
ない場合は、次のノードに受信したフレームを転送す
る。従って、AL_PA=2の記憶装置130は、フレ
ーム内の命令対象の部位のAL_PAと自身のAL_P
Aが異なるため、記憶制御装置120から受信したフレ
ームをAL_PA=3の記憶装置130に送信する。A
L_PA=3の記憶装置130は、受信したフレーム内
の命令に従い、当該装置内の記憶媒体からデータを読み
出し、データ転送の準備を行う。データ転送の準備が整
うと、AL_PA=3の記憶装置130は、データパス
の使用権を取得し、受信したエクスチェンジIDと送信
先である命令対象の部位のAL_PA=1、送信元部位
のAL_PA=3、読み出したデータ等を格納したフレ
ームをデータパス、つまり、AL_PA=4の記憶装置
130に送信する。AL_PA=4の記憶装置130
は、フレーム内の命令対象の部位のAL_PAと自身の
AL_PAが異なるため、受信したフレームを記憶制御
装置120に送信する。記憶制御装置120は受信した
フレーム内のエクスチェンジID、送信先である命令対
象の部位のAL_PA=1、送信元部位のAL_PA=
3からリード命令の応答であると認識し、フレームから
データを取得する。次にデータパスの障害時の動作につ
いて説明する。ノード間は常に通信プロトコルに従った
信号が流れているため、ノードが信号を受信しない、も
しくは、通信プロトコルに定義されていない信号を受信
した場合、ノードはデータパスに障害があると認識し、
障害回復処理を試みる。具体的には、障害回復処理と
は、データパスの初期化処理である。障害を認知したノ
ードは、データパスの初期化処理の前に、まず、LIP
命令と自身のAL_PAを送信する。当該ノードはLI
P命令と自身のAL_PAを受信するまでは、LIP命
令と自身のAL_PAを送信し続け、LIP命令と自身
のAL_PAを受信すると、データパスの初期化処理を
はじめる。データパスの障害の原因が、一時的な信号の
喪失や雑音などによる信号の乱れの場合は、しばらくす
ると当該ノードはLIP命令と自身のAL_PAを受信
し、障害回復処理を行い、データパスは正常な状態に回
復する。一方、データパスを構成するノードおよび接続
線150の故障の場合、当該ノードは自身のAL_PA
とLIP命令を受信できないため、LIP命令および自
身のAL_PAを送信し続ける状態で留まる。
【発明が解決しようとする課題】前述の記憶装置システ
ムにおいて、例えば、FC_ALの接続形態でデータパ
スを構成した場合、データパスを構成する部位数は最大
256となる。具体的には、記憶制御装置が1台、記憶
装置が127台とそれらを接続する接続線が128本で
ある。さらに、データパスを構成する部位の故障の場
合、どの部位が故障しているか特定する手段が存在しな
いため、このように、データパスを構成する部位数が多
いと、故障部位を見つけるために多くの時間を要する。
本発明の目的はデータパスを構成する部位から障害の可
能性をもつ部位を特定することで、検査対象の部位数を
減らし、障害回復までの時間を短縮することにある。
【課題を解決するための手段】上記目的を達するため
に、記憶制御装置はデータパスの障害回復処理を監視す
る。これにより、記憶制御装置はデータパスの障害回復
処理を監視し、一定時間が経過しても、障害回復処理が
終了しない場合は、致命的な障害、例えば部位の交換な
どを必要とする障害が発生していると判断できる。致命
的な障害が発生した場合、記憶制御装置はデータの送信
方向と、障害検出部位から障害が発生している可能性の
ある部位を特定し、保守端末を通じて、保守員に障害の
報告および障害の可能性のある部位を通知する。これら
の手段を用いて、記憶装置システムは致命的な障害を検
出し、障害の発生および障害の可能性のある部位を外部
の保守端末を通じて保守員に通知し、保守員はそれに応
じて部位の検査および交換などの操作を行う。これによ
り、保守員は障害の起こったデータパスを構成する全部
位の中から、記憶装置システムから通知された部位のみ
に対して検査および交換などの操作を行えばよくなり、
障害回復までの時間を短縮することが可能となる。ま
た、上記目的を達するために、記憶制御装置および記憶
装置はデータパスの障害回復処理を監視する。これによ
り、記憶制御装置および記憶装置はデータパスの障害回
復処理を監視し、一定時間が経過しても、障害回復処理
が終了しない場合は、致命的な障害、例えば部位の交換
などを必要とする障害が発生していると判断できる。致
命的な障害が発生した場合、障害を発見した記憶制御装
置もしくは記憶装置がLEDを点灯させることで、保守
員に障害の報告および障害の可能性のある部位を通知す
る。これらの手段を用いて、保守員は致命的な障害の発
生および障害の発生した部位を把握することができ、そ
れに応じて部位の検査および交換などの操作を行う。こ
れにより、保守員は障害の起こったデータパスを構成す
る全部位の中から、記憶装置システムから通知された部
位のみに対して検査および交換などの操作を行えばよく
なり、障害回復までの時間を短縮することが可能とな
る。また、上記目的を達するために、記憶制御装置およ
び記憶装置はデータパスの障害回復処理を監視する。こ
れにより、記憶制御装置および記憶装置はデータパスの
障害回復処理を監視し、一定時間が経過しても、障害回
復処理が終了しない場合は、致命的な障害、例えば部位
の交換などを必要とする障害が発生していると判断でき
る。記憶装置が致命的な障害を発見した場合、当該記憶
装置は記憶制御装置に障害発生と自身の部位を通知す
る。記憶制御装置が致命的な障害を発見した場合もしく
は、記憶装置から致命的な障害の通知をうけた場合、記
憶制御装置はデータの送信方向と通知を受けた障害検出
部位から障害が発生している可能性のある部位を特定
し、保守端末を通じて、保守員に障害の報告および障害
の可能性のある部位を通知する。これらの手段を用い
て、記憶装置システムは致命的な障害を検出し、障害の
発生および障害の可能性のある部位を外部の保守端末を
通じて保守員に通知し、保守員はそれに応じて部位の検
査および交換などの操作を行う。これにより、保守員は
障害の起こったデータパスを構成する全部位の中から、
記憶装置システムから通知された部位のみに対して検査
および交換などの操作を行えばよくなり、障害回復まで
の時間を短縮することが可能となる。
【発明の実施の形態】実施例1 本発明における実施例を図2により説明する。記憶装置
システム110はホストコンピュータ100の要求に応
じてデータの保存、提供を行う。記憶装置システム11
0は一つ以上の記憶制御装置120と一つ以上の記憶装
置130から構成される。記憶装置システム110内の
記憶制御装置120は、それぞれ接続線170で保守端
末140と接続される。接続線170は、例えば、LA
Nケーブル、パラレルケーブル等である。保守端末14
0は、記憶制御装置120と記憶制御装置120と接続
する複数の記憶装置130の設定および状態を表示する
機能を持つ。記憶装置システム110内の記憶制御装置
120は、それぞれ接続線160でホストコンピュータ
100と接続される。接続線160は、例えば、光ケー
ブル、パラレルケーブル、SCSIケーブル、ESCO
Nケーブル等である。記憶制御装置120と複数の記憶
装置130は、接続線150を用いてリング状に接続さ
れている。接続線150は、例えば、光ケーブル、シリ
アルケーブル等である。記憶制御装置120と記憶装置
130間の接続形態をFC_ALと仮定して、前述の記
憶装置システムでのデータ転送およびデータパスの障害
状態から回復までの処理について説明する。データ転送
の説明として、ホストコンピュータ100が、記憶装置
システム110に格納しているデータを読み出す場合に
ついて説明する。ホストコンピュータ100は対象デー
タを格納している記憶装置130を制御する記憶制御装
置120にリード命令を送信する。記憶制御装置120
は、命令対象の記憶装置130が含まれるデータパスの
使用権を取得後、リード命令、他の命令と区別するため
の番号であるエクスチェンジID、送信先である命令対
象の部位のAL_PA、送信元部位のAL_PA等を格
納したフレームを当該データパスに送信する。当該デー
タパスを構成する記憶装置130は、フレーム内の命令
対象の部位のAL_PAと自身のAL_PAを比較し、
等しい場合はフレーム内の命令の動作をし、等しくない
場合は、データパスに受信したフレームを送信する。命
令対象の記憶装置130は、記憶制御装置120からの
フレームを受信後、データの転送準備が整うと、データ
パスの使用権を取得する。データパスの使用権取得後、
当該記憶装置130は、受信したエクスチェンジIDと
送信先である記憶制御装置120のAL_PA、自身の
AL_PA、読み出したデータ等を格納したフレームを
データパスに送信する。記憶制御装置120は、フレー
ム内の命令対象の部位のAL_PAと自身のAL_PA
が等しいことにより、フレーム、すなわちデータを受け
取り、ホストコンピュータ100にデータを転送する。
前述の記憶装置システムでのデータパスの障害状態から
回復までの動作フローを図3に示す。記憶装置130お
よび記憶制御装置120は、データパスの障害、すなわ
ち、通信プロトコルに定義されていない信号を受信し
た、もしくは信号を受信しない場合は、データパスの回
復を試みる(ステップ300、ステップ310)。例え
ば、FC_ALの場合は、データパスの回復のために、
まずLIP命令と自身のAL_PAを送信する。記憶制
御装置120が、LIP命令を受信した場合、もしく
は、記憶制御装置120がデータパスの障害を発見した
場合、当該記憶制御装置120は、障害回復処理の監視
を開始する(ステップ320〜ステップ350)。記憶
制御装置120は一定時間経過しても、障害回復処理が
終了しない場合は、致命的な障害が発生したと認識し、
データ転送方向とデータパスの回復命令を発行した部位
のAL_PAから致命的な障害が発生した可能性のある
部位を特定する(ステップ360)。ここで、記憶制御
装置120が障害回復処理を一定時間監視する理由は、
障害回復処理が成功する、つまり正常状態に回復する場
合があるためである(ステップ340)。そして、記憶
制御装置120は保守端末140によって障害および致
命的な障害が発生した可能性のある部位を保守員に通知
する。(ステップ370)。保守員は、保守端末140
から障害の発生の報告を受け、保守端末140から指示
された部位のみを検査し、障害のある部位を交換する
(ステップ380)。第一の実施例の記憶装置システム
内の各部位の構造および動作フローについて詳細に説明
する。記憶制御装置120の内部構造の一例を図4に示
す。記憶制御装置120はプロセッサA410、複数の
データ転送制御コントローラ420、複数の受信機43
0、複数の送信機440から構成される。第一の実施例
では、LEDコントローラ450、LED460、接続
線180は使用しない。プロセッサA410はホストコ
ンピュータ100と記憶装置130間のデータ転送を制
御する。例えば、ホストコンピュータ100が記憶装置
130に保存しているデータを読み出す場合、プロセッ
サA410は当該記憶装置130と同じデータパスに含
まれるデータ転送制御コントローラ420に対し、当該
記憶装置130からのデータリードを命令する。その
後、プロセッサA410は、当該データ転送制御コント
ローラ420からリード対象のデータを受け取り、ホス
トコンピュータ100に転送する。データパスに障害が
ある場合は、プロセッサA410はデータ転送制御コン
トローラ420から、データパスの異常報告もしくは、
LIP命令を受信する。プロセッサA410がデータパ
スの異常報告を受信した場合のプロセッサA410の動
作フローを図5に示す。プロセッサA410はデータ転
送制御コントローラ420にLIP命令と自身のAL_
PAをデータパスに送信するよう命ずる(ステップ52
0)。その後、プロセッサA410は障害回復処理の監
視をはじめる(ステップ530〜ステップ560)。プロ
セッサA410は障害回復処理の監視中は、データ転送
制御コントローラ420からデータパスの異常報告を受
信し続けているか監視する(ステップ540)。プロセ
ッサA410がデータ転送制御コントローラ420から
データパスの異常報告を受けた場合は、ステップ520
と同様にLIP命令と自身のAL_PAをデータ転送制
御コントローラ420を用いてデータパスに送信する
(ステップ550)。プロセッサA410が、データパ
スの異常報告を受信しなくなった場合、回復処理により
データパスは正常に回復しているため、障害回復処理監
視を終了する(ステップ580)。プロセッサA410
は、障害回復処理監視中に、障害回復処理開始からの時
間を計測し、障害回復処理の監視時間が一定時間を経過
した場合(ステップ560)、障害が致命的であると判断
し、障害部位特定処理を行う(ステップ570)。プロセ
ッサA410がLIP命令を受信した場合のプロセッサ
A410の動作フローを図6に示す。プロセッサA41
0はデータ転送制御コントローラ420にLIP命令と
受信したAL_PAをデータパスに送信するよう命ずる
(ステップ620)。その後、プロセッサA410は障
害回復処理の監視をはじめる(ステップ630〜ステッ
プ660)。プロセッサA410は障害回復処理の監視
中は、データ転送制御コントローラ420からLIP命
令を受信し続けているか監視する(ステップ640)。
プロセッサA410がデータ転送制御コントローラ42
0からLIP命令を受信した場合は、ステップ620と
同様にLIP命令と受信したAL_PAをデータ転送制
御コントローラ420を用いてデータパスに送信する
(ステップ650)。プロセッサA410が、LIP命
令を受信しなくなった場合、回復処理によりデータパス
は正常に回復しているため、障害回復処理監視を終了す
る(ステップ680)。プロセッサA410は、障害回
復処理監視中に、障害回復処理開始からの時間を計測
し、障害回復処理の監視時間が一定時間を経過した場合
(ステップ660)、障害が致命的であると判断し、障害
部位特定処理を行う(ステップ670)。データ転送制御
コントローラ420は、受信機430で受信した信号に
よって図7に示す動作を行い、プロセッサA410の命
令によって送信機440を用いてデータパスに信号を送
信する。受信信号が通信プロトコルに定義されていない
もしくはデータ転送制御コントローラ420が信号を受
信しない場合は、データ転送制御コントローラ420
は、プロセッサA410にデータパスに異常があること
を報告する(ステップ715)。受信信号がLIP命令の
場合は、データ転送制御コントローラ420は、プロセ
ッサA410にLIP命令とAL_PAを報告する(ス
テップ725)。受信信号が自部位宛ての場合は、デー
タ転送制御コントローラ420は、受信信号をプロセッ
サA410に転送する(ステップ735)。受信信号が自
部位宛てでない場合は、データ転送制御コントローラ4
20は、送信機440を用いて受信信号を記憶制御装置
120もしくは記憶装置130に送信する(ステップ7
40)。受信機430はデータパスから信号を受信し、
データ転送制御コントローラ420に転送する。送信機
440はデータ転送制御コントローラ420の命令によ
り、データパスに信号を送信する。記憶装置130の内
部構造の一例を図8に示す。記憶装置130はプロセッ
サB600、記憶媒体310、複数のデータ転送制御コ
ントローラ420、複数の受信機430、複数の送信機
440から構成される。第一の実施例では、LEDコン
トローラ450、LED460、接続線180は使用し
ない。プロセッサB600は、データ転送制御コントロ
ーラ420により受信した命令およびデータをうけて、
記憶媒体310からデータを読み出し、データ転送制御
コントローラ420を用いてデータパスにデータを転送
する、もしくは記憶媒体310に受信したデータを保存
する。また、データ転送制御コントローラ420からデ
ータパスの異常報告を受けた場合は、LIP命令と自身
のAL_PAをデータ転送制御コントローラ420を用
いてデータパスに送信する。前述の各部位の動作フロー
に従って、障害処理監視処理について詳細に説明する。
データパスに障害が発生した場合、障害を発見する部位
は、記憶装置130もしくは記憶制御装置120であ
る。はじめに、記憶装置130が障害を発見した場合に
ついて説明する。記憶装置130内部のデータ転送制御
コントローラ420は通信プロトコルに定義されていな
い信号を受信する、もしくは信号を受信しないことによ
り、データパスに障害があると判断し、プロセッサB6
00にデータパスの異常を報告する(ステップ71
5)。報告を受けたプロセッサB600は、データ転送
制御コントローラ420にLIP命令と自身のAL_P
Aをデータパスに送信するよう命ずる。この後、記憶制
御装置120内のデータ転送制御コントローラ420は
LIP命令および当該記憶装置130のAL_PAを受
信し、プロセッサA410にLIP命令および受信した
AL_PAを転送する(ステップ725)。当該プロセ
ッサA410は、障害回復監視処理を開始する(ステッ
プ630)。当該プロセッサA410は、障害処理、す
なわち、LIP命令の受信を監視する(ステップ64
0)。一定時間経過しても、当該プロセッサA410が
データ転送制御コントローラ420からLIP命令を受
信している場合は、障害部位特定処理を行う(ステップ
670)。ここで、当該プロセッサA410が、LIP
命令を一定時間受信し続けることを監視する理由は、L
IP命令が成功する、つまり正常状態に回復する場合が
あるためである。次に、記憶制御装置120が障害を発
見した場合について説明する。記憶制御装置120内部
のデータ転送制御コントローラ420は通信プロトコル
に定義されていない信号を受信する、もしくは信号を受
信しないことにより、データパスに障害があると判断
し、プロセッサA410にデータパスの異常を報告する
(ステップ715)。報告を受けたプロセッサA410
は、データ転送制御コントローラ420にLIP命令お
よび自身のAL_PAをデータパスに送信する命令を出
しながら、障害回復監視処理、つまり、データ転送制御
コントローラ420からのデータパスの異常報告の監視
を開始する(ステップ530)。当該プロセッサA41
0が、一定時間経過しても、データ転送制御コントロー
ラ420からデータパスの異常の報告を受けている場合
は、障害部位特定処理を行う(ステップ570)。障害
部位特定処理について説明する。記憶制御装置120
は、障害回復処理監視処理によって障害が致命的である
ことを認識し、データの送信方向と障害検出部位、つま
りLIP命令と対になって転送されていたAL_PAか
ら障害部位特定を行う。記憶装置130もしくは記憶制
御装置120が、データパスに障害があると認知する、
すなわち、通信プロトコルに定義されていない信号を受
信する、もしくは信号を受信しない原因は、次の三通り
存在する。第一の原因は、記憶装置130もしくは記憶
制御装置120が、信号の受信に失敗した場合である。
この場合の故障部位は、例えば、当該装置内のデータ転
送制御コントローラ420の故障がある。第二の原因
は、信号が正常に伝播できなかった場合である。この場
合の故障部位は、例えば、接続線150の断線などがあ
る。第三の原因は、信号自体が正常に送信されていなか
った場合である。この場合の故障部位は、例えば、障害
検出部位に信号を送信する部位などがある。まとめる
と、障害の可能性がある部位は、次の三部位である。第
一の部位は、障害回復処理命令であるLIP命令と対に
なって転送されていたAL_PAをもつ記憶装置130
である。但し、記憶制御装置120が障害を発見した場
合は、当該記憶制御装置120である。第二の部位は、
第一の部位に信号を送信する記憶装置130もしくは記
憶制御装置120である。第三の部位は、第一の部位と
第二の部位を接続する接続線150である。例えば、図
1のAL_PAが3の記憶装置130がデータパスの障
害を認知した場合、障害の可能性がある部位は、AL_
PAが3の記憶装置130とAL_PAが2の記憶装置
130とこれら二つを結ぶ接続線150である。最後
に、障害通知処理について説明する。記憶制御装置12
0は障害部位特定処理によって特定した障害の可能性の
ある三部位を接続線170を用いて、保守端末140に
通知する。保守端末140は、通知を受けて、保守員に
障害の発生および障害の可能性のある三部位を通知す
る。保守員は、保守端末140から提示された三部位を
一箇所ずつ交換して検査し、故障のある場合は交換す
る。このように、データパスの障害時に記憶装置システ
ムが保守員に故障部位の候補を示すことで、保守員は保
守端末140が提示する三部位のみを検査すればよくな
り、回復までの時間の短縮が可能である。 実施例2 第一の実施例では、記憶制御装置120のみで障害回復
処理監視を行ったが、第二の実施例では、記憶装置13
0も同様に障害回復処理の監視を行う。記憶制御装置1
20内のプロセッサA410と記憶装置130内のプロ
セッサB600は、データ転送制御コントローラ420
からデータパスの異常の報告を受けた場合、障害回復処
理の監視を開始する。当該プロセッサA410もしくは
プロセッサB600は、一定時間障害回復処理を監視
し、一定時間経過しても、障害回復処理が正常に終了し
ない場合は、記憶制御装置120内もしくは記憶装置1
30内のLEDコントローラ450に障害のあるデータ
パスに対応するLED460を点灯するよう命令する。
保守員は、LED460の点灯により、障害および障害
検出部位を認識し、障害検出部位および障害検出部位に
信号を送信する部位およびこれら二つの部位を結ぶ接続
線150の三部位を一箇所ずつ交換して検査し、故障の
ある場合は交換する。このように、保守員は三部位のみ
を検査すればよくなり、回復までの時間の短縮が可能で
ある。第二の実施例の記憶装置システム内の各部位の構
造および動作フローについて詳細に説明する。記憶制御
装置120は、図4に示すように、プロセッサA41
0、複数のデータ転送制御コントローラ420、複数の
受信機430、複数の送信機440、複数のLED46
0、LEDコントローラ450から構成される。第二の
実施例では、接続線180は使用しない。記憶装置13
0は、図8に示すように、プロセッサB600、記憶媒
体310、複数のデータ転送制御コントローラ420、
複数の受信機430、複数の送信機440、複数のLE
D460、LEDコントローラ450から構成される。
第一の実施例では、接続線180は使用しない。データ
転送制御コントローラ420、複数の受信機430、複
数の送信機440は、第一の実施例と同じ構造および動
作をする。LEDコントローラ450はLED460を
制御する機能をもつ。記憶制御装置120内のプロセッ
サA410と記憶装置130内のプロセッサB600の
動作フローを図9に示す。データパスに障害が起きた場
合、データ転送制御コントローラ420は通信プロトコ
ルに定義されていない信号もしくは信号を受信しない。
その場合、当該プロセッサA410もしくはプロセッサ
B600は、当該データ転送制御コントローラ420か
らデータパスの異常の報告を受ける(ステップ90
0)。当該プロセッサA410もしくはプロセッサB6
00は、データ転送制御コントローラ420にLIP命
令および自身のAL_PAをデータパスに送信するよう
命令する(ステップ910)。この後、当該プロセッサ
A410もしくはプロセッサB600は、一定時間、障
害回復処理を監視、つまりデータパスが正常な状態に回
復するか監視する(ステップ920〜ステップ95
0)。一定時間経過しても障害回復処理が終了しない場
合、当該プロセッサA410もしくはプロセッサB60
0はLEDコントローラ450を制御し、データパスに
対応するLED460を点灯する(ステップ960)。
これにより、保守員は、致命的な障害発生および障害を
検出した部位を把握できる。保守員は、LED460の
点灯により、障害が発生したデータパスおよび障害検出
部位がわかり、障害検出部位、障害検出部位に信号を送
信する部位およびこれら二つの部位を接続する接続線1
50の三部位を一箇所ずつ検査し、故障のある場合は交
換する。このように、保守員は三部位のみを検査すれば
よくなり、回復までの時間の短縮が可能である。 実施例3 第一の実施例では、記憶制御装置120のみで障害回復
処理監視を行ったが、第三の実施例では、記憶装置13
0も同様に障害回復処理の監視を行う。この形態での第
一の実施例との相違点は、記憶装置130にて検出した
データパスの障害を障害の発生したデータパスと異なる
データパスを用いて、障害の発生と障害を認識した記憶
装置130のAL_PAを記憶制御装置120に通知す
る点である。記憶装置130が記憶制御装置120に障
害通知をするために使用するデータパスは、例えば、図
2の接続線180が示すように記憶制御装置120と記
憶装置130を個々に接続してもよいし、FC_ALの
接続形態であってもよい。第三の実施例のデータパスの
障害状態から回復までの動作フローを図10,図11に
示す。図10は、障害を発見した部位が記憶装置130
の場合の動作フローであり、図11は、障害を発見した
部位が記憶制御装置120の場合の動作フローである。
まず、障害を発見した部位が記憶装置130の場合のデ
ータパスの障害状態から回復までの動作フローについて
説明する(図10)。記憶装置130内のプロセッサB6
00は、データ転送制御コントローラ420からデータ
パスの障害報告を受信した場合(ステップ1000)、
データ転送制御コントローラ420にデータパスの回復
命令の送信を命令し(ステップ1010)、障害回復処
理の監視を開始する(ステップ1020〜1050)。
記憶装置130内のプロセッサB600は、データ転送
制御コントローラ420にデータパスの障害回復命令の
送信を命令しながら(ステップ1035)、障害が回復
しないかどうか一定時間監視する(ステップ103
0)。一定時間経過しても、障害回復処理が正常に終了
しない場合、当該プロセッサB600は、障害が発生し
たデータバスとは異なる接続線180を用いて、記憶制
御装置120に障害報告および自身のAL_PAを送信
する(ステップ1060)。記憶制御装置120は、記
憶装置130から受信したAL_PAとデータ転送方向
から障害個所特定処理、つまり障害の可能のある部位を
特定する(ステップ1070)。障害個所特定処理は、
第一の実施例と同じである。そして、記憶制御装置12
0は、保守端末140を用いて、保守員に障害通知およ
び障害の可能のある部位を提示する(ステップ108
0)。保守員は、保守端末140から障害の発生の報告
を受け、保守端末140から指示された部位のみを検査
し、障害のある部位を交換する(ステップ1090)。
このように、保守員は保守端末140が提示する三部位
のみを検査すればよくなり、回復までの時間の短縮が可
能である。つぎに、障害を発見した部位が記憶制御装置
120の場合のデータパスの障害状態から回復までの動
作フローについて説明する(図11)。記憶制御装置12
0内のプロセッサA410は、データ転送制御コントロ
ーラ420からデータパスの障害報告を受信した場合
(ステップ1100)、データ転送制御コントローラ4
20にデータパスの回復命令の送信を命じ(ステップ1
110)、障害回復処理の監視を開始する(ステップ1
120〜1150)。記憶装置130内のプロセッサA
410は、データ転送制御コントローラ420にデータ
パスの障害回復命令の送信を命じながら(ステップ11
35)、データパスの障害が回復しないかどうか一定時
間監視する(ステップ1130)。一定時間経過して
も、障害回復処理が正常に終了しない場合、データの転
送方向から障害の可能のある部位を特定する(ステップ
1170)。障害の可能のある部位は、当該記憶制御装
置120、当該記憶制御装置120に信号を送信する記
憶装置130、およびこれらの二つの部位を接続する接
続線150の三部位である。そして、記憶制御装置12
0は、保守端末140を用いて、保守員に障害通知およ
び障害の可能のある部位を提示する(ステップ118
0)。保守員は、保守端末140から障害の発生の報告
を受け、保守端末140から指示された部位のみを検査
し、障害のある部位を交換する(ステップ1190)。
このように、保守員は保守端末140が提示する三部位
のみを検査すればよくなり、回復までの時間の短縮が可
能である。第三の実施例の記憶装置システム内の各部位
の構造および動作フローについて詳細に説明する。記憶
制御装置120は、図4が示すように、プロセッサA4
10、複数のデータ転送制御コントローラ420、複数
の受信機430、複数の送信機440から構成される。
第三の実施例では、LEDコントローラ450、LED
460は使用しない。記憶装置130は、図8が示すよ
うに、プロセッサB600、記憶媒体310、複数のデ
ータ転送制御コントローラ420、複数の受信機43
0、複数の送信機440から構成される。第三の実施例
では、LEDコントローラ450、LED460は使用
しない。データ転送制御コントローラ420、複数の受
信機430、複数の送信機440は、第一の実施例と同
じ構造および動作をする。記憶制御装置120内のプロ
セッサA410の動作フローを図12に示す。当該プロ
セッサA410が、データ転送制御コントローラ420
からデータパスの異常を報告された場合(ステップ12
00)、当該プロセッサA410は、データ転送制御コ
ントローラ420にLIP命令および自身のAL_PA
をデータパスに送信するよう命令する(ステップ121
0)。この後、当該プロセッサA410は、一定時間、
障害回復処理を監視、つまりデータパスが正常な状態に
回復するか監視する(ステップ1220〜ステップ12
50)。一定時間経過しても障害回復処理が終了しない
場合、当該プロセッサA410は障害部位を特定し、保
守端末を通じて、保守員に提示する(ステップ126
0)。また、接続線180によって、記憶装置130か
ら障害通知を受信した場合(ステップ1270)は、受
信したAL_PAとデータ転送方向から障害個所特定処
理、つまり障害の可能のある部位を特定する(ステップ
1260)。障害個所特定処理は、第一の実施例と同じ
である。記憶装置130内のプロセッサB600の動作
フローを図13に示す。データパスに障害が起きた場
合、データ転送制御コントローラ420は通信プロトコ
ルに定義されていない信号もしくは信号を受信しない。
プロセッサB600は、当該データ転送制御コントロー
ラ420からデータパスの異常の報告を受ける(ステッ
プ1300)。当該プロセッサB600は、データ転送
制御コントローラ420にLIP命令および自身のAL
_PAをデータパスに送信するよう命令する(ステップ
1310)。この後、当該プロセッサB600は、一定
時間、障害回復処理を監視、つまりデータパスが正常な
状態に回復するか監視する(ステップ1320〜ステッ
プ1350)。一定時間経過しても障害回復処理が終了
しない場合、当該プロセッサB600は接続線180を
用いて、記憶制御装置120内のプロセッサA410に
障害通知および自身のAL_PAを通知する(ステップ
1360)。この報告によって、記憶制御装置120内
のプロセッサA410は、受信したAL_PAとデータ
転送方向から障害個所特定処理、つまり障害の可能のあ
る部位を特定する(ステップ1260)。障害個所特定
処理は、第一の実施例と同じである。
【発明の効果】以上述べたように、本発明によれば、デ
ータパスを構成する部位に故障などの障害が発生した場
合に、記憶制御装置がデータパスの障害回復処理を監視
することにより、記憶装置システム内のデータパスを構
成する全部位の中から、障害が起こった可能性のある部
位を見つけ出すことができる。さらに、障害が起こった
可能性のある部位を保守員に報告することができるの
で、保守員は、報告を受けた部位のみを検査すればよ
く、障害からの早期回復が見込める。
【図面の簡単な説明】
【図1】記憶制御装置と記憶装置の接続形態を示す図。
【図2】記憶装置システムの構造図。
【図3】データパス障害から回復までの記憶装置システ
ムの動作フローチャート。
【図4】記憶制御装置の構造図。
【図5】記憶制御装置のデータパス障害検出時の動作フ
ローチャート。
【図6】記憶制御装置のLIP命令受信時の動作フロー
チャート。
【図7】データ転送制御コントローラの動作フローチャ
ート。
【図8】記憶装置の構造図。
【図9】第二の実施例の記憶制御装置および記憶装置の
データパス障害時の動作フローチャート。
【図10】第三の実施例の記憶装置がデータパス障害時
の記憶装置システムの動作フローチャート。
【図11】第三の実施例の記憶制御装置がデータパス障
害時の記憶装置システムの動作フローチャート。
【図12】第三の実施例の記憶制御装置のデータパス障
害時の動作フローチャート。
【図13】第三の実施例の記憶装置のデータパス障害時
の動作フローチャート。
【符号の説明】
100…ホストコンピュータ、110…記憶装置システ
ム、120…記憶制御装置、130…記憶装置、140
…保守端末、150…接続線。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高田 豊 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内 (72)発明者 大枝 高 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 Fターム(参考) 5B083 AA04 BB01 BB02 CD03 CE03 DD12 DD13 EE11 GG04

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】記憶制御装置と複数の記憶装置をリング状
    にシリアル接続するデータパスを内蔵する記憶装置シス
    テムであって、前記記憶制御装置がデータパスの障害回
    復処理を監視し、データの送信方向と障害回復命令の発
    行部位から障害が発生している可能性のある部位を特定
    し、保守端末を通じて保守員に特定した部位を通知する
    ことを特徴とする記憶装置システム。
JP11173665A 1999-06-21 1999-06-21 データパスにおける障害部位の特定方法および装置 Pending JP2001005739A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11173665A JP2001005739A (ja) 1999-06-21 1999-06-21 データパスにおける障害部位の特定方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11173665A JP2001005739A (ja) 1999-06-21 1999-06-21 データパスにおける障害部位の特定方法および装置

Publications (1)

Publication Number Publication Date
JP2001005739A true JP2001005739A (ja) 2001-01-12

Family

ID=15964839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11173665A Pending JP2001005739A (ja) 1999-06-21 1999-06-21 データパスにおける障害部位の特定方法および装置

Country Status (1)

Country Link
JP (1) JP2001005739A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005118373A (ja) * 2003-10-17 2005-05-12 Toshiba Corp 放射線ct装置
JP2010128886A (ja) * 2008-11-28 2010-06-10 Fujitsu Ltd 故障ノード切り離し処理プログラム、故障ノード切り離し方法及びストレージシステム
US7751790B2 (en) 2006-09-28 2010-07-06 Broadcom Corporation Hybrid on-chip-off-chip transformer

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005118373A (ja) * 2003-10-17 2005-05-12 Toshiba Corp 放射線ct装置
JP4542762B2 (ja) * 2003-10-17 2010-09-15 株式会社東芝 放射線ct装置
US7751790B2 (en) 2006-09-28 2010-07-06 Broadcom Corporation Hybrid on-chip-off-chip transformer
JP2010128886A (ja) * 2008-11-28 2010-06-10 Fujitsu Ltd 故障ノード切り離し処理プログラム、故障ノード切り離し方法及びストレージシステム

Similar Documents

Publication Publication Date Title
US6678839B2 (en) Troubleshooting method of looped interface and system provided with troubleshooting function
JP2005031928A (ja) 記憶システム及び記憶システムの障害特定方法
JP6741947B2 (ja) 情報処理装置、診断制御装置および通信装置
US7236454B2 (en) Loop diagnosis system and method for disk array apparatuses
JP2004094774A (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
US20110131348A1 (en) Control system and cpu unit
CN109062184A (zh) 双机应急救援设备、故障切换方法和救援系统
EP1497731B1 (en) A method and a system for ensuring a bus and a control server
JP2001005739A (ja) データパスにおける障害部位の特定方法および装置
JP4678384B2 (ja) リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム
CN109088753B (zh) 自动检测rs485通信故障的电路和方法
JP2000020336A (ja) 二重化通信システム
JPH0887458A (ja) プロセス制御用データ伝送装置及びi/oバス伝送障害の除去方法
JPH05304528A (ja) 多重化通信ノード
JPH05225161A (ja) ネットワーク監視方式
JPH1196033A (ja) 情報処理装置
JPH06197112A (ja) 管理システム
JPS637055A (ja) デ−タ伝送ステ−シヨン
JP2001086146A (ja) Fc_alシステムの制御方法
JP2636610B2 (ja) バックアップ方式
JPH01175338A (ja) 伝送系の二重化方法
JPH07123106A (ja) 通信システムの異常箇所検出方法
JP3436048B2 (ja) 伝送路切替装置並びにその切替方法
JPH01258522A (ja) ネットワークの障害診断・復旧方式
JPH053486A (ja) データ伝送システム