JP2001154929A - Management method and system for substituting path system - Google Patents

Management method and system for substituting path system

Info

Publication number
JP2001154929A
JP2001154929A JP33861099A JP33861099A JP2001154929A JP 2001154929 A JP2001154929 A JP 2001154929A JP 33861099 A JP33861099 A JP 33861099A JP 33861099 A JP33861099 A JP 33861099A JP 2001154929 A JP2001154929 A JP 2001154929A
Authority
JP
Japan
Prior art keywords
path
file
information
statistical information
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33861099A
Other languages
Japanese (ja)
Inventor
Takashi Michitsuji
孝志 道辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Software Shikoku Ltd
Original Assignee
NEC Software Shikoku Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Shikoku Ltd filed Critical NEC Software Shikoku Ltd
Priority to JP33861099A priority Critical patent/JP2001154929A/en
Publication of JP2001154929A publication Critical patent/JP2001154929A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To automatically detect the event that intermittent faults occur for a long time and to automatically disconnect a fault path from a substituting path. SOLUTION: The information on the operation states of plural paths and the executed result of a test command is gathered for every prescribed cycle, the gathered information is statistically processed and the presence/absence of abnormality in the paths are judged. The path judged as abnormal as the result of judgment is disconnected from the substituting path.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ホストコンピュー
タとファイル装置間に予備のパスを含み複数のパスを有
する代替パス方式のパス切り替え方法とそのシステムに
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a path switching method of an alternative path system having a plurality of paths including a spare path between a host computer and a file device and a system thereof.

【0002】[0002]

【従来の技術】大規模コンピュータシステムでは、大量
のデータを高速に処理するために、光インターフェース
を利用したファイル装置やテープ装置等のファイバー・
チャネル・アービトレーテッド・ループ(Fiber Channe
l Arbitrated Loop;以下、FC−ALと記述する)のデバ
イスが採用されている。そして、一般に、CPUとこれら
のデバイスとの間には、それぞれ正と副の少なくとも2
つの入出力パスが備えられ、平常時には副の入出力パス
を予備として、正の入出力パスを使用してFC−ALの制御
やデータの入出力処理が行われているが、使用中の正の
入出力パスに障害が発生すると、これらの処理を副の入
出力パスに切り替えて運用する構成が取られており、こ
の構成を一般に代替パス構成と呼んでいる。
2. Description of the Related Art In a large-scale computer system, in order to process a large amount of data at a high speed, a fiber or fiber device such as a file device or a tape device using an optical interface is used.
Channel Arbitrated Loop (Fiber Channe
l Arbitrated Loop (hereinafter referred to as FC-AL). And in general, there are at least two positive and
There are two I / O paths, and the FC-AL control and data I / O processing are performed using the positive I / O path with the secondary I / O path as a spare in normal times. When a failure occurs in the input / output path, the processing is switched to a secondary input / output path for operation, and this configuration is generally called an alternative path configuration.

【0003】従来、小規模のファイル装置の間欠的な障
害に対する信頼性向上対策として次のような開示があ
る。
Conventionally, there is the following disclosure as a measure for improving reliability against intermittent failures of a small-scale file device.

【0004】特開平5−81109号公報の「ファイル制御方
式」は、磁気ファイル装置等へのアクセス時に、媒体上
の塵やトラックとヘッドとの位置ずれ等による障害で、
リトライの結果アクセスが成功する間欠的な障害が経時
的に固定的な障害となる前の信頼性向上対策として、各
ファイルへのアクセス時に発生した障害に対する再試行
回数、乃至は再試行を行ったアクセス回数を累計して、
その回数が予め定められた値を超えたときは、該当のフ
ァイルのデータを新たに割り付けたファイルに複写す
る。
The "file control method" disclosed in Japanese Patent Application Laid-Open No. 5-81109 is an obstacle caused by dust on a medium or a displacement between a track and a head when accessing a magnetic file device or the like.
As a measure to improve reliability before an intermittent failure in which access is successful as a result of retry becomes a fixed failure over time, the number of retries or failures for failures that occurred when accessing each file was performed. Accumulate the number of accesses,
When the number of times exceeds a predetermined value, the data of the corresponding file is copied to a newly allocated file.

【0005】また、特開平7−169135号公報の「ファイ
ルマネージャ」は、磁気ディスクよりも信頼性が低いと
される光磁気ディスクの経年変化による信頼性を評価
し、劣化状況に応じて警報を発することを目的として、
光磁気ディスクの劣化状況把握手段と、劣化の異常値が
基準値を超えたとき実行プログラムに警告を行う劣化状
況警告手段とを設ける。
The "file manager" disclosed in Japanese Patent Laid-Open No. 7-169135 evaluates the reliability of a magneto-optical disk, which is considered to be less reliable than a magnetic disk, due to aging, and issues an alarm according to the state of deterioration. For the purpose of emitting,
Means for grasping the deterioration state of the magneto-optical disk and deterioration state warning means for giving a warning to the execution program when an abnormal value of deterioration exceeds a reference value are provided.

【0006】一方、大規模なデイスクサブシステムの信
頼性や処理能力を向上させるための代替パス管理技術と
しては、特開昭63−104126号公報、特開平5−100801号
公報等に開示されたものがある。
On the other hand, alternative path management techniques for improving the reliability and processing capacity of a large-scale disk subsystem are disclosed in JP-A-63-104126 and JP-A-5-100801. There is something.

【0007】特開昭63−104126号公報の「ディスクサブ
システムへのエラーリトライ方式」は、障害パスに対す
る無駄なリトライ回数の制御を目的として、ディスクサ
ブシステムへのアクセス時に発生した障害の回数を記憶
するエラーカウンタを設け、カウントアップされたエラ
ーカウンタの値が所定の値以上になったとき、アクセス
するパスを代替パスに切り替えてリトライ動作を繰り返
すことでエラー処理を効率化するものである。
Japanese Patent Application Laid-Open No. 63-104126 discloses an "error retry method for a disk subsystem" for the purpose of controlling the number of unnecessary retries for a failed path. An error counter to be stored is provided, and when the counted-up error counter value becomes equal to or more than a predetermined value, the path to be accessed is switched to an alternative path and a retry operation is repeated to improve the efficiency of error processing.

【0008】特開平5−100801号公報の「ディスクサブ
システムの高信頼化方式」は、現用系、予備系の2系を
備えたオフライン処理系のドライブを対象に、正、副ペ
アドライブに同一データを書込むオンライン処理系のよ
うなコスト高を避けて、かつ、ドライブのアクセス障害
に対する耐障害性を向上することを目的として、現用ド
ライブに対するアクセス時に発生した訂正可能なデータ
転送系の障害の回数をドライブ毎に計数し、この発生回
数が予定値を超えた現用ドライブの内容を予備ドライブ
にコピーして、その予備ドライブを現用ドライブの代替
として使用するものである。
Japanese Patent Laid-Open Publication No. Hei 5-100801 discloses a "high reliability system for a disk subsystem", which is used for a drive of an off-line processing system having two systems, an active system and a standby system. In order to avoid the high cost of online processing systems that write data and to improve the fault tolerance against drive access failures, correctable data transfer system failures that occur when accessing the current drive are The number of times is counted for each drive, the contents of the current drive in which the number of occurrences exceeds a predetermined value are copied to the spare drive, and the spare drive is used as a substitute for the current drive.

【0009】[0009]

【発明が解決しようとする課題】従来の代替パスの管理
方式では、入出力テスト(test I/O)方式によりFC−
ALの動作状態を確認していたが、この方式では正常・異
常の2値判定しかできなかった。そのため、固定障害の
検知およびその延長でのパス切り離しは実現できても、
間欠的な障害が長時間発生する事象は自動的に検知でき
ず、オペレータがシステムの動作状況を定期的に監視す
る必要があった。
In a conventional alternative path management method, an FC-input / output (test I / O) method is used.
Although the operating state of the AL was confirmed, this method was only able to make a binary decision between normal and abnormal. Therefore, even if the detection of a fixed failure and the disconnection of the path in the extension can be realized,
An event in which an intermittent failure occurs for a long time cannot be automatically detected, and the operator needs to periodically monitor the operation state of the system.

【0010】代替パス管理方式の切り替え動作は、一般
的にホストコンピュータのファイルシステムで実行され
るが、使用中の正のI/Oパスで固定障害が発生すれば、
自動的に副のI/Oパスに切り替えられるが、正副の両方
のI/Oパスに間欠的な障害が発生した場合には、次のよ
うな問題点がある。
The switching operation of the alternative path management method is generally executed in the file system of the host computer, but if a fixed failure occurs in the used positive I / O path,
Switching to the secondary I / O path is automatically performed. However, if an intermittent failure occurs in both the primary and secondary I / O paths, the following problem occurs.

【0011】a)正のI/Oパスに間欠障害を検知すると
副のI/Oパスに切り替える。
A) When an intermittent failure is detected in the positive I / O path, the path is switched to the secondary I / O path.

【0012】b)続いて、副のI/Oパスに間欠障害を検
出すると正のI/Oパスに切り替える。
B) Subsequently, when an intermittent failure is detected in the secondary I / O path, the path is switched to the positive I / O path.

【0013】c)a)とb)の動作を数分程度繰り返
す。
C) The operations a) and b) are repeated for several minutes.

【0014】d)正、副のI/Oパスの間欠障害が復旧さ
れる。
D) The intermittent failure of the primary and secondary I / O paths is recovered.

【0015】e)a)〜d)が断続的に発生する。E) a) to d) occur intermittently.

【0016】このようなパターンで間欠障害が発生する
と、利用者のI/O要求はリトライ動作によって結果的に
は成功するが、処理時間は遅延して、業務プログラムが
所定時間内に終了しないという問題点があった。
When an intermittent failure occurs in such a pattern, the user's I / O request succeeds as a result of the retry operation, but the processing time is delayed and the business program does not end within a predetermined time. There was a problem.

【0017】本発明の目的は、上述の問題点を解消し
て、間欠的な障害が長時間発生する事象を自動的に検知
して、障害パスを自動的に代替パスから切り離すことが
できる代替パス管理方法およびシステムを提供すること
にある。
An object of the present invention is to solve the above-mentioned problems, to automatically detect an event in which an intermittent failure occurs for a long time, and to automatically disconnect a failed path from an alternative path. A path management method and system are provided.

【0018】[0018]

【課題を解決するための手段】本発明の代替パス管理方
法は、複数のパスの動作状態及び試験コマンドの実行結
果の情報を所定の周期毎に収集し、収集した情報を統計
的に処理してパスに異常の有無を判定し、判定の結果、
異常ありと判定したパスを代替パスから切り離すことを
特徴とする。
An alternative path management method according to the present invention collects information on the operation states of a plurality of paths and the execution results of test commands at predetermined intervals, and statistically processes the collected information. To determine whether there is an error in the path.
The path determined to be abnormal is separated from the alternative path.

【0019】複数のパスの動作状態及び試験コマンドの
実行結果の情報は、ファイル装置に対して入出力テスト
コマンドを発行して収集し、入出力異常によりリトライ
動作が発生した場合、間欠障害とみなし、リトライ発生
情報を保持するか、または、ファイル装置に対してデー
タの読み書きを実行する時に異常となったI/Oイベン
トの履歴を保持することができる。
Information on the operation states of a plurality of paths and the execution results of the test commands are collected by issuing an I / O test command to the file device. If a retry operation occurs due to an I / O error, it is regarded as an intermittent failure. , Retry occurrence information, or a history of I / O events that have become abnormal when data is read from or written to the file device.

【0020】そして、所定のリトライ発生情報取得時間
間隔でリトライ発生情報を取得して、レコードとして格
納すし、格納された統計情報を定期的に読み出して、所
定の間欠障害監視時間の間にリトライ発生情報が連続し
ていれば、統計情報を編集した後にしきい値をオーバし
たかを判定してパスの障害を認定し、障害として認定さ
れたパスに対して、オペレータに警報を通知し、代替パ
スから切り離すことによって、システムの円滑な運用環
境を提供することができる。
Then, retry occurrence information is acquired at a predetermined retry occurrence information acquisition time interval, stored as a record, and the stored statistical information is periodically read out. If the information is continuous, it is determined whether the threshold value has been exceeded after editing the statistical information, the path failure is identified, and an alarm is notified to the operator for the path identified as the failure, and the replacement is performed. By separating from the path, a smooth operation environment of the system can be provided.

【0021】[0021]

【発明の実施の形態】次に本発明の実施例について、図
面を用いて説明する。図1は本発明の1実施例のシステ
ム構成図である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a system configuration diagram of one embodiment of the present invention.

【0022】図1に示す代替パス管理方式は、業務アプ
リケーション6からのデータを処理するファイルシステ
ム1と、このファイルシステム1における入出力動作を監
視する統計情報管理装置2、およびFC−AL装置4やファイ
ル装置5を制御するデバイスドライバ3により構成され
る。
The alternative path management method shown in FIG. 1 uses a file system 1 for processing data from a business application 6, a statistical information management device 2 for monitoring input / output operations in the file system 1, and an FC-AL device 4 And a device driver 3 for controlling the file device 5.

【0023】ファイルシステム1は、業務アプリケーシ
ョン6から要求のあったデータを受付け、分割・組立、
スケジュール、リトライ等の管理を行うI/Oイベント管
理部11、デバイスドライバに発行したI/Oを管理するI
/O制御部12、testI/Oの実行、代替パスの切り替え、
切り戻しといったパス管理を行うパス管理部13、ファイ
ルシステム1と外部を繋ぐアプリケーション・プログラ
ム・インターフェイス(API)部14により構成される。
The file system 1 receives data requested by the business application 6 and splits / assembles the data.
I / O event management unit 11 that manages schedules and retries, and I that manages I / O issued to device drivers
/ O control unit 12, execution of testI / O, switching of alternative path,
The system includes a path management unit 13 that performs path management such as switching back, and an application program interface (API) unit 14 that connects the file system 1 to the outside.

【0024】入出力テスト(test I/O)方式とは、一
定時間以内に応答があるまでI/Oを発行し続ける手順で
あり、ファイル装置5から応答があればFC−AL装置4のパ
スは正常と認識するが、リトライによるI/Oが異常、無
応答ならばパスを異常と認識し、他のパスへ切り替え
る。
The input / output test (test I / O) method is a procedure for continuously issuing I / O until a response is received within a certain period of time, and if a response is received from the file device 5, the path of the FC-AL device 4 Is recognized as normal, but the I / O due to the retry is abnormal, and if there is no response, the path is recognized as abnormal and the path is switched to another path.

【0025】統計情報管理装置2は、ファイルシステム1
で発生したI/Oイベントの動作履歴を取得するイベント
情報取得部21、取得したイベント情報を分析し間欠障害
の判定を行う統計情報判定部22、ファイルシステム1が
使用するパスの切り離し等の制御を行うパス制御部23、
統計情報を格納する統計情報ファイル24、オペレータに
警報を通知する警報通知部25により構成される。
The statistical information management device 2 has a file system 1
Information acquisition unit 21 that acquires the operation history of I / O events that occurred in the server, statistical information determination unit 22 that analyzes the acquired event information and determines intermittent failures, and controls the separation of paths used by the file system 1 Path control unit 23 that performs
It is composed of a statistical information file 24 for storing statistical information and an alarm notifying unit 25 for notifying an operator of an alarm.

【0026】デバイスドライバ3は、ファイル装置5を管
理するディスク制御部31とFC−AL装置4を管理するFC−A
L制御部32により構成される。
The device driver 3 has a disk controller 31 for managing the file device 5 and an FC-A for managing the FC-AL device 4.
An L control unit 32 is provided.

【0027】次に、図1に示す実施例の動作を図2のフロ
ーチャートを参照して詳細に説明する。
Next, the operation of the embodiment shown in FIG. 1 will be described in detail with reference to the flowchart of FIG.

【0028】図1の第一の実施例は、test I/Oにおけ
るリトライ動作の発生状況を統計的に監視することで、
間欠障害が長時間発生する事象を検知する例である。
The first embodiment shown in FIG. 1 statistically monitors the status of retry operation in test I / O,
This is an example of detecting an event in which an intermittent failure occurs for a long time.

【0029】先ず、test I/Oによるパスの状態を確認
する(ステップS1)。ファイルシステム1ではパス管理
部13においてFC−AL装置4の動作状態を確認するため
に、デバイスドライバ3を利用してファイル装置5に対し
てtest I/Oを発行すると共に、testI/OでI/O異常に
よりリトライ動作が発生した場合、間欠障害とみなし、
リトライ発生情報をパス管理部13で保持する。
First, the state of a path by test I / O is confirmed (step S1). In the file system 1, the path management unit 13 issues a test I / O to the file device 5 using the device driver 3 in order to check the operation state of the FC-AL device 4, and uses the test I / O to If a retry operation occurs due to a / O error, it is regarded as an intermittent failure,
The retry occurrence information is stored in the path management unit 13.

【0030】次に、統計情報の取得を行う(ステップS
2)。イベント情報取得部21では、ファイルシステム1の
パス管理部13からリトライ発生情報取得時間である1分
間隔でリトライ発生情報を取得し、統計情報ファイル24
にレコードとして格納する。
Next, statistical information is obtained (step S
2). The event information acquisition unit 21 acquires retry occurrence information at one-minute intervals, which is the retry occurrence information acquisition time, from the path management unit 13 of the file system 1, and obtains the statistical information file 24.
And store it as a record.

【0031】次に、統計情報を編集した後にしきい値を
オーバしたかを判定する(ステップS3)。統計情報判定
部22では、統計情報ファイル24に格納された統計情報を
定期的に読み出して、間欠障害監視時間である10分の間
にリトライ発生情報が連続していれば、パスを障害とし
て認定する。
Next, it is determined whether the threshold value has been exceeded after the statistical information has been edited (step S3). The statistical information determination unit 22 periodically reads out the statistical information stored in the statistical information file 24, and if the retry occurrence information is continuous during the intermittent failure monitoring time of 10 minutes, identifies the path as a failure. I do.

【0032】次に、障害パスへのアクションを実行する
(ステップS4)。障害として認定されたパスは、統計情
報判定部22から警報通知部25にアラームが上がりオペレ
ータに警報通知される。さらに、パス制御部23によっ
て、代替パスから切り離されるが、これは、パス制御部
23からファイルシステム1のパス管理部13にパス切り離
し通知によって実現される。
Next, an action for the failed path is executed (step S4). An alarm is raised from the statistical information determination unit 22 to the alarm notification unit 25 for a path recognized as a failure, and an alarm is notified to the operator. Further, the path is separated from the alternative path by the path control unit 23.
This is realized by the path disconnection notification from the path 23 to the path management unit 13 of the file system 1.

【0033】次に、本発明の第2の実施例を説明する。Next, a second embodiment of the present invention will be described.

【0034】第2の実施例としては、I/Oイベントの障
害発生状況を監視する方式があるが、この実施例の動作
を図3のフローチャートを参照して詳細に説明する。
As a second embodiment, there is a method of monitoring the occurrence of an I / O event failure. The operation of this embodiment will be described in detail with reference to the flowchart of FIG.

【0035】図1によるこの実施例は、ファイルシステ
ムにおけるI/Oイベントの履歴を観察し、代替パス単位
における異常の発生状況を統計的に算出することで、間
欠障害が長時間発生する事象を検知する例である。
In this embodiment shown in FIG. 1, an event in which an intermittent failure occurs for a long time is obtained by observing the history of I / O events in the file system and statistically calculating the occurrence of an abnormality in the unit of an alternative path. This is an example of detection.

【0036】まず、ファイルシステムで取り扱うI/Oイ
ベントの状態を確認する(ステップT1)。ファイルシス
テム1ではI/Oイベント管理部11において、デバイスド
ライバ3を経由してファイル装置5に対してデータの読み
書きを実行するが、この時に異常となったI/Oイベント
の履歴をI/Oイベント管理部11で保持する。
First, the status of an I / O event handled by the file system is confirmed (step T1). In the file system 1, the I / O event management unit 11 reads and writes data from and to the file device 5 via the device driver 3, and stores a history of I / O events that have become abnormal at this time. The event management unit 11 holds the information.

【0037】次に、統計情報の取得を行う(ステップT
2)。イベント情報取得部21では、ファイルシステム1の
I/Oイベント管理部11からI/Oエラーイベント発生情報
取得時間である1分間隔でI/Oイベント履歴情報を取得
し、統計情報ファイル24にレコードとして格納する。
Next, statistical information is obtained (step T).
2). In the event information acquisition unit 21, the file system 1
I / O event history information is acquired from the I / O event management unit 11 at intervals of one minute, which is the acquisition time of I / O error event occurrence information, and stored as a record in the statistical information file 24.

【0038】次に、統計情報を編集し、しきい値をオー
バしたかを算出する(ステップT3)。統計情報判定部22
では、統計情報ファイル24に格納された統計情報を定期
的に読み出して、間欠障害監視時間である10分の間にI
/O異常となったI/Oイベントの履歴が連続していれ
ば、パスを障害として認定する。
Next, the statistical information is edited and it is calculated whether the threshold value has been exceeded (step T3). Statistical information judgment unit 22
Then, the statistical information stored in the statistical information file 24 is periodically read out, and the intermittent failure monitoring time is set to 10 minutes.
If the history of I / O events that have caused an I / O error is continuous, the path is identified as a failure.

【0039】次に、障害パスへのアクションを実行する
(ステップT4)。障害として認定されたパスは、統計情
報判定部22から警報通知部25にアラームが上がりオペレ
ータに警報通知される。さらに、パス制御部23によっ
て、代替パスから切り離されるが、これは、パス制御部
23からファイルシステム1のパス管理部にパス切り離し
通知によって実現される。
Next, an action for the failed path is executed (step T4). An alarm is raised from the statistical information determination unit 22 to the alarm notification unit 25 for a path recognized as a failure, and an alarm is notified to the operator. Further, the path is separated from the alternative path by the path control unit 23.
This is realized by a path disconnection notification from 23 to the path management unit of the file system 1.

【0040】なお、本発明は、代替パスが2本のみなら
ず3本以上の構成でも有効であり、また、ファイル装置
以外のメディアとしてテープ、プリンタ装置へも同様の
効果が期待できる。
The present invention is effective not only in the case where the number of the alternative paths is two but also in the case where the number of the alternative paths is three or more, and the same effect can be expected for a tape or a printer as a medium other than the file device.

【0041】これらの実施例の第一の効果は、パスの間
欠障害を早期に検知し代替パス群から切り離すことが可
能となった。この結果、I/O異常時におけるパスの切り
替え、切り戻し動作の頻発によるI/O遅延やI/O要求を
何度もリトライすることがなくなったため、業務プログ
ラムを遅延することなく処理できることになる。 第二
の効果は、パスの間欠障害を早期に検知し切り離しでき
るため、データ書き戻しによるI/O性能劣化がなくなっ
たことにある。すなわち、ファイル装置のデータを2重
化するミラー構成を採用すると、障害復旧後にデータの
一貫性を保証するために、正常なファイル装置から障害
となったファイル装置にデータを書き込むが、このとき
発生する入出力負荷によって、業務プログラムの性能に
支障を与えることがあった。しかし、本発明に寄れば、
パスの間欠障害を早期に検知し切り離しできるため、デ
ータ書き戻しによるI/O性能劣化がなくなった。
The first effect of these embodiments is that an intermittent failure of a path can be detected at an early stage and separated from a group of alternative paths. As a result, I / O delay and I / O request due to frequent occurrence of path switching and switching back at the time of I / O abnormality are not retried many times, so that the business program can be processed without delay. . The second effect is that the intermittent failure of the path can be detected and separated at an early stage, so that the I / O performance deterioration due to the data write back has been eliminated. In other words, if a mirror configuration that duplicates data in the file device is adopted, data is written from a normal file device to the failed file device in order to guarantee data consistency after recovery from the failure. In some cases, the performance of business programs is affected by the input / output load. However, according to the present invention,
Intermittent failures of the path can be detected and separated early, eliminating I / O performance degradation due to data writeback.

【0042】第三の効果は、間欠障害の発生状況を統計
情報として採取しているため、オペレータがシステム分
析に利用できるようになった。
The third effect is that the occurrence status of the intermittent failure is collected as statistical information, so that the operator can use it for system analysis.

【0043】[0043]

【発明の効果】複数のパスの動作状態及び試験コマンド
の実行結果の情報を所定の周期毎に収集し、収集した情
報を統計的に処理してパスに異常の有無を判定し、判定
の結果、異常ありと判定したパスを代替パスから切り離
すことにより、間欠的な障害が長時間発生する事象を自
動的に検知して、障害パスを自動的に代替パスから切り
離すことができる効果がある。
According to the present invention, information on the operation states of a plurality of paths and the execution results of test commands are collected at predetermined intervals, and the collected information is statistically processed to determine whether there is an abnormality in the paths. By separating the path determined to be abnormal from the alternative path, an event in which an intermittent failure occurs for a long time can be automatically detected, and the failed path can be automatically separated from the alternative path.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の1実施例のシステム構成を示すブロッ
ク図である。
FIG. 1 is a block diagram showing a system configuration according to an embodiment of the present invention.

【図2】test I/Oによる第1実施例のフローチャート
である。
FIG. 2 is a flowchart of a first embodiment using test I / O.

【図3】I/Oイベントの監視による第2実施例のフロー
チャートである。
FIG. 3 is a flowchart of a second embodiment based on monitoring of I / O events.

【符号の説明】[Explanation of symbols]

1 ファイルシステム 2 統計情報管理装置 3 デバイスドライバ 4 FC-AL装置 5 ファイル装置 6 業務アプリケーション 11 I/Oイベント管理部 12 I/O制御部 13 パス管理部 14 API部 21 イベント情報取得部 22 統計情報判定部 23 パス制御部 24 統計情報ファイル 25 警報通知部 31 ディスク制御部 32 FC−AL制御部 S1〜S4,T1〜T4 ステップ DESCRIPTION OF SYMBOLS 1 File system 2 Statistical information management device 3 Device driver 4 FC-AL device 5 File device 6 Business application 11 I / O event management unit 12 I / O control unit 13 Path management unit 14 API unit 21 Event information acquisition unit 22 Statistical information Judgment unit 23 Path control unit 24 Statistical information file 25 Alarm notification unit 31 Disk control unit 32 FC-AL control unit S1-S4, T1-T4 steps

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 ホストコンピュータとファイル装置間に
予備のパスを含み複数のパスを有する代替パス方式のパ
ス切り替え管理方法において、 前記複数のパスの動作状態及び試験コマンドの実行結果
の情報を所定の周期毎に収集し、 前記収集した情報を統計的に処理して前記パスに異常の
有無を判定し、 前記判定の結果、異常ありと判定したパスを代替パスか
ら切り離すことを特徴とする代替パス管理方法。
1. A path switching management method of an alternative path method having a plurality of paths including a spare path between a host computer and a file device, wherein information on an operation state of the plurality of paths and an execution result of a test command are stored in a predetermined manner. An alternative path, which is collected for each cycle, statistically processes the collected information to determine whether the path is abnormal, and, as a result of the determination, separates the path determined to be abnormal from the alternative path. Management method.
【請求項2】 ファイル装置の動作状態を確認するた
めに、ファイル装置に対して入出力テストコマンドを発
行して、入出力異常によりリトライ動作が発生した場
合、間欠障害とみなし、リトライ発生情報を保持する入
出力テストコマンドによるパスの状態確認ステップと、 所定のリトライ発生情報取得時間間隔でリトライ発生情
報を取得し、レコードとして格納する統計情報取得ステ
ップと、 格納された統計情報を定期的に読み出して、所定の間欠
障害監視時間の間にリトライ発生情報が連続していれ
ば、統計情報を編集した後にしきい値をオーバしたかを
判定してパスを障害として認定する障害認定ステップ
と、 障害として認定されたパスに対して、オペレータに警報
を通知し、代替パスから切り離す、障害パスへのアクシ
ョン実行ステップとを含む請求項1による代替パス管理
方法。
2. An I / O test command is issued to a file device in order to confirm the operation state of the file device. If a retry operation occurs due to an input / output error, the retry operation is regarded as an intermittent failure and the retry occurrence information is determined. A path status check step based on the held I / O test command, a retry occurrence information acquisition step for acquiring retry occurrence information at a predetermined retry occurrence information acquisition time interval, and a statistical information acquisition step for storing as a record, and periodically reading the stored statistical information. If the retry occurrence information is continuous during the predetermined intermittent failure monitoring time, a step for determining whether the threshold value has been exceeded after editing the statistical information and certifying the path as a failure; Alerts the operator to a path that has been certified as 2. The alternative path management method according to claim 1, further comprising:
【請求項3】 ファイル装置に対してデータの読み書き
を実行する時に異常となったI/Oイベントの履歴を保
持する、I/Oイベントの状態確認ステップと、 所定のI/Oエラーイベント発生情報取得時間間隔でI
/Oイベント履歴情報を取得し、レコードとして格納す
る、統計情報取得ステップと、 格納された統計情報を定期的に読み出して、所定の間欠
障害監視時間の間に入出力異常となったI/Oイベント
の履歴が連続していれば、統計情報を編集し、しきい値
をオーバしたかを算出するパスの障害認定ステップと、 障害として認定されたパスに対して、オペレータに警報
を通知し、代替パスから切り離す、障害パスへのアクシ
ョン実行ステップとを含む請求項1による代替パス管理
方法。
3. An I / O event status check step for retaining a history of I / O events that have become abnormal when data is read from or written to a file device, and predetermined I / O error event occurrence information I at acquisition time interval
A statistical information obtaining step of obtaining I / O event history information and storing it as a record; and periodically reading out the stored statistical information to obtain an I / O that has an input / output error during a predetermined intermittent fault monitoring time. If the event history is continuous, the statistical information is edited, and a failure detection step of the path for calculating whether or not the threshold has been exceeded, and an alarm is notified to the operator for the path that has been recognized as a failure, 2. The alternative path management method according to claim 1, further comprising the step of: performing an action on the failed path, separating from the alternative path.
【請求項4】 所定のI/Oエラーイベント発生情報取
得時間間隔を1分間とし、所定の間欠障害監視時間を1
0分間とする請求項2または3に記載の代替パス管理方
法。
4. A predetermined I / O error event occurrence information acquisition time interval is one minute, and a predetermined intermittent fault monitoring time is one.
4. The alternative path management method according to claim 2, wherein the time is set to 0 minutes.
【請求項5】 業務アプリケーションからのデータを処
理するファイルシステムにおける入出力動作を監視する
統計情報管理装置、及びファイル装置を制御するデバイ
スドライバにより構成されるシステムのホストコンピュ
ータとファイル装置間に予備のパスを含み複数のパスを
有する代替パス方式の代替パス管理システムにおいて、 業務アプリケーションから要求のあったデータを受付、
分割・組立、スケジュール、リトライ等の管理を行い、
デバイスドライバに発行したI/Oを管理し、一定時間
以内に応答があるまでI/Oを発行し続けて、ファイル
装置から応答があればパスは正常と認識するが、リトラ
イによるI/Oが異常、無応答ならばパスを異常と認識
し、他のパスへ切り替えるファイルシステムと、 ファイルシステムで発生したI/Oイベントの動作履歴
を取得し、取得したイベント情報を分析して間欠障害の
判定を行い、ファイルシステムが使用するパスの切り離
しの制御を行い、統計情報を格納し、オペレータに警報
を通知する統計情報管理装置と、 ファイル装置と高速ファイル装置を管理するデバイスド
ライバと、を有することを特徴とする代替パス管理シス
テム。
5. A statistical information management device for monitoring an input / output operation in a file system for processing data from a business application, and a spare computer between a file computer and a host computer of a system including a device driver for controlling the file device. In an alternative path management system of an alternative path method having a plurality of paths including a path, receiving data requested from a business application,
Manage division / assembly, schedule, retry, etc.
The I / O issued to the device driver is managed, and the I / O is continuously issued until a response is received within a certain period of time. If there is a response from the file device, the path is recognized as normal, but the I / O due to the retry fails. If there is an error or no response, the path is recognized as abnormal, the file system that switches to another path, and the operation history of I / O events that have occurred in the file system are acquired, and the acquired event information is analyzed to determine an intermittent failure. And a statistical information management device that controls disconnection of a path used by the file system, stores statistical information, and notifies an operator of an alarm, and a device driver that manages the file device and the high-speed file device. An alternative path management system characterized by the following.
【請求項6】 ファイルシステムは、業務アプリケーシ
ョンから要求のあったデータを受付、分割・組立、スケ
ジュール、リトライ等の管理を行うI/Oイベント管理部
と、デバイスドライバに発行したI/Oを管理するI/O
制御部と、一定時間以内に応答があるまでI/Oを発行
し続けて、ファイル装置から応答があればパスは正常と
認識するが、リトライによるI/Oが異常、無応答なら
ばパスを異常と認識し、他のパスへ切り替えるパス管理
部とを有し、 統計情報管理装置は、ファイルシステムで発生したI/
Oイベントの動作履歴を取得するイベント情報取得部
と、取得したイベント情報を分析して間欠障害の判定を
行う統計情報判定部と、ファイルシステムが使用するパ
スの切り離しの制御を行うパス制御部と、統計情報を格
納する統計情報ファイルと、オペレータに警報を通知す
る警報通知部とを有し、 デバイスドライバは、ファイル装置を管理するディスク
制御部と、高速ファイル装置を管理するFC−AL制御部と
を有する、請求項5に記載の代替パス管理システム。
6. An I / O event management unit for receiving data requested from a business application and managing division / assembly, schedule, retry, etc., and manages I / O issued to a device driver. I / O to do
The controller and the control unit continue to issue I / O until a response is received within a certain period of time. If there is a response from the file device, the path is recognized as normal. A path management unit for recognizing an abnormality and switching to another path;
An event information acquisition unit for acquiring an operation history of an O event; a statistical information determination unit for analyzing the acquired event information to determine an intermittent failure; and a path control unit for controlling disconnection of a path used by the file system. , A statistical information file for storing statistical information, and an alarm notifying unit for notifying an operator of an alarm. The device driver includes a disk control unit for managing the file device and an FC-AL control unit for managing the high-speed file device. The alternative path management system according to claim 5, comprising:
JP33861099A 1999-11-29 1999-11-29 Management method and system for substituting path system Pending JP2001154929A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33861099A JP2001154929A (en) 1999-11-29 1999-11-29 Management method and system for substituting path system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33861099A JP2001154929A (en) 1999-11-29 1999-11-29 Management method and system for substituting path system

Publications (1)

Publication Number Publication Date
JP2001154929A true JP2001154929A (en) 2001-06-08

Family

ID=18319807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33861099A Pending JP2001154929A (en) 1999-11-29 1999-11-29 Management method and system for substituting path system

Country Status (1)

Country Link
JP (1) JP2001154929A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154880A (en) * 2004-11-04 2006-06-15 Hitachi Ltd Information processing system and access method
JP2007157089A (en) * 2005-12-09 2007-06-21 Fujitsu Ltd Storage virtualization device and computer system using the same
JP2007265243A (en) * 2006-03-29 2007-10-11 Hitachi Ltd Computer system and logical path switching method
JP2008158666A (en) * 2006-12-21 2008-07-10 Nec Corp Multipath system for storage device, its failure identification method, and program
US7649844B2 (en) 2004-12-29 2010-01-19 Cisco Technology, Inc. In-order fibre channel packet delivery
US7830809B2 (en) 2002-06-12 2010-11-09 Cisco Technology, Inc. Methods and apparatus for characterizing a route in a fibre channel fabric
US7876711B2 (en) 2003-06-26 2011-01-25 Cisco Technology, Inc. Fibre channel switch that enables end devices in different fabrics to communicate with one another while retaining their unique fibre channel domain—IDs
US7916628B2 (en) 2004-11-01 2011-03-29 Cisco Technology, Inc. Trunking for fabric ports in fibre channel switches and attached devices
US8462790B2 (en) 2002-04-01 2013-06-11 Cisco Technology, Inc. Label switching in fibre channel networks
US8605624B2 (en) 2002-11-27 2013-12-10 Cisco Technology, Inc. Methods and devices for exchanging peer parameters between network devices

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9350653B2 (en) 2002-04-01 2016-05-24 Cisco Technology, Inc. Label switching in fibre channel networks
US8462790B2 (en) 2002-04-01 2013-06-11 Cisco Technology, Inc. Label switching in fibre channel networks
US7830809B2 (en) 2002-06-12 2010-11-09 Cisco Technology, Inc. Methods and apparatus for characterizing a route in a fibre channel fabric
US8605624B2 (en) 2002-11-27 2013-12-10 Cisco Technology, Inc. Methods and devices for exchanging peer parameters between network devices
US7876711B2 (en) 2003-06-26 2011-01-25 Cisco Technology, Inc. Fibre channel switch that enables end devices in different fabrics to communicate with one another while retaining their unique fibre channel domain—IDs
US8625460B2 (en) 2003-06-26 2014-01-07 Cisco Technology, Inc. Fibre channel switch that enables end devices in different fabrics to communicate with one another while retaining their unique fibre channel domain—IDs
US8750094B2 (en) 2004-11-01 2014-06-10 Cisco Technology, Inc. Trunking for fabric ports in Fibre channel switches and attached devices
US7916628B2 (en) 2004-11-01 2011-03-29 Cisco Technology, Inc. Trunking for fabric ports in fibre channel switches and attached devices
US8036238B2 (en) 2004-11-04 2011-10-11 Hitachi, Ltd. Information processing system and access method
JP4617847B2 (en) * 2004-11-04 2011-01-26 株式会社日立製作所 Information processing system and access method
JP2006154880A (en) * 2004-11-04 2006-06-15 Hitachi Ltd Information processing system and access method
US7649844B2 (en) 2004-12-29 2010-01-19 Cisco Technology, Inc. In-order fibre channel packet delivery
JP4486921B2 (en) * 2005-12-09 2010-06-23 富士通株式会社 Storage virtualization apparatus and computer system using the same
US7467258B2 (en) 2005-12-09 2008-12-16 Fujitsu Limited Storage virtualizer and computer system using the same
JP2007157089A (en) * 2005-12-09 2007-06-21 Fujitsu Ltd Storage virtualization device and computer system using the same
US7992048B2 (en) 2006-03-29 2011-08-02 Hitachi, Ltd. Computer system and method for performing failure detecting processing for a logical path
JP2007265243A (en) * 2006-03-29 2007-10-11 Hitachi Ltd Computer system and logical path switching method
JP2008158666A (en) * 2006-12-21 2008-07-10 Nec Corp Multipath system for storage device, its failure identification method, and program

Similar Documents

Publication Publication Date Title
US7409582B2 (en) Low cost raid with seamless disk failure recovery
CN102880522B (en) Hardware fault-oriented method and device for correcting faults in key files of system
JP5078235B2 (en) Method for maintaining track data integrity in a magnetic disk storage device
US7434097B2 (en) Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US7971093B1 (en) Apparatus and method to proactively address hard disk drive inefficiency and failure
US7747800B2 (en) Storage system comprising power saving function
US8219748B2 (en) Storage system comprising both power saving and diagnostic functions
US20080077825A1 (en) Tracking error events relating to data storage drives and/or media of automated data storage library subsystems
US20070174720A1 (en) Apparatus, system, and method for predicting storage device failure
US7836268B2 (en) Method, apparatus, and system for controlling data storage
US20080256397A1 (en) System and Method for Network Performance Monitoring and Predictive Failure Analysis
US7236454B2 (en) Loop diagnosis system and method for disk array apparatuses
JP2001154929A (en) Management method and system for substituting path system
CN105607973B (en) Method, device and system for processing equipment fault in virtual machine system
JP4807172B2 (en) Disk array device, patrol diagnosis method, and patrol diagnosis control program
US20080010494A1 (en) Raid control device and failure monitoring method
JP2976780B2 (en) Information recording / reproducing device
US20080183987A1 (en) Storage system, storage control method, and storage control program
US10606490B2 (en) Storage control device and storage control method for detecting storage device in potential fault state
US20070136624A1 (en) Failure recovering method and recording apparatus
JPH1195933A (en) Disk array system
JP3063666B2 (en) Array disk controller
JP2004227449A (en) Diagnostic device for trouble in disk array device
JP3695856B2 (en) Magnetic disk controller
JP2009282848A (en) Abnormality determining apparatus