JP2008158666A - Multipath system for storage device, its failure identification method, and program - Google Patents
Multipath system for storage device, its failure identification method, and program Download PDFInfo
- Publication number
- JP2008158666A JP2008158666A JP2006344650A JP2006344650A JP2008158666A JP 2008158666 A JP2008158666 A JP 2008158666A JP 2006344650 A JP2006344650 A JP 2006344650A JP 2006344650 A JP2006344650 A JP 2006344650A JP 2008158666 A JP2008158666 A JP 2008158666A
- Authority
- JP
- Japan
- Prior art keywords
- storage device
- failure
- information
- path
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、ストレージデバイスのマルチパスシステム、その障害箇所特定方法及びプログラムに関し、特に、ホストコンピュータとストレージデバイスとが複数のアクセスパスで接続されているストレージデバイスのマルチパスシステム、その障害箇所特定方法及びプログラムに関する。 TECHNICAL FIELD The present invention relates to a storage device multipath system, a failure location identifying method thereof, and a program. And the program.
ストレージデバイスのマルチパスシステムは、複数のアクセスパスを経由してストレージデバイスを制御するコンピュータシステムであり、1つのアクセスパス上で障害が発生したときに、代替のアクセスパスを利用できるため、より信頼性の高いストレージ運用の形態として用いられている。 A storage device multipath system is a computer system that controls a storage device via a plurality of access paths. When a failure occurs on one access path, an alternative access path can be used. It is used as a form of highly efficient storage operation.
例えば、特許文献1に、従来のストレージデバイスのマルチパスシステムの一例が記載されている。同公報に記載されたストレージデバイスのマルチパスシステムは、ストレージデバイスとアクセスパスを関連付ける複数パス検出手段と、ホストコンピュータから与えられるユニークIDを記憶するためのストレージデバイスの記憶領域と、を備えて構成され各ストレージデバイスへの複数のアクセスパスを自動的に検出できるようになっている。より具体的には、前記複数パス検出手段は、ホストコンピュータから該当ストレージデバイスへの複数のアクセスパスのうち、任意の1本を使用し、ストレージデバイスに対するユニークIDをストレージデバイス内の記憶領域に書き込むことにより、ユニークなIDを持たないストレージデバイスへの適用を可能としている。
For example,
また、特許文献2には、上記のような複数の冗長なアクセスパスを持つシステムの異常部位の特定を短時間で行うための構成が開示されている。同公報によると、情報処理装置(ホストコンピュータ)は、あるアクセスパスによるデータ入出力要求を行った結果、ストレージ装置からの応答を所定時間内に受信できない場合に、アクセスパスの一部を変更して第2、第3のデータ入出力要求を試みるとともに、スイッチに対し各通信ポートの検査要求を発行し、前記第2、第3のデータ入出力要求に対する応答を所定時間内に受信せず、検査要求に対する応答を所定時間内に受信した場合には、アクセスパスの変更しなかった部分を異常と判定する。
上記のとおりストレージデバイスのマルチパスシステムにおいて障害発生時に、障害箇所の特定を短時間で行える構成が知られているが、定期的かつ網羅的な検査を実施するものではない。例えば、特許文献2に記載の方法では、入出力要求に対する応答未達等があった場合に、他のアクセスパスによる入出力要求の試行と、スイッチに対する検査要求(テストコマンド)の発行とを実行し、当該アクセスパスの障害箇所の特定を行うものとなっており、表面化していない潜在的な障害箇所を検出することはできないという問題点がある。
As described above, a configuration is known in which a failure location can be identified in a short time when a failure occurs in a multipath system of storage devices. However, periodic and exhaustive inspection is not performed. For example, in the method described in
本発明は、上記した事情に鑑みてなされたものであって、障害を確実かつ速やかに特定できる障害箇所特定機能を備えたストレージデバイスのマルチパスシステム、ストレージデバイスのマルチパスシステムの障害箇所特定方法及び障害箇所特定プログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and is a multi-path system for a storage device having a fault location specifying function that can specify a fault reliably and quickly, and a fault location specifying method for a multi-path system of a storage device The purpose is to provide a failure location identification program.
本発明の第1の視点によれば、ホストコンピュータとストレージデバイスとが複数のアクセスパスで接続されているストレージデバイスのマルチパスシステムであって、前記ホストコンピュータと前記ストレージデバイスとを接続するすべてのアクセスパスを検出する経路検出手段と、前記検出された各アクセスパスに対して所定の時間間隔で入出力要求を発行し、前記すべてのアクセスパスの障害発生状況を監視する経路監視手段と、前記各アクセスパスの障害発生状況から、障害が発生していると推定される構成要素をまとめた障害箇所情報を作成する障害箇所特定手段と、を備えたこと、を特徴とするストレージデバイスのマルチパスシステムが提供される。 According to a first aspect of the present invention, there is provided a multipath system of storage devices in which a host computer and a storage device are connected by a plurality of access paths, and all the systems that connect the host computer and the storage device are connected. Route detection means for detecting an access path, route monitoring means for issuing an input / output request for each detected access path at a predetermined time interval, and monitoring a failure occurrence status of all the access paths, Multipath of a storage device, characterized by comprising failure location identifying means for creating failure location information that summarizes components that are estimated to have failed from the failure occurrence status of each access path A system is provided.
本発明の第2の視点によれば、ホストコンピュータとストレージデバイスとが複数のアクセスパスで接続されているストレージデバイスのマルチパスシステムにおける障害箇所特定方法であって、前記マルチパスシステムに接続されたコンピュータが、前記ホストコンピュータと前記ストレージデバイスとを接続するすべてのアクセスパスを検出するステップと、前記マルチパスシステムに接続されたコンピュータが、前記検出された各アクセスパスに対して所定の時間間隔で入出力要求を発行し、前記すべてのアクセスパスの障害発生状況を監視するステップと、前記マルチパスシステムに接続されたコンピュータが、前記各アクセスパスの障害発生状況から、障害が発生していると推定される構成要素をまとめた障害箇所情報を作成するステップと、を含むこと、を特徴とするストレージデバイスのマルチパスシステムにおける障害箇所特定方法が提供される。 According to a second aspect of the present invention, there is provided a fault location identifying method in a multipath system of a storage device in which a host computer and a storage device are connected by a plurality of access paths, the host computer being connected to the multipath system. A computer detecting all access paths connecting the host computer and the storage device; and a computer connected to the multipath system configured to detect the access paths at predetermined time intervals. Issuing an I / O request and monitoring the failure occurrence status of all the access paths, and the computer connected to the multipath system has a failure from the failure occurrence status of each access path. Create failure location information that summarizes the estimated components Include a step, a failure place specifying method in a multi-pass system of the storage device, wherein is provided.
本発明の第3の視点によれば、ホストコンピュータとストレージデバイスとが複数のアクセスパスで接続されているストレージデバイスのマルチパスシステムに接続されたコンピュータに実行させるプログラムであって、前記ホストコンピュータと前記ストレージデバイスとを接続するすべてのアクセスパスを検出する処理と、前記検出された各アクセスパスに対して所定の時間間隔で入出力要求を発行し、前記すべてのアクセスパスの障害発生状況を監視する処理と、前記各アクセスパスの障害発生状況から、障害が発生していると推定される構成要素をまとめた障害箇所情報を作成する処理と、を前記ストレージデバイスのマルチパスシステムに接続されたコンピュータに実行させるプログラムが提供される。 According to a third aspect of the present invention, there is provided a program to be executed by a computer connected to a multipath system of a storage device in which a host computer and a storage device are connected by a plurality of access paths, A process for detecting all access paths connected to the storage device, and issuing an I / O request to each detected access path at a predetermined time interval, and monitoring the failure occurrence status of all the access paths Connected to the multipath system of the storage device, and processing for creating failure location information that summarizes the components that are estimated to have failed from the failure occurrence status of each access path. A program to be executed by a computer is provided.
本発明によれば、障害発生時に障害箇所を自動的かつ速やかに絞り込むことが可能となる。その理由は、所定の時間間隔で各アクセスパスに対し入出力要求を発行し、その結果により、障害箇所を抽出するよう構成したことにある。 According to the present invention, it is possible to automatically and quickly narrow down a failure location when a failure occurs. The reason is that an input / output request is issued to each access path at a predetermined time interval, and the failure location is extracted based on the result.
続いて、本発明を実施するための最良の形態について図面を参照して説明する。図1は、本発明の第1の実施形態に係るストレージデバイスのマルチパスシステムの構成を表したブロック図である。図1を参照すると、プログラム制御により動作する1台のホストコンピュータ1と、任意の個数のファイバチャネルスイッチ2と、任意の個数のストレージデバイス3と、これらを接続する任意の個数のファイバチャネルケーブル4が示されている。
Next, the best mode for carrying out the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of a multipath system for storage devices according to the first embodiment of the present invention. Referring to FIG. 1, one
ホストコンピュータ1は、経路検出手段11と、経路監視手段12と、障害箇所特定手段13と、経路情報14、構成情報15、障害箇所情報16を記憶する任意の記憶装置と、任意の個数のポート(ホストポート)17とを備えて構成されている。
The
なお、本実施形態におけるポート17には、一意なホストポート識別子I1,・・・,In(nは任意の正整数)が割り振られているものとする。
It is assumed that unique host port identifiers I1,..., In (n is an arbitrary positive integer) are allocated to the
経路検出手段11は、ホストコンピュータ1からストレージデバイス3内のディスク32に至るアクセスパスの追加及び削除を監視し、経路情報14及び構成情報15を更新する手段であり、ホストコンピュータ1に実行させるプログラムによって構成される。
The
ここで、アクセスパスとは、ホストコンピュータ1上のポート17から、ストレージデバイス3上のポート31へ至る経路を指す。アクセスパスは、例えば、ホストポート識別子(上記I1〜In)と、ターゲットポート識別子(T1〜T4;後述)の組み合わせで表すことができ、これらの識別子の組み合わせをアクセスパス識別子と呼ぶ。
Here, the access path refers to a path from the
経路監視手段12は、経路情報14に基づいてアクセスパス上に定期的に検査I/Oを発行し、その結果により、経路情報14の各アクセスパスの状態を監視し、前記経路情報14及び構成情報15に反映する手段であり、ホストコンピュータ1に実行させるプログラムによって構成される。
The route monitoring means 12 periodically issues an inspection I / O on the access path based on the
障害箇所特定手段13は、構成情報15と、経路監視手段12により更新された経路情報14に基づいて構成情報15を更新するとともに、更新後の構成情報15から、障害状態にあると推定される構成要素を抽出し、障害箇所情報16を作成する手段であり、ホストコンピュータ1に実行させるプログラムによって構成される。
The failure
ファイバチャネルスイッチ2は、ホストコンピュータ1のポート17又はストレージデバイス3側のポートに対向する任意の個数のポート21を備える。
The
ストレージデバイス3は、任意の個数のポート31と任意の個数のディスク32とを備える。ポート31は実施例内で一意なターゲットポート識別子T1,・・・,Tmが割り振られており、ディスク32には、実施例内で一意なディスク識別子D1,・・・,Dlが割り振られている。ここで、m,lは任意の正整数とする。
The storage device 3 includes an arbitrary number of
ファイバチャネルケーブル4は、ホストコンピュータ1上のポート17とファイバチャネルスイッチ2上のポート21間、ファイバチャネルスイッチ2上のポート21とストレージデバイス3上のポート31間をそれぞれ接続する。
The
経路情報14は、すべてのアクセスパスについて、アクセスパス識別子(Ix−Tx)と、ディスク32のディスク識別子(Dx)、アクセスパス状態(初期値は正常)とを関連付けて構成される。図2は、経路情報14をテーブルに格納した例である。なお、図2の状態では、すべてのアクセスパス状態は、「正常」となっている。
The
構成情報15は、ホストポート、ターゲットポート、ディスク、ファイバチャネルスイッチ等の構成名と、識別子で表された構成要素と、構成状態(初期値は正常)とを関連付けて構成される。図3は、更新後の構成情報15をテーブルに格納した例である。なお、図3の状態では、すべての構成状態は、「正常」となっている。
The
障害箇所情報16は、構成情報15から障害の発生していると推定される箇所をまとめた情報であり、構成情報15から構成状態が「正常」でないエントリを抽出したものとなっている。図4は、ホストポートI2、ターゲットポートT2、ターゲットポートT4、ファイバチャネルスイッチS2が「異常」であるとの構成情報から抽出された障害箇所情報16をテーブルに格納した例である。
The
続いて、上記ストレージデバイスのマルチパスシステムによる障害箇所特定処理の流れについて図面を参照して詳細に説明する。図5は、経路検出手段11による障害箇所特定の前に行われる準備処理(経路情報及び構成情報生成処理)の流れを表したフローチャートである。
Next, the flow of failure location identification processing by the multipath system of the storage device will be described in detail with reference to the drawings. FIG. 5 is a flowchart showing the flow of preparation processing (route information and configuration information generation processing) performed before the failure location is specified by the
図5を参照すると、経路検出手段11は、経路情報14と構成情報15を初期化する(ステップA1)。この段階では、経路情報14と構成情報15には、何も登録されていない状態(空のテーブル)となっている。
Referring to FIG. 5, the
続いて、経路検出手段11は、アクセスパスのスキャンを実施し、検出されたアクセスパスを経路情報14に登録する。このとき、検出されたアクセスパスに関連付けるアクセスパス状態は「正常」とする(ステップA2;図2参照)。
Subsequently, the
すべてのアクセスパスが検出されたあとで、経路検出手段11は、経路情報14から構成情報15を生成する。まず、経路検出手段11は、ホストコンピュータ1上のポート17について、それぞれのポートを1つの構成として構成情報15に登録する(ステップA3)。例えば、ポート種別(ホストポート)とホストポート識別子を組み合わせたものを構成名とし、ホストポート識別子を構成要素とすることができる。また、ここでも、構成状態は「正常」とする。以下、ステップA3で作成された構成をホストポート構成と呼ぶ。
After all access paths are detected, the
続いて、経路検出手段11は、ストレージデバイス3上のポート31について、それぞれのポートを1つの構成として構成情報15に登録する(ステップA4)。例えば、ポート種別(ターゲットポート)とターゲットポート識別子を組み合わせたものを構成名とし、ターゲットポート識別子を構成要素とすることができる。また、ここでも、構成状態は「正常」とする。以下、ステップA4で作成された構成をターゲットポート構成と呼ぶ。
Subsequently, the
更に、経路検出手段11は、ストレージデバイス3上のディスク32について、それぞれのディスクを1つの構成として構成情報15に登録する(ステップA5)。例えば、デバイス種別(ディスク)とディスク識別子を組み合わせたものを構成名とし、ディスク識別子を構成要素とすることができる。また、ここでも、構成状態は「正常」とする。以下、ステップA5で作成された構成をディスク構成と呼ぶ。
Further, the
更に、経路検出手段11は、ユーザからホストポート識別子、ターゲットポート識別子、ディスク識別子の任意の組み合わせによる追加の構成情報の入力を受け付け、任意の監視対象を構成情報15に登録する(ステップA6)。例えば、同一のファイバチャネルスイッチ2に接続されているホストコンピュータのポート17のホストポート識別子とストレージデバイスのポート31のターゲットポート識別子とを構成要素とすることで、ファイバチャネルスイッチ2の状態を監視対象に加えることができる。また、ここでも、構成状態は「正常」とする。以下、ステップA6で作成された構成を追加の構成要素と呼ぶ。
Furthermore, the
図6は、経路監視手段12による経路監視処理の流れを表したフローチャートである。図6を参照すると、経路監視手段12は、定期的に、例えば、n分に1回の割合で、経路情報14に登録されているすべてのアクセスパスを対象とし、アクセスパス状態の検査を実施する(ステップB1)。
FIG. 6 is a flowchart showing the flow of route monitoring processing by the route monitoring means 12. Referring to FIG. 6, the route monitoring means 12 periodically checks the access path status for all access paths registered in the
図7は、上記アクセスパス状態の検査の流れを表したフローチャートである。図7を参照すると、まず、経路監視手段12は、それぞれのアクセスパスに検査用I/Oを発行する(ステップC1)。
FIG. 7 is a flowchart showing the flow of checking the access path state. Referring to FIG. 7, first, the
経路監視手段12は、ステップC1で発行した検査用I/Oに対する応答が、規定時間、たとえば、20秒以内に戻ってきたか否かをチェックする(ステップC2)。検査用I/Oが戻ってきた場合、経路監視手段12は、結果用I/Oの結果(応答)の状態を確認する(ステップC3)。
The
ここで、結果用I/Oの結果(応答)が正常である場合は、経路監視手段12は、当該アクセスパスのアクセスパス状態を「正常」にする(ステップC4)。一方、検査用I/Oが規定時間経過しても戻ってこなかった場合や結果用I/Oの結果(応答)から異常が検出された場合、経路監視手段12は、経路で障害が発生していると判断し、当該アクセスパスのアクセスパス状態を「異常」に設定する(ステップC5)。
Here, when the result (response) of the result I / O is normal, the
再度図6を参照すると、以上のアクセスパス状態の検査の完了後、経路監視手段12は、次に、構成情報15に登録されているホストポート構成のそれぞれについて、経路情報14の内容からその障害発生有無を推定し、構成情報15の構成状態の部分を更新する処理を実行する(ステップB2)。
Referring to FIG. 6 again, after completion of the above access path status check, the
図8は、上記構成情報15の構成状態の部分の更新処理の流れを表したフローチャートである。図8を参照すると、まず、経路監視手段12は、構成情報15から読み出した構成要素(ホストポート識別子)と一致するホストポート識別子を持つすべてのアクセスパスを経路情報14から読み出し、そのアクセスパス状態を確認する(ステップD1及びD2)。
FIG. 8 is a flowchart showing the flow of update processing of the configuration state portion of the
上記の結果、すべてのアクセスパスのアクセスパス状態が「異常」であれば、経路監視手段12は、当該ホストポート識別子を持つホストポート構成の構成状態を「異常」に変更する(ステップD3)。
As a result of the above, if the access path states of all the access paths are “abnormal”, the
また、アクセスパス状態が「異常」であるアクセスパスが一つでもあれば、経路監視手段12は、当該ホストポート識別子を持つホストポート構成の構成状態を「一部異常」に変更する(ステップD4)。 If there is at least one access path whose access path status is “abnormal”, the route monitoring means 12 changes the configuration status of the host port configuration having the host port identifier to “partially abnormal” (step D4). ).
また、すべてのアクセスパスのアクセスパス状態が「正常」であれば、経路監視手段12は、当該ホストポート識別子を持つホストポート構成の構成状態を「正常」に変更する(ステップD5)。
If the access path states of all access paths are “normal”, the
再度図6を参照すると、経路監視手段12は、続いて構成情報15に登録されているターゲットポート構成、ディスク構成及び上記ステップで追加した監視対象構成のそれぞれについて、経路情報14の内容からその障害発生有無を推定し、構成情報15の構成状態の部分を更新する処理を実行する(ステップB3、B4、B5)。その具体的な方法は、上記ホストポート構成の場合(図8参照)と同様であるため説明を省略する。
Referring to FIG. 6 again, the
図9は、上記のようにして更新された構成情報15を用いた障害箇所特定手段13による障害特定情報の生成処理の流れを表したフローチャートである。図9を参照すると、まず、障害箇所特定手段13は、障害箇所情報16を初期化する(ステップE1)。この段階では、障害箇所情報16には、何も登録されていない状態(空のテーブル)となっている。
FIG. 9 is a flowchart showing the flow of processing for generating fault identification information by the fault location specifying means 13 using the
続いて、障害箇所特定手段13は、構成情報15から構成状態が「異常」であるエントリを抽出し、障害箇所情報16に登録する(ステップE2、E3)。
Subsequently, the failure
上記ステップE2、E3を終えた時点で、障害箇所情報16が空である場合は、障害箇所特定手段13は、構成情報15から構成状態が「一部異常」であるエントリを抽出し、障害箇所情報16に登録する(ステップE4、E5)。
When the
ストレージデバイスのマルチパスシステムの保守担当者は、このようにして生成された障害箇所情報16を参照することで、早い段階で、障害発生箇所を絞り込んだ情報を得ることができる。
The maintenance person in charge of the multipath system of the storage device can obtain information narrowing down the failure occurrence points at an early stage by referring to the
本実施形態の構成及び基本動作は上記の通りであるが、続いて、アクセスパスの状態により障害箇所を特定できる仕組みについて具体例を用いて説明する。 The configuration and basic operation of the present embodiment are as described above. Next, a mechanism that can identify a failure location according to the state of the access path will be described using a specific example.
図10の装置構成は、図1のシステム構成と同様である。ホストコンピュータ1上のポート17a、17bのホストポート識別子としてそれぞれI1、I2が付与されているものとする。また、ストレージデバイス3a、3b上のポート31a1、31a2、31b1、31b2のターゲットポート識別子として、それぞれT1、T2、T3、T4が、ディスク32a1、32a2、32b1、32b2のディスク識別子としてそれぞれD1、D2、D3、D4が付与されているものとする。
The apparatus configuration in FIG. 10 is the same as the system configuration in FIG. It is assumed that I1 and I2 are assigned as host port identifiers of the ports 17a and 17b on the
先述のように、経路検出手段11がアクセスパスのスキャンを実施し、すべてのアクセスパスを経路情報14に登録する(図5のステップA2参照)。また、経路情報14から抽出されるホストポート構成、ターゲットポート構成、ディスク構成のほかファイバチャネルスイッチ2a、2bが監視対象として構成情報15に加えられているものとする(図5のステップA3〜A6参照)。
As described above, the
ここで、ファイバチャネルスイッチ2bが故障した際に、如何にして障害箇所を特定できるかについて説明する。経路監視手段12が、アクセスパス状態の検査を実施し、経路情報14のアクセスパス情報を更新する(図6のステップB1参照)。図11は、その際の経路情報14の例であり、いくつかのアクセスパスで異常が検出されている。
Here, how the fault location can be specified when the
その後、経路監視手段12が、経路情報14の内容から各構成要素の障害発生有無を推定し、構成情報15の構成状態の部分を更新する処理を実行する(図6のステップB2〜B5参照)。図12は、図11の経路情報14を用いて生成・更新された構成情報15の例である。図12のホストポートI2、ターゲットポートT2、ターゲットポートT4、ファイバチャネルスイッチS2は経路情報14のすべてのアクセスパスで異常が検出されているため、構成情報15に異常と書き込まれる。
Thereafter, the
次に、障害箇所特定手段13が、構成情報15から障害箇所情報16を生成する(図9参照)。図4は、図12の構成情報15から生成された障害箇所情報16の例である。図4のパターンでは、ポート17a、31a2、31b2、ファイバチャネルスイッチ2bで障害が発生しており、単一点障害の可能性が高いため、障害箇所はファイバチャネルスイッチ2bである可能性が高いと推測できる。
Next, the fault location specifying means 13 generates
なお、上記の例では、構成情報15から構成状態が「異常」であるエントリが検出されているため、構成状態が「一部異常」であるエントリの表示は行われない。図13は、図11の経路情報の最後のエントリ「I2−T4−D4」のみが「異常」で他が「正常」である場合の障害箇所情報の例である。この場合、構成情報15から構成状態が「異常」であるエントリが検出されず、構成情報15から構成状態が「一部異常」であるエントリが抽出され、図13のとおりとなる。
In the above example, since an entry whose configuration state is “abnormal” is detected from the
以上のとおり、本発明では、障害発生が疑われる箇所を自動的に絞り込むことが可能となり、障害箇所の特定に掛かる時間を短縮することができる。また、本発明では、障害が発生していない部品を交換してしまう可能性も低減することができる。 As described above, according to the present invention, it is possible to automatically narrow down a place where a failure is suspected, and it is possible to shorten the time taken to specify the place of failure. Further, according to the present invention, it is possible to reduce the possibility of replacing parts that have not failed.
また、上記障害箇所の特定は、ファイバチャネルスイッチやストレージデバイスの機能によってもたらされるものではない。即ち、本発明は、ファイバチャネルスイッチやストレージデバイスの種類に拘わり無く適用可能であることを意味する。 Further, the identification of the failure location is not brought about by the function of the fiber channel switch or the storage device. In other words, the present invention is applicable regardless of the type of the fiber channel switch or storage device.
続いて、本発明を複数のホストコンピュータが接続されたシステム構成に適用した本発明の第2の実施形態について図面を参照して説明する。図14は、本発明の第2の実施形態に係るストレージデバイスのマルチパスシステムの構成を表したブロック図である。図14を参照すると、プログラム制御により動作するn台のホストコンピュータ1と、任意の個数のファイバチャネルスイッチ2と、任意の個数のストレージデバイス3と、これらを接続する任意の個数のファイバチャネルケーブル4と、ネットワーク6を介してホストコンピュータと接続された管理コンピュータ5とが示されている。
Next, a second embodiment of the present invention in which the present invention is applied to a system configuration in which a plurality of host computers are connected will be described with reference to the drawings. FIG. 14 is a block diagram showing the configuration of a multipath system for storage devices according to the second embodiment of the present invention. Referring to FIG. 14,
本実施形態に係るホストコンピュータ1は、図1のホストコンピュータ1から障害箇所特定手段13及び障害箇所情報16を省いた形となっており、経路検出手段11、経路監視手段12、経路情報14、構成情報15、任意の個数のポート17を備えて構成されている。ホストコンピュータ1には、一意なホストコンピュータ識別子C1、・・・、Ckが割り当てられており、各ポート17には一意なホストポート識別子I1、・・・、Inが割り振られているものとする。ここで、k,nは任意の正整数である。
The
ファイバチャネルスイッチ2、ストレージデバイス3及びファイバチャネルケーブル4は、上記した第1の実施形態と同様であるため説明を省略する。
Since the
管理コンピュータ5は、障害箇所特定手段53、経路情報54、構成情報55及び障害箇所情報56を備える。管理コンピュータ5は、ホストコンピュータ1を兼ねることができる。
The
障害箇所特定手段53は、各ホストコンピュータ1にある経路情報14から、システム全体の経路情報54を作成し、構成情報55及び障害箇所情報56を作成することで、障害箇所を絞り込む。
The failure location specifying means 53 creates route information 54 of the entire system from the
以下、本実施の形態における管理コンピュータ5の動作について、上記第1の実施形態と共通する部分は適宜引用して詳細に説明する。
Hereinafter, the operation of the
図15は、管理コンピュータ5の障害箇所特定手段53の動作を表したフローチャートである。図15を参照すると、まず、障害箇所特定手段53は、管理コンピュータ5側の経路情報54、構成情報55及び障害箇所情報56を初期化する(ステップF1)。この段階では、経路情報54、構成情報55及び障害箇所情報56には、何も登録されていない状態(空のテーブル)となっている。
FIG. 15 is a flowchart showing the operation of the failure location specifying means 53 of the
続いて、障害箇所特定手段53は、ネットワーク6を通して、接続されているホストコンピュータ1の経路情報14を取得する(ステップF2)。
Subsequently, the failure location specifying means 53 acquires the
すべてのホストコンピュータから経路情報14の取得が完了すると、障害箇所特定手段53は、取得した経路情報14のエントリにホストコンピュータ識別子(Cx)を加えたシステム全体の経路情報54を作成する(ステップF3)。図16は、経路情報54の例である。
When the acquisition of the
続いて、障害箇所特定手段53は、ステップF3で作成された経路情報54について、構成情報55を作成する(ステップF4)。構成情報55は、第1の実施形態の作成手順と同様の方法で作成することができ(図5のステップA3〜A6及び図6のステップB2〜B5参照)、第1の実施形態の構成情報15との相違点は、ホストコンピュータ識別子が付加されている点である。
Subsequently, the fault location identifying unit 53 creates
障害箇所特定手段53は、このようにして得られた構成情報55から、障害箇所情報56を作成する(ステップF5)。障害箇所情報56も、第1の実施形態の作成手順と同様の方法で作成することができ(図9のステップE1〜E5参照)、第1の実施形態の構成情報15との相違点は、ホストコンピュータ識別子が付加されている点である。
The fault location specifying means 53 creates fault location information 56 from the
ストレージデバイスのマルチパスシステムの保守担当者は、このようにして生成された障害箇所情報56を参照することで、ホストコンピュータの数に拘わらず、障害発生箇所を絞り込むことができる。このように、本発明は、ホストコンピュータの数がk(任意の正整数)に拡張されていても実施することが可能である。 The maintenance person in charge of the multipath system of the storage device can narrow down the location of failure regardless of the number of host computers by referring to the failure location information 56 generated in this way. Thus, the present invention can be implemented even when the number of host computers is expanded to k (an arbitrary positive integer).
以上、本発明の好適な各実施形態について説明したが、本発明の技術的範囲は、上述した実施形態の記載に限定されるものではなく、ストレージデバイスのマルチパスシステムの仕様等に応じて、各種の変形を加えることが可能である。例えば、上記した障害箇所情報16、56が生成された時点でストレージデバイスのマルチパスシステムの保守担当者に所定のメッセージが配信されるようにすること等も可能である。
The preferred embodiments of the present invention have been described above, but the technical scope of the present invention is not limited to the description of the above-described embodiments, and according to the specifications of the multipath system of the storage device, etc. Various modifications can be made. For example, it is possible to deliver a predetermined message to a maintenance person in charge of the storage device multipath system when the above-mentioned
1 ホストコンピュータ
2、2a、2b ファイバチャネルスイッチ
3、3a、3b ストレージデバイス
4、4a、4b、4c、4d、4e、4f ファイバチャネルケーブル
5 管理コンピュータ
6 ネットワーク
11 経路検出手段
12 経路監視手段
13、53 障害箇所特定手段
14、54 経路情報
15、55 構成情報
16、56 障害箇所情報
17、17a、17b ポート(ホストポート)
21、21a1、21a2、21a3、21b1、21b2、21b3 ポート
31、31a1、31a2、31b1、31b2 ポート(ターゲットポート)
32、32a1、32a2、32b1、32b2 ディスク
DESCRIPTION OF
21, 21a1, 21a2, 21a3, 21b1, 21b2, 21b3
32, 32a1, 32a2, 32b1, 32b2 disks
Claims (8)
前記ホストコンピュータと前記ストレージデバイスとを接続するすべてのアクセスパスを検出する経路検出手段と、
前記検出された各アクセスパスに対して所定の時間間隔で入出力要求を発行し、前記すべてのアクセスパスの障害発生状況を監視する経路監視手段と、
前記各アクセスパスの障害発生状況から、障害が発生していると推定される構成要素をまとめた障害箇所情報を作成する障害箇所特定手段と、を備えたこと、
を特徴とするストレージデバイスのマルチパスシステム。 A storage device multipath system in which a host computer and a storage device are connected by a plurality of access paths,
Path detection means for detecting all access paths connecting the host computer and the storage device;
Route monitoring means for issuing an I / O request at a predetermined time interval for each detected access path and monitoring the failure occurrence status of all the access paths;
A failure location identifying means for creating failure location information that summarizes the components that are estimated to have failed from the failure occurrence status of each access path,
A multipath system of storage devices characterized by
を特徴とする請求項1に記載のストレージデバイスのマルチパスシステム。 The failure location identifying means determines that the component is abnormal when a failure has occurred in all of the access paths including a certain component, and adds the failure to the failure location information.
The multipath system for a storage device according to claim 1.
を特徴とする請求項1又は2に記載のストレージデバイスのマルチパスシステム。 The failure location specifying means determines that the component is partly abnormal when a failure has occurred in at least one of the access paths including the component, and adds the failure to the failure location information.
The multi-path system for a storage device according to claim 1 or 2, characterized in that:
前記障害箇所特定手段は、前記構成情報から構成要素を読み出して、該構成要素が含まれるアクセスパスの状態を確認することにより、前記障害箇所情報を作成すること、
を特徴とする請求項1乃至3いずれか一に記載のストレージデバイスのマルチパスシステム。 The path detection means creates configuration information that lists each host port, target port, and disk included in the access path as one component,
The failure location specifying means reads the configuration element from the configuration information and creates the failure location information by checking the state of the access path including the configuration element.
The multipath system for a storage device according to any one of claims 1 to 3.
を特徴とする請求項4に記載のストレージデバイスのマルチパスシステム。 A switch can be added to the configuration information by a combination of a host port and a target port facing a switch port arranged between the host computer and the storage device;
The multipath system for a storage device according to claim 4, wherein:
を特徴とする請求項1乃至4いずれか一に記載のストレージデバイスのマルチパスシステム。 The route detection means and the route monitoring means are respectively provided in a plurality of host computers, and the failure location specifying means has a failure from the failure occurrence status of each access path collected by the plurality of host computers. Creating fault location information that summarizes the estimated components
The multipath system for a storage device according to any one of claims 1 to 4.
前記ストレージデバイスのマルチパスシステムに接続されたコンピュータが、前記ホストコンピュータと前記ストレージデバイスとを接続するすべてのアクセスパスを検出するステップと、
前記ストレージデバイスのマルチパスシステムに接続されたコンピュータが、前記検出された各アクセスパスに対して所定の時間間隔で入出力要求を発行し、前記すべてのアクセスパスの障害発生状況を監視するステップと、
前記ストレージデバイスのマルチパスシステムに接続されたコンピュータが、前記各アクセスパスの障害発生状況から、障害が発生していると推定される構成要素をまとめた障害箇所情報を作成するステップと、を含むこと、
を特徴とするストレージデバイスのマルチパスシステムにおける障害箇所特定方法。 A failure location identification method in a multipath system of a storage device in which a host computer and a storage device are connected by a plurality of access paths,
A computer connected to the multi-path system of the storage device detecting all access paths connecting the host computer and the storage device;
A computer connected to the multipath system of the storage device issues an input / output request to each detected access path at a predetermined time interval, and monitors a failure occurrence state of all the access paths; ,
A computer connected to the multipath system of the storage device creating failure location information that summarizes the components that are estimated to have failed from the failure occurrence status of each access path. thing,
A fault location identifying method in a multipath system of a storage device characterized by the above.
前記ホストコンピュータと前記ストレージデバイスとを接続するすべてのアクセスパスを検出する処理と、
前記検出された各アクセスパスに対して所定の時間間隔で入出力要求を発行し、前記すべてのアクセスパスの障害発生状況を監視する処理と、
前記各アクセスパスの障害発生状況から、障害が発生していると推定される構成要素をまとめた障害箇所情報を作成する処理と、を前記ストレージデバイスのマルチパスシステムに接続されたコンピュータに実行させるプログラム。 A program executed by a computer connected to a multipath system of a storage device in which a host computer and a storage device are connected by a plurality of access paths,
A process for detecting all access paths connecting the host computer and the storage device;
A process of issuing an input / output request at a predetermined time interval for each detected access path and monitoring a failure occurrence status of all the access paths;
Causing a computer connected to the multipath system of the storage device to execute processing for creating failure location information in which components that are estimated to have failed from the failure occurrence status of each access path are created. program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006344650A JP5058582B2 (en) | 2006-12-21 | 2006-12-21 | Multipath system of storage device, failure location identification method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006344650A JP5058582B2 (en) | 2006-12-21 | 2006-12-21 | Multipath system of storage device, failure location identification method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008158666A true JP2008158666A (en) | 2008-07-10 |
JP5058582B2 JP5058582B2 (en) | 2012-10-24 |
Family
ID=39659522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006344650A Expired - Fee Related JP5058582B2 (en) | 2006-12-21 | 2006-12-21 | Multipath system of storage device, failure location identification method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5058582B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182080A (en) * | 2009-02-05 | 2010-08-19 | Nec Corp | I/o command fault recovery circuit, i/o command fault recovery method, and i/o command fault recovery program |
JP2012108869A (en) * | 2010-11-18 | 2012-06-07 | Hitachi Ltd | Multi-pass switching of plurality of storage systems |
JP2013210831A (en) * | 2012-03-30 | 2013-10-10 | Nec Corp | Disk array apparatus, disk array system, failure path identifying method, and program |
US8694708B2 (en) | 2010-07-23 | 2014-04-08 | International Business Machines Corporation | Expander to control multipaths in a storage network |
US8719484B2 (en) | 2010-09-30 | 2014-05-06 | International Business Machines Corporation | System and method for using a multipath |
JP2015158702A (en) * | 2014-02-21 | 2015-09-03 | 富士通株式会社 | Storage system, control device, and control program |
WO2015145676A1 (en) * | 2014-03-27 | 2015-10-01 | 株式会社日立製作所 | Supervisor computer and supervising method |
CN114500575A (en) * | 2021-12-27 | 2022-05-13 | 天翼云科技有限公司 | Path loss management method, device and storage medium in multipath object map |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09321760A (en) * | 1996-05-31 | 1997-12-12 | Nippon Telegr & Teleph Corp <Ntt> | Method and system for monitoring route information |
JPH1051452A (en) * | 1996-07-29 | 1998-02-20 | Nec Corp | Connection state check method via switching device |
JP2001154929A (en) * | 1999-11-29 | 2001-06-08 | Nec Software Shikoku Ltd | Management method and system for substituting path system |
JP2003204327A (en) * | 2001-12-28 | 2003-07-18 | Hitachi Ltd | Management method of computer system, management program, storage device, and display apparatus |
JP2004213125A (en) * | 2002-12-27 | 2004-07-29 | Hitachi Ltd | High-availability disk controller and failure processing method therefor, and high-availability disk subsystem |
JP2004287980A (en) * | 2003-03-24 | 2004-10-14 | Toshiba Corp | Shared resource failure detection system and method |
JP2006040026A (en) * | 2004-07-28 | 2006-02-09 | Hitachi Ltd | Load distribution computer system, route setting program, and method thereof |
JP2006285757A (en) * | 2005-04-01 | 2006-10-19 | Hitachi Ltd | Network topology display method, management server and network management program |
JP2006293459A (en) * | 2005-04-06 | 2006-10-26 | Hitachi Ltd | Load distribution computer system, path setting program and its method |
-
2006
- 2006-12-21 JP JP2006344650A patent/JP5058582B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09321760A (en) * | 1996-05-31 | 1997-12-12 | Nippon Telegr & Teleph Corp <Ntt> | Method and system for monitoring route information |
JPH1051452A (en) * | 1996-07-29 | 1998-02-20 | Nec Corp | Connection state check method via switching device |
JP2001154929A (en) * | 1999-11-29 | 2001-06-08 | Nec Software Shikoku Ltd | Management method and system for substituting path system |
JP2003204327A (en) * | 2001-12-28 | 2003-07-18 | Hitachi Ltd | Management method of computer system, management program, storage device, and display apparatus |
JP2004213125A (en) * | 2002-12-27 | 2004-07-29 | Hitachi Ltd | High-availability disk controller and failure processing method therefor, and high-availability disk subsystem |
JP2004287980A (en) * | 2003-03-24 | 2004-10-14 | Toshiba Corp | Shared resource failure detection system and method |
JP2006040026A (en) * | 2004-07-28 | 2006-02-09 | Hitachi Ltd | Load distribution computer system, route setting program, and method thereof |
JP2006285757A (en) * | 2005-04-01 | 2006-10-19 | Hitachi Ltd | Network topology display method, management server and network management program |
JP2006293459A (en) * | 2005-04-06 | 2006-10-26 | Hitachi Ltd | Load distribution computer system, path setting program and its method |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182080A (en) * | 2009-02-05 | 2010-08-19 | Nec Corp | I/o command fault recovery circuit, i/o command fault recovery method, and i/o command fault recovery program |
US8694708B2 (en) | 2010-07-23 | 2014-04-08 | International Business Machines Corporation | Expander to control multipaths in a storage network |
US9250989B2 (en) | 2010-07-23 | 2016-02-02 | International Business Machines Corporation | Expander to control multipaths in a storage network |
US8719484B2 (en) | 2010-09-30 | 2014-05-06 | International Business Machines Corporation | System and method for using a multipath |
US8732380B2 (en) | 2010-09-30 | 2014-05-20 | International Business Machines Corporation | System and method for using a multipath |
JP2012108869A (en) * | 2010-11-18 | 2012-06-07 | Hitachi Ltd | Multi-pass switching of plurality of storage systems |
JP2013210831A (en) * | 2012-03-30 | 2013-10-10 | Nec Corp | Disk array apparatus, disk array system, failure path identifying method, and program |
JP2015158702A (en) * | 2014-02-21 | 2015-09-03 | 富士通株式会社 | Storage system, control device, and control program |
WO2015145676A1 (en) * | 2014-03-27 | 2015-10-01 | 株式会社日立製作所 | Supervisor computer and supervising method |
CN114500575A (en) * | 2021-12-27 | 2022-05-13 | 天翼云科技有限公司 | Path loss management method, device and storage medium in multipath object map |
Also Published As
Publication number | Publication date |
---|---|
JP5058582B2 (en) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5058582B2 (en) | Multipath system of storage device, failure location identification method and program | |
Hamilton | On Designing and Deploying Internet-Scale Services. | |
US8086895B2 (en) | Management method and system for managing replication by taking into account cluster storage accessibility a host computer | |
JP5745077B2 (en) | Management computer and method for analyzing root cause | |
JP4457184B2 (en) | Failover processing in the storage system | |
US7725776B2 (en) | Method for displaying pair state of copy pairs | |
US7787388B2 (en) | Method of and a system for autonomously identifying which node in a two-node system has failed | |
JP6089884B2 (en) | Information processing system, information processing apparatus, information processing apparatus control program, and information processing system control method | |
CN105339939A (en) | Replication for on-line hot-standby database | |
JP4598065B2 (en) | Monitoring simulation apparatus, method and program thereof | |
JP2010128644A (en) | Failure restoration method, program and management server | |
JP2005182532A (en) | Data multiplexing control method | |
CN106605217B (en) | For the method and system for being moved to another website from a website will to be applied | |
US10049021B2 (en) | Redundant system and redundancy method | |
US7373542B2 (en) | Automatic startup of a cluster system after occurrence of a recoverable error | |
JP2007299213A (en) | Raid controller and fault monitoring method | |
CN118018463A (en) | Fault processing method, device, equipment and readable storage medium | |
JP2005258501A (en) | Obstacle influence extent analyzing system, obstacle influence extent analyzing method and program | |
US10728326B2 (en) | Method and system for high availability topology for master-slave data systems with low write traffic | |
JP6070040B2 (en) | Database system, database device, database failure recovery method and program | |
JP6511737B2 (en) | Redundant system, redundant method and redundant program | |
WO2018037535A1 (en) | Alive management program, alive management method, and alive management device | |
JP2011076262A (en) | Computer system and method therefor | |
JP5335150B2 (en) | Computer apparatus and program | |
JP4689572B2 (en) | Server restart method, server restart device, server restart program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120801 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5058582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |