JP4443786B2 - 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム - Google Patents
管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム Download PDFInfo
- Publication number
- JP4443786B2 JP4443786B2 JP2001079350A JP2001079350A JP4443786B2 JP 4443786 B2 JP4443786 B2 JP 4443786B2 JP 2001079350 A JP2001079350 A JP 2001079350A JP 2001079350 A JP2001079350 A JP 2001079350A JP 4443786 B2 JP4443786 B2 JP 4443786B2
- Authority
- JP
- Japan
- Prior art keywords
- management
- path
- agent
- tool
- lan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Small-Scale Networks (AREA)
Description
【発明の属する技術分野】
本発明は、複数の計算機と少なくとも1つのストレージ装置とが複数のファブリックスイッチにより接続され、デバイス管理に利用される管理パスを複数備えた冗長構成の高可用性ストレージシステムに係り、特に利用中の管理パスに障害が発生した場合に自動的に他の管理パスに切り替えるのに好適な管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステムに関する。
【0002】
【従来の技術】
近時、複数の計算機と少なくとも1つのストレージ装置とが複数のファブリックスイッチにより接続された冗長構成の高可用性ストレージシステムが開発されている。
【0003】
この種の高可用性ストレージシステムでは、ストレージ装置及びファブリックスイッチ等のデバイス(管理対象デバイス)の管理に利用される管理パスと呼ばれる通信路が多重化されている。つまりデバイス管理用のパス(管理パス)がマルチパス構成となっている。これにより、利用中の管理パスに障害が発生した場合に他の管理パスに切り替えて、管理パスの障害を回避しつつ管理サービスの継続を実現している。
【0004】
このように、管理パスの障害を回避しつつ管理サービスを継続する方法として、サーバ計算機など、管理コマンド(ステータス取得や設定など)の発行が可能な管理モジュールを持つ複数のマシンを切り替える方法が従来から知られている。しかし、この方法は、リモートログインなど手動により行われるものであった。
【0005】
【発明が解決しようとする課題】
上記したように、ストレージ装置やファブリックスイッチなどの管理対象に対して、管理コマンドの発行が可能な管理モジュールを持つ複数のマシンを切り替えて、管理パスの障害を回避しつつ管理サービスを継続する方法は従来から知られているが、その手順は、リモートログインなど手動により行われるものであった。しかしながら、手動による管理パス切り替えでは、パスの状態監視と切り替え自体の手間がかかるという問題があった。また、管理パスの障害により管理サービス自体が停止するという問題もあった。
【0006】
本発明は上記事情を考慮してなされたものでその目的は、管理パスを構成する特定コンポーネントの障害の影響が管理サービスに直接的に及ぶのを回避し、管理サービス自体の停止によるデバイスの無監視状態の発生が低減できる管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、LANに接続された複数のサーバ計算機と少なくとも1つのストレージ装置とを複数のファブリックスイッチによりファイバチャネルケーブルにより冗長接続すると共に、上記ストレージ装置及びファブリックスイッチをLANケーブルにより上記LANに接続することにより、上記ストレージ装置及び上記ファブリックスイッチへのそれぞれ複数の管理パスが確保され、上記LANに接続された管理端末の管理ツールにより上記管理パスを介して上記ストレージ装置及び上記ファブリックスイッチを一元管理する高可用性ストレージシステムにおける管理パス切り替え方法であって、上記管理端末の管理ツールにより上記サーバ計算機、上記ストレージ装置及び上記ファブリックスイッチの各管理コンポーネント上でそれぞれ動作する管理エージェントと通信することで、上記管理パスを監視するステップと、この管理パス監視ステップで使用中の管理パスに障害を検出した場合に、当該管理パスを別の管理パスに切り替えて管理サービスを継続するステップとを備えたことを特徴とする。
【0008】
このような構成においては、管理パス監視ステップで使用中の管理パスに障害を検出した場合に、当該管理パスが別の管理パスに切り替えられるため、管理パスを構成する特定コンポーネントの障害の影響が管理サービスに直接的に及ぶのを回避でき、管理サービス自体の停止によるデバイスの無監視状態が発生するのを低減できる。
【0009】
ここで、管理ツールから各管理コンポーネント上でそれぞれ動作する管理エージェントに対してブロードキャストパケットによる特定リクエストを発行するステップと、この特定リクエストを受信した管理エージェントから提供可能管理サービス情報を通知するステップと、各管理エージェントから通知された提供可能管理サービス情報を収集するステップと、収集した提供可能管理サービス情報をもとに、少なくとも各管理コンポーネント毎に、管理パスの利用順位の順位付けを行うステップと、使用中の管理パスに障害を検出した場合に、上記管理パスの利用順位に従って管理パスの切り替えを行うことを特徴とする。
【0010】
このような構成においては、管理ツールと各コンポーネント上の管理エージェントとの間の通信により各管理エージェントが提供可能な管理サービス情報を管理ツールにて自動収集して、コンポーネント毎の管理パスの利用順位の順位付けを行う構成としたので、利用順位に照らし合わせた管理パスの選択、切り替えの自動化が図れる。これによりシステム管理者は、管理システム自体の管理、停滞回避努力、停滞復旧作業から解放され、管理に要する時間と労力を各コンポーネントに集約することが可能となる。
【0011】
また、管理パスが例えばSCSI,FC(ファイバチャネル)であれば、データパスと管理パスとを共有することになるため、あるパスの障害の結果、切り替えを予定しているパスにデータパスの切り替えが集中し、負荷が高くなる可能性がある。しかし本発明においては、予め管理パスの切り替え順位、つまり管理パスの利用順位が決定されるため、管理パスの障害発生時の速やかな切り替えが実現できる。
【0012】
ここで、上記各管理パスを介してレスポンスタイム計測のための特定コマンドを発行し、各管理コンポーネント上の管理エージェントから応答させるステップと、上記特定コマンドの発行時から当該コマンドに対する各管理エージェントからの応答時までの時間を対応する管理パスを経由してのレスポンスタイムとして抽出するステップと、抽出したレスポンスタイムに応じて管理パスの利用順位を決定するステップとを備えるならば、効率的な管理サービスが実現可能となる。この他に、管理しているドライブ(ストレージ装置、ファブリックスイッチ)が少ないサーバ、特定ドライブに対する管理エージェントの重要度の低いもの、パスの特定目的への専有性の高いものほど高順位とするとよい。
【0013】
レスポンスタイムを計測する場合、上記特定コマンドの発行時から予め定められた時間内に応答がなかった場合に対応する管理パスの障害を判定する構成とするならば、管理パスの障害検出が効率的に行えるようになる。
【0014】
また、管理パスの利用順位を定期的に更新するならば、管理パスの切り替えに常に最新のネットワークの状態を反映させることができる。
【0015】
以上の構成の管理パス切り替え方法に係る本発明は、当該管理パス切り替え方法を適用し、且つ管理端末で実行される管理プログラムの発明としても成立する。また、管理パス切り替え方法に係る発明は、当該管理パス切り替え方法を適用する管理端末を備えた高可用性ストレージシステムに係る発明としても成立する。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0017】
[第1の実施形態]
図1は本発明の第1の実施形態に係る高可用性ストレージシステムの構成を示す。
図1において、LAN100には、サーバ計算機(サーバ#1)101及びサーバ計算機(サーバ#2)102が接続されている。このサーバ計算機101,102と、当該サーバ計算機101,102により共有されるストレージ装置(ストレージ#5)105とには、HBA(Host Bus Adapter)と呼ばれるネットワークアダプタが、多重化するパス数分、例えば2つ実装されている。つまりサーバ計算機101,102及びストレージ装置105は、ファイバチャネル(Fibre Channel)ポート(FCポート)を2つ有している。
【0018】
サーバ計算機101,102及びストレージ装置105の一方のHBA(FCポート)は、ファブリックスイッチ(#3)103と接続され、サーバ計算機101,102及びストレージ装置105の他方のHBA(FCポート)は、ファブリックスイッチ(#4)104と接続されている。つまり、サーバ計算機(サーバ#1,#2)101,102及びストレージ装置(ストレージ#5)105のそれぞれ2つのHBA(FCポート)を、2つのファブリックスイッチ(#3,#4)103及び104でHA(High Availability)接続(冗長接続)することで、複数の管理パスを確保している。図中の管理パスFCxy(xyは数値)は、コンポーネント#xとコンポーネント#yとを結ぶFC(Fibre Channel)ケーブルから構成される管理パスを示す。ファブリックスイッチ(#3,#4)103,104及びストレージ装置(ストレージ#5)105は、LANポートを内蔵している。
【0019】
また、LAN100には、管理者の操作によりシステム全体をリモート管理するための端末(以下、管理端末と称する)110が接続されている。このLAN100は、LANケーブルにより構成される管理パスLANP3,LANP4,LANP5により、それぞれファブリックスイッチ(#3,#4)103,104及びストレージ装置(ストレージ#5)105、即ちシステムコンポーネント#3,#4,#5のLANポートと接続されている。
【0020】
サーバ計算機(サーバ#1)101及びサーバ計算機(サーバ#2)102をファブリックスイッチ(#3)103及びファブリックスイッチ(#4)104によりストレージ装置(ストレージ#5)105と接続したネットワーク構成は、SAN(Storage Area Network:ストレージ・エリア・ネットワーク)120と呼ばれる。
【0021】
一方、図1のシステムにおけるソフトウエア構成としては、管理端末110上では管理者がリモート管理をするために用いる“管理ツール”が動作し、サーバ計算機101,102には、それぞれ図1のシステムにおける管理パスの切り替えに重要な役割を果たす管理Agent#1,#2が常駐している。また、ファブリックスイッチ(#3,#4)103,104及びストレージ装置(ストレージ#5)105、即ちシステムコンポーネント#3,#4,#5には、本体内蔵のLANポートと直接接続した内部管理モジュールであるSNMP(Simple Network Management Protocol)−Agent(以下、管理Agentと称する)(#3,#4,#5)113,114,115が動作しており、管理端末110とSNMPで通信している。
【0022】
次に、図1のシステムにおける動作を説明する。
まず、本実施形態で重要なのは、管理端末110上の管理ツールとシステムコンポーネント101〜105上の管理Agent#1〜#5との連携である。そのため、まず管理ツールと管理Agent個々の説明をし、その後に管理ツールと管理Agentとの連携及び管理パスの自動切替えの手法について説明する。
【0023】
まず管理端末110上の管理ツールは、システム上のストレージデバイス(図1ではストレージ装置105)及びネットワークデバイス(図1ではファブリックスイッチ103,104)をリモート管理するための手段である。管理ツールは、管理サービスに使用する管理パスの情報を得るために、サーバ計算機101,102と、ファブリックスイッチ103,104及びストレージ装置105の管理モジュール内に常駐する管理Agentに対して、「提供可能管理サービス情報」を取得するためのリクエスト、つまり「提供可能管理サービス情報」取得リクエストを発行し、その応答により収集した管理パス情報から各デバイスへの管理パスの利用順位を決定する。ここで、管理ツール−管理Agent間で使用される通信プロトコルは、管理コマンドの送受信ができるならば、特に問わない。ちなみに図1のシステムでは、管理端末110の管理ツールとサーバ計算機101,102上の管理Agent#1,#2との間では、SCSIコマンドを通信パケットのデータとして格納して通信するプロトコルが用いられ、管理端末110の管理ツールと管理対象となるファブリックスイッチ103,104及びストレージ装置105内の管理モジュール(管理Agent)#3,#4,#5との間ではSNMPが用いられる。
【0024】
管理Agentは、主に以下に述べる3つの機能を有する常駐型モジュールである。
第1は、管理ツールからの管理リクエストをデバイスとの間で使用するプロトコルに変換後、そのデバイスに対して送信し、その応答を逆ルートで管理ツールに返信するブリッジ機能である。
【0025】
第2は、管理ツールからの「提供可能管理サービス情報」取得リクエストに応じて、図2に示すような内部に保持する情報、即ち「管理Agent名、管理対象コンポーネント名、管理パスタイプ(管理パスType)、提供可能サービスのリスト」を提供する機能である。管理Agent名は、管理Agentを識別するため名称であり、通常はマシン名である。管理対象コンポーネント名は、管理の対象となるデバイス(ストレージ装置やファブリックスイッチ)の名称である。管理パスタイプは、FCケーブルで構成されるFCと呼ばれるタイプと、LANケーブルで構成されるLANPと呼ばれるタイプと、SCSIケーブルで構成されるSCSIと呼ばれるタイプとに分類される。提供可能サービスのリストは、管理Agentが提供可能な機能のリストである。この提供可能なリストは、後述する管理ポリシーに基づくもので、監視機能と設定機能とに分類される。
【0026】
第3は、管理Agentが動作するハードウェア(サーバ計算機101,102と、ファブリックスイッチ103,104及びストレージ装置105内の管理モジュール)とデバイスとの間のパスが複数ある場合、(管理ツールからのリクエストに応じて)HBAより先の障害を検出し次第、自動的にパスを切り替える機能である。図1のシステムでは、サーバ計算機101及び102上の管理Agentが、この機能を有する。
【0027】
以上に述べた管理端末110上の管理ツール及びシステムコンポーネント101〜105上の管理Agentは、次のように連携して管理パスの自動切り替えを行う。
【0028】
(1)デバイス管理ポリシーの決定(事前作業)
図1のシステムを稼動する前に、デバイス管理ポリシーとして以下の内容を決定し、適切に設定する必要がある。
【0029】
(1-1)提供可能な管理の分類
大抵の場合、「監視」「設定」に大別する。但し、場合によっては、分類しないケースや、アクセスレベルに合わせて更に細分化されるケースがある。「監視」とは、各デバイスの動作状態の監視(モニタリング)であり、「設定」とはストレージ装置105がRAID(Redundant Arrays of Inexpensive Disks)であれば、そのストレージ装置105を用いてストレージの論理的な単位である論理ユニットを設定する操作である。
【0030】
(1-2)管理Agentへの分類の割り当て
分類された管理機能を、管理Agentが有する機能と役割から判断して、それぞれに定義する。
【0031】
(1-3)リスポンスタイム計測用の代理コマンドの定義
管理端末110の管理ツール−デバイス(管理対象)間のレスポンスタイムを計測するために発行するコマンドを、管理ツールにて定義しておく。レスポンスタイムは、管理パス相互の比較に利用するため、すべてのパスで利用でき、且つ1リクエストに対してデバイス側の処理負担が低いコマンドであることが要求される。
【0032】
(1-4)更新間隔の設定
管理パスの利用順位がシステムの状態を反映したものとなるように、上記(1)以降で説明する処理を繰り返し行う時間間隔を決定する。
【0033】
(1-5)応答待ち時間の限界の設定。
【0034】
応答待ち時間は短めに設定する。その理由は、この応答待ち時間、つまりタイムアウト時間が、通信先(管理Agent)の状態確認よりは、管理パスの切り替えイベントの意味合いが強いからである。
【0035】
(1-6)ポート番号の決定
本実施形態では、後述する(2)の収集においてブロードキャストを利用するため、管理Agentが本実施形態のリクエストパケットであることを検知できるように、事前にポート番号を決定しておく。
【0036】
(2)提供可能管理サービス情報の収集
管理ツールは、「提供可能管理サービス情報」の取得リクエストをブロードキャストパケットで通信し、各管理Agentから「提供可能管理サービス情報」を収集する。この「提供可能管理サービス情報」の内容は、図2を参照して前述した通りである。収集した上記サービス情報の内容は、当該情報の内容をカラムとしたテーブル(処理テーブル)に格納される。ここでは、テーブル類として、図3に示す4つのテーブル、即ち図3(a)に示す処理テーブルと、図3(b)に示す検索キーテーブルと、図3(d)に示すTempテーブル、及び図3(d)に示すTemp2テーブルとが用意される。
【0037】
(3)レスポンスタイムの計測
デバイス管理ポリシーとして定義されたコマンドを使用して、各管理パス(管理Agent経由)を利用した場合のレスポンスタイムを計測する。このレスポンスタイムは、図3(a)の処理テーブルにセットされる。
【0038】
(4)管理パスの利用順位の決定
処理テーブルを解析することで、管理対象コンポーネント(デバイス)及び管理内容毎の管理パスの利用順位を生成する。順位はコンポーネント毎の複数の管理パスの間で順位付けられる。管理しているドライブ(ストレージ装置、ファブリックスイッチ)が少ないサーバほど高順位とする。ここでは、順位は数値の小さいものほど優先度が高いものとする。
【0039】
以下に順位決めの概略手順を示す。
コンポーネントの機能毎に以下の処理を実行する。
▲1▼コンポーネントに対する管理パスが1つのものは、その管理パスを順位“1”と設定。
▲2▼管理Agentを経由する管理パスが1つのものは、その管理パスを順位“1”と設定。
▲3▼順位未設定の管理パスに(3)で計測したレスポンスタイムの短いパスから順位付けする。
【0040】
(5)管理Agent(SNMP−Agentを含む)からの応答がない場合、処理テーブルの順位に照らし合わせて管理パスを自動的に切り替える。
【0041】
上記(2)〜(4)で生成された管理パス利用順位は、管理ツールの起動時以外にも、例えば
(イ)SAN120上に管理対象となるドライブ(ストレージ)が加わり(起動し)、且つ管理Agentが管理サービスを提供できる状態である場合
(ロ)定期的な処理テーブルの更新時
には再設定されて、処理テーブルが再構築される。
【0042】
以上のように本実施形態においては、管理端末110上の管理ツールの通信先となる管理Agent(SNMP−Agentを含む)を自動的に切り替えて、管理サービスを継続するようにしている。
【0043】
上記(2)〜(4)の詳細な処理手順を図4のフローチャートを参照して説明する。
管理端末110上の管理ツールは、「提供可能管理サービス情報」の取得リクエストを(ポート番号をportとした)ブロードキャストパケットで時刻T0に送信する(ステップA1)。
【0044】
コンポーネント101〜105上の管理Agentは、管理ツールからの「提供可能管理サービス情報」の取得リクエストを受信すると、自身の「提供可能管理サービス情報」を返信する(ステップB1)。
【0045】
管理端末110上の管理ツールは、「提供可能管理サービス情報」の取得リクエストの送信時刻T0よりY秒間経過時点までを当該リクエストに対する応答の受信待ち期間として設定し、Y秒を経過すると、受信を打ち切って、受信した情報を図3(a)の処理テーブルに保存する(ステップA2)。
【0046】
次に管理端末110上の管理ツールは、受信パケットから各管理AgentのIPアドレスを取得し、そのIPアドレスを通信先の管理Agent情報として保存する(ステップA3)。
【0047】
次に管理端末110上の管理ツールは、各管理パス(管理Agent経由)を利用した場合のレスポンスタイムを計測するために、通信先の管理Agentに対して、デバイス管理ポリシーとして定義された代理コマンド(Command1)を時刻Tsに発行する(ステップA4)。各管理Agentは管理ツールからのコマンド(Command1)を実行し、コマンド(Command1)の結果を返信する(ステップB2,B3)。
【0048】
管理端末110上の管理ツールは、コマンド(Command1)の送信時刻TsよりY秒間経過時点までを当該コマンド(Command1)に対する応答の受信待ち期間として設定し、その間に返信される応答を受信して(受信時刻をTrとする)、コマンド(Command1)の受信時刻Trと送信時刻Tsとの差Tr−Tsをレスポンスタイム(応答時間)として図3(a)の処理テーブルに格納する(ステップA5)。
【0049】
次に管理端末110上の管理ツールは、処理テーブルを解析することで、管理対象コンポーネント(デバイス)及び管理内容毎の管理パスの利用順位を決定する処理(ステップA6)を行う。
【0050】
管理端末110上の管理ツールは、以上のようにして作成される処理テーブルを、処理が継続している限り、時間X毎に更新する(ステップA7,A8)。
【0051】
上記ステップA6の管理パスの利用順位決定の処理手順を図5及び図6のフローチャートを参照して説明する。
【0052】
管理端末110上の管理ツールは、図3(a)の処理テーブルの全行(エントリ)、即ち管理ツールと通信可能な全管理Agentから取得した情報に対して、以下のステップC2〜C5を実行する(ステップC1)。
【0053】
即ち管理ツールは、処理テーブルから「管理コンポーネント+管理機能」の組み合わせを抽出する(ステップC2)。そして管理ツールは、図3(b)に示すデータ構造の検索テーブルを検索し(ステップC3)、該当する行(エントリ)がないならば、当該検索テーブルに「管理コンポーネント+管理機能」の組み合わせの行を登録する(ステップC5)。これに対し、該当する行(エントリ)があるならば、当該「管理コンポーネント+管理機能」を持つ行(エントリ)中の“行数カウンタ”に1を加える(ステップC4)。
【0054】
管理ツールは以上の処理(ステップC2〜C5)を図3(a)の処理テーブルの全行について実行すると、図3(b)の検索テーブルの全行(エントリ)に対して、以下のステップC7,C8,D1〜D13を実行する(ステップC6)。
【0055】
即ち管理ツールは、検索テーブルの行(エントリ)から「管理コンポーネント+管理機能」を検索キーとして抽出する(ステップC7)。そして管理ツールは、処理テーブルから検索キーに一致する行(エントリ)を全て抽出し、その抽出した行の集合を図3(c)に示すデータ構造、即ち処理テーブルと同一データ構造のTempテーブルとして生成する(ステップC8)。
【0056】
もし、Tempテーブルの行(エントリ)数が1であるならば(ステップD1)、管理ツールは処理テーブルの該当する行の“機能使用順位”の項に1をセットする(ステップD2)。これに対し、Tempテーブルの行(エントリ)数が1でないならば(ステップD1)、管理ツールはTempテーブルの全行に対して以下のD4〜D6を実行する(ステップD3)。
【0057】
即ち管理ツールは、Tempテーブルから管理Agentを抽出して、その管理Agentで処理テーブルを検索し、行数CNTをカウントする(ステップD4)。もし、カウントした行数CNTが1であるならば、管理ツールは、Temp2テーブルに、図3(d)に示すように、管理Agentと管理パスタイプとを登録する(ステップD5,D6)。これに対して、カウントした行数CNTが1でないならば、管理ツールは何もしない。
【0058】
管理ツールは以上の処理(ステップD4〜D6)を図3(c)のTempテーブルの全行について実行すると、図3(d)のTemp2テーブルの行数CNT2をカウントする(ステップD7)。もし、カウントした行数CNT2が1であるならば、管理ツールは、処理テーブルの該当する行の“機能使用順位”に1をセットする(ステップD9)。これに対して、カウントした行数CNT2が1でないならば、管理ツールは処理テーブルの該当する行の“機能使用順位”に対して、“管理パスタイプ”の項がLANP,FC,SCSIの順に順位付けする。
【0059】
管理ツールは、ステップD9またはD10を実行すると、順位付けが終わった管理Agentの、Tempテーブル内の該当する行を削除する(ステップD11)。次に管理ツールは、Tempテーブルを当該テーブル内の“応答時間”の項で降べきの順にソートする(ステップD12)。そして管理ツールは、Tempテーブルの順位通りに、処理テーブルの該当する行に順位付けする(ステップD13)。
【0060】
管理ツールは、以上の処理(ステップC7,C8,D1〜D13)を図3(b)の検索テーブルの全行について実行すると、一連の管理パスの利用順位決定処理(ステップA6)を終了する。
【0061】
以上の手順を図1のシステムに適用した具体例について述べる。
まず、図1のシステムは前記したように、ストレージ装置105とサーバ計算機102,103とをHA構成したシステムであり、管理端末110の管理ツールとサーバ計算機101,102上の管理Agent#1,#2との間では、SCSIコマンドを通信パケットのデータとして格納して通信するプロトコルが用いられ、管理端末110の管理ツールと管理対象となるファブリックスイッチ103,104及びストレージ装置105の管理モジュール#3,#4,#5との間ではSNMPが用いられる。そこでファブリックスイッチ103,104及びストレージ装置105の管理モジュールをSNMP−Agent#3,#4,#5と表現する。また、ファブリックスイッチ103,104をFC−SW#3,#4と表現する。
【0062】
また、図1のシステムにおけるデバイス管理ポリシーを
・管理機能区分は「監視」「設定」の2つ
・提供管理サービスの定義は、サーバ計算機には「監視」と「設定」、SNMP−Agentには「監視」のみ
・レスポンスタイム(応答時間)計測用コマンドには、「デバイスの総合ステータスの取得」コマンドを利用
・更新間隔Xは600[秒]
・応答待ち時間Yは5[秒]
とする。
【0063】
このシステム環境下で上記手順(2),(3)を行った結果は図7のようになる。これを手順(4)に基づき実行したコンポーネント(Component)及び管理機能毎の管理パス利用順位、つまり図3(a)の処理テーブルの内容は、図8の通りとなる。このように、手順(2)〜(4)を実行した結果が図8のようになり、各管理機能に対して利用順位が決定されたことになる。
【0064】
これにより、管理端末110上の管理ツールが例えばストレージ装置(ストレージ#5)105の監視を行う場合は、図8の管理パス利用順位(処理テーブル)によれば、最初はSNMP−Agent#5を経由する管理パスが使用される。もし、SNMP−Agent#5に障害が発生した場合には、つまりレスポンスタイム計測でのタイムアウト発生により障害を検出した場合には、管理ツールはストレージ装置(ストレージ#5)105の監視に対する管理パスをサーバ計算機(サーバ#1)101経由に切り替えて、管理サービスを継続する。
【0065】
更に、例えばファブリックスイッチ103(FC−SW#3)がダウンした場合は、サーバ計算機(サーバ#1)101の管理Agent#1により当該ファブリックスイッチ103(FC−SW#3)のダウンが検出されて自動的に管理パスが切り替えられる。また、サーバ計算機(サーバ#1)101自体がダウンした場合には、更に次の順位であるサーバ計算機(サーバ#2)102経由の管理パスに切り替えられる。
【0066】
障害が検出された管理パスは上記処理テーブルにおいては基本的には再利用されることはない。但し、処理テーブル自体がデバイス管理ポリシーの通り600秒(X秒)毎に更新されるため、それまでに復旧されるならば、管理パスとして再利用されることもあり得る。
【0067】
[第2の実施形態]
図9は本発明の第2の実施形態に係る高可用性ストレージシステムの構成を示す。
図9において、LAN200には、サーバ計算機(サーバ#1)201、サーバ計算機(サーバ#2)202及びサーバ計算機(サーバ#3)203が接続されている。このサーバ計算機201〜203と、当該サーバ計算機201〜203により共有されるストレージ装置(ストレージ#6)206及びストレージ装置(ストレージ#7)207とは、2つのファブリックスイッチ(#4)204及びファブリックスイッチ(#5)205によりHA接続(冗長接続)され、冗長構成のストレージ専用SAN230を実現している。
【0068】
LAN200は、LANケーブルにより構成される管理パスLANP4,LANP5,LANP6,LANP7により、それぞれファブリックスイッチ(#4,#5)204,205及びストレージ装置(ストレージ#6,#7)206,207、即ちシステムコンポーネント#4,#5,#6,#7のLANポートと接続されている。
【0069】
また、図9のシステムには、サーバ計算機(サーバ#8)208とストレージ装置(ストレージ#9)209及びストレージ装置(ストレージ#10)210とをSCSIケーブル240によりダイレクトに接続したレガシーなストレージシステムが混在する。LAN200には、管理ツールが動作する管理端末220が接続されている。この管理端末220上の管理ツールは、上記のSAN230の環境とレガシーなストレージシステムとが混在するシステム環境を一元管理する。
【0070】
サーバ計算機201〜203には、管理Agent#1〜#3が常駐している。また、ファブリックスイッチ(#4,#5)204,205及びストレージ装置(ストレージ#6,#7)206,207、即ちシステムコンポーネント#4,#5,#6,#7には、本体内蔵のLANポートと直接接続した内部管理モジュールであるSNMP−Agent(以下、管理Agentと称する)(#4,#5,#6,#7)214,215,216,217が動作している。
【0071】
図9のシステムにおいて、管理端末220上の管理ツールとサーバ計算機201〜203上の管理Agent#1〜#3との間では、SCSIコマンドを通信パケットのデータとして格納して通信するプロトコルが用いられ、管理端末220上の管理ツールとファブリックスイッチ204,205及びストレージ装置206,207内の管理モジュール(管理Agent)#4,#5,#6,#7との間ではSNMPが用いられる。サーバ計算機201〜203は受信したパケットをデバイス(ファブリックスイッチ)−ストレージ(ストレージ装置)間で使用するFCへプロトコル変換し、サーバ計算機208はSCSIへプロトコル変換する。
【0072】
図9のシステムにおけるデバイス管理ポリシーを、図1のシステムと同様に、
・管理機能区分は「監視」「設定」の2つ
・提供管理サービスの定義は、サーバ計算機には「監視」と「設定」、SNMP−Agentには「監視」のみ
・レスポンスタイム(応答時間)計測用コマンドには、「デバイスの総合ステータスの取得」コマンドを利用
・更新間隔Xは600[秒]
・応答待ち時間Yは5[秒]
とする。
【0073】
このシステム環境下で上記手順(2),(3)を行った結果は図10のようになる。これを手順(4)に基づき実行したコンポーネント(Component)及び管理機能毎の管理パス利用順位、つまり図3(a)の処理テーブルの内容は、図11の通りとなる。このように、手順(2)〜(4)を実行した結果が図11のようになり、各管理機能に対して利用順位が決定されたことになる。
【0074】
なお、本発明は、上記各実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0075】
【発明の効果】
以上詳述したように本発明によれば、管理端末の管理ツールによりサーバ計算機、ストレージ装置及びファブリックスイッチの各管理コンポーネント上でそれぞれ動作する管理エージェントと通信することで、管理パスを監視し、使用中の管理パスに障害を検出した場合に、当該管理パスを別の管理パスに切り替えるようにしたので、管理パスを構成する特定コンポーネントの障害の影響が管理サービスに直接的に及ぶのを回避でき、管理サービス自体の停止によるデバイスの無監視状態が発生するのを低減できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る高可用性ストレージシステムの構成を示す図。
【図2】図1中の各管理Agentにより提供可能な管理サービス情報の一例を示す図。
【図3】同実施形態で適用される処理テーブルを含む各種テーブル類のデータ構造例を示す図。
【図4】同実施形態における管理ツールを中心とする処理手順を説明するためのフローチャート。
【図5】図4中のステップA6の管理パスの利用順位決定の処理手順の詳細を説明するためのフローチャートの一部を示す図。
【図6】図4中のステップA6の管理パスの利用順位決定の処理手順の詳細を説明するためのフローチャートの残りを示す図。
【図7】同実施形態おける提供可能管理サービス情報の収集とレスポンスタイム計測の実行結果の一例を示す図。
【図8】同実施形態おけるコンポーネント(Component)及び管理機能毎の管理パス利用順位の決定結果の一例を示す図。
【図9】本発明の第2の実施形態に係る高可用性ストレージシステムの構成を示す図。
【図10】同第2の実施形態おける提供可能管理サービス情報の収集とレスポンスタイム計測の実行結果の一例を示す図。
【図11】同第2の実施形態おけるコンポーネント(Component)及び管理機能毎の管理パス利用順位の決定結果の一例を示す図。
【符号の説明】
100,200…LAN
101,102,201〜203,208…サーバ計算機(管理Agent)
103,104,204,205…ファブリックスイッチ
105,206,207,209,210…ストレージ装置
110,220…管理端末(管理ツール)
113〜115,214〜217…管理モジュール(管理Agent)
Claims (3)
- LANに接続された複数のサーバ計算機と少なくとも1つのストレージ装置とを複数のファブリックスイッチとファイバチャネルケーブルとにより冗長接続すると共に、前記ストレージ装置をLANケーブルにより前記LANに接続することにより、前記ストレージ装置への複数の管理パスが確保され、前記LANに接続された管理端末の管理ツールにより前記管理パスを介して前記ストレージ装置を一元管理する高可用性ストレージシステムにおける管理パス切り替え方法であって、
前記管理端末の管理ツールから前記サーバ計算機及び前記ストレージ装置の各管理コンポーネント上でそれぞれ動作する管理エージェントに対してブロードキャストパケットによる特定リクエストを発行するステップと、
前記特定リクエストを受信した前記管理エージェントから前記管理ツールに対し、当該管理エージェントが提供可能な予め定められた分類による管理機能を示す提供可能管理サービス情報を通知するステップと、
前記各管理エージェントから前記管理ツールに通知された前記提供可能管理サービス情報を前記管理ツールが収集するステップと、
収集された前記提供可能管理サービス情報をもとに、前記管理ツールが、前記管理エージェント毎で且つ前記管理機能毎に前記ストレージ装置への前記管理パスの利用順位の順位付けを行うステップであって、該当する管理機能が提供不可の管理エージェントの当該管理機能に対応する管理パスの利用順位については順位付けの対象外とするステップと、
前記管理ツールにより前記各管理コンポーネント上でそれぞれ動作する管理エージェントと通信することで、前記管理パスを監視する管理パス監視ステップと、
前記管理パス監視ステップにより使用中の管理パスの障害が検出された場合に、前記管理ツールが、当該管理パスを使用した処理で適用されている管理機能に関する前記管理パスの利用順位に従って、当該管理パスを別の管理パスに切り替えて管理サービスを継続するステップと
を具備することを特徴とする管理パス切り替え方法。 - LANに接続された複数のサーバ計算機と少なくとも1つのストレージ装置とを複数のファブリックスイッチとファイバチャネルケーブルとにより冗長接続すると共に、前記ストレージ装置をLANケーブルにより前記LANに接続することにより、前記ストレージ装置への複数の管理パスが確保された高可用性ストレージシステムにおいて、前記LANに接続された管理端末により実行される管理ツールをなす、前記管理パスを介して前記ストレージ装置を一元管理するための管理プログラムであって、
前記管理端末に、
前記サーバ計算機及び前記ストレージ装置の各管理コンポーネント上でそれぞれ動作する管理エージェントに対してブロードキャストパケットによる特定リクエストを発行することにより、当該特定リクエストを受信した前記各管理エージェントから当該管理エージェントが提供可能な予め定められた分類による管理機能を示す提供可能管理サービス情報を収集するステップと、
収集された前記提供可能管理サービス情報をもとに、前記管理エージェント毎で且つ前記管理機能毎に前記ストレージ装置への前記管理パスの利用順位の順位付けを行うステップであって、該当する管理機能が提供不可の管理エージェントの当該管理機能に対応する管理パスの利用順位については順位付けの対象外とするステップと、
前記各管理コンポーネント上でそれぞれ動作する管理エージェントと通信することで、前記管理パスを監視する管理パス監視ステップと、
前記管理パス監視ステップにより使用中の管理パスの障害が検出された場合に、当該管理パスを使用した処理で適用されている管理機能に関する前記管理パスの利用順位に従って、当該管理パスを別の管理パスに切り替えて管理サービスを継続するステップと
を実行させる管理プログラム。 - LANに接続された複数のサーバ計算機と少なくとも1つのストレージ装置とを複数のファブリックスイッチとファイバチャネルケーブルとにより冗長接続すると共に、前記ストレージ装置をLANケーブルにより前記LANに接続することにより、前記ストレージ装置への複数の管理パスが確保された高可用性ストレージシステムであって、
前記LANに接続された管理端末上で動作して前記管理パスを介して前記ストレージ装置を一元管理する管理ツールと、
前記サーバ計算機及び前記ストレージ装置の各管理コンポーネント上でそれぞれ動作する、プロトコル変換機能を有する管理エージェントと
を具備し、
前記管理ツールは、
前記サーバ計算機及び前記ストレージ装置の各管理コンポーネント上でそれぞれ動作する管理エージェントに対してブロードキャストパケットによる特定リクエストを発行することにより、当該特定リクエストを受信した前記各管理エージェントから当該管理エージェントが提供可能な予め定められた分類による管理機能を示す提供可能管理サービス情報を収集する手段と、
収集された前記提供可能管理サービス情報をもとに、前記管理エージェント毎で且つ前記管理機能毎に前記ストレージ装置への前記管理パスの利用順位の順位付けを行う手段であって、該当する管理機能が提供不可の管理エージェントの当該管理機能に対応する管理パスの利用順位については順位付けの対象外とする手段と、
前記各管理コンポーネント上でそれぞれ動作する管理エージェントと通信することで、前記管理パスを監視する管理パス監視手段と、
前記管理パス監視手段により使用中の管理パスの障害が検出された場合に、当該管理パスを使用した処理で適用されている管理機能に関する前記管理パスの利用順位に従って、当該管理パスを別の管理パスに切り替えて管理サービスを継続する管理パス切り替え手段と
を備えていることを特徴とする高可用性ストレージシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001079350A JP4443786B2 (ja) | 2001-03-19 | 2001-03-19 | 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001079350A JP4443786B2 (ja) | 2001-03-19 | 2001-03-19 | 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002278909A JP2002278909A (ja) | 2002-09-27 |
JP4443786B2 true JP4443786B2 (ja) | 2010-03-31 |
Family
ID=18935815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001079350A Expired - Fee Related JP4443786B2 (ja) | 2001-03-19 | 2001-03-19 | 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4443786B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040103220A1 (en) * | 2002-10-21 | 2004-05-27 | Bill Bostick | Remote management system |
JP4726432B2 (ja) * | 2004-05-10 | 2011-07-20 | 株式会社日立製作所 | ディスクアレイ装置 |
JP4643198B2 (ja) * | 2004-07-28 | 2011-03-02 | 株式会社日立製作所 | 負荷分散コンピュータシステム、経路設定プログラム及びその方法 |
JP2006107151A (ja) | 2004-10-06 | 2006-04-20 | Hitachi Ltd | ストレージシステム及びストレージシステムの通信パス制御方法 |
JP4620483B2 (ja) * | 2005-02-07 | 2011-01-26 | 富士通株式会社 | コンピュータシステム,コンピュータ,io拡張装置およびio拡張装置接続認識方法 |
JP2006244016A (ja) * | 2005-03-02 | 2006-09-14 | Nec Corp | コンピュータシステム及びアクセスパスの管理方法 |
JP4609848B2 (ja) * | 2005-04-06 | 2011-01-12 | 株式会社日立製作所 | 負荷分散コンピュータシステム、経路設定プログラム及びその方法 |
EP2294778A1 (en) | 2008-07-01 | 2011-03-16 | International Business Machines Corporation | Storage area network configuration |
JP4747203B2 (ja) | 2009-01-30 | 2011-08-17 | 富士通株式会社 | ディスクアレイ装置、ディスクアレイ装置制御プログラム及びディスクアレイ装置制御方法 |
US10554520B2 (en) * | 2017-04-03 | 2020-02-04 | Datrium, Inc. | Data path monitoring in a distributed storage network |
-
2001
- 2001-03-19 JP JP2001079350A patent/JP4443786B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002278909A (ja) | 2002-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4294353B2 (ja) | ジョブ管理機能を有するストレージ系障害管理方法及び装置 | |
US8010836B2 (en) | Storage configuration recovery method and storage management system | |
CN100544342C (zh) | 存储系统 | |
US9647910B2 (en) | Management server and control method of the management server for managing a service system virtually built using connected components | |
US9407700B2 (en) | Intelligent discovery of network information from multiple information gathering agents | |
US7472179B2 (en) | System management method for a data center | |
US8843613B2 (en) | Information processing system, and management method for storage monitoring server | |
US8996924B2 (en) | Monitoring device, monitoring system and monitoring method | |
US20030158933A1 (en) | Failover clustering based on input/output processors | |
US20050015685A1 (en) | Failure information management method and management server in a network equipped with a storage device | |
JP2007257180A (ja) | ネットワークノード、スイッチ及びネットワーク障害回復方法 | |
US20140143418A1 (en) | Management computer, storage system management method, and storage system | |
US20090024869A1 (en) | Autonomous Takeover Destination Changing Method in a Failover | |
JP4443786B2 (ja) | 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム | |
US8189458B2 (en) | Monitoring system, monitoring device, monitored device, and monitoring method | |
JP5560936B2 (ja) | 構成情報取得方法、仮想プローブおよび構成情報取得制御装置 | |
CN110535692A (zh) | 故障处理方法、装置、计算机设备、存储介质及存储系统 | |
CN111046011A (zh) | 日志收集方法、系统、节点、电子设备及可读存储介质 | |
US7870045B2 (en) | Computer system for central management of asset information | |
US20030014507A1 (en) | Method and system for providing performance analysis for clusters | |
JP5251705B2 (ja) | 分析装置制御システム | |
US20130311646A1 (en) | Management method and management system | |
US7231503B2 (en) | Reconfiguring logical settings in a storage system | |
CN112100019B (zh) | 面向大规模系统的多源故障协同分析定位方法 | |
KR100500836B1 (ko) | 매트로 이더넷망의 장애처리 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091215 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |