JP6287495B2 - ストレージシステム、ストレージ装置 - Google Patents

ストレージシステム、ストレージ装置 Download PDF

Info

Publication number
JP6287495B2
JP6287495B2 JP2014074565A JP2014074565A JP6287495B2 JP 6287495 B2 JP6287495 B2 JP 6287495B2 JP 2014074565 A JP2014074565 A JP 2014074565A JP 2014074565 A JP2014074565 A JP 2014074565A JP 6287495 B2 JP6287495 B2 JP 6287495B2
Authority
JP
Japan
Prior art keywords
storage
storage device
processing unit
monitoring server
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014074565A
Other languages
English (en)
Other versions
JP2015197742A (ja
Inventor
秀正 幡野
秀正 幡野
前田 実
実 前田
武石 直人
直人 武石
司芳 渡辺
司芳 渡辺
川田 大
大 川田
晋一 西園
晋一 西園
明宏 植田
明宏 植田
健二 服部
健二 服部
淳 高倉
淳 高倉
篤 片野
篤 片野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014074565A priority Critical patent/JP6287495B2/ja
Priority to US14/630,773 priority patent/US9760460B2/en
Priority to EP15156569.4A priority patent/EP2937786B1/en
Publication of JP2015197742A publication Critical patent/JP2015197742A/ja
Application granted granted Critical
Publication of JP6287495B2 publication Critical patent/JP6287495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3048Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明の実施形態は、ストレージシステム、ストレージ装置および監視サーバに関する。
従来、業務サーバ等のホストのデータを管理するストレージシステムでは、ストレージの故障などに備えるため、現用系のストレージと待機系のストレージとを有するものがある。このストレージシステムでは、現用系のストレージのデータを待機系のストレージにバックアップしている。そして、運用管理者は、ホストと現用系のストレージとの入出力ができなくなった場合に、現用系/待機系のストレージの状態を確認して、待機系のストレージへ切り替えるフェイルオーバを行う。
特表2004−532442号公報 特開2010−67115号公報
しかしながら、上述した従来の技術では、運用管理者が待機系のストレージへ切り替えるフェイルオーバを行うまでに、運用管理者によるストレージの確認、設定などの工程を経る必要がある。このため、ホストからストレージへの入出力を継続できない(業務停止)期間が生じる場合があった。
一実施形態のストレージシステムは、現用系のストレージを有する第1のストレージ装置と、待機系のストレージを有する第2のストレージ装置と、監視サーバとが互いに通信可能に接続されたストレージシステムであって、ホストと通信するための、前記第1のストレージ装置における通信ポート及び前記第2のストレージ装置における通信ポートには互いに同一の識別子が設定され、前記第1のストレージ装置又は前記第2のストレージ装置において活性化された通信ポートを有するストレージ装置が前記設定された識別子をもとに前記ホストとの通信を行い、前記監視サーバは、前記第1のストレージ装置及び前記第2のストレージ装置に所定の時間間隔でポーリングを行って、前記第1のストレージ装置及び前記第2のストレージ装置より受信した情報を、次のポーリングで前記第1のストレージ装置及び前記第2のストレージ装置へ送信する送受信部と、前記第1のストレージ装置は、前記第1のストレージ装置と前記第2のストレージ装置との間の通信経路に異常が生じ、前記監視サーバからのポーリングに基づいて前記第1のストレージ装置と前記監視サーバとの通信経路に異常が生じたと判定した場合に、自装置の通信ポートを非活性化する第1のフェイルオーバ処理部を備え、前記第2のストレージ装置は、前記第1のストレージ装置と前記第2のストレージ装置との間の通信経路に異常が生じ、前記監視サーバからのポーリングに基づいて前記第1のストレージ装置と前記監視サーバとの通信経路に異常が生じたと判定した場合に、自装置の通信ポートを活性化する第2のフェイルオーバ処理部を備えることを特徴とする。
一実施形態によれば、ホストからストレージへの入出力を継続できない期間が生じることを抑止できる、という効果を奏する。
図1は、実施形態にかかるストレージシステムの構成を例示するブロック図である。 図2は、TFOグループを説明する説明図である。 図3は、送受信情報を説明する説明図である。 図4は、管理情報を説明する説明図である。 図5は、Port管理テーブルを説明する説明図である。 図6は、OLU管理テーブルを説明する説明図である。 図7は、セッション管理テーブルを説明する説明図である。 図8は、実施形態にかかるストレージシステムの機能構成を例示するブロック図である。 図9は、閉塞監視部の処理を例示するフローチャートである。 図10は、抑止通知監視部の処理を例示するフローチャートである。 図11は、フェイルオーバ処理部の処理を例示するフローチャートである。 図12は、通信処理部の処理を例示するフローチャートである。 図13は、構築処理部の処理を例示するフローチャートである。 図14は、送受信処理部の初回処理を例示するフローチャートである。 図15は、送受信処理部の処理を例示するフローチャートである。 図16は、タイムアウト処理部の処理を例示するフローチャートである。 図17は、閉塞監視部の処理を例示するフローチャートである。 図18は、抑止通知監視部の処理を例示するフローチャートである。 図19は、フェイルオーバ処理部の処理を例示するフローチャートである。 図20は、通信処理部の処理を例示するフローチャートである。 図21は、構築処理部の処理を例示するフローチャートである。 図22は、復旧監視部の処理を例示するフローチャートである。 図23は、ネゴシエーション処理部の処理を例示するフローチャートである。 図24は、通信監視処理部の処理を例示するフローチャートである。
以下、図面を参照して、実施形態にかかるストレージシステム、ストレージ装置および監視サーバを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明するストレージシステム、ストレージ装置および監視サーバは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、実施形態にかかるストレージシステム1の構成を例示するブロック図である。図1に示すように、ストレージシステム1は、ストレージ装置10、20と、監視サーバ30と、業務サーバ40とを有する。ストレージ装置10、20と業務サーバ40とは、例えばSAN(Storage Area Network)などのネットワークN1によって互いに通信可能される。また、ストレージ装置10、20と、監視サーバ30とは、LAN(Local Area Network)などのネットワークN2によって互いに通信可能に接続される。監視サーバ30は、ネットワークN2を介してストレージ装置10、20を監視するサーバ装置である(詳細は後述する)。業務サーバ40は、ネットワークN1を介してストレージ装置10、20を利用するホストである。
ストレージ装置10、20は、ネットワークN1を介して業務サーバ40が入出力するデータを、ディスク13a、13b、14a、14b、23a、23b、24a、24bに記憶して管理する。具体的には、ストレージ装置10、20は、ディスク13a、13b、14a、14b、23a、23b、24a、24bを現用系のストレージと、待機系のストレージとに分け、現用系のストレージと、待機系のストレージとの組を一つのグループとして管理する。
現用系のストレージは、いわゆるプライマリのストレージであり、例えば現用系のストレージに障害が無い通常時に使用される。また、待機系のストレージは、いわゆるセカンダリのストレージであり、例えば通常時には現用系のストレージのコピーが格納される。そして、現用系のストレージに異常が生じた場合には、フェイルオーバによって切り替えて使用される。
この現用系のストレージと、待機系のストレージとの組み合わせは、ストレージシステム1の運用管理者によって適宜設定される。例えば、ストレージ装置10のディスク13a、13b、14a、14bをプライマリ、ストレージ装置20のディスク23a、23b、24a24bをセカンダリとする組み合わせを設定してもよい。この場合、ストレージ装置10は現用系のストレージを有し、ストレージ装置20は待機系のストレージを有する構成となる。この現用系のストレージと、待機系のストレージとの組み合わせを、本実施形態ではTFO(トランスペアレントフェイルオーバ)グループと呼ぶ。トランスペアレントフェイルオーバは、現用系のストレージから待機系のストレージへの切り替えを業務サーバ40が認識することなく、透過的に行われるフェイルオーバのことである。
このTFOグループは、任意に設定してよい。図2は、TFOグループを説明する説明図である。例えば、図2に示すように、TFOグループG1、G2のように複数のグループを設定してもよい。ここで、TFOグループG1のプライマリをストレージ装置10のディスク13a、13b、セカンダリをストレージ装置20の24a、24bと設定し、TFOグループG2のプライマリをストレージ装置20のディスク23a、23b、セカンダリをストレージ装置10のディスク14a、14bと設定してもよい。この場合、TFOグループG1については、ストレージ装置10は現用系のストレージを有し、ストレージ装置20は待機系のストレージを有する構成となる。また、TFOグループG2については、TFOグループG1とは逆に、ストレージ装置10は待機系のストレージを有し、ストレージ装置20は現用系のストレージを有する構成となる。
以下の実施形態では、ストレージ装置10を現用系のストレージを有するプライマリとし、ストレージ装置20を待機系のストレージを有するセカンダリとして説明する。
ストレージ装置10は、CA(Channel Adapter)11a、11b、12a、12b、ディスク13a、13b、14a、14b、CM(Control Module)15、16を有する。CA11a、11b、12a、12bは、ネットワークN1を介した通信を行うインターフェース(通信ポート)である。ディスク13a、13b、14a、14bは、例えばRAID(Redundant Arrays of Inexpensive Disks)を構築し、業務サーバ40から受信した書込みデータを記憶する。
CM15、16は、業務サーバ40とディスク13a、13b、14a、14bとの間のデータの入出力、監視サーバ30との通信を制御する。なお、CM15、16は、業務サーバ40からの要求に応じて読み書きされるデータを一時的に記憶する図示しない論理ボリューム用キャッシュを有してもよい。また、CM15、16は、業務サーバ40からストレージ装置20へのデータの転送を依頼された場合に用いる図示しない転送用バッファを有してもよい。
ストレージ装置20は、CA21a、21b、22a、22b、ディスク23a、23b、24a、24b、CM25、26を有する。CA21a、21b、22a、22bは、ネットワークN1を介した通信を行うインタフェース(通信ポート)である。ディスク23a、23b、24a、24bは、例えばRAIDを構築し、業務サーバ40から受信した書込みデータやストレージ装置10から転送されたデータを記憶する。
CM25、26は、業務サーバ40とディスク23a、23b、24a、24bとの間のデータの入出力、ストレージ装置10から転送されたデータの入出力、監視サーバ30との通信を制御する。なお、CM25、26は、業務サーバ40からの要求に応じて読み書きされるデータを一時的に記憶する図示しない論理ボリューム用キャッシュを有してもよい。また、CM25、26は、ストレージ装置10からデータを受信した場合に用いる図示しない転送用バッファを有してもよい。
また、ストレージ装置10、20においてネットワークN1を介して業務サーバ40と通信を行う通信ポートである、CA11a、11b、12a、12b、21a、21b、22a、22bには、所定のWWN(World Wide Name)が設定されている。このWWNは、SANにおいて装置を識別すために一意に設定される識別子である。なお、SANの代わりにLAN等を用いる場合は、IPアドレスを識別子として用いてもよい。
本実施形態では、ストレージ装置10において、業務サーバ40と通信を行うCA11a、11b、12a、12bには、各ポートの識別子であるWWPN(World Wide Port Name)、同一のノード(ストレージ装置10)の識別子であるWWNN(World Wide Node Name)等が設定されている。
また、ストレージ装置20において、実務業務サーバ40と通信を行うCA21a、21b、22a、22bには、CA11a、11b、12a、12bの各ポートと同一のWWPN(World Wide Port Name)が設定され、ストレージ装置10と同一のWWNN(World Wide Node Name)が設定されている。
つまり、プライマリのストレージ装置10とセカンダリのストレージ装置20は、切り換えられた際に入出力がエラーとならずに業務が継続されるように、同一のWWPN、WWNNが設定されている。また、ボリュームのUID(Universal ID)や、HLUN(Host Logical Unit Number)等も同一に設定されている。
そして、ストレージ装置10、20の一方の通信ポートをリンクアップ(活性化)させ、他方の通信ポートをリンクダウン(非活性化)させる。これにより、業務サーバ40は、ストレージ装置10、20の内の、通信ポートがリンクアップされた方と通信できる。例えば、ストレージ装置10のストレージに障害が無い通常時にはストレージ装置10の通信ポートがリンクアップされ、ストレージ装置20の通信ポートがリンクダウンされる。これにより、通常時における業務サーバ40の入出力には、ストレージ装置10が使用される。そして、ストレージ装置10のストレージに障害が生じた場合には、ストレージ装置10の通信ポートをリンクダウンさせ、ストレージ装置20の通信ポートをリンクアップさせる。これにより、業務サーバ40の入出力が透過的にストレージ装置20に切り替えられることとなる。
監視サーバ30は、ネットワークN2を介してストレージ装置10、20に所定の時間間隔でポーリングを行って、ストレージ装置10、20より各種情報を受信する。次いで、監視サーバ30は、ポーリングによって受信した情報を次のポーリングでストレージ装置10、20へ送信する。これにより、ストレージ装置10、20は、各種情報を共有する。また、監視サーバ30は、ストレージ装置10、20へのポーリングでタイムアウトが生じた場合、そのタイムアウトが生じたことをストレージ装置10、20へ送信する。これにより、ストレージ装置10、20は、監視サーバ30とストレージ装置10、20との間の通信経路で異常が生じたことを認識できる。
ここで、監視サーバ30のポーリングによって、ストレージ装置10、20の間で送受信される送信情報について説明する。図3は、送受信情報Iを説明する説明図である。
図3に示すように、送信情報Iは、Config Countを格納する領域I1と、Speed Flagを格納する領域I2と、Group Info[0]〜Group Info[31]を格納する領域I3とを含む。
Config Countは、TFOグループの設定、すなわちストレージ装置10、20におけるストレージ等の構成が変更されたことを示す情報であり、例えば、構成が変更された場合にインクリメントされるカウンタ値である。例えば、監視サーバ30からのポーリングされる送信情報Iの領域I1に格納されたConfig Countを参照して、直近のConfig Countと比較することで、構成の変更の有無を確認できる。
Speed Flagは、ポーリングの時間間隔を短くするか否かを示すフラグである。例えば、Speed Flagが「NORMAL」である場合には、監視サーバ30はポーリングの時間間隔はそのままとする。また、Speed Flagが「HIGH SPEED」である場合には、監視サーバ30はポーリングの時間間隔を短くする。
Group Info[0]〜Group Info[31]は、各TFOグループ(0〜31)において、監視サーバ30のポーリングに応じてストレージ装置間で通知する情報である。本実施形態では、プライマリ側のストレージ装置10と、セカンダリ側のストレージ装置20の1つのTFOグループであることから、Group Info[0]などに情報を格納して通知する。
例えば、プライマリ側のストレージ装置10は、業務サーバ40とのIO(入出力)を抑止中であることを示すIO抑止通知を、ストレージ装置20とのTFOグループにおけるGroup Info[0]に格納して通知する。また、セカンダリ側のストレージ装置20は、ストレージ装置10からのIO抑止通知に対するIO抑止応答を、Group Info[0]に格納して通知する。また、監視サーバ30は、ストレージ装置10、20に対するポーリングがタイムアウト(失敗)したことをGroup Info[0]に格納して通知する。また、ストレージ装置10、20において構成の変更があった場合には、構成が変更中であることと、変更された差分などをGroup Info[0]に格納して通知する。
ストレージ装置10、20は、監視サーバ30からポーリングによって通知された送信情報Iに基づいたTFOグループの状態、各種設定などを、管理情報、管理テーブルとしてCM15、16、25、26内の不揮発性メモリ(図示しない)などに記憶する。
ここで、ストレージ装置10、20が記憶する管理情報、管理テーブルについて説明する。図4は、管理情報T1を説明する説明図である。図4に示すように、管理情報T1は、TFOのグループについての情報を格納する。この管理情報T1は、TFOグループ(0〜31)ごとに用意されており、各TFOグループの情報を参照することで、そのグループに関する各種情報を確認できる。
具体的には、管理情報T1は、「IO抑止状態」、「TFO Group Condetion」、「TFO Group Status」、「TFO Group Condition Halt Factor」を含む。「IO抑止状態」は、プライマリが業務サーバ40とのIO(入出力)を抑止中であるか否かを示す。「TFO Group Condetion」は、TFOグループのコンディションが通常(Normal)であるか停止(Halt)であるかを示す。
「TFO Group Status」は、TFOグループの状態が活動中(Active)であるか待機中(Standby)であるかを示す。「TFO Group Condition Halt Factor」は、TFOグループのコンディションが停止となった要因を示す。具体的には、要因なし(None)、プライマリ/セカンダリ間の通信途絶(TFO Group Disconnected)、プライマリ/監視サーバの通信途絶(Monitoring Server Disconnected)がある。
また、管理情報T1は、「Kind」、「Pair Box ID」、「Pair Port Count」、「WWNN」を含む。「Kind」は、自装置がプライマリ、セカンダリ、Noneのいずれかを示す。「Pair Box ID」は、組となるストレージ装置を識別するIDである。「Pair Port Count」は、組となるストレージ装置の構成の変更を示すカウンタ値である。「WWNN」は、自装置のWWNN(World Wide Node Name)を示す。また、管理情報T1は、各通信ポートの設定を示す「Own Port[0]…」、「Pair Port[0]…」、「WWPN[0]…」を含む。
図5は、Port管理テーブルT2を説明する説明図である。図5に示すように、Port管理テーブルT2は、自装置におけるPortを管理するテーブルである。このPort管理テーブルT2を参照することで、例えば、CAがどのTFOグループで使用されているかを確認できる。
図6は、OLU(Open Logical Unit)管理テーブルT3を説明する説明図である。図6に示すように、OLU管理テーブルT3は、自装置におけるOLUを管理するテーブルである。例えば、OLU管理テーブルT3を参照することで、TFOグループが使用するOLUを確認できる。
図7は、セッション管理テーブルT4を説明する説明図である。図7に示すように、セッション管理テーブルT4は、「TFO セッション Status」、「Copy 元 OLU」、「Copy 先 OLU」を含み、TFOのセッションを管理するテーブルである。「TFO セッション Status」は、「Copying」、「Active」、「Suspend」など、TFOにおける現在のセッション状態を示す。「Copy 元 OLU」、「Copy 先 OLU」は、TFOにおいてコピー元のOLUと、コピー先のOLUとを示す。
次に、ストレージシステム1の機能構成について説明する。図8は、実施形態にかかるストレージシステム1の機能構成を例示するブロック図である。図8に示すように、プライマリ側のストレージ装置10は、CM15、16がプログラムを順次実行することで、閉塞監視部101、抑止通知監視部102、フェイルオーバ処理部103、通信処理部104、構築処理部105としての機能を実現する。同様に、セカンダリ側のストレージ装置20は、CM25、26がプログラムを順次実行することで、閉塞監視部201、抑止通知監視部202、フェイルオーバ処理部203、通信処理部204、構築処理部205、復旧監視部206、ネゴシエーション処理部207、通信監視処理部208としての機能を実現する。また、監視サーバ30は、制御部31が送受信処理部301、タイムアウト処理部302としての機能を実現する。制御部31は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを有する。制御部31は、CPUがROMなどに記憶されたプログラムをRAMに展開して順次実行することで、上述した機能部を提供する。
先ず、ストレージ装置10の機能構成を説明する。閉塞監視部101は、プライマリ、セカンダリ間の通信経路が閉塞(異常)状態であるか否かを監視する。ここでいう、通信経路の異常状態とは、正常な応答が得られない等の通信の異常による途絶状態を意味するものである。この通信経路の異常には、物理的な配線の切断等のハードウエア的な要因と、通信アプリケーションのハングアップなどソフトウエア的な要因とがある。閉塞監視部101は、いずれの要因であっても、正常な応答が得られない等の通信の異常となる場合は通信経路の閉塞とする。
図9は、閉塞監視部101の処理を例示するフローチャートである。図9に示すように、処理が開始されると、閉塞監視部101は、プライマリとセカンダリ間の通信経路、すなわちストレージ装置10、20の間の通信経路が異常であるか否かを判定する(S11)。具体的には、ACKなどに対する正常な応答がない場合には、通信経路の異常と判定する。
異常でない場合(S11:NO)、閉塞監視部101はそのまま処理を待機する。異常である場合(S11:YES)、閉塞監視部101は、業務サーバ40とのIO(入出力)を抑止する抑止状態とし(S12)、監視サーバ30を介してストレージ装置20へIO抑止通知を行う(S13)。具体的には、閉塞監視部101は、監視サーバ30からのポーリングに対してIO抑止通知を含めて応答を監視サーバ30へ送信する。このとき、閉塞監視部101は、IO抑止通知に対する応答の監視を、所定の時間間隔(例えば9秒)でタイムアウトとするように抑止通知監視部102に依頼する。
抑止通知監視部102は、閉塞監視部101が送信したIO抑止通知に対する応答の監視を行う。図10は、抑止通知監視部102の処理を例示するフローチャートである。
図10に示すように、閉塞監視部101の依頼などによって処理が開始されると、抑止通知監視部102は、IO抑止通知に対する応答が所定時間(例えば9秒間)無くて、タイムアウトしたか否かを判定する(S21)。タイムアウトしていない場合(S21:NO)、抑止通知監視部102は処理を待機する。タイムアウトした場合、抑止通知監視部102はS22へ処理を進める。
次いで、抑止通知監視部102は、プライマリであるストレージ装置10と監視サーバ30間の通信経路が異常であるか否かを判定する(S22)。具体的には、ACKに対する監視サーバ30からの正常な応答がない場合や、監視サーバ30とのポーリングが失敗した場合には、通信経路の異常と判定する。
異常である場合(S22:YES)、抑止通知監視部102は、フェイルオーバ処理をフェイルオーバ処理部103に依頼する(S23)。これにより、ストレージ装置10、20の間の通信経路が異常であり、ストレージ装置10と監視サーバ30間の通信経路が異常である場合には、ストレージ装置10に異常があることから、フェイルオーバ処理部103によるフェイルオーバ処理が開始される。
異常でない場合(S22:NO)、抑止通知監視部102は、管理情報T1における「TFO Group Condition」を「Halt」(停止)に遷移させる(S24)。これにより、TFOグループのコンディションを停止とさせる。次いで、抑止通知監視部102は、TFOセッションをHalt(停止)に遷移させ(S25)、IO抑止状態を解除する(S26)。これにより、ストレージ装置10、20の間の通信経路が異常であるが、ストレージ装置10と監視サーバ30間の通信経路が異常でない場合には、ストレージ装置10に異常がないことから、ストレージ装置20への切り替え(フェイルオーバ)が行われないようにする。
フェイルオーバ処理部103は、ストレージ装置10からストレージ装置20へのフェイルオーバを行うため、ストレージ装置10が業務サーバ40と通信する通信ポートをリンクダウンさせるフェイルオーバ処理を行う。図11は、フェイルオーバ処理部103の処理を例示するフローチャートである。
図11に示すように、ストレージ装置10側のフェイルオーバ処理が開始されると、フェイルオーバ処理部103は、「TFO Group Status」を「Standby」に遷移させる(S31)。これにより、TFOグループの状態が待機中(Standby)となる。次いで、フェイルオーバ処理部103は、「TFO Port Link」、すなわちストレージ装置10が業務サーバ40と通信する通信ポートを「Down」(非活性化)に遷移させる(S32)。これにより、業務サーバ40からはストレージ装置10が認識できず、ストレージ装置10と業務サーバ40との通信ができなくなる。次いで、フェイルオーバ処理部103は、「TFO Group Condition」を「Halt」(停止)に遷移させる(S33)。
通信処理部104は、ストレージ装置10と監視サーバ30との間の通信を制御する。図12は、通信処理部104の処理を例示するフローチャートである。図12に示すように、通信処理部104は、監視サーバ30からのポーリングにより通知される送信情報Iをもとに、IO抑止通知に対する応答の受信があったか否かを判定する(S41)。
IO抑止通知に対する応答の受信がなかった場合(S41:NO)、通信処理部104はS44へ処理を進める。IO抑止通知に対する応答の受信があった場合(S41:YES)、通信処理部104は、IO抑止状態を解除する(S42)。ついで、通信処理部104は、IO抑止通知を送った要因がプライマル/セカンダリ間の通信経路の閉塞であることから、「TFO Group Condition Halt Factor」に「TFO Group Disconnected」を設定する(S43)。
次いで、通信処理部104は、管理情報T1を参照して、IO抑止状態であるか否かを判定する(S44)。IO抑止状態でない場合(S44:NO)、通信処理部104はS47へ処理を進める。IO抑止状態である場合(S44:YES)、通信処理部104は、IO抑止通知を行うための、送信情報IのビットをONとし(S45)、「Speed Flag」のビットをONとする(S46)。
次いで、通信処理部104は、管理情報T1を参照して、直近からの構成の変更の有無を判定する(S47)。構成に変更がない場合(S47:NO)、通信処理部104はS49へ処理を進める。構成に変更がある場合(S47:YES)、通信処理部104は「Config Count」のカウンタ値をインクリメントして設定する(S48)。
次いで、通信処理部104は、監視サーバ30からのポーリングに対する通信応答として、S48までの処理で設定された送信情報Iを監視サーバ30に送信する(S49)。次いで、通信処理部104は、管理情報T1における「TFO Group Condition Halt Factor」が「Monitoring Server Disconnected」であり、監視サーバ30に関する経路が正常であるか否かを判定する(S50)。なお、監視サーバ30に関する経路が正常であるか否かについては、監視サーバ30からのポーリングの有無などをもとに判定する。
S50において肯定である場合(S50:YES)、監視サーバ30に関する経路が正常に戻ったということであるから、通信処理部104は、管理情報T1における「TFO Group Condition」を「Normal」に遷移させる(S51)。S50において否定である場合(S50:NO)、通信処理部104はS51をスキップして処理を終了する。
構築処理部105は、送信情報Iの「Config Count」での通知において、TFOグループにおいて構成の変更があった場合に、ストレージ装置10側における構築処理を行う。図13は、構築処理部105の処理を例示するフローチャートである。
図13に示すように、処理が開始されると、構築処理部105は、管理情報T1における「TFO Group Condition」を「Halt」(停止)に遷移させる(S61)。この時、Haltの要因である「TFO Group Condition Halt Factor」は「TFO Group Disconnected」とする。次いで、構築処理部105は、管理情報T1における「TFO Group Status」を「Active」に遷移させる(S62)。
次に、監視サーバ30の機能構成を説明する。送受信処理部301は、ストレージ装置10、20との間の情報を送受信する。具体的には、送受信処理部301は、ストレージ装置10、20に所定の時間間隔でポーリングを行って、ストレージ装置10、20より受信した情報を、次のポーリングでストレージ装置10、20へ送信する送受信処理を行う。
図14は、送受信処理部301の初回処理を例示するフローチャートである。なお、初回処理とは、送受信処理部301がストレージ装置10、20に対して、初回に送受信を行う処理を示す。図14に示すように、初回処理が開始されると、送受信処理部301は、送信情報Iに構成変更中などのフラグを立ててストレージ装置10、20へポーリングすることで、ストレージ装置10、20より構成に関する応答を取得する構成構築処理を行う(S101)。次いで、送受信処理部301は、ストレージ装置10、20より取得した構成に関する応答をもとに、送信情報Iを設定し(S102)、ストレージ装置10、20へ送信(ポーリング)する(S103)。これにより、ストレージ装置10、20では、互いの構成について情報を共有できる。次いで、フェイルオーバ処理部103は、ストレージ装置10、20との間の受信の監視を起動する(S104)。
図15は、送受信処理部301の処理を例示するフローチャートであり、具体的には、初回処理後に行われる送受信処理部301の処理を示すフローチャートである。
図15に示すように、送受信処理部301は、ストレージ装置10、20からの送信情報Iの受信を受けて(S110)、「Config Count」のインクリメントの検出の有無を判定する(S111)。インクリメントの検出がない場合(S111:NO)、送受信処理部301はS114へ処理を進める。
インクリメントの検出がある場合(S111:YES)、送受信処理部301は、構成変更中などのフラグを立てた送信情報Iを設定し(S112)、ストレージ装置10、20へポーリングすることで、ストレージ装置10、20より構成に関する応答を取得する構成構築処理を行う(S113)。
次いで、送受信処理部301は、TFOグループの全装置、すなわちストレージ装置10及び20から応答を受信したか否かを判定する(S114)。応答を受信していない場合(S114:NO)、送受信処理部301は、S110へ処理を戻して応答を待つ。
ストレージ装置10及び20から応答を受信した場合(S114:YES)、送受信処理部301は、ストレージ装置10、20より取得した構成に関する応答をもとに、送信情報Iを設定する(S115)。次いで、送受信処理部301は、送信情報Iの「Speed Flag」がOFFであるか否かを判定する(S116)。
OFFである場合(S116:YES)、ポーリングの時間間隔を短くしなくてよいことから、送受信処理部301は、予め設定された所定時間、ポーリング間隔を待ち合わせる(S117)。OFFでない場合(S116:NO)、ポーリングの時間間隔を短くすることから、送受信処理部301は、ポーリング間隔を待ち合わせるためのS117をスキップする。
次いで、送受信処理部301は、S115で設定された送信情報Iをストレージ装置10、20へ送信(ポーリング)し、受信の監視リセット・起動を行う(S119)。
タイムアウト処理部302は、送受信処理部301におけるストレージ装置10、20へのポーリングにおいて、所定の時間内の応答がない、タイムアウトが生じた否かを監視する。タイムアウト処理部302は、タイムアウトが生じた場合、タイムアウトが生じたことをストレージ装置10、20へ送信する。
図16は、タイムアウト処理部302の処理を例示するフローチャートである。図16に示すように、タイムアウト処理部302は、ストレージ装置10、20へのポーリングにおいて、所定の時間内の応答がない、タイムアウトが生じた場合(S120)、タイムアウトによりポーリングが失敗したことを示す送信情報Iを設定する(S121)。次いで、タイムアウト処理部302は、設定した送信情報Iをストレージ装置10、20へ送信し(S122)、受信の監視リセット・起動を行う(S123)。
次に、ストレージ装置20の機能構成を説明する。閉塞監視部201は、プライマリ、セカンダリ間の通信経路が閉塞(異常)状態であるか否かを監視する。
図17は、閉塞監視部201の処理を例示するフローチャートである。図17に示すように、処理が開始されると、閉塞監視部201は、プライマリとセカンダリ間の通信経路、すなわちストレージ装置10、20の間の通信経路が異常であるか否かを判定する(S201)。具体的には、ACKなどに対する正常な応答がない場合には、通信経路の異常と判定する。
異常でない場合(S201:NO)、閉塞監視部201はそのまま処理を待機する。異常である場合(S201:YES)、IO抑止通知の監視を、所定の時間間隔(例えば15秒)でタイムアウトとするように抑止通知監視部102に依頼する。
抑止通知監視部202は、ストレージ装置10から監視サーバ30を経由したIO抑止通知を監視する。図18は、抑止通知監視部202の処理を例示するフローチャートである。
図18に示すように、閉塞監視部201の依頼などによって処理が開始されると、抑止通知監視部202は、IO抑止通知が所定時間(例えば15秒間)なく、監視がタイムアウトしたか否かを判定する(S211)。タイムアウトしていない場合(S211:NO)、抑止通知監視部202は処理を待機する。
タイムアウトした場合(S211:YES)、抑止通知監視部202は、フェイルオーバ処理をフェイルオーバ処理部203に依頼する(S212)。これにより、ストレージ装置10、20の間の通信経路が異常であり、ストレージ装置10からのIO抑止通知がなく、ストレージ装置10と監視サーバ30間の通信経路が異常である場合には、ストレージ装置10に異常があることから、フェイルオーバ処理部203によるフェイルオーバ処理が開始される。
フェイルオーバ処理部203は、ストレージ装置10からストレージ装置20へのフェイルオーバを行うため、ストレージ装置20が業務サーバ40と通信する通信ポートをリンクアップさせるフェイルオーバ処理を行う。図19は、フェイルオーバ処理部203の処理を例示するフローチャートである。
図19に示すように、ストレージ装置20側のフェイルオーバ処理が開始されると、フェイルオーバ処理部203は、「TFO セッション」を「Suspend」に遷移させる(S221)。次いで、フェイルオーバ処理部203は、「TFO Group Condition」を「Halt」(停止)に遷移させ(S222)、「TFO Group Status」を「Active」に遷移させる(S223)。次いで、フェイルオーバ処理部203は、「TFO Port Link」、すなわちストレージ装置20が業務サーバ40と通信する通信ポートを「Up」(活性化)に遷移させる(S224)。
これにより、業務サーバ40からはストレージ装置20が認識され、ストレージ装置20と業務サーバ40との通信が行われる。また、業務サーバ40側では、WWN等の設定を行うことなく、業務サーバ40の入出力が透過的にストレージ装置20に切り替えられることとなる。したがって、ストレージシステム1では、ホストである業務サーバ40からストレージ装置10、20のストレージへの入出力を継続できない期間が生じることを、抑止できる。
通信処理部204は、ストレージ装置20と監視サーバ30との間の通信を制御する。図20は、通信処理部204の処理を例示するフローチャートである。図20に示すように、通信処理部204は、監視サーバ30からのポーリングにより通知される送信情報Iをもとに、IO抑止通知があったか否かを判定する(S231)。
IO抑止通知の受信がなかった場合(S231:NO)、通信処理部204はS236へ処理を進める。IO抑止通知の受信があった場合(S231:YES)、通信処理部204は、IO抑止通知の監視を解除する(S232)。次いで、通信処理部204は、IO抑止通知を送った要因がプライマル/セカンダリ間の通信経路の閉塞であることから、「TFO Group Condition Halt Factor」に「TFO Group Disconnected」を設定する(S233)。
次いで、通信処理部204は、IO抑止通知への応答を行うための、送信情報IのビットをONとし(S234)、「Speed Flag」のビットをONとする(S235)。
次いで、通信処理部204は、管理情報T1を参照して、直近からの構成の変更の有無を判定する(S236)。構成に変更がない場合(S236:NO)、通信処理部204はS238へ処理を進める。構成に変更がある場合(S236:YES)、通信処理部204は「Config Count」のカウンタ値をインクリメントして設定する(S237)。これにより、通信処理部204は、監視サーバ30からのポーリングに対する通信応答として、S237までの処理で設定された送信情報Iを監視サーバ30に送信する。
次いで、通信処理部204は、管理情報T1における「TFO Group Condition Halt Factor」が「Monitoring Server Disconnected」であり、監視サーバ30に関する経路が正常であるか否かを判定する(S238)。なお、監視サーバ30に関する経路が正常であるか否かについては、監視サーバ30からのポーリングの有無などをもとに判定する。
S238において肯定である場合(S238:YES)、監視サーバ30に関する経路が正常に戻ったということであるから、通信処理部204は、管理情報T1における「TFO Group Condition」を「Normal」に遷移させる(S239)。次いで、通信処理部204は、監視サーバ30との通信の監視を開始し(S240)、監視タイマをリセットする(S241)。
次いで、通信処理部204は、監視サーバ30との通信の監視をもとに、ストレージ装置20と監視サーバ30との間の通信経路に異常が生じているか否かを判定する(S242)。異常が生じている場合(S242:YES)、通信処理部204は、監視タイマを起動する(S243)。異常が生じていない場合(S242:NO)、通信処理部204は、監視タイマをリセットする(S244)。S243、S244に次いで、通信処理部204は、監視サーバ30へポーリングに対する通信応答を行う(S245)。
構築処理部205は、送信情報Iの「Config Count」での通知において、TFOグループにおいて構成の変更があった場合に、ストレージ装置20側における構築処理を行う。図21は、構築処理部205の処理を例示するフローチャートである。
図21に示すように、処理が開始されると、構築処理部205は、管理情報T1における「TFO Group Condition」を「Halt」(停止)に遷移させる(S251)。この時、Haltの要因である「TFO Group Condition Halt Factor」は「TFO Group Disconnected」とする。次いで、構築処理部205は、TFOセッションを起動させ(S252)、管理情報T1における「TFO Group Status」を「Standby」に遷移させる(S253)。
次いで、構築処理部205は、監視サーバ30を経由してストレージ装置10より送信される送信情報Iをもとに、プライマリとセカンダリとの設定合わせを行う(S254)。具体的には、構築処理部205は、プライマリ側であるストレージ装置10からの設定をコピーして管理情報T1に設定する。この時、構築処理部205は、自装置における業務サーバ40との通信を行う通信ポートに、ストレージ装置10側の設定と同一のWWPN(World Wide Port Name)等を設定する。
次いで、構築処理部205は、送信情報Iの「Config Count」をインクリメントし(S255)、ネゴシエーション処理部207に依頼してネゴシエーション処理を開始させる(S256)。
復旧監視部206は、ストレージ装置10、20間の通信経路が異常から復旧したか否かを監視する。具体的には、復旧監視部206ストレージ装置10、20間の通信経路において異常が検出された場合に、所定の時間間隔で復旧の有無を確認する。図22は、復旧監視部206の処理を例示するフローチャートである。
図22に示すように、処理が開始されると、復旧監視部206は、プライマリとセカンダリ間の通信経路、すなわちストレージ装置10、20の間の通信経路が異常から復旧したか否かを判定する(S261)。具体的には、ACKなどに対する正常な応答が返ってきた場合には、通信経路の異常が復旧したと判定する。異常から復旧した場合(S261:YES)、復旧監視部206は、ネゴシエーション処理部207に依頼してネゴシエーション処理を開始させる(S262)。異常から復旧していない場合(S261:NO)、復旧監視部206は、S262をスキップして処理を終了する。
ネゴシエーション処理部207は、ストレージ装置10と、ストレージ装置20との間のネゴシエーションを行う。具体的には、ネゴシエーション処理部207は、セカンダリが「Active」、すなわち業務サーバ40との通信を行っている場合、ストレージ装置10との通信により、ストレージ装置20側のストレージのデータをストレージ装置10側のストレージにコピーする。また、セカンダリがアクティブでなく、業務サーバ40との通信を行っていない場合、ネゴシエーション処理部207は、ストレージ装置10との通信により、TFOの状態の設定合わせを行う。
図23は、ネゴシエーション処理部207の処理を例示するフローチャートである。図23に示すように、ネゴシエーション処理部207は、管理情報T1を参照してセカンダリが「Active」であるか否かを判定する(S271)。セカンダリが「Active」である場合(S271:YES)、ネゴシエーション処理部207は、「TFO セッション」のステータスを「Copying」に遷移させる(S272)。これにより、セカンダリからプライマリへのデータのコピーが開始され、プライマリでのバックアップが行われることとなる。次いで、ネゴシエーション処理部207は、「TFOのセッション」を「Suspend」に遷移させる(S273)。
セカンダリが「Active」でない場合(S271:NO)、ネゴシエーション処理部207は、管理情報T1の「TFO Group Status」を「Active」に遷移させる(S274)。次いで、ネゴシエーション処理部207は、管理情報T1におけるプライマリの「TFO Group Condition Halt Factor」が「TFO Group Disconnected」であるか否かを判定する(S275)。
S275で肯定の場合(S275:YES)、ネゴシエーション処理部207は、管理情報T1におけるプライマリの「TFO Group Condition」を「Halt」に遷移させる(S276)。この時、Haltの要因である「TFO Group Condition Halt Factor」は「Monitoring Server Disconnected」とする。S275で否定の場合(S275:NO)、ネゴシエーション処理部207はS276をスキップしてS277へ処理を進める。
次いで、ネゴシエーション処理部207は、管理情報T1をもとに、プライマリであるストレージ装置10が「Normal」であるか否かを判定する(S277)。S277が否定である場合(S277:NO)、ネゴシエーション処理部207は、S278、S279をスキップして処理を終了する。
S277が肯定である場合(S277:YES)、ネゴシエーション処理部207は、管理情報T1をもとに、セカンダリの「TFO Group Condition Halt Factor」が「TFO Group Disconnected」であるか否かを判定する(S278)。S278が否定である場合(S278:NO)、ネゴシエーション処理部207は、S279をスキップして処理を終了する。
S278が肯定である場合(S278:YES)、ネゴシエーション処理部207は、管理情報T1におけるセカンダリの「TFO Group Condition」を「Halt」に遷移させる(S279)。この時、Haltの要因である「TFO Group Condition Halt Factor」は「Monitoring Server Disconnected」とする。
通信監視処理部208は、ストレージ装置20と監視サーバ30との間の通信を監視する。図24は、通信監視処理部208の処理を例示するフローチャートである。図24に示すように、通信監視処理部208は、セカンダリであるストレージ装置20と、監視サーバ30との経路の監視が所定の時間経過(例えば3秒)でタイムアウトしたか否かを判定する(S281)。タイムアウトしなかった場合(S281:NO)、通信監視処理部208は、S284へ処理を進める。
タイムアウトした場合(S281:YES)、通信監視処理部208は、管理情報T1におけるセカンダリの「TFO Group Condition」を「Halt」に遷移させる(S282)。この時、Haltの要因である「TFO Group Condition Halt Factor」は「TFO Group Disconnected」とする。次いで、通信監視処理部208は、監視サーバ30との通信の監視を停止する(S283)。
次いで、通信監視処理部208は、プライマリであるストレージ装置10と監視サーバ30との経路の監視が所定の時間経過(例えば30秒)でタイムアウトしたか否かを判定する(S284)。タイムアウトしなかった場合(S284:NO)、通信監視処理部208は、処理を終了する。
タイムアウトした場合(S284:YES)、通信監視処理部208は、管理情報T1におけるセカンダリの「TFO Group Condition」を「Halt」に遷移させる(S285)。この時、Haltの要因である「TFO Group Condition Halt Factor」は「TFO Group Disconnected」とする。次いで、通信監視処理部208は、監視サーバ30との通信の監視を停止する(S286)。
以上のように、監視サーバ30は、ストレージ装置10、20に所定の時間間隔でポーリングを行って、ストレージ装置10、20より受信した情報を、次のポーリングでストレージ装置10、20へ送信する。これにより、ストレージ装置10、20では互いの情報を共有し、フェイルオーバ処理を行うことができる。また、ストレージ装置10、20において、業務サーバ40と通信を行うCA11a、11b、12a、12bと、対応するCA21a、21b、22a、22bには、同一のWWPN(World Wide Port Name)が設定されている。また、ストレージ装置10、20において、同一のWWNN(World Wide Node Name)、ボリュームのUID(Universal ID)、HLUN(Host Logical Unit Number)等が設定されている。
そして、ストレージ装置10、20の一方の通信ポートをリンクアップ(活性化)させ、他方の通信ポートをリンクダウン(非活性化)させる。例えば、ストレージ装置10のストレージに障害が無い通常時にはストレージ装置10の通信ポートをリンクアップし、ストレージ装置20の通信ポートをリンクダウンする。これにより、通常時における業務サーバ40の入出力には、ストレージ装置10が使用される。そして、ストレージ装置10のストレージに障害が生じた場合には、ストレージ装置10の通信ポートをリンクダウンし、ストレージ装置20の通信ポートをリンクアップする。これにより、業務サーバ40の入出力が透過的にストレージ装置20に切り替えられることとなり、業務サーバ40からストレージ装置10、20のストレージへの入出力を継続できない期間が生じることを抑止できる。
なお、ストレージ装置10及びストレージ装置20がフェイルオーバ処理を開始するための、IO抑止通知の受信(応答)にかかるタイムアウト時間は、セカンダリ側の時間を長く設定することが好ましい。セカンダリ側の時間を長く設定することで、プライマリ側よりもセカンダリ側のフェイルオーバ処理が遅く開始されることとなる。したがって、プライマリ側の通信ポートがリンクダウンされた後に、セカンダリ側の通信ポートをリンクアップすることができる。
なお、これらタイムアウト時間は、業務サーバ40からストレージ装置10、20のストレージへの入出力がエラーとならずに継続される程度の値を設定することが好ましい。例えば、業務サーバ40からストレージ装置10、20のストレージへの入出力が、例えば25秒間の停止でエラーとなり、業務停止期間が生じるものと想定する。この想定では、ストレージ装置10、20におけるフェイルオーバ処理を開始するためのタイムアウト時間の合計を25秒未満(例えば9秒、15秒)とすることで、エラーが生じる前にストレージ装置10、20におけるフェイルオーバ処理を行うことができる。これにより、業務停止期間が生じることを抑止できる。
1…ストレージシステム
10…ストレージ装置
11a〜12b、21a〜22b…CA
13a〜14b、23a〜24b…ディスク
15、16、25、26…CM
20…ストレージ装置
30…監視サーバ
31…制御部
40…業務サーバ
N1、N2…ネットワーク
101…閉塞監視部
102…抑止通知監視部
103…フェイルオーバ処理部
104…通信処理部
105…構築処理部
301…送受信処理部
302…タイムアウト処理部
201…閉塞監視部
202…抑止通知監視部
203…フェイルオーバ処理部
204…通信処理部
205…構築処理部
206…復旧監視部
207…ネゴシエーション処理部
208…通信監視処理部
G1、G2…TFOグループ
I…送信情報
I1〜I3…領域
T1…管理情報
T2…Port管理テーブル
T3…OLU管理テーブル
T4…セッション管理テーブル

Claims (7)

  1. 現用系のストレージを有する第1のストレージ装置と、待機系のストレージを有する第2のストレージ装置と、監視サーバとが互いに通信可能に接続されたストレージシステムであって、ホストと通信するための、前記第1のストレージ装置における通信ポート及び前記第2のストレージ装置における通信ポートには互いに同一の識別子が設定され、前記第1のストレージ装置又は前記第2のストレージ装置において活性化された通信ポートを有するストレージ装置が前記設定された識別子をもとに前記ホストとの通信を行い、
    前記監視サーバは、
    前記第1のストレージ装置及び前記第2のストレージ装置に所定の時間間隔でポーリングを行って、前記第1のストレージ装置及び前記第2のストレージ装置より受信した情報を、次のポーリングで前記第1のストレージ装置及び前記第2のストレージ装置へ送信する送受信部を備え、
    前記第1のストレージ装置は、
    前記第1のストレージ装置と前記第2のストレージ装置との間の通信経路に異常が生じ、前記監視サーバからのポーリングに基づいて前記第1のストレージ装置と前記監視サーバとの通信経路に異常が生じたと判定した場合に、自装置の通信ポートを非活性化する第1のフェイルオーバ処理部を備え、
    前記第2のストレージ装置は、
    前記第1のストレージ装置と前記第2のストレージ装置との間の通信経路に異常が生じ、前記監視サーバからのポーリングに基づいて前記第1のストレージ装置と前記監視サーバとの通信経路に異常が生じたと判定した場合に、自装置の通信ポートを活性化する第2のフェイルオーバ処理部を備える
    ことを特徴とするストレージシステム。
  2. 前記第1のフェイルオーバ処理部は、前記第1のストレージ装置と前記第2のストレージ装置との間の通信経路に異常が生じた後に、前記監視サーバからのポーリングを第1の時間間隔で監視して前記第1のストレージ装置と、前記監視サーバとの通信経路に異常が生じたか否かを判定し、
    前記第2のフェイルオーバ処理部は、前記第1のストレージ装置と前記第2のストレージ装置との間の通信経路に異常が生じた後に、前記監視サーバからのポーリングを前記第1の時間間隔よりも長い第2の時間間隔で監視して前記第1のストレージ装置と前記監視サーバとの通信経路に異常が生じたか否かを判定する
    ことを特徴とする請求項1に記載のストレージシステム。
  3. 前記第2のストレージ装置は、
    前記第1のストレージ装置と、前記第2のストレージ装置との間の通信経路が復旧し、前記自装置の通信ポートが活性化されている場合、前記第1のストレージ装置とネゴシエーションして前記待機系のストレージのデータを前記現用系のストレージにコピーする処理を行うネゴシエーション処理部を備える
    ことを特徴とする請求項1又は請求項2に記載のストレージシステム。
  4. 前記第1のストレージ装置及び前記第2のストレージ装置は、前記第1のストレージ装置と、前記第2のストレージ装置との間の通信経路に異常が生じた場合、前記監視サーバからのポーリングに応じて当該ポーリングの時間間隔を短くするための通知を行い、
    前記送受信部は、前記ポーリングの時間間隔を短くするための通知に基づいて前記ポーリングの時間間隔を短くする
    ことを特徴とする請求項1乃至請求項3のいずれか一項に記載のストレージシステム。
  5. 前記第1のストレージ装置及び前記第2のストレージ装置は、構成の変更を示す情報を、前記監視サーバからのポーリングに応じて送信し、
    前記送受信部は、前記構成の変更を示す情報が受信された場合、前記ポーリングによって、前記第1のストレージ装置及び前記第2のストレージ装置より構成を示す情報を収集し、当該収集した情報を前記第1のストレージ装置及び前記第2のストレージ装置へ送信する
    請求項1乃至請求項4のいずれか一項に記載のストレージシステム。
  6. 前記第2のストレージ装置は、前記ポーリングにより通知された前記第1のストレージ装置の情報に基づいて、前記自装置の通信ポートに前記第1のストレージ装置の通信ポートと同一の識別子を設定する構成処理部を備える
    請求項1乃至請求項5のいずれか一項に記載のストレージシステム。
  7. 現用系のストレージ及び待機系ストレージの少なくとも一方のストレージと、
    他のストレージ装置と同一の識別子が設定された、ホストと通信するための通信ポートと、
    監視サーバからの所定の時間間隔で行われるポーリングに対して自装置の情報を送信し、次のポーリングで前記監視サーバからの情報を受信する通信処理部と、
    前記他のストレージ装置と、自装置との間の通信経路に異常が生じ、前記監視サーバからのポーリングに基づいて自装置と、前記監視サーバとの通信経路に異常が生じたと判定した場合に、活性化されている自装置の通信ポートを非活性化し、前記他のストレージ装置と、自装置との間の通信経路に異常が生じ、前記監視サーバからのポーリングに基づいて前記他のストレージ装置と、前記監視サーバとの通信経路に異常が生じたと判定した場合に、非活性化されている自装置の通信ポートを活性化するフェイルオーバ処理部と、
    を備えることを特徴とするストレージ装置。
JP2014074565A 2014-03-31 2014-03-31 ストレージシステム、ストレージ装置 Active JP6287495B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014074565A JP6287495B2 (ja) 2014-03-31 2014-03-31 ストレージシステム、ストレージ装置
US14/630,773 US9760460B2 (en) 2014-03-31 2015-02-25 Storage system, storage device, and monitoring server
EP15156569.4A EP2937786B1 (en) 2014-03-31 2015-02-25 Storage system, storage device, and monitoring server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014074565A JP6287495B2 (ja) 2014-03-31 2014-03-31 ストレージシステム、ストレージ装置

Publications (2)

Publication Number Publication Date
JP2015197742A JP2015197742A (ja) 2015-11-09
JP6287495B2 true JP6287495B2 (ja) 2018-03-07

Family

ID=52596365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014074565A Active JP6287495B2 (ja) 2014-03-31 2014-03-31 ストレージシステム、ストレージ装置

Country Status (3)

Country Link
US (1) US9760460B2 (ja)
EP (1) EP2937786B1 (ja)
JP (1) JP6287495B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102387973B1 (ko) * 2015-12-01 2022-04-19 삼성전자주식회사 이중화 저장 장치, 그것을 포함한 서버 시스템 및 그것의 동작 방법
JP2018116477A (ja) * 2017-01-18 2018-07-26 富士通株式会社 情報処理装置および情報処理システム
JP6933107B2 (ja) * 2017-11-22 2021-09-08 富士通株式会社 ストレージシステム,ストレージ制御装置およびストレージ制御プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574863A (en) * 1994-10-25 1996-11-12 Hewlett-Packard Company System for using mirrored memory as a robust communication path between dual disk storage controllers
US5926367A (en) * 1997-12-09 1999-07-20 Intel Corporation Method and apparatus for the thermal management of electronic devices
JP2002500393A (ja) 1997-12-24 2002-01-08 アヴィッド・テクノロジー・インコーポレーテッド コンピュータ・システムおよび多数の記憶装置および多数のアプリケーション間でスケーラブルにかつ信頼性高く多数の高帯域データ・ストリームを転送するプロセス
US6578158B1 (en) * 1999-10-28 2003-06-10 International Business Machines Corporation Method and apparatus for providing a raid controller having transparent failover and failback
US6980510B1 (en) * 2000-09-12 2005-12-27 International Business Machines Corporation Host interface adaptive hub storage system
JP4457185B2 (ja) 2001-02-13 2010-04-28 ネットアップ,インコーポレイテッド シリコンベースのストレージ仮想化サーバ
US7406039B2 (en) * 2002-02-26 2008-07-29 Dell Products L.P. System and method for a failover protocol in storage area network controllers
US7529180B1 (en) * 2002-03-29 2009-05-05 Marvell International Ltd. Switch failover for aggregated data communication links
US6961867B2 (en) 2002-05-01 2005-11-01 International Business Machines Corporation Apparatus and method to provide data storage device failover capability
US7401254B2 (en) * 2003-04-23 2008-07-15 Dot Hill Systems Corporation Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis
US7779137B1 (en) * 2003-10-24 2010-08-17 Network Appliance, Inc. IP aliasing and address resolution using a fibre channel (FC) fabric name server
WO2007022238A2 (en) * 2005-08-17 2007-02-22 Nortel Networks Limited High-availability networking with intelligent failover
JP2007087266A (ja) * 2005-09-26 2007-04-05 Hitachi Ltd ストレージシステムおよびストレージ装置
US7500134B2 (en) * 2005-12-27 2009-03-03 Emc Corporation Virtual array failover
JP5366184B2 (ja) * 2008-09-12 2013-12-11 株式会社Nec情報システムズ データ記憶システム、データ記憶方法
WO2010126488A1 (en) * 2009-04-28 2010-11-04 Hewlett-Packard Development Company, L.P. Network interface
JP2012173996A (ja) * 2011-02-22 2012-09-10 Nec Corp クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム
CN103677967B (zh) * 2012-09-03 2017-03-01 阿里巴巴集团控股有限公司 一种数据库的远程数据服务系统及任务调度方法

Also Published As

Publication number Publication date
US9760460B2 (en) 2017-09-12
EP2937786A3 (en) 2015-12-16
US20150278052A1 (en) 2015-10-01
JP2015197742A (ja) 2015-11-09
EP2937786A2 (en) 2015-10-28
EP2937786B1 (en) 2016-12-28

Similar Documents

Publication Publication Date Title
US8332506B2 (en) Network monitor program executed in a computer of cluster system, information processing method and computer
US7619965B2 (en) Storage network management server, storage network managing method, storage network managing program, and storage network management system
WO2015104833A1 (ja) 情報システム及びi/o処理方法
WO2017050254A1 (zh) 热备方法、装置及系统
US9674285B2 (en) Bypassing failed hub devices in hub-and-spoke telecommunication networks
US10797912B2 (en) Relay device and relay method
US20150331753A1 (en) Method and apparatus of disaster recovery virtualization
WO2015162634A1 (en) Information storage system
JP6287495B2 (ja) ストレージシステム、ストレージ装置
US11418382B2 (en) Method of cooperative active-standby failover between logical routers based on health of attached services
JP2007233586A (ja) 二重化制御装置及び二重化制御方法
US8819481B2 (en) Managing storage providers in a clustered appliance environment
JP4806382B2 (ja) 冗長化システム
JP4645435B2 (ja) 情報処理装置、通信負荷分散方法及び通信負荷分散プログラム
JP6260470B2 (ja) 網監視システムおよび網監視方法
JP2018056633A (ja) クラスタシステム、サーバ、サーバの動作方法、及びプログラム
KR102018225B1 (ko) 연결 방법
JP2018116477A (ja) 情報処理装置および情報処理システム
CN112882771A (zh) 应用系统的服务器切换方法及装置、存储介质及电子设备
CN104461951A (zh) 动态管理物理和虚拟多路径i/o的方法及系统
JP7283314B2 (ja) スイッチ装置及び情報処理システム
US11947431B1 (en) Replication data facility failure detection and failover automation
JP2013250732A (ja) ブレードサーバシステム
WO2011032375A1 (zh) 一种自适应数据备份系统及其方法
JP6345359B1 (ja) ネットワークシステム、通信制御装置およびアドレス設定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6287495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150