JP2008134986A - 情報システム、データ転送方法及びデータ保護方法 - Google Patents

情報システム、データ転送方法及びデータ保護方法 Download PDF

Info

Publication number
JP2008134986A
JP2008134986A JP2007085675A JP2007085675A JP2008134986A JP 2008134986 A JP2008134986 A JP 2008134986A JP 2007085675 A JP2007085675 A JP 2007085675A JP 2007085675 A JP2007085675 A JP 2007085675A JP 2008134986 A JP2008134986 A JP 2008134986A
Authority
JP
Japan
Prior art keywords
volume
data
storage device
storage
storage apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007085675A
Other languages
English (en)
Other versions
JP5244332B2 (ja
Inventor
Hiroaki Akutsu
弘明 圷
Takanari Iwamura
卓成 岩村
Kenta Futase
健太 二瀬
Takao Watanabe
恭男 渡辺
Yasutomo Yamamoto
康友 山本
Kentetsu Eguchi
賢哲 江口
Hisao Honma
久雄 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007085675A priority Critical patent/JP5244332B2/ja
Priority to US11/850,892 priority patent/US7739540B2/en
Publication of JP2008134986A publication Critical patent/JP2008134986A/ja
Priority to US12/767,021 priority patent/US7925914B2/en
Priority to US13/039,526 priority patent/US8281179B2/en
Application granted granted Critical
Publication of JP5244332B2 publication Critical patent/JP5244332B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2082Data synchronisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2058Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using more than 2 mirrored copies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • G06F11/2074Asynchronous techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • G06F11/2076Synchronous techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • G06F11/2079Bidirectional techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2084Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring on the same storage unit

Abstract

【課題】2台以上のストレージ装置間でリモートコピーを行うストレージシステムと当該ストレージシステムを利用するホストを含めた情報システムの可用性を向上させることを目的とする。
【解決手段】第1のストレージ装置に、第3のボリュームを有する第3のストレージ装置が接続されると共に、第1のストレージ装置に接続された第2のストレージ装置に第4のボリュームを有する第4のストレージ装置が接続され、第1及び第3のストレージ装置が、第1のボリュームに格納されたデータを第3のボリュームにリモートコピーし、第1及び第2のストレージ装置が、第1のボリュームに格納されたデータを第2のボリュームにリモートコピーし、第3及び第4のストレージ装置が、第3のボリュームに格納されたデータを第4のボリュームにリモートコピーするようにした。
【選択図】図38

Description

本発明は、複数の記憶領域を備えたストレージシステムとストレージシステムに接続されたホストコンピューターに関する。
一般に、情報システムでは、記憶デバイスとしてHDD(ハードディスクドライブ)を用いるストレージ装置が備えられ、そのストレージ装置を含むストレージシステムが、ストレージエリアネットワーク(SAN:Storage Area Network)経由で、複数の上位装置(例えばホスト)からアクセスされる。一般的にストレージ装置では、RAID(Redundant Array of Independent (or Inexpensive) Disks)技術に従う高信頼化方法が採用されることでHDD単体の信頼性を超えた信頼性をストレージ装置として提供している。しかし、近年の情報化社会の進化によって上記RAIDによる信頼性が貢献する情報システムの可用性(サービス継続性)では不足してきた。
このような状況に対応する高可用化技術として、特許文献1に開示された技術がある。当該技術では、ホストコンピューター(以後ホストと省略する)とストレージ装置をそれぞれ有するプロダクションサイトとバックアップサイトを用意し、プロダクションサイトのストレージ装置が保存するデータをバックアップサイトのストレージ装置にミラーリングする。もし、プロダクションサイトのストレージ装置が障害停止した場合は、バックアップサイトのストレージ装置とホストを用いて装置停止の結果停止していたアプリケーション処理を再開させる。本技術は一般的にリモートコピー又はリモートミラーリングと呼ばれる。
特開平7‐244597号 米国特許 7,080,197号
特許文献1の技術ではストレージ装置の障害停止の結果、異なるホストでアプリケーションを再開させるため、アプリケーションの再起動処理が必要になる。当然ながらアプリケーション停止から再起動完了まではアプリケーションは通常動作ができないため、可用性については問題がある。
本発明は、2台以上のストレージ装置間でリモートコピーを行うストレージシステムと当該ストレージシステムを利用するホストを含めた情報システムの可用性を向上させることを目的とする。
かかる課題を解決するため本発明においては、上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムであって、前記第1のストレージ装置に接続され、第3のボリュームを有する第3のストレージ装置と、前記第2のストレージ装置に接続され、第4のボリュームを有する第4のストレージ装置とを備え、前記第1及び第2のストレージ装置は、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行し、前記第1及び第3のストレージ装置は、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行し、前記第2及び第4のストレージ装置は、前記第2のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行するようにした。
また本発明においては、上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムにおけるデータ保護方法であって、前記第1のストレージ装置に、第3のボリュームを有する第3のストレージ装置が接続されると共に、前記第2のストレージ装置に第4のボリュームを有する第4のストレージ装置が接続され、前記第1及び第2のストレージ装置が、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行する第1のステップと、前記第1及び第3のストレージ装置が、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行すると共に、前記第2及び第4のストレージ装置が、前記第2のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行する第2のステップとを備えることを特徴とする。
さらに本発明においては、上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムであって、前記第1及び第2のストレージ装置に接続され、第3のボリュームを有する第3のストレージ装置と、前記第3のストレージ装置に接続され、第4のボリュームを有する第4のストレージ装置とを備え、前記第1及び第2のストレージ装置は、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行し、前記第1及び第3のストレージ装置は、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行し、前記第3及び第4のストレージ装置は、前記第3のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行することを特徴とする。
さらに本発明においては、上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムにおけるデータ保護方法であって、前記第1及び第2のストレージ装置に、第3のボリュームを有する第3のストレージ装置が接続され、前記第3のストレージ装置に、第4のボリュームを有する第4のストレージ装置が接続され、前記第1及び第2のストレージ装置が、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行すると共に、前記第1及び第3のストレージ装置が、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行する第1のステップと、前記第3及び第4のストレージ装置が、前記第3のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行する第2のステップとを備えることを特徴とする。
本発明によれば、2台以上のストレージ装置間でリモートコピーを行うストレージシステムと当該ストレージシステムを利用するホストを含めた情報システムの可用性を向上させることができる。
以下、図面を参照して、本発明の実施の形態を説明する。
(1)第1の実施の形態
<1.情報システムの構成>
図1は、本発明の一実施の形態に係る情報システムのハードウェア構成の一例を示す図である。
情報システムは、例えば、ストレージ装置1500、ホストコンピューター(以後ホストと省略する)1100、管理ホスト1200と、2台以上の仮想化ストレージ装置1000とから構成される。ストレージ装置1500、ホストコンピューター(以後ホストと省略する)1100、管理ホスト1200の数は、それぞれ、1以上とすることができる。仮想化ストレージ装置1000とホスト1100は、I/Oネットワーク1300を介して、相互に接続される。仮想化ストレージ装置1000とストレージ装置1500と管理ホスト1200は、管理ネットワーク(図示せず)又はI/Oネットワーク1300を介して相互に接続される。
ホスト1100には、ホスト内部ネットワーク1104があり、そのネットワーク1104に、プロセッサ(図中ではProcと略記)1101と、メモリ(図中ではMemと略記)1102と、I/Oポート(図中ではI/O Pと略記)1103とが接続されている。管理ホスト1200も、ホスト1100と同じハードウェア構成を有することができる。なお、I/Oポートをホスト1100に追加する拡張カードをHBA(Host Bas Adapter)と呼ぶことがある。
管理ホスト1200は、表示装置を有し、その表示装置に、仮想化ストレージ装置1000とストレージ装置1500の管理用の画面を表示することができる。また、管理ホスト1200は、管理操作リクエストを、ユーザー(例えば管理ホスト1200のオペレーター)から受付け、その受け付けた管理操作リクエストを、仮想化ストレージ装置1000やストレージ装置1500に送信することができる。管理操作リクエストは、仮想化ストレージ装置1000やストレージ装置1500の操作のためのリクエストであり、例えば、パリティグループ作成リクエスト、内部LU(Logical Unit)作成リクエスト、パス定義リクエスト、及び仮想化機能に関する操作がある。
I/Oネットワーク1300は、ファイバーチャネルによる接続が第一に考えられる
が、それ以外でも、FICON(FIbre CONnection:登録商標)やEthernet(登録商標)とTCP/IP(Transmission Control Protocol/Internet Protocol)とiSCSI(internet SCSI(Small Computer System Interface))の組み合わせや、Ethernet(登録商標)とNFS(Network File System)やCIFS(Common Internet File System)等のネットワークファイルシステムの組み合わせ等が考えられる。さらに、I/Oネットワーク1300は、I/Oリクエストを転送可能な通信装置であればこれ以外でもよい。また、仮想化ストレージ装置1000とストレージ装置1500を接続するネットワークについてもI/Oネットワーク1300と同様である。
仮想化ストレージ装置1000は、コントローラー(図中はCTLと表記)1010と、キャッシュメモリ(図中はCMと表記)1020と、複数のHDD1030とを備える。好ましい形態としては、コントローラー1010及びキャッシュメモリ1020は、それぞれ複数のコンポーネントから構成することが考えられる。なぜなら、コンポーネント単体に障害が発生して閉塞した場合でも、残りのコンポーネントを用いてリードやライトに代表されるI/Oリクエストを引き続き受けることができるためである。
コントローラー1010は、仮想化ストレージ装置1000の動作を制御する装置(例えば回路基盤)である。コントローラー1010には、内部ネットワーク1017があり、その内部ネットワーク1017に、I/Oポート1013、キャッシュポート(図中ではC Pと表記)1015、管理ポート(図中ではM Pと表記)1016、バックエンドポート(図中ではB/E Pと表記)1014、プロセッサ(例えばCPU(Central Processing Unit))1011及びメモリ1012が接続されている。コントローラー1010同士とキャッシュメモリ1020は、ストレージ内部ネットワーク1050にて相互に接続される。また、コントローラー1010と各HDD1030は、複数のバックエンドネットワーク1040にて相互接続される。
ストレージ装置1500のハードウェア構成は仮想化ストレージ装置1000と同種の部品から構成される。なお、仮想化ストレージ装置1000がHDDを持たない仮想化専用装置またスイッチの場合は、ストレージ装置1500は仮想化ストレージ装置1000と同種の部品から構成されなくてもいい。さらに、ホスト1100及び仮想化ストレージ装置1000の内部のネットワークは、好ましくは、I/Oポート1013の有する転送帯域より広帯域であり、また、バスやスイッチ型のネットワークによって全てまた一部が代替されてもよい。また、図1では、I/Oポート1013は、コントローラー1010に一つ存在することになっているが、実際には、複数のI/Oポート1013がコントローラー1010に存在してもよい。
以上のハードウェア構成によって、仮想化ストレージ装置1000やストレージ装置1500のHDDに保存された全て又は一部のデータを、ホスト1100が読出したり書き込んだりすることができるようになる。なお、以後の説明では、データ保存を担当するシステムをストレージクラスタと呼ぶ。また、ストレージクラスタ内部に当該システムを2系統含むことで高可用化を実現するサブシステムで、仮想化ストレージ装置1000とストレージ装置1500の片方又は両方を含むサブシステムをストレージサブシステムと呼ぶ。
<2.本実施の形態の概要>
本実施の形態では、他のストレージ装置内のボリューム等の記憶領域を仮想化する仮想化機能を有する仮想化ストレージ装置1000を含むストレージシステムの可用性を向上させるため、もう一台の仮想化ストレージ装置1000を用いた二重化構成を採用する。図2はその概要を示した図である。
本概要では、ストレージシステムに仮想化ストレージ装置1000L、仮想化ストレージ装置1000R、ストレージ装置1500L、ストレージ装置1500Rが含まれる。なお、以下においては、説明を容易にするため、仮想化ストレージ装置1000L及びストレージ装置1500Lを正系(プロダクション系)、仮想化ストレージ装置1000R及びストレージ装置1500Rを副系(バックアップ系)の役割をもっているものとする。しかし、それぞれの仮想化ストレージ装置1000L,1000Rがホスト1100へ提供するボリュームが二つ以上の場合は、仮想化ストレージ装置単位で正系・副系を担当する代わりにボリューム単位で正系を担当する仮想化ストレージ装置1000L,1000Rが定まっていればよい。
それぞれの仮想化ストレージ装置1000L,1000Rは自身が有するHDD1030を構成要素とするパリティグループ(RAID技術によって構成される)の一部又は全ての領域をボリューム3000LAやボリューム3000RAとしてホスト1100に提供する(図中の円柱内に'A'と記された部分が対応)。また、仮想化ストレージ装置1000はオプションとして仮想化機能による仮想ボリューム3000LB,3000RB(対応するHDD等の不揮発記憶領域が仮想化ストレージ装置1000L,1000Rの外部に存在するボリュームのこと)を提供することができる。本概要ではストレージ装置1500L、1500Rが提供するボリューム3500LB、3500RBの一部又は全てを対応する不揮発記憶領域として用いている。なお、以後の説明では「ボリュームのデータ」と書いた場合は、HDD1030に保存されたデータに加えてキャッシュメモリ1020に一時保存されたデータも含む。また、後ほど述べる「仮想ボリュームのデータ」に関してはストレージ装置1500L,1500Rのボリューム3500LB、3500RBに保存されたデータに加えて仮想化ストレージ装置1000L,1000Rのキャッシュメモリ1020に一時保存されたデータを含む。
一方、ホスト1100上ではアプリケーションプログラム(以後、アプリケーションと略すことがある)2010と、OSと、OSの設定・処理を補佐するデーモンや管理プログラムに代表されるシステムプログラムとが動作している。OSはアプリケーション2010に対して仮想化ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000RB内に存在するデータに対するI/Oリクエスト用インターフェースを提供し、アプリケーション2010からの要求に応じて適切な仮想化ストレージ装置1000L,1000R及びボリューム3000LA,3000LB,3000RA,3000RBに対するI/Oリクエストを送信する。通常状態ではホスト1100は仮想化ストレージ装置1000Lのボリューム3000LA,3000LBに対してリードやライトに代表されるI/Oリクエストを発行し、データの送受信を行う。つまり、リードリクエストを受け取った場合、仮想化ストレージ装置1000Lは、リクエスト対象のボリューム3000LA,3000LB,3500LBが仮想化ストレージ装置1000L内部のHDD1030に対応している場合は当該HDD1030からデータを読み上げてこれをホスト1100に返したり、ストレージ装置1500Lに対してリードリクエストを発行することで必要なデータを取得し、そのデータ(の全て又は一部)をホスト1100に返す。
ライトリクエストの場合は、データの冗長化のために、ライトデータを受け取った仮想化ストレージ装置1000Lは副系である仮想化ストレージ装置1000Rへライトデータを送信し、仮想化ストレージ装置1000Lがライトデータの受け取り完了メッセージを仮想化ストレージ装置1000Rから受け取った後にホスト1100に対してライト完了メッセージを返す。なお、仮想化ストレージ装置1000Lに対するライトデータも仮想化ストレージ装置1000Rが仮想化ストレージ装置1000Lを経由して受け取ったライトデータも、各仮想化ストレージ装置1000L,1000R内のキャッシュメモリ1020L,1020Rに一時保持されてもよい。なお、本実施の形態の一つとして、このライトデータの転送はストレージリモートコピーによって行われる。
図3は通常状態下で仮想化ストレージ装置1000Lに障害が発生した後の情報システムの処理概要を示している。
正系の仮想化ストレージ装置1000Lが障害によって停止した場合、ホスト1100上のシステムプログラムはその障害を検知し、I/Oリクエストの発行先を正系の仮想化ストレージ装置1000Lから副系の仮想化ストレージ装置1000Rへ切り替える。ただし、その場合もアプリケーション2010はI/Oリクエストの発行先が切り替わったことを認識せずにI/Oを継続することができる。そのために、通常時からシステムプログラムはOSレイヤ(より具体的にはファイルシステムより下位のレイヤ)にて、アプリケーション2010やファイルシステムからI/Oリクエスト時に指定されるボリューム識別子として仮想的なボリューム識別子(又はデバイスファイル)を指定させるようにしておき、OSの下位レイヤは当該識別子と実際のボリュームに対して割り当てられた識別子(又はデバイスファイル)の対応を管理しておく。I/Oリクエストの発行先を切り替える場合は、その対応関係をこれまでの仮想化ストレージ装置1000Lのボリューム3000LA、ボリューム3000LB宛であったものを仮想化ストレージ装置1000Rのボリューム3000RAとボリューム3000RB宛に切り替えることでアプリケーション2010に対して透過に切り替えを実現する。
さらに、仮想化ストレージ装置1000Rもホスト1100からの当該ボリューム3000RA,3000RBに対するライトリクエストの到着やその他明示的なフェイルオーバー要求に応じて、ライトリクエストを処理できるようにする。この変更処理の一例としては、仮想化ストレージ装置1000Lから仮想化ストレージ装置1000Rに対するデータコピーに伴い、仮想化ストレージ装置1000Rのボリューム3000RA,3000RBに対するホスト1100からのライトリクエストの拒否が設定されている場合はそれを解除する。また、リモートコピーを用いてライトデータの転送を行っている場合はリモートコピーのコピー状態の変更を行うことも考えられる。
図4は仮想化ストレージ装置1000L,1000R間のネットワークに障害が発生した後の情報システムの処理概要を示している。
ネットワーク障害を検知した仮想化ストレージ装置1000Lはホスト1100に当該障害を通知する。障害通知を受けたホスト1100は、副系の仮想化ストレージ装置1000Rに対してライトリクエストを処理できるように要求し、以後のライトリクエストは正系の仮想化ストレージ装置1000L及び副系の仮想化ストレージ装置1000Rの両方に発行することで、正系と副系のデータを同一にする。
<3.ホスト1100で実行されるプログラム及び情報>
図5はホスト1100上で実行されるソフトウェアプログラムと、当該ソフトウェアプログラムが用いる情報とに加えて、各ソフトウェアプログラムが提供する概念について記した図である。なお、当該ソフトウェアプログラムはメモリ1102(図1)とプロセッサ1101(図1)とによって保持と実行がされるが、その一部をハードウェア化して実行してもよい。
ホスト1100上ではアプリケーション2010、リモートコピーマネージャー5030に加えて、OS又はKernel内部のプログラムモジュールとしてファイルシステム5020、I/Oパスマネージャー5000及びHBAデバイスドライバー5010が実行される(ファイルシステム5020、I/Oパスマネージャー5000又はHBAデバイスドライバー5010は、全ての処理がKernel内部で実行される必要はない)。
HBAデバイスドライバー5010はHBAに搭載されたI/Oポート1103(図1)を通じてI/Oリクエストやそれに伴うデータを送受信したり、その他の仮想化ストレージ装置1000L,1000Rやストレージ装置1500L,1500R等との通信を制御するプログラムである。HBAデバイスドライバー5010は、また、上位レイヤに対して仮想化ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000RBに対応する識別子を提供し、その識別子を伴ったI/Oリクエストを受け付けることができる。ボリューム5040はその概念を示したもので、仮想ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000RBにそれぞれ対応している。
I/Oパスマネージャー5000は、アプリケーション2010のI/Oリクエスト発信先を切り替えるためのモジュールである。当該モジュールはHBAデバイスドライバー5010が提供するボリューム5040に対応する識別子と同種のホスト1100内での仮想的なボリュームに対応する識別子及びI/Oリクエスト用インターフェースをファイルシステム5020に対して提供する。このホスト1100内での仮想的なボリュームに対応する識別子は当該モジュール内でHBAデバイスドライバー5010が提供するボリューム5040に対応する識別子と対応しており、デバイス関係テーブル5001がその対応関係を保持している。ボリューム5050はこのホスト1100内での仮想的なボリュームの概念を示したもので、本図ではその対応関係の一例として仮想化ストレージ装置1000Lのボリューム3000LA,3000LBに対応する識別子と対応している(他の言い方をすると、ホスト1100内での仮想的なボリューム5050の実体は仮想化ストレージ装置1000Lのボリューム3000LA,3000LBであるともいえる)。
ここまでのレイヤでのI/Oリクエストは通常固定長ブロックアクセス形式で指定する。ただし、ホスト1100がメインフレームの場合はこれに限定されず、CKD(Count Key Data)形式で指定してもよい。
ファイルシステム5020は、HBAデバイスドライバー5010が提供するボリューム5040に対応する識別子及びI/Oインターフェースと、I/Oパスマネージャー5000が提供するホスト1100内での仮想的なボリューム5050に対応する識別子及びI/Oインターフェースとを通じて、仮想化ストレージ装置1000L,1000RへのI/Oリクエストを送信したり、データの送受信を行うモジュールである。図5では例としてファイルシステム5020内部にディレクトリツリーの構造を示し、そのツリー構造の一部5052が、I/Oパスマネージャー5000がホスト1100内での仮想化で提供したボリューム5050に保存されている状態を示している(これまで説明した通り、より正確にはI/Oパスマネージャー5000のホスト1100内での仮想的なボリューム5050の提供は識別子を通じたものであり、さらに、そのボリューム5050に保存されていると書いたデータは実際にはデバイス関係テーブル5001にて示される仮想化ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000PBに保存されている)。ファイルシステム5020はアプリケーション2010に対してファイルI/Oのインターフェースを提供する。ファイルI/Oインターフェースを通じてアプリケーション2010から呼び出されたファイルシステム5020は、ファイル名とファイル内でのデータオフセットを伴ったリード又はライトリクエストをディレクトリファイルやinodeといったファイルシステム5020内の構造化情報を参照しつつ、ブロック形式のリード又はライトリクエストに変換し、I/Oパスマネージャー5000又はHBAデバイスドライバー5010へリード又はライトリクエストを渡す。
なお、Unit系やWindows(登録商標)系のOSではファイルI/Oのインターフェースを用いて直接ボリュームのデータを操作するためのインターフェースとしてデバイスファイルシステムと呼ばれる機能を提供している。通常、デバイスファイルシステムはファイル空間の'/dev'ディレクトリ配下に展開されており、当該ディレクトリ以下のファイル(図中の例では、rsda等)のファイル名はファイルシステム5020の下位レイヤ(HBAデバイスドライバー5010やI/Oパスマネージャー5000)が提供するボリューム5040,5050に対応する。そして、当該ボリューム5040,5050に保存されたデータはデバイスファイル5070,5080に保存されたデータであるかのようにファイルI/O用インターフェースで読み書き可能となる。なお、図5では例としてデバイスファイル5070(rsda, rsdb, rsdc, rsdd)はHBAデバイスドライバー5010が認識し、提供しているボリューム5040に対応し、デバイスファイル5080(vsda, vsdb)はI/Oパスマネージャー5000が提供しているボリューム5050に対応している。このデバイスファイル5070,5080は、アプリケーション2010がデータベースである場合に、独自のデータ編成やバッファ管理を実現する目的で使われることがある。
リモートコピーマネージャー5030は仮想化ストレージ装置1000L,1000Rとの間のデータ転送を実現するリモートコピーの状態を取得したり、ホスト1100やI/Oパスマネージャー5000がリモートコピーの操作を行うためのプログラムで、当該プログラムを使用するプログラム、ユーザー又はI/Oパスマネージャー5000の要求に応じて仮想化ストレージ装置1000L,1000Rと通信を行う。
なお、これまで説明した通りHBAデバイスドライバー5010やI/Oパスマネージャー5000は一部又は全ての機能がKernel内部のモジュールとしてインストールやアンインストールすることができることが望ましい。なぜならば、HBAデバイスドライバー5020はHBAを制御するプログラムであるが故、HBAの製造会社が提供することが多い。同様にI/Oパスマネージャー5000は仮想化ストレージ装置1000L,1000Rの処理を前提として処理が決定されるため、一部又は全てのモジュールが仮想化ストレージ装置1000L,1000Rの製造会社が提供することが考えられる。したがって、当該プログラムがインストール・アンインストールできることによって幅広いHBAと仮想化ストレージ装置1000L,1000Rの組み合わせによる情報システムを構築することができる。また、本発明ではアプリケーション2010に対して透過に正系と副系の切り替えを行うためにKernel内部で処理を実行することでアプリケーション2010の再コンパイル等が不要な透過的な切り替えが可能である。さらに、I/Oパスマネージャー5000がファイルシステム5020とHBAデバイスドライバー5010の中間レイヤに存在することで、ファイルシステム5020に対する再コンパイル等を不要とし、さらにファイルシステム透過性も確保している。そして、I/Oパスマネージャー5000がHBAデバイスドライバー5010の機能を利用することができるようになっている。
また、Kernel内部にいるI/Oパスマネージャー5000がリモートコピーマネージャー5030を呼び出す場合やその逆の通信方法として以下の二通りが考えられる。
(A)I/Oパスマネージャー5000は通信用の仮想的なボリュームを作成し、ファイルシステム5020はこの通信用ボリュームをデバイスファイルとしてファイル空間に作成する。リモートコピーマネージャー5030は定期的にデバイスファイルに対してリードシステムコールを実行した状態で待つ。I/Oパスマネージャー5000はリモートコピーマネージャー5030からのI/Oリクエストを受信するが、内部で保留する。そして、当該モジュールがリモートコピーマネージャー5030に対するメッセージ送信をする必要が出てきたらI/Oリクエストの返り値として定められたメッセージを含むデータをファイルシステム5020を通じてリモートコピーマネージャー5030に返す。なおこの際リモートコピーマネージャーが発行するリードシステムコールは長時間Kernel内部で待たされることになる。それが好ましくない場合は、I/Oパスマネージャー5000が、一定時間経過後に何もメッセージがない旨のデータをファイルシステム5020を通じてリモートコピーマネージャー5030へ返し、それを受信したリモートコピーマネージャー5030が再度リードシステムコールを実行すればよい。
(B)Unix(登録商標)ドメインソケットを用いて仮想的なネットワーク通信として扱う。具体的には、ソケットの一方のエンドをリモートコピーマネージャー5030が操作し、残りのエンドをI/Oパスマネージャー5000が操作する。
なお、以後の説明ではI/Oパスマネージャー5000がリモートコピーの操作や状態参照を行う場合はこのような通信によってリモートコピーマネージャー5030を呼び出すことで操作を行っているものとする。
<4.仮想ストレージ装置1000で実行されるプログラム及び情報>
図6は、仮想化ストレージ装置1000(1000L,1000R)とストレージ装置1500(1500L,1500R)とで実行されるプログラムと、当該プログラムにより管理される情報とについて示した図である。なお、当該プログラムはメモリ1012(図1)と、プロセッサ1011(図1)と、キャッシュメモリ1020とによって保持と実行がされるが、その一部をハードウェア化して実行してもよい。
<4.1.I/O処理プログラム6020、パリティグループ情報6060及びボリューム情報6050>
パリティグループ情報6060には、パリティグループ毎の以下の構成に関連する情報が含まれる。
(1)パリティグループを構成するHDD1030の識別子。パリティグループには複数のHDD1030が参加しているため、当該情報はパリティグループ毎に複数存在する。
(2)RAIDレベル
また、ボリューム情報6050には、ボリューム毎の以下の構成に関連する情報が含まれる。
(1)ボリューム容量
(2)ボリュームに対応するデータが保存されるパリティグループの識別子とパリティグループ内の領域(開始アドレスと終了アドレスの片方又は両方)。
I/O処理プログラム6020は、ボリューム情報6050やパリティグループ情報6060を参照してホスト1100から受信したI/Oリクエストに関する以下の処理を実行する。
(A)ステージング: HDD1030に保存されたデータをキャッシュメモリ1020上にコピーする。
(B)デステージング:キャッシュメモリ1020に保存されたデータをHDD1030へコピーする。なお、その前の処理としてRAID技術による冗長データを作成してもよい。
(C)リード処理:ホスト1100から受信したリードリクエストに対して、当該リクエストに対応するデータがキャッシュメモリ1020上に存在するかどうか判定する。そして、当該リクエストに対応するデータがキャッシュメモリ1020上に存在しない場合は、ステージング処理を実行して当該データをキャッシュメモリ1020上にコピーした後に、そのデータをホスト1100に対して送信する。なお、キャッシュメモリ1020上にかかるデータが存在する場合は、当該データをホスト1100に対して送信する。
(D)ライト処理:ホスト1100から受信したライトデータをキャッシュメモリ1020上に保存する。なお、当該処理時にキャッシュメモリ1020上に十分な空き領域が無い場合はデステージング処理を実行して適切なデータをHDD1030上にコピーした後にキャッシュメモリ1020上の当該領域を流用する。また既にキャッシュメモリ1020上に保存された領域がライトリクエストに含まれる場合は、そのまま既存のキャッシュメモリ1020上の領域へ上書きすることもある。
(E)キャッシュアルゴリズム:キャッシュメモリ1020上のデータの参照頻度や参照時期等を元にLRU等のアルゴリズムによってステージングすべきHDD1030上のデータやデステージングすべきキャッシュメモリ1020上のデータを決定する。
<4.2.仮想化プログラム6030と仮想化情報6070>
仮想化情報6070には、仮想化ボリューム毎の以下の構成に関連する情報が含まれる。
(1)ストレージ装置1500内のボリューム内の領域とその領域が仮想ボリューム上のアドレス空間のどの領域としてホスト1100に提供するかに関する以下の情報。仮想ボリュームが複数で構成される場合は下記情報も複数存在する。
(1ー1)仮想ボリュームを構成する、ストレージ装置1500の識別子(又はポートの識別子)と、ボリュームの識別子と、ボリューム内の領域(開始アドレスと終了アドレス)
(1ー2)仮想ボリュームにおける領域(開始アドレスと終了アドレス)
(2)仮想ボリュームの容量
仮想化プログラム6030は、仮想化ストレージ装置1000が、ストレージ装置1500が提供するボリュームを用いてホスト1100にボリュームを提供するためのプログラムである。なお、仮想化プログラム6030が提供する仮想ボリュームと、それに対応するストレージ装置1500上のボリュームとの対応関係として、以下のパターンがある。
(A)ストレージ装置1500上のボリューム全体を仮想ボリュームの記憶領域として用いる場合。この場合、仮想ボリュームの容量は選択したボリュームとおおよそ同容量となる(制御情報や冗長情報をストレージ装置1500上のボリュームに保存する場合。当該情報等がない場合は同一容量)。
(B)ストレージ装置1500上のボリュームの一部の領域を仮想化ボリュームに対応する保存領域として用いる場合。この場合、仮想ボリュームの容量は当該利用対象の領域容量と大体同じとなる。
(C)複数のストレージ装置1500上の複数のボリュームを仮想ボリュームの記憶領域として結合して用いる場合。この場合、仮想ボリュームの容量は各ボリューム容量の合計値とおおよそ同容量となる。なお、この結合方式としてはストライピングやConcatenate(複数ボリュームを連結して一つのボリュームとして扱う方法)等がある。
(D)(C)のパターンに付随してパリティ情報やミラーデータを保存する場合。この場合、仮想ボリュームの容量はミラーデータを保存する場合は(C)の半分で、パリティを保存する場合はパリティ計算方式に依存する。ストレージ装置1500内部でRAIDによる高信頼化と組み合わせることによって仮想ボリュームに保存されたデータについての信頼性がより向上する。
なお、いずれのパターンについても、I/Oリクエストで指定するストレージ装置識別子(又はポート識別子)とボリューム識別子(I/Oリクエストで用いる、仮想化ストレージ装置内又はポート配下のボリュームを識別する情報で、LUN(Logical Unit Number)や、CKD形式のCU番号とLDEV(Logical DEVice)番号等がある)が元々のボリュームと異なる。
仮想化プログラム6030は、ステージングやデステージング対象となるデータが仮想ボリュームに対応する場合にI/O処理プログラム6020により呼び出され、仮想化情報6070を用いて以下の処理を実行する。
(A)ステージング: 仮想化ボリュームとストレージ装置1500のボリュームの対応関係を元に、どのストレージ装置1500のボリュームに保存されたデータをキャッシュメモリ1020上にコピーすべきかを決定した後に、キャッシュメモリ1020上へデータコピーする。
(B)デステージング:仮想化ボリュームとストレージ装置1500のボリュームの対応関係を元に、どのストレージ装置1500のボリュームへキャッシュメモリ1020上のデータをコピーすべきかを決定した後に、ストレージ装置1500のボリュームへデータコピーする。なお、その前の処理としてRAID技術による冗長データを作成してもよい。
<4.3.リモートコピープログラム6010とコピーペア情報6040>
コピーペア情報6040はリモートコピーのコピー元ボリュームとコピー先ボリュームのコピーペア(ペアと省略することがある)毎に以下の情報を持つ。なお、本実施の形態では、コピー元ボリューム及びコピー先ボリュームは高可用性を実現する対象ボリュームが指定されることになる:
(1)コピー元ボリュームを持つ仮想化ストレージ装置1000の識別子及びボリュームの識別子
(2)コピー先ボリュームを持つ仮想化ストレージ装置1000の識別子とボリュームの識別子
(3)コピーペアの状態(詳細は後ほど述べる)
リモートコピープログラム6010は、コピー元ボリュームに保存されたデータをコピー先ボリュームにミラーリングするプログラムであり、コピーペア情報6040を参照して処理を行う。以下にリモートコピー(特に同期リモートコピー)の処理概要とペア状態について説明する。
<4.3.1.同期リモートコピーのコピー処理動作>
同期リモートコピーとは、前述の様に、コピー元の仮想化ストレージ装置1000がホスト1100からコピー元ボリュームに対するライトリクエストを受け付けた場合、ライトデータをコピー先の仮想化ストレージ装置1000に送信した後に、ホスト1100に対してライトリクエスト完了を返すリモートコピー方法である。
同期リモートコピーが実行される際、コピー元ボリュームとコピー先ボリュームとのペア間におけるリモートコピーの状況を管理1200に表示したり、リモートコピーの状態を操作するために、仮想化ストレージ装置1000のコントローラー1010は、コピーペア状態(Simplex、Initial‐Copying、Duplex、Suspend及びDuplex‐Pending)と呼ばれる情報を管理する。図7に同期リモートコピーのペア状態に関する状態遷移図を示す。以下、各ペア状態について説明する。
<4.3.1.1.Simplex状態>
Simplex状態は、ペアを構成するコピー元ボリュームとコピー先ボリュームとの間でコピーが開始されていない状態である。
<4.3.1.2.Duplex状態>
Duplex状態は、同期リモートコピーが開始され、後述する初期化コピーも完了してペアを構成するコピー元ボリューム及びコピー先ボリュームのデータ内容が同一となった状態である。本状態では、書き込み途中の領域を除けば、コピー元ボリュームのデータ及びコピー先ボリュームのデータの内容は同じとなる。なお、Duplex中及びDuplex‐Pending及びInitial‐Copying状態ではホスト1100からコピー先ボリュームへのライトリクエストは拒否される。
<4.3.1.3.Initial‐Copying状態>
Initial‐Copying状態は、Simplex状態からDuplex状態へ遷移するまでの中間状態であり、この期間中に、必要ならばコピー元ボリュームからコピー先ボリュームへの初期化コピー(コピー元ボリュームに既に格納されていたデータのコピー先ボリュームへのコピー)が行われる。初期化コピーが完了し、Duplex状態へ遷移するために必要な処理が終わったら、ペア状態はDuplexとなる。
<4.3.1.4.Suspend状態>
Suspend状態は、コピー元ボリュームに対する書き込みの内容をコピー先ボリュームに反映させない状態である。この状態では、ペアを構成しているコピー元ボリューム及びコピー先ボリュームのデータの内容は同じでない。ユーザーやホスト1100からの指示を契機に、ペア状態は他の状態からSuspend状態へ遷移する。それ以外に、仮想化ストレージ装置1000間のネットワーク障害等が原因で同期リモートコピーを行うことが出来なくなった場合に自動的にペア状態がSuspend状態に遷移することが考えられる。
以後の説明では、後者の場合、即ち障害により生じたSuspend状態を障害Suspend状態と呼ぶことにする。障害Suspend状態となる代表的な原因としては、ネットワーク障害のほかに、コピー元ボリュームやコピー先ボリュームの障害、コントローラー1010の障害が考えられる。
Suspend状態となった場合、コピー元ストレージ1000は、Suspend状態となった時点以降にコピー元ボリュームに対するライトリクエストがあると、ライトリクエストに従ってライトデータを受信し、コピー元ボリュームに保存するが、コピー先の仮想化ストレージ装置1000にはライトデータを送信しない。またコピー元の仮想化ストレージ装置1000は、書き込まれたライトデータのコピー元ボリューム上での書き込み位置を差分ビットマップ等として記憶する。
なおSuspend状態となった時点以降にコピー先ボリュームに対してライトリクエストがあった場合には、コピー先の仮想化ストレージ装置1000も上記の動作を行う。また、ペアが障害Suspend状態となるより前に、当該ペアに対してフェンスと呼ばれる設定を行った場合、ペア状態が障害Suspendに遷移するとコピー元ボリュームに対するライトを拒否する。なお、コピー先の仮想化ストレージ装置1000は障害Suspend状態中のコピー先ボリュームに対するライトリクエストを拒否してもよい。
<4.3.1.5.Duplex‐Pending状態>
Duplex‐Pending状態は、Suspend状態からDuplex状態に遷移するまでの中間状態である。この状態では、コピー元ボリューム及びコピー先ボリュームのデータの内容を一致させるために、コピー元ボリュームからコピー先ボリュームへのデータのコピーが実行される。コピー元ボリューム及びコピー先ボリュームのデータの内容が同一になった後、ペア状態はDuplexとなる。
なお、Duplex‐Pending状態におけるデータのコピーは、Suspend状態の間、コピー元の仮想化ストレージ装置1000又はコピー先の仮想化ストレージ装置1000が記録した書き込み位置(例えば上述の差分ビットマップ等)を利用して、更新が必要な部分(即ちコピー元ボリュームとコピー先ボリュームとのデータの不一致部分)だけをコピーする差分コピーによって実行される。
また、以上の説明ではInitial‐Copying状態とDuplex‐Pending状態は別々な状態としたが、これらをまとめて一つの状態として管理ホスト1200の画面に表示したり、状態を遷移させても良い。
<4.3.1.6.ペア操作指示>
ペア状態はホスト1100や管理ホスト1200からの以下の指示によって他の状態へ遷移する。
(A)初期化指示:Simplex状態にて本指示を受信するとInitial‐Copying状態へ遷移する。
(B)再同期指示:Supend状態又は障害Suspend状態にて本指示を受信するとDuplex‐Pending状態へ遷移する。
(C)分割指示:Duplex状態にて本指示を受信するとSuspend状態へ遷移する。
(D)コピー方向反転指示:Duplex状態、Suspend状態又は障害Suspend状態にて本指示を受信すると、コピー元とコピー先との関係が反転する。Duplex状態の場合は、本指示を受信することでコピー方向も反転する。
なお、初期化指示はコピー元の仮想化ストレージ装置1000及びコピー元ボリュームと、コピー先の仮想化ストレージ装置1000及びコピー先ボリュームとを指定することが考えられ、その他の指示については既にペア関係が出来上がっているため当該関係を示す識別子(コピー元の仮想化ストレージ装置1000及びコピー元ボリュームと、コピー先の仮想化ストレージ装置1000及びコピー先ボリュームとの組み合わせもその識別子の一つである)を指示すればよい。
<5.ストレージ装置1500で実行されるプログラム及び情報>
図6にはストレージ装置1500にて実行されるプログラム及び情報について記されているが、それぞれのプログラム及び情報は仮想化ストレージ装置1000と同様の動作を行う。
<6.デバイス関係テーブル5001>
図8はデバイス関係テーブル5001が有する情報を示した図である。デバイス関係テーブル5001は、I/Oパスマネージャー5000が提供するホスト1100内で仮想的なボリューム(より正確には当該ボリュームに対応する識別子)毎に以下の情報を管理する。
(A)ホスト1100内で仮想的なボリュームの識別子
(B)関係ボリューム識別子リスト:上記ホスト1100で仮想的なボリュームの実体となりうるストレージ装置1500のボリュームの識別子が入る。なお、個々の識別子はI/Oパスマネージャー5000の下位レイヤであるHBAデバイスドライバー5010が割り当てた識別子を用いる。本実施の形態においては、正系の仮想化ストレージ装置1000(1000L)が有するボリュームと副系の仮想化ストレージ装置1000(1000R)が有するボリュームの識別子がリストアップされる(通常状態ならば)。
(C)正系ボリューム:(B)でリストアップしたどちらのボリュームが正系かを示す。
(D)障害状態
(E)ペア状態
なお、ファイルシステム5020の視点からは(A)の識別子も(B)の識別子も同様の扱いとするため、(A)や(B)の識別子はそれぞれ重複が許されない。また(A)と(B)をあわせた場合にも重複が許されないため、I/Oパスマネージャー5000はその点を考慮して(A)の識別子を生成する必要がある。
<7.初期化処理>
図9は、I/Oパスマネージャー5000の初期化処理について記したフローチャートである。以下、このフローチャートを参照して、かかる初期化処理について説明する。なお、以下においては各種処理の処理主体を「I/Oパスマネージャー5000」として説明する場合があるが、実際上は、ホスト1100のプロセッサ1101(図1)が「I/Oパスマネージャー5000」というプログラムに基づいて対応する処理を実行することは言うまでもない。
(S9001)I/Oパスマネージャー5000は、管理ホスト1200やホスト1100のユーザーからの以下の情報を含んだ初期化指示を受信する。尚、二重化システムの初期化処理として、HA(ハイ アベイラビリティ)初期化指示ともいう。
(A)正系の仮想化ストレージ装置1000とその中のボリューム
(B)副系の仮想化ストレージ装置1000とその中のボリューム
(S9002)I/Oパスマネージャー5000は、S9001で指示された仮想化ストレージ装置1000の両方と通信をしてボリュームの存在の有無及び容量を取得する。
(S9003)I/Oパスマネージャー5000は、S9001で指定されたボリュームが存在し、同容量であることを確認する。確認できない場合は、I/Oパスマネージャー5000は指示発信元へエラーを返す。
(S9004)I/Oパスマネージャー5000は、仮想化ストレージ装置1000の一つ又は両方に対して、リモートコピー初期化指示を送信する。この初期化指示には正系のボリュームをコピー元ボリューム、副系のボリュームをコピー先ボリュームとして指示を出す。本指示によって仮想化ストレージ装置1000はリモートコピーを開始する。
(S9005)I/Oパスマネージャー5000は、デバイス関係テーブル5001に以下の情報を登録し、その後初期化指示の発信元へ初期化開始応答を返す。
(A)ホスト1100内で仮想的なボリュームの識別子(=I/Oパスマネージャー5000が作成した値)
(B)関係ボリューム識別子リスト(=S9001で指定された仮想化ストレージ装置1000とボリュームに対応する識別子が二つ(正系及び副系の両方))。
(C)正系ボリューム(=S9001で指定された正系ボリューム)の識別子
(D)障害状態(=副系準備中)
(E)ペア状態(=Initial−Copying)
(S9006)I/Oパスマネージャー5000は、リモートコピーのペア状態を監視し、Duplex状態に遷移したらデバイス関係テーブル5001を以下の情報に更新する。
(D)障害状態(=通常状態)
(E)ペア状態(=Duplex)
以上の処理によって、I/Oパスマネージャー5000は、ユーザー指示に応じてリモートコピーの設定を含めた高可用化のための準備を開始することができる。なお、実際にはS9005の直後にI/Oパスマネージャー5000がホスト1100内で仮想的なボリュームを提供できるため、ファイル形式でアクセスしたいユーザーは当該ボリュームに対するマウント指示等を出して、ファイルI/Oを開始することができる。また、別な方法としてI/Oパスマネージャー5000はリモートコピー設定前に既に高可用化すべきボリュームに対応するホスト1100内で仮想的なボリュームを定義し、ファイルシステム5020も当該ボリュームをマウントした状態から、ユーザーが副系となるボリュームを指定することによって上記の処理を開始してもよい。
<8.ライトリクエスト処理フロー>
図10は、I/Oパスマネージャー5000がファイルシステム5020からライトリクエストを受信した時の処理フローを示した図である。
(S10001)I/Oパスマネージャー5000は、ファイルシステム5020より、ライト先となるホスト1100内の仮想的なボリュームの識別子と、当該ボリュームのライト位置と、ライト長とを含むライトリクエスト関数を呼び出される(又はメッセージを受信する)。
(S10002)I/Oパスマネージャー5000は、当該仮想的なボリュームの障害状態を確認し、リモートコピー失敗状態ならばS10020の両書き処理に制御を移し、それ以外ならばS10003を実行する。
(S10003)I/Oパスマネージャー5000は、正系ボリュームに対してライトリクエストを発行する。なお、当該ライトリクエストの発行は実際は下位レイヤのHBAデバイスドライバー5010を呼び出すことで実現する。
(S10004)I/Oパスマネージャー5000は、ライトリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、リモートコピー失敗ならS10020の両書き処理に制御を移し、無応答など、これ以外の場合はS10010の切り替え処理に制御を移す。
なお、S10020の両書き処理は以下のステップで実行される。
(S10021)リモートコピーの設定によって、正系又は副系のボリュームに対するライトが拒否されている場合は、I/Oパスマネージャー5000はこの設定を解除する。
(S10022)I/Oパスマネージャー5000は、正系ボリュームに対してライトリクエストを発行する。
(S10023)I/Oパスマネージャー5000は、副系ボリュームに対してライトリクエストを発行する。I/Oパスマネージャー5000は、正系と副系の両方からのライトリクエスト応答の到着を待って、ファイルシステム5020に対して完了応答を返す。
<8.1.切り替え処理のフロー>
以下、引き続き切り替え処理にて実現される処理を説明する。
(S10011)I/Oパスマネージャー5000は、まず、デバイス関係テーブル5001の障害状態を参照することで副系ボリュームが使用可能であるか確認し、使用不可能だと判断した場合はファイルシステム5020に対してエラー応答を返し、利用可能であればS10012を実行する。なお、使用不可能と判断できる状態としては、副系なし(障害によって副系の仮想化ストレージ装置1000が機能してない場合や、初めから副系の仮想化ストレージ装置1000を設定していないボリュームの場合)の状態や、前述の初期化準備中の状態がある。
(S10012)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの停止指示を発行し、コピー状態がSuspend状態となったことを確認後、コピー方向反転指示を指示する。
(S10013)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの再同期指示を発行する。なお、実際に再同期が完了してペア状態がDuplex状態に遷移するまで待つ必要はない。
(S10014)I/Oパスマネージャー5000は、デバイス関係テーブル5001の正系ボリューム識別子をこれまで副系であったボリューム識別子に更新し、正系と副系を入れ替える。そして新たに正系となったボリュームに対してライトリクエストを、HBAデバイスドライバー5010を通じて送信する。
(S10015)I/Oパスマネージャー5000は、ライトリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、エラーならばエラー応答を返して終了する。
<8.1.1.両書き処理中のライトリクエスト失敗への対策>
S10020の両書き処理中にS10022の正系ボリュームに対するライトリクエストが失敗に終わった場合は、S10010の切り替え処理に制御を移すことが考えられる。また、S10023の副系ボリュームに対するライトリクエストが失敗に終わった場合は、デバイス関係テーブル5001の障害状態を'副系なし'に変更し、ライト完了とする。
また、両書き処理中はペア状態が障害Suspend状態であるため、仮想化ストレージ装置1000のボリュームにはリモートコピーの差分ビットマップによってライト位置が記される。しかし、両書き処理によって両ボリュームに書かれるライトデータは同一であるため、両書き処理が正常に行われている間はこの差分ビットマップへの記録を回避し、通信障害回復後の再同期処理では差分データだけコピーできるようにすることが望ましい。その解決策として、両書き処理が正常に行われている間は正系と副系両方の仮想化ストレージ装置1000の当該ボリュームの差分ビットマップを一定時間ごとに繰り返しクリアすることが考えられる。この方式ではクリア指示をライトリクエスト毎に発行する必要がなく、かつリモートコピーの再同期では対象ボリュームの全領域コピーは回避できる。なぜならば、直近に実施したクリア以後に行われた両書きのライトリクエストは両書きが失敗したライトリクエストと共にライト位置が差分ビットマップに記録されるが、両書きにて記録されたデータ領域が再同期でコピーされた場合もコピー先のデータ内容が変わらないため、データ不整合やコピー漏れ領域が発生しないからである。
なお、上記解決策では正系と副系両方の差分ビットマップをクリアするために一時的にライトリクエストの処理を停止してもよい。その停止方法としてはI/Oパスマネージャー5000がファイルシステム5020から受け取ったライトリクエストを、両方の差分ビットマップのクリアが完了するまで、仮想化ストレージ装置1000へ転送しない方法が考えられるし、正系の仮想化ストレージ装置1000にて、両方の差分ビットマップのクリアが完了するまでライトリクエストの処理を保留する方法も考えられる。
第2の回避策としては、正系と副系のボリュームに対してそれぞれ2面の差分ビットマップを割り当てる方式がある。以下にその処理内容を示す。
(初期状態)正系と副系の仮想化ストレージ装置1000は、それぞれ2面の差分ビットマップの片面に対してライトリクエストの位置を記録する。そのために、両仮想化ストレージ装置1000は、アクティブ面(ライトリクエスト到着時にライト位置を記録する面を指し、もう一面の差分ビットマップは非アクティブ面と呼ぶ)に関する情報を保持・管理する。また、非アクティブ面の差分ビットマップは何も記録されていない状態が望ましい。
(Step1)正系の仮想化ストレージ装置1000は、アクティブ面の管理情報を非アクティブ面になっていたもう一つの差分ビットマップへ更新することで、ライトリクエストの位置の記録先となる差分ビットマップを切り替え、以後のライトリクエストは切り替え後の差分ビットマップへ記録する。副系の仮想化ストレージ装置1000も同様に切り替える。なお、当該切り替え処理開始の契機はI/Oパスマネージャー5000が両仮想化ストレージ装置1000へ与える。なお、正系と副系の切り替え処理はどちらが先に実行してもよく、並列に実行してもよい。
(Step2)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000からの切り替え完了の応答を待ってから、両仮想化ストレージ装置1000に対して差分ビットマップのクリア指示を出す。クリア指示を受信した仮想化ストレージ装置1000は、非アクティブ面となっている差分ビットマップのライト位置をクリアし、I/Oパスマネージャー5000へ応答を返す。切り替え処理と同様に、正系と副系のクリア処理はどちらが先に実行してもよく、並列に実行してもよい。
(Step3)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000からのクリア完了の応答を待ち、時間経過後にStep1から再度実行する。
本解決策の場合、通信障害回復後の再同期処理では、正系と副系のビットマップ4面の論理和を計算することで、Duplex‐Pending状態中に差分コピーを行う領域を決定することができる。また本方式ではビットマップの面数が多いものの、ライトリクエストの保留は必要ない。
第3の解決策としては、上記第2の解決策の変形の以下の方式がある。
(初期状態)正系及び副系の仮想化ストレージ装置1000は、それぞれ2面の差分ビットマップの両面に対してライトリクエストの位置を記録する。また、両仮想化ストレージ装置1000は前回クリアを行った差分ビットマップ面に関する情報を保持・管理しておく。
(Step1)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000に対して差分ビットマップのクリア指示を出す。クリア指示を受信した仮想化ストレージ装置1000は、前回クリアした差分ビットマップでないもう一つの差分ビットマップのライト位置をクリアし、I/Oパスマネージャーへ応答を返す。
(Step3)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000からのクリア完了の応答を待ち、時間経過後にStep1から再度実行する。
<9.リードリクエスト処理フロー>
図11はI/Oパスマネージャー5000がファイルシステム5020からリードリクエストを受信したときの処理内容を示すフローチャートである。
(S11001)I/Oパスマネージャー5000は、ファイルシステム5020より、リード先となるホスト内の仮想的なボリュームの識別子と、当該ボリュームのライト位置と、ライト長とを含むライトリードリクエスト関数を呼び出される(又はメッセージを受信する)。
(S11002)I/Oパスマネージャー5000は、当該仮想的なボリュームの障害状態を確認し、通常状態でかつ正系ボリュームに対するI/O負荷が高い場合(たとえば、一定IOPSを超える場合や一定帯域を超える場合等)と判断したときにはS11021を実行し、それ以外の状態(副系なし、副系準備中、通常状態等)のときにはS11003を実行する。
(S11003)I/Oパスマネージャー5000は、正系ボリュームに対してリードリクエストを発行する。
(S11004)I/Oパスマネージャー5000は、リードリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、それ以外ならばS11010の切り替え処理に制御を移す。
(S11021)I/Oパスマネージャー5000は、副系ボリュームに対してリードリクエストを発行する。
(S11022)I/Oパスマネージャー5000は、リードリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、それ以外ならばS11023を実行する。
(S11023)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系なし'に更新し、S11003を実行する。
<9.1.切り替え処理のフロー>
以下、引き続き切り替え処理にて実現される処理を説明する。
(S11011)I/Oパスマネージャー5000は、まず、デバイス関係テーブル5001の障害状態を参照することで副系ボリュームが使用可能であるか確認し、使用不可能だと判断した場合はファイルシステム5020に対してエラー応答を返し、利用可能だと判断した場合はS11012を実行する。なお、使用不可能と判断できる状態としては、副系なし(障害によって副系の仮想化ストレージ装置1000が機能してない場合や、初めから副系の仮想化ストレージ装置1000を設定していないボリュームの場合)の状態や、前述の初期化準備中の状態がある。
(S10012)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの停止指示を発行し、コピー状態がSuspend状態となったことを確認後、コピー方向反転指示を指示する。
(S10013)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの再同期指示を発行する。なお、実際に再同期が完了してペア状態がDuplex状態に遷移するまで待つ必要はない。
(S10014)I/Oパスマネージャー5000は、デバイス関係テーブル5001の正系ボリューム識別子をこれまで副系であったボリュームの識別子に更新し、正系と副系を入れ替える。そして新たに正系となったボリュームに対してリードリクエストを、HBAデバイスドライバー5010を通じて送信する。
(S10015)I/Oパスマネージャー5000は、リードリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、エラーならばエラー応答を返して終了する。
<10.障害対策処理フロー>
本章では、I/Oパスマネージャー5000が障害を検知してから回復を完了するまでの処理の流れを説明する。なお、本処理は定期的にバックグラウンドで実行される。
<10.1.仮想化ストレージ装置1000間のネットワーク障害>
(Step1)I/Oパスマネージャー5000は、リモートコピーのペア状態を監視し、障害Suspend状態を発見することで何らかの障害発生を検知する。
(Step2)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの停止指示を発行し、コピー状態がSuspend状態となった事を確認後、コピー方向を反転し、各仮想化ストレージ装置1000に対して状態問い合わせを行い、仮想化ストレージ装置1000自体に障害が発生しておらず、ネットワーク障害が原因であることを確認したら、デバイス関係テーブル5001の障害状態を'リモートコピー失敗'に更新する。なお、本処理はストレージ管理者が行った作業結果を利用してもよい。
(Step3)当該ネットワークが回復するまで待つ。
(Step4)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000に対してペアの再同期指示を発行する。
(Step5)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系準備中'に更新する。
(Step6)I/Oパスマネージャー5000は、ペア状態がDuplexになるまで待った後に、デバイス関係テーブル5001の障害状態を'通常状態'に更新する。
<10.2.正系仮想化ストレージ装置1000の障害停止>
(Step1)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000の状態を監視することで障害発生を検知する。
(Step2)I/Oパスマネージャー5000は、デバイス関係テーブル5001の正系ボリュームの識別子を副系ボリュームの識別子に変更することで以後のI/Oリクエスト先を副系の仮想化ストレージ装置1000に切り替え、さらに障害状態を'副系なし'に更新する。
(Step3)I/Oパスマネージャー5000は、旧正系(Step2にて切り替えたので現副系)の仮想化ストレージ装置1000が回復するまで待つ。
(Step4)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000に対してペアの再同期指示又は初期化指示を発行する。
(Step5)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系準備中'に更新する。
(Step6)I/Oパスマネージャー5000は、ペア状態がDuplexになるまで待った後に、デバイス関係テーブル5001の障害状態を'通常状態'に更新する。
<10.3.副系仮想化ストレージ装置1000の障害停止>
(Step1)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000の状態を監視することで障害発生を検知する。
(Step2)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系なし'に更新する。
(Step3)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000が回復するまで待つ。
(Step4)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000に対してペアの再同期指示又は初期化指示を発行する。
(Step5)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系準備中'に更新する。
(Step6)I/Oパスマネージャー5000は、ペア状態がDuplexになるまで待った後に、デバイス関係テーブル5001の障害状態を'通常状態'に更新する。
<11.もう一つの初期化方法>
これまでの説明では、I/Oパスマネージャー5000に出された初期化要求に応じて仮想化ストレージ装置1000にリモートコピーの設定を行ったが、以下に示す逆の方法も考えられる。
(Step1)管理ホスト1200は、仮想化ストレージ装置1000に対してリモートコピーのペア初期化指示を出することで、リモートコピーを開始する。
(Step2)I/Oパスマネージャー5000は、スキャニング要求を受信する。
(Step3)I/Oパスマネージャー5000は、HBAデバイスドライバー5010を通じて各ボリュームに対するリモートコピーの設定(リモートコピー設定の有無やコピー元かコピー先か、ペアの相手となる仮想化ストレージ装置1000とボリューム)を取得する。なお、この取得方法としてI/Oネットワーク上でSCSIコマンドを使うことも考えられるし、それ以外の通信ネットワークを用いて情報を取得してもよい。
(Step4)I/Oパスマネージャー5000は、前ステップで取得した情報を元に、デバイス関係テーブル5001を作成し、これまで説明してきた処理を開始する。なお、当該デバイス関係テーブル5001の作成例としては以下がある。
(A)ホスト1100内で仮想的なボリュームの識別子=I/Oパスマネージャー5000が作成した値
(B)関係ボリューム識別子リスト=リモートコピーのコピー元ボリュームとコピー先ボリュームの識別子
(C)正系ボリューム=リモートコピーのコピー元ボリューム
(D)障害状態=仮想化ストレージ装置1000から取得したペア状態がDuplex状態ならば'通常状態'、Initial‐Copying又はDuplex‐Pending状態ならば'副系準備中'、Suspend又は障害Suspend状態ならば'リモートコピー失敗'
(E)ペア状態=仮想化ストレージ装置1000から取得したペア状態
以上、これまで説明したハードウェア及びプログラムの動作によって本実施の形態では高可用性を実現する。なお、図10と図11等に記した切り替え処理に長時間要する場合の対策として、I/Oパスマネージャー5000がI/Oリクエストを再送信する必要が出てきた場合に、予備処理として前記切り替え処理の一部を実行してもよい。この場合、再送信したI/Oリクエストが正常応答で返ってきた場合は先行して行った切り替え処理を元に戻せば良く、一方で再送信したI/Oリクエストがエラー応答で返ってきたり、まったく応答がなければ前記切り替え処理の残り部分を実行すればよい。また、本実施の形態は全てのボリュームが仮想化ストレージ装置1000によって仮想化され、実体がストレージ装置1500にある仮想ボリュームで、仮想化ストレージ装置1000は仮想化専用のアプライアンスであってもよく、またその逆に全てのボリュームの実体が仮想化ストレージ装置1000の内部にある構成であってもよい。また、仮想化ストレージ装置1000が提供するボリュームには容量以外にもさまざまな属性が設定されることがある(たとえば、エミュレーションタイプやSCSI規格で定められたInquiryコマンドで取得可能なボリューム識別番号がある)。
こうした属性情報や属性変更もリモートコピーによって正系の仮想化ストレージ装置から副系の仮想化ストレージ装置へ転送し、両方の仮想化ストレージ装置にて管理することも考えられる。
<12.もう一つのリード・ライト処理>
図10や図11に記したライト・リード処理では、I/Oパスマネージャー5000が明示的にリモートコピーの操作を仮想化ストレージ装置1000へ転送する。しかし、当該リモートコピーの操作が仮想化ストレージ装置1000のベンダー毎に異なる場合があるため、I/Oパスマネージャー5000のライト処理やリード処理に含めないほうが好ましい場合がある。図25〜図27にこうした形態での処理内容を示す。なお、以下においては各種処理の処理主体を「仮想化ストレージ装置1000」として説明する場合があるが、実際上は、その仮想化ストレージ装置1000内のプロセッサ1011(図1)がメモリ1012(図1)に格納されたプログラムに基づいて対応する処理を実行することは言うまでもない。
<12.1.I/Oパスマネージャーのライト処理>
図25は、I/Oパスマネージャー5000で実行される図10の大体処理を示したフローチャートである。以下の点が図10と異なる。
(相違点1)リモートコピーの操作S10012、S10013,S10021がスキップされる。
(相違点2)リモートコピー失敗時のフローS10020に到達しない。ただし、本相違点は通常のリード/ライト処理ではリモートコピー失敗を意味するエラーメッセージを識別できない場合に限った話である。
<12.2.ストレージ装置1000の処理>
図27は、仮想化ストレージ装置1000がライトリクエストを受信した時に行うリモートコピーの操作について示した図である。
(S27001)仮想化ストレージ装置1000は、ライトリクエストを受信する。
(S27002)仮想化ストレージ装置1000は、ライトリクエストが対象とするボリュームがリモートコピーに関係するかどうか判断し、無関係の場合はS27003を実行し、関係する場合はS27004を実行する。
(S27003)仮想化ストレージ装置1000は、通常のライト処理を行い、ホスト1100へ応答を返して終了する。
(S27004)仮想化ストレージ装置1000は、ライトリクエストが対象とするボリュームのリモートコピーの属性を判断し、コピー元属性の場合はS27005を実行し、コピー先属性の場合はS27011を実行する。
(S27005)仮想化ストレージ装置1000は、同期リモートコピー処理を実行し、副系ストレージへライトデータを転送し、応答を待つ。
(S27006)仮想化ストレージ装置1000は、コピーが成功したかどうか判断し、成功ならばS27008を実行し、失敗ならばS27007を実行する。
(S27007)仮想化ストレージ装置1000は、対象ボリュームがコピー元となるリモートコピーペアの状態を障害Suspend状態に遷移する。ただし、当該ボリュームに対するライトは禁止しない。
(S27008)仮想化ストレージ装置1000は、通常のライト処理を行い、ホスト1100へ応答を返して終了する。
(S27011)仮想化ストレージ装置1000は、リモートコピーを停止し、コピー元とコピー先の関係を反転する。
(S27012)仮想化ストレージ装置1000は、再同期処理を開始する。
(S27013)仮想化ストレージ装置1000は、通常のライト処理を行い、ホスト1100へ応答を返して終了する。
なお、S27012の再同期処理は完了まで待たなくても良い。なぜならば、S27012を実行する仮想化ストレージ装置1000は副系であり、正系の仮想化ストレージ装置1000が正常動作しているとは限らないこと、及び再同期処理が完了するまでの時間が長いことが考えられるからである。なお、こうしたケースは<10.障害対策処理フロー>で述べた処理によって回復される点はこれまでと同じである。
<12.3.I/Oパスマネージャーのリード処理>
図26は、I/Oパスマネージャー5000で実行される図11の大体処理を示したフローチャートである。以下の点が図11と異なる。
(相違点1)リモートコピーの操作S11012、S11013がスキップされる。
なお、図11ではリード処理に応じてリモートコピーの向きが反転したが、本処理では反転させない。なぜならば、副系の仮想化ストレージ装置1000に対するリードリクエストは正系の仮想化ストレージ装置1000が(ホスト=仮想化ストレージ装置間の通信障害による原因を含めて)応答を返さない場合に加えて、正系の仮想化ストレージ装置1000の過負荷が原因の場合もあるからである。そのため、副系の仮想化ストレージ装置1000がコピー先ボリュームに対するリードリクエストを契機としてリモートコピーのペア反転を行うと、たまたま副系の仮想化ストレージ装置1000に出されたリードリクエストでペアが反転し、その次のリードリクエストで再びペアが反転してしまうため、リード性能が悪化する結果となるからである。
ただし、S11021の実行が抑制される場合は、仮想化ストレージ装置1000はリード処理に際して以下の処理を行うことでリモートコピーのペア反転を行っても良い。
(Step1)仮想化ストレージ装置1000は、リードリクエストを受信する。
(Step2)仮想化ストレージ装置1000は、通常のリード処理を行う。
(Step3)仮想化ストレージ装置1000は、リード対象のボリュームがリモートコピーのコピー先ボリュームであるかどうかを判断し、該当する場合は次のStep4を実行し、そうでない場合は終了する。
(Step4)仮想化ストレージ装置1000は、リモートコピーを停止し、コピー元とコピー先の関係を反転する。
(2)第2の実施の形態
次に第2の実施の形態について図12を用いて説明する。第1の実施の形態と異なる点は、ストレージ装置1500Lが複数の仮想化ストレージ装置1000L,1000Rに接続され、これら仮想化ストレージ装置1000L,1000Rがストレージ装置1500L内のボリュームを共有することによって、仮想化ストレージ装置1000L,1000Rの片方が停止した場合でも第1の実施の形態よりも低コストでサービスが継続できるようになる点である。
ただし、仮想化ストレージ装置1000L,1000Rはキャッシュメモリ1020L,1020Rを有するため、仮想化ボリュームに対してライトデータを書き込んだ直後に正系の仮想化ストレージ装置1000Lが災害停止した場合に備えて、ライトデータを副系の仮想化ストレージ装置1000Rのキャッシュメモリ1020Rにも保存する必要があり、また両方の仮想化ストレージ装置1000L,1000Rのデステージングやステージングに対して工夫が必要となる。
通常状態におけるライトリクエストは以下のステップにて処理される。
(Step1)ホスト1100からライトリクエストを受信した正系の仮想化ストレージ装置1000Lは当該ライトリクエストが当該仮想化ストレージ装置1000L内部のHDD1030に対応するボリューム3000LA宛なのか、両方の仮想化ストレージ装置1000L,1000Rがストレージ装置1500Lのボリューム3500Lを共有して提供する仮想化ボリューム(以後、共有仮想化ボリュームと呼ぶ)3000LB宛なのか、通常の仮想化ボリューム宛なのかを判断する。なお、共有仮想化ボリューム3000LB以外の処理については第1の実施の形態と同様の処理を行う。
(Step2)正系の仮想化ストレージ装置1000Lは自身のキャッシュメモリ1020Lに当該ライトデータを保存すると共に、当該ライトデータをリモートコピープログラムによって副系の仮想化ストレージ装置1000Rのキャッシュメモリ1020Rに保存した後に、ホスト1100に対して正常応答を返す。
(Step3)正系の仮想化ストレージ装置1000Lのキャッシングアルゴリズムが出ステージすべきキャッシュメモリ1020L上のデータを決定し、当該データをストレージ装置1500Lのボリュームにデステージする。
(Step4)デステージ完了後、正系の仮想化ストレージ装置1000Lはデステージしたキャッシュメモリ1020L上のデータのアドレスを破棄するように副系の仮想化ストレージ装置1000Rに指示する。なお、指示を受けた副系の仮想化ストレージ装置1000Rは指示を受けたデータをキャッシュメモリ1020Rから破棄する。
なお、本構成では仮想化ストレージ装置1000L,1000R間のネットワークが切断された状態で副系の仮想化ストレージ装置1000RにI/Oリクエストの切り替えを行った場合、仮想化ストレージ装置1000L,1000Rの両方が正系として自立的にデステージングを行う場合がある。そういった状況を回避するため、両仮想化ストレージ装置1000L,1000Rは自らを正系として処理する場合は先にストレージ装置1500L内のかかる共有化されたボリューム3500Lに対してSCSI Reserve等の機能を用いて排他制御を行ってもよい。また、これ以外の方式として共有仮想化ボリューム3000LBについては仮想化ストレージ装置1000Lのキャッシングを無効化してもよく、この場合は当該共有仮想ボリューム3000LBのアクセス権限がリードオンリーのアクセス権限へ変更された場合は当該変更に応じてキャッシングを有効にすることが考えられる。
(3)第3の実施の形態
次に第3の実施の形態について図13を用いて説明する。本実施の形態はこれまでの実施の形態に記した情報システムをこれまでのプロダクションサイトと異なる遠隔地(バックアップサイト)に別途用意し、リモートコピーを行うもので、これによりプロダクションサイト被災時にバックアップサイトでサービスを再開することができる。
なお、これ以後の説明では、上述の「仮想化ストレージ装置」をストレージ装置と、「コピー元ボリューム」を正ボリュームと、「コピー先ボリューム」を副ボリュームと、「正系」をアクティブ側と、「副系」をスタンバイ側と呼ぶことがある。また、プロダクションサイトとバックアップサイトの情報システムをあわせてリモートコピーシステムと呼ぶことがある。
<1.リモートコピーシステムの構成>
本実施の形態では、各サイトはホスト13010,13020と複数のストレージサブシステム13001,13002,13003,13004とから構成されている。そしてプロダクションサイトでは、ストレージサブシステム13001,13002同士でこれまで説明してきた高可用化構成を採用している。またバックアップサイトでも同様に、ストレージサブシステム13003,13004同士でかかる高可用化構成を採用している。
さらに本実施の形態では、プロダクションサイトのアクティブ側のストレージサブシステム(コピー元ボリュームを持つ)13001からバックアップサイトのアクティブ側のストレージサブシステム(コピー先ボリュームを持つ)13003に対して同期又は非同期リモートコピーを行う。そしてプロダクションサイト被災時にはバックアップサイトのホスト13010が高可用構成のストレージサブシステム13003,13004のいずれかアクティブな側に対してI/Oリクエストを発行することで、再起動したアプリケーション2010が処理を再開する。
なお、前述の通り、ストレージサブシステムとは仮想化ストレージ装置1000(図1)の仮想化機能を用いない設定の構成や、仮想化ストレージ装置1000とストレージ装置1500(図1)の組み合わせで仮想化ストレージ装置1000が仮想化機能を用いて仮想化ボリュームを提供している構成のどちらの概念も含んだものとして呼んでいる。また、本実施の形態では個々のストレージサブシステム13001、13002、13003、13004が別々な内部構成(例えば、ストレージサブシステム13001だけ仮想化ストレージ装置1000のみで構成し、仮想化機能を用いない場合や、バックアップサイトのストレージサブシステム13003と13004でストレージ装置1500(図1)を共有し、プロダクションサイト側では共有しない場合)を採用してもよい。
なお、以下においては各種処理の処理主体を「ストレージサブシステム」として説明する場合があるが、実際上は、そのストレージサブシステム内のプロセッサが当該ストレージサブシステム内のメモリに格納されたプログラムに基づいて対応する処理を実行することは言うまでもない。
<2.処理>
プロダクションサイトのホスト13010のアプリケーション2010がライトリクエストを発行すると、OSによってプロダクションサイト内のアクティブ側のストレージサブシステムを判断し、そちらにライトリクエストを転送する。なお、本図ではストレージサブシステム13001がこれに対応する。
プロダクションサイトのアクティブ側のストレージサブシステム13001は同期リモートコピーによってライトデータをプロダクションサイト内のスタンバイ側のストレージサブシステム(本図では13002が対応する)へ転送する。また、アクティブ側のストレージサブシステム13001はバックアップサイトのアクティブ側のストレージサブシステム(本図では13003が対応する)へ向けて同期又は非同期のリモートコピーとしてライトデータを転送する(本実施の形態による高可用構成ではアクティブ側にのみライトリクエストを処理するようにしているため、リモートコピーであっても同様にアクティブ側にて処理を行う)。ライトデータを受信したバックアップサイト内のアクティブ側のストレージサブシステム13003は受け取ったライトデータをサイト内のスタンバイ側のストレージサブシステム13004へ同期リモートコピーによって転送する。
そのため、プロダクションサイトのストレージサブシステム13001,13002はバックアップサイトのアクティブ側のストレージサブシステムを把握しており、バックアップサイトのストレージサブシステム13003,13004も想定外のストレージサブシステムからのリモートコピーを受け付けないために、プロダクションサイトのアクティブなストレージサブシステム(ストレージサブシステム1301)を把握している。
以上の処理によってプロダクションサイト、バックアップサイト共にサイト内の高い可用性を実現している。ただしバックアップサイト側では、コスト削減のために高可用構成をとらない構成であってもよい。
<3.非同期リモートコピー>
これまで説明してきた同期リモートコピーとは異なり、非同期リモートコピーはホスト13010からのライトリクエストが到着した時点でライトデータを転送するのではなく、当該リクエスト完了応答後に転送する(言い方を変えると、非同期リモートコピーはホスト13010へのリクエスト応答とは独立なタイミングでライトデータを転送する)。そのため、非同期リモートコピーはサイト間の距離が長く通信遅延が大きな場合でもライトリクエストの応答時間を低下させずにリモートコピーを行うことができる。しかし、非同期リモートコピーではプロダクションサイト側のストレージサブシステム13001にてライトデータをバッファリングする必要がある。このライトデータのバッファリング方式としては以下が考えられる。
(1)プロダクションサイトのストレージサブシステム13001は、コピー元ボリュームへのライトデータとライトデータの順序情報を含むジャーナルを作成し、これを自身のキャッシュメモリ又は専用ボリュームに保存すると共に、このジャーナルをバックアップサイトのストレージサブシステム13003へ転送し、バックアップサイトのストレージサブシステム13003はジャーナルの順序情報を参考にコピー先ボリュームへライトデータを保存する。これにより、プロダクションサイト災害時にはライト順序が守られた(より正確には依存関係のあるライトデータ)データをバックアップサイト側で提供できる。
(2)プロダクションサイトのストレージサブシステム13001は、ある期間毎のコピー元ボリュームへライトされたデータをグループ化して自身のキャッシュメモリ又は専用ボリュームへ保存し、非同期にバックアップサイトのストレージサブシステム13003へ転送し、当該グループ単位でバックアップサイトのストレージサブシステム13003が有するコピー先ボリュームへデータを保存する。
そのため、これら非同期リモートコピーのためにバッファリングされるライトデータもスタンバイ側のストレージサブシステム13002で保持しなければ、アクティブ側ストレージサブシステム13001が停止したときに非同期リモートコピーを引き継ぐことができない。よって、プロダクションサイトのアクティブ側のストレージサブシステム13001はライトデータだけではなく、コピー先ボリュームの情報や、前述の順序情報や、グループ化するタイミング等をスタンバイ側のストレージサブシステム13002へ伝え、スタンバイ側のストレージサブシステム13002はそれに従ってアクティブ側と同じ非同期リモートコピーのためのバッファリングデータを作成する。
なお、バックアップサイトのストレージサブシステム13003もプロダクションサイトから受け取ったライトデータを直ぐにコピー先ボリュームへ保存せずに、バッファリングを行うため、プロダクションサイト側と同様にアクティブ側の指示に従ってスタンバイ側も同様のバッファリングデータを作成し、また同様のタイミングでコピー先ボリュームにライトデータを保存する必要がある。
(4)第4の実施の形態
次に第4の実施の形態について図14を用いて説明する。本実施の形態では、2台のストレージ装置により先に説明した同期リモートコピーを用いて冗長構成された情報システムにおいて、ストレージ装置が提供する機能を制御するインターフェース(機能I/F)の構成について述べる。
なお、本実施の形態から第14の実施の形態までは、これまで仮想化ストレージ装置1000L,1000R、ストレージ装置1500L,1500Rと呼んでいたコンポーネントを、それぞれストレージ装置15000A,15000B及び外部ストレージ装置16000A,16000Bと呼ぶ。また、以下においては各種処理の処理主体を「ストレージ装置15000A,15000B」や「外部ストレージ装置16000A,16000B」として説明する場合があるが、実際上は、そのストレージ装置15000A,15000B内の図示しないプロセッサやその外部ストレージ装置16000A,16000B内のプロセッサが当該ストレージ装置15000A,15000B又は外部ストレージ装置16000A,16000B内のメモリに格納されたプログラムに基づいて対応する処理を実行することは言うまでもない。
本実施の形態は、ホスト14000からの機能制御要求が、ストレージ装置15000Aに送信された後、ストレージ装置15000Aが機能制御要求をストレージ装置15000Bに転送し、ストレージ装置15000A,15000Bの双方が当該機能制御要求を解釈し実行する例を示している。
コマンドデバイス15002A,コマンドデバイス15002Bはそれぞれストレージ装置15000A、ストレージ装置15000Bが提供する論理ボリュームであり、機能を制御するホスト14000とのインターフェースとなる。なお、本実施の形態ではコマンドデバイス15002Aがアクティブ側と仮定している。
また、同期リモートコピーにより、コマンドデバイス15002Aの内容はコマンドデバイス15002Bの内容と常に一致している。コマンドデバイス15002A、コマンドデバイス15002Bはオペレーティングシステム14001が提供するパス管理機能(I/Oパスマネージャー5000(図1)が提供する機能に相当する)によりひとつのボリューム14004として機能管理プログラム14003に提供される。
論理ボリューム15001A、論理ボリューム15001Bはそれぞれストレージ装置15000A、ストレージ装置15000Bが提供する論理ボリュームであり、機能制御対象の論理ボリュームである。なお、本実施の形態では論理ボリューム15001Aがアクティブ側と仮定している。
また、同期リモートコピーにより、論理ボリューム15001Aの内容は、論理ボリューム15001Bの内容と常に一致している。論理ボリューム15001A、論理ボリューム15001Bはオペレーティングシステム14001が提供するパス管理機能によりひとつのボリューム14005としてアプリケーションプログラム14002に提供される。
なお、ここで説明した機能制御対象の論理ボリュームは複数あってもよい。
機能管理プログラム14003の機能制御要求処理部14005は、ユーザーあるいはホスト14000内の他のプログラムあるいはホスト14000とは別のホスト(管理ホストなど)内のプログラムから、機能制御要求を受け付ける。機能制御要求を受け付けた機能制御要求処理部14005はボリューム14004に対する制御要求の内容をボリューム14004に対してライト/リードする。本実施の形態ではコマンドデバイス15002Aがアクティブ側であるため、ライト/リードはコマンドデバイス15002Aに対して発行される。
コマンドデバイス15002Aに対するライトは機能制御を起動するときに用いられ、コマンドデバイス15002Aに対するリードは機能制御の結果の出力値を得るために用いられる。
機能制御要求処理部14005が受け付ける制御要求には制御対象のストレージ装置15000A,15000Bを一意に識別する情報(装置情報とも呼ぶ)と、制御対象の論理ボリューム15001A,150001Bを一意に識別する情報(ボリューム情報とも呼ぶ)と、機能制御に付随する情報とが含まれる。
ストレージ装置15000Aの制御I/F処理部15003Aはコマンドデバイス15002Aに制御要求がライトされたことを検出する。制御I/F 処理部15003Aは制御要求の装置情報が自ストレージ装置(ストレージ装置15000A)に一致するか判定する(判定100)。本実施の形態ではコマンドデバイス15002Aがアクティブ側なので、判定の結果は「一致する」となる。一致した場合、制御I/F 処理部15003Aはボリューム情報に対応する論理ボリューム15001Aに対して所定の機能制御を実行するよう機能処理部15004Aを呼び出す。具体的な例としては、ストレージ装置15000Aが提供する機能のひとつであるローカルコピー機能(後で説明)のペア状態の参照操作がある。当該操作が論理ボリューム15001Aに対して呼び出された場合、機能処理部15004Aは、ローカルコピー機能の管理情報を参照し、ペア状態を取得した後、制御I/F処理部15003A、コマンドデバイス15002A及びボリューム14004を介して、機能制御要求処理部14005に対して、ペア状態を送信する。
一方、ストレージ装置15000Bの制御I/F 処理部15003Bも同様の処理を行うが、本実施の形態では、コマンドデバイス15002Bはスタンバイ側なので、判定100の結果は「一致しない」となる。この場合、制御I/F 処理部15003Bは同期リモートコピーのペアの管理情報を参照し、ボリューム情報(論理ボリューム15001Aに対応)に対応する自ストレージ装置(ストレージ装置15000B)内の論理ボリューム(論理ボリューム15001Bに対応)を特定する。そして、制御I/F処理部15003Bは論理ボリューム15001Bに対して所定の機能制御を実行するよう機能処理部15004Bを呼び出す。
以上により、ストレージ装置15000Aの論理ボリューム15001A、ストレージ装置15000Bの論理ボリューム15001Bに対して、所定の機能の制御が実行される。
本実施の形態では、ストレージ装置15000A,15000Bが提供するローカルコピー機能のペア状態の参照操作を例にとって説明したが、(1)ローカルコピー機能のその他のペア操作(ペアの作成、ペアの分割等)、(2)ストレージ装置15000A,15000Bが提供するローカルコピー機能の各種ペア操作、(3)ストレージ装置15000A,15000Bが提供する論理ボリューム15001A,15001Bに対するセキュリティ機能(後で説明するLDEVガード機能)の操作、(4)ストレージ装置15000A,15000Bが提供する論理スナップショット機能(後で説明)の操作、等、ストレージ装置15000A,15000Bが提供する各種機能の操作について適用できる。
なお、別な実行形態としては、アクティブ側とスタンバイ側両方のストレージ装置15000A,15000Bに発行すべきコマンドを受けた場合は、アクティブ側のストレージ装置15000Aは受取ったコマンドを処理すると共に、スタンバイ側のストレージ装置15000Bへ転送してコマンド処理をしてもらうことで、ホスト14000からは1回のコマンドで両方のストレージ処理を開始することも考えられる。また、プログラムの状態取得に関するコマンドの場合は、コマンドを受取ったアクティブ側のストレージ装置15000Aがスタンバイ側のストレージ装置15000Bに同じコマンドを転送して状態を取得し、アクティブ側のストレージ装置15000Aが両方の状態を比較した後にコマンド発信元へ状態を返すことも考えられる。
(5)第5の実施の形態
本実施の形態では機能I/Fの別の構成について述べる。図15を用いて本実施の形態の構成を説明する。
本実施の形態の構成は図14とほぼ同様である。図14との違いは、
(1)コマンドデバイス15002A、コマンドデバイス15002Bが同期リモートコピーのペアでない。
(2)機能管理プログラム14003からはコマンドデバイス15002A及びコマンドデバイス15002Bが別々のボリューム14004A、14004Bとして認識されている。
(3)機能制御要求処理部14005は機能制御要求をコマンドデバイス15002A及びコマンドデバイス15002Bに送信する。
という3点である。
本実施の形態では、第4の実施の形態と同様に、機能制御要求処理部14005が受け付ける制御要求には制御対象のストレージ装置15000A,15000Bを一意に識別する情報(装置情報とも呼ぶ)と、制御対象の論理ボリューム15001A,15001Bを一意に識別する情報(ボリューム情報とも呼ぶ)と、機能制御に付随する情報とが含まれる。
本実施の形態では、第4の実施の形態と異なり、前述のように、ユーザーあるいはホスト14000内の他のプログラムあるいはホスト14000とは別のホスト内のプログラムから機能制御要求を受け付けた機能制御要求処理部14005は、両方のコマンドデバイス15002A、15002Bに制御要求を送信する。
なお、機能制御要求処理部14005が装置情報を判定し、コマンドデバイス15002Aに対しては、ボリューム情報として論理ボリューム15001Aを指定し、コマンドデバイス15002Bに対しては、ボリューム情報として論理ボリューム15001Bを指定するように制御要求を書き換えてもよい。
さらにまた、ユーザーあるいはホスト14000内の他のプログラムあるいはホスト14000とは別のホスト内のプログラムがストレージ装置15000A,15000Bを識別し、ストレージ装置15000A、15000Bに対して二重に異なる制御要求を出してもよい。即ち、コマンドデバイス15002Aに対して、論理ボリューム15001Aの制御要求を出し、コマンドデバイス15002Bに対して、論理ボリューム15001Bの制御要求を出す。
(6)第6の実施の形態
本実施の形態では機能I/Fの更に別の構成について述べる。図16を用いて本実施の形態の構成を説明する。
第6の実施の形態は第4の実施の形態とほぼ同様である。第4の実施の形態との違いは以下の点である。
(1)ホスト14000、ストレージ装置15000A、ストレージ装置15000Bは互いにLAN(Local Area Network)のような相互結合網により接続されている。なお、これらはLANにより直結されていてもよいし、スイッチを経由して接続されていてもよい。
(2)コマンドデバイスがない構成であり、3者(ホスト14000、ストレージ装置15000A、ストレージ装置15000B)間の通信はLANを介して行なわれる。
(3)機能制御要求処理部14005はLANを介して、制御要求を制御I/F 処理部15003Aに送信する。
(4)制御要求を受け取った制御I/F 処理部15003AはLANを介して、制御要求を制御I/F 処理部15003Bに送信する。
制御I/F 処理部15003A、15003Bが受け取った制御要求を処理する点は第4の実施の形態と同様であり、第6の実施の形態は第4の実施の形態と同等の機能I/Fを提供することができる。
(7)第7の実施の形態
本実施の形態では機能I/Fの更に別の構成について述べる。図17を用いて本実施の形態の構成を説明する。
第7の実施の形態は第6の実施の形態とほぼ同様である。第6の実施の形態との違いは以下の点である。
(1)機能制御要求処理部14005はLANを介して、制御要求を両方の制御I/F 処理部15003A、15003Bに送信する。
(2)制御I/F 処理部15003Aは制御I/F 処理部15003Bに対して、制御要求を送信しない。
制御I/F 処理部15003A、15003Bが受け取った制御要求を処理する点は第6の実施の形態と同様であり、第7の実施の形態は第6の実施の形態と同等の機能I/Fを提供することができる。
(8)第8の実施の形態
本実施の形態では、ストレージ装置内の論理ボリュームに対してセキュリティ機能(LDEVセキュリティ機能)を適用する場合の例を説明する。
図18はLDEVセキュリティ機能の一実施の形態を示したものである。本実施の形態の構成は第4の実施の形態の図14とほぼ同一である。図14と異なる点は論理ボリュームセキュリティ情報15005A、15005Bが追加された点である。論理ボリュームセキュリティ情報15005A、15005Bは、ホスト14000からストレージ装置15000A,15000B内の論理ボリューム15001A,15001Bに対するアクセス制御を行うために用いられる。アクセス制御の例としては、論理ボリューム15001A,15001B内のデータの改ざんを抑止するために論理ボリューム15001A,15001Bに対するライトアクセスを一切禁止する制御がある。また、別の例としては、法令等により一定期間の保存を義務付けられたデータに対して、所定の期間ライトを禁止する機能がある。さらに、別の例としては、機密情報の保護の観点等から特定のホストからのリード/ライトアクセスを禁止する機能がある。
図18のように2台のストレージ構成15000A,15000Bを用いて同期リモートコピーにより冗長化を図った構成においてもLDEVセキュリティ機能を適用したい場合が考えられる。この場合においても第4の実施の形態で説明した機能I/Fを用いてLDEVセキュリティ機能を制御することができる。具体的には、機能処理部15004において、対象ボリュームに対するセキュリティ情報を格納する論理ボリュームセキュリティ情報15005A、15005Bに、LDEVセキュリティに関するパラメータを設定したり、参照したりすればよい。
(9)第9の実施の形態
本実施の形態では、ストレージ装置内の論理ボリュームにローカルコピー機能を適用した場合の例を説明する。
ローカルコピー機能とは、ユーザーから指定されたボリュームの複製を、コピー元ボリュームと同じストレージ装置内において作成する機能である。本機能を用いて作成されたボリュームの複製はデータマイニングやテープバックアップのためにホストがアクセスを行ったり、あるいはバックアップデータとして長時間保存される。ローカルコピー機能は複製を作成したいボリュームと複製先ボリュームをペア(コピーペア)として指定し、そのペアに対してユーザーが操作を行うことでユーザーは複製を作成する。以後の説明では複製対象ボリュームを正ボリュームと呼び、複製先ボリュームを副ボリュームと呼ぶことがある。本実施の形態ではこのローカルコピー機能についてもアクティブ側のストレージとスタンバイ側のストレージで連携することで可用性を向上させる。
図19はローカルコピー機能の一実施の形態を示したものである。図19においては、ホスト14000はストレージ装置15000Aとストレージ装置15000Bに接続されている。また、ストレージ装置15000Aは外部ストレージ装置16000Aと接続され、ストレージ装置15000Bは外部ストレージ装置16000Bと接続されている。また、ローカルコピー機能及び差分ビットマップ(正ボリューム15006A,15006Bと副ボリューム15007A,15007Bの間の差分の有無を示す情報)がストレージ装置15000Aとストレージ装置15000Bにて実行及び管理される。
本実施の形態は正ボリューム15006A,15006Bがストレージ装置15000A,15000B内にあり、副ボリューム15007A,15007Bが外部ストレージ装置16000A,16000B内にある構成例を示している。正ボリューム15006Aと副ボリューム15007Aはペアであり、副ボリューム15007Aの実体は外部ボリューム16001A内にある。同様に、正ボリューム15006Bと副ボリューム15007Bはペアであり、副ボリューム15007Bの実体は外部ボリューム16001B内にある。
<Duplex状態における動作>
Duplex状態とはペア状態のひとつで正ボリューム15006A,15006Bから副ボリューム15007A,15007Bへ後述するバックグラウンドコピーが行われている状態である。
以下ではDuplex状態におけるリード/ライト処理について述べる。なお、以下のリード/ライト処理の説明は、リード/ライト処理の対象ボリューム(正ボリューム15006A,15006B)のアクティブ側がストレージ装置15000Aであるという前提である。
まずリード処理について説明する。アプリケーションプログラム14002からリード要求を受け付けたオペレーティングシステム14001はパス管理機能により、(リード対象の正ボリュームに関して)アクティブ側のストレージがストレージ装置15000Aとストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにリード要求を発行する。リード要求を受信したストレージ装置15000Aはリード対象データをホスト14000に送信する。アプリケーション14002はオペレーティングシステム14001を介してリード対象データを受信する。以上によりリード処理は完了する。
次にライト処理について説明する。アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能により、(リード対象の正ボリュームに関して)アクティブ側のストレージ装置がストレージ装置15000Aとストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにライトリクエストを発行する。ライトリクエストを受信したストレージ装置15000Aは、ライトデータを受信し、図示しないキャッシュメモリにライトデータを格納すると共にライトデータに対応する差分ビットマップのビットを1(オン)に設定する。
その後、当該ライトデータはリモートコピー機能により、ストレージ装置15000A内のキャッシュメモリからストレージ装置15000B内の正ボリューム15006Bにコピー(同期リモートコピー)する。なお、同期リモートコピーの方法はこれまで説明した通りである。同期リモートコピーによりストレージ装置15000Aからライトデータを受信したストレージ装置15000Bは、図示しないキャッシュメモリにライトデータを格納すると共にライトデータに対応する差分ビットマップのビットを1(オン)に設定する。その後、ストレージ装置15000Bはストレージ装置15000Aに対してライト完了報告に送信し、ライト完了報告を受信したストレージ装置15000Aはホスト14000に対してライト完了報告を送信する。
なお、ストレージ装置15000Aの正ボリューム15006A、ストレージ装置15000Bの正ボリューム15006Bにライトされたデータは、正ボリューム15006A,15006Bへのライトとは非同期に副ボリューム15007A,15007Bへコピーされる(以後、本処理をバックグラウンドコピー処理と呼ぶ)。バックグラウンドコピーは、差分ビットマップ定期的に監視し、差分あり(すなわちビットがオン)と記録された領域のデータを正ボリューム15006A,15006Bから副ボリューム15007A,15007Bへコピーし、コピーが終了したらビットをクリア(オフ又は0に)することにより行なわれる。
一方、スタンバイ側のストレージ装置15000Bも同期リモートコピーによってライトデータが到着した時点を契機として同様の処理を行う。
なお、本発明は上記例以外の構成、たとえば正ボリューム15006A,15006Bは外部ストレージ装置16000A内にあってもよいし、ストレージ装置15000A,15000B内にあってもよい。副ボリューム15007A,15007Bもまた、外部ストレージ装置16000A内にあってもよいし、ストレージ装置15000A,15000B内にあってもよい。
何らかの障害が発生し、アクティブ側の正ボリューム15006Aに対するI/Oリクエストが処理できなくなった場合には、すでに説明した通り、オペレーティングシステム14001は、I/Oリクエストの対象を正ボリューム15006Bに切り替えてアクセスを継続する。この場合でも、ストレージ装置15000B内にはローカルコピー機能のペアが存在するため、副ボリューム15007Bを用いて先に述べたバックアップ等の処理を行なうことができる。
<ペアSplitとSplit状態の動作>
Split状態とはペア状態のひとつで、副ボリュームのイメージが確定した状態のことを指す。この状態では、正ボリュームと副ボリュームの内容が一致しておらず、正ボリュームと副ボリュームの間の差分が差分ビットマップで管理されている。また、この状態においては、副ボリュームが静止した状態になるため、ユーザーは先に述べたバックアップ等の処理を行なうことができる。
ホスト14000はローカルコピーのDuplex状態のペアをSplit状態にする場合、これまで説明してきたバックグラウンドコピーの動作を停止させる(これをペアSplitと呼ぶ)。ペアSplitは第4〜第7の実施の形態で説明した機能I/Fを介して実施する。
(1)ホスト14000は機能I/Fを介してストレージ装置15000A,15000Bにローカルコピーの停止命令を出す。通常、ホスト側ではこの停止命令直前にI/Oリクエストの発行を停止する。
(2)アクティブ側及びスタンバイ側のストレージ装置15000A,15000Bはそれぞれ差分ビットマップ上でオンとなった領域のバックグラウンドコピーを完了させる。ホスト14000は両ストレージ装置15000A,15000Bにおけるバックグラウンドコピーが完了ことを認識するメッセージをアクティブ側のストレージ装置15000A、もしくは両ストレージ装置15000A,15000Bから受領する。
(3)ホスト14000は当該メッセージを受領した後、I/O発行を再開する。
(2)までの処理により、アクティブ側及びスタンバイ側のストレージ装置15000A,15000B内のペアはSplit状態になったことが確定する。この時点で両ストレージ装置15000A,15000B内のペア状態はSplit状態となっている。なお、Split中に行われた正ボリュームまたは副ボリュームへ行われたライトリクエストのライト位置は、後ほど説明するペア再同期のために差分ビットマップに記録される。
その後のI/Oリクエストの処理はDuplex状態とほぼ同様である。Duplex状態との違いは、バックグラウンドコピー処理が動作しない点である。
<ペア作成>
正ボリュームと副ボリュームがペア関係にない状態をSimplex状態と呼ぶ。Simplex状態からDuplex状態に遷移させるための処理をペア作成と呼ぶ。ペア状態がSimplex状態からDuplex状態に遷移している過渡状態をInitial‐Copying状態と呼ぶ。
ペア作成の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施する。
(1)ホスト14000は機能I/Fを介して、ストレージ装置15000Aに対してペア作成指示を出す。この結果アクティブ側及びスタンバイ側の両ストレージ装置15000A,15000Bでペア作成処理が開始される。
(2)両ストレージ装置15000A,15000Bはペア状態をInitial−Copying状態に設定し、差分ビットマップ上のビットを全てオンにし、バックグラウンドコピーを開始する。
(3)バックグラウンドコピーが差分ビットマップの最後まで完了したら、ストレージ装置15000A,15000Bはペア状態をDuplex状態に設定する。
Initial‐Copying状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
<ペア再同期>
ペア状態をSusupend状態からDuplex状態に遷移させる操作をペア再同期と呼ぶ。ペア状態がSusupend状態からDuplex状態に遷移している過渡状態をDuplex‐Pending状態と呼ぶ。
ペア再同期の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施する。
(1)ホスト14000は機能I/Fを介して、ストレージ装置15000Aに対してペア再同期指示を出す。この結果アクティブ側及びスタンバイ側の両ストレージ装置15000A,15000Bでペア再同期処理が開始される。
(2)両ストレージ装置15000A,15000Bはペア状態をDuplex‐Pendingに設定し、バックグラウンドコピーを開始する。
(3)バックグラウンドコピーが差分ビットマップの最後まで完了したら、ストレージ装置15000A,15000Bはペア状態をDuplex状態に設定する。
Duplex‐Pending状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
(10)第10の実施の形態
本実施の形態では第9の実施の形態とは異なるローカルコピー機能の実施の形態を説明する。本実施の形態の一構成例を図20に示す。
まず、本実施の形態と第9の実施の形態との構成の違いは、外部ストレージ装置16000Bが存在せず、副ボリューム15007A,15007Bの実体がいずれも外部ストレージ装置16000A内の外部ボリューム16001Aとなるようにマッピングされている点である。その他の構成は第9の実施の形態と同様である。
このように構成することにより、副ボリューム15007A,15007Bに必要とされる物理的な記憶装置を削減することができる。
本実施の形態と第9の実施の形態の処理動作との大きな違いはスタンバイ側のストレージ装置15000Bが外部ボリューム16001Aに対するバックグラウンドコピーを行なわず、ストレージ装置15000Aとの通信により、ペアに関する制御情報であるペア状態と差分ビットマップ15010Bのみを操作する点である。
以下では処理動作を詳細に説明する。
<Duplex状態における動作>
以下ではDuplex状態におけるリード/ライト処理について述べる。
まず、リード処理は第9の実施の形態でのリード処理と同様である。
次にライト処理について説明する。アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能により、(リード対象の正ボリューム15006Aに関して)アクティブ側のストレージ装置がストレージ装置15000A及びストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにライトリクエストを発行する。ライトリクエストを受信したストレージ装置15000Aは、ライトデータを受信し、図示しないキャッシュメモリにライトデータを格納すると共にライトデータに対応する差分ビットマップ15010Aのビットを1(オン)に設定する。
その後、当該ライトデータは同期リモートコピー機能により、ストレージ装置15000A内の正ボリューム15006Aからストレージ装置15000B内の正ボリューム15006Bにコピーされる。なお、同期リモートコピーの方法はこれまで説明した通りである。同期リモートコピー機能によりストレージ装置15000Aからライトデータを受信したストレージ装置15000Bは、図示しないキャッシュメモリにライトデータを格納すると共にライトデータに対応する差分ビットマップ15010Bのビットを1(オン)に設定する。その後、ストレージ装置15000Bはストレージ装置15000Aに対してライト完了報告に送信し、ライト完了報告を受信したストレージ装置15000Aはホスト14000に対してライト完了報告を送信する。
なお、ストレージ装置15000Aの正ボリューム15006Aにライトされたデータは、正ボリューム15006Aへのライトとは非同期に副ボリューム15007Aへバックグラウンドコピーされる。第9の実施の形態でのライト処理と異なり、ストレージ装置15000Bの正ボリューム15006Bにライトされたデータはバックグラウンドコピーされない。
ストレージ装置15000Aにおけるバックグラウンドコピーは、差分ビットマップ15010Aを定期的に監視し、差分あり(すなわちビットがオン)と記録された領域のデータを正ボリューム15006Aから副ボリューム15007Aへコピーし、コピーが終了したらビットをクリア(オフ又は0に)することにより行なわれる。なお、本実施の形態では、第9の実施の形態でのライト処理と異なり、ストレージ装置15000Bにおいてはバックグラウンドコピーが行なわれない。
その後、第9の実施の形態でのライト処理と異なり、ストレージ装置15000Aはクリアした差分ビットマップ15010A上のビットの位置情報をストレージ装置15000Bに通知する。通知を受信したストレージ装置15000Bは当該ビットに対応するストレージ装置15000B内の差分ビットマップ15010B上のビット(差分ビット)をクリアする。なお、差分ビットの位置情報の通知はストレージ装置15000B内のコマンドデバイスを介して行なわれる。また、本実施の形態における構成では、コマンドデバイスを介して通知を行なったが、ストレージ装置15000A,15000B間がLANで接続された構成である場合は、LANを介した通信により通知を行なってもよい。以後、ストレージ装置15000Aとストレージ装置15000Bとの間における、差分ビットやペア状態等といった機能の制御情報に関する通信はコマンドデバイスやLANを介して行うものとする。
何らかの障害が発生し、アクティブ側の正ボリューム15006Aに対するI/Oリクエストが処理できなくなった場合、オペレーティングシステム14001は、第9の実施の形態と同様に、I/Oリクエストの対象を正ボリューム15006Bに切り替えてアクセスを継続する。
<ペアSplitとSplit状態の動作>
ホスト14000はローカルコピーのDuplex状態のペアをSplit状態にする場合、第9の実施の形態と同様にペアSplitを行なう。なお、ペアSplitにおいては、バックグラウンドコピーの終了処理が行なわれるが、本実施の形態ではストレージ装置15000Bにおいては、バックグラウンドコピーは動作していないため、実際には終了処理は行なわれない。
その後のI/Oリクエストの処理はDuplex状態とほぼ同様である。Duplex状態との違いは、ストレージ装置15000Bにおいてバックグラウンドコピー処理が動作しない点である。
<ペア作成>
ペア作成の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施されるのは第9の実施の形態と同様である。
(1)ホスト14000は機能I/Fを介して、ストレージ装置15000Aに対してペア作成指示を出す。この結果アクティブ側及びスタンバイ側の両ストレージ装置15000A,15000Bでペア作成処理が開始される。
(2)両ストレージ装置15000A,15000Bはペア状態をInitial−Copying状態に設定する。ストレージ装置15000Aは差分ビットマップ15010A上のビットを全てオンにし、バックグラウンドコピーを開始する。第9の実施の形態と異なり、ストレージ装置15000Bは差分ビットマップ15010B上のビットを全てオンにするが、バックグラウンドコピーを行なわない。
(3)ストレージ装置15000Aはバックグラウンドコピーが完了した領域に対応する差分ビットをクリアする処理とそれに付随する動作(差分ビットの位置情報の通知と差分ビットのクリア)はDuplex状態における動作と同様である。
(4)第9の実施の形態と異なり、ストレージ装置15000Aは、バックグラウンドコピーが差分ビットマップ15010Aの最後まで完了したら、ペア状態をDuplex状態に設定し、ペア状態がDuplex状態に変わったことをストレージ装置15000Bに通知する。通知を受信したストレージ装置15000Bはペア状態をDuplex状態に設定する。
Initial‐Copying状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
<ペア再同期>
ペア再同期の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施されるのは第9の実施の形態と同様である。
(1)ホスト14000は機能I/Fを介して、ストレージ装置15000Aに対してペア再同期指示を出す。この結果アクティブ側及びスタンバイ側の両ストレージ装置15000A,15000Bでペア再同期処理が開始される。
(2)ストレージ装置15000Aはペア状態をDuplex‐Pendingに設定し、バックグラウンドコピーを開始する。第9の実施の形態と異なり、ストレージ装置15000Bにおいては、バックグラウンドコピーは行なわない。
(3)ストレージ装置15000Aは、バックグラウンドコピーが差分ビットマップ15010Aの最後まで完了したら、ペア状態をDuplex状態に設定する。ただし、第9の実施の形態と異なり、この処理を行なうのはストレージ装置15000Aのみである。その後、ストレージ装置15000Aは、ペア状態がDuplex状態に変わったことをストレージ装置15000Bに通知する。通知を受信したストレージ装置15000Bはペア状態をDuplex状態に設定する。
Duplex‐Pending状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
(11)第11の実施の形態
AOU(Allocation On Use)機能の構成について述べる。AOU機能はホストから使用された(ライトされた)領域に関してのみ実記憶領域を割り当てる機能である。
AOU機能はデータが実際に格納される実ボリュームの集合体であるプールと、ホストに見せるボリュームである仮想ボリュームから構成される。本実施の形態における仮想ボリュームはライトが行われた部分のみ実データが割り当てられるという意味で仮想的である。ホストに見せているボリュームの全アドレス空間に実データが割り当てられている訳ではない。なお、実ボリュームは外部ストレージ装置内にあってもよいし、仮想ボリュームと同じストレージ装置内にあってもよい。
図21はAOU機能の一実施の形態を示したものである。図21においては、ホスト14000はストレージ装置15000Aとストレージ装置15000Bに接続されている。また、ストレージ装置15000Aは外部ストレージ装置16000Aと接続され、ストレージ装置15000Bは外部ストレージ装置16000Bと接続されている。
本実施の形態は実ボリューム16002Aが外部ストレージ装置16000A,16000B内にある構成例を示している。仮想ボリューム15008A内のデータはプール16003Aの実ボリューム16002A内のデータと対応付けられる。同様に仮想ボリューム15008B内のデータはプール16003Bの実ボリューム16002B内のデータと対応付けられる。また、仮想ボリューム15008Aと仮想ボリューム15008Bは同期リモートコピー機能により内容が一致するように構成される。同期リモートコピーの方法はこれまで説明したとおりである。
次に本構成におけるリード/ライト処理について述べる。なお、以下のリード/ライト処理の説明は、リード/ライト処理の対象ボリュームのアクティブ側がストレージ装置15000Aであるという前提である。
まずリード処理について説明する。アプリケーションプログラム14002からリードリクエストを受け付けたオペレーティングシステム14001はパス管理機能によりアクティブ側のストレージがストレージ装置15000A及びストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにリードリクエストを発行する。リードリクエストを受け付けたストレージ装置15000Aは、仮想アドレス実アドレス変換テーブル15009Aを参照し、リードデータにプール16003A内の実領域が割り当てられているか判定する。
前述の判定で実領域が割り当てられている場合、ストレージ装置15000Aは、当該実領域からリードデータを読み出してホスト14000に送信する。アプリケーション14002はオペレーティングシステム14001を介してリードデータを受信する。以上によりリード処理は完了する。
次にライト処理について説明する。アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能によりアクティブ側のストレージ装置がストレージ装置15000Aとストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにライトリクエストを発行する。ライトリクエストを受け取ったストレージ装置15000Aは仮想アドレス実アドレス変換テーブル15009Aを参照し、ライト対象データにプール16003A内の実領域が割り当てられているか判定する(判定200)。
前述の判定で実領域が割り当てられている場合、ストレージ装置15000Aは、ホスト14000からライトデータを受信し、当該実領域に対応する図示しないキャッシュメモリ内の領域にライトデータを格納する。そして、同期リモートコピー機能によりライトデータをストレージ装置15000Bにライトリクエストを送信する。ストレージ装置15000Aからライトリクエストを受信したストレージ装置15000Bは、ライトデータにプール16003A内の実領域が割り当てられているか判定する。ここで、仮想ボリューム15008Aの内容と仮想ボリューム15008Bの内容は同期リモートコピー機能により一致しているため、実領域は割り当てられていると判定される。その後、ストレージ装置15000Bは、ストレージ装置15000Aからライトデータを受信し、当該実領域に対応する図示しないキャッシュメモリ内の領域にライトデータを格納し、ストレージ装置15000Aにライト完了報告を行う。
前述の判定(判定200)で実領域が割り当てられていない場合、ストレージ装置15000Aは、仮想アドレス実アドレス変換テーブル15009Aにライトデータのアドレスを登録し、実領域を確保する。その後、ストレージ装置15000Aは、ホスト14000からライトデータを受信し、当該実領域に対応する図示しないキャッシュメモリ内の領域にライトデータを格納する。そして、同期リモートコピー機能によりライトデータをストレージ装置15000Bにライトリクエストを送信する。
ストレージ装置15000Aからライトリクエストを受信したストレージ装置15000Bは、ライトデータにプール16003B内の実領域が割り当てられているか判定する。ここで、仮想ボリューム15008Aの内容と仮想ボリューム15008Bの内容は同期リモートコピー機能により一致しているため、実領域は割り当てられていないと判定される。その後、ストレージ装置15000Bは、仮想アドレス実アドレス変換テーブル15009Bにライトデータのアドレスを登録し、実領域を確保する。そして、ストレージ装置15000Bは、ストレージ装置15000Bからライトデータを受信し、当該実領域に対応する図示しないキャッシュメモリ内の領域にライトデータを格納した後、ストレージ装置15000Aにライト完了報告を行う。ライト完了報告を受信したストレージ装置15000Aはホスト14000にライト完了報告を行う。ホスト14000がライト完了報告を受信し、ライト処理は完了する。
なお、キャッシュメモリに格納されたデータはキャッシュメモリへの格納とは非同期に実ボリューム16002A,16002Bへライトされる。
何らかの障害により、アプリケーション14002がストレージ装置15000A内の仮想ボリューム15008A経由でのリード/ライト処理が不可能になった場合、オペレーティングシステム14001の提供するパス管理機能は障害を検出し、リード/ライト処理のアクセス経路をストレージ装置15000B内の仮想ボリューム15008B経由に切り替える。仮想ボリューム15008Aの内容と仮想ボリューム15008Bの内容は同期リモート機能により一致しているため、アクセス経路が切り替わっても、継続して正常にリード/ライト処理を行うことができる。
(12)第12の実施の形態
本実施の形態ではAOU機能の第11の実施の形態とは異なる実施の形態について述べる。本実施の形態の一構成例を図22に示す。
まず、本実施の形態と第11の実施の形態との構成の違いは、外部ストレージ装置16000Bが存在せず、仮想ボリューム15008A、15008Bの実領域がいずれも外部ストレージ装置16000A内のプール16003A内の領域に割り当てられている点である。その他の構成は第11の実施の形態と同様である。
なお、本実施の形態はストレージ装置15000A及びストレージ装置15000Bが共通のプールとして、共通の外部ストレージ装置16000A内の実ボリューム16002Aを用いるため、第11の実施の形態と異なり、実ボリューム16002Aが外部ストレージ装置16000A内にある構成に限定される。
このように構成することにより、プールに必要とされる物理的な記憶装置(HDDなど)の容量を削減することができる。
本実施の形態と第11の実施の形態の処理動作の大きな違いは、スタンバイ側のストレージ装置15000Bがキャッシュメモリから外部ストレージ装置16000A内の実ボリューム16002Aに対してライトを行なわない点と、ストレージ装置15000Aが仮想アドレス実アドレス変換テーブル15009Aへの更新をストレージ装置15000Bに通知し、通知を受けたストレージ装置15000Bが仮想アドレス実アドレス変換テーブル15009Bを更新する点である。
以下では処理動作を詳細に説明する。
まずリード処理は第11の実施の形態におけるリード処理と同様である。
次にライト処理について説明する。アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能によりアクティブ側のストレージがストレージ装置15000A及びストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにライトリクエストを発行する。ライトリクエストを受け取ったストレージ装置15000Aは仮想アドレス実アドレス変換テーブル15009Aを参照し、ライトデータにプール16003A内の実領域が割り当てられているか判定する(判定300)。
前述の判定で実領域が割り当てられている場合、ストレージ装置15000Aは、ホスト14000からライトデータを受信し、当該実領域に対応するキャッシュメモリ内の領域にライトデータを格納する。そして、同期リモートコピー機能によりライトデータをストレージ装置15000Bにライトリクエストを送信する。次に、本実施の形態では、第11の実施の形態と異なり、ストレージ装置15000Aからライトリクエストを受信したストレージ装置15000Bは、即座にストレージ装置15000Aからライトデータを受信し、キャッシュメモリに当該データを格納した後、ストレージ装置15000Aにライト完了報告を行なう。ストレージ装置15000Bからライト完了報告を受信したストレージ装置15000Aはホスト14000に対してライト完了報告を送信する。
前述の判定(判定300)で実領域が割り当てられていない場合、ストレージ装置15000Aは、仮想アドレス実アドレス変換テーブル15009Aにライトデータのアドレスを登録し、実領域を確保する。その後、ストレージ装置15000Aは、ホスト14000からライトデータを受信し、当該実領域に対応するキャッシュメモリ内の領域にライトデータを格納する。そして、ストレージ装置15000Aは、同期リモートコピー機能によりライトデータをストレージ装置15000Bにライトリクエストを送信する。
次に、本実施の形態では、第11の実施の形態と異なり、ストレージ装置15000Aからライトリクエストを受信したストレージ装置15000Bは、即座にストレージ装置15000Aからライト対象データを受信し、キャッシュメモリに当該データを格納した後、ストレージ装置15000Aにライト完了報告を行なう。ストレージ装置15000Aは、ストレージ装置15000Bからライト完了報告を受信した後、仮想アドレス実アドレス変換テーブル15009Aへの変更内容をストレージ装置15000Bに送信する。
仮想アドレス実アドレス変換テーブル15009Aへの変更内容を受信したストレージ装置15000Bは、同様の変更を仮想アドレス実アドレス変換テーブル15009Bに対して行なう。これによりストレージ装置15000B内の仮想ボリューム15008B内の当該ライト領域の実領域が共通の外部ストレージ装置16000Aの実ボリューム16002A内の(ストレージ装置15000Aにより割り当てられた)実領域にマッピングされることになる。ストレージ装置15000Bは仮想アドレス実アドレス変換テーブル15009Bを更新した旨をストレージ装置15000Aに通知する。その後、通知を受信したストレージ装置15000Aはホスト14000に対してライト完了報告を行なう。なお、ストレージ装置15000Aは(1)同期リモートコピーのデータ送信と、(2)仮想アドレス実アドレス変換テーブル15009Aへの変更内容の送信を同時に行い、(1)及び(2)の処理の完了報告を受信した後ホスト14000に対してライト完了報告を行なってもよい。その後、ホスト14000がライト完了報告を受信し、ライト処理は完了する。
なお、ストレージ装置15000A内のキャッシュメモリに格納されたデータはキャッシュメモリへの格納とは非同期に、ストレージ装置15000Aにより実ボリューム16002Aへライト(デステージ)される。デステージが完了した後、ストレージ装置15000Aはストレージ装置15000Bにその旨を通知する。通知を受けたストレージ装置15000Bは当該ライトに対応するキャッシュメモリの領域を破棄する。なお、破棄せずに当該ライトに対応するキャッシュメモリの領域の属性をクリーン(キャッシュメモリの内容と記憶装置(HDDなど)内のデータの内容が一致している状態)としてもよい。
何らかの障害により、アプリケーション14002がストレージ装置15000A内の仮想ボリューム15008A経由でのリード/ライト処理が不可能になった場合、オペレーティングシステム14001の提供するパス管理機能は障害を検出し、リード/ライト処理のアクセス経路をストレージ装置15000B内の仮想ボリューム15008B経由に切り替える。仮想ボリューム15008Aの内容と仮想ボリューム15008Bの内容は同期リモート機能により一致しているため、アクセス経路が切り替わっても、継続して正常にリード/ライト処理を行うことができる。
(13)第13の実施の形態
本実施の形態ではストレージ装置内のボリュームに論理スナップショット機能を適用した場合の例を説明する。
論理スナップショット機能とは、ローカルレプリケーションと類似した機能であり、ユーザーの指示時点の複製データをホストに提供する機能である。しかし、複製データを有する副ボリュームは、プールに属する実ボリュームの領域に保存された複製作成指示以後のライトデータと、正ボリュームのデータを用いて提供される仮想的な存在である。仮想的な副ボリュームの実体は実ボリュームの集合体であるプールに保持される。正ボリュームと副ボリュームの関係をスナップショットペアもしくは単にペアと呼ぶこともある。論理スナップショット機能においては、静止化ポイントにおける正ボリュームの内容と同一の内容の論理ボリュームが実際に作成される訳ではないという意味で、副ボリュームは仮想的である。論理スナップショット機能は先に説明したローカルコピー機能とは異なり、正ボリュームのサイズと同一のサイズの副ボリュームが不要である。これにより、副ボリュームの内容を保持するために必要な記憶装置(HDDなど)の容量を削減することが可能である。
本実施の形態ではこの論理スナップショット機能についてもアクティブ側のストレージとスタンバイ側のストレージで連携することで可用性を向上させることができる。
図23はスナップショット機能の一実施の形態を示したものである。図23においては、ホスト14000はストレージ装置15000Aとストレージ装置15000Bに接続されている。また、ストレージ装置15000Aは外部ストレージ装置16000Aと接続され、ストレージ装置15000Bは外部ストレージ装置16000Bと接続されている。また、スナップショット機能及び差分ビットマップ(静止化ポイントにおける正ボリューム15006A,15006Bと現時点における正ボリューム15006A,15006Bの間の差分の有無を示す情報)15010A,15010Bと仮想アドレス実アドレス変換テーブル(仮想的な副ボリューム15007A,15007Bの実体の位置を管理するテーブル)15009A,15009Bがストレージ装置15000Aとストレージ装置15000Bにて実行及び管理される。更に、ストレージ装置15000A内の正ボリューム15006Aとストレージ装置15000B内の正ボリューム15006Bはリモートコピーのペアとなるように構成される。
本実施の形態は正ボリューム15006A,15006Bがストレージ装置15000A,15000B内にあり、プール16003A,16003Bが外部ストレージ装置16000A,16000B内にある構成例を示している。なお、プール16003A,16003Bはストレージ装置15000A,15000B内にあってもよい。
<論理スナップショット作成指示>
ホスト14000を利用するユーザーが論理スナップショット作成を指示すると、前記実施の形態に記載の方式によって、アクティブ側のストレージ装置15000Aとスタンバイ側のストレージ装置15000Bに作成指示を発行する。作成指示を受信したストレージ装置15000A,15000Bは当該指示を受けて、仮想的な副ボリューム15007A,15007Bを準備し、この副ボリューム15007A,15007Bに全て0(差分なしの意味)の差分ビットマップ15010A,15010Bと仮想アドレス実アドレス変換テーブル15009A,15009Bとを割り当てる。
<正ボリュームに対するリード処理>
これまで述べた実施の形態と同じである。
<正ボリュームに対するライト処理>
アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能により、(ライト対象の正ボリュームに関して)アクティブ側のストレージがストレージ装置15000A及びストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにライトリクエストを発行する。ライトリクエストを受信したストレージ装置15000Aは、ライト対象アドレスの差分ビットマップ15010Aをチェックする。結果、1であればキャッシュメモリに正ボリューム15006Aのライトデータとして、格納する。一方、0の場合は正ボリューム15006Aの更新前のデータを副ボリューム15007A用のデータとして用いるための以下に示すCopy‐On‐Write処理を行う。
(Step1)プール16003Aに属する実ボリューム16002Aの記憶領域を確保する。
(Step2)正ボリューム15006Aから当該記憶領域へ更新前データをキャッシュメモリを利用しつつコピーする。
(Step3)退避する更新前データの保存先を管理するプール管理情報を更新し、当該データがプール16003A内の実ボリューム16002Aのどの領域に保存されたかわかるようにする。
(Step4)受信したライトデータをキャッシュメモリに正ボリューム15006Aの当該アドレス宛のデータとして保存し、ライト完了応答を返す。
これと並行して、当該ライトデータはリモートコピー機能により、ストレージ装置15000A内の正ボリューム15006Aからストレージ装置15000B内の正ボリューム15006Bにコピーされ、同様の処理がなされる。そのため、各ストレージ装置15000A,15000Bはそれぞれで仮想アドレス実アドレス変換テーブル15009A,15009Bや差分ビットマップ15010A,15010Bの管理を行う。
<副ボリュームに対するリード処理>
アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能により、(リード対象の副ボリュームに関して)アクティブ側のストレージがストレージ装置15000A及びストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにリードリクエストを発行する。リードリクエストを受信したストレージ装置15000Aは、正ボリューム15006Aに対して記録していた差分ビットマップ15010Aをチェックする。結果、リード対象アドレスのビットが0であれば正ボリューム15006Aの同じアドレスに保存されたデータをホスト14000へ返し、オペレーティングシステム14001は当該データをアプリケーション14002へ返す。一方、リード対象アドレスのビットが1の場合は仮想アドレス実アドレス変換テーブル15009Aを参照して、正ボリューム15006Aのリード対象アドレスに関する更新前のデータの場所を決定し、プール16003Aに属する実ボリューム16002Aからデータをホスト14000(アプリケーション14002)へ返す。
<副ボリュームに対するライト処理>
アプリケーションプログラム14002からライトリクエストを受け付けたオペレーティングシステム14001はパス管理機能により、(ライト対象の副ボリュームに関して)アクティブ側のストレージがストレージ装置15000Aとストレージ装置15000Bのどちらかを判断し、アクティブ側のストレージ装置15000Aにライトリクエストを発行する。ライトリクエストを受信したストレージ装置15000Aは、正ボリューム15006Aに割り当てられたライト対象アドレスの差分ビットマップ15010Aをチェックする。結果、1であれば仮想アドレス実アドレス変換テーブル15009Aを参照することで、正ボリューム15006Aの当該アドレスの更新前データが保存されたプール16003A内の実ボリューム16002Aの記憶領域を探し、当該領域へライトデータを保存する。一方、0の場合は以下の処理を行う。
(A)プール16003Aに属する実ボリューム16002Aの領域を確保する。
(B)確保した領域にライトデータを保存し、仮想アドレス実アドレス変換テーブル15009Aを更新することで当該ライトデータがプール16003A内の実ボリューム16002Aのどの領域に保存されたかわかるようにする。
(C)差分ビットマップ15010Aの当該アドレスに対応するビットを1に更新する。
これと並行して、当該ライトデータはリモートコピー機能により、ストレージ装置15000A内の正ボリューム15006Aからストレージ装置15000B内の正ボリューム15006Bにコピーされ、同様の処理がなされる。そのため、各ストレージ装置15000A,15000Bはそれぞれで仮想アドレス実アドレス変換テーブル15009A,15009Bや差分ビットマップ15010A,15010Bの管理を行う。
<Copy‐After‐Write処理>
ストレージ装置15000A,15000Bは、正ボリューム15006A,15006Bに対するライト時に実行されるCopy‐On‐Write処理の代わりとして以下に示すCopy‐After‐Write処理を実行してもよい。
(Step1)受信したライトデータをキャッシュメモリに正ボリューム15006A,15006Bの当該アドレス宛のデータとして保存し、ライト完了応答を返す。ただし、当該ライトデータのデステージングは抑制する。
(Step2)プール16003A,16003Bに属する実ボリューム16002A,16002Bの記憶領域を確保する。
(Step3)正ボリューム15006A,15006Bから当該記憶領域に更新前データをキャッシュメモリを利用しつつコピーする。
(Step4)退避した更新前データの保存先を管理するプール管理情報を更新し、当該データがプール16003A,16003B内の実ボリューム16002A,16002Bのどの領域に保存されたかわかるようにする。
(Step5)抑制していたライトデータのデステージを許可する。
<障害>
何らかの障害が発生し、アクティブ側の正ボリューム15006A及び副ボリューム15007Aに対するI/Oリクエストが処理できなくなった場合には、すでに説明した通り、オペレーティングシステム14001は、I/Oリクエストの対象を正ボリューム15006B及び副ボリューム15007Bに切り替えてアクセスを継続することができる。なお、前述の通り、好ましくはスナップショット機能の正ボリューム15006A,15006B及び副ボリューム15007A,15007Bは同一のストレージ装置15000A,15000Bに対してライトリクエストを発行したいため、正ボリューム15006A,15006Bに対する切り替えが必要な場合は副ボリューム15007A,15007Bも同時に行い、逆に副ボリューム15007A,15007Bに対する切り替えが必要な場合は正ボリューム15006A,15006Bに対しても切り替えを行う連携を行うことがこのましい。
(14)第14の実施の形態
本実施の形態では、第13の実施の形態とは異なる論理スナップショット機能の実施の形態を説明する。図24に本実施の形態の一構成例を示す。
まず、本実施の形態と第13の実施の形態との構成の違いは、外部ストレージ装置16000Bが存在せず、仮想的な副ボリューム15007A,15007Bの実領域がいずれも外部ストレージ装置16000A内のプール16003A内の領域に割り当てられている点である。その他の構成は第13の実施の形態と同様である。
なお、本実施の形態はストレージ装置15000Aとストレージ装置15000Bが共通のプール16003Aとして、共通の外部ストレージ装置16000A内の実ボリューム16002Aを用いるため、第13の実施の形態と異なり、実ボリューム16002Aが外部ストレージ装置16000A内にある構成に限定される。
このように構成することにより、プール16003Aに必要とされる物理的な記憶装置(HDDなど)の容量を削減することができる。
本実施の形態と第13の実施の形態の処理動作の大きな違いは以下の通りである。
(A)通常時はスタンバイ側のストレージ装置15000Bがキャッシュメモリから外部ストレージ装置16000A内の実ボリューム16002Aに対してライトを行なわない代わりに、アクティブ側のストレージ装置15000Aが正ボリューム15006A、副ボリューム15007A、プール16003A内の実ボリューム16002Aに対応するデータをデステージングする時にスタンバイ側のストレージ装置15000Bにこれを伝え、スタンバイ側のストレージ装置15000Bではこれによってキャッシュメモリ上のデータを破棄する。
(B)ストレージ装置15000Aが仮想アドレス実アドレス変換テーブル15009Aへの更新をストレージ装置15000Bに通知し、通知を受けたストレージ装置15000Bが仮想アドレス実アドレス変換テーブル15009Bを更新する。
また、(A)の処理に変えて、副ボリューム15007A,15007B又はプール16003A内の実ボリューム16002Aに対応するデータについてはキャッシングを無効化してもよい。この場合、前述のCopy‐On‐ライト処理による更新前データ退避では正ボリューム15006A,15006Bに対するライト完了までにプール16003A内の実ボリューム16002Aへの退避データ保存が含まれるため、性能が悪化するが、Copy‐After‐ライト方式ではそれが無いため、好適である。
以上、本発明の幾つかの実施態様を説明したが、これらの実施の形態は本発明の説明のための例示にすぎず、本発明の範囲をそれらの実施の形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱することなく、その他の様々な態様でも実施することができる。例えば、HDD1030やキャッシュメモリ1020の代わりに不揮発性メモリを使用することができる。不揮発性メモリとしては、例えば、フラッシュメモリ(具体的には、例えば、NAND型フラッシュメモリ)、MRAM(Magnetoresistive Random Access Memory)、PRAM(Parameter Random Access Memory)など、種々の不揮発性メモリを採用することができる。
(15)第15の実施の形態
図1との対応部分に同一符号を付して示す図28は、仮想化機能を持つネットワークスイッチ(仮想化スイッチ)28000L,28000Rを適用した場合の実施の形態を示した概要図である。
<1.本実施の形態のハードウェア構成>
仮想化スイッチ28000L,28000Rは、複数のネットワークポートを持ち、ネットワークポート制御用のプロセッサが各ポートの転送制御や障害の検知や後術する仮想化を行う。なお、本概要図には図示されていないが、図1について上述した第1の実施の形態と同様に仮想化スイッチ28000L,28000Rには管理ホストが接続され、この管理ホストを介して仮想化スイッチ28000L,28000Rに対する設定を行ったり、仮想化スイッチ28000L,28000R間の設定コピーを行うことができる。なお、その他コンポーネントについては第1〜第14の実施の形態と同じであるため、説明を省略する。
<2.仮想化スイッチを用いた本実施の形態の特徴>
仮想化スイッチ28000L,28000Rが提供する仮想化は第1〜第14の実施の形態と異なる以下の特徴を持つ。
(特徴1)仮想的なWWN(又はポートネーム)を提供できる。ファイバーチャネルスイッチのポートはFポート又はEポートと呼ばれ、通常のホストやストレージが持つNポート(通信の始点又は終点となることを意味する)とは異なる属性を持つ。そのため、仮想化スイッチ28000L,28000Rにおいて仮想化を行う場合、内部で実際に接続されていない仮想的なWWNを仮想化スイッチ28000L,28000Rの両方で作成・提供すれば、ホスト1100上のソフトウェアが明示的にI/Oパスを切り替える必要がなくなる。なお、より具体的にはファイバーチャネルの通信は前述のポートネームによって行われるが、これはファイバーチャネルスイッチが割り当てる識別子であり、識別子内部にはルーティング用に用いられるスイッチを識別するための情報が含まれている。そのため、両仮想化スイッチ28000L,28000Rは、ホスト1100に対して、仮想的なWWNを持つNポートが仮想的なスイッチを経由して両仮想化スイッチ28000L,28000Rに接続されているかのごとく模擬できるように、ポートネームを割り当てて、ルーティングを行う。
(特徴2)スイッチでキャッシングを行わない。ファイバーチャネルスイッチは、通常、制御ヘッダだけ参照して転送先を決定し、データのバッファリングを行わない、いわゆるカットスルー方式で転送制御を行うため、仮想化機能を提供する場合もキャッシングを行わないことが多い。なお、キャッシングを行う場合は、本特徴が関係する処理についてはこれまで説明してきた実施の形態と同様の処理によって実現される。また、キャッシングを行わない場合の仮想化スイッチ28000L,28000Rのリード/ライト処理は、I/Oリクエストを受け付けてからストレージ装置1500Lへのリクエスト処理転送及び処理完了を待ってホスト1100に処理完了が返る、ライトスルー型の制御に類似したものと考えることができる。
(特徴3)本実施の形態での高可用化は両方の仮想化スイッチ28000L,28000Rに同じ仮想化の設定を行うだけでよい。これは仮想化スイッチ28000L,28000Rにてキャッシングを行っていないために可能となる。なお、仮想化スイッチ28000L,28000Rがリモートコピーやローカルコピーを行う場合、差分ビットマップ等スイッチ内部に存在する情報がある場合は、これまでの実施の形態と同じく、正系と副系の両方で内部情報を保持する必要がある。
なお、ここまで仮想化スイッチ28000L,28000Rはファイバーチャネルスイッチであるものとして説明を行っているが、仮想化スイッチ28000L,28000RがEthernet(登録商標)や、iSCSI又はTCP/IPを用いたものでもよい。この場合、WWNがMACアドレスで、ポートネームがIPアドレスに対応するものとすることができるが、Ethernet(登録商標)やTCP/IPの場合は仮想的なスイッチを提供せずに、直接仮想的なポートとそれに割り当てたIPアドレスを外部へ提供し、当該IPアドレスに対するルーティングを行えばよい。
(16)第16の実施の形態
次に、第16の実施の形態について説明する。本実施の形態は第11の実施の形態及び第12の実施の形態にて説明したAOU機能を高可用化構成の仮想化ストレージ装置が提供することに関する発明である。なお、以下において説明していない機能等については、第1〜第15の実施の形態による情報システムと同様の構成を有する。
前述の通り、AOU機能とは仮想化ストレージ装置が当該機能によってホスト1100へ提供するボリューム(以後AOUボリュームと呼ぶ)について、使用開始時からAOUボリュームの全アドレスに対してHDDの記憶領域を割り当てるのではなく、ホスト1100がライトを行ったアドレスに対してHDDの記憶領域(より正確にはHDDから構成されるボリューム(プールボリュームと呼ぶ)の記憶領域の一部又は全て)を割り当てる機能である。AOU機能はHDDを有効利用することができる。なぜならば、ホスト1100で動作するファイルシステムの一部の種類ではアクセス継続中に動的なデータ容量拡張ができないため、ホスト1100の管理者は将来利用する可能性のあるデータ容量も含めてボリュームの容量設定を行う。そのため、従来技術ではボリュームの容量設定を行った時点では使用せず、また将来も確実に使うとは限らないHDDを搭載していなければならなかったからである。
なお、HDD容量の有効利用の観点から考えた場合、AOUボリュームにライトが発生する前の領域に対してプールボリュームの領域が未割り当ての状態であったほうがよいが、他の目的(高性能化等)がある場合はこれに限られない。
<1.本実施の形態の概要>
図1との対応部分に同一符号を付した図29に本実施の形態の概要を示す。本実施の形態による情報システムは、2台の仮想化ストレージ装置1000L,1000Rが共通のストレージ装置1500Lと接続されている。そして、高可用化された2台の仮想化ストレージ装置1000L,1000RがAOU機能を有することで、情報システムのサービス停止時間を短縮している。なお、特に記載しない限り、ストレージ装置1500Lは両方の仮想化ストレージ装置1000L,1000Rからアクセス可能な状態、言い換えれば共有された状態にあるものとするが、共有されていないストレージ装置が存在して当該ストレージ装置内のボリュームをAOUの記憶領域として用いてもよい。また図29には図示していないが、本実施の形態の場合、第1の実施の形態と同様に、仮想化ストレージ装置1000L,1000Rには管理ホスト1200(図1)が接続されている。
ここでは、これまでに説明してきた実施の形態と異なる部分を中心に述べていく。2台の仮想化ストレージ装置1000L,1000Rは、AOUアドレス変換情報31030L,31030Rを用いてAOUボリューム29010L,29010Rを生成し、これをホスト1100に提供する。AOUアドレス変換情報31030L,31030Rには、AOUボリューム29010L,29010Rのアドレス空間と仮想化ストレージ装置1000L,1000R内のプールボリュームの領域又はストレージ装置1500L内のプールボリュームの領域との対応関係が含まれる。
ホスト1100からAOUボリューム29010Lに対してライトリクエストが発行されると、正系の仮想化ストレージ装置1000Lは、リクエスト対象のアドレス範囲にプールボリュームの領域が割り当てられているか判断し、割り当てられていない場合は仮想化ストレージ装置1000L又はストレージ装置1500Lが有するプールボリュームの領域を割り当てる。そしてライトリクエストが処理されることで、正系の仮想化ストレージ装置1000Lのキャッシュ領域にライトデータが保存される。また、AOUボリューム29010Lに対するライトデータは同期リモートコピーによって副系の仮想化ストレージ装置1000Rへ転送され、正系と同様にキャッシュ領域にライトデータが保存される。
その後、両方の仮想化ストレージ装置1000L,1000Rはデステージング処理を行うが、ストレージ装置1500Lに対応したライトデータに対しては仮想化ストレージ装置1000L,1000Rの片方だけがデステージングを行う。なぜならば、両方の仮想化ストレージ装置L,1000Rが独立にライトデータのデステージングを行うと、ストレージ装置1500Lに保存されるデータが不整合な状態(例えば、最後にライトしたデータが消えて、前回のライトデータに戻ってしまう等のデータ消失やライト順序の不整合がある)になってしまうからである。そのため、デステージングが必要になる前に予めどちらの仮想化ストレージ装置1000L,1000Rがデステージングを行うか決めておく必要がある。本実施の形態ではその一例として正系の仮想化ストレージ装置1000Lがデステージングを行う場合について説明を行うが、副系の仮想化ストレージ装置1000Rが行ってもよく、又はデステージング対象のアドレス空間を元にどちらの仮想化ストレージ装置1000L,1000Rが当該役割を担うか決定してもよい。
リードリクエストの場合も、正系の仮想化ストレージ装置1000Lは、まずはリクエスト対象のアドレス範囲にプールボリュームの領域が割り当てられているかどうかを判断する。判断の結果、割り当てられている領域に対しては、仮想化ストレージ装置1000Lは、該当するプールボリュームの領域(図示しないキャッシュメモリ上のデータを含む)からデータを読み出してホスト1100へ転送し、割り当てられていない場合は予め定められた値(例えばゼロ)を返す。
図30は、正系の仮想化ストレージ装置1000Lの機能停止後に副系の仮想化ストレージ装置1000RへI/Oリクエスト処理を切り替えた後の概要図である。本図にあるとおり、副系の仮想化ストレージ装置1000RはAOUアドレス変換情報31030Rを元にストレージ装置1500Lや仮想化ストレージ装置1000L内部のAOUアドレス変換情報31030Rを用いてI/Oリクエストを処理する。そのために、正系と副系の仮想化ストレージ装置1000L,1000Rは、通常時から通信を行うことで、AOUアドレス変換情報31030L,31030Rのストレージ装置1500Lが関係する部分を同じ内容に維持する。これにより副系の仮想化ストレージ装置1000Rは、ストレージ装置1500Lの割り当て状況を引き継ぐことができる。また、副系の仮想化ストレージ装置1000Rは、正系の仮想化ストレージ装置1000L内のキャッシュメモリからデステージングされたデータでない限り、キャッシュメモリに格納されているデータを当該キャッシュメモリから削除しないようにする。これにより、機能停止時に正系の仮想化ストレージ装置1000L内のキャッシュメモリからデータが揮発した場合においてもデータ消失が発生しないようにすることができる。
<2.仮想化ストレージ装置で実行されるプログラム及び情報>
図6との対応部分に同一符号を付した図31は、仮想化ストレージ装置1000L,1000R上で実行されるソフトウェアプログラムと当該プログラムが用いる情報について示している。
この図31において、AOU向けI/O処理プログラム31010は、仮想化ストレージ装置1000L,1000Rが受信したI/Oリクエストを処理するプログラムで、第1〜第14の実施の形態におけるI/O処理プログラム6020(図6)の機能を一部に含む。
AOU管理プログラム31020は、AOU機能に関する設定や後術する重複削除(Deduplication)処理を実行するためのプログラムである。またAOUアドレス変換情報31030は、AOUボリューム29010L,29010Rとプールボリュームの領域との対応関係に関する情報である。さらにAOUプール管理情報31040は、AOU機能が用いるプールボリュームの集合(プール)を管理するための情報である。
<2.1.AOUアドレス変換情報>
図35はAOUアドレス変換情報31010の具体的な内容を示している。仮想化ストレージ装置1000L,1000Rは、ホスト1100へ提供するボリュームの識別子と当該ボリューム内のアドレス空間を先頭から決められた大きさ(セグメントサイズ)に区切った領域(セグメント)のアドレスとでデータの保存領域等を管理する。なお、このセグメントサイズはプール定義時に設定される値である。
図35において、「AOUボリューム識別子」及び「アドレス空間」は、対応するセグメントを含むAOUボリューム29010L,29010Rの識別子と当該AOUボリューム29010L,29010R内における当該セグメントのアドレスとをそれぞれ示す。またプールIDは、そのAOUボリューム29010L,29010Rに領域を割り当てるプールの識別子を示す。
「COW(Copy On Write)フラグ」は、そのセグメントに対するライトリクエストが到着したときに、対応するライトデータを別途確保したプールボリューム領域に保存する必要があるかどうかを示すフラグである。本フラグは、異なるセグメントが同じプールボリュームの領域に対応付けられていた場合に、ライトデータを他のプールボリュームに保存する必要があることを意味する「ON」となることがある。
「プールボリューム領域識別子」は、そのセグメントが保存すべきデータを実際に保存しているプールボリューム領域の識別子を示す情報(識別情報)である。この識別情報は例えば以下の情報から構成される。
(1)仮想化ストレージ装置1000L,1000Rの内部のボリュームの領域を用いている場合は、内部ボリュームの識別子及びアドレス範囲。
(2)ストレージ装置1500L内のボリュームの領域をもちいている場合は、ポートネーム等の装置又は通信先を識別する情報、LUN等の装置内のボリュームを識別する情報、及びアドレス範囲。
(3)未割り当て領域の場合はNULL
「引継ぎ領域」は、対応する「プールボリューム領域識別子」の欄に識別子が記載されたプールボリュームが正系と副系の仮想化ストレージ装置1000L,1000Rの両方から管理されるかどうかを示す情報(両方から管理される場合は「Yes」、両方から管理されない場合は「No」)である。
「対AOUボリューム識別子」は、対応するAOUボリューム識別子で特定されるボリュームと対を形成するAOUボリューム29010L,29010Rの識別子が保持される。この識別子としては、対応する仮想化ストレージ装置1000L,1000Rの識別子と、対応するAOUボリューム29010L,29010Rの識別子とを組み合せたものが用いられる。
なお、上述のようにAOUの領域管理をセグメントを単位として行うのは、ブロック単位で管理するとAOUアドレス変換情報31030等の管理情報が大きくなりすぎてしまうためにI/O性能が悪化してしまうことが理由の一つである。
<2.2.AOUプール管理情報>
図36は、AOUプール管理情報31040の具体的な構成を示している。AOUプール管理情報31040はプール毎に以下の情報を保持する。
(1)セグメントサイズ
(2)プールに割り当てられたボリューム(プールボリューム)のリスト
(3)プールボリュームの領域で割り当てられていない領域のリスト
(4)空き容量
(5)容量が不足してきたことを警告するアラートを出すスレッショルド値
(6)プール対の相手が設定された仮想化ストレージ装置の識別子と当該装置内のプールID。なお、「プール対」については後ほど説明する。
<3.初期化>
本実施の形態の初期化は以下の手順で行われる。
1.プールの初期化
2.AOUボリュームの生成
3.AOUボリューム同士の関連付け
4.同期リモートコピーの設定
以下に、その詳細について説明する。なお、以下においては、一部処理の処理主体を「管理ホスト」や「プログラム」として説明しているが、「管理ホスト」の部分については、その管理ホスト内のプロセッサが当該管理ホスト内のメモリに格納された対応するプログラムに基づいてその処理を実行し、「プログラム」の部分については、対応する仮想化ストレージ装置1000L,1000R内のプロセッサ1011がそのプログラムに基づいて処理を実行することは言うまでもない。
<3.1.プールの初期化>
以下の手順で初期化を行う。
(Step1)管理ホスト1200からの指示によって、仮想化ストレージ装置1000L,1000Rの片方で実行されるAOU管理プログラム31020は、プールを作成する。このとき、当該指示にはセグメントサイズが含まれる。また、プール作成の過程で、AOU管理プログラム31020はプールIDを含むAOUプール管理情報31040の該当エントリを作成する。
(Step2)Step1と同様の処理によって、仮想化ストレージ装置1000R,1000Lのもう片方にもプールを作成する。
(Step3)管理ホスト1200は、仮想化ストレージ装置1000L,1000Rの両方に対して、Step1とStep2で作成したプールをプール対に設定すべき指示を発行する。当該指示にはプール対となるプールのIDと、そのプールを提供する仮想化ストレージ装置1000L,1000Rの識別子との組が含まれる。当該指示を受信したAOU管理プログラム31020は、プール対となる相手の仮想化ストレージ装置1000L,1000RのAOU管理プログラム31020と通信を行い、両プールに設定されたセグメントサイズが等しく、両プールとも既にプール対になっていないことが確認できたときに、それらプールをプール対に設定する。なお、AOU管理プログラム31020は、かかるプールをプール対に設定するに際して、相手のプールIDの識別子をAOUプール管理情報31040に登録する。
(Step4)管理ホスト1200は、プールボリューム作成の指示を仮想化ストレージ1000L,1000Rの片方に発行する。なお、当該指示には仮想化ストレージ装置1000L,1000R内部に定義されたボリュームの識別子が含まれている。当該指示を受信した仮想化ストレージ装置1000L,1000RのAOU管理プログラム31020は、指定されたボリュームの属性をプールボリュームに変更し、指定されたボリュームの識別子をAOUプール管理情報31040のプールボリュームリストに追加する。
(Step5)管理ホスト1200は、Step3と同様の指示を仮想化ストレージ装置1000R,1000Lのもう片方へ発行する。指示を受け取った仮想化ストレージ装置1000R,1000Lのもう片方はStep3と同様の処理を行う。
なお、管理者が仮想化ストレージ装置1000内部のボリュームをAOUに用いないと判断した場合はStep4及びStep5は省略することができる。
(Step6)管理ホスト1200は、ストレージ装置1500Lのボリュームをプールボリュームに設定する指示を仮想化ストレージ装置1000L,1000Rのどちらかに発行する。なお、理解を容易にするために、以後の説明では、指示発行先を仮想化ストレージ装置1000L、支持発行先と対の仮想化ストレージ装置1000を仮想化ストレージ装置1000Rであるものとするが、逆の関係であってもよい。ここで、当該指示にはストレージ装置1500Lと当該ボリュームを識別する情報のほかに、当該ボリュームがプール対になっている相手の仮想化ストレージ装置1000Rが引き継ぐことを示す情報が含まれる。指示を受信した仮想化ストレージ装置1000LのAOU管理プログラム31020は、対の仮想化ストレージ装置1000Rと以下に示す連携を行う。
(A)指示を受信した仮想化ストレージ装置1000Lは、指示に含まれるストレージ装置1500Lのボリュームに対してリードリクエスト(又はライトリクエスト)を発行することで、当該ストレージ装置1500L及び当該ボリュームのいずれもが存在し、かつ当該ボリュームにアクセス可能であるかどうか確認する。ストレージ装置1500Lやかかるボリュームが存在しなかったり、当該ボリュームにアクセスができなかった場合は管理ホスト1200にエラーを返し、アクセス可能であった場合は次に進む。なお、当該エラーにはストレージ装置1500Lに対するアクセスができなかったことを示す情報を添付するものとし、この情報を管理ホスト1200において表示するようにしてもよい。
(B)指示を受信した仮想化ストレージ装置1000Lは、対の仮想化ストレージ装置1000Rに対してプールボリューム作成指示を転送する。なお、当該指示には管理ホスト1200からの指示に含まれていた対象ボリュームを識別する情報と、当該ボリュームがプール対に属する両方のプールで管理することを示す情報とが含まれている。なお、プールボリューム作成指示の転送先は、AOUプール管理情報31040における「プール対の識別情報」を参照することで特定できる。
(C)仮想化ストレージ装置1000Rは、(B)の指示を受信すると、(A)と同様の処理を行うことでストレージ装置1500L内のかかるボリュームにアクセス可能であることを確認する。そして、かかるボリュームにアクセス可能ならば、AOUプール管理情報31040のプールボリュームリストに当該ボリュームを共通管理であることを示す情報と共に追加し、前述の指示を受信した仮想化ストレージ装置1000Lへ結果を返す。一方、確認の結果、かかるボリュームにアクセスが不可能だった場合は、対の仮想化ストレージ装置1000Rからストレージ装置1500Lへのアクセスができなかったことを示す情報を添付して失敗を意味する結果を返す。
(D)結果を受け取った前述の指示を受信した仮想化ストレージ装置1000Lは、かかるボリュームへのアクセス結果が失敗だった場合は、理由と共にその結果を管理ホスト1200へ転送し、一連の処理を終了する。一方、かかるボリュームへのアクセス結果が成功だった場合は、この結果をAOUプール管理情報31040のプールボリュームリストに当該ボリュームが共通管理すべきボリュームであることを示す情報と共に追加し、管理ホスト1200へ成功を意味する結果を転送し、終了する。
なお、(C)及び(D)でボリュームをプールボリュームリストに追加した場合、AOU管理プログラム21020は、対応する「空き容量」の欄に格納されていた空き容量を、追加したボリュームの容量を加算した値に更新し、そのボリュームの領域を空き領域リストに追加する。また、Step5の処理は管理ホスト1200から両仮想化ストレージ装置1000L,1000Rの両方に対して別々に指示を発行することで行っても良い。
(Step7)管理ホスト1200は、仮想化ストレージ装置1000L,1000Rの両方に対して容量警告の設定値の設定指示を転送し、当該指示を受信した各仮想化ストレージ装置1000L,1000Rの各々は指示に含まれる値をAOUプール管理情報31040に設定する。
<3.2.AOUボリュームの作成>
AOUボリューム29010L,29010Rの作成は、仮想化ストレージ装置1000L,1000Rの各々に対して指示を出すことで行われる。以下にその手順を示す。
(Step1)管理ホスト1200は、ボリュームの容量とプールIDを伴ったAOUボリューム作成指示を、仮想化ストレージ装置1000L,1000Rの各々へ転送する。
(Step2)当該指示を受信した仮想化ストレージ装置1000Lは、新しいAOUボリューム29010Lに関するAOUアドレス変換情報31030Lを作成する。このとき全てのセグメントについて、対応する「COWフラグ」及び「引継ぎ領域」を「No」に設定し、「プールボリューム領域識別子」も「NULL」に設定する。そして仮想化ストレージ装置1000Lは作成完了応答を返す。
(Step3)同様に、該指示を受信した仮想化ストレージ装置1000Rは、新しいAOUボリューム29010Rに関するAOUアドレス変換情報31030Rを作成する。作成の詳細はStep2と同様である。
なお、AOUボリューム29010L,29010Rの作成は、管理ホスト1200から仮想化ストレージ装置1000L,1000Rのいずれか片方に指示を出し、指示を受けた仮想化ストレージ装置1000L,1000Rが対の仮想化ストレージ装置R,1000Lに指示を出し直してもよい。なお、ボリューム作成指示にポートネームやLUNを含めることでAOUボリューム29010L,29010Rに管理者が指定したポートネーム配下のLUNを割り当ててもよい。また、AOUボリューム29010L,29010Rの作成指示後にポートネームとLUNを割り当ててもよい。
<3.3.AOUボリューム同士の関連付け>
それぞれの仮想化ストレージ装置1000L,1000Rに作成したAOUボリューム29010L,29010R同士を関連付ける。そのために、管理ホスト1200は、仮想化ストレージ装置1000L,1000Rにそれら2つのAOUボリューム29010L,29010Rの識別子を含む関連付け指示を転送する。当該指示を受けた仮想化ストレージ装置1000L,1000Rは、AOUアドレス変換情報31030の該当する「AOUボリューム識別子」の欄に、対となるAOUボリューム29010L,29010Rを登録する。本指示は、それぞれの仮想化ストレージ装置1000L,1000Rに対して行うことでAOUボリューム29010L,29010R同士の関連付けが行われるが、他の実施の形態に開示されている通り、片方の仮想化ストレージ装置1000L,1000Rがもう片方の仮想化ストレージ装置1000R,1000Lに本指示を転送する形で実現してもよい。
なお、上記関連付けの指示の際、指示に含まれるAOUボリューム29010L,29010Rの存在を確認すると共に、AOUボリューム29010L,29010Rの片方がプール対の片方のプールから生成されており、もう片方のAOUボリューム29010R,29010Lがプール対のもう片方のプールから生成されていることを確認することで、プール管理の実装を簡単にしてもよい。また、本関連付けはAOUボリューム29010L,29010Rの作成や同期リモートコピーの設定に伴って行われても良い。
<3.4.同期リモートコピーの設定>
これまで説明した同期リモートコピーではInitial‐Copying状態でボリュームの全ての領域をコピーする必要があったが、本実施の形態では、形成コピーは以下に示す手順で行う。また、理解を簡単にするために、以後の説明では正系の仮想化ストレージ装置1000を仮想化ストレージ装置1000Lとし、副系の仮想化ストレージ装置1000を仮想化ストレージ装置1000Rであるものとして説明する。
(Step1)コピー元となる(すなわち当該ボリュームに対しては正系となる)仮想化ストレージ装置1000Lは、変数iにAOUボリューム29010Lの先頭セグメントを代入する。
(Step2)コピー元の仮想化ストレージ装置1000Lは、AOUアドレス変換情報31030におけるセグメントiの「引継ぎ領域」及び「プールボリューム領域識別子」をそれぞれ確認し、それぞれの条件下で以下の処理をおこなう。
(A)「引継ぎ領域」が「No」の場合には、通常の形成コピーに従ってセグメントiのデータをコピーする。仮想化ストレージ装置1000L内部のプールボリュームの領域のため、冗長性確保のためにコピーしなければならないからである。
(B)「引継ぎ領域」が「Yes」の場合には、セグメントiに関するその仮想化ストレージ装置1000L内の図示しないキャッシュメモリ上のダーティデータをデステージングするか、形成コピーでコピー先(すなわち当該ボリュームに対しては副系となる)仮想化ストレージ装置1000Rのキャッシュ領域へコピーする。キャッシュメモリ上のデータを除けばデータは正系の仮想化ストレージ装置1000Lの外部にあるため、キャッシュメモリ上のデータを当該仮想化ストレージ1000Lの外部へ追い出せば正系の仮想化ストレージ装置1000Lが機能停止しても失うデータはないからである。
(C)「プールボリューム領域識別子」が「NULL」の場合には、セグメントiには正系・副系共に領域が割り当てられていないため、コピーは行わない。
(Step3)コピー元の仮想化ストレージ装置1000Lは、セグメントiが最後の場合は形成コピーを終えてペア状態をDuplex状態に遷移させ、そうでない場合は変数iに次のセグメントを設定してStep1へ戻る。
なお、上記処理は、仮想化ストレージ装置1000L,1000R間の再同期処理で用いてもよく、片方の仮想化ストレージ装置1000L,1000Rが機能停止し、復旧した後の処理で用いてもよい。
<4.I/Oリクエスト処理について>
ここから、本実施の形態のI/Oリクエスト処理について説明する。
<4.1.ライトリクエスト処理>
図32は、AOU向けI/O処理プログラム31010がライトリクエストを受信したときに実行する処理内容を示すフローチャートである。なお、これまでの説明では、ライトリクエストを構成するコマンドとライトデータの個々についてフローチャートを用いた説明はしなかったが、本処理はライトリクエスト対象の一部の領域が割り当て済みで他の領域が未割り当てである場合もあるため、フローチャートを参照しながら詳細に説明する。
(S32001)AOU向けI/O処理プログラム31010は、ライトリクエストを構成するライトコマンドを受信する。このライトコマンドにはアドレス(位置)及びデータ長が含まれる。
(S32100)AOU向けI/O処理プログラム31010は、受信したライトコマンドを元に割り当て処理を実行する。本処理を実行することで、AOU向けI/O処理プログラム31010は、セグメント毎にプールボリュームの領域が割り当てられているか否かをチェックし、プールボリュームの領域が未割り当てのセグメントや、他のセグメントと共有の領域を割り当てられている場合で「COWフラグ」が「ON」のセグメント(ライトの際には共有領域以外に書き込む必要があるセグメント)に対しては、プールボリュームの領域を割り当てる。またAOU向けI/O処理プログラム31010は、かかるプールボリュームの領域の割り当て結果をAOUアドレス変換情報31030に反映させる。
(S32003)AOU向けI/O処理プログラム31010は、AOUボリューム29010R,29010Lの属性を確認し、当該AOUボリューム29010R,29010Lがコピー元ボリュームの場合にはS32004を実行し、そうでなければS32005を実行する。
(S32004)AOU向けI/O処理プログラム31010は、リモートコピープログラム6010を呼び出すことでコピー先ボリュームを有する仮想化ストレージ装置(副系の仮想化ストレージ装置)1000Rに同期リモートコピーのコマンドを転送する。
(S32005)AOU向けI/O処理プログラム31010は、S32001に対応するライトリクエストを構成するライトデータ(の一部又は全て)を受信する。
(S32006)AOU向けI/O処理プログラム31010は、AOUボリューム29010R,29010Lの属性を確認し、当該AOUボリューム29010R,29010Lがコピー元ボリュームの場合はS32007を実行し、そうでなければS32008を実行する。
(S32007)AOU向けI/O処理プログラム31010は、リモートコピープログラム6010を呼び出すことで、コピー先ボリュームを有する仮想化ストレージ装置(副系の仮想化ストレージ装置)1000Rにライトデータを転送する。
(S32008)AOU向けI/O処理プログラム31010は、AOUアドレス変換情報31030に基づいてAOUボリューム29010R,29010L上のアドレスから、実際にライトデータが保存されるプールボリュームの領域を求める。そして求めた領域に対するライトデータをキャッシュメモリ上で保存・管理する。
(S32009)AOU向けI/O処理プログラム31010は、ライトデータ受信の続きの有無を判断し、続きがある場合はS32005を再び実行する。
(S32010)AOU向けI/O処理プログラム31010は、ライト完了の応答を正系の仮想化ストレージ装置1000L又はホスト1100に転送し、このライトリクエスト処理を完了する。
なお、副系の仮想化ストレージ装置1000Rは、同期リモートコピーのコマンドの受信をホスト1100からのライトコマンドの受信と同様に扱う。同様に、仮想化ストレージ装置1000Rは、同期リモートコピーのデータ転送によるデータ受信をホスト1100からのライトデータの受信と同様に扱う。これによって副系の仮想化ストレージ装置1000Rでのライトリクエスト処理が理解されるであろう。
<4.1.1.割り当て処理>
以下に図32の割り当て処理について説明する。
(S32101)AOU向けI/O処理プログラム31010は、ライトコマンドで指定されたライト範囲(即ちライトアドレスとデータ長)をセグメント毎に分割する。
(S32102)AOU向けI/O処理プログラム31010は、分割で生成した複数のセグメントの最初のセグメントを変数iに代入する。
(S32103)AOU向けI/O処理プログラム31010は、セグメントiの割り当て状態やCOW(Copy On Write)が必要かどうかを判断する。なお、このときの判断にはAOUアドレス変換情報31030を用いる。かかる判断の結果、プールボリュームの領域の割り当てが不要な場合はS32105を実行し、プールボリュームの領域が未割り当ての場合や、割り当て済みであってもCOWフラグが立っている場合は(例えば、他のAOUボリューム29010R,29010L上のセグメントと割り当て領域を共有している場合)S32104を実行する。
(S32104)AOU向けI/O処理プログラム31010は、セグメントiに割り当てるため、プールボリュームの領域から未使用の領域を探す。そして、探した領域をAOUアドレス変換情報31030の「プールボリューム領域識別子」へ登録する。なお、未使用領域が見つからない場合は、ライトコマンドが失敗したことを示す応答を転送して、この割り当て処理を終了する。
なお、失敗応答を転送する際には、この失敗応答と共に何らかのエラーメッセージを返しても良く、当該失敗応答の原因としてプールの容量不足が原因であることを示す情報を含めても良い。さらに、「COWフラグ」が立っている場合の領域割り当ての場合、AOU向けI/O処理プログラム31010は、領域割り当てに際して旧領域(共有領域)から割り当て領域へデータコピーを行うようにしてもよい。ただし、セグメントi全体がライト対象の場合はこのデータコピーを省略することができる。また、領域の割り当てに伴って、AOU向けI/O処理プログラム31010は、AOUプール管理情報の空き領域リストを編集し、空き容量の削減を行うようにしてもよい。
さらに、AOU向けI/O処理プログラム31010は、割り当てたプールボリューム上の領域と当該領域を割り当てたAOUボリューム29010R,29010Lのセグメントの情報を副系の仮想化ストレージ装置1000Rへ転送する。なお、当該割当て情報は同期リモートコピーのコマンドと共に転送してもよい。
(S32105)AOU向けI/O処理プログラム31010は、次のセグメントが存在するかどうか確認し、存在する場合はS32106を実行し、存在しない場合は本処理を終了し、ライトリクエスト処理へ戻る。
(S32106)AOU向けI/O処理プログラム31010は、変数iに次のセグメントを代入する。
以上の処理によって、仮想化ストレージ装置1000Lは、セグメント毎の割り当て状況を確認し、必要ならばセグメントにプールボリュームの領域を割り当てる。
<4.1.2.副系のプールボリューム領域割り当て方法>
副系の仮想化ストレージ装置1000Rのプールボリューム領域割り当てステップ(S32104)は、正系の仮想化ストレージ装置1000Lから受信した割り当て情報を元に以下の方法によって、セグメントに対して領域を割り当てる。
(A)正系の仮想化ストレージ装置1000Lが共有のストレージ装置(すなわちストレージ装置1500L)のプールボリュームから領域を割り当てた場合には、副系の仮想化ストレージ装置1000Rは、AOUアドレス変換情報31030における対応するセグメントの「引継ぎ領域」を「Yes」に、「プールボリューム領域識別子」を受信した領域識別子に設定する。これによって、共有ストレージ装置1500Lに関するプールボリューム領域の割り当ては正系と副系で同じ対応になる。
(B)正系の仮想化ストレージ装置1000Lが仮想化ストレージ装置1000R内部のボリュームから領域を割り当てた場合には、副系の仮想化ストレージ装置1000Rは、内部ボリュームの空き領域を探して該当するセグメントに割り当てる。その結果、AOUアドレス変換情報31030における当該セグメントの「引継ぎ領域」は「No」に、「プールボリューム領域識別子」は内部ボリュームの領域が設定される。これによって、正系の仮想化ストレージ装置1000Lが内部ボリュームの領域を割り当てたセグメントは副系の仮想化ストレージ装置1000Rでも内部ボリュームを割り当てることができる。
<4.2.リードリクエスト処理>
図33は、AOU向けI/O処理プログラム31010が、リードリクエストを受信したときに実行する処理内容を示すフローチャートである。以下に当該フローチャートを参照して、かかる処理内容について説明する。
(S33001)AOU向けI/O処理プログラム31010は、リードリクエストを構成するリードコマンドを受信する。なお、受信したリードコマンドにはアドレス(位置)及びデータ長が含まれる。
(S33002)AOU向けI/O処理プログラム31010は、リードコマンドで指定されたリード範囲(即ちライトアドレスとデータ長)をセグメント毎に分割する。
(S33003)AOU向けI/O処理プログラム31010は、分割で生成した複数のセグメントの最初のものを変数iに代入する。
(S33004)AOU向けI/O処理プログラム31010は、セグメントiにプールボリュームの領域が割り当てられているかどうかを判断する。なお、判断にはAOUアドレス変換情報31030を用いる。かかる判断の結果、プールボリュームの領域が割り当てられる場合にはS33006を実行し、プールボリュームの領域が未割り当ての場合にはS33005を実行する。
(S33005)AOU向けI/O処理プログラム31010は、その仮想化ストレージ装置1000L,1000R内のキャッシュメモリ上に当該セグメント向けのキャッシュ領域を確保し、確保したキャッシュ領域をゼロで初期化し、ホスト1100へゼロデータを転送する。
(S33006)AOU向けI/O処理プログラム31010は、割り当てられたプールボリュームの領域に保存されたデータを転送する。なお、当該プールボリュームの領域が既にキャッシュ領域に存在する場合(ステージング済みの場合)には、かかるデータをそのキャッシュ領域から転送し、キャッシュ領域に存在しない場合はステージング後に、当該データの転送を行う。
(S33008)AOU向けI/O処理プログラム31010は、続きのセグメントがあるかどうかを判断し、ある場合はS33009を実行し、ない場合はS33010を実行する。
(S33009)AOU向けI/O処理プログラム31010は、変数iに次のセグメントを代入し、再びS33004を実行する。
(S33010)AOU向けI/O処理プログラム31010は、リード完了の応答をホスト1100に転送し、完了する。
なお、処理の単純化のために、仮想化ストレージ装置1000Lはプールボリュームのある決められた領域に対して予め定められた値(ゼロ)を保存しておき、当該領域に保存されたデータをAOUボリューム29010R,29010Lの未割り当て領域に対するリードで転送してもよい。
<4.3.AOU向けデステージング処理>
図34はAOU向けI/O処理プログラム31010が実行するデステージング処理の処理内容を示すフローチャートである。以下、かかるデステージング処理について、当該フローチャートを参照しながら説明する。
(S34001)AOU向けI/O処理プログラム31010は、キャッシュアルゴリズムによってデステージ対象とするキャッシュメモリ上のデータを決定する。なお、キャッシュアルゴリズムはLRU(Less Recently Used)アルゴリズムを用いてダーティデータを対象として決定する方法が一般的であるが、これ以外のアルゴリズムを用いて決定してもよい。
(S34002)AOU向けI/O処理プログラム31010は、デステージ対象のデータが共有ストレージ装置(すなわち、ストレージ装置1500L)が有するボリュームに対応するものかどうかを判断し、対応する場合はS34003を実行し、対応しない場合はS34004を実行する。
(S34003)AOU向けI/O処理プログラム31010は、デステージング処理を実行し、その後、この一連の処理を終了する。なお、デステージング処理は他の実施の形態と同様に行われる。
(S34004)AOU向けI/O処理プログラム31010は、デステージ対象のデータが格納されたボリュームのボリューム属性を判断し、当該ボリュームがコピー元ボリュームである場合にはS34005を実行し、当該ボリュームがコピー先ボリュームの場合にはS34007を実行し、それ以外の場合はS34003を実行する。
(S34005)AOU向けI/O処理プログラム31010は、デステージング処理を実行する。
(S34006)AOU向けI/O処理プログラム31010は、デステージが終了したデータのRCデステージ許可指示を副系の仮想化ストレージ装置1000Rへ転送し、処理を終了する。
(S34007)AOU向けI/O処理プログラム31010は、RCデステージ許可フラグがONかどうかを確認し、OFFの場合はS34001を再び実行し、別なデステージ対象のデータを選択し直す。なお、RCデステージ許可フラグは、同期リモートコピーによってキャッシュメモリ上にライトデータが保存又は更新された時点ではOFFが設定され、S34006で送信された指示を受信するとONが設定される。
(S34008)AOU向けI/O処理プログラム31010は、デステージング処理を実行し、処理を終了する。
本アルゴリズムによって、以下のキャッシュ制御が実現される。
(A)共有ストレージ装置向けでなく、正系と副系の仮想化ストレージ装置1000L,1000Rでデステージを連携する必要のないキャッシュデータは両系独立にデステージを行う。
(B)正系の仮想化ストレージ装置1000Lでのデステージ処理後に送信されるメッセージによって、副系の仮想化ストレージ装置1000Rのキャッシュデータのデステージが行われる。
なお、ステージング処理は、第1〜第14の実施の形態と同様に行なわれる。
<4.3.1.RCデステージ許可指示>
RCデステージ許可指示の転送は、非同期に指示を送信してもよい。ただし、正系及び副系の仮想化ストレージ装置1000L,1000Rはリモートコピーを契機として、RCデステージフラグに未反映の当該指示を無効化してもよい。
<4.4.プールの空き領域監視>
AOU管理プログラム31020は、定期的に各プールの空き領域を監視し、ユーザーが設定したスレッショルド値を下回った場合は、管理ホスト1200へメッセージを送信する。これによって、容量不足に伴うホスト1100からのライトリクエストの失敗を回避することができる。さらに、AOU管理プログラム31020は、空き領域の監視を共有のストレージ装置1500Lと共有でないストレージ装置とで分けて管理し、容量不足の際に転送するメッセージを使い分けても良い。
<5.正系の仮想化ストレージ装置障害時の切り替え>
正系の仮想化ストレージ装置1000Lが障害などで機能を停止した場合は、他の実施の形態と同様の処理を行うことでホスト1100は引きつづきアプリケーションを動作させることができる。
一方で、ホスト1100は、コピー元ボリュームに対するライトリクエストが容量不足で失敗したことを契機として副系の仮想化ストレージ装置1000RにI/Oリクエスト先を切り替える場合もある。副系の仮想化ストレージ装置1000Rが有するプール容量が正系よりも多い場合は、当該切り替えによって、ホスト1100においてI/Oリクエストを発行しているアプリケーション2010(図30)の処理を継続することができるからである。
なお、この場合はリクエスト先の切り替えによってリモートコピーの向きは反転するが、リモートコピーは停止する。なぜならば、旧正系の仮想化ストレージ装置1000Lはライトリクエスト時のプール容量不足で当該リクエストが失敗しているので、同期リモートコピーによって新正系(旧副系)の仮想化ストレージ装置1000Rに対してライトデータを書き込もうとしても失敗するからである。
ただし、旧正系の仮想化ストレージ装置1000Lに対するリクエスト(特にリード)は継続可能であるため、本障害は仮想化ストレージ装置1000L,1000R間の通信路障害と見分けがつかず、ホスト1100が旧正系の仮想化ストレージ1000Lの古いデータをリードする可能性がある。
こうした状況を回避するため、リモートコピー失敗の理由がプール容量不足である場合には、ホスト1100からの旧正系の仮想化ストレージ装置1000Lへのリードリクエスト発行を抑制してもよい。あるいは、リモートコピー失敗の理由が絞れない間は、ホスト1100からの副系の仮想化ストレージ装置1000R又は1000Lに対するリードを抑制し、通信路障害であることが判明した時点でかかる抑制を解除するようにしてもよい。
以上の処理によって、本実施の形態によるストレージシステムがサービス継続性の高いAOU機能を持ったストレージサービスを提供することができる。また、AOU機能は、I/Oリクエスト毎にAOUアドレス変換情報31030L,31030Rを参照・変更する必要があり、通常のストレージI/Oよりもコントローラーの負荷が高い。したがって、ホスト1100が必要とするボリュームの一部(又は半分)については片方の仮想化ストレージ装置1000L,1000Rが正系としてリードとライトを担当し、残りのボリュームについてはもう片方の仮想化ストレージ装置1000R,1000Lが正系としてリードとライトを担当するようにしてもよい。このような構成を採用することで、ストレージシステムの可用性を維持しつつ、仮想化ストレージ装置1000L,1000Rとの間でのAOU機能のコントローラー負荷の平準化を実現できる。
<6.プールボリューム領域の割り当てとデータ移行について>
これまでに述べたとおり、本実施の形態では仮想化ストレージ装置1000L,1000R内部のボリュームとストレージ装置1500Lのボリュームの両方をプールボリュームとすることができる。そのため、アクセス頻度の高いデータが格納される又は格納されたセグメントに対して仮想化ストレージ装置1000L,1000R内部のボリュームを割り当てることによって、アクセス性能の向上が図れるほかに、仮想化ストレージ装置1000L,1000Rとストレージ装置1500Lとの間の通信ネットワークのボトルネック化を回避することもできる。
しかし、AOUでは最初のライトリクエストによってセグメントにプールボリュームの領域を割り当てるため、仮想化ストレージ装置1000L,1000R単体でアクセス頻度を考慮した割り当てをすることは難しい。こうした課題を解決する方法として以下の方法が考えられる。
<6.1.AOUボリュームに属性を付加する方法>
AOUボリューム29010L,29010Rを作成する時点でアクセス頻度に関する属性を与え、AOU向けI/O処理プログラム31010がセグメントにプールボリュームの領域の割り当てを行う際に、そのセグメントに書き込まれるデータのアクセス頻度がある程度分かっているときには、かかるアクセス頻度属性を参照して、アクセス頻度の高いデータが格納されるセグメントについてはその仮想化ストレージ装置1000L,1000R内部のボリュームを割り当て、アクセス頻度の低いデータ(例えばバックアップデータ)が格納されるセグメントについてはストレージ装置1500L内のボリュームの領域を割り当てる。
<6.2.プールボリューム領域のデータ移行>
AOUボリューム29010L,29010Rに対するアクセス頻度をセグメント単位(又は複数セグメント単位)で測定し、アクセス頻度の高いセグメントに格納されているデータは仮想化ストレージ装置1000L,1000R内部のプールボリュームの領域に移動させる。この場合、データの移行に伴って、AOUボリューム29010L,29010Rにおける当該データの移行が行なわれたセグメントの対応先をストレージ装置1500L内のボリューム内のセグメントから、仮想化ストレージ装置1000L,1000Rにおけるデータの移行先のセグメントに変更する必要があるが、AOU機能では元々仮想化ストレージ装置1000L,1000R内においてアドレス変換を行っているため、ホスト1100に対して透過的にデータ移行を行うことができる。
なお、本実施の形態でこのようなデータ移行を行う場合、対象となるセグメントのデータは、正系と副系の両方の仮想ストレージ装置1000L,1000R内部のプールボリュームに保存されることが望ましい。しかし、他に効果がある場合(以下に列挙した)は片方のセグメントだけ仮想化ストレージ装置1000L,1000R内部のプールボリュームの領域が割り当てられた形態にデータ移行を行うことも考えられる。
(例1)どちらかの仮想化ストレージ装置1000L,1000Rが先に内部のプールボリュームを使い果たし、共有のストレージ装置1500Lしかない場合。
(例2)コピー元のAOUボリューム29010Lに対するリードリクエストの負荷が大きく、正系の仮想化ストレージ装置1000Lとストレージ装置1500Lの間のネットワーク性能を圧迫する場合。
こうした場合、正系の仮想化ストレージ装置1000Lは、ストレージ装置1500L内部のプールボリュームの領域から自身のプールボリュームの領域にセグメントのデータをコピーし、コピー先の領域を用いてAOUボリューム29010Lを提供する。一方の副系の仮想化ストレージ装置1000Rはコピー元のストレージ装置1500Lのプールボリュームの領域を用いてAOUボリューム29010Rを提供することもできる。この場合、ストレージ装置1500Lのプールボリュームの領域に対するライトデータの反映は副系の仮想化ストレージ装置1000Rが行っても良い。
さらに、リードもライトも含めたアクセス性能向上のためのセグメントのデータ移行の中間状態として、前述の正系の仮想化ストレージ装置1000Lだけ内部のプールボリュームの領域を用い、副系の仮想化ストレージ装置1000Rがストレージ装置1500Lのプールボリュームを用いる構成を採用してもよい。
<7.本実施の形態のバリエーション>
<7.1.ステージングやデステージング処理でアドレス変換を実施>
これまで述べてきた本実施の形態では、リードリクエスト処理やライトリクエスト処理でアドレス変換を行っている。本方法は、ライトリクエストの受付の時点で、プールボリュームの容量不足を契機とした失敗応答を返すことができる反面、リクエスト毎にアドレス変換を行うため、性能上の課題がある。こうした課題を解決する方法としてステージングやデステージング処理でアドレス変換を行う方法が考えられる。ただし、この方法ではデステージングの時点でセグメントに対してプールボリュームの領域の割り当てを行うため、HDD1030の二重閉塞等が原因のボリューム閉塞時と類似するデータ消失が発生する。そのため、後者の方式では空き容量に余裕が少なくなってきた時点からリクエストの処理を遅らせるか停止する等の処理を行っても良い。
なお、具体的な処理はこれまで図32及び図33について説明してきた処理内容を以下に示すとおりに変更すればよい。
(ライトとデステージング)図32のS32100の割り当て処理をデステージング処理のS34001の後に移動する。
(リードとステージング)図33のS33004〜S33006で行っているアドレス変換を伴った割り当て有無の判断と未割り当て時のゼロデータの転送とを、ステージングにて行う。
さらに、両者の利点を併せ持つために、AOU向けI/O処理プログラム31010が、プールボリュームの空き容量がスレッショルド値以上の場合にはステージング/デステージング処理で変換を行い、かかる空き容量がスレッショルド値以下になった場合にはI/Oリクエスト処理で変換を行ってもよい。
<7.2.De‐Duplication>
AOU管理プログラム31010は、I/Oリクエストとは独立にDe‐duplicationと呼ばれる以下の処理を行っても良い。
(Step1)AOU管理プログラム31010は、各プールボリュームの領域のデータをスキャンし、重複するセグメントを探す。
(Step2)AOU管理プログラム31010は、プールボリューム領域同士で保存するデータが重複している事を検知した場合、いずれか一つの領域だけを残し他の領域は空き領域として開放する。そして、AOUアドレス変換情報31030における開放した領域に対応したセグメントの「プールボリューム領域識別子」は一つだけ残した領域に更新し、「COWフラグ」を「ON」にする。
ここで、重複検知の方法としては、プールボリュームの領域毎のハッシュ値を計算後に、領域毎に、そのハッシュ値を他の領域のハッシュ値と順次比較し、同じ値の場合はさらに実際のデータを比較する2段階方式を採用してもよい。さらに、ハッシュ値の計算とデータの比較は負荷の高い処理であるため、副系の仮想化ストレージ装置1000Rにて処理を行うことで負荷分散を行うことも考えられる。
(17)第17の実施の形態
<1.情報システムの構成>
図1との対応部分に同一符号を付して示す図37は、本発明の一実施形態に係る情報システムのハードウェア構成の一例を示す図である。
第1の実施の形態と異なる点は、副ストレージ装置2550及び正ストレージ装置1000がI/Oネットワーク1400を介して接続されると共に、2つの副ストレージ装置2550同士が接続されているという点である。I/Oネットワーク1400はI/Oネットワーク1300と同等であってもよいが、一般にはI/Oネットワーク1300よりも通信速度が遅く、遠隔地でも通信可能な通信手段を用いる。また、第1の実施の形態と異なるもう一つの点として、ホスト1100Bが副ストレージ装置2550側にも接続されている点が挙げられる。一般的にはかかるホスト1100Bはリモートに存在し、ローカルサイト38000P(図38)のホスト1100P又は正ストレージ装置1000全体が使用不可になった場合にリモートサイト38000B(図38)側でシステムを復旧する際に使用する。
<2.本実施形態の概要>
本実施の形態では、ストレージシステムの可用性をさらに向上させるため、2台の正ストレージ装置1000から構成されるローカルサイト38000Pから遠隔地に設置されたリモートサイト38000Bに2台の副ストレージ装置2550を設置する。図38はその概要を示した図である。なお、以後の説明ではストレージ装置1000(若しくは2550)又はホスト1100や、これらストレージ装置1000又はホスト1100に含まれるプログラム又は部品名でローカルサイト38000P(図38)に存在することを明記したい場合は、「ローカル」という言葉を用語の先頭につけ、リモートサイト(図38の38000B)に存在することを明記したい場合は「リモート」という言葉を用語の先頭につけることがある。
本概要では、ストレージシステムに正ストレージ装置1000L、正ストレージ装置1000R、副ストレージ装置2550L、副ストレージ装置2550Rが含まれる。正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550Rにはジャーナルグループ38300G1〜38300G4が存在し、一つ以上のデータボリューム38310D1〜38310D8と、一つ以上のジャーナルボリューム38320J1〜38320J4とがこれらジャーナルグループ38300G1〜38300G4に定義される。なお、ジャーナルボリューム38320J1〜38320J4はリモートコピーのための更新データが一時保存されるボリュームである。
いずれかのストレージ装置(正ストレージ装置1000L、正ストレージ装置R1000R、副ストレージ装置2550L、副ストレージ装置2550R)のジャーナルグループ38300G1〜38300G4が定義された後、そのジャーナルグループ38300G1〜38300G4に所属するデータボリューム38310D1〜38310D8にライトが発生した場合、ライトデータを含むジャーナルデータを当該ジャーナルグループ38300G1〜38300G4に所属するジャーナルボリューム38320J1〜38320J4に記憶する。また、ジャーナルデータは、ジャーナルグループ38300G1〜38300G4内のデータボリューム38310D1〜38310D8へのライト処理の発生順でジャーナルボリューム38320J1〜38320J4に記録される。ジャーナルデータ及びジャーナルボリューム38320J1〜38320J4の構造については後ほど詳細な説明を行う。
次に基本的なコピーの構成の説明を行う。ジャーナルグループ38300G1に所属するデータボリューム38310D1,38310D2と、ジャーナルグループ38300G2に所属するデータボリューム38310D3,38310D4とのそれぞれで、第1〜第16の実施の形態で説明した同期リモートコピーのペアを構成する。
また、ジャーナルグループ38300G1に所属するデータボリューム38310D1,38310D2と、ジャーナルグループ38300G3に所属するデータボリューム38310D5,38310D6とのそれぞれで、後に説明する非同期リモートコピーのペアを構成する。
また、ジャーナルグループ38300G2に所属するデータボリューム38310D3,38310D4と、ジャーナルグループ38300G4に所属するデータボリューム38310D7,38310D8とについても同様に非同期リモートコピーのペアを構成する。
次に、2つの正ストレージ装置1000L,1000Rでの処理の概略を述べる。
(A)ホスト1100PよりI/Oネットワーク1300を介して正ストレージ装置1000Lに送信された、データボリューム38310D1へのライトI/Oコマンド(矢印38400)を正ストレージ装置1000Lが受信する。
(B)I/O処理プログラム38100Pは、かかるライトI/Oコマンドを受信すると、このライトI/Oコマンドに応じて、非同期リモートコピープログラム41050P(図41)の一部であるJNL作成処理プログラム38110を実行する(矢印38410)。これによりデータボリューム38310D1にライトデータが書き込まれ(矢印38420)、ジャーナルボリューム38320J1にJNL作成処理プログラム38110によって作成されたジャーナルデータが書き込まれる(矢印38430)。ジャーナルデータは、更新情報及びライトデータから構成される。更新情報は更新番号を含む。更新番号は、I/Oコマンドに対して正ストレージ装置1000Lが付加する番号であり、I/Oコマンドを受信した順番で番号を付加する。更新番号と同様に、更新情報はホスト1100Pが付加する時刻情報を含む。
(C)また、I/O処理プログラム38100Pは、リモートコピー先の正ストレージ装置1000Rにリモートライトリクエストを送信する(矢印38440)。リモートライトリクエストは、ライト命令、論理アドレス、ボリューム番号、データ量、上記(B)で正ストレージ装置1000Lが対応するジャーナルデータに付加した更新番号及び時刻等を含んでいる。実際には、I/O処理プログラム38100Pは、同期リモートコピープログラム41040P(図41)を実行することでリモートライトリクエストを送信する。その他同期リモートコピーに関する説明は第1〜第16の実施の形態において述べているため、詳細は割愛する。
正ストレージ装置1000Rは、転送されるライトデータをホスト1100Pより正ストレージ装置1000Lに送信されたライトI/Oコマンドと同様に処理する(矢印38450、矢印38460、矢印38470)。ただし、正ストレージ装置1000RのJNL作成処理プログラム38110は、(C)で受け取った情報を元にジャーナルデータ(ライトデータとライトデータを副ストレージ装置2550に反映するために必要なライト位置やライト長や更新番号等の情報を指し、以後で詳細を述べる)を作成することで、正系(リモートコピーのコピー元)と副系(リモートコピーのコピー元)とにおけるライトデータと、更新番号及び時刻とが同じ対応であるようにする。
(D)上記の一連の処理において、全てのデータボリューム38310D1〜38310D4へのライトデータの書き込みと、ジャーナルボリューム38320J1、38320J2へのジャーナルデータの書き込みとが完了した時点で、正ストレージ装置L1000Lは、ホスト1100PにライトI/Oコマンドの完了を通知する。
次に、2つの副ストレージ装置2550L,2550Rでの処理の概略を述べる。
(E)副ストレージ装置2550L,2550RのJNLRD処理プログラム38140は、I/Oネットワーク1300を介して対応する正ストレージ装置1000L,1000Rにジャーナルデータの取得要求を送信する。この取得要求を受信した正ストレージ装置1000L,1000Rは、その副ストレージ装置2550L,2550Rに対してジャーナルデータを送信する。またこの副ストレージ装置2550L,2550RのJNLRD処理プログラム38140は、かかるジャーナルデータを取得すると、これをジャーナルボリューム38320J3,38320J4に格納する(矢印38480、矢印38490)。
(F)リストア処理プログラム38130は、副ストレージ装置2550L,2550Rのジャーナルボリューム38320J3,38320J4からジャーナルデータを読み出し、そのジャーナルデータに含まれるライトデータを、対応するデータボリューム38310D5〜38310D8に書き込む(矢印26500、矢印26510)。
この後、副ストレージ装置2550L,2550RのJNLRD処理プログラム38140及びリストア処理プログラム38100と、正ストレージ装置1000L,1000RのJNL作成処理プログラム38110及びJNLRD受信処理プログラム38120とによって、非同期リモートコピーを実行する。非同期リモートコピーの処理の詳細及びペア状態については後ほど説明する。
次に、図38で述べたストレージシステムの構成において、通常時にホスト1100Pと通信を行なう正ストレージ装置1000Lで障害が発生した場合の処理の概略を図39に示す。
かかる正ストレージ装置1000Lの障害時は、ホスト1100P側は前実施の形態で述べたI/Oパスマネージャー5000(図5)によって他方の正ストレージ装置1000Rにパスの切り替えを行う。パスの切り替え及び障害の検出の詳細は既に説明したため、ここでは省略する。また、正ストレージ装置1000Lの障害時は、対応する副ストレージ装置2550Lのリストア処理プログラム38130を停止させてもよい。
このようにして、一方の正ストレージ装置1000Lが故障した場合でも、他方の正ストレージ装置1000Rによってホスト1100P上のアプリケーションの継続動作が可能となる。また、副ストレージ装置2550Rによって、リモートで継続的に非同期リモートコピーを行うことができる。
次に、図38で述べたストレージシステムの構成において、リモート側のホスト1100Bを用いてシステムを復旧するフェイルオーバーの場合(特に、ローカル側の両方の正ストレージ装置1000L,1000Rが機能停止した場合)の処理の概略を図40に示す。リモート側のホスト1100Bのフェイルオーバー処理プログラム41100は、どちらの副ストレージ装置2550L,2550Rが最新のデータを保持しているかを判断する。その方法は例えば、両ストレージ装置2550L,2550Rのリストア済みの更新番号(もしくは時刻)を比較する方法がある。
そして、最新のデータを保持している副ストレージ装置2550L,2550Rを正系として、副ストレージ装置2550L及び副ストレージ装置2550Rのそれぞれのジャーナルグループ38300G3,38300G4内のデータボリューム38310D5〜38310D8同士で同期リモートコピーのペアが形成され、同期リモートコピー(矢印40100)が開始されて、Duplex状態となる。その後、ホスト1100BのI/Oパスマネージャー5000等により、かかるペアの正系のデータボリューム38310D5〜38310D8へI/Oリクエスト(リード及び又はライトを指す)発信先を切り替える。フェイルオーバー処理の詳細については後ほどフローチャートを用いて説明を行なう。
このようにして、ローカルサイト38000P全体が故障した場合でも、リモートサイト38000Bにてローカルサイト38000Pと同様の2台の冗長構成でホスト1100Pの処理を復旧することができる。なお、I/Oリクエスト開始と同期リモートコピーの開始順序は逆でもよい。
なお、上記説明では簡略化のために正ストレージ装置1000L,1000Rや副ストレージ装置2550L,2550Rにおけるキャッシュ(正ストレージ装置1000L,1000Rであれば図37の1020)の動作を記してないが、ライトデータをデータボリューム38310D1〜38310D8に保存する際やジャーナルデータをジャーナルボリューム38320J1〜38320J4に保存する場合に、先ずはキャッシュに保存してもよい。この場合実装は複雑になるが、I/O性能にHDDのシーク時間などが含まれないため、性能が良くなるからである。ただし、本実施の形態のバリエーションとして、正ストレージ装置1000L,1000Rが仮想スイッチの場合はキャッシュを持たない構成であってもよい。この場合は正ストレージ装置1000L,1000Rに接続されるストレージ装置(ここでは副ストレージ装置2550L,2550R)がキャッシュを持っているため、I/O性能にHDDのシーク時間が含まれなくて済むからである。
また、本実施の形態では主に副ストレージ装置2550L,2550Rがジャーナルデータの取得要求を発行する形態について記す。これはジャーナルデータの転送を副ストレージ装置2550L,2550Rの状態等を考慮して効率的なデータ転送を行うことができるメリットを有するからであるが、単なるデータ転送を目的とするのであれば、これ以外の方式(例えば正ストレージ装置1000L,1000Rが主導でジャーナルデータを送信する方式)を採用してもよい。
また、本実施の形態ではジャーナルボリューム38320J1〜38320J4に更新データを一時保存することによって、一時的に発生するI/Oネットワーク1400の障害又は性能変化や、ホスト1100Pからのライト頻度及びライト量の変化に対してリモートコピーを継続可能なシステムとすることができる。
さらに、本実施の形態では、ローカル側では正ストレージ装置1000L,1000Rと副ストレージ装置2550L,2550Rとが連係してジャーナルデータの作成を行なったり、リモート側で受信したジャーナルデータを当該リモート側の副系ストレージ装置2550L,2550R同士が連係して副ボリュームに対してリストアを行うために、ストレージ装置が1台の場合よりも処理が複雑になる。そのため、片系の性能低下によって正系と副系で同じ転送性能でリモートコピーできない場合がある(例えば、ローカル側の正ストレージ装置1000Lに対して大量のリードリクエストを発行した場合、リードリクエストは副系に転送されないため、正系のみ負荷が大きくなる)。ジャーナルボリューム38320J1〜38320J4はこうした正系と副系の負荷の偏りが生じている場合でもバッファリングを続けることで、ジャーナルデータの溢れを回避することができるメリットも有する。
なお、ジャーナルボリューム38320J1〜38320J4は1つ以上のHDD内の領域から構成される。より好適な実施形態としては、ジャーナルボリューム38320J1〜38320J4はデータボリューム38310D1〜38310D8と同様にRAIDパリティグループの一部または全ての領域を用いたものであることが考えられる。また、正ストレージ装置1000L,1000Rや副ストレージ装置2550L,2550Rにおいて、ジャーナルボリューム38320J1〜38320J4は、データボリューム38310D1〜38310D8を特定したジャーナルボリューム化要求によってRAIDパリティグループの領域をジャーナルボリューム38320J1〜38320J4として用いるように内部情報を保持してもよい。
<3.本実施形態におけるソフトウェア及びデータ構成>
次に、正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550R内で動作するプログラム及びデータ構造について、図41を用いて第1〜第16の実施の形態と異なる部分を中心に説明する。
<3.1.正ストレージ装置1000>
図41に示すように、正ストレージ装置1000(1000L,1000R)は、そのコントローラー1010のメモリ1012にI/O処理プログラム38100P、初期化プログラム41030P、同期リモートコピープログラム41040P、非同期リモートコピープログラム41050P、コピーペア情報41300P、ボリューム情報41320P、ジャーナルグループ情報41330P及び正副情報41340Pを保持している。
このうちI/O処理プログラム38100Pはホスト1100PよりI/Oコマンドやリクエスト等を受信し、対応するプログラムを起動し、ボリュームへのリード・ライト処理等を実行するためのプログラムであり、初期化プログラム41030Pは、同期リモートコピー及び非同期リモートコピーのペア形成を行い、初期化コピーを実行するためのプログラムである。
また同期リモートコピープログラム41040Pは、本実施の形態においては、ライトデータと共に更新番号や更新時刻を転送処理するためのプログラムである。なお、この転送で用いるリクエストをリモートライトリクエストと呼ぶ点は上記概要にて述べたとおりである。
非同期リモートコピープログラム41050Pに基づく非同期リモートコピー処理の内容は、第3の実施の形態の説明の通りである。非同期リモートコピープログラム41050Pはローカル側とリモート側とで異なる。正ストレージ装置1000L,1000Rの非同期リモートコピープログラム41050PはJNL作成処理プログラム38110及びJNLRD受信処理プログラム38120から構成される。
JNL作成処理プログラム38110は、データボリューム38310D1〜38310D4に対するライトリクエスト受信時に、対応するジャーナルグループ38300G1,38300G2及びジャーナルボリューム38320J1,38320J2を決定し、当該ジャーナルボリューム38320J1,38320J2にジャーナルデータを書き込む処理である。なお、ジャーナルデータは正ストレージ装置1000Lが受信したライトコマンドにおける、ボリュームのデータ領域のアドレスとライトデータとライト順序番号等が含まれる。ジャーナルデータの詳細については後ほど説明する。
JNLRD受信処理プログラム38120は、副ストレージ装置2550L,2550Rで実行されるJNLRD処理プログラム41080(後ほど説明)の要求に応じてジャーナルデータを送信するプログラムである。JNLRD受信処理プログラム38120に基づくJNLRD受信処理の詳細については後ほどフローチャートを用いて説明をおこなう。
コピーペア情報41300Pは、前実施の形態と同様の情報に加え、
(1)データボリューム38310D1〜38310D4の所属するジャーナルグループ38300G1,38300G2の識別子
(2)コピーの種別(“同期“ または “非同期“)
を含む。
ボリューム情報41320Pは、前実施の形態と同様の情報に加えて、ボリュームのタイプ(ジャーナルボリューム38320J1,38320J2又はデータボリューム38310D1〜38310D4)を含む。
ジャーナルグループ情報41330Pは、ジャーナルグループ38300G1,38300G2を管理するための情報であり、図47に示すように、ジャーナルグループ番号で識別されるジャーナルグループ38300G1,38300G2毎に以下の情報を含む。
(1)ペア識別子リスト。ジャーナルグループ38300G1,38300G2に属するコピーペアの識別子が保存される情報である。
(2)ジャーナルボリューム番号リスト。ジャーナルグループ38300G1,38300G2に属するジャーナルボリューム38320J1,38320J2の識別子が保存される情報である。
(3)更新番号。ジャーナルデータの更新情報に記録され、副ストレージ装置2550L,2550Rにおけるデータの更新順を守るためや、リモートからの復旧時に最新のデータボリューム38310D5〜38310D8を持つ副ストレージ装置2550L,2550R)を判定するために使用する。
(4)相手ストレージ装置番号。リモートコピー先のストレージ装置(正ストレージ装置1000L,1000R又は副ストレージ装置2550L,2550R)を識別する情報が保存される。
(5)相手ジャーナルグループ番号。リモートコピー先のジャーナルグループ38300G1〜38300G4を識別する情報が保存される。
(6)更新情報最古アドレス
(7)更新情報最新アドレス
(8)更新情報転送開始アドレス
(9)ライトデータ最古アドレス
(10)ライトデータ最新アドレス
(11)リストア済み最新更新番号
なお、(6)から(11)は後ほど説明する。
正副情報41340Pは、本システムを構成する自ストレージ装置以外のストレージ装置(例えば正ストレージ装置1000Lが自ストレージ装置の場合、正ストレージ装置1000R及び副ストレージ装置2550L,2550Rが該当)の役割を管理する情報で、以下の情報が含まれる。
(1)自ストレージ装置の系状態(“正系”又は“副系”)及びジャーナルグループ番号。正副情報41340Pを持つ自ストレージ装置が、正系か副系かどちらの状態であるかの情報と、自ストレージ装置内のジャーナルグループの識別子とを格納している。なお、正系及び副系は、ホスト1100P,1100Bから見たI/Oパスの切り替え先の正副を表す。本実施の形態においては、正ストレージ装置1000L及び副ストレージ装置2550Lが“正系”であり、正ストレージ装置1000R及び副ストレージ装置2550Rが“副系”である。
(2)自サイト内の相手ストレージ装置の装置番号及びジャーナルグループ番号。同期リモートコピーによって高可用化構成としている相手ストレージ装置の識別番号及び当該相手ストレージ装置内の対応するジャーナルグループの識別子を格納している。
(3)他サイト内の正系のストレージ装置(以下、これを正系ストレージ装置と呼ぶ)の装置番号及びジャーナルグループ番号。当該情報を管理するストレージ装置がローカルサイト38000Pに存在する場合はリモートサイト38000B内での正系ストレージ装置の装置識別子と関係するジャーナルグループの識別子とが、当該情報を管理するストレージ装置がリモートサイト38000Bに存在する場合はローカルサイト38000P内での正系ストレージ装置の装置識別子と関係するジャーナルグループの識別子とが格納される。
(4)他サイトの副系のストレージ装置(以下、これを副系ストレージ装置と呼ぶ)の装置番号及びジャーナルグループ番号。当該正副情報を管理するストレージ装置がローカルサイト38000Pに存在する場合はリモートサイト38000Bの副系ストレージ装置の装置識別子と関係するジャーナルグループの識別子とが、当該正副情報を管理するストレージ装置がリモートサイト38000Bに存在する場合はローカルサイト38000Pの副系ストレージ装置の装置識別子と関係するジャーナルグループの識別子とが格納される。
なお、上記正副情報41340Pは、ホスト1100PのI/Oパスマネージャー5000(図5)のライトリクエスト又はリードリクエスト発行先の切り替えに伴って発行される指示を受信することで変更される。なお、副系ストレージ装置1000Rがホスト1100P,1100Bと直接通信できない状態の場合は、正系ストレージ装置1000Lが当該指示を中継してもよい。
また、キャッシュメモリ1020には、ジャーナルデータを構成する情報である、ライトデータ41210及び更新情報41220が格納されている。それぞれの詳細については後ほど説明を行う。
<3.2.副ストレージ装置2550>
副ストレージ装置2500(2550L,2550R)は、そのコントローラー1010のメモリ1012にI/O処理プログラム38100B、初期化プログラム41030B、同期リモートコピープログラム41040B、非同期リモートコピープログラム41050B、コピーペア情報41300B、ボリューム情報41320B、ジャーナルグループ情報41330B及び正副情報41340Bを保持している。
このうちI/O処理プログラム38100B、初期化プログラム41030B、同期リモートコピープログラム41040B、非同期リモートコピープログラム41050B、コピーペア情報41300B、ボリューム情報41320B、ジャーナルグループ情報41330B及び正副情報41340Bは、正ストレージ装置1000L,1000Rの対応要素と同じものであるため、その説明は省略する。
非同期リモートコピープログラム41050Bは、JNLRD処理プログラム41080、リストア処理プログラム38100及びJNL作成処理プログラム38140から構成される。
JNLRD処理プログラム41080は、正ストレージ装置1000L,1000Rからジャーナルデータを取得するプログラムである。具体的には、命令対象の正ストレージ装置1000L,1000Rに対して、当該正ストレージ装置1000L,1000R内に存在するジャーナルグループ38300G1,38300G2のジャーナルグループ番号を指定してJNLRD命令を送信する。JNLRD処理プログラム41080に基づく処理の詳細はフローを用いて説明する。
リストア処理プログラム38100は、副ストレージ装置2550L,2550Rのジャーナルグループ38300G3,38300G4に属するジャーナルボリューム38320J3,38320J4に格納されたライトデータをそのジャーナルグループ38300G3,38300G4に属する対応するデータボリューム38310D5〜38310D8に書き込む処理である。リストア処理プログラム38100に基づくリストア処理の詳細については後ほどフローチャートを用いて説明をおこなう。
なお、本図に含まれていない処理及びプログラムで他の実施の形態に記載があるもの等が各ストレージ装置に含まれても良い。
<4.ジャーナルボリュームの構造とジャーナルグループ情報との関係>
次に、正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550Rでそれぞれ保持するジャーナルボリューム38320J1〜38320J4の構造の説明を、図42を用いて行う。
ジャーナルボリューム38320J1〜38320J4は、ライトデータ領域と更新情報領域の二領域に分割されて用いられる。
<4.1.更新情報領域>
更新情報領域はジャーナルデータの更新情報を保存する領域で、ジャーナルグループ情報41330P,41330B(図41)の更新情報最古アドレスと更新情報最新アドレスが、正ストレージ装置1000L,1000R又は副ストレージ装置2550L,2550Rが保持すべき更新情報41220(図41)をリングバッファー形式で管理している。また、ジャーナルグループ情報41330P,41330Bの更新情報リード開始アドレスは、JNLRD受信処理プログラム41080(図41)が転送すべきジャーナルデータの更新情報を示す。そのため、JNLRD受信処理プログラム41080が取得対象を指定しないジャーナル取得要求を受信した場合は、当該リード開始アドレスが示す更新情報を転送する。
図46は更新情報が保持する情報について示した模式図(46001)である。以下に各情報について説明する。
(A)更新時刻は、正ストレージ装置1000L,1000Rがライトリクエストを受信した時の時刻を示す情報である。
(B)更新番号は、更新情報を含むライトデータ同士の順序関係を示す情報である。
(C)ライトアドレスとライトデータ長は、ライトリクエストで指定されたボリュームとボリューム内のアドレスとライトデータの長さを示す情報である(図42の42100と42110)。
(D)ジャーナルボリュームアドレスは、ライトデータのコピーが保存されるジャーナルボリューム38320J1〜38320J4と、当該ジャーナルボリューム38320J1〜38320J4内のアドレスを示す情報である(図42の42120)。
<4.2.ライトデータ領域>
ライトデータ領域は、ジャーナルデータに含まれるライトデータを保存する領域で、ジャーナルグループ情報41330P,41330Bのライトデータ最古アドレスとライトデータ最新アドレスが、正ストレージ装置1000L,1000R又は副ストレージ装置2550L,2550Rが保持すべきライトデータをリングバッファー形式で管理している。
<4.3.複数のジャーナルボリュームを用いる場合>
以下の理由から、あるジャーナルグループ38300G1〜38300G4に対して、複数のジャーナルボリューム38320J1〜38320J4が属することがある。
(理由1)容量の柔軟性。一つのジャーナルボリューム38320J1〜38320J4では保持すべきジャーナルデータの量が少なすぎる場合が考えられるため。
(理由2)性能上の問題。ジャーナルボリューム38320J1〜38320J4にはジャーナルグループ38300G1〜38300G4内の全データボリューム38310D1〜38310D8のライトリクエストと同等のジャーナルデータが生成されるため、ボトルネックになりやすいため。
そのため、正ストレージ装置1000L,1000R又は副ストレージ装置2550L,2550Rが複数のジャーナルボリューム38320J1〜38320J4を用いる場合は上記理由を考慮して以下の方法で用いることが考えられる。
(方式1)あるジャーナルボリューム38320J1〜38320J4の後ろに新しいジャーナルボリュームを追加する、いわゆるコンカチネートと呼ばれる方式。ジャーナルボリューム38320J1〜38320J4を管理する各種情報は追加された後に割り当てられるアドレッシングルール上で管理を行う。
(方式2)定められたジャーナルデータのデータ量または生成回数毎に保存先のジャーナルボリューム38320J1〜38320J4をローテーションで切り替えるストライピング方式。方式1と同様に、ジャーナルボリューム38320J1〜38320J4を管理する各種情報は追加された後に割り当てられるアドレッシングルール上で管理を行う。
さらに、ジャーナルボリューム38320J1〜38320J4の更新領域は更新情報領域とライトデータ領域に分割されて使用されるが、それぞれの領域毎に別な方式を採用してもよい。
<4.4.バリエーション>
ジャーナルボリューム38320J1〜38320J4は、更新情報とライトデータを別々な領域にデータを保持するのではなく、更新情報とライトデータをまとめて保持してもよい。
<5.非同期リモートコピーのペア状態>
次に、非同期リモートコピーのペア状態の説明を図43を用いて行う。既に前実施の形態で説明している同期リモートコピーと同様の状態についての説明は省略し、異なる点のみ説明を行うこととする。
(1)Duplex状態(43010)
非同期リモートコピーにおいては、正系のボリュームから副系のボリュームへのコピーがジャーナルデータを介する等により、非同期に行われるため、Duplex状態であっても、副系のボリュームは正系のボリュームより少し遅れながら追従する。
(2)Suspending状態(43020)
Suspending状態は、前記のDuplex状態からSuspend状態に遷移するまでの中間状態である。
<6.本システムの初期化について>
次に、システムの運用を開始するため、ジャーナルグループ情報41330P,41330Bの設定やコピーペア情報41300P,41300Bの設定等を行う初期化プログラム41030P,41030Bを用いた本システムの初期化処理の説明を図44を用いて行う。
初期化プログラム41030P,41030Bは、ホスト1100P,1100B又は管理ホスト1200(図37)からの初期化指示の受信を契機として実行される。また、初期化指示には以下の情報が含まれる。
(A)ローカル側の正系ストレージ装置1000Lと、副系ストレージ装置1000Rとの装置番号
(B)リモート側の正系ストレージ装置2550Lと、副系ストレージ装置2550Rとの装置番号
(C)ローカル側の正系ストレージ装置1000L内のボリュームのうち、ジャーナルボリューム38320J1とすべきボリュームの識別子
(D)ローカル側の副系ストレージ装置1000R内のボリュームのうち、ジャーナルボリューム38320J2とすべきボリュームの識別子
(E)リモート側の正系ストレージ装置2550L内のボリュームのうち、ジャーナルボリューム38320J3とすべきボリュームの識別子
(F)リモート側の副系ストレージ装置2550R内のボリュームのうち、ジャーナルボリューム38320J4とすべきボリュームの識別子
(G)同期リモートコピーのペアに設定すべき、ローカル側の正系ストレージ装置1000Lのボリューム及び副系ストレージ装置1000Rのボリュームの識別子
(H)非同期リモートコピーのペアに設定すべき、ローカル側の正系ストレージ装置1000Lのボリューム及びモート側の正系ストレージ装置1000Rのボリュームの識別子
(I)非同期リモートコピーのペアに設定すべき、ローカル側の正系ストレージ装置1000Lのボリューム及びリモート側の正系ストレージ装置2550Lのボリュームの識別子
なお、これら指示は複数に分けて発行されてもよい。以下、図44の詳細について説明する。
(S44001)初期化プログラム41030P,41030Bが開始されると、ジャーナルグループ38320J1〜38320J4の作成処理を行う。より具体的なジャーナルグループ38320J1〜38320J4の作成処理の手順を以下に示す。
(A)ローカル側の正系の正ストレージ装置1000Lは、初期化指示に含まれる情報を用いてジャーナルグループ38300G1を定義し、当該ジャーナルグループ38300G1に指定されたボリュームをジャーナルボリューム38320J1として用いるように設定する。
なお、この正系ストレージ装置1000Lへの初期化指示がホスト1100Pからローカル側の正系の正ストレージ装置1000Lに直接与えられなかったときには、当該初期化指示を受信したストレージ装置(例えばローカル側の副系の正ストレージ装置1000R)により中継され、代わりにジャーナルグループ識別子を正系ストレージ装置1000Lからその中継を行なった正ストレージ装置1000Rへ返す。また、ジャーナルボリューム38300G1の設定に伴って、ジャーナルグループ情報41330Pの更新番号を0に、更新情報最古アドレスと更新情報最新アドレスと更新情報転送開始アドレスも更新情報領域の先頭アドレスに設定する。同様に、ライトデータ最古アドレスとライトデータ最新アドレスはライトデータ領域の先頭アドレスに設定する。
(B)同様の処理をリモート側の正系ストレージ装置2550Lに対しても行う。
(C)同様の処理をローカル側の副系ストレージ装置1000Rとリモート側の副系ストレージ装置2550Bに対しても行う。
(D)かかる初期化指示の中継を行なったストレージ装置(正側ストレージ装置1000L,1000R又は副側ストレージ装置2550L,2550R)は他の各ストレージ装置(正側ストレージ装置1000L,1000R又は副側ストレージ装置2550L,2550R)と通信を行うことで、ジャーナルグループ情報41330P,41330Bに含まれる相手ストレージ装置番号及び相手ジャーナルグループ番号として必要な値を設定するよう指示を与える。この指示を受信したら各ストレージ装置(正側ストレージ装置1000R,1000L又は副側ストレージ装置2550R,2550L)は図38のコピートポロジーとなるように各種値を設定する。
(S44002)初期化プログラム41030P,41030Bはペアを登録する。より詳細なペアの作成処理の動作を以下に説明する。
(A:同期リモートコピーのペア設定)データボリューム38310D1及び38310D3、38310D2及び38310D4をそれぞれペアとする同期リモートコピーのペア設定を行う。より具体的には、正ストレージ装置1000Lのコピーペア情報41300Pの、コピー元ボリュームを持つストレージ装置のストレージ装置番号及びボリューム番号として、正ストレージ装置1000Lのストレージ装置番号及びデータボリューム38310D1のボリューム番号を設定し、コピー先ボリュームを持つストレージ装置のストレージ装置番号及びボリューム番号として、正ストレージ装置1000Rのストレージ装置番号及びデータボリューム38310D3のボリューム番号を設定する。また、かかるコピーペアのペア状態として、”Simplex”を設定する。また、ペア状態のコピーの種別として、”同期”を設定する。
(B:非同期リモートコピーのペア設定その1)正ストレージ装置1000Lのコピーペア情報41300Pの、コピー元ボリュームを持つストレージ装置のストレージ装置番号及びボリューム番号として、正ストレージ装置1000Lのストレージ装置番号及びデータボリュームD1のボリューム番号を設定し、コピー先ボリュームを持つストレージ装置のストレージ装置番号及びボリューム番号として、副ストレージ装置2550Lのストレージ装置番号及びデータボリュームD5のボリューム番号を設定する。また、かかるコピーペアのペア状態として、”Simplex”を設定する。また、このペア状態のコピーの種別として、”非同期”を設定する。次に、副ストレージ装置2550Lのコピーペア情報41300Bとして、この正ストレージ装置1000Lのコピーペア情報41300Pと同じ内容を設定する。
また、正ストレージ装置1000L及び副ストレージ装置2550Lのジャーナルグループ情報41330P,41330Bのペア識別子リストに、それぞれコピーペア情報41300P,41300Bを識別する番号であるペア番号を追加する。
また、ジャーナルグループ38300G1,38300G3に追加したいデータボリュームが複数ある場合、データボリューム毎に、上述と同様に、コピーペア情報41300P,41300B及びジャーナルグループ情報41330P,41330Bの設定を行う。
(C:非同期リモートコピーのペア設定その2)上述の(B)と同様のペアの作成処理を、ローカル側の副系の正ストレージ装置1000Rと、リモート側の副系の副ストレージ装置2550Rとに対しても行なう。
(S44003)初期化プログラム41030P,41030Bは、同期リモートコピープログラム41040P,41040Bによる初期コピーを開始させる。なお、当該初期コピーは中継するストレージ装置が同期リモートコピーに関係するストレージ装置に指示を発行することで行われる。
(S44004)初期化プログラム41030P,41030Bは、S44003の初期コピーの完了を待ってから、ローカル側の正系ストレージ装置1000Lからリモート側の正系ストレージ装置2550Lへの非同期リモートコピーの初期コピーを開始する。なお、当該初期コピーは中継するストレージ装置が当該非同期リモートコピーに関係するストレージ装置に指示を発行することで行われる。また、この初期コピーに際してリモート側の正系ストレージ装置2550LではJNLRD処理プログラム38140に基づくJNLRD処理及びリストア処理プログラム38100に基づくリストア処理が開始される。
(S44005)初期化プログラム41030P,41030Bは、ローカル側の副系ストレージ装置1000Rからリモート側の副系ストレージ装置2550Rへの非同期リモートコピーの初期コピーを開始する。なお、この初期コピーは中継するストレージ装置が当該非同期リモートコピーに関係するストレージ装置に指示を発行することで行われる。また、この初期コピーに際してリモート側の副系ストレージ装置2550RではJNLRD処理プログラム38140に基づくJNLRD処理及びリストア処理プログラム38100に基づくリストア処理が開始される。
(S44006)初期化プログラム41030P,41030Bは、非同期リモートコピーの両方のペア状態がDuplex状態へ遷移したら、ホスト1100Pにあるデバイス関係テーブルの上記ペアに対応する障害状態を“通常状態”に変更させる。また、正ストレージ装置1000Lは、正副情報41340Pの自ストレージ装置の系状態に“正系”を設定し、正ストレージ装置1000Rは、正副情報41340Bの自ストレージ装置の系状態に“副系”を設定し、副ストレージ装置2550Lは、正副情報41340Bの自ストレージ装置の系状態に“正系”を設定し、副ストレージ装置2550Rは、正副情報41340Bの自ストレージ装置の系状態に“副系”を設定する。さらに、各ストレージ装置(正ストレージ装置1000L,1000R又は副ストレージ装置2550L,2550R)のジャーナルグループ番号を正副情報41340P,41340Bへ格納する。
以上が手順である。なお、上記の説明では、正ストレージ装置1000L,1000Rや副ストレージ装置2550L,2550Rの初期化のための設定を一度に実施しているが、機能I/F等を通じて、ホスト1100P,1100B側からそれぞれの設定を別々に行うことにより、正ストレージ装置1000L,1000Rや副ストレージ装置2550L,2550Rの初期化を行う方法も考えられる。
<7.本システムのフェイルオーバー処理について>
次に、フェイルオーバー処理プログラム41100(図40)に基づくフェイルオーバー処理の説明を図45を用いて行う。
フェイルオーバー処理は、ローカル側のストレージ装置(正ストレージ装置1000L,1000R)の障害時にリモートのホスト1100Bにてシステムの復旧を行う際の処理である。フェイルオーバー処理は、リモート側のホスト1100B(副ホスト)に実装されたフェイルオーバー処理プログラム41100に基づき実行される。
(S45001)まず、フェイルオーバー処理プログラム41100は、機能I/F等を介して、副ストレージ装置2550RのJNLRD処理プログラム41080に対してJNLRD処理の停止を指示する。この指示を受けた副ストレージ装置2550Rは、JNLRD処理を停止する。なお、非同期リモートコピーの機能によってかかるJNLRD処理が自動的に停止している場合は本ステップを省略することができる。
(S45002)次に、フェイルオーバー処理プログラム41100は、2つの副ストレージ装置2550L,2550Rが、それぞれのジャーナルグループ38300G3,38300G4のリストア処理が完了したことを認識する。たとえば、副ホスト1100Bは機能I/Fを介して、副ストレージ装置2550L,2550Rに対して、リストア処理プログラム38100によるリストア処理が完了した時点で完了通知を返すように指示を出し、完了通知を待ち受ける方法が考えられる。
(S45003)次にフェイルオーバー処理プログラム41100は、最新のジャーナルグループ38300G3,38300G4を持つ副ストレージ装置2550L,2550Rを選択する。たとえば、副ホスト1100Bは、かかる完了通知にジャーナルグループ情報41330Bの更新番号を付加することにより、新しい更新番号を持つ副ストレージ装置2550L,2550Rを、最新の状態のジャーナルグループ38300G3,38300G4を持つ副ストレージ装置2550L,2550Rとして選択する。この判定に用いる更新番号は、タイムスタンプやマーカー等でもよい。
(S45004)次に、フェイルオーバー処理プログラム41100は、機能I/F等を使用して、上述のように選択した副ストレージ装置2550L,2550Rのジャーナルグループ38300G3,38300G4に存在するデータボリューム38310D5〜38318D8を正として同期リモートコピーのペアを作成する。
(S45005)次に、副ホスト1100Bは、かかる選択したジャーナルグループ38300G3,38300G4に存在するデータボリューム38310D5〜38318D8へのホストアクセスを開始する。
(S45006)最後に、フェイルオーバー処理プログラム41100は、データボリューム38310D5〜38318D8の同期リモートコピーのペア状態が“Duplex”となったら、ホスト1100Bのデバイス関係テーブルを変更する。
ただし、1つのストレージシステムでリモートコピーを復旧させる場合は、上述したフローチャートのS45003の後、新しいタイムスタンプを持つストレージ装置のみをホスト1100Bに認識させるようI/Oパスマネージャー5000を設定することで、S45004以降のステップを省略可能である。
なお上記では、説明を簡単にするため、フェイルオーバー処理プログラム41100がリモート側のホスト1100Bに実装されたフェイルオーバー処理プログラム41100に基づき実行されると説明したが、副ストレージ装置2550L,2550R内部のコントローラー1010で機能I/Fを介して動作するプログラムとして実装するようにしてもよい。
<8.非同期リモートコピープログラムの詳細>
次に、JNLRD受信処理プログラム38120に基づくJNLRD受信処理の説明を、図48を用いて行う。
JNLRD受信処理は正ストレージ装置1000L,1000Rにて、副ストレージ装置2550L,2550Rからジャーナルリードリクエストを受信したときに開始される。なお、受信したジャーナルリードリクエストには副ストレージ装置2550L,2550Rがリストア処理を完了したジャーナルデータの最新更新番号が含まれている。
(S48008)JNLRD受信処理プログラム38120は、かかるジャーナルリードリクエストにおいて再転送対象のジャーナルデータを示す情報(更新番号等)を伴ったリトライオプションが付加されているかどうかを判断し、付加されている場合はS48006に進む(S48008のY)。リトライ指示が付加されていない場合(S48008のN)、S48001に進む。
(S48006)JNLRD受信処理プログラム38120は、再送対象のジャーナルデータを示す更新順序等から更新情報を求め、さらに該当する更新情報が示すライトデータを同定する。
(S48007)JNLRD受信処理プログラム38120は、S48006のステップで同定したライトデータ及び更新情報をジャーナルデータとして転送する。
(S48001)JNLRD受信処理プログラム38120は、未送信のジャーナルの存在を確認し、存在しない場合はS48005に進む(S48001のN)。また、未送信のジャーナルデータが存在する場合はS48002に進む(S48001のY)。この判断は、ジャーナルグループ情報41330Pの更新情報転送開始アドレスと、更新情報最新アドレスとが同じかどうかによって行う。
(S48005)JNLRD受信処理プログラム38120は、対象の副ストレージ装置2550L,2550Rに“ジャーナル無“を報告する。
(S48002)JNLRD受信処理プログラム38120は、ジャーナルグループ情報41330Pの更新情報転送開始アドレスが示す更新情報が示すライトデータを同定する。
(S48003)JNLRD受信処理プログラム38120は、S48002のステップで同定したライトデータ及び更新情報をジャーナルデータとして転送し、更新情報転送開始アドレスを次の更新情報のアドレスへ変更する。
(S48004)JNLRD受信処理プログラム38120は、副ストレージ装置2550L,2550Rからのジャーナル転送に関する応答を待ち、応答を受信したらジャーナルデータに使用したジャーナルボリューム38320J1,38320J2の記憶領域を開放し、終了する。なお、ジャーナルボリューム38320J1,38320J2の記憶領域の開放は具体的には、以下の更新を行うことで実現される。
(A)更新情報最古アドレスの値を、次の更新情報を指し示すように、更新情報のデータサイズと現在の更新情報最古アドレスの値を加算した値にする。
(B)ライトデータ最古アドレスの値を、次のライトデータのアドレスを指し示すように、ライトデータのデータサイズと現在のライトデータ最古アドレスの値を加算した値に変更する。
(C)ジャーナルグループ情報41330Pのリストア済最新更新番号を、ジャーナルリードリクエストに付随したリストア済最新更新番号に更新する。
以上である。なお、本実施の形態のバリエーションとして、正ストレージ装置1000L,1000Rでのジャーナルデータの開放は副ストレージ装置2550L,2550Rからの転送終了メッセージを待ってS48003の転送直後でリストア完了以前に行っても良い。また、これまでの実施の形態と同様に、更新情報やライトデータの転送のためにジャーナルボリューム38320J1,38320J2から当該情報を読み込み、キャッシュメモリ1020(図37)へステージングしてもよく、また既にキャッシュメモリ1020に当該情報が存在する場合は、キャッシュメモリ1020へのステージングを省略してもよい。
次に、ジャーナル作成処理プログラム38110の説明を、図49を用いて行う。本処理は、正ストレージ装置1000L,1000Rがホスト1100Pからのライトリクエストを受信したときやリモートライトリクエストを受信したときに、I/O処理プログラム38100Pにより呼び出される。以下、フローチャートに従って説明する。
(S49001)ジャーナル作成処理プログラム38110は、ライトリクエスト又はリモートライトリクエストにおいて指定されたデータボリューム38310D1〜38310D4が所属するジャーナルグループ38300G1,383001G2を特定し、そこから対応するジャーナルボリューム38320J1,38320J2を特定する。
(S49002)ジャーナル作成処理プログラム38110は、ライトリクエスト又はリモートライトリクエストにおいて指定されたデータボリューム38310D1〜38310D4が同期リモートコピーの正側のボリュームであるか、コピーペア情報41300P等を参照し、判定を行う。当該データボリューム38310D1〜38310D4が同期リモートコピーの正側のボリュームであった場合はS49003へ進む(S49002のY)。また、当該データボリューム38310D1〜38310D4が同期リモートコピーの正側のボリュームでなかった場合はS49005へ進む(S49002のN)。
(S49003)ジャーナル作成処理プログラム38110は、以下の手順を行うことで、更新情報を生成する。
(A)更新情報の更新時刻に、その正ストレージ装置1000L,1000R内部の現在時刻を設定する。なお、メインフレームホストがライトリクエストを送信した場合、ライトリクエストに対して時刻を付随させることができるため、このようなリクエストを受信した場合は、受信した時刻を設定してもよい。
(B)更新情報の更新番号に、対応するジャーナルグループ情報41330Pの更新番号に1を加えた値を設定する。
(C)更新情報のライトアドレスとライトデータ長は、ライトリクエストに含まれる情報(論理ボリューム番号、ライト開始アドレス、ライトデータ長)を設定する。なお、当該情報はライトリクエストの情報をそのまま保存することも考えられるが、正ストレージ装置1000L,1000R内部で用いられるアドレッシングルールに基づいた値を設定してもよい。
(D)ジャーナルグループ情報41330Pの更新番号は、同情報が持つ値に1を加算した値を設定する。
(S49004)ジャーナル作成処理プログラム38110は、ジャーナルボリューム38320J1,38320J2上に更新情報とライトデータの保存領域を確保し、S49003のステップで作成した更新情報のジャーナルボリュームアドレスに、ライトデータ保存領域の先頭アドレスを設定する。そして、かかる更新情報とかかるライトデータとをジャーナルボリューム38320J1,38320J2上に確保した保存領域へ書き込む。なお、書き込みに伴って、ジャーナルグループ情報41330Pの以下の情報を更新する。
(A)更新情報最新アドレスは、かかる更新情報の保存領域へ設定する。
(B)ライトデータ最新アドレスは、かかるライトデータの保存領域へ設定する。
(S49005)ジャーナル作成処理プログラム38110は、かかるデータボリューム38310D1〜38310D4が同期リモートコピーの副側のボリュームであった場合(S49005のY)、S49006へ進む。また、当該データボリューム38310D1〜38310D4が同期リモートコピーの副側のボリュームでなかった場合(S49005のN)、処理を終了する。
(S49006)ジャーナル作成処理プログラム38110は、リモートライトリクエストから更新情報を生成する。この更新情報の生成において、当該リモートライトリクエストに含まれている更新番号を、この更新情報の更新番号に設定する。また、この更新情報の生成において、更新時刻は、リモートライトリクエストに含まれている時刻に設定する。その他の更新情報の要素も対応する情報の設定を行う。
なお、リモートライトリクエストによって受信し、更新情報を作成した情報(例えば、更新番号)をジャーナルグループ情報41330Pに設定してもよい。なお、正系の正ストレージ装置1000Lがリモートライトリクエストで転送する更新番号は、S49003で作成した更新情報に含まれる更新番号と同じ値である。
次に、JNLRD処理を、図50を用いて説明する。JNLRD処理は、副ストレージ装置2550L,2550Rで実行される処理であり、初期化プログラム41030Bによって実行開始を指示され、その後副ストレージ装置2550L,2550Rがリモートコピー失敗に関する障害を検知したり、他のストレージ装置又はホスト1100Bから指示を受けるまで繰り返し行なわれる。
(S50001)JNLRD処理プログラム41080は、正ストレージ装置1000L,1000Rにジャーナルリードリクエストを送信する。なお、JNLRD処理プログラム41080が他の処理またはホスト1100Bからジャーナルデータの再送を要求された場合は、当該リクエストにリトライオプションと再転送対象のジャーナルデータを識別する情報(更新番号等)を付随して送信する。また、JNLRD処理にはジャーナルグループ情報41330Bのリストア済み最新更新番号の値が含まれる。
(S50002)JNLRD処理プログラム41080は、正ストレージ装置1000L,1000Rからの応答を受信する。
(S50003)JNLRD処理プログラム41080は、応答の内容が“ジャーナル無し”であったかどうかを判断し、”ジャーナル無し”の場合(S50003のY)はS50006へ進む。かかる応答の内容が“ジャーナル無し”でなかった場合(S50003のN)はS50004へ進む。
(S50006)JNLRD処理プログラム41080は、一定時間待つ。
(S50004)JNLRD処理プログラム41080は、自ストレージ装置内のジャーナルボリューム38320J3,38320J4にジャーナルデータ保存用の領域が不足していないか判断を行い、ジャーナルデータ用の記憶領域が確保できない場合(S50004のY)は、S50005へ進む。ジャーナルデータ用の記憶領域が確保できた場合(S50004のN)は、S50007へ進む。なお、この判断はジャーナルグループ情報41330Bの以下の情報を参照することで判断できる。
(A)更新情報最古アドレスを受信したジャーナルデータの更新情報分だけ加えたアドレスより、更新情報最新アドレスが小さい場合は、更新情報の保存領域が不足している。
(B)ライトデータ最古アドレスを受信したジャーナルデータのライトデータ分だけ加えたアドレスより、ライトデータ最新アドレスが小さい場合は、ライトデータの保存領域が不足している。
(S50007)JNLRD処理プログラム41080は、受信したジャーナルデータを破棄し、一定時間待つ。
(S50005)JNLRD処理プログラム41080は、ジャーナルボリューム38320J3,38320J4上に更新情報とライトデータの保存領域を確保し、受信したジャーナルデータの更新情報のジャーナルボリュームアドレスに、ライトデータ保存領域の先頭アドレスを設定する。そして、前記更新情報と前記ライトデータをジャーナルボリューム38320J3,38320J4上に確保した保存領域へ書き込む。なお、書き込みに伴って、ジャーナルグループ情報41330Bの以下の情報を更新する。
(A)更新情報最新アドレスは、上記更新情報の保存領域へ設定する。
(B)ライトデータ最新アドレスは、上記ライトデータの保存領域へ設定する。
なお、副ストレージ装置2550L,2550Rは同時に複数のジャーナルリードリクエストを出してもよい。
次に、リストア処理プログラム38100を、図51を用いて説明する。リストア処理プログラム38100は、副ストレージ装置2550L,2550Rで実行され、初期化プログラム41030Bによって処理を開始する。
(S51001)リストア処理プログラム38100は、リストア対象のジャーナルデータが存在するかどうかチェックを行う。このチェックの方法は、ジャーナルグループ情報41330Bを参照し、それぞれのジャーナルグループ38300G3,38300G4に対して、対応するジャーナルボリューム38320J3,38320J4のポインタ情報を参照し、更新情報最古アドレスと更新情報最新アドレスとを比較して、差が0でないかどうかを判断する。リストア対象のジャーナルデータが存在する場合(S51001のY)、S51002へ進む。リストア対象のジャーナルデータが存在しない場合(S51001のN)、全てのジャーナルデータが適用された状態となる(この状態をリストア処理の完了と呼ぶ場合がある)ため、リストア対象のジャーナルデータの到着を待つ(S51001をループ)。
(S51002)リストア処理プログラム38100は、ジャーナルボリューム38320J3,38320J4の更新情報領域に保存された一つまたは複数の更新情報を全てまたは部分的に読み込み、データボリューム38310D5〜38310D8に反映すべきライトデータを選択する。なお、かかるライトデータの決定は複数の更新情報を更新番号順に並べ直し、更新番号がジャーナルグループ情報41330Bの更新情報最古アドレス(リストア済みのジャーナルデータの最新更新番号を示す)の次の番号から連続している更新情報が選択対象となる。なお、上記並べ直し処理はジャーナルリードリクエストが並列に処理される場合に順序無関係に転送されるために必要となる。
(S51003)リストア処理プログラム38100は、S51002で決定した一つ以上のジャーナルデータが持つライトデータをデータボリューム38310D5〜38310D8へ書き込む。なお、選択対象のジャーナルデータが複数ある場合、本処理は更新番号順に各ジャーナルデータを書き込んでもよい。また、本書き込みの高速化として以下の処理を行っても良い。
(A)同じアドレスに複数のライトデータが書き込まれることが判明した場合、最後のライトデータだけ書き込み、他のライトデータの書き込みを省略する。
(B)別なアドレスが書き込み先となっている複数のライトデータがある場合、当該ライトデータの書き込みを並列または順不同に行う。
なお、いずれの処理でも本ステップ中はデータボリューム38310D5〜38310D8は不整合(ライトI/O順序が保たれていない)な状態となるため、本リストア処理を終了する場合は、本ステップの書き込み処理が全て完了し、整合性が確保できた状態にする必要がある。そして、ジャーナルグループ情報41330Bのリストア済み最新更新番号を本ステップで書き込んだ複数のライトデータに対応する更新情報の中で最新の値を設定する。
(S51004)リストア処理プログラム38100は、S51003で書き込んだジャーナルデータを開放する。開放の方法はJNLRD処理と同様であるため、省略する。
以上、本章では副ストレージ装置2550L,2550Rが主導でジャーナル取得要求を正ストレージ装置1000L,1000Rへ送信することでジャーナルデータを転送する非同期リモートコピー方式について説明した。なお、ジャーナルデータの転送方式としては正ストレージ装置1000L,1000R主導の方式も考えられる。より具体的にはこれまでの説明に変えて以下の変更・追加を行う
(A)正ストレージ装置1000L,1000Rは、定期的にジャーナルボリューム38320J1,38320J2を監視してジャーナルデータが存在したら当該ジャーナルデータを転送する。
(B)副ストレージ装置2550L,2550Rは、送信されたジャーナルデータを受信したらジャーナルデータをジャーナルボリューム38320J3,38320J4に保存する。そして、リストア済のジャーナルデータの最新更新番号を転送完了の応答と共に返す。また、副ストレージ装置2550L,2550Rが再度転送が必要と判断したジャーナルデータの更新番号を応答と共に正ストレージ装置1000L,1000Rに返してもよい。
さらに、正ストレージ装置1000L,1000Rがジャーナルデータを開放するタイミングとしてはリストア済ジャーナルデータの最新更新番号を元にする方法以外に、正ストレージ装置1000L,1000Rがジャーナルデータを転送を完了した時点で開放する方法も考えられる。
<9.正ストレージ装置と副ストレージ装置間のネットワーク障害>
正ストレージ装置1000L,1000Rと副ストレージ装置2550L,2550Rの間のネットワーク障害によって非同期リモートコピーが継続できない場合は、以下の処理を行うことが考えられる。
(正ストレージ装置の処理)正ストレージ装置1000L,1000Rは、リモートコピーの継続不可能な状態を検知したら、当該正ストレージ装置1000L,1000Rのジャーナルボリューム38320J1,38320J2に保存したジャーナルデータの更新情報に記録されたライト位置を正ストレージ装置1000L,1000Rが持つ差分ビットマップ(正)に記録する。また、正ストレージ装置1000L,1000Rがライトリクエストを受信した場合は、通常のライト処理と共に当該差分ビットマップにライト位置を記録する。
(副ストレージ装置の処理)副ストレージ装置2550L,2550Rは、リモートコピーの継続不可能な状態を検知したら、当該副ストレージ装置2550L,2550Rのジャーナルボリューム38320J3,38320J4に保存したジャーナルデータを開放する(ステップ1)。そして、副ストレージ装置2550L,2550Rがライトリクエストを受信した場合は、通常のライト処理と共に副ストレージ装置2550L,2550Rが持つ差分ビットマップ(副)にライト位置を記録する(ステップ2)。なお、かかるステップ1及びステップ2は独立のタイミングで実行されることもある。
(再同期指示を受けたときの正副ストレージ装置の処理)副ストレージ装置2550L,2550Rは差分ビットマップ(副)のデータを正ストレージ装置1000L,1000Rへ送信する。当該差分ビットマップを受信した正ストレージ装置1000L,1000Rは、差分ビットマップ(正)と受信した差分ビットマップ(副)の内容を確認することで、Suspend状態となった以後に正ストレージ装置1000L,1000R又は副ストレージ装置2550L,2550Rにおいてライトが発生したか否か、及び副ストレージ装置2550L,2550Rへ未転送状態のライトデータが存在する場合にはそのライト位置を特定する。そして、かかる正ストレージ装置1000L,1000Rは、Duplex−Pending状態中に特定した位置について差分コピーを実行する。
なお、上記処理はホスト1100Pから発行された分割指示で実行してもよい。なお、この場合は、Suspend状態となった後に副ストレージ装置2550L,2550Rのボリュームにアクセスすることがあるが、その場合に用いるべきボリュームを同定する方法はフェイルオーバー処理と同じである。ただし、フェイルオーバー処理は古いボリュームのデータは新しいボリュームのデータに上書きされてしまい、その後の差分コピーで副系のストレージ装置2550L,2550Rのリモートコピーが全コピーになってしまう。こうした状態を回避するため、フェイルオーバー処理に伴う副ストレージ装置2550L,2550R同士の同期リモートコピーは省略してもよい。
<10.非同期リモートコピーバリエーション>
非同期リモートコピーの実現方式にはこれまで説明した方法以外にもいくつか考えられる。
<10.1.ライトデータのグループ化方式>
正ストレージ装置1000L,1000Rは、一つ以上のライトデータをまとめてグループ化し、転送等を行う。新たなグループにライトデータを集め始める契機は、現在のグループに集め始めてから一定時間経過した場合や、一定量のライトが行われたことを正ストレージ装置1000L,1000Rが検知した場合が考えられるが、これ以外の契機(例えばホスト1100Pから指示を受けた場合等)であってもよい。なお、ジャーナルデータとは異なり、グループ内のライトデータ同士は順序情報を持たないが、グループ同士は順序情報を持つ。また、複数のライトが同じアドレスを更新した場合、同じグループ内で最新のライトデータだけ転送すればよい。
副ストレージ装置2550L,2550Rは、以下の両方の条件を満たしたグループ内のライトデータだけリストアすることによって、グループ内で順序関係を持たなくても副ストレージ装置2550のデータのライト順序を守ることが出来る。
(A)グループ内のすべてのライトデータを副ストレージ装置2550L,2550Rが受信していること。
(B)さらに、(A)のグループより前の更新番号を持つグループのライトデータがリストア済であること。
なお、後術のフェイルオーバー処理のため、副ストレージ装置2550L,2550Rは、例えば米国特許出願公開第2005/0213389号明細書に記載された方法を用いて、リストアが完了したグループの更新番号を保持する。
<10.2.論理スナップショットを利用した方式>
正ストレージ装置1000L,1000Rは、繰り返し論理スナップショットを作成し、当該スナップショットのデータを副ストレージ装置2550L,2550Rのボリュームにリモートライトする。第1〜第16の実施の形態で説明したように、論理スナップショットはCopy‐On‐Write処理に伴って書き込み位置を記録しているため、当該リモートライトすべきデータを同定することができる。
なお、このリモートライトは、9.1章と同じくライトリクエスト単位で順序関係が保たれていないため、副ストレージ装置2550L,2550Rのボリュームについても論理スナップショット(退避用)を作成し、その後にリモートライトを受け付けるようにする。また、正ストレージ装置1000L,1000Rは作成した論理スナップショットに対して更新番号を割り当ててリモートライトに付随させ、副ストレージ装置2550L,2550Rはどの世代(更新番号)の論理スナップショット(退避用)が作成されたか判別できる情報を持つ。このような技術については、米国特許出願公開第2005/0210210号明細書に詳しい。
<10.3.フェイルオーバー処理>
10.1章や10.2章の両方式とも、ライトデータが副ストレージ装置2550L,2550Rへ転送された時点ではライトデータ同士の順序関係が不明であり、フェイルオーバーに伴う最新データの同定ができない。その代わりとして以下の方法が考えられる。
(A)ローカル側の両方のストレージ装置1000L,1000Rは、お互いが連係することでアトミックに両方のストレージ装置1000L,1000Rのグループの切り替え(またはスナップショット作成)を行う。なお、アトミックの意味は、両方の正ストレージ装置1000L,1000Rの切り替え(または作成)の間にライトリクエストが処理されないことを指し、ホスト1100Pや正系の正ストレージ装置1000Lがライトリクエストを保留することで実現する方法が考えられる。さらに、ローカル側の両方の正ストレージ装置1000L,1000Rは、切り替えられたグループ(または作成されたスナップショット)に対して同じ更新番号を割り当てるようにする。なお、両方の正ストレージ装置1000L,1000Rの連係は、ローカル側の正系の正ストレージ装置1000Lが副系の正ストレージ装置1000Rに指示を出すことで行うことも考えられるが、これ以外にもホスト1100P上の常駐ソフトウェアが定期的に両方の正ストレージ装置1000L,1000Rに指示を出すことで連係してもよい。
(B)フェイルオーバー処理では、リストア済みのジャーナルデータ更新番号の代わりにグループ(または論理スナップショット(退避用))の更新番号を比較することで、どちらの副ストレージ装置2550L,2550Rが最新データを持っているか判別する。
<11.フェイルオーバー処理のバリエーション>
<11.1.ホストからのライトリクエストにクロックが付随する場合>
ホスト1100Pがメインフレームの場合、I/Oプロトコルの規定としてライトリクエストにホストが割り当てた時刻を付随させることができ、この時刻を用いればライトリクエスト同士の順序関係が判る。したがって、以下の変更・追加を行うことで、当該ライト付随時刻を元にしたフェイルオーバー処理を実現することができる。
(A)JNL作成処理は、ジャーナルデータを作成する時にライト付随時刻を更新情報に含め、副ストレージ装置2550L,2550Rへ転送する。
(B)リストア処理はリストアが完了したジャーナルデータの最新のライト付随時刻を保持するようにする。
(C)フェイルオーバー処理は、ジャーナルデータの更新番号の代わりにライト付随時刻を用いて最新データを特定する。
<11.2.アプリケーションの書き込みデータによる比較>
通常の同期リモートコピーではリモートライトリクエストに更新時刻を付随させる必要が無いため、これまで説明してきた方式はその部分の拡張が必要となる。本節では、この拡張を不要とする方式について説明する。
ホスト1100Pで動作しているアプリケーション2010(図38)がデータベースの場合、データベースが作成してボリュームに書き込むログにはデータベースが割り当てたトランザクション順序番号が割り当てられている。また、データベースを再起動する場合、データベースはトランザクションのアトミック性を確保するためにログを読み込むため、データベースの利用者は現時点のコミット済みの最新トランザクション順序番号が判る。
当然ながら、トランザクション順序番号もログも通常のライトリクエストでボリュームに書き込まれるため、非同期リモートコピーの対象になる。したがって、フェイルオーバー処理プログラム41100(又は管理者)が以下の手順を行えばどちらの副ストレージ装置2550L,2550Rが最新データを持つかわかる。
(Step1)フェイルオーバー処理プログラム41100は、ホスト1100Bのデータベースに対して片方の副ストレージ装置2550L,2550Rのボリュームを用いて再起動するように指示する。指示を受けたデータベースは再起動を行い、管理者またはフェイルオーバー処理プログラム41100に対して最新トランザクション順序番号を返す。なお、その後データベースは一度終了させてもよい。
(Step2)フェイルオーバー処理プログラム41100は、ホスト1100Bのデータベースに対してもう一方の副ストレージ装置2550L,2550Rのボリュームを用いて再起動するように指示する。指示を受けたデータベースはStep1と同様に再起動を行い、管理者またはフェイルオーバー処理プログラム41100に対して最新トランザクション順序番号を返す。
(Step3)フェイルオーバー処理プログラム41100は、Step1とStep2で得た最新トランザクション順序番号を比較し、新しい値を返すことが出来たときにデータベースが用いていた副ストレージ装置2550L,2550Rが最新データを持っていると判断する。
以上である。なお、本方法はデータベースに限った方法ではなく、I/Oパスマネージャー5000(図5)やファイルシステム5020(図5)がボリュームの特定領域に対して更新順序付のログを生成するのであればこのログを用いて比較を行っても良い。なお、本節で説明した方式は同期リモートコピーに対する拡張を不要とするもののアプリケーションの種類に依存するため、これまで説明してきたベストモードを否定するものではなく、また本方式がこれまで説明してきた方式によってベストモードを否定されるものでもない。
<12.サイト間が同期リモートコピーの場合>
なお、これまでの説明では正ストレージ装置1000L,1000Rと副ストレージ装置2550L,2550Rとの間は非同期リモートコピーによってデータコピーが行ってきたが、同期リモートコピーで代替してもよい。なお、サイト間が同期リモートコピーの場合は、4台全てのストレージ装置(正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550R)に対してデータコピーまたはライトが完了した時点でホスト1100Pにライト完了が返る。しかし、ネットワーク障害のパターンによってはサイト間の同期リモートコピーの片側だけが障害Suspend状態になることがあるため、同様なフェイルオーバー処理(必要な場合はローカル側の正系ストレージ装置1000Lによる更新情報の割り当て)が必要となる。
(18)第18の実施の形態
第17の実施の形態では、既存の非同期リモートコピーの処理を多く流用するために、ローカルサイト38000Pのホスト1100Pがライトしたデータは正系の正ストレージ装置1000L及び副系の正ストレージ装置1000Rの両方から副サイト38000Bへ転送されることとなり、サイト間のネットワーク利用効率が悪かった。本実施の形態では、非同期リモートコピーの拡張を行うことで、利用効率を改善する方法について記す。
<1.本実施形態の概要>
図52〜図54は、本実施の形態における発明の概要図である。なお、本実施の形態で用いるハードウェア構成は、第17の実施の形態等と同様である。また、ホスト1100P,1100B及び各ストレージ装置(正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550R)上で動作するプログラムについても第17の実施の形態と同様な構成となる。しかし、個々のプログラムは一部処理内容が異なるものがあるため、該当するプログラムについては後ほど説明を行う。
<1.1.通常状態>
図52は、本実施の形態による情報システムでの通常状態を示す。本実施の形態では、第17の実施の形態と同様に、ホスト1100P上のI/Oパスマネージャー5000(図5)によってローカル側の正系ストレージ装置1000Lへ送信されたライトデータが、正系及び副系のストレージ装置1000L,1000Rによってジャーナルデータ化される。しかし、ローカル側の正系ストレージ装置1000Lはリモート側の正系ストレージ装置2550Lへジャーナルデータを転送するが、ローカル側の副系ストレージ装置1000R及びリモート側の副系ストレージ装置2550R間では通常時、ジャーナル転送を行わない。その代わりとして、リモート側の正系ストレージ装置2550Lにライトされたデータがリモートコピーによってリモート側の副系ストレージ装置2550Rにコピーされる。
なお、サイト間のジャーナルデータの転送は、第17の実施の形態と同じくジャーナルリードリクエストによる方式が第一に考えられるが、これ以外の非同期RC方式を採用してもよい。こうしたジャーナルデータの転送先決定のためや、不正アクセスや誤動作回避のため、各正ストレージ装置1000L,1000R及び各副ストレージ装置2550L,2550Rは、正副情報41340P,41340Bに登録されたストレージ装置の情報を用いる。ローカル側の正系ストレージ装置1000Lが有するジャーナルデータの開放はジャーナルリードリクエストに付随するリストア済ジャーナルデータの更新番号を元に行われる。さらに、ローカル側の副系ストレージ装置1000Rが有するジャーナルデータの開放は、副系ストレージ装置1000Rで起動される非同期リモートコピープログラム41050Pの一部分である副系ジャーナル開放処理(図示せず)によって行われる。
また、リモート側の副ストレージ装置2550L,2550R間のデータボリューム38310D5〜38310D8間のリモートコピー(矢印52010)は、同期リモートコピーであっても、非同期リモートコピー(サイト間の非同期リモートコピーで用いた更新番号と同じ番号をリモート側のストレージ装置2550L,2550R同士の非同期リモートコピーのジャーナルデータに割り当てても良い)であってもよい。また、これ以外にも差分リモートコピーと呼ばれる非同期リモートコピーの一方式を採用してもよい。
差分リモートコピーは、コピー元ボリュームに対するライトリクエストの位置を差分ビットマップで記録し、定期的に動作するデータ転送処理プログラム(図示せず)が更新位置を見つけたら、コピー元ボリューム上のその位置のデータをコピー先ボリュームにコピーする方式である。他の非同期リモートコピーと異なり、同期リモートコピーの初期化コピーや再同期コピーが常に動作している形態と類似するため、処理が簡単で必要となる制御情報が少ないが、コピー元ボリュームを有するストレージ装置が障害停止したときのコピー先ボリュームのライト順序は守られない。
<1.2.正サイト障害後の状態>
図54は、図52で示した通常状態にてローカルサイト障害が発生した後の状態を示した概要図である。リモート側の正系ストレージ装置2550Lは、ホスト1100Bのフェイルオーバー処理プログラム41100からの処理依頼を契機として、リストア処理を停止させ、差分リモートコピーでコピーすべき更新位置のデータを全てコピーさせて、リモート側の両副ストレージ装置2550L,2550Rのデータボリューム38310D5〜38310D8の内容を同一に確定させた後にコピー方式を同期リモートコピーに切り替える。その後は他の実施の形態と同様に高可用構成を維持した状態でアプリケーション処理を再開する。なお、ホスト1100Bからのライトデータはサイト間非同期リモートコピーの差分ビットマップによって更新位置を記録してもよい。さらに、ローカルサイト38000Pの正ストレージ装置1000L,1000Rが利用可能に戻った場合(又はフェイルオーバーの理由が計画フェイルオーバーで正ストレージ装置1000L,1000Rは元々動作可能な状態の場合)は、リモートサイト38000Bからローカルサイト38000Pへの非同期リモートコピーを将来行うために、JNL作成処理を動作させることでジャーナルデータを作成してもよい。
<1.3.ローカル側の正系ストレージ装置障害後の状態>
図53は、ローカル側の正系ストレージ装置1000Lが障害停止した後の状態を示した概要図である。ホスト1100PのI/Oパスマネージャー5000(図5)は、当該障害を検知し、I/Oリクエストの送信先を副系ストレージ装置1000Rへ切り替える。そして、この切り替えに伴って、ローカル側の副系ストレージ装置1000Rは新たに正系ストレージ装置となり、正副情報41340P(図41)が更新される。
さらに、新たにローカル側の正系となったストレージ装置1000Rは、ジャーナルデータの転送先となっているリモート側の正系ストレージ装置2550Lへ正系と副系が変わったことを通知し、さらにリモート側の正系ストレージ装置2550Lが転送を希望するジャーナルデータの更新番号を取得する。通常状態の時点で新たにローカル側の正系となったストレージ装置1000Rはジャーナルデータを作成しているため、取得した更新番号からジャーナルデータの転送を行うことで非同期リモートコピーを継続することができる。そのため、ローカル側の正系ストレージ装置Lの障害に伴って正副系を切り替えても、リモート側のストレージ装置2550Lのデータボリューム38310D5,38310D6のライト順序を守ることができる。
<2.情報システムの初期化>
本実施の形態における情報システムのリモートコピーの初期化は以下の順序で行われる。なお各正ストレージ装置1000L,1000R及び各副ストレージ装置2550L,2550Rに与えられる指示の引数や経路などは第17の実施の形態と同じである。
(Step1)ローカル側の正系ストレージ装置1000Lのデータボリューム38310D1,38310D2から副系ストレージ装置1000Rのデータボリューム38310D3,38310D4への同期リモートコピーを行うようにし、初期化コピーが終わるまで待つ。同期リモートコピーの設定については第17の実施の形態と同様である。
(Step2)ローカル側の正系ストレージ装置1000Lのデータボリューム38310D1,38310D2から、リモート側の正系ストレージ装置2550Lのデータボリューム38310D5,38310D6への非同期リモートコピーを行うようにし、初期化コピーが終わるまで待つ。なお、ローカル側の副系ストレージ装置1000Rは、ローカル側の正系ストレージ装置1000Lがジャーナルデータを作成し始めたら、ジャーナルデータを作成する。
(Step3)リモート側の正系ストレージ装置2550Lから副系ストレージ装置2550Rへリモートコピーを行うようにし、初期化コピーが終わるまで待つ。
(Step4)各正ストレージ装置1000L,1000R及び各副ストレージ装置2550L,2550Rが持つ正副情報41340P,41340Bの装置番号とジャーナルグループ番号を更新する。
以上が初期化の手順である。なお、第1〜第17の実施の形態と同様に、リモートコピーの設定はホスト1100Pが指定することも考えられ、上記ステップ間の遷移やリモートコピーの設定はホスト1100P上のプログラムが行うことが考えられる。
<3.I/Oパスマネージャーの処理>
本実施の形態ではサイト間の非同期リモートコピーを切り替えるための契機が必要となる。本章ではそのために必要となる拡張について説明する。
図55及び図56は、第1の実施の形態の図10及び図11についてそれぞれ上述したリードリクエスト処理及びライトリクエスト処理の切り替え処理について必要な拡張の説明に供するフローチャートである。拡張については以下の処理を、副系利用可能の判断とリモートコピーの反転の間に挿入することで実現される。なお、図55のS55002,S55005〜S55008における処理は、図10のS10011,S10012〜S10015における処理と同じであり、図56のS56002,S56005〜S56008における処理は、図11のS11011,S11012〜S11015における処理と同じであるため、その説明は省略する。
(正副情報の更新:図55のS55003及び図56のS56003が該当)I/Oパスマネージャー5000(図5)は、ローカル側の副系ストレージ装置1000Rに対して、正副情報41340P(図41)を更新させる指示を発行する。指示を受信したローカル側の副系ストレージ装置1000Rは正副情報41340Pが示すローカル側の両正ストレージ装置1000L,1000Rの正系と副系の関係を入れ替えて、自らが正系ストレージ装置であることを示す情報に更新する。
なお、ローカル側の旧正系ストレージ装置1000Lとリモート側の両副ストレージ装置2550L,2550Rに対しても、ローカル側の両正ストレージ装置1000L,1000Rの正系と副系の関係が入れ替わったことを伝える必要がある。その方法としては、ホスト1100Pが直接各正ストレージ装置1000L,1000R及び各副ストレージ装置2550L,2550Rと通信することも考えられるが、ローカル側の副系ストレージ装置1000Rが代表してホスト1100Pから指示を受け、当該副系ストレージ装置1000Rが残りのストレージ装置(正系ストレージ装置1000R及び各副ストレージ装置2550L,2550R)へ指示を分配してもよい。この方法では、さらに、ホスト1100Pから指示を受け取ったローカル側の副系ストレージ装置1000Rがリモート側の正系ストレージ装置2550Lに指示を分配し、当該リモート側の正系ストレージ装置2550Lがさらにリモート側の副系ストレージ装置2550Rに指示を分配してもよい。また、ローカル側の旧正系ストレージ装置1000Lに対する指示方法として、同期リモートコピーの反転指示と共に送っても良い。
(非同期リモートコピーの切り替え:図55のS55003及び図56のS56003が該当)I/Oパスマネージャー5000(図5)は、ローカル側の副系ストレージ装置1000Rに対して非同期リモートコピーのコピー元のストレージ装置となるように切替え指示(以下、これを非同期リモートコピー切替え指示と呼ぶ)を出す。ローカル側の副系ストレージ装置1000Rは当該非同期リモートコピー切替え指示を受信したら、非同期リモートコピープログラム41050Pの切替え処理プログラム(図示せず)を呼び出すことで、自らが非同期リモートコピーのコピー元ストレージとなる。なお、非同期リモートコピー切替え指示に、リモート側の正系ストレージ装置2550Lの識別番号及びジャーナルグループ番号と、ローカル側の副系ストレージ装置1000Rのジャーナルグループ番号とを付随させてもよく、さらには、ペアを構成する上記ローカル側のジャーナルグループ38300G1,38300G2に属するデータボリューム38310D1〜38310D4の識別情報と上記リモート側のジャーナルグループ38300G3,38300G4に属するデータボリューム38310D5〜38310D8の識別情報の組を付随させてもよい。
以上である。なお、上述した正副情報41340P,41340B(図41)の更新と非同期リモートコピー切替え指示は、図39(ローカル側の副系ストレージ装置1000Rに対してライトリクエストを受信したことを契機とする切り替え処理)の同期リモートコピー反転処理の前に挿入してもよい。
<4.非同期リモートコピー>
<4.1.切り替え処理>
非同期リモートコピープログラム41050P,41050Bの切替え処理はホスト1100Pからの指示を契機として、コピー元となるストレージ装置1000L,1000Rを切り替える処理である。以下に本切替え処理に関係する各正ストレージ装置1000L,1000R及び各副ストレージ装置2550L,2550Rでの処理について説明する。なお、本処理が実行される正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550Rの正系及び副系という形容詞については本処理とともに実行される正副情報41340P,41340Bの更新で変わる場合がある。したがって、本節で「旧」を伴って正系及び副系と呼ぶ場合のストレージ装置(正ストレージ装置1000L,1000R及び副ストレージ装置2550L,2550R)は、ホスト1100Pの切替え処理によって正副情報41340P,41340Bの更新及び、本処理が実行される前の関係であるものとする。
<4.1.1.ローカル側の旧副系ストレージ装置での処理>
図57は、ホスト1100Pから切替え指示を受信するローカル側の旧副系ストレージ装置1000Rにおいて行われる切替え処理の処理内容を表すフローチャートである。以下、このフローチャートに従って説明する。
(S57001)ローカル側の旧副系ストレージ装置1000Rは、ホスト1100Pから送信された非同期リモートコピー切り替え指示を受信する。
(S57002)ローカル側の旧副系ストレージ装置1000Rは、受信した指示の引数を確認する。
(S57003)ローカル側の旧副系ストレージ装置1000Rは、副系ジャーナル開放処理を停止する。
(S57004)ローカル側の旧副系ストレージ装置1000Rは、リモート側の正系ストレージ装置2550LにS57001で受信した指示を送信し、その帰り値として相手ストレージ装置(すなわちリモート側の正系ストレージ装置2550L)のジャーナルグループ38300G3に転送が必要なジャーナルデータの更新番号が返されるのを待つ。なお、要求したジャーナルグループ38300G3が存在しなかった場合や、ジャーナルボリューム38300J3に属するコピー先データボリューム38310D5,38310D6がDuplex−Pending状態だった場合は更新番号の変わりにエラー値が得られるため、本処理はその場合はホスト1100Pに異常終了を返して終了する。
(S57005)ローカル側の旧副系ストレージ装置1000Rは、ジャーナルグループ情報41330Pにおける相手ストレージ装置番号とジャーナルグループ番号とを、リモート側の正系ストレージ装置2550Lの装置番号と、当該正系ストレージ装置2550Lのジャーナルグループ38300G3のジャーナルグループ番号とに更新する。この更新によって、コピー先以外のストレージ装置からの不正なジャーナルリードリクエストを拒否することができる。
(S57006)ローカル側の旧副系ストレージ装置1000Rは、コピーペア情報41300Pに作成する非同期リモートコピーのペアを登録・更新する。
(S45007)ローカル側の旧副系ストレージ装置1000Rは、JNLRD受信処理プログラム38120を起動し、ジャーナルリードリクエストに正常応答できるようにする。
<4.1.2.リモート側の正系ストレージ装置>
図58は、リモート側の正系ストレージ装置2550Lにおいて行なわれる切替え処理の処理内容を表すフローチャートである。以下、このフローチャートに従って説明する。
(S58001)リモート側の正系ストレージ装置2550Lは、ローカル側の旧副系ストレージ装置1000RがS57004で送信した非同期リモートコピー切替え指示を受信する。
(S58002)リモート側の正系ストレージ装置2550Lは、当該切替え指示がローカル側の旧副系ストレージ装置1000Rからのものか確認する。なお、送信元がローカル側の旧副系ストレージ装置R以外の場合は、本処理は終了する。
(S58003)リモート側の正系ストレージ装置2550Lは、要求されたジャーナルグループ38300G3とデータボリューム38310D5,38310D6の存在を確認する。なお、もしその存在が確認できない場合はエラー値を返して、本処理は終了する。
(S58004)リモート側の正系ストレージ装置2550Lは、リストア済のジャーナルデータの更新番号をローカル側の旧副系ストレージ装置1000Rへ返す。
(S58005)リモート側の正系ストレージ装置2550Lは、コピーペア情報41300に作成する非同期リモートコピーのペアを登録・更新する。
(S58006)リモート側の正系ストレージ装置2550Lは、ジャーナルグループ情報41330Pにおける相手ストレージ装置番号とジャーナルグループ番号とを、ローカル側の旧副系ストレージ装置1000Rの装置番号と、当該旧副系ストレージ装置1000Rのジャーナルグループ38300G3のグループ番号とに更新する。これによってJNLRD処理プログラム41080は、ジャーナルリードリクエストの送信先をローカル側の旧副系ストレージ装置1000Rへ切り替えることができる。
<4.1.3.ローカル側の旧正系ストレージ装置>
図59はローカル側の旧正系ストレージ装置1000Lにおいて行なわれる切替え処理の処理内容を表すフローチャートである。以下、このフローチャートに従って説明する。
(S59001)ローカル側の旧正系ストレージ装置1000Lは、ローカル側の旧副系ストレージ装置1000Rが正系となったことを検知する。なお、検知する方法としては以下が考えられるがこれ以外の方法で検知してもよい。
(方法1)ローカル側の旧副系ストレージ装置1000Rから正副情報41340Pの更新指示を受信した。
(方法2)ローカル側の旧副系ストレージ装置1000Rへ送信したリモートライトの帰り値で検知する。
(S59002)ローカル側の旧正系ストレージ装置1000Lは、JNLRD受信処理プログラム38120を停止する。
(S59003)ローカル側の旧正系ストレージ装置1000Lは、副系ジャーナル開放処理を起動する。
<4.2.ジャーナル作成処理>
本実施の形態でも第1〜第17の実施の形態と同様に、ローカル側の正系ストレージ装置1000Lは自身が生成した更新番号をつけたジャーナルデータを作成し、副系ストレージ装置1000Rはリモートライトに含まれる更新情報と更新時刻を元にジャーナルデータを作成する。
<4.3.JNLRD処理>
本実施の形態でも図50について上述した処理を用いる。
<4.4.JNLRD受信処理>
本実施の形態では図48にて示されるフローチャートに従った処理の開始直後に、まずはジャーナルリードリクエストの送信元が正副情報41340P又はジャーナルグループ情報41330Pに登録されたリモート側の正系ストレージ装置2550Lであることを確認するように拡張する。このような確認処理を追加する理由は以下の通りである。
(理由1)不正アクセスによって、データ流出を防ぐため
(理由2)不正アクセスであっても、ジャーナルリードリクエストが処理されてしまうと、次に転送すべきジャーナルを指すジャーナルグループ情報41330Pの更新情報転送開始アドレスが進んでしまい、ジャーナルデータ転送に不整合が生じるため。
<4.5.副系ジャーナル開放処理>
図60に、副系ジャーナル開放処理の処理内容を表すフローチャートを示す。以下、このフローチャートに従って説明を行う。
(S60001)副系ジャーナル開放処理は、ローカル側の正系ストレージ装置1000Lの関連するジャーナルグループ情報41330Pのリストア済み最新更新番号を取得する。
(S60002)副系ジャーナル開放処理は、受信した更新番号までジャーナルデータを開放する。具体的な開放の方法はJNLRD受信処理で述べた方法と同様である。
<5.フェイルオーバー処理>
第17の実施の形態と本実施の形態とでは、リモート側の副系ストレージ装置2550Rへのコピー経路が異なるため、図45とは異なる処理でフェイルオーバーを行う。図61に、本実施の形態におけるフェイルオーバー処理プログラム41100に基づくフェイルオーバー処理の処理内容を表すフローチャートを示す。
(S61001)まず、副ホスト1100Bのフェイルオーバー処理プログラム41100(図53)は、機能I/F等を介して、副ストレージ装置2550L,2550RのJNLRD処理プログラム41080の停止を指示する。当該指示を受けた副ストレージ装置2550L,2550Rは、JNLRD処理を停止する。なお、非同期リモートコピーの機能によってJNLRD処理プログラム41080が自動的に停止している場合には本ステップを省略することができる。
(S61002)次に、フェイルオーバー処理プログラム41100は、リモート側の正系ストレージ装置2550Lがリストア処理プログラム38130に基づくリストア処理を完了したことを認識する。たとえば、副ホスト1100Bは、機能I/Fを介して副ストレージ装置2550Lに対して、リストア処理が完了した時点で完了通知を返すように指示を出し、完了通知を待ち受ける方法が考えられる。
(S61003)次にフェイルオーバー処理プログラム41100は、リモート側の副系ストレージ装置2550Rのデータボリューム38310D7,38310D8のデータを、正系ストレージ装置2550Lのデータと同一にする。同一にする方法は、当該副ストレージ装置2550L,2550R間に設定されたリモートコピーの方式によって以下の通り異なる。
(同期リモートコピーの場合)通常状態から、リストアされたジャーナルデータに含まれるライトデータが副系ストレージ装置2550Rにもコピーされているため、特別な処理は不要である。
(非同期リモートコピーの場合)正系ストレージ装置2550Lのジャーナルボリューム38320J3に開放されていないジャーナルデータが存在するまで待つことで実現される。
(差分リモートコピーの場合)正系ストレージ装置2550Lの差分ビットマップがすべてクリアされることで実現される。
(S61004)次に、フェイルオーバー処理プログラム41100は、機能I/F等を使用して、上記選択した副ストレージ装置2550Lのジャーナルグループ38300G3に存在するデータボリューム38310D5,38310D6を正として同期リモートコピーのペアを作成する。なお、本ステップは通常状態から既に同期リモートコピーが設定されている場合は、省略することができる。また、その他のリモートコピーの形態でも正系と副系のストレージ装置2550L,2550Rのデータの内容が同一であるため、同期リモートコピーのための初期化コピーや再同期コピーを省略することができる。
(S61005)次に、フェイルオーバー処理プログラム41100は、副ホスト1100Bで動作するアプリケーションに対して、リモート側の正系ストレージ装置2550Lのデータボリューム38310D5,38310D6へアクセス開始を指示する。なお、これ以後の処理は第1の実施の形態を初めとした他の実施の形態(第1〜第17の実施の形態)と同様である。
<6.非同期リモートコピーのバリエーション>
第17の実施の形態にて説明したように非同期リモートコピーの方式にはそれぞれバリエーションが存在する。
<6.1.正ストレージ主導によるジャーナルデータ転送方式>
ジャーナルリードリクエスト方式ではリモート側の副ストレージ装置2550L,2550Rが主導でジャーナルデータ転送を行ってきたが、本方式はローカル側の正ストレージ装置1000L,1000Rが主導でジャーナル転送を行う。この場合、以下の状況が同時に発生してしまうと、ローカル側の正系と副系の両方の正ストレージ装置1000L,1000Rがリモート側の正系ストレージ装置2550Lにジャーナルデータを送信してしまい、不整合を起こしかねない。
(状況1)ローカル側の正系ストレージ装置1000Lとホスト1100P及び副系ストレージ装置1000Rとの間のネットワークが不通な状態だが、ローカル側の正系ストレージ装置1000Lからリモート側の正系ストレージ装置2550Lへのネットワークは通信可能。
(状況2)状況1の状態でホスト1100Pがローカル側の正系ストレージ装置1000Lにライトリクエストを送信する等によってリクエスト発行先がローカル側の副系ストレージ装置1000Rに切り替えられた(すなわち、副系が正系になった)。
(状況3)状況2では本来正系の正ストレージ装置1000Lへ副系となるように指示が出されるが、通信不能な状態のため、正系の正ストレージ装置1000Lは副系に変わらず、結果として2台とも正系となる。
そのため、リモート側の正系ストレージ装置2550Lがジャーナルデータを受信する際は送信元を確認し、非同期リモートコピー切替え指示等でローカル側の正系と指定された正ストレージ装置1000Rからのジャーナルデータだけ受け付けるようにする。
<6.2.ライトデータのグループ化方式>
第17の実施の形態で述べたとおり、グループ化したライトデータを一つのジャーナルデータとして扱い、本実施の形態にて開示した処理を行う。
<6.3.スナップショット方式>
第17の実施の形態で述べたとおり、ローカル側の両正ストレージ装置1000L,1000Rで同じタイミングで作成したスナップショットには同じ世代番号をつける。なお、本方式では、リモート側の副ストレージ装置2550L,2550Rに退避用のスナップショットを作成する必要があるが、その作成先として正系ストレージ装置2550Lにスナップショットを作成する方法がある。この方法の場合、副ホスト1100Bのフェイルオーバー処理プログラム41100によって退避用スナップショットのデータをコピー先のデータボリュームに書き戻し(差分のみでよい)、その後に正系ストレージ装置2550Lと副系ストレージ装置2550Rとのデータの内容を一致させる。
なお、これ以外にも副系ストレージ装置2550Rに退避用スナップショットを作成してもよい。
<7.副サイトの正系ストレージ装置障害対策>
本実施の形態の個々まで説明した方式では、リモート側の正系ストレージ装置2550Lが障害停止した場合にリモート側の副系ストレージ装置2550Rによって非同期リモートコピーを引き継ぐことはできない場合がある。なぜならば、リモート側の正系ストレージ装置2550Lだけがリモート側の正系と副系のストレージ装置2550L,2550R間のデータ差分位置を把握しているからである。したがって、リモート側の副系ストレージ装置2550Rが非同期リモートコピーを引き継ぐためには、ローカル側の正系ストレージ装置1000Lがリモート側の副系ストレージ装置2550Rにどの更新番号のジャーナルデータまで届いているか把握し、届いたジャーナルデータ以前のものだけ開放するようにすればよい。以下にリモート側の両副ストレージ装置2550L,2550R間のリモートコピー方式に合わせた二つの実現方法について説明する。
<7.1.差分リモートコピー方式>
<7.1.1.通常運用時>
定期的に以下の処理を繰り返す。
(Step1)リモート側の正系ストレージ装置2550Lはリストア処理を停止する。
(Step2)リモート側の正系ストレージ装置2550Lは副系ストレージ装置2550Rのデータと同一になるまで待つ。
(Step3)リモート側の正系ストレージ装置2550Lは、ローカル側の正系ストレージ装置1000Lに返すリストア済み更新番号の値としてStep1で停止した時に最後にリストアしたジャーナルデータの更新番号を記憶する。
(Step4)リモート側の正系ストレージ装置2550Lはリストア処理を再開し、一定時間待つ。
なお、Step3で記憶した更新番号はジャーナルリードリクエストによってローカル側の正系ストレージ装置1000Lに伝えられ、それ以前のジャーナルデータが開放される。
<7.1.2.リモート側正系ストレージ装置障害時>
リモート側の正系ストレージ装置2550Lの障害を検知したら、ローカル側の正系ストレージ装置1000Lはジャーナルデータを差分ビットマップ化することでライト位置を記録する。そしてローカル側の正系ストレージ装置1000Lとリモート側で新たに正系となった旧副系ストレージ装置2550Rは、非同期リモートコピーの再同期処理をその差分ビットマップで行う。
<7.2.非同期リモートコピー方式>
<7.2.1.通常運用時>
定期的に以下の処理を繰り返す。
(Step1)リモート側の正系ストレージ装置2550Lは、コピー先のデータボリューム38300G3にジャーナルデータをリストアする。
(Step2)リモート側の正系ストレージ装置2550Lは、当該ジャーナルデータを非同期リモートコピーでリモート側の副系ストレージ装置2550Rへ転送する。
(Step3)リモート側の副系ストレージ装置2550Rは、データボリューム38310D7,38310D8にリストアし、リストア済みジャーナルデータの更新番号をリモート側の正系ストレージ装置2550Lへ送信する。
(Step4)リモート側の正系ストレージ装置2550Lは、Step3で受け取った更新番号を元に、ジャーナルデータを開放する。また、ローカル側の正系ストレージ装置1000Lに当該更新番号を送信する。
(Step5)ローカル側の正系ストレージ装置1000Lは、Step4の更新番号を受信し、ジャーナルデータの開放に用いる。
<7.2.2.リモート側正系ストレージ装置障害時>
リモート側の正系ストレージ装置2550Rの障害発生後は、ローカル側の正系ストレージ装置1000Lは、リモート側の副系ストレージ装置2550Rにリストア済みジャーナルデータの更新番号を問い合わせ、そのジャーナルから転送できるようにする。一方のリモート側の副系ストレージ装置2550Rは、ジャーナルデータの送信元をリモート側の正系ストレージ装置2550Lからローカル側の正系ストレージ装置1000Lへ切り替え、ジャーナルデータを受け入れる。
<8.バリエーション>
以上、説明してきた方式では、ジャーナルデータの送信元が必ず正系ストレージ装置1000Lであったが、副系ストレージ装置1000Rが送信元になっても良い。
図1は、第1の実施の形態にかかる情報システムのハードウェア構成の一例を示すブロック図である。 図2は、第1の実施の形態の概要を示す第1の概念図である。 図3は、第1の実施の形態の概要を示す第2の概念図である。 図4は、第1の実施の形態の概要を示す第3の概念図である。 図5は、ホスト上のソフトウェア構成を表した概念図である。 図6は、仮想化ストレージ装置及びストレージ装置上のソフトウェア構成を表したブロック図である。 図7は、リモートコピーのペア状態とペア状態の遷移を表した概念図である。 図8は、I/Oパスマネージャーが管理するデバイス関係テーブルを示す概念図である。 図9は、I/Oパスマネージャーが初期化処理を行うときのフローを示したフローチャートである。 図10は、I/Oパスマネージャーがライト処理を行うときのフローを示したフローチャートである。 図11は、I/Oパスマネージャーがリード処理を行うときのフローを示したフローチャートである。 図12は、第2の実施の形態の概要を示す概念図である。 図13は、第3の実施の形態の概要を示す概念図である。 図14は、第4の実施の形態の概要を示す概念図である。 図15は、第5の実施の形態の概要を示す概念図である。 図16は、第6の実施の形態の概要を示す概念図である。 図17は、第7の実施の形態の概要を示す概念図である。 図18は、第8の実施の形態の概要を示す概念図である。 図19は、第9の実施の形態の概要を示す概念図である。 図20は、第10の実施の形態の概要を示す概念図である。 図21は、第11の実施の形態の概要を示す概念図である。 図22は、第12の実施の形態の概要を示す概念図である。 図23は、第13の実施の形態の概要を示す概念図である。 図24は、第14の実施の形態の概要を示す概念図である。 図25は、I/Oパスマネージャーがライト処理を行うときの別なフローを示したフローチャートである。 図26は、I/Oパスマネージャーがリード処理を行うときの別なフローを示したフローチャートである。 図27は、I/Oパスマネージャーが図25に記したライト処理を行うときに、ストレージ装置にて行うライトリクエストに応じたペア操作を示したフローチャートである。 図28は、第15の実施の形態の概要を示す概念図である。 図29は、第16の実施の形態の概要を示す概念図である。 図30は、第16の実施の形態の概要を示す概念図である。 図31は、本実施の形態における仮想化ストレージ装置及びストレージ装置上のソフトウェア構成を表したブロック図である。 図32は、仮想化ストレージ装置がライト処理を行うときのフローを示したフローチャートである。 図33は、仮想化ストレージ装置がリード処理を行うときのフローを示したフローチャートである。 図34は、AOU向けでステージング処理のフローを示したフローチャートである。 図35は、AOUアドレス変換情報の具体的内容の説明に供する概念図である。 図36は、AOUプール管理情報の具体的内容の説明に供する概念図である。 図37は、第17の実施の形態にかかる情報システムのハードウェア構成の一例を示すブロック図である。 図38は、第17の実施の形態の概要を示す第1の概念図である。 図39は、第17の実施の形態の概要を示す第2の概念図である。 図40は、第17の実施の形態の概要を示す第3の概念図である。 図41は、正ストレージ装置及び副ストレージ装置上のソフトウェア構成を表したブロック図である。 図42は、ジャーナルボリュームの構造の説明に供する概念図である。 図43は、第17の実施の形態によるリモートコピーのペア状態とペア状態の遷移を表した概念図である。 図44は、第17の実施の形態による初期化処理の流れを示すフローチャートである。 図45は、第17の実施の形態によるフェイルオーバー処理の流れを示すフローチャートである。 図46は、更新情報の説明に供する概念図である。 図47は、ジャーナルグループ情報41330Pの説明に供する概念図である。 図48は、JNLRD受信処理の流れを示すフローチャートである。 図49は、ジャーナル作成処理の流れを示すフローチャートである。 図50は、JNLRD処理の流れを示すフローチャートである。 図51は、リストア処理の流れを示すフローチャートである。 図52は、第18の実施の形態の概要を示す第1の概念図である。 図53は、第18の実施の形態の概要を示す第2の概念図である。 図54は、第18の実施の形態の概要を示す第3の概念図である。 図55は、リモートコピー用のライト処理における切替え処理の流れを示すフローチャートである。 図56は、リモートコピー用のリード処理における切替え処理の流れを示すフローチャートである。 図57は、ローカル側の旧副系ストレージ装置において行われる切替え処理の流れを示すフローチャートである。 図58は、リモート側の正系ストレージ装置において行なわれる切替え処理の流れを示すフローチャートである。 図59は、ローカル側の旧正系ストレージ装置において行なわれる切替え処理の流れを示すフローチャートである。 図60は、副系ジャーナル開放処理の流れを示すフローチャートである。 図61は、第18の実施の形態によるフェイルオーバー処理の流れを示すフローチャートである。
符号の説明
1000,1000L,1000R……仮想化ストレージ装置(正ストレージ装置)、1010……コントローラー、1011,1101……プロセッサ、1020,1020L,1020R……キャッシュメモリ、1030……HDD、1100,13010,14000……ホスト、1500,1500L,1500R,15000,15000L,15000R……ストレージ装置,2550,2550L,2550R……副ストレージ装置、2800L,2800R……仮想化スイッチ、3500LB,3500RB,5040,5050……ボリューム、2010,14002……アプリケーションプログラム、5000……I/Oパスマネージャー、5010……HBAデバイスドライバー、5020……ファイルシステム、13001,13002……ストレージサブシステム、15002A,15002B……コマンドデバイス、15010A,15010B……差分ビットマップ、16000……外部ストレージ装置、38000P……ローカルサイト、38000B……リモートサイト、38100P,38100B……I/O処理プログラム、38110,38140……JNL作成処理プログラム、38120……JNLRD受信処理プログラム、38130……リストア処理プログラム、38300G1〜38300G4……ジャーナルグループ、38310D1〜38310D8……データボリューム、41030P、41030B……初期化プログラム、41040P、41040B……同期リモートコピープログラム、41050P,41050B……非同期リモートコピープログラム、41100……フェイルオーバー処理プログラム、41300P,41300B……コピーペア情報、41320P,41320B……ボリューム情報、41330P,41330B……ジャーナルグループ情報、41340P,41340B……正副情報、52110,52120……差分リモートコピープログラム。

Claims (14)

  1. 上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムであって、
    前記第1のストレージ装置に接続され、第3のボリュームを有する第3のストレージ装置と、
    前記第2のストレージ装置に接続され、第4のボリュームを有する第4のストレージ装置と
    を備え、
    前記第1及び第2のストレージ装置は、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行し、
    前記第1及び第3のストレージ装置は、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行し、
    前記第2及び第4のストレージ装置は、前記第2のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行する
    ことを特徴とする情報システム。
  2. 前記第1のストレージ装置は、
    前記第1のホストコンピューターから前記第1のボリュームに書き込まれたデータに固有の更新番号を付与すると共に、当該データを前記第2又は第3のボリュームにコピーする際には、対応する前記更新番号を前記第2又は第3のストレージ装置に通知し、
    前記第2ストレージ装置は、
    前記第2のボリュームのデータを前記第4のボリュームにコピーする際には、対応する前記更新番号を前記第4のストレージ装置に通知する
    ことを特徴とする請求項1に記載の情報システム。
  3. 前記第3のストレージ装置は、前記第4のストレージ装置に接続され、
    前記第3及び第4のストレージ装置は、
    前記第1及び又は第2のストレージ装置の障害時、最新のデータを保持している前記第3又は第4のストレージ装置を正系として、前記第3及び第4のボリューム間でリモートコピーを開始する
    ことを特徴とする請求項2に記載の情報システム。
  4. 前記第3及び第4のストレージ装置に接続された第2のホストコンピューターを備え、
    前記第2のホストコンピューターは、
    前記第3のボリュームに格納された前記データの前記更新番号と、前記第4のボリュームに格納された対応する前記データの前記更新番号とを比較し、
    比較結果に基づいて最新のデータを持つ前記第3又は第4のストレージ装置を選択し、
    選択した前記第3又は第4のストレージ装置を正系として、第3及び第4のボリューム同士でコピーペアを形成する
    ことを特徴とする請求項3に記載の情報システム。
  5. 前記第1のホストコンピューターは、
    前記第1のストレージ装置に障害が発生したときには、第2のストレージ装置にパスを切り替える
    ことを特徴とする請求項1に記載の情報システム。
  6. 前記第1及び第2のストレージ装置は、前記第1のボリュームに格納されたデータを、当該第1のボリュームへの前記データの書き込みに同期して前記第2のボリュームにリモートコピーし、
    前記第1及び第3のストレージ装置は、前記第1のボリュームに格納されたデータを、当該第1のボリュームへの前記データの書き込みとは非同期に前記第3のボリュームにリモートコピーし、
    前記第2及び第4のストレージ装置は、前記第2のボリュームに格納されたデータを、当該第2のボリュームへの前記データの書き込みとは非同期に前記第4のボリュームにコピーする
    ことを特徴とする請求項1に記載の情報システム。
  7. 前記第1のストレージ装置は、
    前記第3のストレージ装置からの要求に応じて前記データを当該第3のストレージ装置に送信し、
    前記第2のストレージ装置は、
    前記第4のストレージ装置からの要求に応じて前記データを当該第4のストレージ装置に送信する
    ことを特徴とする請求項1に記載の情報システム。
  8. 前記第1のストレージ装置は、
    前記ホストから前記第1のボリュームに書き込むべき前記データを受け取ると、当該データと、前記更新番号を含む当該データの更新情報とからなるジャーナルデータを作成し、作成したジャーナルデータを当該第1のストレージ装置内に設けられた第1のジャーナルボリュームに保存すると共に、前記データを当該更新番号と共に前記第2のストレージ装置に送信し、
    前記第2のストレージ装置は、
    前記第1のストレージ装置から前記データを受け取ると、当該データを前記第2のボリュームに格納すると共に、当該データと、前記第1のストレージ装置から通知された前記更新番号を含む当該データの更新情報とかならなるジャーナルデータを作成し、作成したジャーナルデータを当該第2のストレージ装置内に設けられた第2のジャーナルボリュームに格納し、
    前記第3のストレージ装置は、
    前記第1のストレージ装置から送信される前記ジャーナルデータを当該第3のストレージ装置内に設けられた第3のジャーナルボリュームに保存すると共に、当該ジャーナルデータに含まれる前記データを前記第3のボリュームに格納し、
    前記第4のストレージ装置は、
    前記第2のストレージ装置から送信される前記ジャーナルデータを当該第4のストレージ装置内に設けられた第4のジャーナルボリュームに保存すると共に、当該ジャーナルデータに含まれる前記データを前記第4のボリュームに格納する
    ことを特徴とする請求項1に記載の情報システム。
  9. 上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムにおけるデータ保護方法であって、
    前記第1のストレージ装置に、第3のボリュームを有する第3のストレージ装置が接続されると共に、前記第2のストレージ装置に第4のボリュームを有する第4のストレージ装置が接続され、
    前記第1及び第2のストレージ装置が、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行する第1のステップと、
    前記第1及び第3のストレージ装置が、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行すると共に、前記第2及び第4のストレージ装置が、前記第2のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行する第2のステップと
    を備えることを特徴とするデータ保護方法。
  10. 上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムであって、
    前記第1及び第2のストレージ装置に接続され、第3のボリュームを有する第3のストレージ装置と、
    前記第3のストレージ装置に接続され、第4のボリュームを有する第4のストレージ装置と
    を備え、
    前記第1及び第2のストレージ装置は、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行し、
    前記第1及び第3のストレージ装置は、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行し、
    前記第3及び第4のストレージ装置は、前記第3のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行する
    ことを特徴とする情報システム。
  11. 前記第1のホストコンピューターは、
    前記第1のストレージ装置に障害が発生したときには、前記第2のストレージ装置にパスを切り替え、
    前記第2のストレージ装置は、
    前記ホストコンピューターから与えられるデータを前記第2のボリュームに書き込み、
    前記第2及び第3のストレージ装置は、
    前記第2のボリュームに格納された前記データを前記第3のボリュームにコピーする
    ことを特徴とする請求項10に記載の情報システム。
  12. 前記第3及び第4のストレージ装置は、
    前記第1のストレージ装置に障害が発生した後も、前記第3及び第4のボリューム間でのリモートコピーを継続する
    ことを特徴とする請求項11に記載の情報システム。
  13. 前記第3及び第4のストレージ装置と接続された第2のホストコンピューターを備え、
    前記第2のホストコンピューターは、
    前記第1及び又は第2のストレージ装置の障害時に前記第1のホストコンピューターの処理を引き継いで前記第3のボリュームにデータを書き込み、
    前記第3及び第4のストレージ装置は、
    前記第3のストレージ装置を正系として、前記第3及び第4のボリューム間でリモートコピーを実行する
    ことを特徴とする請求項10に記載の情報システム。
  14. 上位装置としての第1のホストコンピューターと、前記第1のホストコンピューターに接続され、第1のボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記第1のホストコンピューターに接続され、第2のボリュームを有する第2のストレージ装置とを有する情報システムにおけるデータ保護方法であって、
    前記第1及び第2のストレージ装置に、第3のボリュームを有する第3のストレージ装置が接続され、前記第3のストレージ装置に、第4のボリュームを有する第4のストレージ装置が接続され、
    前記第1及び第2のストレージ装置が、前記第1のボリュームに格納されたデータを前記第2のボリュームにコピーするリモートコピーを実行すると共に、前記第1及び第3のストレージ装置が、前記第1のボリュームに格納されたデータを前記第3のボリュームにコピーするリモートコピーを実行する第1のステップと、
    前記第3及び第4のストレージ装置が、前記第3のボリュームに格納されたデータを前記第4のボリュームにコピーするリモートコピーを実行する第2のステップと
    を備えることを特徴とするデータ保護方法。
JP2007085675A 2006-10-30 2007-03-28 情報システム、データ転送方法及びデータ保護方法 Expired - Fee Related JP5244332B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007085675A JP5244332B2 (ja) 2006-10-30 2007-03-28 情報システム、データ転送方法及びデータ保護方法
US11/850,892 US7739540B2 (en) 2006-10-30 2007-09-06 Information system, data transfer method and data protection method
US12/767,021 US7925914B2 (en) 2006-10-30 2010-04-26 Information system, data transfer method and data protection method
US13/039,526 US8281179B2 (en) 2006-10-30 2011-03-03 Information system, data transfer method and data protection method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006293485 2006-10-30
JP2006293485 2006-10-30
JP2007085675A JP5244332B2 (ja) 2006-10-30 2007-03-28 情報システム、データ転送方法及びデータ保護方法

Publications (2)

Publication Number Publication Date
JP2008134986A true JP2008134986A (ja) 2008-06-12
JP5244332B2 JP5244332B2 (ja) 2013-07-24

Family

ID=39331831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085675A Expired - Fee Related JP5244332B2 (ja) 2006-10-30 2007-03-28 情報システム、データ転送方法及びデータ保護方法

Country Status (2)

Country Link
US (3) US7739540B2 (ja)
JP (1) JP5244332B2 (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020410A (ja) * 2008-07-08 2010-01-28 Hitachi Ltd リモートコピーシステム及びリモートコピー方法
JP2010026940A (ja) * 2008-07-23 2010-02-04 Hitachi Ltd リモートコピーシステム、及びリモートサイトの省電力化方法
JP2010039986A (ja) * 2008-08-08 2010-02-18 Hitachi Ltd データのバックアップを管理する計算機システム及び方法
CN101957728A (zh) * 2009-07-15 2011-01-26 国际商业机器公司 用于向本地物理卷复制远程虚拟卷的装置和方法
JP2011076130A (ja) * 2009-09-29 2011-04-14 Hitachi Ltd ストレージクラスタ環境でのリモートコピー制御方法及びシステム
JP2012053878A (ja) * 2008-08-08 2012-03-15 Amazon Technologies Inc 実行プログラムによる非ローカルブロックデータストレージへの信頼性の高いアクセスの実現
JP2012123670A (ja) * 2010-12-09 2012-06-28 Nec Corp レプリケーションシステム
JP2012238083A (ja) * 2011-05-10 2012-12-06 Nec Corp データベースシステム、マスタースレーブ管理方法およびマスタースレーブ管理プログラム
JP2013543997A (ja) * 2011-03-02 2013-12-09 株式会社日立製作所 計算機システム及びデータ移行方法
WO2014181406A1 (ja) * 2013-05-08 2014-11-13 株式会社日立製作所 ストレージシステム及びデータ管理方法
JP5718533B1 (ja) * 2014-04-22 2015-05-13 株式会社日立製作所 ストレージシステムのデータ移行方法
WO2015189925A1 (ja) * 2014-06-11 2015-12-17 株式会社日立製作所 ストレージシステム、ストレージ装置及びデータ移行方法
JP2016009217A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システム、冗長化方法および冗長化プログラム
JP2016009216A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システムおよび冗長化方法
JP2016009219A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システムおよび冗長化方法
JP2016009218A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システム、冗長化方法および冗長化プログラム
JP2016119062A (ja) * 2014-12-19 2016-06-30 富士通株式会社 ストレージ装置、ストレージシステムおよびストレージ制御プログラム
WO2017046864A1 (ja) * 2015-09-15 2017-03-23 株式会社日立製作所 ストレージシステム、計算機システム、およびストレージシステムの制御方法
JP2020511708A (ja) * 2017-02-23 2020-04-16 セールスフォース ドット コム インコーポレイティッド 自動自己修復データベースシステム及び自動自己修復データベースシステムを実現する方法
JP2021124889A (ja) * 2020-02-04 2021-08-30 株式会社日立製作所 リモートコピーシステム及びリモートコピー管理方法

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002056181A2 (en) 2001-01-11 2002-07-18 Force Communications Inc Z File switch and switched file system
US8195760B2 (en) 2001-01-11 2012-06-05 F5 Networks, Inc. File aggregation in a switched file system
US8239354B2 (en) 2005-03-03 2012-08-07 F5 Networks, Inc. System and method for managing small-size files in an aggregated file system
US7509322B2 (en) 2001-01-11 2009-03-24 F5 Networks, Inc. Aggregated lock management for locking aggregated files in a switched file system
US20040133606A1 (en) 2003-01-02 2004-07-08 Z-Force Communications, Inc. Directory aggregation for files distributed over a plurality of servers in a switched file system
US7512673B2 (en) * 2001-01-11 2009-03-31 Attune Systems, Inc. Rule based aggregation of files and transactions in a switched file system
US7885970B2 (en) * 2005-01-20 2011-02-08 F5 Networks, Inc. Scalable system for partitioning and accessing metadata over multiple servers
US7958347B1 (en) 2005-02-04 2011-06-07 F5 Networks, Inc. Methods and apparatus for implementing authentication
US9195397B2 (en) 2005-04-20 2015-11-24 Axxana (Israel) Ltd. Disaster-proof data recovery
US7707453B2 (en) * 2005-04-20 2010-04-27 Axxana (Israel) Ltd. Remote data mirroring system
US8621275B1 (en) 2010-08-06 2013-12-31 Open Invention Network, Llc System and method for event-driven live migration of multi-process applications
US8281184B1 (en) 2010-08-06 2012-10-02 Open Invention Network Llc System and method for reliable non-blocking messaging for multi-process application replication
US8584145B1 (en) * 2010-08-06 2013-11-12 Open Invention Network, Llc System and method for dynamic transparent consistent application-replication of multi-process multi-threaded applications
US9141481B1 (en) 2010-08-06 2015-09-22 Open Invention Network, Llc System and method for reliable non-blocking messaging for multi-process application replication
US8589953B1 (en) * 2010-08-06 2013-11-19 Open Invention Network, Llc System and method for transparent consistent application-replication of multi-process multi-threaded applications
US8301700B1 (en) 2010-08-06 2012-10-30 Open Invention Network Llc System and method for event-driven live migration of multi-process applications
US9043640B1 (en) 2005-08-26 2015-05-26 Open Invention Network, LLP System and method for event-driven live migration of multi-process applications
US7809892B1 (en) 2006-04-03 2010-10-05 American Megatrends Inc. Asynchronous data replication
US8417746B1 (en) 2006-04-03 2013-04-09 F5 Networks, Inc. File system management with enhanced searchability
JP5244332B2 (ja) 2006-10-30 2013-07-24 株式会社日立製作所 情報システム、データ転送方法及びデータ保護方法
JP5057366B2 (ja) 2006-10-30 2012-10-24 株式会社日立製作所 情報システム及び情報システムのデータ転送方法
US8046547B1 (en) 2007-01-30 2011-10-25 American Megatrends, Inc. Storage system snapshots for continuous file protection
US20090077097A1 (en) * 2007-04-16 2009-03-19 Attune Systems, Inc. File Aggregation in a Switched File System
US8082407B1 (en) 2007-04-17 2011-12-20 American Megatrends, Inc. Writable snapshots for boot consolidation
WO2008147973A2 (en) * 2007-05-25 2008-12-04 Attune Systems, Inc. Remote file virtualization in a switched file system
JP4990066B2 (ja) * 2007-08-21 2012-08-01 株式会社日立製作所 論理ボリュームのペアを利用したデータ保存の方式を変更する機能を備えたストレージシステム
US9619171B2 (en) 2007-10-05 2017-04-11 Hitachi, Ltd. Storage system and virtualization method
JP2009093316A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd ストレージシステム及び仮想化方法
WO2009047751A2 (en) * 2007-10-08 2009-04-16 Axxana (Israel) Ltd. Fast data recovery system
US8140637B2 (en) * 2007-10-25 2012-03-20 Hewlett-Packard Development Company, L.P. Communicating chunks between devices
WO2009054827A1 (en) * 2007-10-25 2009-04-30 Hewlett-Packard Development Company, L.P. Data processing apparatus and method of processing data
US9372941B2 (en) 2007-10-25 2016-06-21 Hewlett Packard Enterprise Development Lp Data processing apparatus and method of processing data
JP4958739B2 (ja) * 2007-11-09 2012-06-20 株式会社日立製作所 障害の発生した記憶装置に記憶されているデータを修復するストレージシステム
US8548953B2 (en) * 2007-11-12 2013-10-01 F5 Networks, Inc. File deduplication using storage tiers
US8180747B2 (en) 2007-11-12 2012-05-15 F5 Networks, Inc. Load sharing cluster file systems
US8117244B2 (en) * 2007-11-12 2012-02-14 F5 Networks, Inc. Non-disruptive file migration
US20090204650A1 (en) * 2007-11-15 2009-08-13 Attune Systems, Inc. File Deduplication using Copy-on-Write Storage Tiers
JP4916420B2 (ja) * 2007-11-16 2012-04-11 株式会社日立製作所 ストレージシステム及びリモートコピー制御方法
US8065442B1 (en) 2007-11-19 2011-11-22 American Megatrends, Inc. High performance journaling for replication and continuous data protection
US8352785B1 (en) 2007-12-13 2013-01-08 F5 Networks, Inc. Methods for generating a unified virtual snapshot and systems thereof
US8307129B2 (en) * 2008-01-14 2012-11-06 International Business Machines Corporation Methods and computer program products for swapping synchronous replication secondaries from a subchannel set other than zero to subchannel set zero using dynamic I/O
US8370833B2 (en) * 2008-02-20 2013-02-05 Hewlett-Packard Development Company, L.P. Method and system for implementing a virtual storage pool in a virtual environment
JP5401041B2 (ja) 2008-02-21 2014-01-29 株式会社日立製作所 ストレージシステム及びコピー方法
WO2009141752A2 (en) * 2008-05-19 2009-11-26 Axxana (Israel) Ltd. Resilient data storage in the presence of replication faults and rolling disasters
US8065559B2 (en) * 2008-05-29 2011-11-22 Citrix Systems, Inc. Systems and methods for load balancing via a plurality of virtual servers upon failover using metrics from a backup virtual server
US8239624B2 (en) * 2008-06-06 2012-08-07 Pivot3, Inc. Method and system for data migration in a distributed RAID implementation
US8219750B2 (en) * 2008-06-30 2012-07-10 Pivot3 Method and system for execution of applications in conjunction with distributed RAID
US8549582B1 (en) 2008-07-11 2013-10-01 F5 Networks, Inc. Methods for handling a multi-protocol content name and systems thereof
US8516173B2 (en) * 2008-07-28 2013-08-20 International Business Machines Corporation Swapping PPRC secondaries from a subchannel set other than zero to subchannel set zero using control block field manipulation
JP5028381B2 (ja) * 2008-10-22 2012-09-19 株式会社日立製作所 ストレージ装置およびキャッシュ制御方法
US8176247B2 (en) 2008-10-28 2012-05-08 Pivot3 Method and system for protecting against multiple failures in a RAID system
JP5486793B2 (ja) * 2008-11-07 2014-05-07 株式会社日立製作所 リモートコピー管理システム、方法及び装置
US8176363B2 (en) * 2008-12-08 2012-05-08 International Business Machines Corporation Efficient method and apparatus for keeping track of in flight data in a dual node storage controller
US9720782B2 (en) * 2008-12-08 2017-08-01 Microsoft Technology Licensing, Llc Authenticating a backup image with bifurcated storage
US8332354B1 (en) 2008-12-15 2012-12-11 American Megatrends, Inc. Asynchronous replication by tracking recovery point objective
WO2010076755A2 (en) * 2009-01-05 2010-07-08 Axxana (Israel) Ltd Disaster-proof storage unit having transmission capabilities
TWI514249B (zh) * 2009-01-23 2015-12-21 Infortrend Technology Inc 遠端非同步資料卷複製的方法及執行該方法的儲存系統
JP5226125B2 (ja) * 2009-03-19 2013-07-03 株式会社日立製作所 ストレージシステム及びストレージシステムの制御方法
US8285948B2 (en) * 2009-03-23 2012-10-09 International Business Machines Corporation Reducing storage system power consumption in a remote copy configuration
CA3081255C (en) 2009-04-01 2023-08-22 Nicira, Inc. Method and apparatus for implementing and managing virtual switches
US8369968B2 (en) * 2009-04-03 2013-02-05 Dell Products, Lp System and method for handling database failover
JP4848443B2 (ja) * 2009-04-22 2011-12-28 株式会社日立製作所 暗号化/復号化機能を有するストレージシステムを制御する計算機
US8055943B2 (en) * 2009-04-24 2011-11-08 International Business Machines Corporation Synchronous and asynchronous continuous data protection
US8074107B2 (en) * 2009-10-26 2011-12-06 Amazon Technologies, Inc. Failover and recovery for replicated data instances
US8676753B2 (en) 2009-10-26 2014-03-18 Amazon Technologies, Inc. Monitoring of replicated data instances
US10721269B1 (en) 2009-11-06 2020-07-21 F5 Networks, Inc. Methods and system for returning requests with javascript for clients before passing a request to a server
US9021124B2 (en) 2009-12-02 2015-04-28 Axxana (Israel) Ltd. Distributed intelligent network
US9195500B1 (en) 2010-02-09 2015-11-24 F5 Networks, Inc. Methods for seamless storage importing and devices thereof
US8204860B1 (en) 2010-02-09 2012-06-19 F5 Networks, Inc. Methods and systems for snapshot reconstitution
US8392753B1 (en) * 2010-03-30 2013-03-05 Emc Corporation Automatic failover during online data migration
WO2011125126A1 (ja) * 2010-04-07 2011-10-13 株式会社日立製作所 非同期リモートコピーシステム、及び、記憶制御方法
US8874746B1 (en) * 2010-05-24 2014-10-28 Datacore Software Corporation Collaboration between discrete systems and a shared system to consolidate shared storage-related services
US8964528B2 (en) 2010-07-06 2015-02-24 Nicira, Inc. Method and apparatus for robust packet distribution among hierarchical managed switching elements
US8717895B2 (en) 2010-07-06 2014-05-06 Nicira, Inc. Network virtualization apparatus and method with a table mapping engine
US10103939B2 (en) 2010-07-06 2018-10-16 Nicira, Inc. Network control apparatus and method for populating logical datapath sets
US9525647B2 (en) 2010-07-06 2016-12-20 Nicira, Inc. Network control apparatus and method for creating and modifying logical switching elements
US9680750B2 (en) 2010-07-06 2017-06-13 Nicira, Inc. Use of tunnels to hide network addresses
US8347100B1 (en) 2010-07-14 2013-01-01 F5 Networks, Inc. Methods for DNSSEC proxying and deployment amelioration and systems thereof
US9135127B1 (en) 2010-08-06 2015-09-15 Open Invention Network, Llc System and method for dynamic transparent consistent application-replication of multi-process multi-threaded applications
US9286298B1 (en) 2010-10-14 2016-03-15 F5 Networks, Inc. Methods for enhancing management of backup data sets and devices thereof
CN102073462B (zh) * 2010-11-29 2013-04-17 华为技术有限公司 虚拟存储迁移方法、系统和虚拟机监控器
US9020895B1 (en) * 2010-12-27 2015-04-28 Netapp, Inc. Disaster recovery for virtual machines across primary and secondary sites
US9348515B2 (en) 2011-01-17 2016-05-24 Hitachi, Ltd. Computer system, management computer and storage management method for managing data configuration based on statistical information
WO2012127528A1 (en) * 2011-03-23 2012-09-27 Hitachi, Ltd. Storage system and method of controlling the same
JP5760585B2 (ja) * 2011-03-29 2015-08-12 富士通株式会社 ストレージシステムおよび異常発生箇所判定方法
WO2013070273A1 (en) 2011-04-01 2013-05-16 Nexsan Corporation Journaling raid system
US8527699B2 (en) 2011-04-25 2013-09-03 Pivot3, Inc. Method and system for distributed RAID implementation
US9043452B2 (en) 2011-05-04 2015-05-26 Nicira, Inc. Network control apparatus and method for port isolation
US9383928B2 (en) * 2011-06-13 2016-07-05 Emc Corporation Replication techniques with content addressable storage
US9747300B2 (en) 2011-06-15 2017-08-29 Amazon Technologies, Inc. Local networked storage linked to remote networked storage system
US8396836B1 (en) 2011-06-30 2013-03-12 F5 Networks, Inc. System for mitigating file virtualization storage import latency
EP2745208B1 (en) 2011-08-17 2018-11-28 Nicira, Inc. Distributed logical l3 routing
US8620886B1 (en) 2011-09-20 2013-12-31 Netapp Inc. Host side deduplication
US9178833B2 (en) 2011-10-25 2015-11-03 Nicira, Inc. Chassis controller
US9137107B2 (en) 2011-10-25 2015-09-15 Nicira, Inc. Physical controllers for converting universal flows
US9288104B2 (en) 2011-10-25 2016-03-15 Nicira, Inc. Chassis controllers for converting universal flows
US9203701B2 (en) 2011-10-25 2015-12-01 Nicira, Inc. Network virtualization apparatus and method with scheduling capabilities
US8463850B1 (en) 2011-10-26 2013-06-11 F5 Networks, Inc. System and method of algorithmically generating a server side transaction identifier
US20130124916A1 (en) * 2011-11-16 2013-05-16 Microsoft Corporation Layout of mirrored databases across different servers for failover
WO2013076757A1 (en) * 2011-11-22 2013-05-30 Hitachi, Ltd. Storage system, storage apparatus and method of controlling storage system
US9811272B1 (en) * 2011-12-28 2017-11-07 EMC IP Holding Company LLC Four site data replication using host based active/active model
US9020912B1 (en) 2012-02-20 2015-04-28 F5 Networks, Inc. Methods for accessing data in a compressed file system and devices thereof
US8626917B2 (en) * 2012-03-16 2014-01-07 Sap Ag File access using counter locking mechanism
CN104170334B (zh) 2012-04-18 2017-11-07 Nicira股份有限公司 一种用于管理网络的控制器的配置托管元件的方法及设备
US9323461B2 (en) * 2012-05-01 2016-04-26 Hitachi, Ltd. Traffic reducing on data migration
JP5826949B2 (ja) * 2012-05-11 2015-12-02 株式会社日立製作所 ストレージ装置及びデータ管理方法
US8918672B2 (en) 2012-05-31 2014-12-23 International Business Machines Corporation Maximizing use of storage in a data replication environment
US8938420B1 (en) * 2012-07-26 2015-01-20 Symantec Corporation Systems and methods for natural batching of I/O operations on a replication log
US9152552B2 (en) * 2012-09-11 2015-10-06 International Business Machines Corporation Securing sensitive information in a network cloud
US9519501B1 (en) 2012-09-30 2016-12-13 F5 Networks, Inc. Hardware assisted flow acceleration and L2 SMAC management in a heterogeneous distributed multi-tenant virtualized clustered system
CN103914474B (zh) * 2013-01-05 2018-12-28 腾讯科技(深圳)有限公司 一种数据迁移方法及系统
US9052839B2 (en) * 2013-01-11 2015-06-09 Hitachi, Ltd. Virtual storage apparatus providing a plurality of real storage apparatuses
US10375155B1 (en) 2013-02-19 2019-08-06 F5 Networks, Inc. System and method for achieving hardware acceleration for asymmetric flow connections
US9554418B1 (en) 2013-02-28 2017-01-24 F5 Networks, Inc. Device for topology hiding of a visited network
IN2013CH01006A (ja) * 2013-03-08 2015-08-14 Lsi Corp
US9559870B2 (en) 2013-07-08 2017-01-31 Nicira, Inc. Managing forwarding of logical network traffic between physical domains
US10218564B2 (en) 2013-07-08 2019-02-26 Nicira, Inc. Unified replication mechanism for fault-tolerance of state
US9887960B2 (en) 2013-08-14 2018-02-06 Nicira, Inc. Providing services for logical networks
US9952885B2 (en) 2013-08-14 2018-04-24 Nicira, Inc. Generation of configuration files for a DHCP module executing within a virtualized container
US9973382B2 (en) 2013-08-15 2018-05-15 Nicira, Inc. Hitless upgrade for network control applications
US9503371B2 (en) 2013-09-04 2016-11-22 Nicira, Inc. High availability L3 gateways for logical networks
US9577845B2 (en) 2013-09-04 2017-02-21 Nicira, Inc. Multiple active L3 gateways for logical networks
US10063458B2 (en) 2013-10-13 2018-08-28 Nicira, Inc. Asymmetric connection with external networks
US9575782B2 (en) 2013-10-13 2017-02-21 Nicira, Inc. ARP for logical router
US10769028B2 (en) 2013-10-16 2020-09-08 Axxana (Israel) Ltd. Zero-transaction-loss recovery for database systems
US10235382B2 (en) * 2013-11-12 2019-03-19 Red Hat, Inc. Transferring objects between different storage devices based on timestamps
US9213753B2 (en) * 2013-11-18 2015-12-15 Hitachi, Ltd. Computer system
WO2015097737A1 (ja) * 2013-12-24 2015-07-02 株式会社日立製作所 バックアップシステム
US9183101B2 (en) * 2014-01-28 2015-11-10 Vmware, Inc. High availability across geographically disjoint clusters
CN104881333B (zh) 2014-02-27 2018-03-20 国际商业机器公司 一种存储系统及其使用的方法
US9419855B2 (en) 2014-03-14 2016-08-16 Nicira, Inc. Static routes for logical routers
US9225597B2 (en) 2014-03-14 2015-12-29 Nicira, Inc. Managed gateways peering with external router to attract ingress packets
US9313129B2 (en) 2014-03-14 2016-04-12 Nicira, Inc. Logical router processing by network controller
US9590901B2 (en) 2014-03-14 2017-03-07 Nicira, Inc. Route advertisement by managed gateways
US9503321B2 (en) 2014-03-21 2016-11-22 Nicira, Inc. Dynamic routing for logical routers
US9647883B2 (en) 2014-03-21 2017-05-09 Nicria, Inc. Multiple levels of logical routers
US9893988B2 (en) 2014-03-27 2018-02-13 Nicira, Inc. Address resolution using multiple designated instances of a logical router
US9413644B2 (en) 2014-03-27 2016-08-09 Nicira, Inc. Ingress ECMP in virtual distributed routing environment
JP6199508B2 (ja) * 2014-04-21 2017-09-20 株式会社日立製作所 情報記憶システム
US9720786B2 (en) 2014-04-22 2017-08-01 International Business Machines Corporation Resolving failed mirrored point-in-time copies with minimum disruption
US10091120B2 (en) 2014-05-05 2018-10-02 Nicira, Inc. Secondary input queues for maintaining a consistent network state
WO2015173859A1 (ja) 2014-05-12 2015-11-19 株式会社日立製作所 ストレージシステム及びその制御方法
US9485308B2 (en) * 2014-05-29 2016-11-01 Netapp, Inc. Zero copy volume reconstruction
US9218407B1 (en) 2014-06-25 2015-12-22 Pure Storage, Inc. Replication and intermediate read-write state for mediums
JP6227776B2 (ja) * 2014-06-25 2017-11-08 株式会社日立製作所 ストレージシステム
WO2015198449A1 (ja) * 2014-06-26 2015-12-30 株式会社日立製作所 ストレージシステム
US11838851B1 (en) 2014-07-15 2023-12-05 F5, Inc. Methods for managing L7 traffic classification and devices thereof
US10185636B2 (en) * 2014-08-15 2019-01-22 Hitachi, Ltd. Method and apparatus to virtualize remote copy pair in three data center configuration
US10511458B2 (en) 2014-09-30 2019-12-17 Nicira, Inc. Virtual distributed bridging
US9768980B2 (en) 2014-09-30 2017-09-19 Nicira, Inc. Virtual distributed bridging
US10020960B2 (en) 2014-09-30 2018-07-10 Nicira, Inc. Virtual distributed bridging
US10250443B2 (en) 2014-09-30 2019-04-02 Nicira, Inc. Using physical location to modify behavior of a distributed virtual network element
US20160098331A1 (en) * 2014-10-07 2016-04-07 Netapp, Inc. Methods for facilitating high availability in virtualized cloud environments and devices thereof
US9703655B1 (en) * 2014-11-25 2017-07-11 Scale Computing Inc. Recovery after data loss in a reliable distributed computing system
US10152270B2 (en) * 2014-11-28 2018-12-11 Hitachi, Ltd. Storage system
US10182013B1 (en) 2014-12-01 2019-01-15 F5 Networks, Inc. Methods for managing progressive image delivery and devices thereof
US9841923B2 (en) * 2014-12-19 2017-12-12 Fujitsu Limited Storage apparatus and storage system
US10089307B2 (en) 2014-12-31 2018-10-02 International Business Machines Corporation Scalable distributed data store
US10079779B2 (en) 2015-01-30 2018-09-18 Nicira, Inc. Implementing logical router uplinks
US11895138B1 (en) 2015-02-02 2024-02-06 F5, Inc. Methods for improving web scanner accuracy and devices thereof
US10834065B1 (en) 2015-03-31 2020-11-10 F5 Networks, Inc. Methods for SSL protected NTLM re-authentication and devices thereof
US9875042B1 (en) * 2015-03-31 2018-01-23 EMC IP Holding Company LLC Asynchronous replication
US10038628B2 (en) 2015-04-04 2018-07-31 Nicira, Inc. Route server mode for dynamic routing between logical and physical networks
US9923760B2 (en) 2015-04-06 2018-03-20 Nicira, Inc. Reduction of churn in a network control system
KR20160141890A (ko) 2015-06-01 2016-12-12 에스케이하이닉스 주식회사 전자 장치
US10379958B2 (en) 2015-06-03 2019-08-13 Axxana (Israel) Ltd. Fast archiving for database systems
US10361952B2 (en) 2015-06-30 2019-07-23 Nicira, Inc. Intermediate logical interfaces in a virtual distributed router environment
US10230629B2 (en) 2015-08-11 2019-03-12 Nicira, Inc. Static route configuration for logical router
US10075363B2 (en) 2015-08-31 2018-09-11 Nicira, Inc. Authorization for advertised routes among logical routers
US10204122B2 (en) 2015-09-30 2019-02-12 Nicira, Inc. Implementing an interface between tuple and message-driven control entities
US10095535B2 (en) 2015-10-31 2018-10-09 Nicira, Inc. Static route types for logical routers
US10223222B2 (en) * 2015-12-21 2019-03-05 International Business Machines Corporation Storage system-based replication for disaster recovery in virtualized environments
US10404698B1 (en) 2016-01-15 2019-09-03 F5 Networks, Inc. Methods for adaptive organization of web application access points in webtops and devices thereof
US10797888B1 (en) 2016-01-20 2020-10-06 F5 Networks, Inc. Methods for secured SCEP enrollment for client devices and devices thereof
US9891849B2 (en) * 2016-04-14 2018-02-13 International Business Machines Corporation Accelerated recovery in data replication environments
US10333849B2 (en) 2016-04-28 2019-06-25 Nicira, Inc. Automatic configuration of logical routers on edge nodes
US11019167B2 (en) 2016-04-29 2021-05-25 Nicira, Inc. Management of update queues for network controller
US10484515B2 (en) 2016-04-29 2019-11-19 Nicira, Inc. Implementing logical metadata proxy servers in logical networks
US10841273B2 (en) 2016-04-29 2020-11-17 Nicira, Inc. Implementing logical DHCP servers in logical networks
US10091161B2 (en) 2016-04-30 2018-10-02 Nicira, Inc. Assignment of router ID for logical routers
US10042761B2 (en) * 2016-05-03 2018-08-07 International Business Machines Corporation Read and write sets for transactions of a multithreaded computing environment
US10733091B2 (en) 2016-05-03 2020-08-04 International Business Machines Corporation Read and write sets for ranges of instructions of transactions
US10153973B2 (en) 2016-06-29 2018-12-11 Nicira, Inc. Installation of routing tables for logical router in route server mode
US10560320B2 (en) 2016-06-29 2020-02-11 Nicira, Inc. Ranking of gateways in cluster
US10437730B2 (en) 2016-08-22 2019-10-08 International Business Machines Corporation Read cache synchronization in data replication environments
US10454758B2 (en) 2016-08-31 2019-10-22 Nicira, Inc. Edge node cluster network redundancy and fast convergence using an underlay anycast VTEP IP
US10341236B2 (en) 2016-09-30 2019-07-02 Nicira, Inc. Anycast edge service gateways
US10126946B1 (en) * 2016-09-30 2018-11-13 EMC IP Holding Company LLC Data protection object store
US10412198B1 (en) 2016-10-27 2019-09-10 F5 Networks, Inc. Methods for improved transmission control protocol (TCP) performance visibility and devices thereof
US10237123B2 (en) 2016-12-21 2019-03-19 Nicira, Inc. Dynamic recovery from a split-brain failure in edge nodes
US10742746B2 (en) 2016-12-21 2020-08-11 Nicira, Inc. Bypassing a load balancer in a return path of network traffic
US10212071B2 (en) 2016-12-21 2019-02-19 Nicira, Inc. Bypassing a load balancer in a return path of network traffic
US10616045B2 (en) 2016-12-22 2020-04-07 Nicira, Inc. Migration of centralized routing components of logical router
JP2018136719A (ja) * 2017-02-21 2018-08-30 富士ゼロックス株式会社 送受信システム、情報処理装置、および、プログラム
US10592326B2 (en) 2017-03-08 2020-03-17 Axxana (Israel) Ltd. Method and apparatus for data loss assessment
US10423342B1 (en) 2017-03-30 2019-09-24 Amazon Technologies, Inc. Scaling events for hosting hierarchical data structures
US10567492B1 (en) 2017-05-11 2020-02-18 F5 Networks, Inc. Methods for load balancing in a federated identity environment and devices thereof
US10511459B2 (en) 2017-11-14 2019-12-17 Nicira, Inc. Selection of managed forwarding element for bridge spanning multiple datacenters
US10374827B2 (en) 2017-11-14 2019-08-06 Nicira, Inc. Identifier that maps to different networks at different datacenters
US11223689B1 (en) 2018-01-05 2022-01-11 F5 Networks, Inc. Methods for multipath transmission control protocol (MPTCP) based session migration and devices thereof
US10833943B1 (en) 2018-03-01 2020-11-10 F5 Networks, Inc. Methods for service chaining and devices thereof
US11132145B2 (en) * 2018-03-14 2021-09-28 Apple Inc. Techniques for reducing write amplification on solid state storage devices (SSDs)
US11144217B2 (en) * 2018-10-02 2021-10-12 Jmicron Technology Corp. Data protection method and associated storage device
US10931560B2 (en) 2018-11-23 2021-02-23 Vmware, Inc. Using route type to determine routing protocol behavior
US10797998B2 (en) 2018-12-05 2020-10-06 Vmware, Inc. Route server for distributed routers using hierarchical routing protocol
US10938788B2 (en) 2018-12-12 2021-03-02 Vmware, Inc. Static routes for policy-based VPN
US11159343B2 (en) 2019-08-30 2021-10-26 Vmware, Inc. Configuring traffic optimization using distributed edge services
US20210272035A1 (en) * 2020-02-28 2021-09-02 Uber Technologies, Inc. Storage location selection according to query evaluation
US11416347B2 (en) * 2020-03-09 2022-08-16 Hewlett Packard Enterprise Development Lp Making a backup copy of data before rebuilding data on a node
CN111752960B (zh) * 2020-06-28 2023-07-28 北京百度网讯科技有限公司 数据处理方法和装置
US11616755B2 (en) 2020-07-16 2023-03-28 Vmware, Inc. Facilitating distributed SNAT service
US11606294B2 (en) 2020-07-16 2023-03-14 Vmware, Inc. Host computer configured to facilitate distributed SNAT service
US11611613B2 (en) 2020-07-24 2023-03-21 Vmware, Inc. Policy-based forwarding to a load balancer of a load balancing cluster
US11451413B2 (en) 2020-07-28 2022-09-20 Vmware, Inc. Method for advertising availability of distributed gateway service and machines at host computer
US11902050B2 (en) 2020-07-28 2024-02-13 VMware LLC Method for providing distributed gateway service at host computer
CN113419937A (zh) * 2021-06-29 2021-09-21 达梦数据技术(江苏)有限公司 一种数据和日志一体化的值日志实现方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122509A (ja) * 2001-08-08 2003-04-25 Hitachi Ltd リモートコピー制御方法、これを用いた記憶サブシステム、及び、これらを用いた広域データストレージシステム
JP2004013367A (ja) * 2002-06-05 2004-01-15 Hitachi Ltd データ記憶サブシステム
US20040230736A1 (en) * 2003-01-21 2004-11-18 Stmicroelectronics S.A. Negative voltage word line decoder, having compact terminating elements
JP2005018506A (ja) * 2003-06-27 2005-01-20 Hitachi Ltd 記憶システム
JP2005267216A (ja) * 2004-03-18 2005-09-29 Hitachi Ltd ストレージリモートコピー方法および情報処理システム
JP2005316684A (ja) * 2004-04-28 2005-11-10 Hitachi Ltd データ処理システム
JP2006048676A (ja) * 2004-08-03 2006-02-16 Hitachi Ltd データ複製を利用したフェイルオーバとデータ移行

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US184728A (en) * 1876-11-28 Improvement in photograph-cabinets
US210078A (en) * 1878-11-19 Improvement in slicing-machines
US33828A (en) * 1861-12-03 Improved apparatus for purifying acid water for steam-boilers
US260736A (en) * 1882-07-11 Process of separating caustic alkali from gluten
US148443A (en) * 1874-03-10 Improvement in fire-proof buildings
US251517A (en) * 1881-12-27 brijncker
US38824A (en) * 1863-06-09 photo-uthografhefl
US91455A (en) * 1869-06-15 Improved roofing-paint
US69889A (en) * 1867-10-15 Improved roofing composition
US104443A (en) * 1870-06-21 Improved machine for feeding stock to eyelet-machines
US277378A (en) * 1883-05-08 Johan
US114599A (en) * 1871-05-09 Improvement in treadles
US205479A (en) * 1878-07-02 Improvement
US95482A (en) * 1869-10-05 Improved whip-holder
US67593A (en) * 1867-08-06 Improved stove-lid lifter
US257819A (en) * 1882-05-09 Railway-signal
US250034A (en) * 1881-11-22 Self and lindley vinton
KR0128271B1 (ko) 1994-02-22 1998-04-15 윌리암 티. 엘리스 재해회복을 위한 일관성 그룹 형성방법 및 레코드갱싱의 섀도잉 방법, 주시스템, 원격데이타 섀도잉 시스템과 비동기 원격데이타 복제 시스템
US5577309A (en) * 1995-03-01 1996-11-26 Texas Instruments Incorporated Method for forming electrical contact to the optical coating of an infrared detector
JP3228182B2 (ja) * 1997-05-29 2001-11-12 株式会社日立製作所 記憶システム及び記憶システムへのアクセス方法
JP3414218B2 (ja) 1997-09-12 2003-06-09 株式会社日立製作所 記憶制御装置
US6338110B1 (en) * 1997-11-14 2002-01-08 Sun Microsystems, Inc. Partitioning of storage channels using programmable switches
US6253295B1 (en) * 1998-07-20 2001-06-26 International Business Machines Corporation System and method for enabling pair-pair remote copy storage volumes to mirror data in another pair of storage volumes
JP4115060B2 (ja) 2000-02-02 2008-07-09 株式会社日立製作所 情報処理システムのデータ復旧方法及びディスクサブシステム
JP4175788B2 (ja) 2001-07-05 2008-11-05 株式会社日立製作所 ボリューム制御装置
US7080197B2 (en) 2002-04-18 2006-07-18 Lsi Logic Corporation System and method of cache management for storage controllers
JP4704659B2 (ja) * 2002-04-26 2011-06-15 株式会社日立製作所 記憶装置システムの制御方法および記憶制御装置
US7085956B2 (en) * 2002-04-29 2006-08-01 International Business Machines Corporation System and method for concurrent logical device swapping
US6973586B2 (en) * 2002-04-29 2005-12-06 International Business Machines Corporation System and method for automatic dynamic address switching
JP4322511B2 (ja) * 2003-01-27 2009-09-02 株式会社日立製作所 情報処理システムの制御方法、及び情報処理システム
US7266654B2 (en) 2003-03-18 2007-09-04 Hitachi, Ltd. Storage system, server apparatus, and method for creating a plurality of snapshots
JP4394467B2 (ja) 2004-01-29 2010-01-06 株式会社日立製作所 ストレージシステム、サーバ装置及び先行コピーデータ生成方法
JP4292882B2 (ja) 2003-03-18 2009-07-08 株式会社日立製作所 複数のスナップショット維持方法及びサーバ装置及びストレージ装置
US7318133B2 (en) * 2003-06-03 2008-01-08 Hitachi, Ltd. Method and apparatus for replicating volumes
US7467168B2 (en) * 2003-06-18 2008-12-16 International Business Machines Corporation Method for mirroring data at storage locations
US7065589B2 (en) * 2003-06-23 2006-06-20 Hitachi, Ltd. Three data center remote copy system with journaling
JP4374953B2 (ja) 2003-09-09 2009-12-02 株式会社日立製作所 データ処理システム
JP4419460B2 (ja) * 2003-08-04 2010-02-24 株式会社日立製作所 リモートコピーシステム
JP4598387B2 (ja) 2003-09-17 2010-12-15 株式会社日立製作所 記憶システム
JP4282464B2 (ja) 2003-12-17 2009-06-24 株式会社日立製作所 リモートコピーシステム
JP4307982B2 (ja) * 2003-12-19 2009-08-05 株式会社日立製作所 データ多重化制御方法
US7120769B2 (en) * 2004-03-08 2006-10-10 Hitachi, Ltd. Point in time remote copy for multiple sites
US7395265B2 (en) * 2004-08-27 2008-07-01 Hitachi, Ltd. Data processing system and storage subsystem provided in data processing system
JP2006099440A (ja) * 2004-09-29 2006-04-13 Hitachi Ltd リモートコピーシステム
US7437601B1 (en) * 2005-03-08 2008-10-14 Network Appliance, Inc. Method and system for re-synchronizing an asynchronous mirror without data loss
JP4733431B2 (ja) * 2005-06-01 2011-07-27 株式会社日立製作所 リモートコピーの初期コピーシステムおよび初期コピー方法ならびに記憶装置
US20060277278A1 (en) * 2005-06-06 2006-12-07 International Business Machines Corporation Distributing workload among DNS servers
JP4963808B2 (ja) * 2005-08-05 2012-06-27 株式会社日立製作所 記憶制御システム
JP4955996B2 (ja) 2005-09-20 2012-06-20 株式会社日立製作所 ボリューム移行方法およびストレージネットワークシステム
US7702851B2 (en) * 2005-09-20 2010-04-20 Hitachi, Ltd. Logical volume transfer method and storage network system
JP5244332B2 (ja) 2006-10-30 2013-07-24 株式会社日立製作所 情報システム、データ転送方法及びデータ保護方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122509A (ja) * 2001-08-08 2003-04-25 Hitachi Ltd リモートコピー制御方法、これを用いた記憶サブシステム、及び、これらを用いた広域データストレージシステム
JP2004013367A (ja) * 2002-06-05 2004-01-15 Hitachi Ltd データ記憶サブシステム
US20040230736A1 (en) * 2003-01-21 2004-11-18 Stmicroelectronics S.A. Negative voltage word line decoder, having compact terminating elements
JP2005018506A (ja) * 2003-06-27 2005-01-20 Hitachi Ltd 記憶システム
JP2005267216A (ja) * 2004-03-18 2005-09-29 Hitachi Ltd ストレージリモートコピー方法および情報処理システム
JP2005316684A (ja) * 2004-04-28 2005-11-10 Hitachi Ltd データ処理システム
JP2006048676A (ja) * 2004-08-03 2006-02-16 Hitachi Ltd データ複製を利用したフェイルオーバとデータ移行

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364919B2 (en) 2008-07-08 2013-01-29 Hitachi, Ltd. Remote copy system and method
JP2010020410A (ja) * 2008-07-08 2010-01-28 Hitachi Ltd リモートコピーシステム及びリモートコピー方法
US8732420B2 (en) 2008-07-08 2014-05-20 Hitachi, Ltd. Remote copy system and method
JP2010026940A (ja) * 2008-07-23 2010-02-04 Hitachi Ltd リモートコピーシステム、及びリモートサイトの省電力化方法
JP2012053878A (ja) * 2008-08-08 2012-03-15 Amazon Technologies Inc 実行プログラムによる非ローカルブロックデータストレージへの信頼性の高いアクセスの実現
JP2010039986A (ja) * 2008-08-08 2010-02-18 Hitachi Ltd データのバックアップを管理する計算機システム及び方法
CN101957728A (zh) * 2009-07-15 2011-01-26 国际商业机器公司 用于向本地物理卷复制远程虚拟卷的装置和方法
JP2011076130A (ja) * 2009-09-29 2011-04-14 Hitachi Ltd ストレージクラスタ環境でのリモートコピー制御方法及びシステム
JP2012123670A (ja) * 2010-12-09 2012-06-28 Nec Corp レプリケーションシステム
JP2013543997A (ja) * 2011-03-02 2013-12-09 株式会社日立製作所 計算機システム及びデータ移行方法
JP2012238083A (ja) * 2011-05-10 2012-12-06 Nec Corp データベースシステム、マスタースレーブ管理方法およびマスタースレーブ管理プログラム
GB2526031B (en) * 2013-05-08 2020-07-29 Hitachi Ltd Storage system and data management method
GB2526031A (en) * 2013-05-08 2015-11-11 Hitachi Ltd Storage system and method for managing data
WO2014181406A1 (ja) * 2013-05-08 2014-11-13 株式会社日立製作所 ストレージシステム及びデータ管理方法
US9983962B2 (en) 2013-05-08 2018-05-29 Hitachi, Ltd. Storage system and data management method of journaling and storing remote copies
JP5990641B2 (ja) * 2013-05-08 2016-09-14 株式会社日立製作所 ストレージシステム及びデータ管理方法
JP5718533B1 (ja) * 2014-04-22 2015-05-13 株式会社日立製作所 ストレージシステムのデータ移行方法
WO2015162684A1 (ja) * 2014-04-22 2015-10-29 株式会社日立製作所 ストレージシステムのデータ移行方法
GB2539340B (en) * 2014-04-22 2021-03-24 Hitachi Ltd Data migration method of storage system
GB2539340A (en) * 2014-04-22 2016-12-14 Hitachi Ltd Data migration method of storage system
WO2015189925A1 (ja) * 2014-06-11 2015-12-17 株式会社日立製作所 ストレージシステム、ストレージ装置及びデータ移行方法
JPWO2015189925A1 (ja) * 2014-06-11 2017-04-20 株式会社日立製作所 ストレージシステム、ストレージ装置及びデータ移行方法
US10191685B2 (en) 2014-06-11 2019-01-29 Hitachi, Ltd. Storage system, storage device, and data transfer method
US10049021B2 (en) 2014-06-20 2018-08-14 Fujitsu Limited Redundant system and redundancy method
JP2016009216A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システムおよび冗長化方法
JP2016009217A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システム、冗長化方法および冗長化プログラム
US9886359B2 (en) 2014-06-20 2018-02-06 Fujitsu Limited Redundant system, redundancy method, and computer-readable recording medium
US9921927B2 (en) 2014-06-20 2018-03-20 Fujitsu Limited Redundant system, redundancy method, and computer-readable recording medium
US9971661B2 (en) 2014-06-20 2018-05-15 Fujitsu Limited Redundant system, method for redundant system, method for controlling node of redundant system and computer readable storage medium
JP2016009218A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システム、冗長化方法および冗長化プログラム
JP2016009219A (ja) * 2014-06-20 2016-01-18 富士通株式会社 冗長システムおよび冗長化方法
JP2016119062A (ja) * 2014-12-19 2016-06-30 富士通株式会社 ストレージ装置、ストレージシステムおよびストレージ制御プログラム
US10353592B2 (en) 2015-09-15 2019-07-16 Hitachi, Ltd. Storage system, computer system, and control method for storage system
WO2017046864A1 (ja) * 2015-09-15 2017-03-23 株式会社日立製作所 ストレージシステム、計算機システム、およびストレージシステムの制御方法
JPWO2017046864A1 (ja) * 2015-09-15 2017-09-14 株式会社日立製作所 ストレージシステム、計算機システム、およびストレージシステムの制御方法
US11199973B2 (en) 2015-09-15 2021-12-14 Hitachi, Ltd. Storage system, computer system, and control method for storage system
JP2020511708A (ja) * 2017-02-23 2020-04-16 セールスフォース ドット コム インコーポレイティッド 自動自己修復データベースシステム及び自動自己修復データベースシステムを実現する方法
JP7208906B2 (ja) 2017-02-23 2023-01-19 セールスフォース ドット コム インコーポレイティッド 自動自己修復データベースシステム及び自動自己修復データベースシステムを実現する方法
JP7208906B6 (ja) 2017-02-23 2023-02-28 セールスフォース インコーポレイテッド 自動自己修復データベースシステム及び自動自己修復データベースシステムを実現する方法
JP2021124889A (ja) * 2020-02-04 2021-08-30 株式会社日立製作所 リモートコピーシステム及びリモートコピー管理方法
JP7117338B2 (ja) 2020-02-04 2022-08-12 株式会社日立製作所 リモートコピーシステム及びリモートコピー管理方法

Also Published As

Publication number Publication date
US8281179B2 (en) 2012-10-02
US20100205479A1 (en) 2010-08-12
US7925914B2 (en) 2011-04-12
US7739540B2 (en) 2010-06-15
US20080104443A1 (en) 2008-05-01
JP5244332B2 (ja) 2013-07-24
US20110154102A1 (en) 2011-06-23

Similar Documents

Publication Publication Date Title
JP5244332B2 (ja) 情報システム、データ転送方法及びデータ保護方法
JP5057366B2 (ja) 情報システム及び情報システムのデータ転送方法
JP4902403B2 (ja) 情報システム及びデータ転送方法
US9632701B2 (en) Storage system
US7130974B2 (en) Multi-site remote-copy system
US7404051B2 (en) Method for replicating snapshot volumes between storage systems
US7509535B1 (en) System and method for managing failover in a data storage environment
JP2007179342A (ja) ストレージシステム及びスナップショット管理方法
US7370235B1 (en) System and method for managing and scheduling recovery after a failure in a data storage environment
JP2008065525A (ja) 計算機システム、データ管理方法及び管理計算機
US7401251B1 (en) Architecture for managing failover and recovery after failover in a data storage environment
JP2021149773A (ja) ハイブリッドクラウドにおけるデータを保護する方法
JP2021033782A (ja) リモートコピーシステム
JP2021174392A (ja) リモートコピーシステム及びリモートコピー管理方法
JP2015207269A (ja) ストレージシステム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5244332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees