JP6817340B2 - 計算機 - Google Patents

計算機 Download PDF

Info

Publication number
JP6817340B2
JP6817340B2 JP2018565232A JP2018565232A JP6817340B2 JP 6817340 B2 JP6817340 B2 JP 6817340B2 JP 2018565232 A JP2018565232 A JP 2018565232A JP 2018565232 A JP2018565232 A JP 2018565232A JP 6817340 B2 JP6817340 B2 JP 6817340B2
Authority
JP
Japan
Prior art keywords
data
storage drive
storage
fmpkg
spare
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018565232A
Other languages
English (en)
Other versions
JPWO2018142622A1 (ja
Inventor
裕大 藤井
裕大 藤井
英通 小関
英通 小関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2018142622A1 publication Critical patent/JPWO2018142622A1/ja
Application granted granted Critical
Publication of JP6817340B2 publication Critical patent/JP6817340B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1088Reconstruction on already foreseen single or plurality of spare disks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Detection And Correction Of Errors (AREA)

Description

本発明は、複数の記憶ドライブの制御に関する。
近年、半導体記憶装置が普及している。ドライブ内に複数の記憶チップを有し、それらを並列に駆動させるハードアーキテクチャとなっている。複数記憶チップは、バスで繋がれている数だけ並列稼働でき、並列に稼働させることで高い入出力性能を達成する。従来型の磁気記憶装置であるHDD(Hard Disk Drive)と比較して、並列化による性能向上、部分的な故障にも対応可能、チップの数や並列数から容易に性能設計が可能といったメリットがある。
半導体記憶装置の一例として、NAND型フラッシュメモリ(以下FMと記述)を用いた記憶デバイスが普及している。NOR型ほかの半導体記憶装置と比較して、微細化に優れ、ビットコストが低いことが理由である。デバイスの使用方法としては、従来のHDD置換のようなドライブとしてのSSD(Solid State Drive)のほか、すべての記憶装置をFMとしたAll Flash Arrayのようなものもある。
SSDは、HDDに比べて高速な入出力が可能であり、その需要は高まっている。FMの微細化やデータ圧縮技術により、SSD1台あたりの容量が増加している。このため、ドライブ障害発生時のコレクション時間が長時間化している。例えば、特許文献1は、記憶デバイスの一部に障害が発生した場合のデータ退避技術を開示している。障害部位のみスペアドライブへ退避することで、復旧に必要な時間を短縮する。
米国特許出願公開第2013/0212428号
SSDには寿命がある。FM(典型的にはNAND型FM)は、ページと呼ばれる単位でデータの書き込みおよび読み出しを行う(以降、上位装置の管理単位である"ページ"と区別するために"セグメント"と表記)。また、その物理的特性から、FMは、データを書き換えようとしたとき、そのデータが格納されている物理記憶領域上に、データを直接上書きすることができない。物理記憶領域上のデータに対してデータの書換えを行うためには、FMは、ブロックと呼ばれる消去単位で、物理記憶領域上のデータに対して消去処理(以下、ブロック消去)を行い、ブロック消去が行われた物理記憶領域上にデータを書く必要がある。
しかしながら、FMの物理的な制約から、各ブロックの消去回数は、限界がある。そして、或るブロックの消去回数がこの限界を超えると、そのブロックにはデータを格納することができなくなってしまう。つまり、SSD内の全ブロック(又は予備領域)の消去回数が上限を超えた時、そのSSDの寿命が尽きる。
そこで、ウエアレベリング(以下、WL)とよばれる手法を用いて、SSDの長寿命化が図られている。WLは、消去回数が多いブロックには低頻度に更新されるデータが格納されるように、また、消去回数が少ないブロックには高頻度に更新されるデータが格納されるように、データの格納位置を制御する。これにより、ブロック間の消去回数を平準化し、特定のブロックのみが劣化することを抑える。
WLのために、SSDは、論理アドレスから物理アドレスへのマップ情報を持つ。SSDは、従来HDDでは1対1で対応されていた論理、物理セグメントを変換するマップを持ち、マップを書き換えることで、WLによるデータ格納位置の更新に対応する。
既に述べたように、FMは複数のブロックから構成されている。信号線を共有している複数のブロックのまとまりをプレーンと呼び、複数プレーンのまとまりをダイと呼ぶ。一般に、FMチップは1ないしは複数のダイから構成されている。
FMからのデータ読み出しが不可となるケースは、FM寿命と物理的故障の2つに大別される。寿命と呼ばれるものは、先に述べた書き換え回数を超え、誤り訂正を実行した場合でも格納データが正しく読めなくなる場合である。物理的故障は、例えば記憶素子を構成する回路の故障によってFMへのアクセスが不可となった場合である。故障回路の箇所によって、影響範囲が変化し、ダイ、プレーン、ブロック、セグメント等それぞれの階層に対して生じる。
故障によるアクセス不可領域が想定数以上に発生すると、ユーザデータを格納する記憶領域を確保できなくなり、SSDを閉塞せざるをえなくなる。そのため、SSDのデータをスペアドライブに移動する。
SSD内のFMの一部に障害が発生し、特許文献1の技術を適用した場合、当該技術は、消失データを他のRAIDドライブから復旧し、スペアドライブへ書き込む。SSDにおいては、データの論理的なアドレスと、物理的な格納位置は、WL技術によってマッピング管理されており、物理的に連続な領域に格納されているデータであっても、論理アドレス空間上は非連続に分散している。つまり、故障によってスペアドライブへ退避された消失データは、論理アドレス空間上、広範囲に離散的に分布していることになる。
この消失データを含む領域へのシーケンシャルなアクセスを考える。一般に論理アドレス空間上連続なデータ(シーケンシャルデータ)は、一度のドライブへのコマンド発行でデータが読めることが期待される。しかし、消失データを含む連続領域へのシーケンシャルアクセスは、非消失データへのアクセスと、消失データへのアクセスの、2回のアクセスコマンド発行が必要となる。コマンド発行回数が増加するため、ストレージコントローラの資源を消費し、性能が低下する。
従って、SSDのように、連続する物理的記憶領域が、論理アドレス空間において離散した領域にマッピングされる記憶ドライブからデータを退避した場合に、アクセス性能の低下を抑えることができる技術が望まれる。
本発明の代表的な一例は、複数の記憶ドライブを制御する計算機であって、メモリと、前記メモリに格納されているプログラムに従って動作するプロセッサと、を含み、前記プロセッサは、第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、前記選択した1以上の領域のデータを、第2の記憶ドライブに移動し、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、復元した前記消失データを前記第1の記憶ドライブに書き込む。
本発明の一例によれば、記憶ドライブにおける部分故障に起因するデータ退避後に、アクセス性能の低下を抑えることができる。
本開示の概要を示す図である。 システムの構成を示す図である。 ストレージシステムが使用するRAID構成を示す図である。 ストレージシステムが参照する情報を示す図である。 論理ボリューム情報テーブルの形式を示す図である。 実ページ情報テーブルの形式を示す図である。 RG情報テーブルの形式を示す図である。 FMPKG情報テーブルの形式を示す図である。 データ退避アドレステーブルの形式を示す図である。 予備FMPKG情報テーブルの形式を示す図である。 障害通知の形式を示す図である。 フラッシュメモリパッケージの構成を示す図である。 フラッシュメモリパッケージの論理セグメント及び物理セグメントの構成を示す図である。 フラッシュメモリパッケージのメモリに格納されるプログラムの構成を示す図である。 論物変換情報テーブルの形式を示す図である。 FM管理情報テーブルの形式を示す図である。 ストレージシステムのメモリに格納されるプログラムの構成を示す図である。 部分故障処理実行部の処理フローを示す図である。 データ退避処理のフローを示す図である。 リード処理実行部の処理フローを示す図である。 障害検知プログラムの処理フローを示す図である。 ライト要求受付部の処理フローを示す図である。 ライトアフタ処理実行部の処理フローを示す図である。 実施例2における仮想フラッシュメモリパッケージとフラッシュメモリパッケージの関係を示す図である。 実施例2におけるVFMPKG管理テーブルの形式を示す図である。 実施例2におけるデータ退避処理のフローを示す図である。 実施例2における退避データ選択のフローを示す図である。 実施例2におけるリード処理実行部の処理フローを示す図である。 実施例3におけるフラッシュメモリパッケージのI/O処理のフローを示す図である。 実施例3におけるライトアフタ処理実行部の処理のフローを示す図である。 実施例3におけるFMPKG内部のI/O処理のフローを示す図である。
以下、本発明のいくつかの実施例を、図面を用いて説明する。なお、これらの実施例は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。
以下において、記憶ドライブ(記憶デバイス又はドライブとも呼ぶ)の部分故障に起因するデータ退避を開示する。図1Aは、実施例の概要を示す。記憶ドライブ17A〜17Cは、RAID(Redundant Arrays of Inexpensive Disks)を構成する。記憶ドライブ(記憶デバイスと呼ぶ場合もある)17A〜17Dは、それぞれ、論理アドレス空間の記憶領域(ボリューム)10A〜10Dを提供する。記憶ドライブ17A〜17Dは、例えば、フラッシュドライブである。
論理アドレス空間と記憶ドライブの物理アドレス空間との間のマッピングは、動的であり、論理アドレスに対してマッピングされる物理アドレスは変化し得る。一つの論理アドレス領域が複数の物理アドレス領域にマッピングされ得、一つの物理アドレス領域が複数の論理アドレス領域にマッピングされ得る。
図1Aにおいて、記憶ドライブ17Cにおいて部分故障が発生し、離散した複数の論理アドレス領域のデータブロック12が消失している。部分故障は、例えば、一つのダイの故障である。部分故障により、記憶ドライブ17Cの空き容量が不足している。上位装置16は、記憶ドライブ17C内の一部データを、スペア記憶ドライブ17Dに移動する。データの移動は、データの移動先へのデータコピー及び移動元におけるデータ削除を含む。
上位装置16は、部分故障した記憶ドライブ17Cの論理アドレス空間において、所定サイズのデータブロック(一つの論理アドレス領域のデータ)15を、記憶ドライブ17Dへ移動する。図1Aの例は、二つのデータブロック15を移動する。データの移動により、記憶ドライブ17Cの空き容量が増加する。
上位装置16は、消失データブロック12を、RAIDを構成する他の記憶ドライブ17A、17Bのデータブロック11A、11Bにより復元し、記憶ドライブ17Cに書き込む。
スペア記憶ドライブ17Dへ移動するデータを、記憶ドライブ17Cの論理アドレス空間において、所定サイズ以上の連続記憶領域から切り出すことにより、データ移動後の記憶ドライブへのI/O要求の発行回数を低減し、I/O性能の低下を抑制する。移動するデータは、例えば、一つの連続論理アドレス領域のデータでもよく、所定サイズ以上の1以上の記憶領域のデータでもよい。所定サイズ以上の複数の記憶領域は、同一サイズでも異なるサイズでもよい。
図1Bは、実施例1の計算機システムの構成を示す。計算機システムは、ストレージシステム101と、1つ以上のホスト計算機103A、103Bと、管理端末104とを有する。ホスト計算機103A、103Bのそれぞれは、SAN(Storage Area Network)105を介して、ストレージシステム101に接続される。
ストレージシステム101は、ストレージコントローラ102と、複数のフラッシュメモリストレージドライブ113A〜113Eとを有する。図面及び以下の説明では、フラッシュメモリストレージドライブをFMPKG(Flash Memory Package)と呼ぶことがある。なお、本実施例では、ストレージコントローラ102は1つであるが、複数のストレージコントローラ102で冗長構成されてもよい。
ストレージコントローラ102は、CPU(Central Processing Unit)108と、主記憶109と、複数のホストIF(Interface)107A、107Bと複数のストレージIF111A、111Bと、保守IF106とを有する。ストレージコントローラ102内の各部は、バスを介して接続される。主記憶109は、ストレージシステム101を制御するためのプログラムを格納する領域及びデータを一時的に格納するキャッシュメモリとしての領域を有する。CPU108は、主記憶109に格納されたプログラムに従ってストレージシステム101を制御する。
プロセッサであるCPU108は、プログラムに従って、所定の機能部として動作する。従って、プログラムを主語とする説明において、その主語をCPU108又はCPU108を含むストレージシステム101に代えることができる。
ストレージコントローラ102は例えば、複数の記憶ドライブをRAIDグループ(RG)として制御する。FMPKGに加えて、SAS(Serial Attached Small Computer System Interface)−HDD(Hard Disk Drive)、SATA(Serial Advanced Technology Attachment)−HDD等、他の記憶ドライブが用いられてもよい。以後の説明及び図面において、このような記憶ドライブ(記憶デバイス)をPDEV(Physical Device)と呼ぶことがある。
ホストIF107A、107Bは、ホスト計算機103A、103Bとの通信を行うインタフェイスである。保守IF106は、管理端末104と接続され管理端末104との通信を行うインタフェイスである。
管理者は、管理端末104からストレージコントローラ102の管理やメンテナンスを行う。管理端末104は必須要素ではなく、ストレージコントローラ102の管理やメンテナンスなどは、例えば、ホスト計算機から行っても良い。
上記の計算機のシステムでは、ホスト計算機103A、103BとFMPKG113A〜113Eとが、ストレージコントローラ102を介して接続されている。これに代えて、例えば、ストレージコントローラ102を省き、ホスト計算機103A、103BとFMPKG113A〜113Eとが、直接接続されても良い。以下において、FMPKG113は、ストレージシステム101における1又は複数のFMPKGを示す。
なお、本開示の技術は、ハイパーコンバージドシステムに適用することができる。ハイパーコンバージドシステムは、内部にHDDやSSDなどのローカルストレージを含む複数サーバ(ノード)を連結してクラスタを構成する、システムである。仮想化機能を有するハイパーバイザがサーバ内で動作し、ハイパーバイザがソフトウェアで定義した、サーバ仮想マシンとストレージ仮想マシンを動作させる。また、本開示の技術は、記憶ドライブとストレージコントローラとがネットワークを介して接続されるシステムに適用できる。
本実施例におけるストレージシステム101が管理する情報について説明する前に、論理ボリューム、フラッシュボリュームの構成について説明する。記憶領域の割り当て単位を、ページと呼ぶ。
図2を用いて、論理ボリューム、仮想ページ、実ページ、RGの関係について説明する。ストレージコントローラ102は、1以上の論理ボリュームを定義して、ホスト計算機103等の上位装置に提供することができる。なお、ホスト計算機103は、ホスト計算機103A、103Bの、1又は複数のホスト計算機を示す。
本実施例では、論理ボリュームの空間は、仮想ページという単位で分割されているものとし、RG204の記憶領域は、実ページという単位で分割されているものとする。ストレージコントローラ102は、各論理ボリュームの記憶空間を、複数の仮想ページという所定単位の領域に分割して管理している。図2は、仮想ページ202A、202B、202Cを例示する。
なお、仮想ページのサイズは、主記憶109内の仮想ページ容量308に格納されている。本実施例に係るストレージシステム101においては、すべての仮想ページの容量は同じとするが、ストレージシステム101内に異なるサイズの仮想ページが存在してもよい。
仮想ページは、ストレージコントローラ102内部で論理ボリュームの記憶空間の管理のためにのみ用いられる。ホスト計算機103は、論理ボリュームの記憶領域にアクセスする際には、LBA(Logical Block Address)などの論理アドレスを用いて、アクセス対象の記憶領域を指定する。
ホスト計算機103が論理ボリュームへのアクセス要求を発行した時、ストレージコントローラ102は、ホスト計算機103が指定したLBAを仮想ページ番号(各仮想ページに付されている識別番号)及び仮想ページ内の相対アドレス(仮想ページ先頭からのオフセットアドレス)に変換する。
この変換は、LBAを仮想ページサイズで除算することで実現できる。仮に仮想ページのサイズがP(MB)とすると、論理ボリュームの先頭位置からP(MB)分の領域が仮想ページ#0(#0は仮想ページ番号を表す)として管理され、その次のP(MB)分の領域が仮想ページ#1として管理される。それ以降も同様に、P(MB)の領域がそれぞれ、仮想ページ#2、#3…として管理される。
ストレージコントローラ102が論理ボリュームを定義した直後は、各仮想ページに物理記憶領域は割り当てられていない。ストレージコントローラ102は、ホスト計算機103から仮想ページに対するライト要求を受け付けた時点ではじめて、当該仮想ページに対して物理記憶領域を割り当てる。仮想ページに割り当てられる物理記憶領域のことを実ページと呼ぶ。図2は、仮想ページ#0(202a)に実ページ203Aが割り当てられている状態を表している。
実ページは、RG204の複数のフラッシュボリュームの記憶領域を用いて形成される領域である。図2は、FMPKG113A〜113Eそれぞれのフラッシュボリューム115A〜115Eを示す。図2で例示するRG204のRAIDタイプは、RAID4の3D+1P構成(データドライブ3台、パリティドライブ1台で構成されるRAIDグループ)である。
本実施例では、FMPKG113A〜113EによってRAIDを構成し、フラッシュボリューム115A(FMPKG113A)は、RG204の一つのFMPKGの故障時に、故障したFMPKGに格納されたデータを格納し、RG204に格納されたデータの冗長性を担保するための予備FMPKGである。
ストレージコントローラ102は、RG204に属するFMPKG113A〜113Eのフラッシュボリューム115A〜115Eを、ストライプブロックと呼ばれる複数の固定サイズの記憶領域に分割して管理する。たとえば図2において、0(D)、1(D)、2(D)…、またはP0、P1…と記載されているそれぞれの領域が、ストライプブロックを表している。
本実施例では、ストライプブロックのサイズは、フラッシュボリュームの仮想セグメントのサイズと等しいとする。これと異なり、ストライプブロックと仮想セグメントのサイズは異なっている構成が採用されてもよい。
図2で、ストライプブロックのうち、P0、P1…と記載されているストライプブロックは、RAID機能により生成される冗長データ(パリティ)の格納されるストライプブロックであり、これを「パリティストライプブロック」と呼ぶ。一方、0(D)、1(D)、2(D)…と記載されているストライプブロックは、ホスト計算機103から書き込まれるデータ(冗長データではないデータ)が格納されるストライプブロックである。このストライプブロックのことは、「データストライプブロック」と呼ばれる。パリティストライプブロックは、複数のデータストライプブロックを用いて生成される冗長データを格納する。
以下、パリティストライプブロックと、当該パリティストライプブロックに格納される冗長データを生成するために用いられるデータストライプブロックのセットのことを、「ストライプライン」と呼ぶ。本実施例に係るストレージシステム101の場合、たとえばパリティストライプブロックP0は、データストライプブロック0(D)、1(D)、2(D)を用いて生成される冗長データ(パリティ)を格納する。データストライプブロック0(D)、1(D)、2(D)とパリティストライプブロックP0は、同一のストライプラインに属する。
つまり1つのストライプラインに属する各ストライプブロックは、フラッシュボリューム115B〜115E上の同じ位置(アドレス)に存在する。ただし別の実施例として、同一ストライプラインに属する各ストライプブロックが、フラッシュボリューム上の異なるアドレスに存在する構成が採用されてもよい。本実施例に係るストレージシステム101は、図2に示されるように、実ページ(例えば203A、203B)は、1または複数のストライプラインから構成される。
実ページが仮想ページに割り当てられる場合、データストライプブロック(0(D)、1(D)等)のみが割り当てられ、パリティストライプブロックは割り当てられない。そのため、実ページ上のライトデータの格納される領域の合計サイズは、仮想ページのサイズと等しい。つまり、(実ページのサイズーパリティ格納領域のサイズ)=仮想ページサイズ、の関係が成立する。図2はRAID4の構成例を示すが、例えば、RG204のRAIDタイプがRAID1の場合には、実ページサイズは、仮想ページサイズの2倍である。
仮想ページ内の領域と、実ページ内の領域との関係(マッピング)は、図2に示されている通りである。つまり、実ページの先頭ストライプラインからパリティを除いた領域(0(D)、1(D)、2(D))が、仮想ページの先頭領域に割り当てられている。それ以降も同様に、実ページの2番目以降の各ストライプラインからパリティを除いた領域(3(D)、4(D)、5(D)…)が、順番に仮想ページの領域に割り当てられる。
ストレージシステム101は、ホスト計算機103からのアクセス要求で指定されている論理ボリューム上のアクセス位置(LBA)から、仮想ページ番号及び仮想ページ内の相対アドレス(仮想ページ先頭からのオフセットアドレス)を求める。上述のように、仮想ページ内の領域と実ページ内の領域とは規則的にマッピングされているため、ストレージシステム101は、仮想ページ内のアクセス位置に対応付けられているFMPKG113及びそのFMPKG113内の領域(データストライプブロック)を一意に算出できる。
さらにアクセス位置に対応付けられているデータストライプブロックに加え、そのデータストライプブロックと同一ストライプラインに属するパリティストライプブロックも一意に定まる。
なお、仮想ページ内の各領域と実ページ内の各領域とのマッピングは、ここで説明したマッピング方法に限定されるものではない。容量仮想化技術においては、各論理ボリュームを定義する時、実記憶媒体の容量よりも各論理ボリュームの合計記憶容量が大きくなるように定義することもできる。このため一般的に、仮想ページ数のほうが、実ページ数より多い。本実施例に係るストレージシステムも、仮想ページ数を実ページ数より多く定義することができる。
論理ボリューム中の各仮想ページに割り当てられる実ページは、必ずしも同一FMPKG113内の実ページに限定されない。仮想ページ#0に割り当てられる実ページと、仮想ページ#1に割り当てられる実ページが、異なるRG204内の実ページであってもよい。ただし本実施例では、1つの論理ボリュームの仮想ページに割り当てられるべき実ページは全て、RAIDタイプが同じRG204から割り当てられる例を説明する。
続いて、本実施例におけるストレージシステム101が管理する情報の説明を行う。図3は、ストレージシステム101の主記憶109の中に格納される情報のうち、本実施例に関係する情報を示す。主記憶109は、少なくとも、論理ボリューム情報テーブル301、実ページ情報テーブル302、空き実ページ管理情報ポインタ303、RAIDグループ情報テーブル304、FMPKG情報テーブル305、データ退避アドレステーブル306、予備FMPKG情報テーブル307、仮想ページ容量308を格納している。
以下具体的に説明する。図4は、論理ボリューム情報テーブル301の形式を示す。論理ボリューム情報テーブル301は、論理ボリュームごとに用意され、論理ボリュームの属性情報を管理する。以下、ある論理ボリューム情報テーブル301によって属性情報が管理される論理ボリュームのことを、「管理対象論理ボリューム」と呼ぶ。論理ボリューム情報テーブル301は、論理ボリュームID401、論理容量402、論理ボリュームRAIDタイプ403、実ページポインタ404を含む。
論理ボリュームID401は、管理対象論理ボリュームのIDを示す。一般的に、ホスト計算機103は、論理ボリュームの識別子(例えばLogical Unit Number(LUN))、論理ボリューム内のアドレス(LBA)、アクセス先データ長を指定して、アクセス要求(リード要求又はライト要求)を発行する。論理ボリュームID401は、ホスト計算機103が論理ボリュームに対してアクセス要求を発行する時に指定する、論理ボリュームの識別子を格納する。
論理容量402は、管理対象論理ボリュームの容量を示す。論理ボリュームRAIDタイプ403は、管理対象論理ボリュームのRAIDタイプを表す。論理ボリュームRAIDタイプ403に含まれる情報は、RAID0、RAID1などのRAIDタイプの他、N台の記憶ドライブに対し、1台の記憶ドライブの冗長データを格納する場合、Nを示す数値を含む。
指定されるRAIDタイプは、少なくとも一つのRG204がもつRAIDタイプである。管理対象論理ボリュームの仮想ページに実ページを割り当てる際、ストレージコントローラ102は、RG204のRAIDタイプが論理ボリュームRAIDタイプ403と同じRG204から実ページを選択する。
実ページポインタ404は、管理対象論理ボリュームの仮想ページに割り当てられた実ページのページ管理情報(後述する実ページ情報テーブル302)へのポインタである。実ページポインタ404の数は、管理対象論理ボリュームの仮想ページの数(論理容量402を仮想ページ容量308で割った数になるが、余りがでれば+1)である。管理対象論理ボリュームの仮想ページ数がnであれば、実ページポインタ404はn個存在する。
論理ボリューム情報テーブル301内の複数の実ページポインタ404のうち、先頭からk番目の実ページポインタは、仮想ページ#(k−1)に割り当てられた実ページのページ管理情報(後述する実ページ情報テーブル302)へのポインタである。また、実ページが割り当てられる契機は、論理ボリュームが定義された時ではなく、仮想ページに対して実際にデータ書き込みの要求を受信した契機である。まだ書き込みが行われていない仮想ページに対応する実ページポインタ404は無効値(NULL)である。
図5は、実ページ情報テーブル302の形式を示す。実ページ情報テーブル302は、実ページについての情報を管理するためのもので、実ページごとに1つの実ページ情報テーブル302が存在する。実ページ情報テーブル302は、RAIDグループ501、実ページアドレス502、空きページポインタ503、ページデータ格納量504を含む。なお、以下の実ページ情報テーブル302の説明の過程で、ある実ページ情報テーブル302によって管理される実ページのことを、「管理対象実ページ」と呼ぶ。
RG501は、管理対象実ページが属するRGの識別子を示す。以下、RGの識別子のことを、「RGID」と呼ぶ。実ページアドレス502は、管理対象実ページが存在する位置(アドレス)の情報を含む。実ページアドレス502が示すアドレスは、管理対象実ページが属するRG204内の相対アドレスである。
空きページポインタ503は、管理対象実ページが仮想ページに割り当てられていない場合に用いられる。本実施例において、仮想ページに割り当てられていない実ページのことを、「空き実ページ」又は「空きページ」と呼ぶ。管理対象実ページが仮想ページに割り当てられていない場合、その空きページポインタ503は、別の空きページの実ページ情報テーブル302をポイントする。管理対象実ページが仮想ページに割り当てられている場合、空きページポインタ503はNULL値である。
ページデータ格納量504は、管理対象実ページに格納されたデータ量を示す。この情報は、管理対象実ページに割り当てられているFMPKG113(の記憶領域)に関する属性情報ではなく、管理対象実ページが割り当てられている仮想ページのデータに関する属性情報である。従って、この仮想ページに別の実ページが割り当てられ、現在の実ページのデータが新しい実ページにコピーされた場合、ページデータ格納量504の値を、新しい実ページの管理情報として引き継ぐ必要がある。
図6は、RG情報テーブル304の形式を示す。RG情報テーブル304は、RG204についての情報を管理するために用いられる。1つのRF204に対して、1つのRG情報テーブル304が存在する。RG情報テーブル304は、RG ID601、RG RAIDタイプ602、実ページ数603、空き実ページ数604、FMPKGポインタ605を有する。以下、あるRG情報テーブル304で管理されるRG204のことを、「管理対象RG」と呼ぶ。
RG ID601は、管理対象RGの識別子を示す。RG RAIDタイプ602は、管理対象RGのRAIDタイプを示す。このRAIDタイプは、論理ボリュームRAIDタイプ403について説明したとおりである。実ページ数603及び空き実ページ数604は、それぞれ、管理対象RGの全実ページ数、空き実ページ数を示す。
FMPKGポインタ605は、管理対象RGに属するFMPKG113のパッケージIDを示す。RG情報テーブル304に含まれるFMPKGポインタ605の数は、管理対象RGに属するFMPKG113の数と等しい。またこの数は、RG RAIDタイプ602によって決まる値である。
図7は、FMPKG情報テーブル305の形式を示す。FMPKG情報テーブル305はFMPKG113を管理するための情報で、FMPKG ID701、FMPKG仮想容量702、ブロック容量703を含む。FMPKG情報テーブル305は、FMPKG毎に存在する。以下、あるFMPKG情報テーブルで管理されるFMPKGを、管理対象FMPKGと呼ぶ。
FMPKG ID701は管理対象FMPKG113の識別子(パッケージIDと呼ぶ)である。FMPKG仮想容量702は、管理対象FMPKG113が形成するフラッシュボリュームの記憶領域のうち、ストレージコントローラ102に提供している領域のサイズを示し、本実施例ではこのサイズのことを「仮想容量」と呼ぶ。
図8は、データ退避アドレステーブル306の形式を示す。データ退避アドレステーブル306は、FMPKG113を管理するための情報であって、エリア番号801、退避フラグ802、退避先FMPKG ID803を含む。データ退避アドレステーブル306は、FMPKG毎に存在する。以下、あるデータ退避アドレステーブルで管理されるFMPKGを、管理対象FMPKGと呼ぶ。
エリア番号801は、管理対象FMPKGのアドレス空間を所定サイズの領域に分割し、それぞれの領域に割り当てられた一意のIDである。エリアは、他のFMPKGに退避するデータの単位である。一つのエリアは、例えば、ストライプブロックの整数倍に対応する。例えば,ストライプブロックサイズが16kBであるとき、エリアサイズを16MBなどとする。エリアのサイズを適切に選択することで、データ退避後のI/O性能の低下を適切に抑制できる。退避フラグ802は、管理対象FMPKGにおいて、対応するエリア番号801に格納されているデータが、退避先FMPKG113に退避されているか否かを示す。
退避先FMPKG ID803は、管理対象FMPKGにおいて、対応するエリア番号801に対応する退避先FMPKG113を示す。退避先FMPKG113がない場合、退避先FMPKG ID803は、無効値(NULL)である。
図9は、予備FMPKG情報テーブル307の形式を示す。予備FMPKG情報テーブル307は、予備のFMPKG113を管理するための情報で、予備FMPKG ID901、エリア番号903、退避フラグ904、退避元FMPKG ID905、使用可能容量902を含む。予備FMPKG情報テーブル307は、いずれのRG204にも属さないFMPKG113の数だけ存在している。以下、ある予備FMPKG情報で管理されるFMPKGを、管理対象予備FMPKGと呼ぶ。
予備FMPKG ID901は、管理対象予備FMPKGの識別子(予備パッケージIDと呼ぶ)を示す。エリア番号903は、管理対象予備FMPKGのアドレス空間を所定サイズの領域に分割し、それぞれの領域に割り当てられた一意のIDを示す。退避フラグ904は、管理対象予備FMPKGにおける当該エリアに、データが退避済みか否かを示すエントリである。
退避元FMPKG ID905は、管理対象予備FMPKGにおける当該エリアのデータが退避済みであった場合に、退避元のFMPKG IDが格納されている。また、使用可能容量902は、管理対象予備FMPKGに書き込み可能な容量を示す。つまり、管理対象予備FMPKGの論理容量から、退避データ容量を減算した値が格納される。
図10は、FMPKG113から上位装置112に通知する障害通知1001の形式を示す。障害通知1001は、依頼種別1002、消失データ容量1003、消失データ情報1004を含む。
依頼種別1002は、FMPKG113が上位装置に対して依頼するデータ復元処理の種類を示す。消失データ容量1003は、FMPKG113の部分故障時に消失した、消失データ容量を示す。消失データ情報1004は、消失データに関連したアドレスと、レングスの情報を示す。
以下、図11を用いてFMPKG113の構成を説明する。なお、複数のFMPKG113は、基本的な構成が同じである。FMPKG113は、コントローラユニット1101と、複数のFMChip1110A〜1110Hとを有する。FMChip1110は、FMChip1110A〜1110Hの内の、一つ又は複数のFMChipを意味する。
コントローラユニット1101は、CPU1106、主記憶1107、コントローラ1103、圧縮回路1108、バッファ1104、バッテリ1105を含んで構成される。コントローラユニット1101の内部要素は、バスを介して接続される。主記憶1107は、FMPKG113を制御するためのプログラムを格納する領域及びデータを一時的に格納する領域を含む。CPU1106は、主記憶1107に格納されたプログラムに従って所定の機能部として動作し、FMPKG113を制御する。
バッファ1104は、データを一時的に格納するキャッシュメモリである。バッテリ1105は、FMPKG113への電源断時に、揮発性の主記憶1107やバッファ1104のデータを、不揮発性のFMCHip1110A〜1110Hに格納するための電力を供給する。
ストレージインターフェース1102は、上位装置112と通信を行うインタフェイスである。コントローラユニット1101は、ストレージインターフェース1102を介して上位装置112と接続されている。上位装置112は、例えばホスト計算機103やストレージコントローラ102である。
フラッシュメモリインタフェイス1109は、FMChip1110A〜1110Hと通信するためのインタフェイスである。コントローラユニット1101とFMChip1110A〜1110Hは、フラッシュメモリインタフェイス1109を介して接続される。
コントローラユニット1101は、FMPKG113の論理アドレス空間を上位装置112に提供する。論理アドレス空間には、FMPKG113内の物理記憶領域が対応付けられる。FMPKG113の外部に提供される論理記憶空間に対応する物理記憶領域をユーザ領域と呼ぶ。
論理アドレス空間は、FMPKG113で所定サイズの論理セグメントに分割して管理される。コントローラユニット1101は、上位装置112から論理アドレスを指定したリード/ライト要求を受信すると、論理アドレスから物理セグメントを特定し、データのリード/ライトを実行する。また、FMPKG113に部分的に発生する障害を管理する。
フラッシュメモリの物理記憶領域は、複数のブロックを含み、各ブロックは複数の物理セグメント(単にセグメントとも呼ぶ)を含む。ブロックはデータの消去の単位であり、セグメントはデータの書き込み及び読み出しの単位である。つまり、コントローラユニット1101は、ブロック単位でデータを消去し、セグメント単位でデータの書き込み及び読み出しを制御する。
また、フラッシュメモリは、データの上書きができないという特性がある。このため、コントローラユニット1101は、あるセグメントに格納されているデータを更新するデータ(更新データ)を受信すると、更新データをデータが格納されていない空きセグメントへ書き込む。そして、論理セグメントと更新前の物理セグメントの対応関係を、その論理セグメントと更新後の物理セグメントの対応関係に変更する。このため、上位装置112はアクセス先の論理アドレスを変更する必要はない。
コントローラユニット1101は、更新前のデータを無効データ、更新後のデータを有効データとして管理する。無効データが消去されると、無効データが格納されていたセグメントは空きセグメントとなり、データを書き込むことが可能になる。消去はブロック単位で行われる。ブロック内に有効データと無効データが混在している場合、コントローラユニット1101は有効データを他の空きセグメントにコピーして、そのブロック内のデータの消去を行う。この有効データのコピーとブロックの消去の処理を、ガベッジコレクションと呼ぶ。
このようにフラッシュメモリでは、空きセグメントが存在しない場合、ブロック単位でデータの消去を行わなければ新たにデータを書き込むことができない。また、消去が実行されると、消去が終わるまでデータを書き込むことができないため書き込み性能が低下し、消去そのもののオーバーヘッドによる性能低下も発生する。そこで、フラッシュメモリを記憶媒体とする記憶ドライブは、更新データを書き込む領域(更新領域)が設けられる。
なお、ユーザ領域と更新領域は物理的に区別されている必要はない。例えば、あるブロックがユーザ領域として使用された後に消去された場合、次は更新領域として使用されてもよい。
図12は、FMPKG113の論理セグメント及び物理セグメントの構成を示す。コントローラユニット1101は、論理アドレス空間1201を、上位装置112に提供し、論理アドレス空間1201を所定のセグメント(例えば8kB)の論理セグメント1202に分割して管理する。
コントローラユニット1101は、ブロックを、所定のセグメント(例えば8kB)の物理セグメント1203に分割して管理する。コントローラユニット1101は、物理セグメント1203を論理セグメント1202に割り当てる。
ブロック1204は、所定数(例えば256個)の物理セグメント1203を含んで構成される。コントローラユニット1101は、FMチップ1110に対するデータの読み書きを物理セグメント1203単位で行い、FMチップ1110に対する消去をブロック1204単位で行う。以後、論理アドレスをLBAと呼ぶ。
図13は、コントローラユニット1101の主記憶1107に格納される情報を示す。主記憶1107は、論物変換プログラム1301と、論物変換情報テーブル1302と、データ転送制御部制御プログラム1303と、入出力制御部制御プログラム1304と、オペレーティング・システム1305と、フラッシュストレージ制御プログラム1306と、FM管理情報テーブル1307を格納する。CPU1106は、フラッシュストレージ制御プログラム1306に従ってFMPKG113の制御を実行する。
図14は、論物変換情報テーブル1302の形式を示す。論物変換情報テーブル1302は、論理セグメントごとのエントリを有する。論理セグメントのエントリは、当該論理セグメントの先頭を示すLBA1401と、当該論理セグメントを示す論理セグメント識別子1402と、当該論理セグメントに割り当てられている物理セグメントを示す物理セグメント識別子1403と、を有している。
当該論理セグメントに物理セグメントが割り当てられていない場合、物理セグメント識別子1403は、未割り当てを示す。物理セグメント識別子は、例えば、FMPKG113内のチップの位置を示すチップ番号と、当該チップ内のダイの位置を示すダイ番号と、当該ダイ内のブロックの位置を示すブロック番号と、当該ブロック内のワード線の位置を示すワード線番号と、当該ブロック内の当該物理セグメントの位置を示すセグメント番号との組み合わせを示す。
なお、主記憶1107が、FMPKG113内で一意の物理セグメント識別子と、チップ番号とダイ番号とブロック番号とワード線番号とセグメント番号との関連付けを示す関連情報を格納し、コントローラユニット1101が、関連情報に基づいて、物理セグメント識別子から、チップ番号とダイ番号とブロック番号とワード線番号とセグメント番号とを特定しても良い。
図15は、FM管理情報テーブル1307を示す。FM管理情報テーブル1307は、FMPKG113内で利用可能な資源を管理する。FM管理情報テーブル1307は、有効Blockポインタ1501と、無効Blockポインタ1502と、有効Planeポインタ1503と、無効Planeポインタ1504と、有効Dieポインタ1505と、無効Dieポインタ1506と、有効Chipポインタ1507と、無効Chipポインタ1508とを有する。
有効Blockポインタ1501は、コントローラユニット1101がデータ格納先として利用可能なBlockの番号を示す。無効Blockポインタ1502は、寿命や故障によってデータ格納に利用できないBlockの番号を示す。
有効Planeポインタ1503は、コントローラユニット1101がデータ格納先として利用可能なPlaneの番号を示す。
無効Planeポインタ1504は、寿命や故障によってデータ格納に利用できないPlaneの番号を示す。
有効Dieポインタ1505は、コントローラユニット1101がデータ格納先として利用可能なDieの番号を示す。無効Dieポインタ1506は、寿命や故障によってデータ格納に利用できないDieの番号を示す。
有効Chipポインタ1507は、コントローラユニット1101がデータ格納先として利用可能なChipの番号を示す。無効Chipポインタ1508は、寿命や故障によってデータ格納に利用できないChipの番号を示す。
FMPKG113の物理記憶領域に障害が発生すると、その物理記憶領域に格納されたデータが消失する。コントローラユニット1101は、消失したデータを復元することができない。このため、コントローラユニット1101が、障害が発生した物理記憶領域に対応する論理アドレス領域を特定し、上位装置112に通知する。上位装置112は、RGの他のFMPKG113のデータから、消失したデータを復元することができる。
しかし、一部に障害が発生したFMPKG113は、その物理記憶領域が故障により減少しているため、復元したデータを格納する空き領域が不足する場合がある。そこで、ストレージシステム101は、連続論理アドレス領域のデータを、予備FMPKG113に退避することで、復元したデータを格納する物理記憶領域を部分故障FMPKG113において確保した後、データを復元する。退避されるデータ量は、復元したデータを格納するために不足している領域以上であり、例えば、復元すべきデータ総量と同一又はそれより多いデータである。
ストレージシステム101は、退避したデータへのアクセスを予備FMPKG113に、それ以外のデータのアクセスを部分故障FMPKG113へと、アクセス先を切り替える。連続する論理アドレス領域のデータが予備FMPKG113に退避されているので、故障領域に対応した離散的な論理アドレスのデータを予備FMPKG113に退避する場合と比較して、シーケンシャルアクセス性能を低下させずにデータの冗長度復元が可能になる。
次に、上記管理情報を用いて、ストレージコントローラ102とFMPKG113が実行する処理の説明を行う。まず、ストレージコントローラ102で行われる処理について説明する。なおストレージコントローラ102で行われる処理は原則として、ストレージコントローラ102内のプロセッサ108がプログラムを実行することで実現される。また、そのプログラムは主記憶109内に格納されている。図16は、主記憶109内に格納された本実施例に関するプログラムを示す。
本実施例に関するプログラムは、リード処理実行部1601、ライト要求受付部1602、ライトアフタ処理実行部1603、部分故障処理実行部1604を含む。これらのプログラムは、上位レベルのウェアレベリング技術、容量仮想化技術を実現する。なお、以下の説明においては、プログラム(リード処理実行部1601等)を主語とする処理の説明は、プログラム(リード処理実行部1601等)がCPU108で実行されることで、処理が行われることを意味する。
なお、すでに述べたが、本実施例に係るストレージシステム101では、FMPKG113が、ウェアレベリング機能と下位レベルの容量仮想化機能を実行する。ただし別の実施例において、ウェアレベリングと下位レベルの容量仮想化機能をストレージコントローラ102が実行してもよい。その場合、ウェアレベリング機能と下位レベルの容量仮想化機能を実現するプログラムが、ストレージコントローラ102で実行される。
上位レベルのプログラム(上位レベルの容量仮想化機能を実現するプログラム等)と下位レベルのプログラム双方が、ストレージコントローラ102で実行されるので、プログラム間のインタフェイスが異なってくるが、上位レベルのプログラムが実行する内容は基本的に大きな相違はない。
本実施例は、下位レベルのウェアレベリング技術及び容量仮想化技術を実現するのはFMPKG113であることを前提に、リード処理実行部1601、ライト要求受付部1602、ライトアフタ処理実行部1603、部分故障処理実行部1604の処理フローを詳細に説明する。
本実施例は、ホスト計算機103からのリード要求又はライト要求で指定されるデータアクセス範囲は、フラッシュメモリのリード/ライト単位である仮想セグメント境界に一致していることを前提とする。ホスト計算機103から指定されるアクセス範囲が、仮想セグメント境界に一致していない場合でも、論理ボリュームはアクセス可能である。例えば、仮想セグメントの一部の領域がライト範囲に指定された場合、FMPKG113は仮想セグメント全体を読み出し、指定された部分領域のみ更新し、仮想セグメント全体を書き込む。
<ストレージコントローラによる故障検知>
図17は、部分故障処理実行部1604が、FMPKG113の故障を検知するフローを示す。本フローは、あるFMPKG113に部分故障が生じたことを検知した場合に実施される。以降、故障を通知したFMPKG113のことを、部分故障FMPKG113と呼ぶ。また、故障により消失したデータを消失データ、消失データの論理アドレスを消失データアドレスと呼ぶ。
ステップ1701において、部分故障処理実行部1604は、故障FMPKG113から障害情報を受領する。
部分故障処理実行部1604が受領する障害情報は、消失データアドレスと、サイズと、コレクション種別とを含む。
ステップ1702において、障害情報を受領した部分故障処理実行部1604は、まず、コレクション種別情報を参照し、処理の内容を決定する。コレクション種別情報がコレクション依頼である場合(1702:YES)、部分故障処理実行部1604は、ステップ1703を実行する。
ステップ1703において、部分故障処理実行部1604は、ステップ1701で受領した消失データアドレスを元に、部分故障FMPKG113に対してデータ復元処理を行う。データ復元処理は、通知されたアドレスに関連付けられたデータをRAID機構により復元し、部分故障FMPKG113に書き戻す。これにより、消失データが復元され、データの冗長度が復元する
コレクションデータ種別が、コレクション依頼でない場合、つまり、他ドライブへのデータ退避依頼の場合(1702:NO)、ステップ1704において、部分故障処理実行部1604は、予備FMPKG情報テーブル307に登録されている予備FMPKG113から、所定の予備FMPKG113を退避先として選択し、予備FMPKG情報テーブル307の使用可能容量902を参照してその空き容量を取得する。退避先の選択方法は、図18を参照して後述する。
複数のFMPKG113を退避先FMPKG113として選択でもよいが、本実施例で、1つの予備FMPKG113の場合について記述する。以降、退避先のFMPKG113を退避先FMPKG113と呼び、退避先FMPKG113へ退避するデータを退避データ、退避データの論理アドレスを退避データアドレスと呼ぶ。
ステップ1705において、部分故障処理実行部1604は、ステップ1704で取得した退避先空き容量と、ステップ1701で取得した退避データ量を比較する。退避データ量が小さい場合(1705:YES)、ステップ1706において、部分故障処理実行部1604は、データの退避処理を行う。処理内容は後述する。ステップ1706が完了した後、上位装置112は、部分故障FMPKG113に対してステップ1703を行う。
一方、退避データ量が大きい場合(1705:NO)、故障FMPKG113のデータを退避することができないため、部分故障処理実行部1604は、ステップ1707において、部分故障FMPKG113を閉塞させ、FMPKG113の交換を促す。
<データ退避>
次に、図18を用いてデータ退避処理(1706)の詳細を説明する。ステップ1801において、部分故障処理実行部1604は、退避先FMPKG113のIDを決定する。複数の予備FMPKG113が存在する場合、部分故障処理実行部1604は、それらのうちの一台を選択する。退避先FMPKG113として使用されているFMPKG113が存在する場合、部分故障処理実行部1604は、それを選択する。
ステップ1802において、部分故障処理実行部1604は、ステップ1701で取得した故障FMPKG113のIDと、データ退避アドレステーブル306を用いて、退避データを決定する。具体的には、部分故障処理実行部1604は、データ退避アドレステーブル306に格納されている退避フラグ802と、予備FMPKG113の予備FMPKG情報テーブル307の退避フラグ904が共に"退避なし"を示すエリア番号を検索する。図8及び図9に示した例であれば、エリア1が選択される。エリア単位にデータを退避することで、その後のI/O性能の低下を抑制できる。
ステップ1802において選択した退避データのデータ量が、消失データ量以上である場合(1803:Yes)、ステップ1804が実行される。ステップ1801において選択した退避データのデータ量が、消失データ量よりも小さい場合(1803:No)、部分故障処理実行部1604は、更なる退避データ選択を試みるため、ステップ1802を実行する。消失データより大きい容量の退避データを選択できるまで繰り返す。選択されるエリアの番号(アドレス)は不連続でもよく、連続でもよい。
なお、上記例は、1台の故障FMPKG113のデータを1台の退避先FMPKG113に退避するが、複数台の故障FMPKG113が、1台の退避先FMPKG113を共有してもよい。逆に、1台の故障FMPKG113に対して、複数台の退避先FMPKG113を使用することも可能である。
ステップ1804において、部分故障処理実行部1604は、ステップ1801で取得した退避データと退避先FMPKG113の情報に基づいて、退避データの退避先FMPKG113へのコピーを実行する。退避データに、消失データが含まれる場合、当該消失データは、RAID機構により復元されて、退避先FMPKG113に格納される。これにより、消失データを他のFMPKG113に移動でき、消失データの論理アドレスによらず退避データを選択できる。
部分故障処理実行部1604は、退避データが部分故障FMPKG内で対応付けられていたLBAと同一となるように、退避先FMPKG113のLBAを退避データに対応付ける。これにより、RAIDストライプラインの再構築が不要となる。
ステップ1804の後データ退避が完了した場合(1805:YES)、部分故障処理実行部1604は、ステップ1806において、データ退避アドレステーブル306と、予備FMPKG情報テーブル307について、退避データに対応したエリア番号のエントリを更新する。
既に例示したように、エリア番号1を退避データとして選択する場合、部分故障処理実行部1604は、エリア番号1のエントリについて、退避フラグ802および退避フラグ904を"退避"に更新し、退避先FMPKG ID803に退避先FMPKG113のIDを、退避元FMPKG ID905に、部分故障FMPKGのIDを、それぞれ格納する。加えて、使用可能容量902の値を更新する。
本処理によって、上位装置112による退避データへのアクセスが、退避先FMPKG113へ発行されるようになる。退避データへのアクセス処理の詳細は後述する。ステップ1806の後、ステップ1807が実行される。ステップ1807において、部分故障処理実行部1604は、部分故障FMPKG113から、退避データを削除する。本処理によって、部分故障FMPKG113内部の未使用物理セグメントが増加するため、消失データの格納が可能になる。
ステップ1805において、退避先FMPKG113、又は部分故障FMPKG113に何らかの異常が起こった場合、データ退避が完了しない(1805:NO)。この時、ステップ1808が実行される。
ステップ1808において、部分故障処理実行部1604は、故障FMPKG113と退避先FMPKG113のどちらに異常が発生したかを特定する。退避先FMPKG113が異常を検出していた場合(1808:退避先)、ステップ1810が実行される。
ステップ1810において、部分故障処理実行部1604は、異常を検出したFMPKG113の代わりに退避先FMPKG113として選択できる他の予備FMPKG113が存在するかを判定する。他の予備FMPKG113が存在する場合(1810:NO)、部分故障処理実行部1604は、ステップ1803に戻る。
他の予備FMPKG113が存在しない場合(1810:YES)、かつ、異常検出箇所が退避先FMPKG113である場合(1808:退避元)、データの復元は不可能である。この場合、ステップ1809が実行される。
ステップ1809において、部分故障処理実行部1604は、復元の失敗処理を実行する。失敗処理は、例えば、部分故障FMPKG113を閉塞させ、管理端末104を介して、部分故障FMPKG113の交換をユーザに推奨する。
上記例は、消失データ以上の量のデータを予備FMPKG113に退避する。他の例は、部分故障FMPKG113の残予備領域容量(予備領域の空き容量)と消失データサイズとに基づき、退避するデータ量を決定してもよい。例えば、部分故障処理実行部1604は、部分故障FMPKG113から残予備領域容量の情報を取得し、消失データ量と残予備領域容量と差分に所定値(0でもよい)を加算した量のデータを退避する。
<ホストリード>
図19を用いて、リード処理実行部1601の処理フローを詳細に述べる。リード処理実行部1601は、ストレージコントローラ102がホスト計算機103からリード要求を受け付けたときに、実行される。
ステップ1901において、リード処理実行部1601(CPU108)は、受け取ったリード要求で指定されたリード対象領域のアドレスから、リード対象領域に対応する仮想ページの仮想ページ#と仮想ページ内の相対アドレスを計算する。
ステップ1902において、リード処理実行部1601は、リード対象データが、キャッシュメモリ(主記憶109)に格納されているか(ヒットしているか)をチェックする。これは、公知の技術である。ヒットしている場合(ステップ1902:YES)、次にステップ1910が行われる。ヒットしていない場合(ステップ1902:NO)、次にステップ1904が行われる。
ステップ1903において、リード対象データをキャッシュメモリにロードする必要がある。リード処理実行部1601は、論理ボリューム情報テーブル301の実ページポインタ404を参照することで、リード対象仮想ページに割り当てられている実ページの実ページ情報テーブル302を特定する。リード対象仮想ページに割り当てられた実ページを、以下の説明では「リード対象実ページ」と呼ぶ。
ステップ1904において、リード処理実行部1601は、特定された実ページ情報テーブル302のRG ID501、実ページアドレス502から、リード対象実ページが属するRG204とリード対象実ページ(の先頭)が位置するRG204内アドレスを算出する。
ステップ1905において、リード処理実行部1601は、ステップ1901で得た仮想ページ内の相対アドレスとRG RAIDタイプ602から、リード対象データの格納されている実ページ上の位置(具体的には実ページ内相対アドレス)を計算する。リード処理実行部1601は、計算した実ページ内相対アドレス、RG RAIDタイプ602、FMPKGポインタ605を用いて、リード対象データの格納されているFMPKG113のID、及びそのFMPKG113内のアドレスを特定する。
ステップ1906において、リード処理実行部1601は、ステップ1905で取得したFMPKG113 IDを用いて、該当するFMPKG113 IDに関連したデータ退避アドレステーブル306を参照する。次に、ステップ1905で取得したFMPKG113内のアドレスが所属する、エリア番号を特定する。
特定したエリア番号に対応した退避フラグが「退避」を示している場合、リード処理実行部1601は、対応する退避先FMPKG113 IDを取得し、リードするFMPKG113のIDを、対応する退避先FMPKG113 IDで置換する。特定したエリア番号に対応した退避フラグが「退避なし」を示していた場合、リード処理実行部1601は、何も行わない。
ステップ1907において、 リード処理実行部1601は、ステップ1906で特定したFMPKG113のアドレスに対して、リード要求を発行する。ステップ1908において、リード処理実行部1601は、FMPKG113からデータが送られてくるのを待つ。
ステップ1909において、リード処理実行部1601は、主記憶109に、リード対象データを格納するための領域を確保し、FMPKG113から送られてきたデータを、確保された領域に格納する。この後、ステップ1910が行われる。ステップ1910において、リード処理実行部1601は、リード対象データを主記憶109から読み出してホスト計算機103へ送り、処理を完了する。
<ホストライト>
図21は、ライト要求受付部1602の処理フローを示す。ライト要求受付部1602は、ストレージコントローラ102がホスト計算機103からライト要求を受け付けたときに、実行される。
ステップ201において、ライト要求受付部1602(CPU108)は、受け取ったライト要求で指定されたライト対象領域のアドレスから、ライト対象領域に対応する仮想ページの仮想ページ#と仮想ページ内の相対アドレスを計算する。
ステップ2102において、ライト要求受付部1602は、ライト要求で指定されている論理ボリュームの論理ボリューム情報テーブル301を特定する。そしてライト要求受付部1602は、ステップ2101で特定された仮想ページに実ページが割り当てられているかを、特定した論理ボリューム情報テーブル301内の実ページポインタ404を参照することでチェックする。実ページが割り当てられている場合、ステップ2103はスキップされ、次にステップ2104が実行される。
ステップ2103において、ライト要求受付部1602は、ライト対象領域に対応する仮想ページに実ページを割り当てる。ライト要求受付部1602は、ステップ2102で特定された論理ボリューム情報テーブル301のRAIDタイプ403と、各RG情報テーブル304のRG RAIDタイプ602や空き実ページ数604等を参照することで、どのRG204の実ページを割り当てるかを決定する。
ライト要求受付部1602は、決定されたRG204の空き実ページ管理情報ポインタ303を参照して、先頭の空き実ページポインタ404を、ライト対象領域が属する仮想ページの実ページポインタ404が示すように変更する。これにより、ライト対象領域が属する仮想ページに実ページを割り当てたことになる。
なお、空き実ページ管理情報ポインタ303は、次の実ページ情報テーブル302(仮想ページに割り当てた実ページの実ページ情報テーブル302の中の空きページポインタ503が示す実ページ情報テーブル302)を示すように変更される。さらに、仮想ページに割り当てた実ページの実ページ情報テーブル302の中の空きページポインタ503は、ヌルにされる。
ライト要求受付部1602は、当該実ページに対応するRG情報テーブル304の空き実ページ数604の数を減らす。本実施例は、ライト要求を受け付けたときに仮想ページを実ページに割り当てるが、この割り当て処理は、FMPKG113へデータを格納するまでに実行されればよい。
ステップ2104において、ライト要求受付部1602は、ホスト計算機103から当該ライト要求で指定されたライトデータを、主記憶109に格納する。主記憶109にライトデータを格納する際には、ライト要求受付部1602は、そのライトデータの書き込み位置情報(FMPKG113のID及び、フラッシュボリューム上アドレス(LBA)等)を付加して格納する。その後、処理を終了する。
RG204は、RAID構成を有するので、主記憶109上に格納したライトデータに対応する冗長データを生成する必要がある。冗長データは、ライトデータの格納されたデータストライプブロックと同一ストライプラインに属するパリティストライプブロックに格納される。これは、公知の方法であるので、詳細に説明はしない。冗長データの生成は、例えばステップ2104の直後に行われ。CPU108は冗長データを作成すると、一旦主記憶109に冗長データを格納する。
先に述べたとおり、仮想ページ上のアドレスから、データを格納するデータストライプブロックに加えて、そのデータに対応する冗長データを格納すべきパリティストライプブロックも一意に定まる。退避データがあった場合でも、リード処理実行部1601の処理フローで述べたのと同様にデータ退避アドレステーブル306を参照することで、退避先FMPKG113のアドレスを取得することが可能です。なお、主記憶109に冗長データを格納する際、ライトデータと同様に、CPU108は書き込み位置情報を冗長データに付加する。
ライトデータ、冗長データは、ライトアフタ処理実行部1603によって、FMPKG113に書き込まれるが、FMPKG113にとって、いずれもFMPKG113へ書き込むデータなので、ライトデータと冗長データとを区別する必要はない。そのため、ライトアフタ処理実行部1603は、ライトデータを書き込む場合と冗長データを書き込む場合とで、同様の処理を行う。
<デステージ>
図22は、ライトアフタ処理実行部1603の処理フローを示す。ライトアフタ処理実行部1603は、CPU108が所定の契機で実行する。例えば、定期的にライトアフタ処理実行部1603が実行されてもよい。主記憶109上のダーティデータ量が所定量を超過した時点でライトアフタ処理実行部1603が実行されてもよい。
ライトアフタ処理実行部1603は、ホスト計算機103から受け取ったライトデータ又は冗長データを、FMPKG113に書き込む処理を実行する。ライトアフタ処理実行部1603は、ライトデータ及び冗長データを、FMPKG113に書き込むべきデータとして区別せずに処理する。
ステップ2201において、ライトアフタ処理実行部1603(CPU108)は、主記憶109をサーチして、FMPKG113に書き込むべきデータを決定する。ライトアフタ処理実行部1603は、見出したデータに付与されている書き込み位置情報を取り出す。ここでは、ライトアフタ処理実行部1603によって書き込まれる領域の範囲が、複数のFMPKG113に跨らない例を説明する。
ステップ2202において、ライトアフタ処理実行部1603は、書き込み位置情報に基づいて、対象のFMPKG113にライト要求を発行する。ライトアフタ処理実行部1603は、冗長データを書き込む場合には、この冗長データを重複排除の対象にしない旨の指示を出してもよい。
ステップ2203において、ライトアフタ処理実行部1603は、ライト要求の完了を待つ。ライトアフタ処理実行部1603は、FMPKG113から当該ライト要求に関する終了報告を受信すると、処理を終了する。
<FMPKGによる障害検知>
次に、部分故障FMPKG113内部のコントローラユニット1101で行われる処理について説明する。なおコントローラユニット1101で行われる処理は原則として、コントローラユニット1101内のプロセッサ1106がプログラムを実行することで実現される。また、そのプログラムは主記憶1107内に格納されている。
図13は、主記憶1107内に格納された本実施例に関するプログラムを示す本実施例に関するプログラムは、障害検知プログラム1308である。なお以下の説明において、プログラム(障害検知プログラム1308)を主語とする、処理は、そのプログラム(障害検知プログラム1308)がプロセッサ1106で実行されることで実行されることを意味する。
図20は、あるFMPKG113のコントローラユニット1101による、FMPKG113内部の故障を検知する障害検知プログラムの処理を示す。この処理が実行される契機は、例えば、上位装置112からのI/O要求に対する処理の結果、I/O処理が完了しなかった場合である。ただし、これは実行契機を限定するものではなく、上位装置112からのI/O要求が無くとも、定期的に実行してもよいし、FMPKG113の内部処理で実行されてもよい。
ステップ2001において、障害検知プログラム1308は、ある物理領域に格納されたデータのリードを試みる。この物理領域は、例えば、直前の上位装置112からのI/O処理でアクセスされた物理ページである。一定時間内でFMPKG113内の全ての領域にアクセスするように予めスケジュールされた領域でもよい。効率的にFMPKG113内全てにアクセスが可能なよう、ブロック単位で間引かれていてもよい。
ステップ2001の結果、格納されたデータが全て正しくリードできた場合(2002:NO)、故障は当該範囲に存在せず、診断処理は終了する。一方、ステップ2001の処理の結果、格納されたデータの一部が正しく読めなかった場合、(2002:YES)、その物理領域は故障とみなされ、ステップ2003が実行される。
ステップ2003において、より上位の物理単位に同様の故障がないかどうかを判定するために、障害検知プログラム1308は、障害範囲検索を行う。障害検知プログラム1308は、障害検知プログラム1308は、例えば、故障ページと同じブロックから数ページを読む又は同じプレーンを共有するブロックから数ページを読む。この処理の結果、物理障害範囲が特定される。その後、障害検知プログラム1308は、物論変換によって論理アドレスと、レングス情報が特定し、故障によって失われたデータ量を特定する。
障害検知プログラム1308は、この処理で判明した故障部位を、FM管理情報テーブル1307に登録する。故障範囲がBlockであれば、故障Block番号が有効Blockポインタ1501から削除され、無効Blockポインタ1502に登録される。
故障範囲がPlane場合、上記有効Blockポインタ1501及び無効Blockポインタ1502に加えて、有効Planeポインタ1503及び無効Planeポインタ1504にも情報を削除及び登録される。
Die、Chipの場合も同様に、当該の故障範囲のポインタ登録に加えて、下位範囲の故障範囲も登録される。障害範囲特定後、消失データの論理アドレス取得を行う。論理アドレス取得は、例えば、論物変換情報テーブル1302を用いて行う。
ステップ2004において、障害検知プログラム1308は、消失データ量(障害範囲)と空き予備領域を比較する。空き予備領域から消失データ量を引いた値が所定値(例えば0)以上である場合(2004:NO)、ステップ2005が実行される。
ステップ2005において、障害検知プログラム1308は、上位装置112に対して、データ復元依頼を発行する。部分故障FMPKG113が予め持っている予備領域をユーザデータ用に割り当てることで、故障データの復元が可能である。従って、データ復元依頼発行に先立って、障害検知プログラム1308は、消失データ量と、消失データの論理アドレスを基に、障害通知1001を作成する。障害検知プログラム1308は、依頼種別1002に、RAIDによる自FMPKG113へのデータ復元依頼を設定し、消失データ情報1004に、消失データの論理アドレスとレングスを設定する。
空き予備領域から消失データ量を引いた値が所定値(例えば0)より小さい場合(2004:YES)、障害検知プログラム1308は、ステップ2006を実行する。ステップ2006において、障害検知プログラム1308は、上位装置112に対して、データ退避依頼を発行する。
データ退避依頼に先立って、障害検知プログラム1308は、消失データ量と、消失データの論理アドレスを基に、障害通知1001を作成する。障害検知プログラム1308は、依頼種別1002に、RAIDによる退避先FMPKG113へのデータ復元依頼を設定し、消失データ情報1004に、消失データの論理アドレスとレングスを設定する。
上記例は、FMPKG113がデータ退避/復元の判定を実行するが、代わりに、ストレージコントローラ102がデータ退避/復元の判定を実行してもよい。ストレージコントローラ102は、FMPKG113から消失データの情報に加え、空き予備領域容量の情報を取得する。
本実施例は、1台のFMPKGを論理アドレスで分割して管理する。図23を用いて、フラッシュボリューム(FMPKG)、仮想FMPKG(以降、VFMPKGと記載)、及び実ページの関係について説明する。図23は、フラッシュボリューム115A〜115E、VFMKG2301A〜2301H、実ページ203Aを例示する。以下において、VFMKG2301は、1又は複数のVFMKGである。
本実施例は、1台のFMPKG113のフラッシュボリューム115を、論理アドレスで複数の領域に分割し、分割した領域ごとに仮想的なFMPKG番号であるVFMPKG番号を付与する。上位装置112は、分割した一つの領域を1台のFMPKGと認識する。上位装置112は、複数のVFMPKG2301によってRAIDを構成する。本実施例は、VFMPKG単位で、データを退避させる。これにより、退避後のI/O性能の低下を効果的に抑制できる。なお、本実施例は、実施例1におけるエリアの情報は不要である。
図24は、VFMPKG管理テーブル2401を示す。VFMPKG管理テーブル2401は主記憶109に格納されている。VFMPKG管理テーブル2401の数は、FMPKG113の数と一致する。
図24に示すように、VFMPKG管理テーブル2401は、FMPKG番号2501と、開始アドレス2502と、終端アドレス2503と、及び、VFMPKG番号2504とを有する。開始アドレス2502及び終端アドレス2503は、VFMPKG2301が、所属するFMPKG113のどのアドレス範囲から切り出されたかを示す。
以下に、部分故障発生時のデータ退避処理におけるストレージシステムの動作を説明する。動作の大部分は実施例1と共通しており、以下では、差分について主に説明する。また、実施例1で記述したFMPKG113は、本実施例においては、特に言及のない限り、VFMPKG2301を指す。
図25は、部分故障処理実行部1604が、故障VFMPKG2301の退避データを退避先VFMPKG2301へ退避するフローを示す。本フローは、実施例1に記載のステップ1706において実行される。
ステップ2601において、部分故障処理実行部1604は、実施例1で記載したステップ1701において取得した、故障FMPKG113のIDと、退避データ量と、予備FMPKG情報テーブル307とを用いて、退避データと退避先VFMPKG2301を決定する。本例において、一つの予備FMPKG情報テーブル307は、一つの予備VFMPKG2301の情報を示し、エリア番号の欄が省略される。退避データ情報テーブル306においてもエリア番号欄は省略される。
図26を用いて、ステップ2601の詳細を述べる。ステップ2701において、部分故障処理実行部1604は、予備FMPKG情報テーブル307を用いて、退避先VFMPKG2301を選択する。ステップ2702において、部分故障処理実行部1604は、部分故障FMPKG113に含まれるVFMPKG番号の中から一つのVFMPKG番号を選択する。選択したVFMPKG2301を、退避元候補VFMPKG2301と呼ぶ。
ステップ2703において、次に部分故障処理実行部1604は、RG情報テーブル304を用いて、退避元候補VFMPKG2301が所属するRG204を特定し、退避元候補VFMPKG2301と同じRG204を構成するVFMPKG番号2504のリストを取得する。ステップ2704において、部分故障処理実行部1604は、取得したVFMPKGのIDが、退避先FMPKG113に含まれるかどうかを、退避先FMPKG113に関連したVFMPKG管理テーブル2401を用いて判定する。
取得したVFMPKG番号2504のリストに含まれるVFMPKG番号2504の1つ以上が、退避先FMPKG113に含まれている場合(2704:YES)、退避元候補VFMPKG2301のデータは、退避先FMPKG113に退避できない。退避先FMPKG113が故障した場合、退避元候補VFMPKG2301が所属するRG204において、2点障害となるためである。
そのため、部分故障処理実行部1604は、新たに退避元候補VFMPKG2301を選択し直す。なお、部分故障処理実行部1604は、この再選択を、規定回数で打ち切り、処理を終了してもよい。その場合、部分故障処理実行部1604は、退避失敗として失敗処理を行う。
取得したVFMPKG番号2504のリストに含まれるVFMPKG番号2504が全て、退避FMPKG113から生成されたものでない場合(2704:NO)、ステップ2705が実行される。ステップ2705において、部分故障処理実行部1604は、退避元候補VFMPKG2301を、退避元VFMPKG2301として確定する。
ステップ2706において、部分故障処理実行部1604は、退避元VFMPKG2301として確定した1ないしは複数のVFMPKG2301の容量と、消失データの容量を比較し、消失データの容量の方が大きい場合(2706:NO)、故障FMPKG113から、新たな退避元候補VFMPKG2301を選択するため、ステップ2701に戻る。退避元VFMPKG2301の方が大きい場合(2706:YES)、退避元VFMPKG2301の選択を終了する。
次に、再び図25を用いて、ステップ2602について述べる。RG情報更新2602において、部分故障処理実行部1604は、ステップ2601で決定した退避元VFMPKG番号と、退避先VFMPKG番号を基に、退避元VFMPKG2301の所属していたRG情報テーブル304において、退避元VFMPKG2301を示していたFMPKGポインタ605のエントリを、退避先VFMPKG番号で置換する。
上述のように、VFMPKG単位でデータを退避することによって、データ退避後のI/O性能の低下を効果的に抑制することができる。
<ホストリード>
図27を用いて、リード処理実行部1601の処理フローを詳細に述べる。リード処理実行部1601は、ホスト計算機103から、ストレージコントローラ102が、リード要求を受け付けたときに実行される。
実施例1は、ステップ1906において、退避先FMPKG113のIDを取得する。本実施例では、既にRG情報テーブル304に含まれるFMPKGポインタ605が、退避VFMPKG2301に書き換えられているため、データが格納されているVFMPKGを一意に特定することが可能であり、ステップ1906は不要である。
代わりに、リード処理実行部1601は、ステップ2801を実行する。ステップ2801において、リード処理実行部1601は、VFMPKG管理テーブル2401を用いて、VFMPKG2301内相対アドレスを、FMPKG113内相対アドレスへと変換する。具体的には、VFMPKG2301内相対アドレスに、当該VFMPKG2301の開始アドレス2502を足し合わせた値が、FMPKG113内相対アドレスである。以降は実施例1に示すものと同様である。また、ホストライトも実施例1と同様のため、その説明を省略する。
実施例1及び実施例2は、データ退避アドレステーブル306が主記憶109に格納されているが、本実施例では、データ退避アドレステーブル306は主記憶1107に格納される。本実施例においては、実施例1、2で述べた要素に加えて、データ退避アドレステーブル306及び予備FMPKG情報テーブル307が、主記憶1107に格納される。
本実施例にける、部分故障発生時のデータ退避処理におけるストレージシステム101の動作を説明する。なお、動作の大部分は、実施例1及び実施例2に記載のものと共通しており、以下では、差分について主に説明する。差分動作は、実施例1、2で言及した、データ退避アドレステーブル306及び予備FMPKG情報テーブル307の参照と更新である。
本実施例においてこれらはFMPKG113内の主記憶1107に格納されているため、ストレージシステム101において実行される各プログラムは、これらの参照及び更新コマンドをFMPKG113に発行し、その結果を受領することで参照と更新を実施する。
<ホストリード>
図28を用いて、リード処理実行部1601の処理フローを詳細に述べる。リード処理実行部1601は、ホスト103から、ストレージコントローラ102が、リード要求を受け付けたときに実行される。実施例1及び実施例2は、それぞれステップ1906及びステップ2801において、退避先FMPKG113 のIDを取得するが、本実施例は省略する。
代わりに、ステップ1907にてリード要求を発行したFMPKG113からの応答において、要求データではなく、退避FMPKG IDが受領される場合がある(ステップ3001:NO)。この時、ステップ3002が実施される。ステップ1907において、リード要求を発行したFMPKG113からの応答により要求データが受領された場合、実施例1、2と同様の処理が実行されるため、説明を省略する。
ステップ3002において、リード処理実行部1601は、ステップ1905で取得したアドレスを、ステップ3001において受領した退避FMPKG IDで置換し、再度ステップ1907を実行する。これにより、退避データの受領が可能となる。
<デステージ>
図29は、ライトアフタ処理実行部1603の処理フローである。ライトアフタ処理実行部1603は、CPU108により所定の契機で実行される。例えば、定期的にライトアフタ処理実行部1603が実行されてもよい。主記憶109上のダーティデータ量が所定量を超過した時点でライトアフタ処理実行部1603が実行されてもよい。
ステップ2203において、ライトアフタ処理実行部1603は、ライト要求の完了を待つ。ライトアフタ処理実行部1603は、FMPKG113から当該ライト要求に関する終了報告が返却されると(ステップ3101:YES)、処理を終了する。
ステップ2203の後、FMPKG113から当該ライト要求に関連する、退避FMPKG IDが返却されることがある(ステップ3101:NO)。これは、指定されたアドレスのデータが、退避データとして別のFMPKG113に格納されていることを示す。そこで、ライトアフタ処理実行部1603は、次にステップ3102を実行する。
ステップ3102において、ライトアフタ処理実行部1603は、ステップ2201で取得した書き込み位置情報を、ステップ3101で受領した退避FMPKG IDで置換する。その後、ライトアフタ処理実行部1603は、再度ステップ2202を実行する。これにより、退避FMPKG113へのデータライトが可能になる。
<FMPKG内部処理>
次に、FMPKG113内のコントローラユニット1101で行われる処理について説明する。コントローラユニット1101で行われる処理は原則として、コントローラユニット1101内のプロセッサ1106がプログラムを実行することで実現される。また、そのプログラムは主記憶1107内に格納されている。主記憶1107内に格納された本実施例に関するプログラムは、図13に示されている。
本実施例に関するプログラムは、フラッシュストレージ制御プログラム1306、入出力制御部制御プログラム1304、論物変換プログラム1301である。なお以下の説明においては、プログラム(フラッシュストレージ制御プログラム1306等)を主語とする処理は、そのプログラム(フラッシュストレージ制御プログラム1306等)がプロセッサ1106で実行されることで実現されることを意味する。
図30は、本実施例におけるFMPKG113内部のI/O処理フローを示す。ステップ3201において、入出力制御部制御プログラム1304は、上位装置112からI/Oコマンドを受領する。I/Oコマンドは、主に、リードコマンド又はライトコマンドである。以下では、リードコマンドの例を説明する。受領したコマンドは、LBA情報を含む。
ステップ3202において、論物変換プログラム1301は、入出力制御部制御プログラム1304が受領したコマンドに含まれるLBAを基に、データ退避アドレステーブル306を参照し、当該LBAに関連するデータが、退避データか否かを判定する。
退避データでない場合(ステップ3203:NO)、当該LBAに関連するデータは、自FMPKG113内に格納されている。そのため、論物変換プログラム1301によってステップ3206が実行される。ステップ3206において、論物変換プログラム1301は、LBAを物理セグメントアドレスへ変換する。本処理は公知であるため、説明を省略する。
ステップ3207において、フラッシュストレージ制御プログラム1306は、ステップ3206で取得した物理セグメントアドレスを用いて、物理セグメントに格納されたデータを読みだす。本処理は公知であるため、説明を省略する。ステップ3208において、入出力制御部制御プログラム1304は、ステップ3207で取得したデータを上位装置112に送信し、完了応答を通知する。本処理は公知であるため、説明を省略する。
ステップ3203において、退避データである場合(ステップ3203:YES)、当該LBAに関連するデータは、退避FMPKG113内に格納されている。そのため、論物変換プログラム1301によってステップ3204が実行される。
ステップ3204において、論物変換プログラム1301は、入出力制御部制御プログラム1304が受領したコマンドに含まれるLBAを基に、データ退避アドレステーブル306を参照し、当該LBAに対応する退避先FMPKG ID803を取得する。ステップ3205において、入出力制御部制御プログラム1304は、ステップ3204で取得したデータを上位装置112に送信し、完了応答を通知する。
以上のように、本実施例によれば、ストレージコントローラ102の負荷を低減することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

Claims (8)

  1. 複数の記憶ドライブを制御する計算機であって、
    メモリと、
    前記メモリに格納されているプログラムに従って動作するプロセッサと、を含み、
    前記プロセッサは、
    第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、
    前記選択した1以上の領域のデータを、予備記憶ドライブに移動し、
    前記選択した1以上の領域のデータを前記予備記憶ドライブに移動した後に、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、復元した前記消失データを前記第1の記憶ドライブに書き込み、
    前記第1の記憶ドライブから前記予備記憶ドライブに移動されるデータの、前記第1の記憶ドライブにおける論理アドレスと前記予備記憶ドライブにおける論理アドレスとは同一であり、
    前記第1の記憶ドライブから前記予備記憶ドライブに移動されるデータが、前記部分故障により消失した第1消失データを含む場合、前記プロセッサは、前記他の記憶ドライブからデータを読み出して前記第1消失データを復元し、前記予備記憶ドライブに書き込む、計算機。
  2. 請求項1に記載の計算機であって、
    前記プロセッサは、前記第1の記憶ドライブにおける空き予備領域から前記部分故障による全消失データ量を引いた値が所定の値より小さい場合に、前記所定サイズ以上の1以上の領域を選択する、計算機。
  3. 請求項2に記載の計算機であって、
    前記プロセッサは、
    前記第1の記憶ドライブから、前記第1の記憶ドライブにおける空き予備領域から前記部分故障による全消失データ量を引いた値が所定の値より小さい場合に、障害通知を受信し、
    前記障害通知に応答して、前記所定サイズ以上の1以上の領域を選択する、計算機。
  4. 請求項1に記載の計算機であって、
    前記複数の記憶ドライブは、それぞれ、複数の仮想記憶ドライブを含む、物理記憶ドライブであり、
    前記複数の仮想記憶ドライブそれぞれに、物理記憶ドライブの論理アドレス空間内の領域が割り当てられており、
    前記プロセッサは、
    前記第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブにおける1以上の仮想記憶ドライブを選択し、
    選択した前記1以上の仮想記憶ドライブのデータを前記予備記憶ドライブに移動する、計算機。
  5. 請求項4に記載の計算機であって、
    前記1以上の仮想記憶ドライブは、前記予備記憶ドライブに含まれるいずれの仮想記憶ドライブともRAIDグループを構成していない、計算機。
  6. 請求項1に記載の計算機であって、
    前記プロセッサは、
    ホストからの前記1以上の領域に対するI/O要求に応答して、前記第1の記憶ドライブにI/O要求を送信し、
    前記第1の記憶ドライブに対する前記I/O要求に対して、前記第1の記憶ドライブから前記予備記憶ドライブの識別情報を受信すると、前記予備記憶ドライブにI/O要求を送信する、計算機。
  7. 複数の記憶ドライブを制御する方法であって、
    第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、
    前記選択した1以上の領域のデータを、予備記憶ドライブに移動し、
    前記第1の記憶ドライブから前記予備記憶ドライブに移動されるデータの、前記第1の記憶ドライブにおける論理アドレスと前記予備記憶ドライブにおける論理アドレスとは同一であり、
    前記選択した1以上の領域のデータを前記予備記憶ドライブに移動した後に、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出して、前記部分故障による消失データを復元し、復元した前記消失データを前記第1の記憶ドライブに書き込み、
    前記第1の記憶ドライブから前記予備記憶ドライブに移動されるデータが、前記部分故障により消失した第1消失データを含む場合、前記他の記憶ドライブからデータを読み出して前記第1消失データを復元し、前記予備記憶ドライブに書き込
    む、ことを含む方法。
  8. 複数の記憶ドライブと、
    メモリと、
    前記メモリに格納されているプログラムに従って動作するプロセッサと、を含み、
    前記プロセッサは、
    前記複数の記憶ドライブに含まれる第1の記憶ドライブの部分故障に対して、前記第1の記憶ドライブの論理アドレス空間において所定サイズ以上の1以上の領域を選択し、
    前記選択した1以上の領域のデータを、予備記憶ドライブに移動し、
    前記選択した1以上の領域のデータを前記予備記憶ドライブに移動した後に、前記第1の記憶ドライブとRAIDグループを構成する他の記憶ドライブからデータを読み出し、前記部分故障による消失データを復元し、復元した前記消失データを前記第1の記憶ドライブに書き込み、
    前記第1の記憶ドライブから前記予備記憶ドライブに移動されるデータの、前記第1の記憶ドライブにおける論理アドレスと前記予備記憶ドライブにおける論理アドレスとは同一であり、
    前記第1の記憶ドライブから前記予備記憶ドライブに移動されるデータが、前記部分故障により消失した第1消失データを含む場合、前記プロセッサは、前記他の記憶ドライブからデータを読み出して前記第1消失データを復元し、前記予備記憶ドライブに書き込む、計算機システム。
JP2018565232A 2017-02-06 2017-02-06 計算機 Active JP6817340B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/004251 WO2018142622A1 (ja) 2017-02-06 2017-02-06 計算機

Publications (2)

Publication Number Publication Date
JPWO2018142622A1 JPWO2018142622A1 (ja) 2019-11-14
JP6817340B2 true JP6817340B2 (ja) 2021-01-20

Family

ID=63040575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018565232A Active JP6817340B2 (ja) 2017-02-06 2017-02-06 計算機

Country Status (3)

Country Link
US (1) US10915401B2 (ja)
JP (1) JP6817340B2 (ja)
WO (1) WO2018142622A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915401B2 (en) * 2017-02-06 2021-02-09 Hitachi, Ltd. Data saving caused by a partial failure of the memory device
US20210326320A1 (en) * 2018-10-15 2021-10-21 Ocient Inc. Data segment storing in a database system

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2369206B (en) * 2000-11-18 2004-11-03 Ibm Method for rebuilding meta-data in a data storage system and a data storage system
US7698591B2 (en) * 2005-08-26 2010-04-13 International Business Machines Corporation Method and apparatus for ensuring data integrity in redundant mass storage systems
US20070050544A1 (en) * 2005-09-01 2007-03-01 Dell Products L.P. System and method for storage rebuild management
JP2007233903A (ja) * 2006-03-03 2007-09-13 Hitachi Ltd 記憶制御装置及び記憶制御装置のデータ回復方法
JP2009098996A (ja) * 2007-10-18 2009-05-07 Hitachi Ltd ストレージシステム
US8171377B2 (en) * 2008-01-31 2012-05-01 International Business Machines Corporation System to improve memory reliability and associated methods
US9558059B2 (en) * 2009-07-30 2017-01-31 International Business Machines Corporation Detecting data requiring rebuilding in a dispersed storage network
WO2013038618A1 (ja) 2011-09-14 2013-03-21 パナソニック株式会社 情報記憶媒体ライブラリアレイ装置、情報記録方法及び情報記録プログラム
JP5586712B2 (ja) * 2013-01-16 2014-09-10 株式会社東芝 ディスクアレイ制御装置およびディスクアレイ装置
US10013322B2 (en) 2013-06-03 2018-07-03 Hitachi, Ltd. Storage apparatus and storage apparatus control method
US9411523B2 (en) * 2013-07-03 2016-08-09 Globalfoundries Inc. Redundant array of independent disks (RAID) system backup management
WO2015114744A1 (ja) * 2014-01-29 2015-08-06 株式会社日立製作所 ストレージ装置
US10558527B2 (en) * 2014-12-02 2020-02-11 Pure Storage, Inc. Rebuilding strategy in memory managed multi-site duplication
JP6283771B2 (ja) * 2015-04-28 2018-02-21 株式会社日立製作所 ストレージ装置
US10915401B2 (en) * 2017-02-06 2021-02-09 Hitachi, Ltd. Data saving caused by a partial failure of the memory device

Also Published As

Publication number Publication date
WO2018142622A1 (ja) 2018-08-09
JPWO2018142622A1 (ja) 2019-11-14
US10915401B2 (en) 2021-02-09
US20190220358A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
US10073640B1 (en) Large scale implementation of a plurality of open channel solid state drives
US9665286B2 (en) Storage device
JP5437373B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
US9684591B2 (en) Storage system and storage apparatus
US10542089B2 (en) Large scale implementation of a plurality of open channel solid state drives
US10884630B2 (en) Storage system
JP6062060B2 (ja) ストレージ装置、ストレージシステム、及びストレージ装置制御方法
US20140189203A1 (en) Storage apparatus and storage control method
JP6600698B2 (ja) 計算機システム
US20150254186A1 (en) Information processing device having a plurality of types of memory caches with different characteristics
JP2016506585A (ja) データストレージのための方法及びシステム
US11928053B2 (en) System garbage collection method and method for garbage collection in solid state disk
WO2015162758A1 (ja) ストレージシステム
US20180275894A1 (en) Storage system
US10013322B2 (en) Storage apparatus and storage apparatus control method
WO2017068617A1 (ja) ストレージシステム
JP6817340B2 (ja) 計算機
JP5768118B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
WO2018002999A1 (ja) 記憶デバイス及びストレージ装置
US11068180B2 (en) System including non-volatile memory drive
JP6605762B2 (ja) 記憶ドライブの故障により消失したデータを復元する装置
JP6138318B2 (ja) 複数のフラッシュパッケージを有するストレージシステム
JP5945040B2 (ja) 複数のフラッシュパッケージを有するストレージシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201224

R150 Certificate of patent or registration of utility model

Ref document number: 6817340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150