JP3753461B2 - 冗長性パリティ法によるデータの書き込み方法およびデータ記憶システム - Google Patents
冗長性パリティ法によるデータの書き込み方法およびデータ記憶システム Download PDFInfo
- Publication number
- JP3753461B2 JP3753461B2 JP33455995A JP33455995A JP3753461B2 JP 3753461 B2 JP3753461 B2 JP 3753461B2 JP 33455995 A JP33455995 A JP 33455995A JP 33455995 A JP33455995 A JP 33455995A JP 3753461 B2 JP3753461 B2 JP 3753461B2
- Authority
- JP
- Japan
- Prior art keywords
- stripe
- segment
- parity
- data
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1076—Parity data used in redundant arrays of independent storages, e.g. in RAID systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P9/00—Drugs for disorders of the cardiovascular system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2211/00—Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
- G06F2211/10—Indexing scheme relating to G06F11/10
- G06F2211/1002—Indexing scheme relating to G06F11/1076
- G06F2211/1009—Cache, i.e. caches used in RAID system with parity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2211/00—Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
- G06F2211/10—Indexing scheme relating to G06F11/10
- G06F2211/1002—Indexing scheme relating to G06F11/1076
- G06F2211/1059—Parity-single bit-RAID5, i.e. RAID 5 implementations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Chemical & Material Sciences (AREA)
- Pharmacology & Pharmacy (AREA)
- Heart & Thoracic Surgery (AREA)
- Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Organic Chemistry (AREA)
- Cardiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Description
【発明の属する技術分野】
この発明は、ディスク・アレイに、より具体的には、冗長性記憶能力を持つ冗長で階層的なディスク・アレイ・データ記憶システムに関する。この発明は、またデータがディスク・アレイに書き込まれる際に、冗長性を増加的に生成する方法に関する。
【0002】
ディスク・アレイ・データ記憶システムは、一つの大容量記憶システムを形づくるよう配列され、コーディネートされる複数の記憶ディスク・ドライブ装置を持つ。そのような記憶装置のための3つの主要な設計基準がある。それは、費用、パフォーマンスおよび可用性である。メガバイトあたりの費用が小さく、高い入出力パフォーマンスおよび高いデータ可用性を持つ記憶装置を生産することが最も望ましい。「可用性」が、その記憶装置に格納されたデータをアクセスする能力およびなんらかの故障の場合に継続操作を保証する能力である。典型的に、データ可用性は、データ、またはデータ間の関係が複数のロケーションに格納される冗長性の使用を通して提供される。ディスク・アレイにおける記憶ディスクが部分的、あるいは完全に故障する場合、ユーザ・データは、残っているディスクに格納された冗長データを通して再建されることができる。
【0003】
【従来の技術】
冗長データを格納するには2つの共通の方法がある。第1の方法、すなわち「 ミラー」法によると、データは、複製され、その記憶装置の2つの別々の領域に 格納される。例えば、ディスク・アレイにおいて、同じデータがディスク・アレイの2つの別々のディスクに提供される。ミラー法は、二重記憶技術によって高 いパフォーマンスおよび高いデータ可用性の利点を持っている。しかし、ミラー法は、データを格納する費用を実質的に2倍にするので比較的高価である。
【0004】
第2の方法、すなわち「パリティ」法では、記憶領域の一部分が、冗長データを格納するために使われるが、冗長な記憶領域のサイズは、オリジナルのデータを格納するのに使われた残りの記憶スペースより小さい。例えば、5つのディス クを持つディスク・アレイにおいて、4つのディスクが、データを格納するのに 使われ、5番目のディスクが冗長データを格納するのに使われる。パリティ法は 、ミラー法より低コストだという利点があるが、ミラー法に比べるとパフォーマンスおよび可用性特性において劣る。
【0005】
【発明が解決しようとする課題】
この発明は、特にデータをパリティ技法に従って格納することに向けられる。従来のディスク・アレイにおいて、記憶ディスク上の記憶スペース(空間)は、各ストライプが複数の記憶ディスクにわたって延びる複数のストライプに構成されている。各ストライプは、記憶スペースの複数のセグメントから成り、各セグメントは、ディスク・アレイの一つの記憶ディスク上にある、ストライプの一部分である。
【0006】
先行技術のディスク・アレイの初期設定の間に記憶ディスクが、フォーマットされ、各ストライプのためのパリティがセットされる。初期設定の後、ディスク・アレイにデータを書くのに4つのI/Oアクセスが必要とされる。すなわち、選ばれたストライプから更新されるべきデータを読む第1のI/O、そのストライプにおけるデータのための対応するパリティを読むための第2のI/O、新しいデータをそのストライプに書き戻すための第3のI/O、および、新しいデータのための新しいパリティをそのストライプに書き込む第4のI/Oである。ディスク・アレイのストライプにデータを書くのに必要なI/Oの数を減らすことが望ましい。
【0007】
先行技術のディスク・アレイで使われた一つの技法は、パリティ値をキャッシュ記憶することである。これによって、各書込みプロセスの間にディスク・アレイから、パリティを読みとる必要性が減らされ、I/Oの数が3に減らされる。しかし、さらにディスク・アレイのストライプにデータを書くのに必要なI/Oの数を減らす必要性が残っている。
【0008】
【課題を解決するための手段】
この発明は、パリティ書き込みの間、必要とされるI/Oの数が少ない改善された書込み性能を持つディスク・アレイ・データ記憶システムを提供する。ディスク・アレイは、好ましくは一度に一つのセグメントの逐次的な態様でストライプの個々のセグメントにデータを書く。メモリ・マネージャーが、提供されるストライプのサイズ、およびそのセグメントが、関連したストライプのパリティ値の一部分であるデータを含むどうかに関する、ストライプの各セグメントのパリティ状態を知っている。
【0009】
好ましい実施例において、メモリ・マネージャーは、2種類のポインターの使用を通して、各セグメントのパリティ状態を追跡する。これらは、満たされているストライプを追跡し続ける1つまたは複数の部分的ストライプ・ポインター、および満たされているストライプの特定のセグメントを参照する1つまたは複数のセグメント・フィル・ポインターである。選ばれたストライプに関し、セグメント・フィル・ポインターの前のセグメントは、ストライプ・パリティに編入されるデータを含むことが知られており、そしてセグメント・フィル・ポインターに続くセグメントは空で、ストライプ・パリティにまだ編入されない。部分的ストライプ・ポインターによって参照されないストライプに関しては、データを含むストライプは、ストライプ・パリティによって代表されるすべてのデータ・セグメントを持つと考えられ、そしてすべての空のストライプは、データを含まないか、これらのセグメントを代表するパリティ値を持たないと理解される。
【0010】
ひとたびストライプが選ばれれば、データはセグメント・フィル・ポインターによって参照されたセグメントに書かれる。このデータ書込みの間に、選ばれたストライプにおけるすべての満たされたセグメントに含まれるデータに対応するパリティ値が、増分的に生成され、NVRAMのような別々の不揮発性メモリにキャッシュ記憶される。ストライプにおける空のセグメントは、書込みプロセスの間、管理されず、増分的パリティ生成に含まれない。ストライプにおけるすべてのデータ・セグメントが満たされたあと、最終的なパリティ値は、そのストライプのパリティ・セグメントに書かれる。次いで、プロセスは、次の満たされていないストライプまたは部分的に満たされたストライプについて繰り返される。
【0011】
この発明に従って、逐次的なセグメント書込み、増分的パリティ生成およびパリティのキャッシュ記憶で実行されるディスク・アレイは、古いデータを読み古いパリティを読む先行技術のI/Oを削減する。さらに、パリティ値がディスク・アレイに書かれる回数をストライプ全体が満たされたあとの一つの書込みに減らすことができる。これにより書込み性能が大きく改善される。
【0012】
【発明の実施の形態】
図1は、この発明に従ってつくられたデータ記憶システム10を示す。データ記 憶システム10は、複数の記憶ディスク1 2、および記憶ディスク12およびRAID管理システム16との間でデータ転送を協調させるために、ディスク・アレイ11に結合したディスク・アレイ・コントローラ14を有する階層的なディスク・アレイ11を備える、ディスク・アレイ・データ記憶システムであるのが好ましい。
【0013】
説明上、「ディスク」は、それ自身の記憶装置故障を発見する能力を持つ、不揮発性でランダムにアクセス可能な、再書き込み可能な大容量記憶装置である。それは、回転する磁気ディスクおよび光ディスク、ならびにソリッドステートのディスクまたは不揮発性電子記憶素子(PROM、EPROMとEEPROMのような)を含む。「ディスク・アレイ」という用語は、ディスクの集合をいい、それらを一つまたは複数のホスト・コンピュータに接続するために必要なハードウェア、および物理的なディスクの操作を制御するために使われ、ホスト操作環境へそれらを一つまたは複数の仮想ディスクとして提供する管理ソフトウェアを含んでいる。すべての仮想ディスクは、管理ソフトウェアによってディスク・アレイの中で実現される抽象的な構成要素である。
【0014】
用語「RAID」(Redundant Array of Independent Disks)は、記憶容量の残りの部分に格納されたユーザ・データに関する冗長情報を格納するために、物理的な記憶容量の一部分が使われるディスク・アレイを意味する。そのアレイの構成ディスクの一つが故障するかそれへのアクセス経路が故障した場合、冗長情報がユーザ・データの再生を可能にする。RAIDシステムのより詳細な説明は、The RAID Book: A Source Book for RAID Technology, the RAID Advisory Board, Lino Lakes, Minnesota、1993 年6月9日、に記載されている。
【0015】
ディスク・アレイ・コントローラ14は、小型コンピュータ・システム・インターフェース(SCSI)のような1つまたは複数のインターフェース・バス13を通してディスク・アレイ11に結合されている。RAID管理システム16は、インターフェース・プロトコル15を通して動作的にディスク・アレイ・コントローラ14に結合されている。また、データ・メモリ・システム10は、I/Oインターフェース・バ ス17を通してホスト・コンピュータ(図示しない)に結合される。RAID管理システム16は、ディスク記憶および信頼性のレベルを制御するため、およびいろいろな信頼性記憶レベルの間でデータを転送するためにデータ・マネージャー手段を提供するよう、別々のコンポーネントとして具体化されることも、ディスク・アレイ・コントローラ14内で、あるいはホスト・コンピュータ内で構成されることもできる。これらの信頼性記憶レベルは、後述するようにミラーまたはパリティ冗長レベルであるのが好ましいが、全く冗長性なしの信頼性記憶レベルを含むことができる。
【0016】
ディスク・アレイ・コントローラ14は、ディスク・アレイ・コントローラA、14aとディスク・アレイ・コントローラB、14bから成る二重のコントローラとして実施するのが好ましい。二重のコントローラ14aと14bは、連続的なバックアップと冗長性を提供することによって、一つのコントローラが動作不能になるときの信頼性を高める。しかし、この発明は、一つのコントローラその他のアーキテクチャーでも実施することができる。
【0017】
階層的なディスク・アレイは、その物理的な記憶スペースおよび1つまたは複数の仮想記憶スペースを含めて、異なる記憶スペースとして特徴づけることができる。記憶装置のこれらのいろいろな見方は、マッピング技法を通して関係づけられる。例えば、そのディスク・アレイの物理的な記憶スペースは、いろいろなデータの信頼度レベルに従って記憶領域を画定する仮想記憶スペースにマップすることができる。仮想記憶スペース内のいくつかの領域が、ミラーまたはRAIDレベル1のような第1の信頼性記憶レベルのために割り当てられ、他の領域がパリ ティまたはRAIDレベル5のような第2の信頼性記憶レベルのために割り当てられ ることができる。いろいろなマッピング技術およびRAIDレベルに関する仮想スペースについて、以下に詳細を説明する。
【0018】
データ記憶システム10は、異なる記憶スペースを互いにマップするために使われるる仮想マッピング情報を持続的に記憶するためのメモリ・マップ・ストア21を含む。メモリ・マップ・ストアは、ディスク・アレイに対して外部にあり、ディスク・アレイ・コントローラ14に常駐するのが好ましい。異なるビューの間でいろいろなマッピング構成が変わるにつれて、メモリ・マッピング情報がコントローラまたはRAID管理システムによって連続的に、あるいは定期的に更新されることができる。
【0019】
メモリーマップ・ストア21は、それぞれのコントローラ14aと14bに位置する2 つの不揮発性RAM (Random Access Memory) 21aおよび21bとして具体化されるの が好ましい。不揮発性RAM(NVRAM)の一例は、バッテリで支援されたRAMである 。バッテリ支援RAMは、データ記憶システム10への電力供給が損なわれた場合、 ある時間の間メモリの中のデータを維持するために独立のバッテリ源からのエネルギーを使う。一つの好ましい構造は、自己リフレッシュ型のバッテリ支援DRAM(Dynamic RAM)である。
【0020】
二重のNVRAM 21aおよび21bが、メモリ・マッピング情報の冗長な記憶を行う。仮想マッピング情報が、ミラー冗長技術に従って複製され、両方のNVRAM 21aお よび21bに格納される。このように、NVRAM 21aが、オリジナルのマッピング情報を格納することに専用され、NVRAM 21bが冗長なマッピング情報を格納すること に専用されることができる。代替構造において、ミラーされたメモリーマップ・ストアは、そのデータを二重に記憶するに十分なスペースを持つ単一の不揮発性RAMを使って構成することができる。
【0021】
図1に示されるように、ディスク・アレイ11は、複数の記憶ディスク・ドライ ブ装置12を持っている。これらの記憶ディスクのサイズの例は、1ないし3ギガバイトである。記憶ディスクは、SCSIバス13とのインターフェイスを提供する機械的ベイに、独立に接続されたり切り離したりされることができる。一つの実施例において、データ記憶システムは、12の機械的ベイを持つよう設計される。4つ のSCSIバスが、これらのベイとディスク・アレイ・コントローラ14とをインターフェイスするのに使われる(すなわち、3つの機械的ベイにつき一つのバス)。 活動ベイがいっぱいにロードされるならば、データ記憶システムは、12ないし36ギガバイトの結合された容量を持つ例になる。ディスク・アレイ・コントローラ14は、どのベイに接続されたかとは関係なく記憶ディスク12を認識する。データ記憶システム10は、ディスク・アレイが運転中である間に、ディスク・アレイの利用可能な機械的ベイに付加的ディスクを「ホットプラグ」(稼働中にプラグ接続する)することができるよう設計されている。
【0022】
ディスク・アレイ11の中の記憶装置ディスク12は、説明の目的のために、複数のディスク20のミラー・グループ18および複数のディスク24のパリティ・グループ22に配列されているものと観念することができる。ミラー・グループ18は、データを第1の、すなわちミラー冗長レベルに従って格納する、ディスク・アレイの第1の記憶ロケーションすなわちRAID領域を表わす。また、このミラー冗長レベルは、RAIDレベル1と考えられる。RAIDレベル1、あるいはディスク・ミラーリングは、データのあらゆるビットがデータ記憶システム内で複製され記憶される点で1対1の保護を与え、最も高いデータ信頼性を提供する。ミラー冗長性は、図1において3対のディスク20によって表わされている。オリジナルのデータが、第1組のディスク26に格納されることができ、重複して冗長データが対になった第2組のディスク28に格納される。
【0023】
図2は、RAIDレベル1に従ったデータの記憶を図示する。垂直な列は、個々のディスク(ディスク0、1、2および3が図示される)を表現する。4つのディスクの ディスク・アレイに含まれる物理的な記憶スペースは、水平な行によって表現されるように、複数のストライプに構成することができる。「ストライプ」は、記憶ディスクを横切って広がり、一つのセグメントがそのアレイの中のそれぞれのディスクと関連する、多数の等しい大きさの記憶スペースのセグメントを含む。すなわち、セグメントは、一つのディスク上にあるストライプの部分である。各ストライプは、記憶ディスクを横切って分配されるあらかじめ決められた量のデータを持つ。ストライプのセグメントのあるものは、オリジナルのデータのために使われ、他のセグメントが冗長データのために使われる。
【0024】
ミラー冗長性(RAIDレベル1)のこの例において、ディスク0上でストライプ0 のセグメント0に格納されたデータは、複製され、ディスク1上でストライプ0の セグメント0'に格納される。同様に、ディスク2上でストライプ2のセグメント5 に格納されたデータは、ディスク3上でストライプ2のセグメント5'にミラー(複製)される。このように、データの各部分は、複製されてディスク上に格納される。図2の冗長性レイアウトは、説明の目的で用意されている。冗長データは、 図示しているのと同じストライプにきちんと置かれる必要はない。例えば、ディスク0上でストライプ1の中のセグメント2に格納されたデータは、複製されて、 ディスク3上でストライプSのセグメントT'に置かれてもよい。
【0025】
再び図1を参照すると、ディスク24のパリティ・グループ22は、データがRAID レベル5のような第2の冗長レベルに従って格納される第2の記憶ロケーション すなわちRAID領域を表わす。6つのディスクを用いた説明的なイラストにおいて 、オリジナルのデータは、5つのディスク30に格納され、冗長な「パリティ」デ ータが6番目のディスク32に格納される。
【0026】
図3は、パリティRAID領域のレイアウトをより詳しく示す。図2のミラーRAID 領域レイアウトと同様に、ディスク0、1、2、3の物理的な記憶スペースは、複数の等しい大きさのストライプに構成されることができる。図の例において、データがRAIDレベル5に従って格納され、セグメントに格納された冗長データは、文 字Pによって参照される。冗長なPセグメントは、他のセグメントのパリティをそのストライプに格納する。たとえば、ストライプ0において、ディスク3上の冗長なPセグメントは、ディスク0、1および2のパリティを格納する。各ストライプのためのパリティが、次の式の中の記号によって表わされる排他的OR機能のようななんらかの機能によって計算される。第1の4つのストライプのためのパリテ ィ(下付き添字数字が対応するストライプを表わす)は、次のようである:
【0027】
【数1】
パリティ冗長性は、ディスクの一つで利用できなくなるデータの再生を可能にする。例えば、セグメント5のデータが利用できなくなったならば、その内容は 、セグメント3および4ならびにセグメントPの中のパリティ・データから確かめ ることができる。パリティ記憶は、ミラー記憶より経済的であるが、相対的に信頼性が低く、パフォーマンスが低い。
【0028】
図1のディスク構成は、概念上の目的で用意されている。実際上、ディスク・ アレイ11は、データをミラーおよびパリティ冗長性に従って格納することができる単に複数のディスク12を持っていてよい。すべてのディスク12によって提供される利用可能な記憶スペースの中で、その記憶スペースの一部がミラー冗長性のために割り当てられ、他の部分がパリティ冗長のために割り当てられる。ディスク12は、個々の区域が複数のセグメントを持つ、複数の等しい大きさに作られた記憶区域(図4において数字35で参照される)を含むよう構成されるのが好ましい。その区域は、記憶スペースの一つの仮想ビューにおいて、RAID領域を形成するようグループ化される。さらに、記憶スペースのもう一つの(ホストで規定される)ビューがユーザまたはホストに提示されるので、RAID領域およびデータ冗長性記憶技術はユーザまたはホストに透明である。これらの機構は、図4を参照 してより詳しく説明する。
【0029】
データ記憶システム10は、ミラーおよびパリティ記憶法の間でデータの「移行」を管理する。両方の型の冗長性の管理は、RAID管理システム16(図1)で協調 される。RAID管理システム16は、ディスク・アレイの2つの異なる型のRAID領域 を、ミラーRAID領域がパリティRAID領域のためのキャッシュに似た動作をするメモリ・ハイアラーキとして管理する。RAID管理システム16は、規定されたパフォーマンス・プロトコルに従って、ミラーおよびパリティRAID領域の間でデータをシフトし、組織するなど管理する。ミラーおよびパリティRAID領域の間でデータを動かすプロセスは、「移行」と呼ばれる。
【0030】
データ記憶システム10は、ミラー冗長性が最も高いパフォーマンスと信頼性の余裕を持っているから、よりパフォーマンスに厳格なデータをミラーRAID領域に置こうとする。RAID管理システムによって実行されるパフォーマンス・プロトコルは、2つの好ましい移行方針の一つを含む。「アクセス頻度」として知られる 第1の移行方針によると、階層的なディスク・アレイ上の最も頻繁にアクセスされるデータがミラーRAID領域18に維持される。アクセスされる頻度の小さいデータは、パリティRAID領域22に維持される。「アクセスの最近度」として知られている第2の移行方針によると、最も最近アクセスされたデータがミラーRAID領域18に維持され、アクセス最近度の低いデータがパリティRAID領域22に格納される。他のパフォーマンス・プロトコルを使うこともできる。理想的には、そのようなプロトコルは、特定のコンピュータ・アプリケーションおよびユーザのニーズに基づいて規定される。
【0031】
さらに、RAID管理システム16は、2つのパラメーターの関数に従って、データ 記憶システムの記憶資源を自動的に「調整する」。この2つのパラメータは、物理的な記憶容量のサイズ、およびデータ記憶システムに格納つつあるユーザ・データの現在量のサイズである。最初は、最も高いパフォーマンスおよび信頼性を持つので、すべてのデータがミラーRAID領域に格納される。より多くのデータがデータ記憶システムに加えられるにつれて、データは、パフォーマンスおよび信頼性を最適化するために、ミラーRAID領域およびパリティRAID領域の間で移行される。データ記憶システムが容量いっぱいに近づくと、冗長性を通しての信頼性を提供しながらユーザのすべての要求に応ずるために、より多くのデータがパリティRAID領域に移行される。それゆえに、この発明のデータ記憶システムは、最大の融通性と順応性を持つ。この発明の記憶システムは、ユーザに特定の記憶体制を選ぶことを要求せず、ユーザの要求に適応することができる。
【0032】
図4は、データ記憶システム10の利用可能な記憶スペースのメモリ・マッピン グを、マップされた仮想記憶スペースの複数の段として図示する。図の中の垂直に伸びたそれぞれの長方形は、物理的な記憶スペースのビューを表現する。この図の中で、物理的記憶スペース34が2つの仮想記憶装置のビュー40および50で参照される。物理的記憶スペース34は、数字0、1、2、および3で参照される4つの ディスク(図1の中のディスク12のような)によって表現される。そのディスク に関連した4つの長方形は、ディスク1、2および3がほぼ等しい記憶容量を持ち、ディスク0がわずかに小さい記憶容量を持つ物理的な記憶スペースのビュー50を 表わす。そのようなディスクの例としての記憶容量は、1-3ギガバイトである。 記憶スペース34は、領域A0、A1、A2、その他に区分される。個々の領域は、領域A0にストライプ0-Qのような多数のストライプを含む。個々の領域も、多数の区 域35を含む。区域35は、区域が全ディスク・アレイにわたって同じ大きさであるように、あらゆる記憶ディスク上で選ばれた数の均一な大きさのセグメントから成るのが好ましい。区域35の例としてのサイズは、1メガバイトである。
【0033】
ディスクの記憶スペースは、物理的な記憶スペース34の第1の、中間の、RAIDレベルの仮想ビュー40にマップされる。この第1の仮想ビューは、観念的には、連続してアドレス可能な記憶スペースを表現する第2のアプリケーション・ビューにマップされることができる一組のRAID領域である。その物理的構成およびその記憶スペースのRAIDビューは、アプリケーション・ビューから隠されている。 RAID領域記憶スペース40は、ミラーおよびパリティ記憶スペースを識別する記憶装置のビューである。たとえば、RAID領域42が、M割当てブロック43のミラーRAID領域を表現し、RAID領域44がN割当てブロック45のパリティRAID領域を表現してもよい。割当てブロック43および45は、同じ大きさであるのが好ましい。例としての大きさは、64キロバイトである。これらのRAID領域は、物理的な記憶スペース34上の対応する物理的な領域A0、A1、A2などに関連する。例として、RAID仮想ビューにおける16の64K割当てブロック43または45は、一つの1M区域35の上へ マップすることができる。
【0034】
ミラーおよびパリティRAID領域は、ディスク・アレイの全記憶スペース34を消費するかもしれず、消費しないかもしれない。したがって、ある種のアプリケーションの間、特定のRAID領域に対応しない、不使用の指定されていない記憶スペースがあることがある。しかし、そのような記憶スペースは、ミラーまたはパリティRAID領域に変換されることができる。また、RAID領域は、ディスク・アレイ上で連続する領域にマップされ、各RAID領域に関連したそれぞれの区域が各記憶ディスクの同じ物理アドレスに位置するものとして示されている点に注意されたい。代わりに、RAID領域は、ディスク・アレイ上の連続しない領域にマップされてもよい。
【0035】
RAID領域で利用可能な記憶スペースは、ユーザまたはホスト・アプリケーション・プログラムによって規定され、それらに提示される記憶装置のビューである、第2の、フロントエンドの、アプリケーション・レベルの仮想ビュー50にマップされる。ユーザまたはホスト・アプリケーション・プログラムから見るとき、アプリケーション・レベルの仮想ビュー50は、記憶ディスク12上の利用可能な記憶スペースを示す一つの大きい記憶容量を表わすことができる。仮想記憶スペース50は、個別に0、1、2、...、J-1、J、J+1、...、Lー1、L、L+1、...、などとして参照される等しい大きさの記憶仮想ブロック52および53の線形セットのビューを提示する。仮想ブロック52および53は、RAID領域40における割当てブロックと同じサイズであることが好ましい。サイズの例は、64キロバイトである。仮想ブロック記憶スペース50は、RAID領域40で表されるビューの割当てブロックへの参照すなわちポインタ(矢印54によって表現されるように)のテーブルによって 表わされる。したがって、アプリケーション仮想ビュー50における仮想ブロック52および53は、仮想ブロック・テーブルに維持されるポインタを通してRAID仮想ビュー40における割当てブロック43および45と関連する。仮想ブロック・テーブルから参照することができる少くとも2つ型のRAID領域、ミラーおよびパリティ がある。
【0036】
RAID管理システム16は、物理的な記憶スペースにわたって動的にRAID領域の構成を変えることができる。それぞれの型についてRAID領域の数が、システムで格納されるユーザ・データの量および物理的なディスク記憶スペースのサイズに依存して増やされまたは減少されうる。この結果、RAIDレベルの仮想ビュー40におけるRAID領域のディスクへのマッピング、およびアプリケーション・レベルの仮想ビュー50のRAIDビュー40へのマッピングは、概して変化状態にある。NVRAM 21aおよび21b(図1)におけるメモリ・マップ・ストアは、RAID領域をディスクへマップするためにRAID管理システム16によって使われる現在のマッピング情報を、2つの仮想ビューの間でマップするために使われる情報と同様に維持する。RAID管理システムは、動的にRAIDレベルのマッピングを変えるにつれて、その変更 を反映するために、メモリ・マップ・ストアのマッピング情報を更新する。
【0037】
メモリ・システム10の移行操作を図1および4を参照して説明する。
【0038】
説明を続ける目的で、アプリケーション・レベルの仮想記憶スペース50の仮想ブロック53は、物理的記憶スペース34の領域A1に格納されたパリティRAID領域44における関連した割当てブロック45を参照する。そのような仮想ブロック53は、パリティ仮想ブロックと呼ぶことができ、関連した割当てブロック45は、パリティ割当てブロックと呼ぶことができる。同様に、仮想ブロック52は、物理的記憶スペース34の領域AOに格納されたミラーRAID領域42における関連した割当てブロック43を参照する。そのような仮想ブロック52は、「ミラー仮想ブロック」と呼ばれ、関連した割当てブロック43が「ミラー割当てブロック」と呼ばれる。
【0039】
一般に、一つのRAID領域から別の領域に移行するために、第1のRAIDレベル型(ミラーまたはレベル1のような)の割当てブロックに関連した仮想ブロックが 選ばれる。次いで、第2のRAIDレベル型(パリティまたはレベル5のような)を 表す不使用の割当てブロックが見いだされる。不使用の割当てブロックを見いだすことができないならば、一つが作成される。データは、選ばれた仮想ブロックと関連する割当てブロックから不使用の割当てブロックに移され、データは冗長レベルを変更される。例えば、ミラー冗長性に従って格納されていたデータは、パリティ冗長性に従って格納され、また、その逆が行われる。最終的なステップとして、RAIDレベルの仮想記憶スペース40へのアプリケーション・レベルの仮想記憶スペース50のマッピング54は、データのシフトを反映するために修正され、更新される。以前に第1のRAIDレベル型の割当てブロックと関連していた、選ばれた仮想ブロックが、更新されたポインタを介して、移行されたデータを含む第2のRAIDレベル型の割当てブロックを参照する。この処理の間に生じるマッピング変化は、メモリ・マップ・ストア21において更新される。
【0040】
この発明の好ましい方法と順序に従って、ミラーおよびパリティ記憶領域の間を移行するデータのより詳細な説明を続ける。データをパリティ記憶からミラー記憶に移行するために、次のシーケンスが使われる。
【0041】
1. RAID管理システムは、ミラーRAID領域42における、不使用のミラー割当てブロック43を見つける。
2. 何も見つけられることができなければ、RAID管理システムは、ミラー割当てブロック(下で説明する)を作り出す。
3. RAID管理システムは、移行すべき仮想ブロックへの新しい記憶要求を中断する。
4. RAID管理システムは、仮想ブロックへのすべての有効なデータ記憶要求が完了されるまで待つ。
5. 仮想ブロック53に関連したパリティ割当てブロック45からのデータが、一時記憶バッファに読み込まれる。
6. データは、次いで、ステップ2において選ばれたミラー割当てブロックに書 き込まれる。
7. 仮想ブロック・テーブルは、ミラー割当て43ブロックにおけるそのデータの新しいロケーションを参照するよう修正される。
8. 中断されていた記憶要求が、再開される。
【0042】
上記の手順によると、アプリケーション・レベルの仮想ビュー50における仮想ブロック53は、パリティ記憶からミラー記憶に移行した。中間の仮想ビュー40に関し、データは、パリティRAID領域44におけるパリティ割当てブロック45からミラーRAID領域42におけるミラー割当てブロック43に移行されている。物理的な記憶スペースにおいて、データは領域A1から領域A0に動いている。
【0043】
不使用のミラー割当てブロックを見いだすことができないならば(上のステップ1)、RAID管理システムは、次の3つの技法の好ましいシーケンスをためす。第1に、RAID管理システムは、不使用のRAIDレベルの記憶のシステムしきい値を破ることなくミラーRAID領域に変換されることができる、不使用の(したがって指定されていない)RAID領域を見つけるよう試みる。これは、移行を常に進めることができることを保証するために必要とされる。これが失敗し、そして保留量の不使用のRAIDレベル記憶より多くをシステムが持っているならば、システムは、不使用のパリティ割当てブロックを不使用のRAID領域に集めるためにパリティ記憶装置内でデータを移行させる。この移行によって、上述のようにミラーRAID領域に変換されることができる不使用のRAID領域が生じれば、システムは、それをミラーRAID領域に変換する。さもなければ、システムは、不使用のミラー割当てブロックを見いだすに十分か、または不使用のRAID領域をミラーRAID領域に変換するに十分に、不使用のRAIDレベルの記憶装置をシステムが増やすまで、データをミラー記憶装置からパリティ記憶装置へ移行し、ミラー記憶装置をパックし、不使用のRAIDレベルの記憶をパリティに変換する。ミラー割当てブロックがパリティ割当てブロックより大きな物理的な記憶スペースを占めるから、この最後の技法によって、不使用のRAIDレベル記憶装置の量が正味増加する。
【0044】
不使用のミラー割当てブロックを見つけるためおよび確立するために使われる創設/変換プロトコルは、RAID管理システムがユーザ・データの量および物理的 な記憶スペースのサイズに従ってパリティおよびミラー領域の間で記憶割当てを選択的に調節することを可能にするので、有利である。データ使用および記憶容量が変化するにつれて、RAID管理システムは、ミラー記憶装置に保持されるデータの量を最大にするために上記の3つの技法の1つまたは複数を使う。
【0045】
RAID管理システムは、スペース作成シーケンスがアイドル時間に不使用RAID領域をつくることによって不使用のミラー割当てブロックを創設するのを、記憶装置要求が待たなければならない状況を避けようとする。しかし、いくらかの状況において、記憶装置要求はスペース作成シーケンスの間、中断されることがある。RAID管理システムは、仮想スペースがRAIDビューより小さくなるような形態で、仮想ブロック記憶スペースを構成する。これは、少くとも1つのRAID領域と等 しい自由スペースが移行その他の目的のためにとっておかれることを保証する。このように、この技法は、常に不使用のミラー割当てブロックを生む。
【0046】
データをミラー記憶装置からパリティ記憶装置へ移行させるために、以下の順序が使われる:
1.RAID管理システムは、アクセス最近度またはかアクセス頻度のような移行方 針に従ってミラー記憶装置からパリティ記憶装置へ移行させるために仮想ブロックを52から選ぶ。
2. RAID管理システムは、パリティRAID領域44に不使用のパリティ割当てブロック45を見つける。
3.そのようなブロックが見つけられないならば、移行用に保留されたスペース が上述の創設技法に従ってパリティRAID領域に変換される。
4. 移行されるべき仮想ブロックへの新しい記憶装置要求が中断される。
5. RAID管理システムは、仮想ブロックへのすべての有効な記憶装置要求が完了するまで待つ。
6. データは、仮想ブロック52に関連したミラー割当てブロック43から一時記憶バッファに読込まれる。
7. そのデータは、選ばれたパリティ割当てブロック45に書込まれる。
8. 仮想ブロック・テーブルが、パリティ割当てブロック45におけるデータの新しいロケーションを参照するよう修正される。
9. 仮想ブロックへのデータ要求が再開される。
【0047】
上述の2つの番号を付けたシーケンスは、この発明のメモリシ・ステムが異な る2つの冗長性レベルの間でデータを移行する方法の例を提供する。
【0048】
以上の説明はミラーおよびパリティ記憶の間でのデータの移動に焦点を当てたが、この発明は、特にパリティ技法に従って記憶ディスクにデータを書き込むプロセスに向けられる。上述の記憶管理技法は、この発明がセグメント・サイズの部分におけるパリティRAID領域の活動を管理するのを可能にし、増分的なパリティ生成を可能にする。
【0049】
従来技術の説明の部分で触れたように、従来のディスク・アレイは、典型的には、繰り返しビットまたはバイト・パターンからなるデフォルト・パターンを書き込む。例としてのパターンは、ディスク・アレイにすべて「1」を書き込むことである。従来のディスク・アレイは、また各ストライプのためのパリティを初期設定手順の間にセットする。
【0050】
この初期設定プロセスの後、従来のディスク・アレイは、ユーザ・データを書き込む準備ができている。この明細書では、ユーザ・データなる用語は、コンピューティング・システムのアプリケーションに従って情報を含むデータ・バイトを意味するものとして使われている。たとえば、ユーザ・データは、アプリケーションの結果、ホストコンピューターから得られるデータから成っていてよい。ユーザ・データは、記憶ディスクから取り出された以前の計算アプリケーションの結果であるデータであってもよい。。
【0051】
「ユーザ・データ」は、すべての「1」のパターンのような初期設定の間に使われる単純なフォーマット・パターンをカバーすることを意図しない。従来のディスク・アレイにおいては、ユーザ・データをディスク・アレイに書き込むために4つのI/Oアクセスが必要とされる。すなわち、更新すべきデータを選ばれたストライプから読む第1のI/O、そのストライプにおけるデータに対応するパリティを読むための第2のI/O、そのストライプに新しいデータを書き戻す第3のI/O、および新しいデータのための新しいパリティをそのストライプに書き戻す第4のI/Oである。この発明のディスク・アレイによると、メモリ・マネージャーがストライプに順に一度に一つのセグメントにユーザ・データを書き、各データ書込みの間、パリティ値を増加的に生成する。ストライプ全体のためのパリティが計算されるまで、メモリ・マネージャーが、パリティ値をキャシュ記憶する。この最終的なパリティ値がその後ストライプに書かれる。ディスク・アレイは、書込みプロシージャの間、かなりI/Oの数を減らす。
【0052】
メモリ・マネージャーは、どのデータ・セグメントが、ストライプ・パリティに編入され、どれがされないかを決定するための手段を含む。すなわち、メモリ・マネージャーは、ストライプのサイズ、および個々のセグメントが、関連したストライプのパリティ値の一部分であるデータを含むどうかに関する、ストライプの各セグメントのパリティ状態を知っている。好ましい実施例において、メモリ・マネージャーは、2つの種類のポインターの使用を通して、各セグメントのパリティ状態を追跡する。すなわち、満たされつつあるストライプを追跡する1つまたは複数の部分的ストライプ・ポインター、および満たされつつあるストライプにおける特定のセグメントを参照する1つまたは複数のセグメント・フィル・ポインターである。これらのポインターは、メモリ・マネージャーによってすぐに使えるように不揮発性メモリーに保持されるのがよい。
【0053】
図5は、部分的ストライプ・ポインター62およびセグメント・フィル・ポインター64を含むるNVRAM 21aを示す。図の例において、ポインターは、ディスク・アレイ11のディスク0-4にわたって延びるストライプ66内でセグメントを参照するのに使われる。NVRAM 21aは、またアプリケーション・レベルの仮想記憶スペース、およびRAIDレベルの仮想記憶スペースを追跡するメモリーマップ60を含む。ミラーNVRAM 21bは、この図に示されていないが、NVRAM 21aで示したのと同じ情報を含んでいる。
【0054】
部分的ストライプ・ポインター 62は、個々のストライプ、より具体的にはディスク・アレイにおける満たされていないストライプを参照する。最初に部分的ストライプ・ポインターは、ユーザ・データを含まない空のストライプを識別する。セグメント・フィル・ポインター64は、部分的ストライプ・ポインター62によって選ばれたストライプ内の個々のセグメントを参照する。セグメント・フィル・ポインター64は、ユーザ・ーデータで満杯にされる準備ができている空のセグメントを見つける。図5において、部分的ストライプ・ポインター62は、矢印68で表されるように満たされていないストライプ66を参照し、セグメント・フィル・ポインター64は、(矢印70で表現されるように)ストライプ66における次の空セグメントであるセグメント2を参照する。セグメント・フィル・ポインターは、順にそのストライプをステップし、それぞれの空のセグメントをセグメント1から始まりセグメント5で終わる連続した態様で参照する。
【0055】
好ましい実施例によると、メモリ・マネージャーは、これらの2つのポインターの助けにより、ディスク・アレイのすべてのセグメントのパリティ状態を効果的に追跡する。部分的ストライプ・ポインター62によって選ばれたストライプに関し、セグメント・フィル・ポインター64の前のセグメントは、ストライプ・パリティに編入されるデータを含むことが知られており、そして、セグメント・フィル・ポインターに続くセグメントは、空でまだストライプ・パリティに編入されないことが知られている。部分的ストライプ・ポインター64で参照されないストライプに関しては、データを含むストライプは、ストライプ・パリティによって代表されるすべてのデータ・セグメントを持つと考えられる。空のストライプは、データを含まず、これらのセグメントを表わすパリティ値を持たないと理解される。
【0056】
ひとたび空のストライプが部分的ストライプ・ポインターによって識別されるならば、ユーザ・データはセグメント・フィル・ポインターによって参照されたセグメントに書かれる。図5において、ユーザ・データはストライプ66の第1のセグメント1に書かれている。セグメント・フィル・ポインター64が残りのセグメントを順に進むにつれて、パリティのために割り当てられているセグメント以外のストライプの各セグメントにユーザ・データが書き込まれる。この場合、パリティは最後のセグメント5に書かれる。パリティ・セグメントがそのストライプにおける最後のものでないならば、セグメント・フィル・ポインターは、そのストライプを順次通る間、パリティ・セグメントをスキップし、ユーザ・データがそのストライプのすべてのデータ・セグメントに置かれたあと、戻ってパリティをパリティ・セグメントに書き込む。そのストライプにおけるパリティ・セグメントの位置は、当技術分野で一般的であるパリティ配置方法によって決定される。ユーザ・データがポインター64で参照されたセグメントだけに書かれ、他のデータ・セグメントは、参照されるまで放っておかれる点に注意されたい。
【0057】
この発明の一つの面によると、パリティ値は、ストライプにおけるセグメントへの各データ書込みに続いて、増加的に生成される。図3に関して説明したように、パリティ値は、排他的論理和(XOR)作用のような論理関数に従って計算される。一つのセグメントだけが満たされるとき、図5における示されるように、パリティ値は、そのユーザ・データと同じである。しかしより多くのセグメントが満たされると、パリティ値は、すべての満たされたセグメントに含まれるユーザ・データのためのパリティを反映するよう増加的に変化する。そのストライプにおける空のすなわち不使用のセグメントは、逐次的な書込みプロセスの間、管理されず、したがって増加的パリティ生成に含まれない。
【0058】
NVRAM 21aは、増加するパリティ値を一時的に格納するパリティ・キャッシュ72を含む。新しいセグメントが書かれるにつれて、メモリ・マネージャーは、前にキャシュされたパリティ値および次のセグメントに書かれたばかりのユーザ・データの論理関数(すなわち、XOR)に基づいて、新しいパリティ値を計算する。すべてのデータを有するセグメントが満たされるまで、逐次的セグメント書込みおよび増加的キャッシングが、セグメントごとに繰り返される。
【0059】
パリティ・キャッシングの結果、パリティ値は、各書込みの後、ディスク・アレイに書かれる必要はない。その代わり、パリティ値は、すべてのデータ・セグメントが満たされたあと、ディスク・アレイに書かれるだけである。すなわち、セグメント・フィル・ポインター64が最後のセグメント5に達するとき、RAID管理システムがストライプ66用のパリティ・セグメントにパリティ値を書き込む。パリティを格納するためにそのストライプ内の任意のセグメントを使うことができるけれども、いまの場合、書き込まれるセグメントは、セグメント5である。
【0060】
この発明のディスク・アレイは、書込みプロセスの間、ディスク・アレイからユーザ・データおよびパリティを読む必要性を排除し、それによって従来のディスク・アレイの最初の2つのI/Oを排除する。さらに、パリティ値をキャッシングすることによって、ディスク・アレイは、パリティが各ストライプについてディスクに書かれる回数を効果的に減らす。より具体的には、先行技術のディスク・アレイがユーザ・データをパリティで書き込むのに4つのI/Oを必要としたのに対して、この発明のディスク・アレイは、ユーザ・データをパリティで書き込むのに、1+1/(N-1) だけのI/Oを必要とする(ここで、Nはストライプにおけるディスクの数である)。
【0061】
上で述べたように、部分的ストライプ・ポインター62、セグメント・フィル・ポインター64およびパリティ・キャッシュ72は、メモリ・マネージャーによって管理され、維持される。好ましい実施例において、メモリ・マネージャーは、ディスク・アレイ上でユーザ・データ、冗長性データおよび不使用のスペースを追跡し続けるRAID管理システム16(図1)として具体化される。しかし、単にパリティ記憶に従ってメモリ割当てを管理するためだけに構成されたメモリ・マネージャーを、この発明において使うことができる。
【0062】
図6および7は、パリティ冗長技法に従ってディスク・アレイにユーザ・データを書くための好ましい方法を図示する。プロセスは、部分的ストライプ・ポインター62がヌル(無効)で、満たされていないストライプを現在参照していないことを意味しているかどうかを判断するステップ100(図6)から始まる。部分的ストライプ・ポインターがストライプを指しているならば(すなわち、ステップ100から[NO」分岐)、ユーザ・データは、セグメント・フィル・ポインター64で参照された次の不使用のセグメントに書かれる(ステップ102)。満たされたセグメントに含まれるすべてのユーザ・データに対する増加的なパリティ値が、新しいユーザ・データをキャッシュ記憶するされたパリティとXORし(ステップ104)することにより計算され、再びキャッシュ記憶される(ステップ106)。
【0063】
ステップ108で、セグメント・フィル・ポインター64がそのストライプにおける最後のセグメントを参照しているかどうか判断される。RAID管理システムは、ストライプにおける新しいスペースの割当てを追跡する。それは、どれくらいのセグメントがストライプにあるかということと、ストライプにおいてまだ割り当てられていないすべての不使用のセグメントを知っている。上で示したように、RAID管理システムは、セグメント・フィル・ポインターの前のすべてのセグメントがストライプ・パリティに反映されており、そのポインターの後ろのすべてのセグメントが空で、ストライプ・パリティには考慮されてないと、仮定する。さらに、RAID管理システムは、データを含み参照されないストライプが、すべてのセグメントをそのストライプ・パリティに編入してもらっており、そして、すべての空の参照されないストライプは、パリティの一部でないセグメントを持つと、仮定する。
【0064】
これらの操作パラメーターの結果、RAID管理システムは、アレイにおけるポインターの位置と同様にディスク・アレイにおけるおける任意のセグメントのパリティ状態を知っている。したがって、RAID管理システムは、セグメント・フィルポインターがそのストライプの終わりに着いたかどうかを知る。ポインターが最後のセグメントにまだ届いていないならば(すなわち、ステップ108から「NO」分岐)、セグメント・フィル・ポインターは、次のデータ・セグメントに動かされる(ステップ110、図7)。ステップ104で計算されたパリティ値は、次いでそのストライプのパリティ・セグメントに書かれうる(ステップ112)。
【0065】
再び図6を参照すると、セグメント・フィル・ポインターが最後のセグメントに達していると、全ストライプのためのパリティを表わすキャッシュされたパリティ値は、そのストライプのパリティ・セグメントに書かれる(ステップ114)。この点で、そのストライプは、完全にユーザ・データおよび冗長情報でいっぱいにある。
【0066】
したがって、下により詳しく説明するように、部分的ストライプ・ポインターは、次の空のストライプ(ステップ116)を識別するために再び使われるまで、無効にされることができる。ステップ118で、RAID管理システムは、ストライプのセグメントに書かれたばかりのユーザ・データが以前にディスク・アレイのどこか別のところに割り当てられていたかどうかを評価する。例えば、RAID管理システムがディスク・アレイ上でユーザ・データを再編成しユーザ・データを一つのロケーションから他に移動させるとき、そのような状況が生じる。それが書き直されたユーザ・データであるならば(すなわち、ステップ118からの「YES」分岐)、RAID管理システムは、その古いロケーションからユーザ・データを割り当て解除し、それによって、前のストライプに「穴」(すなわち、空のセグメント)をつくる。ステップ122で、メモリーマップ60は、新しいデータ・ロケーションを反映するよう更新される。
【0067】
再び最初のステップ100を参照すると、部分的ストライプ・ポインターは、一つのストライプの完成と新しい空ストライプの識別の間の間隔においてヌルである。部分的ストライプ・ポインターがヌル(すなわち、ステップ100から「YES」分岐)であるならば、RAID管理システムが新しい空ストライプを探索する(ステップ124、図7)。空のストライプが識別できない場合(すなわち、ステップ124から「NO」分岐)、RAID管理システムは、「穴」を有する部分的に満たされたストライプを見つけ、それを空にする(ステップ126)。このプロセスは、ごみ集め(ガーベッジ・コレクション;garbage collection)として知られており、その例が図8に示される。
【0068】
図8は、ディスク・アレイのディスク0ないし4にわたるストライプ150ないし156を示す。ユーザ・データを含んでいるセグメントは、数字が続く文字「D」で示される。空か不使用のセグメントは、文字「U」によって示される。不使用のセグメントUがストライプ150ないし156に「穴」をつくることに注意されたい。例示の目的で、RAID管理システムがストライプ150を空にすると決めたとする。ディスク0上のセグメントにおけるユーザ・データD0は、ストライプ154の不使用セグメントに動かされ、ディスク2上のセグメントにおけるユーザ・データDlは、ストライプ152の不使用セグメントに動かされる。このデータ移動によってストライプ150が空にされ、このストライプは、いまや不使用のデータ・セグメントおよびパリティ・セグメントから成る。同時に、データ移動は、他のストライプにおける「穴」を満たし、それらのストライプをよりいっぱいにする。
【0069】
ごみ集めプロセスのこの例示の型は、空にすべきストライプからユーザ・データを他のストライプの穴にランダムに移動させる。別の実施例においては、ごみ集めプロセスは、ユーザ・データをセグメントごとに順に書く上述の方法と同じ態様で、指定のストライプから新しい空ストライプに順にユーザ・データを書く。他のごみ集め技法を、図7のステップ126でストライプを空にするために同様に使うことができる。
【0070】
再び図7を参照すると、RAID管理システムは、空のストライプを選んで(ステップ128)、そのストライプを参照するよう部分的ストライプ・ポインターをセットする(ステップ130)。セグメント・フィル・ポインターは、そのストライプの始めを参照するよう初期状態にされる(ステップ132)。それから、ユーザ・データは第1の不使用セグメントに書かれる(ステップ134)。ステップ136で、最初のパリティ値は、そのユーザ・データと等しく設定されて、キャッシュされる。それ後、セグメント・フィル・ポインターが、次のデータ・セグメントに動かされ(ステップ110)、プロセスは、そのストライプの残りのセグメントについて続けられる。
【0071】
上述の実施例は、空のストライプおよびこれらのストライプ内のをセグメントを識別する2つの種類のポインターを使う。別の具体化においては、一つのRAID領域につき一対のようにNVRAMに複数の対のポインターを保持してもよい。キャッシュ記憶されたパリティの管理は、複数のストライプの増分的充填で調整される。複数の対のポインターが使われるならば、調整は、異なるストライプからの複数のパリティ・セグメントをキャッシュ記憶すること、および/またはキャッシュ・パリティを、各データ・セグメントが書かれたあとパリティを示すなどのように、キャッシュ資源の適時の再利用を許すパターンで、示すことを含みうる。
【0072】
別のオプションの実施例においては、RAID管理システムは、ストライプの終わりのセグメントが空であり、ストライプの初めの1つまたは複数の連続したセグメントにユーザ・データを含む部分的に満たされたストライプを選ぶよう構成することができる。RAID管理システムは、セグメント・フィルポインターを部分的に満たされたストライプにおける最初の空セグメントに初期設定し、それから上述したのと同じ技法に従って、順次書込みを続ける。
【0073】
このプロセスは、全RAID領域を書き込むためにストライプごとに続けることができることに注意されたい。別の好ましい実施例において、ポインターの各対が、ストライプおよびその中のセグメントの両方を識別する一つのポインターに結合される。
【0074】
2つの型のポインターを使う別の具体化例として、RAID管理システムは、どのデータ・セグメントが、ストライプ・パリティに編入され、どれが編入されないかを決定する手段として、ビットマップを使うことができる。そのビットマップは、ディスク・アレイのあらゆるセグメントについての情報を含む。ポインターと比較してこの具体化例は、NVRAMにより多くのメモリースペースを必要とするが、データ・セグメントのパリティを追跡するのに効果的である。
【0075】
法規に従って、この発明を具体的な構造に関して説明した。しかし、この発明が、記述された特定の特長に限定されないことが理解されねばならない。したがって、この発明は、特許請求の範囲に従って均等論に従って解釈される適正な範囲でのあらゆる形態および変更を含むものである。
【0076】
この発明は、例として次の実施形態を含む。
1. 複数の記憶ディスク(12)を持ち、複数のストライプに構成されているディスク・アレイ(11)で、各ストライプが複数の記憶ディスク(12)にわたって延び、記憶スペースの複数のセグメントを含み、各セグメントがディスク・アレイの一つの記憶ディスク上のストライプの一部分であるディスク・アレイに、冗長なパリティ記憶技法に従ってユーザ・データを書くための方法であって、
(a)ユーザ・データまたはパリティ情報を持つセグメントと空のセグメントとを区別するステップと、
(b)ディスク・アレイ(12)における空のセグメントを持つ満たされていないストライプ(66)を同定するステップと、
(c)同定されたストライプ(66)において空のセグメントを見つけるステップと、
(d)そのストライプの他のセグメントにユーザ・データを書くことなくストライプの空のセグメントにユーザ・データを書き込むステップと、
(e)ステップ(d)でセグメントにユーザ・データが書き込まれたあと、書かれたストライプのセグメントだけに含まれるユーザ・データに対するパリティ値を決定するステップと、および(f)ストライプの他のセグメントの1つまたは複数を満たすために上記ステップ(c)ないし(e)を繰り返すステップと、
を含む方法。
【0077】
2. 上記同定するステップは、満たされていないストライプ(66)を参照するために部分的ストライプ・ポインター(62)を使うことを含み、上記見つけるステップは、ストライプに書き込むべきセグメントを参照するためにセグメント・フィル・ポインター(64)を使うことを含み、
さらに、ディスク・アレイ(11)と別に不揮発性メモリー(21)を提供するステップ、および不揮発性メモリー(21)に部分的ストライプ・ポインターおよびセグメント・フィル・ポインターを格納するステップを含む蒸気の方法。
3. 上記見つけるステップが満たされていないストライプ内の順に従って空のセグメントを連続的に参照することを含む上記1の方法。
4. さらに、ディスク・アレイ(11)とは別に不揮発性メモリー(21)を提供するステップ、および上記決定するステップの後に、上記パリティ値を上記不揮発性メモリーに一時的にキャッシュ記憶するステップを含む上記1に記載の方法。
5. さらに、以下のステップを含んでいる上記1の方法:
一時的に、上記決定するステップ(e)の都度、上記パリティ値をキャッシュ記憶するステップ;および
上記決定するステップは、前にキャッシュ記憶されたパリティ値、およびストライプの空のセグメントに最も最近書かれたユーザ・データの論理関数に基づいて新しいパリティ値を計算するステップ。
6. さらに、上記決定するステップ(e)の都度、ディスク・アレイ(11)にパリティ値を書くステップを含む上記1の方法。
【0078】
7. 複数の記憶ディスク(12)を持ち、複数のストライプに構成されているディスク・アレイ(11)であって、各ストライプが複数の記憶ディスクにわたって延び、記憶スペースの複数のセグメントを含み、各セグメントがディスク・アレイ(11)の一つの記憶ディスクにあるストライプの一部分であるディスク・アレイに、冗長なパリティ記憶技法に従ってユーザ・データを書く次のステップを含む方法:
(a) ディスク・アレイ(11)とは別に不揮発性メモリー(21)を用意するステップ;
(b)不揮発性メモリー(21)にディスク・アレイの個々のストライプを参照する部分的ストライプ・ポインター(62)を提供するステップ;
(c)不揮発性メモリー(21)に参照されたストライプの個々のセグメントを参照するセグメント・フィル・ポインター(64)を提供するステップ;
(d)部分的ストライプ・ポインター(62)を空のストライプにセットすることによって空のストライプ(66)を選ぶステップ;
(e)セグメント・フィル・ポインター(64)を最初のセグメントにセットすることによって選ばれたストライプの最初のセグメントを選ぶステップ;
(f)そのストライプの他のセグメントを空のまま残して上記最初のセグメントにユーザ・データを書き込むステップ;
(g)ストライプの最初のセグメントだけについてパリティ値を計算するステップ;
(h)パリティ値を不揮発性メモリー(21)にキャッシュ記憶するステップ;
(i)セグメント・フィル・ポインター(64)を使ってストライプの次のセグメントを選ぶステップ;
(j)ストライプの次のセグメントにユーザ・データを書き込むステップ;および(k)キャッシュ記憶されたパリティ値および次のセグメントに書かれたユーザ・データに基づいて別のパリティ値を計算するステップ。
【0079】
8. 各ストライプが複数の記憶ディスクにわたって延び、記憶スペースの複数のセグメントを含む、複数のストライプに構成された、複数の記憶ディスク(12)を有するディスク・アレイ(11)であって、
各セグメントがディスク・アレイ(11)の一つの記憶ディスクのストライプの一部分であるディスク・アレイ(11)と、
記憶ディスクへのおよび記憶ディスクからのデータ転送を調整するためにディスク・アレイ(11)に結合されたディスク・アレイ・コントローラ(14)と、
パリティ冗長技法に従ってがユーザ・データを冗長に格納するためにメモリ割当てを管理するためにディスク・アレイ・コントローラ(14)に結合されたメモリ・マネージャー(I6)とを備え、
メモリ・マネージャーは、ユーザ・データをデータ・セグメントに、パリティ情報をパリティ・セグメントに配置し、これにより少くとも1つのパリティ・セグメントおよび一つまたは複数のデータ・セグメントが各ストライプに含まれ、メモリ・マネージャー(16)は、どのデータ・セグメントが、ストライプのパリティ情報に編入されるか決定するための手段を持ち、満たされていないストライプ(66)およびそのストライプにおける空のセグメントを選び、また、メモリ・マネージャーは、選ばれたセグメントにユーザ・データを書き込み、各セグメントが書き込まれた後、書き込まれたストライプのセグメントに含まれるユーザ・データに基づくそのストライプのパリティ値を増分的に決定するようにしたデータ記憶システム。
9. 上記8のデータ記憶システムであって、上記メモリ・マネージャーの上記決定する手段は、
ディスク・アレイ(11)における個々のストライプを参照する部分的ストライプ・ポインター(62)と、
参照されたストライプにおける個々のセグメントを参照するセグメント・フィル・ポインター(64)と、
そのポインターを使って満たされていないストライプ、およびそのストライプにおけるセグメントを選ぶメモリ・マネージャー(16)と、
を備えるデータ記憶システム。
10. パリティ値が決定される都度、パリティ値をキャッシュ記憶するために常駐する不揮発性メモリー(21)と、前にキャッシュ記憶されたパリティ値、および最も最近ストライプの空のセグメントに書かれたユーザ・データの論理関数に基づいて新しいパリティ値を計算するメモリ・マネージャー(16)と、を備える上記8のデータ記憶システム。
【0080】
【発明の効果】
この発明によると、パリティ書き込みの間、必要とされるI/Oの数が少ない改善された書込み性能を持つディスク・アレイ・データ記憶システムが得られる。
【図面の簡単な説明】
【図1】この発明に従う冗長な階層的なディスク・アレイ・データ記憶システムの図表のブロック図である。
【図2】複数の記憶ディスク上の記憶スペースを示す図表で、RAIDレベル1によ るデータ記憶を示している。
【図3】複数の記憶ディスク上の記憶スペースの図表で、RAIDレベル5によるデータ記憶を示す。
【図4】2つの仮想記憶スペースが物理的な記憶スペースの上へマップされてい る、この発明のメモリーマッピング取り決めの図表である。
【図5】不揮発性メモリおよびディスク・アレイの記憶スペースに維持されるポインター間の相互作用を示すブロック図である。
【図6】パリティ冗長技法によってディスク・アレイにデータを書き込むステップを示す流れ図である。
【図7】パリティ冗長技法によってディスク・アレイにデータを書き込むステップを示す流れ図である。
【図8】ゴミ集め技法を示すための複数の記憶ディスクの記憶スペースの図表である。
【符号の説明】
10 データ記憶システム
11 ディスク・アレイ
12 記憶ディスク
13 インターフェイス・バス
14 ディスク・アレイ・コントローラ
18 ミラー・グループ
22 パリティ・グループ
Claims (3)
- 冗長性パリティ記憶法に従ってユーザ・データをディスク・アレイに書き込む方法であって、該ディスク・アレイは、複数の記憶ディスクを持ち、複数のストライプに構成されており、各ストライプは、複数の記憶ディスクにわたって延び、それぞれが記憶スペースの複数のセグメントを含み、各セグメントが前記ディスク・アレイの一つの記憶ディスク上にあるストライプの一部分であり、
前記方法は、
(a)ユーザ・データまたはパリティ情報を持つセグメントと空のセグメントとを区別するステップと、
(b)上記空のセグメントを持つ、上記ディスク・アレイにおける満たされていないストライプを部分ストライプ・ポインターを用いて同定するステップと、
(c) セグメント・フィル・ポインターを用い、前記満たされていないストライプにおける空のセグメントを見つけるステップと、
(d)上記満たされていないストライプの上記空のセグメントにユーザ・データを書き込むステップと、
(e)上記ステップ(d)で前記セグメントにユーザ・データが書き込まれたあと、書き込み済みのセグメントだけに含まれるユーザ・データに対するパリティ値を決定するステップと、
(f)前記 (e) のステップの後、前記パリティ値を前記ディスク・アレイとは別に設けられた不揮発性メモリーに一時的にキャッシュ記憶するステップと、を含み、
前記 (e) のステップは、前記キャッシュ記憶されたパリティ値と、今回、前記ストライプの空のセグメントに書き込まれたユーザ・データとの論理関数に基づいて新しいパリティ値を計算することを含み、
(g)前記ストライプの他のセグメントの一つまたは複数を満たすために上記ステップ(c)から(f)を繰り返すステップと、
(h) 前記ストライプの全セグメントがユーザ・データを格納するために満たされた後に、前記パリティ値を該ストライプの一つのセグメントに書き込むステップと、
を含む前記方法。 - 上記不揮発性メモリーに前記部分的ストライプ・ポインターおよび前記セグメント・フィル・ポインターを格納することを含む、請求項1に記載の方法。
- 複数の記憶ディスクを有するディスク・アレイからなるデータ記憶システムであって、
前記ディスク・アレイは、各ストライプが上記複数の記憶ディスクにわたって延びる複数のストライプに構成されており、該各ストライプが複数の記憶スペース・セグメントを含み、各セグメントが前記ストライプの一つの記憶ディスクにおける部分であり、
記憶ディスクへのおよび記憶ディスクからのデータ転送を調整するために上記ディスク・アレイに結合されたディスク・アレイ・コントローラと、
パリティ冗長法に従ってユーザ・データを格納するメモリ割当てを管理するために上記ディスク・アレイ・コントローラに結合されたメモリ・マネージャーとを備え、
上記メモリ・マネージャーは、ユーザ・データをデータ・セグメントに、パリティ情報をパリティ・セグメントに配置し、これにより少くとも一つのパリティ・セグメントおよび一つまたは複数のデータ・セグメントが各ストライプに含まれ、
上記メモリ・マネージャーは、i)上記ディスク・アレイにおける個々のストライプを参照する部分的ストライプ・ポインター、およびii)参照されたストライプにおける個々のセグメントを参照するセグメント・フィル・ポインターを備え、上記メモリ・マネージャは、前記二つのポインターを使って満たされていないストライプ、およびそのストライプにおける空のセグメントを選ぶよう構成されており、
さらに、前記パリティ値が決定される都度、該パリティ値をキャッシュ記憶するための不揮発性メモリーを備え、
上記メモリ・マネージャは、選ばれた前記空のセグメントにユーザ・データを書き込み、各セグメントが書き込まれる都度、該ストライプの書き込み済みの複数のセグメントに含まれるユーザ・データだけに基づくそのストライプのパリティ値を増分的に生成し、その際、前記メモリ・マネージャは、前にキャッシュ記憶されたパリティ値と、今回前記空のセグメントに書かれたユーザ・データとの論理関数に基づいて新しいパリティ値を計算するよう構成されている、
データ記憶システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US386,582 | 1995-02-10 | ||
US08/386,582 US5537534A (en) | 1995-02-10 | 1995-02-10 | Disk array having redundant storage and methods for incrementally generating redundancy as data is written to the disk array |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08249134A JPH08249134A (ja) | 1996-09-27 |
JP3753461B2 true JP3753461B2 (ja) | 2006-03-08 |
Family
ID=23526204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33455995A Expired - Fee Related JP3753461B2 (ja) | 1995-02-10 | 1995-12-22 | 冗長性パリティ法によるデータの書き込み方法およびデータ記憶システム |
Country Status (4)
Country | Link |
---|---|
US (2) | US5537534A (ja) |
EP (1) | EP0726520B1 (ja) |
JP (1) | JP3753461B2 (ja) |
DE (1) | DE69533058T2 (ja) |
Families Citing this family (108)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3315779B2 (ja) * | 1993-11-16 | 2002-08-19 | 富士通株式会社 | ディスク装置間のファイル転送装置およびファイル転送方法 |
JP3687111B2 (ja) * | 1994-08-18 | 2005-08-24 | 株式会社日立製作所 | 記憶装置システムおよび記憶装置の制御方法 |
DE19540915A1 (de) * | 1994-11-10 | 1996-05-15 | Raymond Engineering | Redundante Anordnung von Festkörper-Speicherbausteinen |
JP3371044B2 (ja) * | 1994-12-28 | 2003-01-27 | 株式会社日立製作所 | ディスクアレイのための領域割り当て方法およびディスクアレイアクセス方法 |
US5657468A (en) * | 1995-08-17 | 1997-08-12 | Ambex Technologies, Inc. | Method and apparatus for improving performance in a reduntant array of independent disks |
WO1997011426A1 (en) | 1995-09-18 | 1997-03-27 | Cyberstorage Systems, Inc. | Universal storage management system |
US5812753A (en) * | 1995-10-13 | 1998-09-22 | Eccs, Inc. | Method for initializing or reconstructing data consistency within an array of storage elements |
US5720025A (en) * | 1996-01-18 | 1998-02-17 | Hewlett-Packard Company | Frequently-redundant array of independent disks |
US5790774A (en) * | 1996-05-21 | 1998-08-04 | Storage Computer Corporation | Data storage system with dedicated allocation of parity storage and parity reads and writes only on operations requiring parity information |
US5764880A (en) * | 1996-09-10 | 1998-06-09 | International Business Machines Corporation | Method and system for rebuilding log-structured arrays |
US5875457A (en) * | 1996-10-08 | 1999-02-23 | Mylex Corporation | Fault-tolerant preservation of data integrity during dynamic raid set expansion |
US5960169A (en) * | 1997-02-27 | 1999-09-28 | International Business Machines Corporation | Transformational raid for hierarchical storage management system |
US5943690A (en) * | 1997-04-07 | 1999-08-24 | Sony Corporation | Data storage apparatus and method allocating sets of data |
US5974503A (en) * | 1997-04-25 | 1999-10-26 | Emc Corporation | Storage and access of continuous media files indexed as lists of raid stripe sets associated with file names |
US5845279A (en) * | 1997-06-27 | 1998-12-01 | Lucent Technologies Inc. | Scheduling resources for continuous media databases |
US6377543B1 (en) | 1997-08-13 | 2002-04-23 | Telecommunications Research Laboratories | Path restoration of networks |
US6021462A (en) * | 1997-08-29 | 2000-02-01 | Apple Computer, Inc. | Methods and apparatus for system memory efficient disk access to a raid system using stripe control information |
JPH11119922A (ja) * | 1997-10-17 | 1999-04-30 | Fujitsu Ltd | データ記憶システム及び冗長データ書き込み制御方法 |
US6098119A (en) * | 1998-01-21 | 2000-08-01 | Mylex Corporation | Apparatus and method that automatically scans for and configures previously non-configured disk drives in accordance with a particular raid level based on the needed raid level |
US6295640B1 (en) * | 1998-05-08 | 2001-09-25 | Apple Computer, Inc. | Method and apparatus for distinguishing reference values from non-reference values in a runtime environment |
US6151685A (en) * | 1998-05-15 | 2000-11-21 | International Business Machines Corporation | System and method for recovering a segment directory for a log structured array |
US6704837B2 (en) * | 1998-06-29 | 2004-03-09 | International Business Machines Corporation | Method and apparatus for increasing RAID write performance by maintaining a full track write counter |
US6378038B1 (en) * | 1999-03-31 | 2002-04-23 | International Business Machines Corporation | Method and system for caching data using raid level selection |
US6532548B1 (en) | 1999-09-21 | 2003-03-11 | Storage Technology Corporation | System and method for handling temporary errors on a redundant array of independent tapes (RAIT) |
US6611827B1 (en) | 1999-10-01 | 2003-08-26 | International Business Machines Corporation | Redundant disk array and method for redundant disk array access using contiguous page grouping |
US6546499B1 (en) | 1999-10-14 | 2003-04-08 | International Business Machines Corporation | Redundant array of inexpensive platters (RAIP) |
US7007193B1 (en) | 2000-01-07 | 2006-02-28 | Storage Technology Corporation | Method and system for reconstructing data serially arranged on a magnetic tape track |
US6718404B2 (en) * | 2000-06-02 | 2004-04-06 | Hewlett-Packard Development Company, L.P. | Data migration using parallel, distributed table driven I/O mapping |
US6530004B1 (en) | 2000-06-20 | 2003-03-04 | International Business Machines Corporation | Efficient fault-tolerant preservation of data integrity during dynamic RAID data migration |
US7539828B2 (en) * | 2000-08-08 | 2009-05-26 | Faronics Corporation | Method and system for automatically preserving persistent storage |
US20020099736A1 (en) * | 2001-01-23 | 2002-07-25 | Neo-Core, L.L.C. | Method of storing a structured data document |
US20020099745A1 (en) * | 2001-01-23 | 2002-07-25 | Neo-Core, L.L.C. | Method and system for storing a flattened structured data document |
US20020174295A1 (en) * | 2001-01-29 | 2002-11-21 | Ulrich Thomas R. | Enhanced file system failure tolerance |
US6862692B2 (en) * | 2001-01-29 | 2005-03-01 | Adaptec, Inc. | Dynamic redistribution of parity groups |
US20020124137A1 (en) * | 2001-01-29 | 2002-09-05 | Ulrich Thomas R. | Enhancing disk array performance via variable parity based load balancing |
US6990667B2 (en) | 2001-01-29 | 2006-01-24 | Adaptec, Inc. | Server-independent object positioning for load balancing drives and servers |
US20020138559A1 (en) * | 2001-01-29 | 2002-09-26 | Ulrich Thomas R. | Dynamically distributed file system |
US7054927B2 (en) | 2001-01-29 | 2006-05-30 | Adaptec, Inc. | File system metadata describing server directory information |
US6990547B2 (en) * | 2001-01-29 | 2006-01-24 | Adaptec, Inc. | Replacing file system processors by hot swapping |
US20030023584A1 (en) * | 2001-04-27 | 2003-01-30 | Brandin Christopher Lockton | Universal information base system |
US6742081B2 (en) * | 2001-04-30 | 2004-05-25 | Sun Microsystems, Inc. | Data storage array employing block checksums and dynamic striping |
US6785788B1 (en) * | 2001-07-03 | 2004-08-31 | Unisys Corporation | System and method for implementing an enhanced raid disk storage system |
US7055056B2 (en) * | 2001-11-21 | 2006-05-30 | Hewlett-Packard Development Company, L.P. | System and method for ensuring the availability of a storage system |
US7024586B2 (en) * | 2002-06-24 | 2006-04-04 | Network Appliance, Inc. | Using file system information in raid data reconstruction and migration |
KR100490723B1 (ko) * | 2002-11-29 | 2005-05-24 | 한국전자통신연구원 | 파일 레벨 스트라이핑 장치 및 방법 |
US7328305B2 (en) | 2003-11-03 | 2008-02-05 | Network Appliance, Inc. | Dynamic parity distribution technique |
JP2005165441A (ja) * | 2003-11-28 | 2005-06-23 | Hitachi Ltd | ストレージ制御装置、及びストレージ制御装置の制御方法 |
JP4521865B2 (ja) * | 2004-02-27 | 2010-08-11 | 株式会社日立製作所 | ストレージシステム、計算機システムまたは記憶領域の属性設定方法 |
WO2005067887A2 (en) * | 2004-03-24 | 2005-07-28 | Actavis Group | Formulations of ramipril |
US7370163B2 (en) * | 2004-05-03 | 2008-05-06 | Gemini Storage | Adaptive cache engine for storage area network including systems and methods related thereto |
US7457980B2 (en) * | 2004-08-13 | 2008-11-25 | Ken Qing Yang | Data replication method over a limited bandwidth network by mirroring parities |
US20060036904A1 (en) * | 2004-08-13 | 2006-02-16 | Gemini Storage | Data replication method over a limited bandwidth network by mirroring parities |
JP2006107311A (ja) * | 2004-10-08 | 2006-04-20 | Hitachi Ltd | ディスクアレイ装置およびその制御方法 |
EP1825372A2 (en) * | 2004-11-05 | 2007-08-29 | Data Robotics Incorporated | Dynamically expandable and contractible fault-tolerant storage system permitting variously sized storage devices and method |
US7873782B2 (en) * | 2004-11-05 | 2011-01-18 | Data Robotics, Inc. | Filesystem-aware block storage system, apparatus, and method |
US20060123312A1 (en) * | 2004-11-19 | 2006-06-08 | International Business Machines Corporation | Method and system for increasing parallelism of disk accesses when restoring data in a disk array system |
US20060123271A1 (en) * | 2004-11-19 | 2006-06-08 | International Business Machines Corporation | RAID environment incorporating hardware-based finite field multiplier for on-the-fly XOR |
US7392458B2 (en) * | 2004-11-19 | 2008-06-24 | International Business Machines Corporation | Method and system for enhanced error identification with disk array parity checking |
US7392428B2 (en) * | 2004-11-19 | 2008-06-24 | International Business Machines Corporation | Method and system for recovering from abnormal interruption of a parity update operation in a disk array system |
US7290199B2 (en) * | 2004-11-19 | 2007-10-30 | International Business Machines Corporation | Method and system for improved buffer utilization for disk array parity updates |
GB2431579A (en) * | 2005-10-28 | 2007-05-02 | Arrow Int Ltd | Ramipril formulations |
US20070098782A1 (en) * | 2005-10-28 | 2007-05-03 | Selamine Limited | Ramipril Formulation |
US7809919B2 (en) * | 2006-07-26 | 2010-10-05 | Hewlett-Packard Development Company, L.P. | Automatic data block misalignment detection and correction in a computer system utilizing a hard disk subsystem |
EP2051696A2 (en) * | 2006-08-18 | 2009-04-29 | Morton Grove Pharmaceuticals, Inc. | Stable liquid levetiracetam compositions and methods |
US7975109B2 (en) | 2007-05-30 | 2011-07-05 | Schooner Information Technology, Inc. | System including a fine-grained memory and a less-fine-grained memory |
JP2009098996A (ja) | 2007-10-18 | 2009-05-07 | Hitachi Ltd | ストレージシステム |
US8732386B2 (en) | 2008-03-20 | 2014-05-20 | Sandisk Enterprise IP LLC. | Sharing data fabric for coherent-distributed caching of multi-node shared-distributed flash memory |
US8229945B2 (en) | 2008-03-20 | 2012-07-24 | Schooner Information Technology, Inc. | Scalable database management software on a cluster of nodes using a shared-distributed flash memory |
US8266501B2 (en) | 2009-09-29 | 2012-09-11 | Micron Technology, Inc. | Stripe based memory operation |
US8700842B2 (en) | 2010-04-12 | 2014-04-15 | Sandisk Enterprise Ip Llc | Minimizing write operations to a flash memory-based object store |
US8856593B2 (en) | 2010-04-12 | 2014-10-07 | Sandisk Enterprise Ip Llc | Failure recovery using consensus replication in a distributed flash memory system |
US9047351B2 (en) | 2010-04-12 | 2015-06-02 | Sandisk Enterprise Ip Llc | Cluster of processing nodes with distributed global flash memory using commodity server technology |
US8868487B2 (en) | 2010-04-12 | 2014-10-21 | Sandisk Enterprise Ip Llc | Event processing in a flash memory-based object store |
US9164554B2 (en) | 2010-04-12 | 2015-10-20 | Sandisk Enterprise Ip Llc | Non-volatile solid-state storage system supporting high bandwidth and random access |
US8666939B2 (en) | 2010-06-28 | 2014-03-04 | Sandisk Enterprise Ip Llc | Approaches for the replication of write sets |
US8694733B2 (en) | 2011-01-03 | 2014-04-08 | Sandisk Enterprise Ip Llc | Slave consistency in a synchronous replication environment |
US8874515B2 (en) | 2011-04-11 | 2014-10-28 | Sandisk Enterprise Ip Llc | Low level object version tracking using non-volatile memory write generations |
US9135064B2 (en) | 2012-03-07 | 2015-09-15 | Sandisk Enterprise Ip Llc | Fine grained adaptive throttling of background processes |
JP2013196276A (ja) * | 2012-03-19 | 2013-09-30 | Fujitsu Ltd | 情報処理装置、プログラムおよびデータ配置方法 |
US8862818B1 (en) * | 2012-09-27 | 2014-10-14 | Emc Corporation | Handling partial stripe writes in log-structured storage |
US20140208005A1 (en) * | 2013-01-22 | 2014-07-24 | Lsi Corporation | System, Method and Computer-Readable Medium for Providing Selective Protection and Endurance Improvements in Flash-Based Cache |
RU2552151C2 (ru) * | 2013-09-17 | 2015-06-10 | Общество с ограниченной ответственностью "РЭЙДИКС" | Способ контроля корректности записи данных в двухконтроллерной системе хранения данных на массиве энергонезависимых носителей и устройство для его осуществления |
US9418131B1 (en) | 2013-09-24 | 2016-08-16 | Emc Corporation | Synchronization of volumes |
US9378106B1 (en) | 2013-09-26 | 2016-06-28 | Emc Corporation | Hash-based replication |
US9606870B1 (en) | 2014-03-31 | 2017-03-28 | EMC IP Holding Company LLC | Data reduction techniques in a flash-based key/value cluster storage |
US9342465B1 (en) | 2014-03-31 | 2016-05-17 | Emc Corporation | Encrypting data in a flash-based contents-addressable block device |
US9396243B1 (en) | 2014-06-27 | 2016-07-19 | Emc Corporation | Hash-based replication using short hash handle and identity bit |
US9569303B2 (en) * | 2014-08-08 | 2017-02-14 | Kabushiki Kaisha Toshiba | Information processing apparatus |
US10025843B1 (en) | 2014-09-24 | 2018-07-17 | EMC IP Holding Company LLC | Adjusting consistency groups during asynchronous replication |
US9304889B1 (en) | 2014-09-24 | 2016-04-05 | Emc Corporation | Suspending data replication |
US10152527B1 (en) | 2015-12-28 | 2018-12-11 | EMC IP Holding Company LLC | Increment resynchronization in hash-based replication |
US10310951B1 (en) | 2016-03-22 | 2019-06-04 | EMC IP Holding Company LLC | Storage system asynchronous data replication cycle trigger with empty cycle detection |
US10324635B1 (en) | 2016-03-22 | 2019-06-18 | EMC IP Holding Company LLC | Adaptive compression for data replication in a storage system |
US9959063B1 (en) | 2016-03-30 | 2018-05-01 | EMC IP Holding Company LLC | Parallel migration of multiple consistency groups in a storage system |
US10565058B1 (en) | 2016-03-30 | 2020-02-18 | EMC IP Holding Company LLC | Adaptive hash-based data replication in a storage system |
US9959073B1 (en) | 2016-03-30 | 2018-05-01 | EMC IP Holding Company LLC | Detection of host connectivity for data migration in a storage system |
US10095428B1 (en) | 2016-03-30 | 2018-10-09 | EMC IP Holding Company LLC | Live migration of a tree of replicas in a storage system |
US10083067B1 (en) | 2016-06-29 | 2018-09-25 | EMC IP Holding Company LLC | Thread management in a storage system |
US9983937B1 (en) | 2016-06-29 | 2018-05-29 | EMC IP Holding Company LLC | Smooth restart of storage clusters in a storage system |
US10048874B1 (en) | 2016-06-29 | 2018-08-14 | EMC IP Holding Company LLC | Flow control with a dynamic window in a storage system with latency guarantees |
US10013200B1 (en) | 2016-06-29 | 2018-07-03 | EMC IP Holding Company LLC | Early compression prediction in a storage system with granular block sizes |
US10152232B1 (en) | 2016-06-29 | 2018-12-11 | EMC IP Holding Company LLC | Low-impact application-level performance monitoring with minimal and automatically upgradable instrumentation in a storage system |
US10929226B1 (en) | 2017-11-21 | 2021-02-23 | Pure Storage, Inc. | Providing for increased flexibility for large scale parity |
US10691354B1 (en) | 2018-01-31 | 2020-06-23 | EMC IP Holding Company LLC | Method and system of disk access pattern selection for content based storage RAID system |
WO2019183958A1 (zh) | 2018-03-30 | 2019-10-03 | 华为技术有限公司 | 数据写入方法、客户端服务器和系统 |
US10540231B2 (en) | 2018-04-04 | 2020-01-21 | International Business Machines Corporation | Log-structured array (LSA) partial parity eviction and reassembly |
CN110413205B (zh) * | 2018-04-28 | 2023-07-07 | 伊姆西Ip控股有限责任公司 | 用于向磁盘阵列进行写入的方法、设备和计算机可读存储介质 |
US10437670B1 (en) | 2018-05-24 | 2019-10-08 | International Business Machines Corporation | Metadata hardening and parity accumulation for log-structured arrays |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4092732A (en) * | 1977-05-31 | 1978-05-30 | International Business Machines Corporation | System for recovering data stored in failed memory unit |
US4989205A (en) * | 1988-06-28 | 1991-01-29 | Storage Technology Corporation | Disk drive memory |
US4914656A (en) * | 1988-06-28 | 1990-04-03 | Storage Technology Corporation | Disk drive memory |
US5072378A (en) * | 1989-12-18 | 1991-12-10 | Storage Technology Corporation | Direct access storage device with independently stored parity |
US5166939A (en) * | 1990-03-02 | 1992-11-24 | Micro Technology, Inc. | Data storage apparatus and method |
US5195100A (en) * | 1990-03-02 | 1993-03-16 | Micro Technology, Inc. | Non-volatile memory storage of write operation identifier in data sotrage device |
US5124987A (en) * | 1990-04-16 | 1992-06-23 | Storage Technology Corporation | Logical track write scheduling system for a parallel disk drive array data storage subsystem |
US5155845A (en) * | 1990-06-15 | 1992-10-13 | Storage Technology Corporation | Data storage system for providing redundant copies of data on different disk drives |
US5375128A (en) * | 1990-10-18 | 1994-12-20 | Ibm Corporation (International Business Machines Corporation) | Fast updating of DASD arrays using selective shadow writing of parity and data blocks, tracks, or cylinders |
US5155835A (en) * | 1990-11-19 | 1992-10-13 | Storage Technology Corporation | Multilevel, hierarchical, dynamically mapped data storage subsystem |
US5278838A (en) * | 1991-06-18 | 1994-01-11 | Ibm Corp. | Recovery from errors in a redundant array of disk drives |
US5237658A (en) * | 1991-10-01 | 1993-08-17 | Tandem Computers Incorporated | Linear and orthogonal expansion of array storage in multiprocessor computing systems |
US5297258A (en) * | 1991-11-21 | 1994-03-22 | Ast Research, Inc. | Data logging for hard disk data storage systems |
US5287462A (en) * | 1991-12-20 | 1994-02-15 | Ncr Corporation | Bufferless SCSI to SCSI data transfer scheme for disk array applications |
US5333305A (en) * | 1991-12-27 | 1994-07-26 | Compaq Computer Corporation | Method for improving partial stripe write performance in disk array subsystems |
US5289418A (en) * | 1992-02-14 | 1994-02-22 | Extended Systems, Inc. | Memory apparatus with built-in parity generation |
US5410667A (en) * | 1992-04-17 | 1995-04-25 | Storage Technology Corporation | Data record copy system for a disk drive array data storage subsystem |
US5408644A (en) * | 1992-06-05 | 1995-04-18 | Compaq Computer Corporation | Method and apparatus for improving the performance of partial stripe operations in a disk array subsystem |
US5392244A (en) * | 1993-08-19 | 1995-02-21 | Hewlett-Packard Company | Memory systems with data storage redundancy management |
-
1995
- 1995-02-10 US US08/386,582 patent/US5537534A/en not_active Expired - Lifetime
- 1995-08-04 EP EP95112326A patent/EP0726520B1/en not_active Expired - Lifetime
- 1995-08-04 DE DE69533058T patent/DE69533058T2/de not_active Expired - Lifetime
- 1995-12-22 JP JP33455995A patent/JP3753461B2/ja not_active Expired - Fee Related
-
2002
- 2002-10-04 US US10/264,639 patent/US20030148960A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP0726520A3 (en) | 2000-03-29 |
JPH08249134A (ja) | 1996-09-27 |
EP0726520B1 (en) | 2004-05-19 |
DE69533058D1 (de) | 2004-06-24 |
US5537534A (en) | 1996-07-16 |
US20030148960A1 (en) | 2003-08-07 |
EP0726520A2 (en) | 1996-08-14 |
DE69533058T2 (de) | 2005-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3753461B2 (ja) | 冗長性パリティ法によるデータの書き込み方法およびデータ記憶システム | |
JP3753259B2 (ja) | 記憶空間を提供する方法およびデータ記憶システム | |
US5542065A (en) | Methods for using non-contiguously reserved storage space for data migration in a redundant hierarchic data storage system | |
JP3699165B2 (ja) | データ記憶装置の記憶容量を拡大する方法 | |
US5546558A (en) | Memory system with hierarchic disk array and memory map store for persistent storage of virtual mapping information | |
EP0715249B1 (en) | Methods of and system for reserving storage space for data migration in a redundant hierarchic data storage system by dynamically computing maximum storage space for mirror redundancy | |
US5696934A (en) | Method of utilizing storage disks of differing capacity in a single storage volume in a hierarchial disk array | |
US6941420B2 (en) | Log-structure array | |
KR0130008B1 (ko) | 다수의 기억장치체계에 쓰이는 파일시스템 | |
US6915382B2 (en) | Apparatus and method for reallocating logical to physical disk devices using a storage controller, with access frequency and sequential access ratio calculations and display | |
US5301297A (en) | Method and means for managing RAID 5 DASD arrays having RAID DASD arrays as logical devices thereof | |
US5664187A (en) | Method and system for selecting data for migration in a hierarchic data storage system using frequency distribution tables | |
US5392244A (en) | Memory systems with data storage redundancy management | |
JP3505093B2 (ja) | ファイル管理システム | |
EP0899731B1 (en) | Improved disk log using distributed write | |
JPH0863298A (ja) | ディスクアレイ装置 | |
JP3687111B2 (ja) | 記憶装置システムおよび記憶装置の制御方法 | |
US6934803B2 (en) | Methods and structure for multi-drive mirroring in a resource constrained raid controller | |
JP2004094429A (ja) | ディスクアレイ装置及び同装置におけるレイドレベル変更方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050614 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050617 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111222 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 7 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131222 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |