JP2014529126A - フラッシュストレージアレイにおける論理セクタマッピング - Google Patents

フラッシュストレージアレイにおける論理セクタマッピング Download PDF

Info

Publication number
JP2014529126A
JP2014529126A JP2014526108A JP2014526108A JP2014529126A JP 2014529126 A JP2014529126 A JP 2014529126A JP 2014526108 A JP2014526108 A JP 2014526108A JP 2014526108 A JP2014526108 A JP 2014526108A JP 2014529126 A JP2014529126 A JP 2014529126A
Authority
JP
Japan
Prior art keywords
mapping table
level
data
mapping
levels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014526108A
Other languages
English (en)
Other versions
JP2014529126A5 (ja
JP6200886B2 (ja
Inventor
コルグローヴ,ジョン
ヘイズ,ジョン
ミラー,イーサン
ワン,フェン
Original Assignee
ピュア・ストレージ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピュア・ストレージ・インコーポレイテッド filed Critical ピュア・ストレージ・インコーポレイテッド
Publication of JP2014529126A publication Critical patent/JP2014529126A/ja
Publication of JP2014529126A5 publication Critical patent/JP2014529126A5/ja
Application granted granted Critical
Publication of JP6200886B2 publication Critical patent/JP6200886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • G06F12/0246Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory in block erasable memory, e.g. flash memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0688Non-volatile semiconductor memory arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/50Control mechanisms for virtual memory, cache or TLB
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/72Details relating to flash memory management
    • G06F2212/7201Logical to physical mapping or translation of blocks or pages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

複数のソリッドステートストレージデバイスを含むストレージシステムに記憶されたデータに関するユーザストレージ仮想化を効率的に実行するための、システム及び方法。データストレージサブシステムは、複数のマッピングテーブルをサポートする。マッピングテーブル内のレコードは、複数のレベルに配置される。各レベルは、キー値とポイント値との組を記憶する。上記レベルは時間によってソートされる。新たなレコードは、生成された最新の(最も新しい)レベルに挿入される。原位置での編集は実行されない。最も新しいもの以外の全てのレベルは、読出し専用であってよい。本システムは更に、マッピングテーブル内の無効である上記キーを識別するオーバレイテーブルを含んでよい。【選択図】図2

Description

本発明は、コンピュータネットワークに関し、より詳細には、複数のソリッドステートストレージデバイスにわたって記憶されたデータに関するユーザストレージ仮想化を効率的に実行するコンピュータシステムに関する。
コンピュータメモリストレージ及びデータ帯域が増大するにつれて、業務にあたって日々取り扱うデータの量及び複雑性も増大する。データセンタ等の大規模分散ストレージシステムは、典型的には多くの業務操作を実行する。サーバルームと呼ばれることもあるデータセンタは、1つ又は複数の業務に関連するデータの記憶、管理及び配布のための物理的又は仮想集中レポジトリである。分散ストレージシステムは、1つ又は複数のネットワークで相互接続されたクライアントコンピュータに連結できる。分散ストレージシステムのいずれの部分の性能が劣っている場合、会社運営に悪影響が生じ得る。従って分散ストレージシステムは、データ可用性及び高性能な機能性に関して高い基準を維持する。
分散ストレージシステムは物理ボリュームを備え、これはハードディスク、ソリッドステートデバイス、別のストレージ技術を用いたストレージデバイス、又はストレージデバイスのパーティションであってよい。論理ボリュームマネージャ又はディスクアレイマネージャのようなソフトウェア・アプリケーションは、マスストレージアレイ上にスペースを割り当てる手段を提供する。更に、このソフトウェアによって、システム管理者は、論理ボリュームを含むストレージグループのユニットを生成できる。ストレージの仮想化は、エンドユーザが物理ストレージを認識することなく論理ストレージにアクセスするための、物理ストレージからの論理ストレージの抽象化(分離)を提供する。
ストレージの仮想化を支援するために、ボリュームマネージャは、エンドユーザからのローカルアドレスを用いた、入力される入出力(I/O)要求を、ストレージデバイス内の物理位置と関連するアドレスを用いた新しい要求に変換することによって、I/Oリダイレクションを実行する。ソリッドステートストレージデバイスで使用できるアドレス変換レイヤー等の追加のアドレス変換機構を含むことができるストレージデバイスも存在するため、論理アドレスから上述の別のアドレスへの変換は、唯一の又は最後のアドレス変換を表すものではない。リダイレクションは、1つ又は複数のマッピングテーブルに記憶されたメタデータを利用する。更に、1つ又は複数のマッピングテーブルに記憶された情報を、ストレージの重複排除のため及び特定のスナップショットレベルにおける仮想セクタを物理位置にマッピングするために使用してよい。ボリュームマネージャは、仮想化されたストレージのためのマッピング情報を一貫して維持できる。しかしながら、支援されるアドレススペースは、マッピングテーブルを維持するために使用されるストレージ容量によって制限され得る。
選択されたストレージディスクに関連する技術及び機構は、ボリュームマネージャが使用する方法を決定する。例えば、ハードディスクの粒度レベル、ハードディスクのパーティション、又は外部ストレージデバイスの論理ユニット番号(LUN)に関するマッピングを提供するボリュームマネージャは、大きなデータに関する重複データのリダイレクション、配置、除去等に限定される。別のタイプのストレージディスクの一例は、ソリッドステートディスク(SSD)である。SSDはHDDインタフェースを模倣してよいが、SSDは、HDDに見られる電気機械的デバイスではなく、ソリッドステートメモリを利用して、永続的なデータを記憶する。例えばSSDは、フラッシュメモリの層を備えてよい。従って、1つ又は複数のマッピングテーブルによって支援される大きなアドレススペースは、記憶用SSDを備えながら、HDD用に開発されたマッピングテーブル割り当てアルゴリズムを利用しているシステムでは達成できない。
以上から、複数のソリッドステートストレージデバイスにわたって記憶されたデータに関するストレージ仮想化を効率的に実行するためのシステム及び方法が必要とされている。
複数のソリッドステートストレージデバイスにわたって記憶されたデータに関するユーザストレージ仮想化を効率的に実行するためのコンピュータシステム及び方法の様々な実施形態を開示する。
一実施形態では、ネットワークに連結されたデータストレージサブシステムは、ネットワーク上のクライアントコンピュータからの読出し及び書込み要求を受信する。データストレージサブシステムは、複数のストレージデバイスを含むデバイスグループ上に複数のデータストレージ位置を備える。データストレージサブシステムは更に、時間によってソートされる複数のレベルを含む少なくとも1つのマッピングテーブルを備える。一実施形態では、各レベルは1つ又は複数の順組を記憶し、各順組は、ルックアップキーとして使用できる1つ又は複数の値を含む。各順組は更に、キー値と関連するデータ値を含んでよい。一実施形態では、マッピングテーブルは仮想−物理アドレス変換テーブルである。別の実施形態では、マッピングテーブルは重複排除テーブルである。データストレージサブシステムは更に、1つ又は複数の新規の順組をマッピングテーブルに挿入するための条件の検知に応じて複数のレベルに加えられることになる新規の最高レベル(最も新しいレベル)を生成するよう構成された、データストレージコントローラを備える。各順組は、マッピングテーブル内の別個のレコード又はエントリに記憶してよい。レコードはキー値によってソートしてよい。
システムが1つ又は複数の「オーバレイ」テーブルを含む実施形態も考えられる。オーバレイテーブルは、マッピングテーブルによって返答されるクエリに対する応答を修正するために使用できる。修正された応答は、応答を無効と標識すること又はマッピングテーブルに対するクエリに応じて提供される順組内のフィールド値を修正することを含むことができる。オーバレイテーブルへのアクセスは、所定のキーが有効でないことを比較的迅速に決定できる。マッピングテーブルの、最も新しいレベル以外の全てのレベルが読出し専用である実施形態も考えられる。
これらの及び他の実施形態は、以下の説明及び添付の図面を検討することによって明らかになるであろう。
図1は、ネットワークアーキテクチャの一実施形態を示す、一般化されたブロック図である。 図2は、マッピングテーブルの一実施形態の、一般化されたブロック図である。 図3Aは、マッピングテーブルにアクセスするために使用する一次索引の一実施形態の、一般化されたブロック図である。 図3Bは、マッピングテーブルにアクセスするために使用する一次索引の別の実施形態の、一般化されたブロック図である。 図4は、一次索引の別の実施形態及びマッピングテーブルの、一般化されたブロック図である。 図5Aは、読出しアクセスを実行するための方法の一実施形態を示す、一般化されたブロック図である。 図5Bは、書込み操作を実行するための方法の一実施形態を示す、一般化されたブロック図である。 図6は、共有マッピングテーブルを有するマルチノードネットワークの一実施形態の、一般化されたブロック図である。 図7は、マッピングテーブルにアクセスするために使用する二次索引の一実施形態の、一般化されたブロック図である。 図8は、マッピングテーブルにアクセスする三次索引の一実施形態の、一般化されたブロック図である。 図9は、オーバレイテーブルを利用する方法の一実施形態を示す。 図10は、マッピングテーブル内のレベルに対する平板化操作の一実施形態の、一般化されたブロック図である。 図11は、マッピングテーブル内のレベルに対する平板化操作の別の実施形態の、一般化されたブロック図である。 図12は、マッピングテーブル内のレベルを平板化するための方法の一実施形態を示す、一般化されたフローチャートである。 図13は、マッピングテーブル内のバルクアレイタスクを効率的に処理するための方法の一実施形態を示す、一般化されたフローチャートである。 ストレージデバイス内のデータレイアウトアーキテクチャのある実施形態を示す、一般化されたブロック図である。
本発明は、様々な修正及び代替形態を許容するものであるが、具体的な実施形態を例として図に示し、本明細書で詳細に説明する。しかしながら、図面及びそれに対する詳細な説明は、ここに開示する特定の形態に本発明を限定することを意図したものではなく、反対に本発明は、添付の請求項で定義されるような本発明の精神及び範囲内にある全ての修正形態、均等物及び代替形態を包含し得るものであることを理解するべきである。
以下の説明では、本発明の完全な理解を提供するために多数の具体的な詳細を挙げる。しかしながら、これらの具体的詳細を用いずに本発明を実施し得ることを当業者は認識するべきである。いくつかの例では、本発明を不明瞭にすることを避けるために、公知の回路、構造、信号、コンピュータプログラム命令及び技術を詳細に示すことはしなかった。
図1を参照すると、ネットワークアーキテクチャ100の一実施形態の一般化されたブロック図が示されている。以下に更に説明するように、ネットワークアーキテクチャ100の一実施形態は、ネットワーク180を通して互いに相互接続され、またデータストレージアレイ120a、120bに相互接続された、クライアントコンピュータシステム110a、110bを含む。ネットワーク180は、スイッチ140を通して第2のネットワーク190に連結してよい。クライアントコンピュータシステム110cは、ネットワーク190を介してクライアントコンピュータシステム110a、110b及びデータストレージアレイ120a、120bに連結される。更に、ネットワーク190は、スイッチ150を通してインターネット160に連結するか又はそうでない場合は外部ネットワークに連結してよい。
代替実施形態では、クライアントコンピュータ及びサーバ、スイッチ、ネットワーク、データストレージアレイ並びにデータストレージデバイスの数及び種類は、図1に示したものに限定されないことに留意されたい。様々な時点において、1つ又は複数のクライアントはオフラインで動作してよい。更に、動作中、個々のクライアントコンピュータの接続タイプは、ユーザ接続、非接続、及びネットワークアーキテクチャ100への再接続のように変化し得る。更に、本説明では一般にネットワーク接続ストレージについて議論するが、本明細書に記載のシステム及び方法を、直接接続ストレージシステムに適用してもよく、また本明細書に記載のシステム及び方法は、本明細書に記載の方法の1つ又は複数の態様を実行するよう構成されたホストオペレーティングシステムを含んでよい。多数のこのような代替実施形態が可能であり、考えられる。図1に示す各構成部品の更なる説明を簡単に行う。まず、データストレージアレイ120a、120bが示す特徴のうちのいくつかの概要を説明する。
ネットワークアーキテクチャ100では、各データストレージアレイ120a、120bを用いて、クライアントコンピュータシステム110a〜110c等の異なるサーバ及びコンピュータ間でデータを共有してよい。更に、データストレージアレイ120a、120bを、ディスクミラーリング、バックアップ及び復元、アーカイブ化及びアーカイブ化されたデータの回復、並びにあるストレージデバイスから別のストレージデバイスへのデータの移行のために使用してよい。代替実施形態では、高速ローカルエリアネットワーク(LAN)を通して1つ又は複数のクライアントコンピュータシステム110a〜110cを互いにリンクさせ、クラスタを形成してよい。このようなクライアントは、データストレージアレイ120a、120bのうちの1つの中にあるクラスタ共有ボリューム等のストレージリソースを共有してよい。
各データストレージアレイ120a、120bは、データストレージのためのストレージサブシステム170を含む。ストレージサブシステム170は、複数のストレージデバイス176a〜176mを備えてよい。これらのストレージデバイス176a〜176mは、クライアントコンピュータシステム110a〜110cにデータストレージサービスを提供できる。各ストレージデバイス176a〜176mは、データストレージを実行するために、特定の技術及び機構を使用する。各ストレージデバイス176a〜176m内で使用される技術及び機構の種類を少なくとも部分的に用いて、各ストレージデバイス176a〜176mへの書込み操作及び各ストレージデバイス176a〜176mからの読出し操作を制御及びスケジューリングするために使用されるアルゴリズムを決定してよい。例えば、アルゴリズムはこれらの操作に対応する特定の物理位置を定めることができる。更に、アルゴリズムは、これらの操作のための入出力(I/O)リダイレクション、及びストレージサブシステム170内の重複データの除去を実行でき、またアドレスのリダイレクション及び重複排除のために使用される1つ又は複数のマッピングテーブルを支援できる。
上述のアルゴリズムで使用される論理は、ベースオペレーティングシステム(OS)132、ボリュームマネージャ134、ストレージサブシステムコントローラ174内、各ストレージデバイス176a〜176m内の制御論理内等のうちの1つ又は複数に含むことができる。更に、本明細書に記載の論理、アルゴリズム及び制御機構はハードウェア及び/又はソフトウェアを含んでよい。
各ストレージデバイス176a〜176mは、読出し及び書込み要求を受信するよう並びに複数のデータストレージ位置を備えるように構成してよく、各データストレージ位置は、アレイ内の行及び列としてアクセス可能である。一実施形態では、ストレージデバイス176a〜176m内のデータストレージ位置は、論理冗長ストレージコンテナ、又はRAID(安価/独立デバイスの冗長アレイ(redundant arrays of inexpensive/independent disks))内に配置してよい。
いくつかの実施形態では、各ストレージデバイス176a〜176mは、従来のハードディスクドライブ(HDD)とは異なるデータストレージのための技術を利用してよい。例えば、ストレージデバイス176a〜176mのうちの1つ又は複数は、永続的なデータを記憶するためのソリッドステートメモリからなるストレージを含むか、又はこのようなストレージに更に連結されてよい。他の実施形態では、ストレージデバイス176a〜176mのうちの1つ又は複数は、回転トルク転送技術、磁気抵抗ランダムアクセスメモリ(MRAM)技術、瓦記録方式ディスク、メモリスタ、相変化メモリ若しくは他のストレージ技術等の、他の技術を使用したストレージを含むか、又はこのようなストレージに更に連結されてよい。
一実施形態では、使用されるソリッドステートメモリはソリッドステートドライブ(SSD)技術からなる。HDD技術とSSD技術との間の技術及び機構の違いは、データストレージデバイス176a〜176mの入出力(I/O)特性の違いにつながり得る。ソリッドステートディスク(SSD)をソリッドステートドライブと呼んでもよい。可動部品又は機械的遅延がないため、SSDは、HDDよりも低い読出しアクセス時間及びレイテンシを有し得る。しかしながら、SSDの書込み性能は一般に読出し性能より低く、SSD内の自由なプログラマブルブロックの可用性に大きく影響され得る。
ストレージアレイの効率は、ユーザストレージと、ストレージデバイス176a〜176m内の物理位置との間にストレージ仮想化層を生成することによって改善できる。一実施形態では、ボリュームマネージャの仮想層は、ストレージデバイス内又はネットワーク内ではなく、オペレーティングシステム(OS)のデバイスドライバ積層に配置される。多くのストレージアレイは、粗粒度レベルにおいてストレージ仮想化を実行し、これによって仮想−物理マッピングテーブルをメモリに全体的に記憶できる。しかしながら、このようなストレージアレイは、データ圧縮、重複排除及び修正時コピー操作等の特徴を統合することはできない。多くのファイルシステムは、微粒度仮想−物理マッピングテーブルをサポートしているが、デバイスグループ173a〜173mのような大型ストレージアレイをサポートしていない。寧ろ、ボリュームマネージャ又はディスクアレイマネージャを用いて、デバイスグループ173a〜173mをサポートする。
一実施形態では、1つ又は複数のマッピングテーブルを、RAM172、メモリ媒体130又はプロセッサ122内のキャッシュ等のメモリではなく、ストレージデバイス176a〜176mに記憶してよい。ストレージデバイス176a〜176mは、フラッシュメモリを利用したSSDであってよい。SSDの低い読出しアクセス時間及びレイテンシによって、ストレージアクセス要求をクライアントコンピュータから提供する間に、少数の参照先読出し操作を行うことができる。参照先読出し操作を用いて、ストレージアクセス要求の提供中に、1つ又は複数の索引、1つ又は複数のマッピングテーブル及びユーザデータにアクセスできる。
一実施例では、参照先読出し操作によってI/Oリダイレクションを実行してよい。別の実施例では、参照先読出し操作によってインライン重複排除を実行してよい。更に別の実施例では、ユーザデータを保持するストレージ位置にアクセスするのではなく、マッピングテーブル内で、ラージコピー、移動又はゼロイング操作等のバルクアレイタスクを全て実行してよい。このような直接的なマップ操作により、ストレージデバイス176a〜176m内でのI/Oトラフィック及びデータ移動を大幅に低減できる。ストレージアクセス要求を提供するための時間と、SSDからの参照先読出し操作を実行するための時間とを合わせた時間は、回転するHDDからのストレージアクセス要求を提供するための時間よりも短くなり得る。
更に、マッピングテーブル内の情報を圧縮してよい。特定の圧縮アルゴリズムを選択することにより、複数のレコードのうちの1つのレコード内のキー等、個々の構成要素の識別を可能とすることができる。従って、複数の圧縮レコード内の所定のキーの検索を行ってよい。マッチングが発見された場合、マッチングするレコードだけを復元してよい。マッピングテーブルのレコード内の順組を圧縮することによって、微粒度レベルのマッピングを更に可能とすることができる。この微粒度レベルのマッピングにより、従来のバルクアレイタスクに代わる直接マッピング操作が可能となり得る。効率的なストレージ仮想化に関する更なる詳細について、以下に議論する。
前述の通り、図示したように、ネットワークアーキテクチャ100は、ネットワーク180、190を通して互いに相互接続され、またデータストレージアレイ120a、120bに相互接続された、クライアントコンピュータシステム110a〜110cを含む。ネットワーク180、190は、無線接続、直接ローカルエリアネットワーク(LAN)接続、インターネット、ルータ、ストレージエリアネットワーク、イーサネット(登録商標)等の広域ネットワーク(WAN)接続を含む、様々な技術を含んでよい。ネットワーク180、190は、これもまた無線であってよい1つ又は複数のLANを備えてよい。ネットワーク180、190は更に、リモートダイレクトメモリアクセス(RDMA)ハードウェア及び/若しくはソフトウェア、伝送制御プロトコル/インターネットプロトコル(TCP/IP)ハードウェア及び/若しくはソフトウェア、ルータ、リピータ、スイッチ、グリッド並びに/又はその他を含んでよい。ネットワーク180、190では、ファイバチャネル、ファイバチャネルオーバイーサネット(FCoR)、iSCSI等のプロトコルを使用してよい。スイッチ140は、ネットワーク180、190の両方に関連するプロトコルを利用してよい。ネットワーク190は、伝送制御プロトコル(TCP)及びインターネットプロトコル(IP)、即ちTCP/IPのような、インターネット160のために使用される一連の通信方式プロトコルとインタフェース接続してよい。スイッチ150はTCP/IPスイッチであってよい。
クライアントコンピュータシステム110a〜110cは、デスクトップパーソナルコンピュータ(PC)、サーバ、サーバファーム、ワークステーション、ラップトップコンピュータ、ハンドヘルドコンピュータ、サーバ、パーソナルデジタルアシスタント(PDA)スマートフォン等の、任意の数の据置型又は携帯用コンピュータを表す。一般的に、クライアントコンピュータ110a〜110cは、1つ又は複数のプロセッサコアを備える1つ又は複数のプロセッサを含む。各プロセッサコアは、所定の汎用命令セットに応じて命令を実行するための回路構成を含む。例えば、x86命令セットアーキテクチャを選択してよい。代替として、Alpha(登録商標)、PowerPC(登録商標)、SPARC(登録商標)又は他のいずれの汎用命令セットアーキテクチャを選択してよい。プロセッサコアは、データ及びコンピュータプログラム命令のためのキャッシュメモリサブシステムにアクセスしてよい。キャッシュサブシステムは、ランダムアクセスメモリ(RAM)及びストレージデバイスを備えるメモリ階層に連結してよい。
クライアントコンピュータシステム内の各プロセッサコア及びメモリ階層は、ネットワークインタフェースに接続してよい。ハードウェア構成要素に加えて、各クライアントコンピュータシステム110a〜110cは、メモリ階層内に記憶されたベースオペレーティングシステム(OS)を含んでよい。ベースOSは、例えばMS−DOS(登録商標)、MS−WINDOWS(登録商標)、OS/2(登録商標)、UNIX(登録商標)、Linux(登録商標)、Solaris(登録商標)、AIX(登録商標)、DART又はその他等の様々なオペレーティングシステムのうちのいずれかを表してよい。従ってベースOSは、様々なサービスをエンドユーザに提供するために及び様々なプログラムの実行をサポートするために動作可能なソフトウェアフレームワークを提供するために、動作可能であってよい。更に、各クライアントコンピュータシステム110a〜110cは、仮想マシン(VM)をサポートするために使用されるハイパーバイザを含んでよい。当業者には公知であるように、OS等のソフトウェアをシステムのハードウェアから完全に又は部分的に切り離すために、デスクトップコンピュータ及びサーバにおいて仮想化を用いてよい。仮想化は、それぞれ固有のリソース及び各データストレージアレイ120a、120b内のストレージデバイス176a〜176mに基づく論理ストレージエンティティ(例えばLUN)へのアクセスを有する複数のOSが1つのマシン上で実行されているかのような錯覚をエンドユーザに提供できる。
各データストレージアレイ120a、120bを、クライアントコンピュータシステム110a〜110c等の異なるサーバ間でデータを共有するために使用してよい。各データストレージアレイ120a、120bは、データストレージのためのストレージサブシステム170を含む。ストレージサブシステム170は、複数のストレージデバイス176a〜176mを備える。これらのストレージデバイス176a〜176mはそれぞれ、SSDであってよい。コントローラ174は、受信した読出し/書込み要求を扱うための論理を備えてよい。ランダムアクセスメモリ(RAM)172は、受信した書込み要求等の操作をまとめるために使用してよい。様々な実施形態において、書込み操作(又は他の操作)をまとめる際、不揮発性ストレージ(例えばNVRAM)を使用してよい。
ベースOS132、ボリュームマネージャ134(又はディスクアレイマネージャ134)、いずれのOSドライバ(図示せず)及びメモリ媒体130に記憶された他のソフトウェアは、ファイルへのアクセスを提供する機能及びこれらの機能の管理を提供できる。ベースOS132は、NetApp Data ONTAP(登録商標)等のストレージオペレーティングシステムであってよい。ベースOS132及びOSドライバは、メモリ媒体130に記憶されプロセッサ122によって実行可能なプログラム命令を備えてよく、これによって、受信した要求に対応する、ストレージサブシステム170内の1つ又は複数のメモリアクセス動作を実行する。図1に示すシステムは一般に、1つ又は複数のファイルサーバ及び/又はブロックサーバを含んでよい。
各データストレージアレイ120a、120bは、ネットワーク180に接続するためのネットワークインタフェース124を用いてよい。クライアントコンピュータシステム110a〜110cと同様に、一実施形態では、ネットワークインタフェース124の機能は、ネットワークアダプタカード上に含まれてよい。ネットワークインタフェース124の機能は、ハードウェア及びソフトウェアの両方を用いて実装してよい。ネットワークインタフェース124のネットワークカードの実装には、ランダムアクセスメモリ(RAM)及び読出し専用メモリ(ROM)の両方を含んでよい。1つ又は複数の特定用途向け集積回路(ASIC)を使用して、ネットワークインタフェース124の機能を提供してよい。
以上に加えて、データストレージアレイ120a、120b内の各ストレージコントローラ174は、スナップショット、複製及び高可用性等のストレージアレイ機能をサポートしてよい。更に、各ストレージコントローラ174は、それぞれ複数のスナップショットを含む複数のボリュームを備える仮想マシン環境をサポートしてよい。一実施例では、ストレージコントローラ174は、数十万ボリュームをサポートしてよく、各ボリュームは数千のスナップショットを含む。一実施形態では、ボリュームは、ストレージデバイス176a〜176m内の、4キロバイト(KB)等の固定サイズセクタにおいてマッピングしてよい。別の実施形態では、ボリュームは書込み要求に関するもの等の可変サイズセクタにおいてマッピングしてよい。ボリュームID、スナップショットID及びセクタ番号を用いて、所定のボリュームを識別してよい。
アドレス変換テーブルは複数のエントリを備えてよく、各エントリは、対応するデータ構成要素のための仮想−物理マッピングを保持する。このマッピングテーブルを用いて、各クライアントコンピュータシステムからの論理読出し/書込み要求をマッピングしてよい。受信した読出し/書込み要求に対応するルックアップ動作中に、「物理」ポインタ値をマッピングテーブルから読出してよい。次に、この物理ポインタ値を用いて、ストレージデバイス176a〜176m内の物理位置を定めてよい。物理ポインタ値を用いて、ストレージデバイス176a〜176mの所定のストレージデバイス内の別のマッピングテーブルにアクセスしてよいことに留意されたい。その結果、物理ポインタ値と標的ストレージ位置との間に1つ又は複数のレベルの間接指定が存在し得る。
別の実施形態では、マッピングテーブルは、データの重複排除に使用される情報(重複排除テーブル関連情報)を備えてよい。重複排除テーブルに記憶された情報は、所定のデータ構成要素に関して算出された1つ又は複数のハッシュ値と、この所定のデータ構成要素を保持するストレージデバイス176a〜176mのうちの1つの中の物理位置に対する物理ポインタとの間のマッピングを含んでよい。更に、所定のデータ構成要素の長さ及び対応するエントリに関するステータス情報を、重複排除テーブルに記憶してよい。
次に図2を参照すると、マッピングテーブルの一実施形態の一般化されたブロック図が示されている。上述のように、I/Oリダイレクション又は変換、ユーザデータの重複コピーの重複排除、ボリュームスナップショットマッピング等のために、1つ又は複数のマッピングテーブルを使用してよい。マッピングテーブルはストレージデバイス176a〜176mに記憶してよい。図2に示す図は、マッピングテーブルの編成及びストレージの一実施形態の論理表現を表す。図示した各レベルは、異なる期間に対応するマッピングテーブルエントリを含んでよい。例えばレベル「1」は、レベル「2」に記憶された情報より古い情報を含んでよい。同様にレベル「2」は、レベル「3」に記憶された情報より古い情報を含んでよい。図2に示すレコード、ページ及びレベルに記憶された情報は、ストレージデバイス176a〜176m内に、ランダムアクセス方式で記憶してよい。更に、所定のマッピングテーブルエントリのうちの一部又は全てを、RAM172、コントローラ174内のバッファ、メモリ媒体130、及びプロセッサ122内の又はプロセッサ122に連結された1つ又は複数のキャッシュに記憶してよい。様々な実施形態において、各レベルに、(後に図4で示すように)そのレベルの一部であるマッピングのための対応する索引が含まれていてよい。このような索引は、マッピングテーブルエントリ及びこれらがレベル内のどこに記憶されているかの識別(例えばページの識別)を含んでよい。他の実施形態では、マッピングテーブルエントリに関連する索引は、別個のエンティティ又は複数のエンティティであってよく、これらは論理的にレベル自体の一部ではない。
一般に、各マッピングテーブルは行及び列のセットを備える。単一のレコードを、マッピングテーブル内に行として記憶してよい。レコードはエントリと呼んでもよい。一実施形態では、レコードはキーを含む少なくとも1つの順組を記憶する。順組はまた、ストレージサブシステム170に記憶されるデータ構成要素を識別するか又はその位置を定めるために使用されるポインタ等のデータを含むデータフィールドを含んでよい(又は含まなくてもよい)。様々な実施形態において、ストレージサブシステムは、内部マッピング機構を有するストレージデバイス(例えばSSD)を含んで良いことに留意されたい。このような実施形態では、順組内のポインタは、それ自体が実際の物理アドレスではなくてもよい。寧ろポインタは、ストレージデバイスがデバイス内の物理位置にマッピングする論理アドレスであってよい。時間が経過すると、論理アドレスと物理位置との間のこの内部マッピングは変化し得る。他の実施形態では、マッピングテーブルのレコードは、追加の関連するデータフィールドを有さないキーフィールドのみを含んでよい。所定のレコードに対応するデータ構成要素と関連する属性を、テーブルの列又はフィールドに記憶してよい。有効性インジケータ、データの経過年数、データサイズ等のステータス情報を、図2に示すフィールド0〜フィールドN等のフィールドに記憶してよい。様々な実施形態において、各列は、所定のタイプに対応する情報を記憶する。いくつかの実施形態では、場合によっては圧縮表現が長さゼロビットであるフィールドとなり得る選択されたフィールドのために、圧縮技術を利用してよい。
キーは、あるデータの行を別の行から区別できる、マッピングテーブルのエンティティである。各行は、エントリ又はレコードと呼んでもよい。キーは単一の列であってよく、又はレコードを識別するために使用される列の群からなってよい。一実施例では、アドレス変換マッピングテーブルは、ボリューム識別子(ID)、論理又は仮想アドレス、スナップショットID、セクタ番号等を備えるキーを利用してよい。所定の受信した読出し/書込みストレージアクセス要求は、特定のボリューム、セクタ及び長さを識別してよい。セクタは、ボリュームに記憶されたデータの論理ブロックであってよい。セクタは、様々なボリューム上で様々なサイズを有してよい。アドレス変換マッピングテーブルは、セクタサイズのユニット内にボリュームをマッピングしてよい。
ボリューム識別子(ID)を用いて、ボリュームID及び対応する現在のスナップショットIDを伝達するボリュームテーブルにアクセスしてよい。受信したセクタ番号にと共に、この情報を用いて、アドレス変換マッピングテーブルにアクセスしてよい。従ってこのような実施形態では、アドレス変換マッピングテーブルにアクセスするためのキー値は、ボリュームID、スナップショットID及び受信したセクタ番号の組み合わせである。一実施形態では、アドレス変換マッピングテーブル内のレコードはボリュームIDによってソートされ、続いてセクタ番号、そしてスナップショットIDによってソートされる。この順列は、異なるスナップショットの様々なバージョンのデータ構成要素を共にグループ化できる。従って、ストレージアクセス読出し要求のためのルックアップ中に、対応するデータ構成要素を、ストレージデバイス176a〜176mへのより少ない読出し操作で見つけ出すことができる。
アドレス変換マッピングテーブルは、受信したデータストレージアクセス要求に対応するデータ構成要素を記憶するデータストレージサブシステム170内の位置を示す、物理ポインタ値を伝達してよい。キー値を、マッピングテーブルに記憶された1つ又は複数のキー値を比較してよい。図示した実施例では、説明を容易にするために、「0」、「2」、「12」等のより単純なキー値を示す。物理ポインタ値を、対応するレコードの1つ又は複数のフィールドに記憶してよい。
物理ポインタ値は、セグメント識別子(ID)、及びストレージの位置を識別する物理アドレスを含んでよい。セグメントは、各ストレージデバイス176a〜176mの割り当ての基本単位であってよい。セグメントは、独立デバイスの冗長アレイ(redundant array of independent device:RAID)レベル及びデータタイプを有する。割り当て中、セグメントは対応するストレージから選択されたストレージデバイス176a〜176mのうちの1つ又は複数を有してよい。一実施形態では、セグメントは、ストレージデバイス176a〜176mから選択された1つ又は複数のストレージデバイスそれぞれ上に等しい量のストレージスペースを割り当ててよい。データストレージアクセス要求は、複数のセクタに対応してよく、これは多重並列ルックアップにつながり得る。書込み要求はRAM172等のNVRAMバッファに配置してよく、書込み完了確認をクライアントコンピュータ110a〜110cの対応する1つのクライアントコンピュータに送信してよい。その後、非同期処理によって、バッファされた要求をストレージデバイス176a〜176mに書き出してよい。
別の実施例では、図2に示すマッピングテーブルは重複排除テーブルであってよい。重複排除テーブルは、ストレージアクセス要求と関連するデータ構成要素から決定されたハッシュ値を含むキーを利用してよい。重複排除操作の初期ステップは、読出し/書込み要求、ガベージコレクション操作、トリム操作等の他の操作と同時に実行してよい。所定の書込み要求に関して、クライアントコンピュータ110a〜110cのうちの1つから送信されるデータは、バイトストリーム等のデータストリームであってよい。当業者には公知であるように、データストリームは固定長又は可変長チャンクのシーケンスに分割できる。チャンキングアルゴリズムは、「チャンク」と呼んでよい別個のデータ構成要素へのデータストリームの分割を実行してよい。チャンクは、データのサブファイル内容アドレス可能ユニットであってよい。様々な実施形態において、デーブル又は他の構造を用いて、所定のファイルタイプ又はデータのタイプのために、特定のチャンキングアルゴリズムを使用することを決定してよい。ファイルのタイプは、そのファイル名拡張子、別個の識別情報、データ自体の内容等を参照することによって決定してよい。結果として生成されたチャンクを、データストレージアレイ120a、120bのうちの1つに記憶して、チャンクの共有を可能としてよい。このようなチャンクは、様々な方法で別個に又はグループ化して記憶してよい。
様々な実施形態において、チャンクは、(例えば特定のファイルを、記憶されたデータの1つ又は複数のより小さなチャンクに基づいて再構成できる)そのチャンクからより大きなデータ構成要素を再構成できるデータ構造によって表してよい。対応するデータ構造は、関連する算出されたハッシュ値、データストレージアレイ120a、120bのうちの1つにおけるその位置の(物理及び/又は論理)ポインタ、並びにその長さを含む対応するチャンクを記録してよい。各データ構成要素について、重複排除アプリケーションを用いて対応するハッシュ値を算出してよい。例えば、メッセージダイジェストアルゴリズム5(MD5)、セキュアハッシュアルゴリズム(SHA)等のハッシュ関数を用いて、対応するハッシュ値を算出してよい。受信した書込み要求に対応する所定のデータ構成要素が、データストレージアレイ120a、120bのうちの1つに既に記憶されているかどうかを知るために、所定のデータ構成要素に関する算出した数ビットのハッシュ値(又は数ビットのハッシュ値のサブセット)を、データストレージアレイ120a、120bのうちの1つ又は複数に記憶されたデータ構成要素の数ビットのハッシュ値と比較してよい。
マッピングテーブルは、図2に示すように1つ又は複数のレベルを備えてよい。マッピングテーブルは16〜64のレベルを備えてよいが、別の数のレベルをマッピングテーブル内でサポートすることもでき、予期される。図2では、図示を簡略化するために、レベル「1」、レベル「2」、レベル「N」と標識された3つのレベルを示す。マッピングテーブル内の各レベルは1つ又は複数のパーティションを含んでよい。一実施形態では、各パーティションは4キロバイト(KB)のページである。例えばレベル「N」はページ210a〜210gを備えるものとして示されており、レベル「2」はページ210h〜210jを備え、レベル「1」はページ210k〜210nを備える。マッピングテーブル内の各レベルに対して他のパーティションサイズを選択することもでき、予期される。更に、1つ又は複数のレベルは単一のパーティションを有することもでき、このパーティションはレベルそのものである。
一実施形態では、マッピングテーブル内の複数のレベルは時間によってソートされる。例えば図2では、レベル「1」はレベル「2」より古いものであってよい。同様にレベル「2」はレベル「N」より古いものであってよい。一実施形態では、マッピングテーブルに1つ又は複数の新規のレコードを挿入するための条件を検出すると、新規のレベルを生成してよい。様々な実施形態において、新規のレベルが生成される場合、この新規のレベルに与えられる番号/名称は、この新規のレベルに時間的に先行するレベルに与えられている番号よりも大きい。例えば、最も最近に生成されたレベルに値8が割り当てられる場合、次に新しく生成されるレベルは値9を割り当てられてよい。このようにして、レベル間の時間的関係を確立又は決定してよい。数値は厳密に順番でなくてもよいことは、理解できるであろう。更に、代替実施形態ではこの番号付けスキームを逆転してよく、これにより、より新しいレベルがより小さい数字による名称を有する。更に、他の実施形態は、レベル間の区別をつけるために数字でない名称を利用してよい。多数のこのような実施形態が可能であり、予期される。後の古いレベルはそれぞれ、前の新しいレベルの標識整数値から1だけ減少した標識を有する。図示していない別個のテーブルを用いてマッピングテーブルを論理的に記載してよい。例えばこの別個のテーブルの各エントリは、所定のレベルID及び所定のレベルID内に記憶されたページIDのリストを含んでよい。
新規のレコードの挿入のための新規の最高レベルを生成することによって、マッピングテーブルにこの新規のレコードを付加して更新する。一実施形態では、単一のレベルを新規の最高レベルとして生成し、各新規のレコードをこの単一のレベルに挿入する。別の実施形態では、マッピングテーブルへの挿入前に、複写キーについて新規のレコードを検索してよい。単一のレベルを新規の最高レベルとして生成してよい。複写キーを記憶した所定のレコードが見つかった場合、所定のレコードより前にバッファされた各レコードを上記単一のレベルに挿入してよい。要求を順序通りに完了する等のメモリ順序付けを保存するような様式でこの新規のレコードをバッファしてよい。そして別の単一のレベルを生成してよく、複写キーを記憶した別のレコードが見つからない場合は、新規のレコードの残り上記別の単一のレベルに挿入してよい。上述のようなレコードが見つかった場合は、これらのステップを繰り返す。新規のレコードのうちの1つと同一のキー値を記憶したマッピングテーブル内に存在するレコードは、新規のレコードの挿入によって原位置で編集される又は書き換えられることはない。
レベルのサイズについては、より低いレベルが新規のレベルより大きくなって増大するものとして図示しているが、より高いレベルが隣接するレベルより交互に大きく又は小さくなるようにしてもよい。マッピングテーブルに挿入する新規のレコードの数は時間を経ると変動し得、上下するレベルサイズを生成し得る。より低いレベルの平坦化により、より低いレベルは新規のレベルより大きくなり得る。特定の条件が検出された場合、2つ以上のより低いレベルを単一のレベルに平坦化してよい。更なる詳細を以下に示す。
マッピングテーブル内に記憶されたレコードに原位置での編集が行われない場合、より高いレベルに位置する新規のレコードは、より低いレベルに位置を定められたものと同一のキー値を記憶したレコードを無効にし得る。例えば、所定のキー値によってマッピングテーブルにアクセスする際、所定のキー値にマッチングするキー値を保持するレコードを記憶するための1つ又は複数のレベルが見つかり得る。このような場合、この1つ又は複数のレベルのうち最高のレベルを選択することによって、対応するレコードに記憶された情報をアクセスの結果として提供してよい。更なる詳細を以下に示す。更に、1つ又は複数の新規のレコードをマッピングテーブルに挿入するための検出される条件及び情報のストレージに関する更なる詳細を、以下に示す。
一実施形態では、所定のページ内のエントリはキーによってソートしてよい。例えば、エントリは、エントリが含むキーに従って昇順にソートしてよい。更に様々な実施形態において、あるレベル内のページも(例えばキー値に従って又はその他の方法で)ソートしてよい。図2の実施例では、レベルNのページ210aは、キー値に従って昇順にソートされたレコードを含む。様々な実施形態において、1つ又は複数の列を使用してキー値を記憶してよい。図2の実施例では、キー値を記憶するための各順組に2つの列又はフィールドが示されている。このようなキー値を利用して、レコードを所望の順序にソートしてよい。あるレコードに関するキー値のいずれ又はそのレコードに関するキー値のいずれの組み合わせに基づいてソートを実行してよい。図示した実施例では、第1のレコードは2つの列に記憶された0及び8を含むキー値を記憶しており、最後のレコードは12、33を含むキー値を記憶している。図示したこの実施例では、ページ210aの第1のレコードと最後のレコードとの間のソートされた各レコードは、第1の列に0〜12のキー値を記憶し、これらレコードは、第1の列に(少なくとも部分的に)基づいて0から12までの昇順にキー値を記憶するように配列される。同様に、ページ210bはソートされたレコードを含み、第1のレコードは12及び39のキー値を記憶しており、最後のレコードは31、19のキー値を記憶している。図示したこの実施例では、ページ210bの第1のレコードと最後のレコードとの間のソートされた各レコードは、第1の列に12〜31のキー値を記憶し、これらレコードは、12から31までの昇順にキー値を記憶するように配列される。
以上に加えて、レベルN内のページは所望の順序にソートされる。様々な実施形態において、あるレベル内のページは、ページ内のエントリがソートされる順序を反映した様式でソートしてよい。例えば、あるレベル内のページは、キー値に従って昇順にソートしてよい。ページ210bの第1のキー値はページ210aの最後のキー値より大きいため、ページ210bはソート順においてページ210aの後ろにある。よってページ210gは、ページ210a〜210f(図示せず)に含まれるエントリよりもキー値が大きいエントリを含むことになる。このようにして、あるレベル内の全てのエントリは従来のスキームに従ってソートされる。エントリはページ又は他のサイズ単位に単純に細分化される。希望に応じて他のソート用スキームを使用してもよいことは理解できるであろう。
ここで図3Aを参照すると、マッピングテーブルにアクセスするために使用する一次索引の一実施形態の一般化されたブロック図が示されている。キー生成器304は1つ又は複数の要求者データ入力302を受信してよい。一実施形態では、マッピングテーブルはアドレス変換ディレクトリテーブルである。所定の受信した読出し/書込み要求は、特定のボリューム、セクタ及び長さを識別してよい。キー生成器304は、ボリューム識別子(ID)、論理又は仮想アドレス、スナップショットID及びセクタ番号を含むクエリキー値306を生成してよい。他の組み合わせも可能であり、他の又は追加の値を同様に利用してよい。クエリキー値306の他の部分を、マッピングテーブル内で隣接していてもしていなくてもよい複数の列に記憶された値と比較してよい。図示した実施例では、説明の簡略化のためにキー値「22」を使用する。
上述のように、チャンキングアルゴリズム及び/又はキー生成器304に関連するセグメント化アルゴリズムの両方が、ストレージアクセス要求に対応するデータ302を受信してよい。これらのアルゴリズムは1つ又は複数のデータ構成要素を生成してよく、各データ構成要素ついて対応するハッシュ値又はクエリキー値306を算出するためのハッシュ関数を選択してよい。結果として生成されるハッシュ値を用いて、重複排除テーブルに索引をつけてよい。
図3Aに示すように、一次索引310は、ストレージデバイス176a〜176mに記憶されたデータに関する位置識別情報を生成してよい。例えば、再び図2を参照すると、対応する一次索引310(又はその一部)は、各レベル「1」、レベル「2」及びレベル「N」に論理的に含まれていてよい。また、各レベル及び各対応する一次索引は、ストレージデバイス176a〜176m内にランダムアクセス方式で物理的に記憶されていてよい。
一実施形態では、一次索引310を、パーティション312a、312bのようなパーティションに分割してよい。一実施形態では、パーティションのサイズは4キロバイト(KB)ページ〜256KBであるが、他のサイズも可能であり、予期される。一次索引310の各エントリはキー値を記憶してよい。更に各エントリは、対応一意仮想ページ識別子(ID)及びキー値に対応するレベルIDを記憶してよい。各エントリは、有効性情報等の対応するステータス情報を記憶してよい。クエリキー値で一次索引にアクセスした場合、キー値にマッチングするか又はそうでない場合はキー値に対応する1つ又は複数のエントリについて、索引310内のエントリを検索してよい。次に、マッチングするエントリからの情報を使用して、受信した読出し又は書込み要求の標的であるストレージ位置を識別するマッピングの位置を定め、取得してよい。言い換えると、インデックス310はマッピングの位置を識別する。一実施形態では、インデックス内でのヒットは、キー値及び対応する物理ポインタ値の両方を記憶するストレージデバイス176a〜176m内のページを識別する対応ページIDを提供する。対応ページIDで識別されたページをキー値で検索して、物理ポインタ値を得てよい。
図3Aの実施例では、受信した要求はキー「22」に対応する。このキーを使用して索引310にアクセスする。索引310の検索の結果、パーティション312b内のエントリへのヒットが得られる。この場合のマッチングするエントリは、ページ28及びレベル3のような情報を含む。この結果に基づいて、要求に対する所望のマッピングを、マッピングテーブルのレベル3内のページ28として識別されたページに見出す。この情報を用いて、所望のマッピングを取得するために、マッピングテーブルへのアクセスを行ってよい。一次索引310へのアクセスにストレージへのアクセスが必要である場合、所望のマッピングを得るために少なくとも2回のストレージアクセスが必要となることになる。従って、以下に説明する様々な実施形態において、一次索引の一部はキャッシュ化されるか、又は比較的高速なアクセスメモリに記憶され、これによってストレージデバイスへの1回のアクセスを削減する。様々な実施形態において、マッピングテーブルに対する全一次索引はキャッシュ化される。いくつかの実施形態では、一次索引がその全体をキャッシュ化するには大きすぎる場合、又は所望のものより大きい場合、キャッシュ内で二次、三次又はその他の索引部分を用いてそのサイズを低減してよい。二次タイプの索引について以下で議論する。以上に加えて、様々な実施形態において、最新のヒットに対応するマッピングページも、少なくともある程度の期間キャッシュ化される。このようにして、時間的局所性を有するアクセスを行うプロセスをより迅速に提供できる(即ち、現在アクセスされている位置は、そのマッピングをキャッシュ化されるか容易に利用可能とされることになる)。
ここで図3Bを参照すると、マッピングテーブルにアクセスするために使用するキャッシュ化された一次索引の一実施形態の一般化されたブロック図が示されている。図3Aに対応する回路及び論理部分には同一の番号が付けられている。キャッシュ化された一次索引314は、マッピングテーブルの複数のレベルに関する各一次索引310に記憶された情報のコピーを含んでよい。一次索引314は、RAM172、コントローラ174内のバッファ、メモリ媒体130及びプロセッサ122内のキャッシュのうちの1つ又は複数に記憶されていてよい。一実施形態では、一次索引314はキー値によってソートしてよいが、それ以外のソートも可能である。一次索引314はまた、パーティション316a、316b等のパーティションに分割してもよい。一実施形態では、パーティション316a、316bのサイズは、一次索引310内のパーティション312a、312bと同一のサイズであってよい。
一次索引310と同様に、一次索引314の各エントリは、キー値、対応一意仮想ページ識別子(ID)、キー値に対応するレベルID、及び有効性情報等のステータス情報のうちの1つ又は複数を記憶してよい。クエリキー値306で一次索引314にアクセスした場合、一次索引314は、キー値及び対応ポインタ値の両方を記憶するストレージデバイス176a〜176m内のページを識別する対応ページIDを伝達してよい。対応ページIDで識別されるページをキー値で検索して、ポインタ値を見出してよい。図示したように、一次索引314は同一のキー値を記憶する複数のレコードを有してよい。従って、所定のキー値に関する検索から複数のヒットが得られることがある。一実施形態では、レベルIDの最高値によるヒット(又は最も新しい又は最も最近のエントリを識別するためにどのようなインジケータを用いるか)を選択できる。複数のヒットからの1つのヒットのこのような選択は、ここでは図示していないマージ論理によって実行してよい。マージ論理の更なる説明は以下で行う。
ここで図4に移ると、マッピングテーブルにアクセスするために使用するマッピングテーブル及び一次索引の別の実施形態の一般化されたブロック図が示されている。図3Aと対応する回路及び論理部分には同一の番号が付けられている。マッピングテーブル340は、図2に示したマッピングテーブルと同様の構造を有してよい。しかしながら、各レベルに対する対応一次索引310のストレージについてはここには示さない。一次索引の部分310a〜310iのうちの1つ又は複数のコピーが、索引コピー330(例えばキャッシュ化されたコピー)に含まれていてよい。コピー330は、図3Bに示したキャッシュ化された索引に概ね対応してよい。索引コピー330内の情報は、RAM172、コントローラ174内のバッファ、メモリ媒体130及びプロセッサ122内のキャッシュに記憶されていてよい。図示した実施形態では、一次索引310a〜310i内の情報は、ストレージデバイス176a〜176m内のマッピングのページと共に記憶してよい。図示されている一次索引310i等の一次索引にアクセスするために使用してよい二次索引320も示されている。同様に、マッピングテーブル340へのアクセス及びマッピングテーブル340の更新は上述のように行われてよい。
マッピングテーブル340は、レベル「1」〜レベル「N」のような複数のレベルを備える。図示した実施例では、各レベルは複数のページを含む。レベル「N」はページ「0」〜「D」を含むものとして示されており、レベルN−1はページ「E」〜「G」を含み、以下同様である。ここでもまた、マッピングテーブル310内のレベルは時間によってソートしてよい。レベル「N」はレベル「N−1」より新しく、以下同様であってよい。少なくとも1つのキー値でマッピングテーブル340にアクセスしてよい。図示した実施例では、キー値「27」及びページIDの「32」でマッピングテーブル340にアクセスする。例えば一実施形態では、レベルID「8」を用いて、マッピングテーブル340の特定のレベル(又は「サブテーブル」)を識別して検索してよい。所望のサブテーブルを識別したら、ページIDを用いてサブテーブル内の所望のページを識別してよい。最後に、キーを用いて所望のページ内の所望のエントリを識別してよい。
上述のように、キャッシュ化された索引330へのアクセスによって複数のヒットが得られることがある。一実施形態では、これらの複数のヒットの結果を、どのヒットを使用してマッピングテーブル340にアクセスするかを識別するマージ論理350に提供する。マージ論理350は、ストレージコントローラ内に含まれるハードウェア及び/又はソフトウェアを表してよい。一実施形態では、マージ論理350は、最も最近の(最新の)マッピングに対応するヒットを識別するよう構成される。このような識別は、エントリに対する対応レベルの識別に基づくものであってもよいし、又はそれ以外のものであってもよい。図示した実施例では、レベル8、ページ32、キー27に対応するクエリを受信する。クエリに応答して、レベル8のページ32がアクセスされる。ページ32内でキー27が発見されると(ヒット)、対応する結果が返される(例えば図示した実施例のポインタxF3209B24)。ページ32内でキー27が発見されない場合、失敗の指標が返される。この物理ポインタ値は、マッピングテーブル340から出力され、これによってキー値「27」に対応するストレージアクセス要求を提供してよい。
一実施形態では、マッピングテーブル340はインラインマッピングをサポートする。例えば、十分に小さい標的を有することが検出されたマッピングは、ストレージデバイス176a〜176m内のユーザデータを記憶する実際の物理セクタを用いることなく表示できる。一実施例は、ユーザデータを用いない反復パターンであってよい。対応するマッピングは、ストレージデバイス176a内のユーザデータとして反復パターン(例えば一連のゼロ)の複数のコピーを実際に記憶するのではなく、マッピングテーブルのフィールド0〜フィールドNのうちの1つの中等、ステータス情報中に含まれた指標を含んでよく、この指標は、読出し要求に対してどのようなデータ値が返されるかを示す。しかしながら、このユーザデータの実際の記憶はストレージデバイス176a〜176m内の標的位置に存在しない。更に、指標を、一次索引310及び使用できるいずれの追加の索引(ここでは図示せず)のステータス情報内に記憶してよい。
以上に加えて、様々な実施形態において、ストレージシステムは、データ編成、ストレージスキーム等の複数のバージョンを同時にサポートしてよい。例えば、システムハードウェア及びソフトウェアが発展するにつれて、新たな特徴を組込まれ得るか、又はそうでない場合は新規の特徴がもたらされ得る。より新しくなる(例えば)データ、索引及びマッピング
これらの新たな特徴を利用してよい。図4の実施例では、新しいレベルNはシステムのあるバージョンに対応してよく、その一方でより古いレベルN‐1は過去のバージョンに対応してよい。これらの異なるバージョンを包括するために、そのレベルにおいていずれのバージョン、いずれの特徴、圧縮スキーム等が使用されているかを示すメタデータを、各レベルに関連して記憶してよい。このメタデータは索引の一部、ページ自体又はこれらの両方として記憶できる。アクセスを行う際、このメタデータは、データを適切に取り扱う方法を示す。更に、新たなスキーム及び特徴を、システムを休止させる必要なく動的に適用できる。このようにして、システムのアップグレードはより柔軟になり、より新しいスキーム及びアプローチを反映するための古いデータの再構成は必要なくなる。
ここで図5Aに移ると、読出しアクセスを提供するための方法の一実施形態が示されている。上述のネットワークアーキテクチャ100及びマッピングテーブル340において具現化される構成要素は通常、方法500に従って動作してよい。議論を目的として、この実施形態のステップを順序通りに示す。しかしながら、いくつかのステップは図示したものと異なる順序で行われてよく、いくつかのステップは同時に実行されてよく、いくつかのステップは他のステップと組み合わせてよく、またいくつかのステップは別の実施形態には存在しなくてよい。
読出し及び記憶(書込み)要求を、クライアント110a〜110cのうちの1つから、データストレージアレイ120a、120bのうちの1つへと伝達してよい。図示した実施例では、読出し要求500は受信され、ブロック502において対応するクエリキー値を生成してよい。いくつかの実施形態では、要求自体が、索引にアクセスするために使用されるキーを含んでよく、キーの「生成」502は不要である。既に述べたように、クエリキー値は、ボリュームID、受信した要求に関連する論理又は仮想アドレス、スナップショットID、セクタ番号等を備える仮想アドレス索引であってよい。重複排除のために使用される実施形態では、ハッシュ関数又は他の関数を用いてクエリキー値を生成してよい。マッピングテーブルにアクセスするために使用するクエリキー値に関しては他の値も可能であり、予期される。
ブロック504では、クエリキー値を用いて1つ又は複数のキャッシュ化された索引にアクセスし、キー値に対応するマッピングを記憶してよいマッピングテーブルの1つ又は複数の部分を識別してよい。更に、現在使用されているキャッシュ化されたマッピングを同様に検索してよい。キャッシュ化されたマッピング上でヒットを検出した場合(ブロック505)、キャッシュ化されたマッピングを用いて、要求されたアクセスを実行してよい(ブロック512)。キャッシュ化されたマッピング上にヒットが存在しない場合、キャッシュ化された索引上にヒットが存在するかどうかに関する決定を行ってよい(ブロック506)。このような場合、ヒットに対応する結果を用いて、マッピングテーブルを識別してこれにアクセスする(ブロック508)。例えば一次索引310と共に、クエリキー値を記憶するエントリはまた、マッピングテーブル内の単一の特定のページを識別する一意仮想ページIDを記憶してよい。この単一の特定のページは、クエリキー値及び関連する物理ポインタ値の両方を記憶してよい。ブロック508では、マッピングテーブルの識別された部分にアクセスしてよく、クエリキー値を用いて検索を実行してよい。その後マッピングテーブルの結果を戻してよく(ブロック510)、これを用いて、元の読出し要求の標的位置に対応するストレージアクセスを実行してよい(ブロック512)。
いくつかの実施形態では、読出し要求に対する索引クエリは失敗する場合がある。このような失敗は、索引の一部分しかキャッシュ化されていないこと又はエラー状態(例えば存在しない位置への読出しアクセス、アドレス破損等)が原因であり得る。このような場合、記憶された索引へのアクセスを実行してよい。記憶された索引へのアクセスによってヒットが得られる場合(ブロック520)、この結果を返してよく(ブロック522)、これを用いてマッピングテーブルにアクセスする(ブロック508)。一方、記憶された索引へのアクセスが失敗した場合、エラー状態が検出され得る。エラー状態に対する処置は、様々な望ましい方法のいずれを用いて行ってよい。一実施形態では、例外を生成してよく(ブロック524)、これを所望のとおりに処置する。一実施形態では、マッピングテーブルの一部はブロック510において戻される。様々な実施形態において、この部分は4KBページであってよいページであってよく、又はそれ以外のものであってもよい。上述のように、ページ内のレコードをソートして、レコードが含むコンテンツのより速い検索を促進してよい。
一実施形態では、マッピングテーブルは、各ページの情報ストレージのための、従来のデータベースシステム方法を利用する。例えば、マッピングテーブル内の各レコード(又は行又はエントリ)を交互に記憶する。このアプローチは、行指向型データベース又は行記憶型データベースにおいて及び相互関係データベースと共に使用してよい。これらのタイプのデータベースは、値ベースのストレージ構造を利用する。値ベースのストレージ(value−based storage:VBS)アーキテクチャは、一意データ値を一回のみ記憶し、自動生成索引システムが全ての値のためのコンテキストを維持する。様々な実施形態において、データは行によってソートしてよく、行の中の列(フィールド)に対して圧縮を使用してよい。いくつかの実施形態では、使用される技術は、ベース値を記憶すること、並びにオフセットのためのより小さいフィールドサイズを有すること及び/又はベース値のセットを有することを含んでよく、行の中の列は、ベースセレクタ及びベースからのオフセットからなる。どちらの場合においても、圧縮情報をパーティション内に(例えば開始時に)記憶してよい。
いくつかの実施形態では、マッピングテーブルは、各ページの情報ストレージのための、列指向型データベースシステム(列記憶型)方法を利用する。列記憶は、各データベーステーブル列を別個に記憶する。更に、同一の列に属する属性値を、連続して記憶してよく、圧縮してよく、及び高密度にパックしてよい。従って、例えばページ内等のテーブルの列のサブセットの読出しを、比較的迅速に実行できる。列データは均一タイプのものであってよく、また、行志向型データでは利用できない、使用するストレージサイズの最適化を可能とすることができる。Lempel−Ziv−Welch(LZ)及びランレングス符号化(RLE)等のいくつかの圧縮スキームは、隣接するデータの検出された類似点を圧縮に利用する。ページ内の個々のレコードを識別及び索引付けできるような圧縮アルゴリズムを選択してよい。マッピングテーブル内のレコードを圧縮することによって、微粒度マッピングを可能にすることができる。様々な実施形態において、データの特定の部分に対して使用される圧縮のタイプを、データと関連して記憶してよい。例えば、圧縮のタイプを、圧縮データと同一のページの一部として索引に(例えば何らかのタイプのヘッダに)記憶でき、又はそれ以外の様式で記憶できる。このようにして、複数の圧縮技術及びアルゴリズムを、ストレージシステム内で並行して用いてよい。更に、様々な実施形態において、ページデータを記憶するために使用される圧縮のタイプは、データを記憶する際に動的に決定してよい。一実施形態では、様々な圧縮技術のうちの1つを、圧縮しようとするデータの性質及びタイプに少なくとも部分的に基づいて選択してよい。いくつかの実施形態では、複数の圧縮技術を実行し、その後最も良好な圧縮を示す圧縮技術を選択して、データの圧縮に使用する。数多くのこのようなアプローチが可能であり、予期される。
マッピングテーブルのレベルのうちのいずれかに発見されるクエリキー値306のマッチングが存在する場合(ブロック508)、ブロック510において、ヒットの1つ又は複数の指標をマージ論理350に伝達してよい。例えば、1つ又は複数のヒット指標を、図4に示すようにレベル「1」から「J」へと伝達してよい。マージ論理350は、ヒット指標を伝達するレベル「1」〜「J」の最高レベルを選択してよく、このレベルは最も新しいレベルであってもよい。選択されたレベルは、アクセスの結果として対応するレコードに記憶される情報を提供してよい。
ブロック512では、選択したページのマッチングするレコード内の1つ又は複数の対応するフィールドを読出して、対応する要求を処理してよい。一実施形態では、ページ内のデータは圧縮されたフォーマットで記憶され、ページが復元され、対応する物理ポインタ値が読出される。別の実施形態では、マッチングするレコードだけが復元され、対応する物理ポインタ値が読出される。一実施形態では、全物理ポインタ値を、マッピングテーブルと対応する標的物理位置との間で分割してよい。こうして、ユーザデータを記憶する複数の物理位置にアクセスして、データストレージアクセス要求を完了してよい。
ここで図5Bに移ると、受信した読出し要求に対応する方法の一実施形態が示されている。受信した読出し要求に応じて(ブロック530)、この要求に対応する新たなマッピングテーブルエントリを生成してよい(ブロック532)。一実施形態では、書込み要求の仮想アドレスを対応するデータ構成要素を記憶する物理位置と組にするマッピングテーブルに、新たな仮想−物理アドレスマッピングを加えてよい(ブロック534)。様々な実施形態において、新たなマッピングを他の新たなマッピングによってキャッシュ化してよく、これをマッピングテーブルエントリの新たな最高レベルに加えてよい。次に、持続的ストレージへの書込み操作(ブロック536)を実行してよい。様々な実施形態において、持続的ストレージのマッピングテーブルへの新たなマッピングエントリの書込みは、より効率的であると思われる後の時点まで実行しなくてよい(ブロック538)。上述のように、ソリッドステートストレージデバイスを用いるストレージシステムでは、ストレージへの書込みはストレージからの読出しよりも大幅に遅い。従って、ストレージへの書込みは、システム全体の性能に対する影響を最小化するような方法で計画される。いくつかの実施形態では、マッピングテーブルへの新たなレコードの挿入は、他のより大きなデータの更新と組み合わせてよい。このようにして更新を組み合わせることにより、より効率的な書込み操作を提供できる。議論を簡略化するために、図5Bの方法では、本明細書に記載の各方法と同様に、複数の操作を特定の順序で行うものとして説明していることに留意されたい。しかしながら、これらの操作は実際には異なる順序で行ってよく、場合によってはこれらの操作のうちの何らかの操作を同時に行ってもよい。このような全ての実施形態が考えられる。
以上に加えて、いくつかの実施形態では重複排除機構を用いてよい。図5Bは、重複排除システム及び方法に一般に対応し得る操作550を示す。図示した実施例では、受信した書込み要求に対応するハッシュ値を生成し(ブロック540)、これを使用して重複排除テーブルにアクセスする(ブロック542)。重複排除テーブル内でヒットが存在する(即ちシステム内にデータのコピーが既に存在する)場合(ブロック544)、新たなエントリを重複排除テーブルに加えて(ブロック548)、新たな書込みを反映させてよい。このような場合、データ自体をストレージに書込む必要はなく、受信した書込みデータは破棄してよい。代替として、重複排除テーブルで失敗した場合、新たなデータのための新たなエントリが生成され、重複排除テーブルに記憶される(ブロック546)。更に、ストレージへのデータの書込みを実行する(ブロック536)。更に、索引において新たなエントリを生成して、新たなデータを反映して良い(ブロック538)。いくつかの実施形態では、インライン重複排除操作中に失敗が発生した場合、この時には重複排除テーブルへの挿入は実行されない。寧ろ、インライン重複排除操作中、全重複排除テーブルのうちの一部分(例えば重複排除テーブルのキャッシュ化された部分)のみに対してハッシュ値を有するクエリを生成してよい。失敗が発生した場合、新たなエントリを生成してキャッシュに記憶させてよい。続いて、ガベージコレクション中に行われる操作等の後処理重複排除操作中、全重複排除テーブルに対してハッシュ値を有するクエリを生成してよい。失敗は、ハッシュ値が一意ハッシュ値であることを示し得る。従って、ハッシュ−物理ポインタマッピング等の新たなエントリを、重複排除テーブルに挿入してよい。代替として、後処理重複排除中にヒットが検出される(即ち重複が検出される)場合、重複排除を実行して、検出されたコピーのうちの1つ又は複数を削除してよい。
ここで図6を参照すると、共有マッピングテーブルを有するマルチノードネットワークの一実施形態の、一般化されたブロック図が示されている。図示した実施例では、3つのノード360a〜360cを用いて、マッピングノードのクラスタを形成する。一実施形態では、各ノード360a〜360cは、1つ又は複数の論理装置番号(LUN)を担当してよい。図示した実施形態では、多数のマッピングテーブルレベル、即ちレベル1〜Nが示されている。レベル1は最も古いレベルに対応してよく、レベルNは最新のレベルに対応してよい。特定のノードが管理するLUNのマッピングテーブルエントリについて、この特定のノード自体が、このノード自体に記憶されたより新しいエントリを有してよい。例えばノード360aは、マッピングサブテーブル362a、364aを記憶するものとして示されている。これらのサブテーブル362a、364aは、ノード360aが一般に担当するLUNに対応してよい。同様に、ノード360bは、このノードが管理するLUNに対応してよいサブテーブル362b、364bを含み、ノード360cは、このノードが管理するLUNに対応してよいサブテーブル362c、364cを含む。このような実施形態では、これらの「より新しい」レベルのマッピングテーブルエントリは、それらに対応する管理ノードによってのみ維持され、一般に他のノード上には見られない。
上述の相対的に新しいレベルとは対照的に、より古いレベル(即ちレベルN−2からレベル1まで)は、全てのノード360a〜360cが共有し得るマッピングテーブルエントリを表し、上記共有とは、これらのノードのうちのいずれがこれらのエントリのコピーを記憶してよいという意味である。図示した実施例では、これらのより古いレベル370、372、374はまとめて、共有テーブル380として識別される。更に、上述のように、様々な実施形態においてこれらのより古いレベルは、後に議論するマージ又は同様の操作は別として、静的である。一般に、静的な層とは、修正を受けない(即ち「固定されている」)層のことである。このようなレベルがこの意味で固定されている場合、これら低いレベルのいずれのコピーへのアクセスは、複数のコピーのうち別のものが修正されたかどうか又は修正中であるかどうかに関係なく行うことができる。従って、ノードのうちのいずれは、共有テーブル380のコピーを安全に記憶してよく、これらのテーブルへの要求を、この要求を適切に処理できるという確信を持って処理できる。共有テーブル380を複数のノード360に記憶させることにより、ルックアップを実行する際及びそれ以外の要求を処理する際、様々な負荷平衡化スキームを使用できるようにすることができる。
以上に加えて、様々な実施形態において、共有されていてよいレベル380は、ノード360自体を反映するような様式で編成してよい。例えば、ノード360aはLUN1、2を担当してよく、ノード360bはLUN3、4を担当してよく、ノード360cはLUN5、6を担当してよい。様々な実施形態において、マッピングテーブルエントリは、それ自体が対応するLUNを識別する順組を含んでよい。このような実施形態では、共有マッピングテーブルを、キー値、ストレージスペースの絶対幅若しくは量、又はその他に従ってソートしてよい。レベル380におけるマッピングテーブルエントリのソートが部分的にLUNに基づくものである場合、エントリ370aはLUN1、2に対応してよく、エントリ370bはLUN3、4に対応してよく、エントリ370cはLUN5、6に対応してよい。このような編成は、検索する必要があるデータの量を効果的に削減して、特定のLUNを担当するノードを要求の標的としてコーディネータが直接選択できるようにすることにより、特定のLUNを標的とする要求に対する所定のノードによるルックアップの速度を向上できる。これらの及びその他の編成及びソートスキームも可能であり、そのような場合も考えられる。更に、LUNの担当があるノードから別のノードへと移行することが望ましい場合、そのノードに関する元々のノードマッピングを共有レベルに書出して(そして例えばマージして)よい。LUNの担当は、このLUNに対処している新たなノードに移行する。
ここで図7を参照すると、マッピングテーブルにアクセスするために使用する二次索引の一実施形態の一般化されたブロック図が示されている。既に述べたように、キー生成器304が要求者データ入力302を受信してよく、このキー生成器304はクエリキー値306を生成する。クエリキー値306を用いてマッピングテーブルにアクセスする。いくつかの実施形態では、図3に示す一次索引310は、RAM172又はメモリ媒体130に記憶するには大きすぎる(又は望ましい大きさより大きい)場合がある。例えば、インデックスのより古いレベルは、図10、11において後で説明するマージ及び平坦化操作によって極めて大きくなっている場合がある。従って、一次索引310の対応する部分の代わりに、一次索引の少なくとも一部分に対して二次索引320をキャッシュ化してよい。二次索引320は、ストレージデバイス176a〜176mに記憶されたデータの、より粗レベルの粒度の位置識別を提供し得る。従って二次索引320は、これが対応する一次索引310の部分に比べて小さくなり得る。従って、二次索引320をRAM172又はメモリ媒体130に記憶できる。
一実施形態では、二次索引320はパーティション322a、322b等のパーティションに分割される。更に、より最近のレベルが最初に現れるように、レベルに従って二次索引を編成してよい。一実施形態では、より古いレベルは小さな番号を有し、より新しいレベルは大きな番号を有する(例えばレベルIDは、新たなレベルそれぞれについて増大してよい)。二次索引320の各エントリはキー値の範囲を識別してよい。例えば、本実施例に示す第1のエントリは、レベル22の0〜12のキー値範囲を識別してよい。これらのキー値は、一次索引310の所定のページ内の第1のレコード及び最後のレコードに関連するキー値に対応してよい。言い換えると、二次索引のエントリは、キー0の識別及びキー12の識別だけを記憶することによって、対応するページがこの範囲内のエントリを含むことを示してよい。再び図3Aを参照すると、パーティション312aはページであってよく、その第1のレコード及び最後のレコードのキー値はそれぞれ0、12である。従って、二次索引320内のあるエントリは、図7に示すように範囲0〜12を記憶する。再マッピングはマッピングテーブル内のレベルに維持されるため、キー値の範囲は複数のページ及び関連するレベルに対応してよい。図7に示すように、二次索引320内のフィールドはこの情報を記憶してよい。各エントリは、キー値の範囲に対応する1つ又は複数の対応一意仮想ページ識別子(ID)及び関連するレベルIDを記憶してよい。各エントリはまた、有効性情報等の対応するステータス情報も記憶してよい。維持されているページID及び関連するレベルIDのリストは、所定のクエリキー値がどこに記憶され得るかを示すことができるが、そのキー値がそのページ及びレベルに存在することを確認することはできない。二次索引320は一次索引310より小さいが、ストレージデバイス176a〜176mに記憶されたデータの、より粗レベルの粒度の位置識別を有する。二次索引320はRAM172又はメモリ媒体130に記憶できる程度に十分に小さくてよい。
クエリキー値306を用いて二次索引320にアクセスすると、1つ又は複数の対応するページID及び関連するレベルIDを伝達できる。このような結果を用いて、記憶された一次索引の一部にアクセスしてこれを引き出す。そして、クエリキー値を用いて1つ又は複数の識別されたページを検索し、物理ポインタ値を見つけ出してよい。一実施形態では、レベルIDを用いて、識別された1つ又は複数のレベル(これもまたクエリキー値306を記憶している)のうちの最も新しいレベルを決定してよい。こうして対応するページ内のレコードを取得でき、ストレージアクセス要求を処理するために物理ポインタ値を読出すことができる。図示した実施例では、クエリキー値27はキーの範囲16〜31内にある。対応するエントリに記憶されたページID及びレベルIDは、クエリキー値と共にマッピングテーブルへと伝達される。
ここで図8を参照すると、マッピングテーブルにアクセスするために使用する三次索引の一実施形態の一般化されたブロック図が示されている。図4に対応する回路及び論理部分には同一の番号が付けられている。上述のように、図3に示した一次索引310は、RAM172又はメモリ媒体130に記憶するには大きすぎる場合がある。更に、マッピングテーブル340が大きくなるにつれて、二次索引320もまたこれらのメモリに記憶するには大きくなりすぎる場合がある。従って、二次索引320の前に三次索引330にアクセスしてよく、これは一次索引310にアクセスするより更に早くなり得る。
三次索引330は、ストレージデバイス176a〜176mに記憶されたデータの二次索引320による位置識別よりもより粗レベルの粒度を提供し得る。従って、三次索引330は、これが対応する二次索引320の部分よりも小さくなり得る。一次索引310、二次索引320、三次索引330等はそれぞれ、圧縮フォーマットで記憶されてよい。選択される圧縮フォーマットは、マッピングテーブル340内に情報を記憶するために使用する圧縮フォーマットと同一であってよい。
一実施形態では、三次索引330は、パーティション332a、332b等の複数のパーティションを含んでよい。クエリキー値306を用いて三次索引330にアクセスしてよい。図示した実施例では、「27」であるクエリキー値306が0〜78のキー値の範囲にあることがわかる。三次索引330の第1のエントリはこのキー値範囲に対応する。三次索引330の列は、二次索引320内のどのパーティションにアクセスするかを示してよい。図示した実施例では、0〜78の範囲のキー値は二次索引320内のパーティション0に対応する。
フィルタ(図示せず)にアクセスして、索引310〜330のうちのいずれか1つの中にクエリキー値がないかどうかを決定してよいことにも留意されたい。このフィルタは、ある要素があるセットの構成要素であるかどうかを決定する確率的データ構造であってよい。誤って検知してしまうことは起こり得るが、誤って検知できないことは起こり得ない。このようなフィルタの一例はブルームフィルタである。このようなフィルタのアクセスによって、特定の値が全索引142に存在しないことが決定された場合、ストレージにクエリが送信されない。このフィルタのアクセスによって、クエリキー値が対応する索引に存在することが決定された場合、対応する物理ポインタ値がストレージデバイス176a〜176mに記憶されているかどうかは不明であり得る。
以上に加えて、様々な実施形態において、1つ又は複数のオーバレイテーブルを用いて、クエリに応答してマッピングテーブルによって提供される順組を修正又は削除してよい。このようなオーバレイテーブルを用いて、マッピングテーブルへのアクセスに応答して又は新たなレベルの生成時に平滑化操作中に使用するためのフィルタリング条件を適用して良い。様々な実施形態において、他のハードウェア及び/又はソフトウェアを用いてフィルタリング条件を適用してよい。いくつかの実施形態では、オーバレイテーブルは、上述のマッピングテーブルと同様の様式で、時間に関して順序付けられたレベルとして編成してよい。他の実施形態では、異なる様式で編成してよい。オーバレイテーブルのためのキーは、その下層のマッピングテーブルのキーにマッチングする必要はない。例えば、オーバレイテーブルは、特定のボリュームが削除されたこと又はそうでない場合はアクセス不可能である(例えばこの順組に問い合わせを行うための通常のアクセス経路が存在しない)こと、及びその代わりにそのボリューム識別子を参照する順組に対応するクエリに対する応答が無効となっていることを表す、単一のエントリを含んでよい。別の実施例では、オーバレイテーブルのエントリは、ストレージ位置が自由となっていること、及びこのストレージ位置を参照するいずれの順組が無効となっており、マッピングテーブルが用いるキーではなくルックアップの結果が無効化されることを示してよい。いくつかの実施形態では、オーバレイテーブルは、その下層のマッピングテーブルへのクエリに応答してフィールドを修正してよい。いくつかの実施形態では、キー範囲(キー値の範囲)を用いて、同一の操作(削除又は修正)が行われる複数の値を効率的に識別してよい。このようにして、オーバレイテーブルに「削除」エントリを生成することにより、マッピングテーブルを修正することなく、マッピングテーブルから順組を(効果的に)削除してよい。この場合、オーバレイテーブルは、関連する非キーデータフィールドを有さないキーを含んでよい。
ここで図9に移ると、マッピング及びオーバレイテーブルを含むシステムにおいて読出し要求を処理するための方法の一実施形態が示されている。読出し要求の受信に応答して(ブロック900)、この要求に対応するマッピングテーブルキー(ブロック908)及び第1のオーバレイテーブルキー(ブロック902)が生成される。この実施例では、オーバレイ及びマッピングテーブルへのアクセスは同時に行われるものとして示されている。しかしながら他の実施形態では、これらテーブルへのアクセスはいずれの所望の順序で、非同時に(例えば順次、又はそうでなければ時間的に離間して)実行してよい。マッピングテーブルについて生成されたキーを用いて、対応する順組をマッピングテーブルから取得してよい(ブロック910)。第1のオーバレイテーブルは、オーバレイテーブルキーに対応する「削除」エントリを含み(条件ブロック906)、マッピングテーブル内に見られるいずれの順組は無効と考えられ、この効果に関する指標を要求者に返してよい。一方、オーバレイテーブルが、オーバレイテーブルキーに対応する「修正」エントリを含む場合(条件ブロック912)、第1のオーバレイテーブルエントリの値を用いて、マッピングテーブルから取得した順組の1つ又は複数のフィールドを修正してよい(ブロック922)。このプロセスを行うと、マッピングテーブルからの順組(これが修正されているかいないかに関わらず)に基づいて、第2のオーバレイテーブルキーが生成され(ブロック914)、第1のオーバレイテーブルと同一のテーブルであってもなくてもよい第2のオーバレイテーブルで第2のルックアップが行われる(ブロック916)。第2のオーバレイテーブルに「削除」エントリが見られる場合(条件ブロック920)、マッピングテーブルからの順組は無効と見做される(ブロック918)。第2のオーバレイテーブルに「修正」エントリがみられる場合、マッピングテーブルからの順組のうちの1つ又は複数を修正してよい(ブロック926)。このような修正は、順組を落とすこと、順組を標準化すること等を含んでよい。修正された順組を要求者に返してよい。第2のオーバレイテーブルが修正エントリを含まない場合(条件ブロック924)、順組を修正しないまま要求者に返してよい。いくつかの実施形態では、1つ又は複数のオーバレイテーブルの少なくともある程度の部分をキャッシュ化して、これらのコンテンツへのより迅速なアクセスを提供してよい。様々な実施形態において、第1のオーバレイテーブルの検知された削除エントリは、いずれの他の対応するルックアップ(例えばブロック914、916等)を短絡する役割を果たし得る。他の実施形態では、アクセスを並行して実行して「競争」させてよい。数多くのこのような実施形態が可能であり、予期される。
ここで図10に移ると、マッピングテーブル内のレベルに関する平坦化操作の一実施形態の一般化されたブロック図が示されている。様々な実施形態において、平坦化操作は、1つ又は複数の条件の検出に応答して実行してよい。例えば、時間の経過と共に新たなレコードの挿入によってマッピングテーブル340が大きくなり、複数のレベルを包括するにつれて、クエリキー値についてより多くのレベルを検索するためのコストは不必要に高くなり得る。検索するレベルの数を制限するために、複数のレベルを単一の新たなレベルに平坦化してよい。例えば、論理的に隣接した又は時間的に連続した2つ以上のレベルを、平坦化操作のために選択してよい。2つ以上のレコードが同一のキー値に対応する場合、新たな「平坦化された」レベルには最新のレコードを保持し、それ以外のレコードは含めなくてよい。このような実施形態では、この新たに平坦化されたレベルは、所定のキー値に関する検索に関して、対応する複数のレベルの検索によって得られるはずのものと同一の結果を返すことになる。新たな平坦化されたレベルの検索の結果が、このレベルによって置換された2つ以上のレベルと比較して変化しないため、平坦化操作をマッピングテーブルの更新操作と同期させる必要はない。言い換えると、あるテーブルにおける平坦化操作は、そのテーブルに対する更新と非同期的に実行してよい。
上述のように、より古いレベルは、それらのマッピングが修正されていない(即ちAからBへのマッピングが変化しないまま残っている)という意味において固定されている。従って、平坦化されているレベルに対する(例えばユーザの書込みによる)修正は行われておらず、レベルの同期ロックは不要である。更に、各ノードが索引のより古いレベルのコピーを記憶できる(例えば図6に関連して上述したような)、ノードをベースとしたクラスタ環境では、平坦化操作をある1つのノードに対して、他のノードの対応するレベルをロックする必要なしに行ってよい。従って、複数のノードのうちのいずれかに対して非同期的に平坦化を行っている間、処理を全てのノードにおいて継続してよい。後の時点において、他のノードはレベルを平坦化してよく、又は既に平坦化されたレベルを用いてよい。一実施形態では、平坦化されたレベルを形成するために使用された2つ以上のレベルを、エラー修復、ミラーリング又はその他の目的のために保持してよい。以上に加えて、様々な実施形態において、削除されたレコードは、新たなレベルに再挿入しなくてよい。上述の平坦化は例えば、マッピングテーブルのレベルの数が所定の閾値に達したことが検出された場合に、これに応答して実行してよい。代替として、平坦化は、1つ又は複数のレベルのサイズが閾値を超えたことが検出された場合に、これに応答して実行してよい。考慮できる更に別の条件は、システム上の負荷である。レベルを平坦化するかどうかの決定は、これらの条件を独立して考慮することに加えて、これらの条件を組み合わせて考慮してよい。平坦化を行うかどうかの決定はまた、条件に関する現在の値及び条件に関して将来予測される値の両方を考慮してもよい。平坦化を実行できる他の条件も可能であり、予期される。
図示した実施例では、レコードは単にキーとポインタとの組として示されている。図示を簡略化するために、ページは4つのレコードを含むものとして示されている。平坦化操作に関して、レベル「F」及びその次の論理的に連続した隣接するレベル「F−1」を考慮してよい。レベル「F」は、レベル「F−1」よりも新しくてよい。ここでは2つのレベルを平坦化するものとして示すが、3つ以上のレベルを選択して平坦化することも可能であり、予期される。図示した実施例では、レベル「F−1」はレベル「F」に見られるものと同一のキー値を記憶したレコードを有してよい。両方向矢印を用いて、2つの連続したレベルにわたって同一のキー値を記憶するレコードを識別する。
新たなレベル「New F」は、レベル「F」及びレベル「F−1」に見られる重複キー値に対応するキーを含む。更に、新たなレベル「New F」は、この重複キー値を記憶するレコードのうち最新の(又はこの場合より新しい)レコードに対応するポインタ値を含む。例えば、レベル「F」及びレベル「F−1」はそれぞれ、キー値4を記憶するレコードを含む。より新しいレコードはレベル「F」にあり、このレコードはポインタ値512も記憶している。従ってレベル「F−1」は、キー値4と、より古いレベル「F−1」に見られるポインタ値656ではなくポインタ値512とを記憶するレコードを含む。更に、新たなレベル「New F」は、レベル「F」とレベル「F−1」との間に見られる一意キー値を有するレコードを含む。例えばレベル「F−1」は、レベル「F」に見られるキー6とポインタ246との組及びレベル「F−1」に見られるキー2とポインタ398との組を有するレコードを含む。図示したように、レベル内の各ページはキー値によってソートされる。
上述のように、様々な実施形態において、オーバレイテーブルを用いてその下層のマッピングテーブルのキー値に対応する順組を修正又は削除してよい。このような1つ又は複数のオーバレイテーブルは、マッピングテーブルと同様の様式で管理してよい。例えば、オーバレイテーブルを平坦化して、スペースの節約のために隣接するエントリをマージしてよい。代替として、マッピングテーブルを管理するために使用した方法と異なる方法でオーバレイテーブルを管理してよい。いくつかの実施形態では、オーバレイテーブルは、オーバレイテーブルキーの範囲を表す単一のエントリを含んでよい。このようにして、オーバレイテーブルのサイズを制限できる。例えば、マッピングテーブルがk個の有効なエントリを含む場合、(平坦化後の)オーバレイテーブルは、マッピングテーブルの有効なエントリ間の間隔に対応する、範囲を無効なものとして示すk+1個以下のエントリを含む必要がある。従って、オーバレイテーブルを用いて、マッピングテーブルから落としてよい順組を比較的効率のよい様式で識別してよい。以上に加えて、上述の議論ではオーバレイテーブルを用いて1つ又は複数のマッピングテーブルからの要求に対する応答を削除又は修正することについて記載したが、オーバレイテーブルを用いて、マッピングテーブルの平坦化操作中に値を削除又は修正してもよい。従って、マッピングテーブルの平坦化操作中に新たなレベルを生成する場合、この新たなレベルに挿入されるはずであったキー値を削除してよい。代替として、新たなレベルへの挿入前に値を修正してよい。このような修正の結果として、マッピングテーブルのキー値の所定の範囲に対応する単一のレコードを、それぞれ元のレコードのサブ範囲に対応する複数のレコードで(新たなレベルにおいて)置換してよい。更に、あるレコードを、より小さい範囲に対応する新たなレコードで置換してよく、又は複数のレコードを、元のレコードの全範囲を包括する範囲を有する単一のレコードで置換してよい。このような全ての実施形態が考えられる。
ここで図11を参照すると、マッピングテーブル内のレベルの平坦化操作の実施形態の、一般化されたブロック図が示されている。既に議論したように、レベルは時系列順であってよい。図示した実施例では、1つ又は複数の索引及び対応するマッピングを含むレベル「F」は、より古いレベル「F−1」の論理的に上側に位置している。またレベル「F」は、より新しいレベル「F+1」の論理的に下側に位置している。同様に、レベル「F−2」は、より新しいレベル「F−1」の論理的に下側に位置し、レベル「F+2」はより古いレベル「F+1」の論理的に上側に位置している。一実施例では、レベル「F」、「F−1」に関する平坦化操作を考えてよい。両方向矢印を用いて、2つの連続したレベルにわたる同一のキー値を記憶するレコードが存在することを示す。
既に述べたように、新たなレベル「New F」は、レベル「F」及びレベル「F−1」に見られる重複キー値に対応するキー値を含む。更に新たなレベル「New F」は、重複キー値を記憶するレコードのうちの最新の(又はこの場合より新しい)レコードに対応するポインタ値を含む。平坦化操作が完了しても、レベル「F」及びレベル「F−1」をマッピングテーブルからすぐに除去しなくてよい。また、ノードをベースとするクラスタでは、各ノードは、レベル「New F」のような新たな単一のレベルが利用できる状態になっていること、及びこの新たなレベルが置換した2つ以上のレベル(レベル「F」及びレベル「F−1」等)をもはや使用しないことを確認できる。この確認は、新たなレベルによる置換を行う前に実行してよい。一実施形態では、レベル「F」及びレベル「F−1」等の2つ以上の置換されるレベルを、エラー修復、ミラーリング又はその他の目的のために保持してよい。レベル及びそのマッピングの時系列順を維持するために、新たな平坦化されたレベルFは、より新しいレベル(例えばレベルF+1)の下側、かつこのレベルFが置換する元のレベルの上側(レベルF及びレベルF−1)に論理的に配置される。
ここで図12に移ると、マッピングテーブル内のレベルを平坦化するための方法1000の一実施例が示されている。ネットワークアーキテクチャ100及び上述のマッピングテーブル340内に具現化された構成要素は一般に、本方法1000に従って動作してよい。議論を目的として、この実施形態の複数のステップを順序通りに示す。しかしながら、いくつかのステップは図示したものと異なる順序で行われてよく、いくつかのステップは同時に実行されてよく、いくつかのステップは他のステップと組み合わせてよく、またいくつかのステップは別の実施形態には存在しなくてよい。
ブロック1002では、マッピングテーブル及び対応する索引にストレージスペースを割り当てる。ブロック1004では、マッピングテーブル内の2つ以上のレベルを平坦化するための1つ又は複数の条件が決定される。例えば、マッピングテーブル内のレベルの現在の数を検索するためのコストは、平坦化操作を実行するためのコストよりも高くなり得る。更にコストは、平坦化される構造内のレベルの現在の(又は予測される)数、1つ又は複数のレベル内のエントリの数、削除又は修正されることになるマッピングエントリの数及びシステムの負荷のうちの少なくとも1つに基づいてよい。コストはまた、対応する操作を実行するための時間、1つ又は複数のバスの占有、対応する操作中に使用されるストレージスペース、何らかの閾値に到達する一連のレベル内の重複エントリの数等を含む。更に、各レベル内のレコードの数の計数を用いて、2つの連続したレベルに対して実行される平坦化操作が、1つ次の又は1つ前のレベル内のレコードの数の2倍に等しい数のレコードを有する新たな単一のレベルを生成し得る時点を推定してよい。単独又はいずれの組み合わせで考えられるこれらの条件及びその他の条件が可能であり、予期される。
ブロック1006では、データを記憶して新たなマッピングを見つけるために、索引及びマッピングテーブルにアクセスして更新する。新たなレコードをマッピングテーブルに挿入するため、マッピングテーブル内のレベルの数は増加する。マッピングテーブル内の2つ以上のレベルを平坦化するための条件が検出されると(条件ブロック1008)、ブロック1010において、平坦化のためのレベルの1つ又は複数のグループを識別する。レベルのグループは2つ以上のレベルを含んでよい。一実施形態では、この2つ以上のレベルは連続したレベルである。最も低いレベル即ち最も古いレベルが平坦化の最良の候補であり得るが、より新しいグループを選択してもよい。
ブロック1012では、各グループに対して、対応するグループ内の最新のレコードを含む新たな単一のレベルが生成される。上述の実施例では、新たな単一のレベル「New F」は、レベル「F」及びレベル「F+1」の中の最新のレコードを含む。ブロック1014では、ノードをベースとするクラスタにおいて、平坦化操作によって生成された新規のレベルを各ノードが利用できる状態になっていることを示す承認を、クラスタ内の各ノードから要求してよい。各ノードが、新たなレベルを利用できることを承認した場合、ブロック1016において、識別されたグループ内の現在のレベルをこの新たなレベルで置換する。他の実施形態では、複数のノードにわたる同期は不要である。このような実施形態では、いくつかのノードは他のノードよりも前にこの新たなレベルを使用し始めてよい。更に、いくつかのノードは、新たに平坦化されたレベルが利用可能となった後でさえ、元のレベルの使用を続行してよい。例えば特定のノードは、元のレベルのデータをキャッシュ化し、これを、新たに平坦化されたレベルのキャッシュ化されていないデータを使用するよりも好んで使用してよい。数多くのこのような実施形態が可能であり、予期される。
ここで図13に移ると、マッピングテーブル内のバルクアレイタスクを効率的に処理するための方法1100の一実施形態が示されている。既に説明した他の方法と同様に、ネットワークアーキテクチャ100及び上述のマッピングテーブル340内に具現化された構成要素は一般に、本方法1100に従って操作してよい。更に、この実施形態の複数のステップを順序通りに示す。しかしながら、いくつかのステップは図示したものと異なる順序で行われてよく、いくつかのステップは同時に実行されてよく、いくつかのステップは他のステップと組み合わせてよく、またいくつかのステップは別の実施形態には存在しなくてよい。
マッピングテーブル内に圧縮フォーマットで情報を記憶することにより、微粒度マッピングを可能とすることができ、これによって、従来のバルクアレイタスクの代替として、マッピングテーブル内の情報をマッピングする直接操作を可能とすることができる。直接マッピング操作は、I/Oネットワーク及びバストラフィックを低減できる。上述のように、フラッシュメモリは「シーク時間」が短く、これによって回転するディスクからの単一の操作より短い時間で、多数の参照先読出し操作を行うことができる。これらの参照先読出しを用いて、オンライン微粒度マッピングを実行し、圧縮及び重複排除等のスペース節約に役立つ特徴を統合できる。更にこれらの参照先読出し操作により、ストレージコントローラ174は、ストレージデバイス176a〜176m内に記憶されたユーザデータにアクセスする(読出し及び書込み)代わりに、完全にマッピングテーブル内でバルクアレイタスクを実行できるようになる。
ブロック1102では、大型又はバルクアレイタスクを受信する。例えば、バルクコピー又は移動要求は数ダース又は数百の仮想マシンのバックアップに対応してよく、更にこのような仮想マシンによってエンタープライズアプリケーションデータを実行及び更新する。このデータの全ての移動、分岐、クローン又はコピーに関連する受信した要求に関連するデータの量は、16ギガバイト(GB)又はそれ以上にもなり得る。ユーザデータにアクセスしてこの要求を処理した場合、要求に対して莫大な処理時間を使うことになり得、システムの性能が低下する。更に、仮想化環境は典型的には物理環境よりも少ない総入出力(I/O)リソースを有する。
ブロック1104では、ストレージコントローラ174は、新たなキーの範囲を古いキーの範囲と関連付ける、受信した要求に対応する指標を記憶してよく、これらのキーの範囲は両方共、受信した要求に対応する。例えば、受信した要求が16GBのデータをコピーすることである場合、16GBのデータに対応する開始キー値及び終了キー値を記憶してよい。また、開始キー値及び終了キー値はそれぞれ、ボリュームID、受信した要求内の論理又は仮想アドレス、スナップショットID、セクタ番号等を含んでよい。一実施形態では、この情報は、一次索引310、二次索引320、三次索引330等の索引に記憶された情報とは別個に記憶してよい。しかしながら、後の要求の処理中に索引にアクセスする際にこの情報にアクセスしてよい。
ブロック1106では、データストレージコントローラ174は、ユーザデータへの過去のアクセスを必要とせずに、受信した要求の完了を示す応答を、クライアントコンピュータシステム110a〜110cの対応するクライアントに対して伝達してよい。従って、ストレージコントローラ174は、短い休止時間で又は休止時間なしで、及びプロセッサ122への負荷なしに、受信した要求を処理できる。
ブロック1108では、ストレージコントローラ174は、マッピングテーブルの古いキーを置換する新たなキーに対応するマッピングテーブルの1つ又は複数のレコードを更新するために、条件、指標又はフラグ若しくはバッファ更新操作を設定してよい。移動要求及びコピー要求の両方について、新たなキーに対応する1つ又は複数の新たなレコードをマッピングテーブルに挿入してよい。上述のように生成された新たな最高レベルにキーを挿入してよい。移動要求について、対応する新たなレコードをマッピングテーブルに挿入した後で、1つ又は複数の古いレコードをマッピングテーブルから除去してよい。即座に又は後の時点において、マッピングテーブルのレコードは実際に更新される。
ゼロイング又は消去要求について、キー値の範囲が連続するバイナリ・ゼロに現在対応しているという指標を記憶してよい。更に上述のように、オーバレイテーブルを用いて、有効でない(又はもはや有効でなくなった)キー値を識別してよい。ユーザデータを上書きする必要はない。消去要求について、「自由となった」ストレージ位置を、後続の記憶(書込み)要求のための新たなデータに後で割り当てる際に、ユーザデータを上書きしてよい。外部主導デフラグ要求について、セクタの再編成のために連続したアドレスを選択してよく、これはクライアントコンピュータシステム110a〜110cのクライアント上で実行されるアプリケーションに役立つ。
ストレージコントローラ174が、新たなキーのうちの1つに対応するデータストレージアクセス要求を受信した場合(条件ブロック1110)、及び新たなキーが既にマッピングテーブルに挿入されている場合(条件ブロック1112)、ブロック1114において、新たなキーを用いて索引及びマッピングテーブルにアクセスしてよい。例えば、新たなキーを用いて一次索引310、二次索引320又は三次索引330のいずれかにアクセスしてよい。索引がマッピングテーブルの1つ又は複数のページを識別する場合、これら識別されたページにアクセスしてよい。ブロック1116では、ストレージアクセス要求を、新たなキーに関連するマッピングテーブルに見られる物理ポインタ値を用いて処理してよい。
ストレージコントローラ174が、新たなキーのうちの1つに対応するデータストレージアクセス要求を受信した場合(条件ブロック1110)、及び新たなキーが既にマッピングテーブルに挿入されている場合(条件ブロック1112)、ブロック1118において、対応する古いキーを用いて索引及びマッピングテーブルにアクセスしてよい。古いキーの範囲及び新たなキーの範囲を保持するストレージにアクセスして、対応する古いキー値を決定してよい。索引がマッピングテーブルの1つ又は複数のページを識別する場合、これら識別されたページにアクセスしてよい。ブロック1120では、ストレージアクセス要求を、古いキーに関連するマッピングテーブルに見られる物理ポインタ値を用いて処理してよい。
ここで図14に移ると、ストレージデバイス内のデータレイアウトアーキテクチャのある実施形態を示す、一般化されたブロック図が示されている。一実施形態では、ストレージデバイス176a〜176m内のデータストレージ位置は、独立デバイスの冗長アレイ(RAID)に配置してよい。図示したように、データレイアウトアーキテクチャに従って、異なるタイプのデータをストレージデバイス176a〜176kに記憶してよい。一実施形態では、各ストレージデバイス176a〜176kはSSDである。SSD内の割り当て単位は、SSD内の1つ又は複数のイレースブロックを含んでよい。
ストレージデバイス176a〜176kのうちの1つ又は複数内に含まれる1つ又は複数のページ内に、ユーザデータ1230を記憶してよい。RAIDストライプとストレージデバイス176a〜176kのうちの1つとの各交点において、記憶された情報を一連の論理ページとしてフォーマットしてよい。各論理ページは、ページ内のデータのためのヘッダ及びチェックサムを含んでよい。読出し要求が出される場合、これは1つ又は複数の論理ページに対するものであってよく、各ページのデータをチェックサムで確認してよい。各論理ページは、そのページのためのチェックサム(「メディア」チェックサムと呼んでもよい)を含むページヘッダを含んでよいため、データのための実際のページサイズは、1つの論理ページより小さくてよい。いくつかの実施形態では、RAIDパリティ情報等のデバイス間復元データ1250を記憶するページについて、ページヘッダはより小さくてよく、これによってパリティページはデータページのページチェックサムを保護できる。他の実施形態では、複数のデータページチェックサムのうちの1つのチェックサムが、対応するデータページを包含するパリティページのチェックサムと同一となるように、デバイス間復元データ1250を記憶するパリティページのチェックサムを算出してよい。このような実施形態では、パリティページのためのヘッダはデータページのためのヘッダより小さい必要はない。
デバイス間ECCデータ1250は、ユーザデータを保持する他のストレージデバイス上の1つ又は複数のページから生成されたパリティ情報であってよい。例えば、デバイス間ECCデータ1250は、RAIDデータレイアウトアーキテクチャで使用されるパリティ情報であってよい。記憶された情報は、ストレージデバイス176a〜176kの連続した論理ページとして示されているが、論理ページをランダムな順序で配置してもよいことは当該技術分野で公知であり、ここで各ストレージデバイス176a〜176kはSSDである。
デバイス内ECCデータ1240は、デバイス内冗長スキームが使用する情報を含んでよい。デバイス内冗長スキームは、所定のストレージデバイス内の、パリティ情報等のECC情報を利用する。このデバイス内冗長スキーム及びそのECC情報は所定のデバイスに対応し、所定のデバイス内に保持してよいが、デバイス自体によって内部で生成及び維持され得るECCとは別個のものである。一般に、内部で生成及び維持されるデバイスのECCは、デバイスが含まれているシステムにとって不可視である。
デバイス内ECCデータ1240は、デバイス内エラー修復データ1240と呼んでもよい。デバイス内エラー修復データ1240を用いて、潜在的セクタエラー(latent sector error:LSE)から所定のストレージデバイスを保護してよい。LSEは、所定のセクタを評価するまで検出されないエラーのことである。従って、当該セクタに過去に記憶されたいずれのデータが失われ得る。単一のLSEは、これがストレージデバイスの故障の後のRAID再構築中に発生した場合、データ損失につながり得る。用語「セクタ」は典型的には、ディスク上の所定のトラック内のセグメント等、HDD上のストレージの基本単位を表す。潜在的セクタエラー(LSE)は、ストレージデバイス内の所定のセクタ又はその他のストレージユニットがアクセス不可能となった場合に発生する。当該セクタに対する読出し又は書込み操作を完了することができなくなり得る。更に、訂正不可能なエラー訂正コード(ECC)エラーが存在し得る。
所定のストレージデバイス内に含まれるデバイス内エラー復元データ1240を用いて、当該ストレージデバイス内のデータストレージ信頼性を向上させることができる。装置内エラー復元データ1240は、RAIDデータレイアウトアーキテクチャで利用されるパリティ情報等、別のストレージデバイス内に含まれ得る他のECC情報に更に加えられるものである。
各ストレージデバイス内において、デバイス内エラー修復データ1240を1つ又は複数のページに記憶してよい。当業者には公知であるように、デバイス内エラー修復データ1240は、ユーザデータ1230内の情報の選択されたビット上の機能を実行することによって得てよい。XORベース操作を用いて、デバイス内エラー修復データ1240に記憶するパリティ情報を導出してよい。デバイス内冗長スキームの他の例には、単一パリティ検査(SPC)、最大距離分離(MDS)消去コード、インタリーブされたパリティチェックコード(IPC)、SPC及びMDSのハイブリッドコード(MDS+SPC)及び列対角パリティ(CDP)が挙げられる。もたらされる信頼性及びオーバヘッドに関して、スキームはデータ1240をコンピュータ処理する方法に応じて変化する。
上述のエラー復元情報に加えて、デバイス上のある領域に関するチェックサム値を算出するようにシステムを構成してよい。例えば、情報をデバイスに書込む際にチェックサムを算出してよい。このチェックサムはシステムに記憶される。デバイスから情報を読出す際、システムはチェックサムを再び算出して、これを初めに記憶した値と比較してよい。2つのチェックサムが異なる場合、情報は適切に読出されておらず、システムは他のスキームを用いてデータを復元してよい。チェックサム関数の例としては、巡回冗長検査(CRC)、MD5、SHA−1が挙げられる。
SSD内のイレースブロックは、複数のページを含んでよい。あるページは4KBのデータストレージスペースを含んでよい。イレースブロックは64ページ、即ち256kBを含んでよい。他の実施形態では、イレースブロックは1メガバイト(MB)もの大きさであってよく、256ページを含んでよい。割り当て単位サイズは、割り当て単位のオーバヘッドトラッキングを低減するために十分に大きいサイズのユニット及び比較的少ない数のユニット両方を提供する様式で選択してよい。一実施形態では、1つ又は複数の状態テーブルが、割り当てユニットの状態(割り当て済み、自由、消去済み、エラー)、摩耗レベル、割り当てユニット内で発生した(修正可能及び/又は修正不可能な)エラー数の計数を維持してよい。一実施形態では、割り当てユニットはSSDの総ストレージ性能に対して比較的小さい。他の量のページ、イレースブロック及び他のユニット構成も可能であり、予期される。
メタデータ1260は、ページヘッダ情報、RAIDストライプ識別情報、1つ又は複数のRAIDストライプに関するログデータ等を含んでよい。様々な実施形態において、各ストライプの最初の単一のメタデータページは、他のストライプのヘッダから再構築してよい。代替として、このページはパリティ分割において異なるオフセットであってよく、これにより、デバイス間パリティでデータを保護できる。一実施形態では、メタデータ1260は、このデータが重複排除されないことを示す特定のフラグ値を記憶するか又はこのフラグ値と関連してよい。
デバイス間パリティ保護及びデバイス内パリティ保護に加えて、ストレージデバイス176a〜176kの各ページは、各所定のページ内に記憶されたチェックサム等、更なる保護を含んでよい。ヘッダの後及び対応するデータの前のページ内にチェックサム(8バイト、4バイト又はそれ以外)を配置してよく、これは圧縮されてよい。更に別のレベルの保護のために、チェックサム値にデータ位置情報を含めてよい。各ページのデータはこの情報を含んでよい。この情報は仮想アドレス及び物理アドレスの両方を含んでよい。この情報は、セクタ番号、データチャンク及びオフセット番号、トラック番号、プレーン番号等も同様に含んでよい。このマッピング情報を用いて、テーブルのコンテンツが失われた場合にアドレス変換マッピングテーブルを再構築してもよい。
一実施形態では、ストレージデバイス176a〜176k内の各ページは、データタイプ1230〜1260等の特定のタイプのデータを記憶する。代替として、ページは2つ以上のタイプのデータを記憶してよい。ページヘッダは、対応するページのためのデータタイプを識別するための情報を記憶してよい。一実施形態では、デバイス内冗長スキームはデバイスを、ユーザデータの記憶のための位置のグループに分割する。例えば分割は、RAIDレイアウト内のストライプに対応するデバイス内の位置のグループであってよい。図示を簡略化するために、図示した実施例では2つのストライプ1270a、1270bのみを示す。
一実施形態では、ストレージコントローラ174内のRAIDエンジンは、ストレージデバイス176a〜176kのためにあるレベルの保護を使用することを決定してよい。例えばRAIDエンジンは、ストレージデバイス176a〜176kに対してRAID二重パリティを利用することを決定してよい。デバイス間冗長データ1250は、対応するユーザデータから生成されたRAID二重パリティ値を表してよい。一実施形態では、ストレージデバイス176j、176kは二重パリティ情報を記憶してよい。RAIDパリティ保護の他のレベルも可能であり、予期されることを理解されたい。更に、他の実施形態では、二重パリティ情報のストレージは、各RAIDストライプに関してストレージデバイス176j、176k内に記憶するのではなく、ストレージデバイス間で循環してよい。図示及び説明を簡略化するために、二重パリティ情報のストレージは、ストレージデバイス176j、176kに記憶されるものとして示している。各ストレージデバイス176a〜176kは複数のページを含んでよいが、図示を簡略化するために、ページ1212及びページ1220のみを標識してある。
上述の実施形態はソフトウェアを備えてよいことに留意されたい。このような実施形態では、本方法及び/又は機構を実装するプログラム命令を伝達してよく、またコンピュータ可読媒体上に記憶させてよい。プログラム命令を記憶するよう構成された数多くのタイプの媒体が利用可能であり、これにはハードディスク、フロッピー(登録商標)ディスク、CD−ROM、DVD、フラッシュメモリ、プログラム可能なROM(PROM)、ランダムアクセスメモリ(RAM)及び他の様々な形態の揮発性又は不揮発性ストレージが含まれる。
様々な実施形態において、本明細書に記載の方法及び機構の1つ又は複数の部分は、クラウドコンピューティング環境の一部分を形成してよい。このような実施形態では。1つ又は複数の様々なモデルに応じたサービスとして、インターネットを介してリソースを提供してよい。このようなモデルとしては、サービスとしてのインフラストラクチャ(Infrastructure as a Service:IaaS)、サービスとしてのプラットフォーム(Platform as a Service:PaaS)及びサービスとしてのソフトウェア(Software as a Service:SaaS)が挙げられる。IaaSでは、コンピュータインフラストラクチャをサービスとして提供する。このような場合、コンピュータ設備は一般に、サービスプロバイダが所有して操作する。PaaSモデルでは、ソフトウェアツール及び開発者がソフトウェアソリューションを開発するために使用する下層の設備をサービスとして提供してよく、サービスプロバイダがホストとなる。SaaSは典型的には、オンデマンドサービスとしてのサービスプロバイダライセンス付与ソフトウェアを含む。このサービスプロバイダはソフトウェアのホストとなってよく、又は所定の期間だけソフトウェアを顧客に頒布してよい。上述のモデルの数多くの組み合わせが可能であり、予期される。
以上の実施形態はかなり詳細に説明したが、当業者には、以上の開示を十分に理解すれば、数多くの変形及び修正が明らかになるであろう。以下の請求項は全てのこのような変形及び修正を包含するものと解釈されることを意図している。

Claims (37)

  1. データストレージ媒体;
    前記データストレージ媒体に連結されたデータストレージコントローラ;及び
    複数のエントリを含むマッピングテーブルであって、各前記マッピングテーブルエントリは、キーを含む順組を含む、マッピングテーブル
    を備える、コンピュータシステムであって、
    前記マッピングテーブルは、時系列順の複数のレベルとして編成され、各前記レベルは1つ又は複数の前記マッピングテーブルエントリを含む、コンピュータシステム。
  2. 前記マッピングテーブルの少なくとも一部のキャッシュ化されたコピーを記憶するよう構成されたキャッシュを更に備える、請求項1に記載のコンピュータシステム。
  3. 前記データストレージコントローラは更に、要求の受信に応答して:
    前記要求に対応する少なくとも1つの所定のキーを用いて前記マッピングテーブルにアクセスし;
    前記所定のキーに対応する1つ又は複数の前記エントリを識別し;
    前記1つ又は複数の前記エントリのうちのどれが、前記時系列順のレベルのうち最も新しいレベルに対応するかを決定し;及び
    前記時系列順のレベルのうち前記最も新しいレベルに対応するエントリを返して、前記要求を満たす
    よう構成されている、請求項1に記載のコンピュータシステム。
  4. 前記コントローラは、前記順組のキー値によって各前記レベルをソートするよう構成されている、請求項3に記載のコンピュータシステム。
  5. 前記ストレージ媒体に記憶された前記マッピングテーブルの前記エントリは、ページにグループ化され、
    クエリの結果を利用して複数の前記ページのうちの特定のページを取得する、請求項4に記載のコンピュータシステム。
  6. 前記コントローラは、前記特定のページの受信に応答して、前記所定のキーを用いて、前記特定のページ内のマッピングを識別するよう構成され、
    前記マッピングは、前記所定のキーに対応する前記ストレージ媒体に記憶されたデータアイテムの位置の指標を含む、請求項1に記載のコンピュータシステム。
  7. 前記データストレージコントローラは更に、
    前記マッピングテーブルに1つ又は複数の新たなエントリを挿入するための条件を検出すると、それに応答して、前記複数のレベルに加えられる新たなレベルを生成し;及び
    前記1つ又は複数の新たなエントリを前記新たなレベルに挿入する
    よう構成されている、請求項1に記載のコンピュータシステム。
  8. 各前記マッピングテーブルエントリは更に、所定のキーに対応する前記ユーザデータが前記データストレージ媒体のどこに記憶されているかに関する指標を含む、請求項1に記載のコンピュータシステム。
  9. 前記データストレージ媒体は、1つ又は複数のソリッドステートストレージデバイスからなる、請求項8に記載のコンピュータシステム。
  10. 前記時系列順の複数のレベルのうち、最も新しいレベルを除く全ては、読出し専用である、請求項1に記載のコンピュータシステム。
  11. 前記マッピングテーブルをオーバレイするオーバレイテーブルを更に含み、
    前記オーバレイテーブル及び前記マッピングテーブルは異なるキーで索引付けされる、請求項1に記載のコンピュータシステム。
  12. 前記オーバレイテーブルは、前記マッピングテーブルの有効でない1つ又は複数の前記順組を識別する、請求項11に記載のコンピュータシステム。
  13. 前記オーバレイテーブルは、値の範囲に対応する1つ又は複数のエントリを含む、請求項11に記載のコンピュータシステム。
  14. 前記オーバレイテーブルの前記エントリを用いて、クエリに応答して前記マッピングテーブルから返された前記順組の1つ又は複数のフィールドを修正できる、請求項11に記載のコンピュータシステム。
  15. 前記オーバレイテーブルの索引付けに使用される前記キーは、前記マッピングテーブルにアクセスするために使用される前記キーのフィールドから生成される、請求項11に記載のコンピュータシステム。
  16. 前記オーバレイテーブルの索引付けに使用される前記キーは、前記マッピングテーブルへのアクセスによって得られた前記順組のフィールドから生成される、請求項11に記載のコンピュータシステム。
  17. 前記オーバレイテーブルの少なくとも一部のキャッシュ化されたコピーを記憶するよう構成されたキャッシュを更に含む、請求項11に記載のコンピュータシステム。
  18. 前記オーバレイテーブルは、時系列順の複数のレベルとして編成され、各前記レベルは1つ又は複数のオーバレイテーブルエントリを含む、請求項11に記載のコンピュータシステム。
  19. 複数のエントリを含むマッピングテーブルを記憶するステップであって、前記マッピングテーブルエントリはキーを含む順組を含む、ステップ;及び
    複数のエントリを含むマッピングテーブル索引を記憶するステップ
    を備える、ストレージシステムで使用するための方法であって、
    前記マッピングテーブルは、時系列順の複数のレベルとして編成され、各前記レベルは1つ又は複数の前記マッピングテーブルエントリを含む、マッピングテーブルを記憶する方法。
  20. 特定のページの受信に応答して、所定のキーを用いて前記特定のページ内のマッピングを識別するステップを更に含み、
    前記マッピングは、前記所定のキーに対応する前記ストレージ媒体に記憶されたデータアイテムの位置の指標を含む、請求項19に記載の方法。
  21. 前記マッピングテーブルの少なくとも一部のキャッシュ化されたコピーを記憶するステップを更に含む、請求項20に記載の方法。
  22. 要求の受信に応答して:
    前記要求に対応する少なくとも1つの所定のキーを用いて前記マッピングテーブルにアクセスするステップ;
    前記所定のキーに対応する1つ又は複数の前記エントリを識別するステップ;
    前記1つ又は複数の前記エントリのうちのどれが、前記時系列順のレベルのうち最も新しいレベルに対応するかを決定するステップ;及び
    前記時系列順のレベルのうち前記最も新しいレベルに対応するエントリを返して、前記要求を満たすステップ
    を更に含む、請求項20に記載の方法。
  23. 前記順組のキー値によって各前記レベルをソートするステップを更に含む、請求項22に記載の方法。
  24. 前記ストレージ媒体に記憶された前記マッピングテーブルの前記エントリは、ページにグループ化され、
    クエリの結果を利用して複数の前記ページのうちの特定のページを取得する、請求項23に記載の方法。
  25. 前記マッピングテーブルに1つ又は複数の新たなエントリを挿入するための条件を検出すると、それに応答して、前記複数のレベルに加えられる新たなレベルを生成するステップ;及び
    前記1つ又は複数の新たなエントリを前記新たなレベルに挿入するステップ
    を更に含む、請求項19に記載の方法。
  26. 各前記マッピングテーブルエントリは更に、所定のキーに対応する前記ユーザデータが前記データストレージ媒体のどこに記憶されているかに関する指標を含む、請求項19に記載の方法。
  27. 前記データストレージ媒体は、1つ又は複数のソリッドステートストレージデバイスからなる、請求項26に記載の方法。
  28. 前記時系列順の複数のレベルのうち、最も新しいレベルを除く全ては、読出し専用である、請求項19に記載の方法。
  29. 前記マッピングテーブルをオーバレイするオーバレイテーブルを更に含み、
    前記オーバレイテーブル及び前記マッピングテーブルは異なるキーで索引付けされる、請求項19に記載の方法。
  30. 前記オーバレイテーブルは、前記マッピングテーブルの有効でない1つ又は複数の前記順組を識別する、請求項29に記載の方法。
  31. 前記オーバレイテーブルは、値の範囲に対応する1つ又は複数のエントリを含む、請求項29に記載の方法。
  32. 前記オーバレイテーブルの前記エントリを用いて、クエリに応答して前記マッピングテーブルから返された前記順組の1つ又は複数のフィールドを修正するステップを更に含む、請求項29に記載の方法。
  33. 前記オーバレイテーブルの索引付けに使用される前記キーは、前記マッピングテーブルにアクセスするために使用される前記キーのフィールドから生成される、請求項29に記載の方法。
  34. 前記オーバレイテーブルの索引付けに使用される前記キーは、前記マッピングテーブルへのアクセスによって得られた前記順組のフィールドから生成される、請求項29に記載の方法。
  35. 複数のエントリを含むマッピングテーブルであって、各前記マッピングテーブルエントリは、キーを含む順組を含む、マッピングテーブルを記憶し;
    複数のエントリを含むマッピングテーブル索引を記憶するためにプロセッサが実行可能なプログラム命令を記憶した、非一時的コンピュータ可読ストレージ媒体であって、
    前記マッピングテーブルは、時系列順の複数のレベルとして編成され、各前記レベルは1つ又は複数の前記マッピングテーブルエントリを含む、コンピュータ可読ストレージ媒体。
  36. 前記プログラム命令は、前記マッピングテーブルの少なくとも一部のキャッシュ化されたコピーをキャッシュに保存するために更に実行可能である、請求項35に記載のコンピュータ可読ストレージ媒体。
  37. 前記プログラム命令は、前記順組のキー値によって前記キャッシュ化されたコピーをソートするために更に実行可能である、請求項35に記載のコンピュータ可読ストレージ媒体。
JP2014526108A 2011-08-11 2012-08-11 フラッシュストレージアレイにおける論理セクタマッピング Active JP6200886B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/208,094 US8788788B2 (en) 2011-08-11 2011-08-11 Logical sector mapping in a flash storage array
US13/208,094 2011-08-11
PCT/US2012/050490 WO2013023200A1 (en) 2011-08-11 2012-08-11 Logical sector mapping in a flash storage array

Publications (3)

Publication Number Publication Date
JP2014529126A true JP2014529126A (ja) 2014-10-30
JP2014529126A5 JP2014529126A5 (ja) 2015-10-01
JP6200886B2 JP6200886B2 (ja) 2017-09-20

Family

ID=46690759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014526108A Active JP6200886B2 (ja) 2011-08-11 2012-08-11 フラッシュストレージアレイにおける論理セクタマッピング

Country Status (6)

Country Link
US (5) US8788788B2 (ja)
EP (2) EP3364286A1 (ja)
JP (1) JP6200886B2 (ja)
CN (2) CN105786408B (ja)
AU (1) AU2012294218B2 (ja)
WO (1) WO2013023200A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017004514A (ja) * 2015-06-04 2017-01-05 華為技術有限公司Huawei Technologies Co.,Ltd. データ記憶方法、データ回復方法、関係する装置及びシステム
KR101826778B1 (ko) 2016-09-28 2018-03-22 현대오트론 주식회사 플래쉬 라이프 사이클 및 성능 개선을 고려한 eeprom 에뮬레이션 구현 방법
JP2018509695A (ja) * 2015-02-23 2018-04-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ストレージ中のデータを管理するためのコンピュータ・プログラム、システム、および方法
JP2018518733A (ja) * 2015-12-25 2018-07-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ファイル操作方法及び装置
JP2020184338A (ja) * 2019-05-01 2020-11-12 三星電子株式会社Samsung Electronics Co.,Ltd. 高帯域幅メモリ及びその動作方法並びに高帯域幅メモリシステム
JP2022500723A (ja) * 2018-09-24 2022-01-04 セールスフォース ドット コム インコーポレイティッド データベースにおいてレコードを一括削除するためのシステムおよび方法
JP7572483B2 (ja) 2023-03-09 2024-10-23 華為技術有限公司 ストレージシステム及びストレージシステムの稼働モードを切り替えるための方法

Families Citing this family (233)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671265B2 (en) 2010-03-05 2014-03-11 Solidfire, Inc. Distributed data storage system providing de-duplication of data using block identifiers
US8589625B2 (en) 2010-09-15 2013-11-19 Pure Storage, Inc. Scheduling of reconstructive I/O read operations in a storage environment
US8589655B2 (en) 2010-09-15 2013-11-19 Pure Storage, Inc. Scheduling of I/O in an SSD environment
US11614893B2 (en) 2010-09-15 2023-03-28 Pure Storage, Inc. Optimizing storage device access based on latency
US8732426B2 (en) 2010-09-15 2014-05-20 Pure Storage, Inc. Scheduling of reactive I/O operations in a storage environment
US12008266B2 (en) 2010-09-15 2024-06-11 Pure Storage, Inc. Efficient read by reconstruction
US8468318B2 (en) 2010-09-15 2013-06-18 Pure Storage Inc. Scheduling of I/O writes in a storage environment
US11275509B1 (en) 2010-09-15 2022-03-15 Pure Storage, Inc. Intelligently sizing high latency I/O requests in a storage environment
US9244769B2 (en) 2010-09-28 2016-01-26 Pure Storage, Inc. Offset protection data in a RAID array
US8775868B2 (en) 2010-09-28 2014-07-08 Pure Storage, Inc. Adaptive RAID for an SSD environment
US8589640B2 (en) 2011-10-14 2013-11-19 Pure Storage, Inc. Method for maintaining multiple fingerprint tables in a deduplicating storage system
US11636031B2 (en) * 2011-08-11 2023-04-25 Pure Storage, Inc. Optimized inline deduplication
US8527544B1 (en) * 2011-08-11 2013-09-03 Pure Storage Inc. Garbage collection in a storage system
US8788788B2 (en) 2011-08-11 2014-07-22 Pure Storage, Inc. Logical sector mapping in a flash storage array
WO2013038442A1 (en) * 2011-09-13 2013-03-21 Hitachi, Ltd. Storage system comprising flash memory, and storage control method
KR20130049117A (ko) * 2011-11-03 2013-05-13 한국전자통신연구원 메모리 기반의 서머리 벡터를 구비한 인덱스 구조의 데이터 검색 장치 및 방법
US9838269B2 (en) 2011-12-27 2017-12-05 Netapp, Inc. Proportional quality of service based on client usage and system metrics
US9054992B2 (en) 2011-12-27 2015-06-09 Solidfire, Inc. Quality of service policy sets
US8914381B2 (en) * 2012-02-16 2014-12-16 Apple Inc. Correlation filter
US20130219116A1 (en) 2012-02-16 2013-08-22 Wenguang Wang Data migration for composite non-volatile storage device
US8719540B1 (en) 2012-03-15 2014-05-06 Pure Storage, Inc. Fractal layout of data blocks across multiple devices
WO2013164878A1 (ja) * 2012-05-01 2013-11-07 株式会社日立製作所 計算機システムの管理装置および管理方法
US9229901B1 (en) * 2012-06-08 2016-01-05 Google Inc. Single-sided distributed storage system
US8762353B2 (en) * 2012-06-13 2014-06-24 Caringo, Inc. Elimination of duplicate objects in storage clusters
KR20140002833A (ko) * 2012-06-26 2014-01-09 삼성전자주식회사 비휘발성 메모리 장치
US9390055B2 (en) 2012-07-17 2016-07-12 Coho Data, Inc. Systems, methods and devices for integrating end-host and network resources in distributed memory
US9819737B2 (en) * 2012-08-23 2017-11-14 Cisco Technology, Inc. System and method for policy based fibre channel zoning for virtualized and stateless computing in a network environment
US10623386B1 (en) 2012-09-26 2020-04-14 Pure Storage, Inc. Secret sharing data protection in a storage system
US8745415B2 (en) 2012-09-26 2014-06-03 Pure Storage, Inc. Multi-drive cooperation to generate an encryption key
US11032259B1 (en) 2012-09-26 2021-06-08 Pure Storage, Inc. Data protection in a storage system
CN104704569B (zh) * 2012-12-19 2017-11-14 慧与发展有限责任合伙企业 Nvram路径选择
US8937317B2 (en) 2012-12-28 2015-01-20 Avogy, Inc. Method and system for co-packaging gallium nitride electronics
US9372726B2 (en) 2013-01-09 2016-06-21 The Research Foundation For The State University Of New York Gang migration of virtual machines using cluster-wide deduplication
US9063967B2 (en) 2013-01-10 2015-06-23 Pure Storage, Inc. Performing copies in a storage system
US11733908B2 (en) 2013-01-10 2023-08-22 Pure Storage, Inc. Delaying deletion of a dataset
US10908835B1 (en) 2013-01-10 2021-02-02 Pure Storage, Inc. Reversing deletion of a virtual machine
US11768623B2 (en) 2013-01-10 2023-09-26 Pure Storage, Inc. Optimizing generalized transfers between storage systems
US9606729B2 (en) * 2013-03-15 2017-03-28 Skyera, Llc Apparatus and method for insertion and deletion in multi-dimensional to linear address space translation
US9092159B1 (en) * 2013-04-30 2015-07-28 Emc Corporation Object classification and identification from raw data
US9324645B2 (en) 2013-05-23 2016-04-26 Avogy, Inc. Method and system for co-packaging vertical gallium nitride power devices
CN104346103B (zh) * 2013-08-09 2018-02-02 群联电子股份有限公司 指令执行方法、存储器控制器与存储器储存装置
JP5902137B2 (ja) * 2013-09-24 2016-04-13 株式会社東芝 ストレージシステム
WO2015046645A1 (en) * 2013-09-27 2015-04-02 Inha-Industry Partnership Institute Deduplication of parity data in ssd based raid systems
US9405783B2 (en) 2013-10-02 2016-08-02 Netapp, Inc. Extent hashing technique for distributed storage architecture
US10263770B2 (en) 2013-11-06 2019-04-16 Pure Storage, Inc. Data protection in a storage system using external secrets
US10365858B2 (en) 2013-11-06 2019-07-30 Pure Storage, Inc. Thin provisioning in a storage device
US11128448B1 (en) 2013-11-06 2021-09-21 Pure Storage, Inc. Quorum-aware secret sharing
US9516016B2 (en) 2013-11-11 2016-12-06 Pure Storage, Inc. Storage array password management
US9324809B2 (en) 2013-11-18 2016-04-26 Avogy, Inc. Method and system for interleaved boost converter with co-packaged gallium nitride power devices
US9229876B2 (en) * 2013-12-17 2016-01-05 Sandisk Technologies Inc. Method and system for dynamic compression of address tables in a memory
US9448924B2 (en) 2014-01-08 2016-09-20 Netapp, Inc. Flash optimized, log-structured layer of a file system
US9529546B2 (en) 2014-01-08 2016-12-27 Netapp, Inc. Global in-line extent-based deduplication
US9208086B1 (en) 2014-01-09 2015-12-08 Pure Storage, Inc. Using frequency domain to prioritize storage of metadata in a cache
US9268653B2 (en) 2014-01-17 2016-02-23 Netapp, Inc. Extent metadata update logging and checkpointing
US9256549B2 (en) 2014-01-17 2016-02-09 Netapp, Inc. Set-associative hash table organization for efficient storage and retrieval of data in a storage system
KR102214511B1 (ko) * 2014-02-17 2021-02-09 삼성전자 주식회사 두 단계로 페이지를 필터링하는 데이터 저장 장치, 이를 포함하는 시스템, 및 상기 데이터 저장 장치의 동작 방법
US20150244795A1 (en) 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
US10656864B2 (en) 2014-03-20 2020-05-19 Pure Storage, Inc. Data replication within a flash storage array
CN104951244B (zh) * 2014-03-31 2018-04-27 伊姆西公司 用于存取数据的方法和设备
US9513820B1 (en) 2014-04-07 2016-12-06 Pure Storage, Inc. Dynamically controlling temporary compromise on data redundancy
US9823842B2 (en) 2014-05-12 2017-11-21 The Research Foundation For The State University Of New York Gang migration of virtual machines using cluster-wide deduplication
CN105094788A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种数据处理方法,数据端以及应用端
US9779268B1 (en) 2014-06-03 2017-10-03 Pure Storage, Inc. Utilizing a non-repeating identifier to encrypt data
US9218244B1 (en) 2014-06-04 2015-12-22 Pure Storage, Inc. Rebuilding data across storage nodes
US11399063B2 (en) 2014-06-04 2022-07-26 Pure Storage, Inc. Network authentication for a storage system
US9959203B2 (en) 2014-06-23 2018-05-01 Google Llc Managing storage devices
US9218407B1 (en) 2014-06-25 2015-12-22 Pure Storage, Inc. Replication and intermediate read-write state for mediums
US10496556B1 (en) 2014-06-25 2019-12-03 Pure Storage, Inc. Dynamic data protection within a flash storage system
US9798728B2 (en) 2014-07-24 2017-10-24 Netapp, Inc. System performing data deduplication using a dense tree data structure
US10296469B1 (en) 2014-07-24 2019-05-21 Pure Storage, Inc. Access control in a flash storage system
US9495255B2 (en) 2014-08-07 2016-11-15 Pure Storage, Inc. Error recovery in a storage cluster
US9558069B2 (en) 2014-08-07 2017-01-31 Pure Storage, Inc. Failure mapping in a storage array
US9864761B1 (en) * 2014-08-08 2018-01-09 Pure Storage, Inc. Read optimization operations in a storage system
US9361937B2 (en) * 2014-08-26 2016-06-07 Seagate Technology Llc Shingled magnetic recording data store
US10430079B2 (en) 2014-09-08 2019-10-01 Pure Storage, Inc. Adjusting storage capacity in a computing system
US10133511B2 (en) 2014-09-12 2018-11-20 Netapp, Inc Optimized segment cleaning technique
US9671960B2 (en) 2014-09-12 2017-06-06 Netapp, Inc. Rate matching technique for balancing segment cleaning and I/O workload
US10164841B2 (en) 2014-10-02 2018-12-25 Pure Storage, Inc. Cloud assist for storage systems
US10430282B2 (en) 2014-10-07 2019-10-01 Pure Storage, Inc. Optimizing replication by distinguishing user and system write activity
US9489132B2 (en) 2014-10-07 2016-11-08 Pure Storage, Inc. Utilizing unmapped and unknown states in a replicated storage system
US10230531B2 (en) * 2014-10-23 2019-03-12 Hewlett Packard Enterprise Development Lp Admissions control of a device
WO2016068941A1 (en) 2014-10-30 2016-05-06 Hewlett Packard Enterprise Development Lp Secure transactions in a memory fabric
US10715332B2 (en) 2014-10-30 2020-07-14 Hewlett Packard Enterprise Development Lp Encryption for transactions in a memory fabric
US9836229B2 (en) 2014-11-18 2017-12-05 Netapp, Inc. N-way merge technique for updating volume metadata in a storage I/O stack
US9727485B1 (en) 2014-11-24 2017-08-08 Pure Storage, Inc. Metadata rewrite and flatten optimization
US10089011B1 (en) * 2014-11-25 2018-10-02 Scale Computing Zero memory buffer copying in a reliable distributed computing system
US9773007B1 (en) 2014-12-01 2017-09-26 Pure Storage, Inc. Performance improvements in a storage system
US9588842B1 (en) 2014-12-11 2017-03-07 Pure Storage, Inc. Drive rebuild
US9552248B2 (en) 2014-12-11 2017-01-24 Pure Storage, Inc. Cloud alert to replica
US10083131B2 (en) * 2014-12-11 2018-09-25 Ampere Computing Llc Generating and/or employing a descriptor associated with a memory translation table
US9864769B2 (en) 2014-12-12 2018-01-09 Pure Storage, Inc. Storing data utilizing repeating pattern detection
US10013169B2 (en) 2014-12-19 2018-07-03 International Business Machines Corporation Cooperative data deduplication in a solid state storage array
US10545987B2 (en) 2014-12-19 2020-01-28 Pure Storage, Inc. Replication to the cloud
US9672106B2 (en) 2014-12-30 2017-06-06 Nutanix, Inc. Architecture for implementing erasure coding
US9569357B1 (en) 2015-01-08 2017-02-14 Pure Storage, Inc. Managing compressed data in a storage system
US11947968B2 (en) 2015-01-21 2024-04-02 Pure Storage, Inc. Efficient use of zone in a storage device
US10296354B1 (en) 2015-01-21 2019-05-21 Pure Storage, Inc. Optimized boot operations within a flash storage array
US9720601B2 (en) 2015-02-11 2017-08-01 Netapp, Inc. Load balancing technique for a storage array
US9710165B1 (en) 2015-02-18 2017-07-18 Pure Storage, Inc. Identifying volume candidates for space reclamation
US10528272B2 (en) 2015-02-20 2020-01-07 International Business Machines Corporation RAID array systems and operations using mapping information
US10037071B2 (en) 2015-02-25 2018-07-31 Texas Instruments Incorporated Compute through power loss approach for processing device having nonvolatile logic memory
US9762460B2 (en) 2015-03-24 2017-09-12 Netapp, Inc. Providing continuous context for operational information of a storage system
US10082985B2 (en) 2015-03-27 2018-09-25 Pure Storage, Inc. Data striping across storage nodes that are assigned to multiple logical arrays
US9710317B2 (en) 2015-03-30 2017-07-18 Netapp, Inc. Methods to identify, handle and recover from suspect SSDS in a clustered flash array
US10178169B2 (en) 2015-04-09 2019-01-08 Pure Storage, Inc. Point to point based backend communication layer for storage processing
CN104809037B (zh) * 2015-05-13 2018-04-13 深圳芯邦科技股份有限公司 eMMC基于特殊页的快速启动方法及装置
US10140149B1 (en) 2015-05-19 2018-11-27 Pure Storage, Inc. Transactional commits with hardware assists in remote memory
US10310740B2 (en) 2015-06-23 2019-06-04 Pure Storage, Inc. Aligning memory access operations to a geometry of a storage device
US9547441B1 (en) 2015-06-23 2017-01-17 Pure Storage, Inc. Exposing a geometry of a storage device
US10380633B2 (en) * 2015-07-02 2019-08-13 The Nielsen Company (Us), Llc Methods and apparatus to generate corrected online audience measurement data
US9740566B2 (en) 2015-07-31 2017-08-22 Netapp, Inc. Snapshot creation workflow
KR20170028825A (ko) 2015-09-04 2017-03-14 퓨어 스토리지, 아이앤씨. 압축된 인덱스들을 사용한 해시 테이블들에서의 메모리 효율적인 스토리지 및 탐색
US11341136B2 (en) 2015-09-04 2022-05-24 Pure Storage, Inc. Dynamically resizable structures for approximate membership queries
US11269884B2 (en) 2015-09-04 2022-03-08 Pure Storage, Inc. Dynamically resizable structures for approximate membership queries
US10452594B2 (en) * 2015-10-20 2019-10-22 Texas Instruments Incorporated Nonvolatile logic memory for computing module reconfiguration
US9843453B2 (en) 2015-10-23 2017-12-12 Pure Storage, Inc. Authorizing I/O commands with I/O tokens
US10331203B2 (en) 2015-12-29 2019-06-25 Texas Instruments Incorporated Compute through power loss hardware approach for processing device having nonvolatile logic memory
US10469246B2 (en) 2016-02-29 2019-11-05 Craxel, Inc. Efficient encrypted data management system and method
US10929022B2 (en) 2016-04-25 2021-02-23 Netapp. Inc. Space savings reporting for storage system supporting snapshot and clones
TWI579693B (zh) * 2016-04-29 2017-04-21 群聯電子股份有限公司 映射表載入方法、記憶體控制電路單元與記憶體儲存裝置
CN107548491B (zh) 2016-04-29 2020-10-16 慧与发展有限责任合伙企业 用于管理存储器的设备和方法以及存储介质
US10133503B1 (en) 2016-05-02 2018-11-20 Pure Storage, Inc. Selecting a deduplication process based on a difference between performance metrics
US10452297B1 (en) 2016-05-02 2019-10-22 Pure Storage, Inc. Generating and optimizing summary index levels in a deduplication storage system
KR102615593B1 (ko) * 2016-05-04 2023-12-21 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작 방법
CN107544913B (zh) * 2016-06-29 2021-09-28 北京忆恒创源科技股份有限公司 一种ftl表快速重建方法与装置
CN106201476B (zh) * 2016-06-29 2019-06-21 珠海豹趣科技有限公司 一种构建哈希映射表的方法、装置及电子设备
US10203903B2 (en) 2016-07-26 2019-02-12 Pure Storage, Inc. Geometry based, space aware shelf/writegroup evacuation
US9946660B2 (en) 2016-07-29 2018-04-17 Hewlett Packard Enterprise Development Lp Memory space management
US10566040B2 (en) * 2016-07-29 2020-02-18 Micron Technology, Inc. Variable page size architecture
US10642763B2 (en) 2016-09-20 2020-05-05 Netapp, Inc. Quality of service policy sets
US10191662B2 (en) 2016-10-04 2019-01-29 Pure Storage, Inc. Dynamic allocation of segments in a flash storage system
US10162523B2 (en) 2016-10-04 2018-12-25 Pure Storage, Inc. Migrating data between volumes using virtual copy operation
US10613974B2 (en) 2016-10-04 2020-04-07 Pure Storage, Inc. Peer-to-peer non-volatile random-access memory
US10756816B1 (en) 2016-10-04 2020-08-25 Pure Storage, Inc. Optimized fibre channel and non-volatile memory express access
US10481798B2 (en) 2016-10-28 2019-11-19 Pure Storage, Inc. Efficient flash management for multiple controllers
US10185505B1 (en) 2016-10-28 2019-01-22 Pure Storage, Inc. Reading a portion of data to replicate a volume based on sequence numbers
US10359942B2 (en) 2016-10-31 2019-07-23 Pure Storage, Inc. Deduplication aware scalable content placement
US10635648B2 (en) * 2016-11-30 2020-04-28 Nutanix, Inc. Entity identifier generation in distributed computing systems
US10567009B2 (en) 2016-12-06 2020-02-18 Nutanix, Inc. Dynamic erasure coding
US11550481B2 (en) 2016-12-19 2023-01-10 Pure Storage, Inc. Efficiently writing data in a zoned drive storage system
US10452290B2 (en) 2016-12-19 2019-10-22 Pure Storage, Inc. Block consolidation in a direct-mapped flash storage system
US11474736B2 (en) 2016-12-29 2022-10-18 Intel Corporation Network interface controller with non-volatile random access memory write packet log
US11093146B2 (en) 2017-01-12 2021-08-17 Pure Storage, Inc. Automatic load rebalancing of a write group
US10268543B2 (en) 2017-01-27 2019-04-23 Hewlett Packard Enterprise Development Lp Online volume repair
TWI613652B (zh) * 2017-03-27 2018-02-01 慧榮科技股份有限公司 資料儲存裝置以及其操作方法
US10528488B1 (en) 2017-03-30 2020-01-07 Pure Storage, Inc. Efficient name coding
US10409518B1 (en) 2017-04-20 2019-09-10 Seagate Technology Llc Reordered local data deduplication in storage devices
US11403019B2 (en) 2017-04-21 2022-08-02 Pure Storage, Inc. Deduplication-aware per-tenant encryption
US12045487B2 (en) 2017-04-21 2024-07-23 Pure Storage, Inc. Preserving data deduplication in a multi-tenant storage system
CN107102954B (zh) * 2017-04-27 2019-11-12 华中科技大学 一种基于失效概率的固态存储分级管理方法及系统
US10944671B2 (en) 2017-04-27 2021-03-09 Pure Storage, Inc. Efficient data forwarding in a networked device
US11010300B2 (en) * 2017-05-04 2021-05-18 Hewlett Packard Enterprise Development Lp Optimized record lookups
CN108877862B (zh) * 2017-05-10 2021-10-08 北京忆芯科技有限公司 页条带的数据组织以及向页条带写入数据的方法与装置
US10503608B2 (en) * 2017-07-24 2019-12-10 Western Digital Technologies, Inc. Efficient management of reference blocks used in data deduplication
US10402266B1 (en) 2017-07-31 2019-09-03 Pure Storage, Inc. Redundant array of independent disks in a direct-mapped flash storage system
KR20200037376A (ko) 2017-08-10 2020-04-08 후아웨이 테크놀러지 컴퍼니 리미티드 데이터 액세스 방법, 디바이스 및 시스템
US11157299B2 (en) * 2017-08-15 2021-10-26 Citrix Systems, Inc. Thin provisioning virtual desktop infrastructure virtual machines in cloud environments without thin clone support
US10831935B2 (en) 2017-08-31 2020-11-10 Pure Storage, Inc. Encryption management with host-side data reduction
KR102406666B1 (ko) 2017-09-20 2022-06-08 삼성전자주식회사 스냅샷 기능을 지원하는 키-밸류 스토리지 장치 및 상기 키-밸류 스토리지 장치의 동작 방법
US10776202B1 (en) 2017-09-22 2020-09-15 Pure Storage, Inc. Drive, blade, or data shard decommission via RAID geometry shrinkage
US10789211B1 (en) 2017-10-04 2020-09-29 Pure Storage, Inc. Feature-based deduplication
US10884919B2 (en) 2017-10-31 2021-01-05 Pure Storage, Inc. Memory management in a storage system
US10860475B1 (en) 2017-11-17 2020-12-08 Pure Storage, Inc. Hybrid flash translation layer
US10922239B2 (en) 2017-12-29 2021-02-16 Samsung Electronics Co., Ltd. Device for performing iterator operation in database
US10970395B1 (en) 2018-01-18 2021-04-06 Pure Storage, Inc Security threat monitoring for a storage system
US11144638B1 (en) 2018-01-18 2021-10-12 Pure Storage, Inc. Method for storage system detection and alerting on potential malicious action
US11010233B1 (en) 2018-01-18 2021-05-18 Pure Storage, Inc Hardware-based system monitoring
US10467527B1 (en) 2018-01-31 2019-11-05 Pure Storage, Inc. Method and apparatus for artificial intelligence acceleration
US11036596B1 (en) 2018-02-18 2021-06-15 Pure Storage, Inc. System for delaying acknowledgements on open NAND locations until durability has been confirmed
US11494109B1 (en) 2018-02-22 2022-11-08 Pure Storage, Inc. Erase block trimming for heterogenous flash memory storage devices
US10747439B2 (en) * 2018-03-02 2020-08-18 Intel Corporation Method and apparatus for power-fail safe compression and dynamic capacity for a storage device
KR102619954B1 (ko) * 2018-03-29 2024-01-02 삼성전자주식회사 데이터를 처리하기 위한 방법 및 이를 지원하는 전자 장치
US11934322B1 (en) 2018-04-05 2024-03-19 Pure Storage, Inc. Multiple encryption keys on storage drives
US11995336B2 (en) 2018-04-25 2024-05-28 Pure Storage, Inc. Bucket views
US11385792B2 (en) 2018-04-27 2022-07-12 Pure Storage, Inc. High availability controller pair transitioning
US10678433B1 (en) 2018-04-27 2020-06-09 Pure Storage, Inc. Resource-preserving system upgrade
US10678436B1 (en) 2018-05-29 2020-06-09 Pure Storage, Inc. Using a PID controller to opportunistically compress more data during garbage collection
US11436023B2 (en) 2018-05-31 2022-09-06 Pure Storage, Inc. Mechanism for updating host file system and flash translation layer based on underlying NAND technology
US10776046B1 (en) 2018-06-08 2020-09-15 Pure Storage, Inc. Optimized non-uniform memory access
US11281577B1 (en) 2018-06-19 2022-03-22 Pure Storage, Inc. Garbage collection tuning for low drive wear
US10642689B2 (en) * 2018-07-09 2020-05-05 Cisco Technology, Inc. System and method for inline erasure coding for a distributed log structured storage system
US11869586B2 (en) 2018-07-11 2024-01-09 Pure Storage, Inc. Increased data protection by recovering data from partially-failed solid-state devices
US11133076B2 (en) 2018-09-06 2021-09-28 Pure Storage, Inc. Efficient relocation of data between storage devices of a storage system
US11194759B2 (en) 2018-09-06 2021-12-07 Pure Storage, Inc. Optimizing local data relocation operations of a storage device of a storage system
JP6995723B2 (ja) 2018-09-19 2022-01-17 キオクシア株式会社 メモリシステム、ストレージシステム、および制御方法
US10846216B2 (en) 2018-10-25 2020-11-24 Pure Storage, Inc. Scalable garbage collection
US11113409B2 (en) 2018-10-26 2021-09-07 Pure Storage, Inc. Efficient rekey in a transparent decrypting storage array
US11194473B1 (en) 2019-01-23 2021-12-07 Pure Storage, Inc. Programming frequently read data to low latency portions of a solid-state storage array
CN111581117A (zh) * 2019-02-19 2020-08-25 睿宽智能科技有限公司 固态硬盘的未映像地址的重导向方法
US11588633B1 (en) 2019-03-15 2023-02-21 Pure Storage, Inc. Decommissioning keys in a decryption storage system
US11334254B2 (en) 2019-03-29 2022-05-17 Pure Storage, Inc. Reliability based flash page sizing
US11397674B1 (en) 2019-04-03 2022-07-26 Pure Storage, Inc. Optimizing garbage collection across heterogeneous flash devices
US11775189B2 (en) 2019-04-03 2023-10-03 Pure Storage, Inc. Segment level heterogeneity
US10990480B1 (en) 2019-04-05 2021-04-27 Pure Storage, Inc. Performance of RAID rebuild operations by a storage group controller of a storage system
US12087382B2 (en) 2019-04-11 2024-09-10 Pure Storage, Inc. Adaptive threshold for bad flash memory blocks
US11099986B2 (en) 2019-04-12 2021-08-24 Pure Storage, Inc. Efficient transfer of memory contents
US11487665B2 (en) 2019-06-05 2022-11-01 Pure Storage, Inc. Tiered caching of data in a storage system
US11281394B2 (en) 2019-06-24 2022-03-22 Pure Storage, Inc. Replication across partitioning schemes in a distributed storage system
CN110287129B (zh) * 2019-06-27 2021-07-13 深圳忆联信息系统有限公司 基于固态硬盘的l2p表更新及写入管理方法和装置
US10929046B2 (en) 2019-07-09 2021-02-23 Pure Storage, Inc. Identifying and relocating hot data to a cache determined with read velocity based on a threshold stored at a storage device
US11422751B2 (en) 2019-07-18 2022-08-23 Pure Storage, Inc. Creating a virtual storage system
US11086713B1 (en) 2019-07-23 2021-08-10 Pure Storage, Inc. Optimized end-to-end integrity storage system
US11963321B2 (en) 2019-09-11 2024-04-16 Pure Storage, Inc. Low profile latching mechanism
CN112486403A (zh) * 2019-09-12 2021-03-12 伊姆西Ip控股有限责任公司 管理存储对象的元数据的方法、装置和计算机程序产品
US11520738B2 (en) 2019-09-20 2022-12-06 Samsung Electronics Co., Ltd. Internal key hash directory in table
US11403043B2 (en) 2019-10-15 2022-08-02 Pure Storage, Inc. Efficient data compression by grouping similar data within a data segment
US11720714B2 (en) 2019-11-22 2023-08-08 Pure Storage, Inc. Inter-I/O relationship based detection of a security threat to a storage system
US12050689B2 (en) 2019-11-22 2024-07-30 Pure Storage, Inc. Host anomaly-based generation of snapshots
US11341236B2 (en) 2019-11-22 2022-05-24 Pure Storage, Inc. Traffic-based detection of a security threat to a storage system
US12067118B2 (en) 2019-11-22 2024-08-20 Pure Storage, Inc. Detection of writing to a non-header portion of a file as an indicator of a possible ransomware attack against a storage system
US11645162B2 (en) 2019-11-22 2023-05-09 Pure Storage, Inc. Recovery point determination for data restoration in a storage system
US11625481B2 (en) 2019-11-22 2023-04-11 Pure Storage, Inc. Selective throttling of operations potentially related to a security threat to a storage system
US11755751B2 (en) 2019-11-22 2023-09-12 Pure Storage, Inc. Modify access restrictions in response to a possible attack against data stored by a storage system
US11687418B2 (en) 2019-11-22 2023-06-27 Pure Storage, Inc. Automatic generation of recovery plans specific to individual storage elements
US11941116B2 (en) 2019-11-22 2024-03-26 Pure Storage, Inc. Ransomware-based data protection parameter modification
US12079333B2 (en) 2019-11-22 2024-09-03 Pure Storage, Inc. Independent security threat detection and remediation by storage systems in a synchronous replication arrangement
US11615185B2 (en) 2019-11-22 2023-03-28 Pure Storage, Inc. Multi-layer security threat detection for a storage system
US11675898B2 (en) 2019-11-22 2023-06-13 Pure Storage, Inc. Recovery dataset management for security threat monitoring
US11720692B2 (en) 2019-11-22 2023-08-08 Pure Storage, Inc. Hardware token based management of recovery datasets for a storage system
US11651075B2 (en) 2019-11-22 2023-05-16 Pure Storage, Inc. Extensible attack monitoring by a storage system
US11657155B2 (en) 2019-11-22 2023-05-23 Pure Storage, Inc Snapshot delta metric based determination of a possible ransomware attack against data maintained by a storage system
US12079502B2 (en) 2019-11-22 2024-09-03 Pure Storage, Inc. Storage element attribute-based determination of a data protection policy for use within a storage system
US11520907B1 (en) 2019-11-22 2022-12-06 Pure Storage, Inc. Storage system snapshot retention based on encrypted data
US12050683B2 (en) * 2019-11-22 2024-07-30 Pure Storage, Inc. Selective control of a data synchronization setting of a storage system based on a possible ransomware attack against the storage system
US12079356B2 (en) 2019-11-22 2024-09-03 Pure Storage, Inc. Measurement interval anomaly detection-based generation of snapshots
US11500788B2 (en) 2019-11-22 2022-11-15 Pure Storage, Inc. Logical address based authorization of operations with respect to a storage system
US20220382591A1 (en) * 2021-05-27 2022-12-01 Vmware, Inc. Managing resource distribution in global and local pools based on a flush threshold
US12086161B2 (en) 2021-07-09 2024-09-10 Craxel, Inc. Transforming relational statements into hierarchical data space operations
US11914587B2 (en) 2021-10-13 2024-02-27 Western Digital Technologies, Inc. Systems and methods for key-based indexing in storage devices
US11880608B2 (en) 2022-01-18 2024-01-23 Craxel, Inc. Organizing information using hierarchical data spaces
WO2023140967A1 (en) 2022-01-18 2023-07-27 Craxel, Inc. Composite operations using multiple hierarchical data spaces
JP2023136081A (ja) 2022-03-16 2023-09-29 キオクシア株式会社 メモリシステムおよび制御方法
TWI811151B (zh) * 2022-11-09 2023-08-01 金麗科技股份有限公司 快取裝置中管理記憶體寫入要求的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087544A1 (en) * 2000-06-20 2002-07-04 Selkirk Stephen S. Dynamically changeable virtual mapping scheme
JP2007087036A (ja) * 2005-09-21 2007-04-05 Hitachi Ltd スナップショット維持装置及び方法
JP2007094472A (ja) * 2005-09-27 2007-04-12 Hitachi Ltd スナップショット管理装置及び方法並びにストレージシステム
JP2008250667A (ja) * 2007-03-30 2008-10-16 Hitachi Ltd 記憶システムおよび記憶制御方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293597A (en) * 1987-03-09 1994-03-08 At&T Bell Laboratories Concurrent context memory management unit
US6038639A (en) 1997-09-09 2000-03-14 Storage Technology Corporation Data file storage management system for snapshot copy operations
US7031971B1 (en) 2003-03-21 2006-04-18 Microsoft Corporation Lock-free handle resolution
US7111147B1 (en) 2003-03-21 2006-09-19 Network Appliance, Inc. Location-independent RAID group virtual block management
US7139892B2 (en) * 2003-05-02 2006-11-21 Microsoft Corporation Implementation of memory access control using optimizations
US8019925B1 (en) 2004-05-06 2011-09-13 Seagate Technology Llc Methods and structure for dynamically mapped mass storage device
US7873782B2 (en) 2004-11-05 2011-01-18 Data Robotics, Inc. Filesystem-aware block storage system, apparatus, and method
US7620772B1 (en) * 2005-05-05 2009-11-17 Seagate Technology, Llc Methods and structure for dynamic data density in a dynamically mapped mass storage device
US7711897B1 (en) 2005-06-10 2010-05-04 American Megatrends, Inc. Method, system, apparatus, and computer-readable medium for improving disk array performance
US7730463B2 (en) * 2006-02-21 2010-06-01 International Business Machines Corporation Efficient generation of SIMD code in presence of multi-threading and other false sharing conditions and in machines having memory protection support
US7653832B2 (en) 2006-05-08 2010-01-26 Emc Corporation Storage array virtualization using a storage block mapping protocol client and server
US7711923B2 (en) * 2006-06-23 2010-05-04 Microsoft Corporation Persistent flash memory mapping table
KR101473344B1 (ko) 2007-08-24 2014-12-17 삼성전자 주식회사 플래시 메모리를 스토리지로 사용하는 장치 및 그 동작방법
US8032637B2 (en) 2007-12-26 2011-10-04 Symantec Corporation Balanced consistent hashing for distributed resource management
US7873619B1 (en) 2008-03-31 2011-01-18 Emc Corporation Managing metadata
US8041907B1 (en) 2008-06-30 2011-10-18 Symantec Operating Corporation Method and system for efficient space management for single-instance-storage volumes
US8200922B2 (en) 2008-12-17 2012-06-12 Netapp, Inc. Storage system snapshot assisted by SSD technology
US8452932B2 (en) 2010-01-06 2013-05-28 Storsimple, Inc. System and method for efficiently creating off-site data volume back-ups
US8788788B2 (en) 2011-08-11 2014-07-22 Pure Storage, Inc. Logical sector mapping in a flash storage array

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087544A1 (en) * 2000-06-20 2002-07-04 Selkirk Stephen S. Dynamically changeable virtual mapping scheme
JP2007087036A (ja) * 2005-09-21 2007-04-05 Hitachi Ltd スナップショット維持装置及び方法
JP2007094472A (ja) * 2005-09-27 2007-04-12 Hitachi Ltd スナップショット管理装置及び方法並びにストレージシステム
JP2008250667A (ja) * 2007-03-30 2008-10-16 Hitachi Ltd 記憶システムおよび記憶制御方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018509695A (ja) * 2015-02-23 2018-04-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ストレージ中のデータを管理するためのコンピュータ・プログラム、システム、および方法
US11157449B2 (en) 2015-02-23 2021-10-26 International Business Machines Corporation Managing data in storage according to a log structure
JP2017004514A (ja) * 2015-06-04 2017-01-05 華為技術有限公司Huawei Technologies Co.,Ltd. データ記憶方法、データ回復方法、関係する装置及びシステム
US9823970B2 (en) 2015-06-04 2017-11-21 Huawei Technologies Co., Ltd. Data storage method, data recovery method, related apparatus, and system
CN107748702A (zh) * 2015-06-04 2018-03-02 华为技术有限公司 数据存储方法、恢复方法、相关装置以及系统
US10133633B2 (en) 2015-06-04 2018-11-20 Huawei Technologies Co., Ltd. Data storage method, data recovery method, related apparatus, and system
JP2018518733A (ja) * 2015-12-25 2018-07-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ファイル操作方法及び装置
KR101826778B1 (ko) 2016-09-28 2018-03-22 현대오트론 주식회사 플래쉬 라이프 사이클 및 성능 개선을 고려한 eeprom 에뮬레이션 구현 방법
JP2022500723A (ja) * 2018-09-24 2022-01-04 セールスフォース ドット コム インコーポレイティッド データベースにおいてレコードを一括削除するためのシステムおよび方法
JP7507142B2 (ja) 2018-09-24 2024-06-27 セールスフォース インコーポレイテッド データベースにおいてレコードを一括削除するためのシステムおよび方法
JP2020184338A (ja) * 2019-05-01 2020-11-12 三星電子株式会社Samsung Electronics Co.,Ltd. 高帯域幅メモリ及びその動作方法並びに高帯域幅メモリシステム
JP7572483B2 (ja) 2023-03-09 2024-10-23 華為技術有限公司 ストレージシステム及びストレージシステムの稼働モードを切り替えるための方法

Also Published As

Publication number Publication date
US20140304472A1 (en) 2014-10-09
CN103827806A (zh) 2014-05-28
US20130042052A1 (en) 2013-02-14
JP6200886B2 (ja) 2017-09-20
CN105786408A (zh) 2016-07-20
CN103827806B (zh) 2016-03-30
US20140372689A1 (en) 2014-12-18
WO2013023200A1 (en) 2013-02-14
EP2742418A1 (en) 2014-06-18
US8788788B2 (en) 2014-07-22
CN105786408B (zh) 2019-09-17
US9454477B2 (en) 2016-09-27
US8645664B1 (en) 2014-02-04
US8856489B2 (en) 2014-10-07
US20140136810A1 (en) 2014-05-15
AU2012294218A1 (en) 2014-03-13
AU2012294218B2 (en) 2017-10-26
EP3364286A1 (en) 2018-08-22
US9454476B2 (en) 2016-09-27

Similar Documents

Publication Publication Date Title
JP6200886B2 (ja) フラッシュストレージアレイにおける論理セクタマッピング
USRE49011E1 (en) Mapping in a storage system
JP6124902B2 (ja) ストレージシステムにおける可変長符号化
USRE49148E1 (en) Reclaiming space occupied by duplicated data in a storage system
US10540343B2 (en) Data object attribute based event detection in a storage system
US9043540B2 (en) Systems and methods for tracking block ownership

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150811

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160628

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170828

R150 Certificate of patent or registration of utility model

Ref document number: 6200886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250