JP2015520588A - Fec技法を使用したキー値に基づく記憶システムに対する低遅延アクセスのための方法及びシステム - Google Patents

Fec技法を使用したキー値に基づく記憶システムに対する低遅延アクセスのための方法及びシステム Download PDF

Info

Publication number
JP2015520588A
JP2015520588A JP2015516007A JP2015516007A JP2015520588A JP 2015520588 A JP2015520588 A JP 2015520588A JP 2015516007 A JP2015516007 A JP 2015516007A JP 2015516007 A JP2015516007 A JP 2015516007A JP 2015520588 A JP2015520588 A JP 2015520588A
Authority
JP
Japan
Prior art keywords
delay
blocks
erasure correction
storage system
correction coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015516007A
Other languages
English (en)
Other versions
JP6279560B2 (ja
Inventor
ウラス, シー. コザット,
ウラス, シー. コザット,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2015520588A publication Critical patent/JP2015520588A/ja
Application granted granted Critical
Publication of JP6279560B2 publication Critical patent/JP6279560B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1096Parity calculation or recalculation after configuration or reconfiguration of the system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • H04L1/0047Decoding adapted to other signal detection operation
    • H04L1/0048Decoding adapted to other signal detection operation in conjunction with detection of multiuser or interfering signals, e.g. iteration between CDMA or MIMO detector and FEC decoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4408Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video stream encryption, e.g. re-encrypting a decrypted video stream for redistribution in a home network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

【課題】キー値に基づく記憶システムに対する低遅延アクセスのための方法及び装置が開示される。【解決手段】データをK個の部分に分割するステップと、複数の異なる要求タイプ及びオブジェクトサイズについての測定を通じて得られる遅延分布を所与として異なる数のパリティブロックが使用されるときの遅延性能のオフライン性能シミュレーションに基づく、キー値ストアにオブジェクトを置く遅延目標及び後続の読み出し要求の遅延目標の一方又は両方を満足するように生成すべきパリティブロックの数を求めるサブステップを含む、キー値に基づく記憶システムの遅延性能に応じてK個の部分に適用するための消失訂正符号化を選択するステップと、K個の部分に消失訂正符号化を適用して、N個のデータブロックを生成するステップと、別個の転送を使用してN個のデータブロックを記憶システムに送るステップとを含む。【選択図】図3

Description

本発明の実施形態は、記憶システムの分野に関し、より詳細には、本発明の実施形態は、記憶システム内のオブジェクトの記憶及び取り出しに順方向誤り訂正(FEC)を使用することに関する。
[優先権]
本特許出願は、2012年6月8日に出願された「A Method and Apparatus for Low Delay Access to Key−Value Based Cloud Storage Systems Using FEC Techniques」と題する、対応する米国仮特許出願第61/657,554号に対する優先権を主張し、それを参照により組み込む。
AmazonのS3のような公衆クラウドにおいて、小さいオブジェクト(たとえば、1キロバイト以下)に関する1回の読み出し又は書き込み動作に対する遅延が数百ミリ秒の遅延になる可能性があり、一方で中サイズのオブジェクト(たとえば、>1メガバイト)については、遅延は99及び99.9パーセンタイルにおいて秒単位になる。1つのトランザクションが同じストレージ設備に対する多くの読み出し及び書き込みを必要とするカスケード動作について、これらの遅延は許容できないほど大きくなる可能性がある。大きいメガバイト単位から構成されるビデオコンテンツについて、起動遅延を小さくすること、及び、ビデオ再生に中断が無いことを達成しながら、S3タイプのストレージをビデオアーカイブとしてどのように使用するかも重大な問題になる。
RAID、DHTに基づく分散型ストレージソリューション、コンテンツ配布ネットワークなど記憶システムにおいて、システム設計者は、データ、各データ部分を配置する場所、複製(コード化/非コード化)位置などをどのようにストライプ(stripe)するかを制御する。これらの既存のシステムの代表的なブロック図を図1に示す。図1を参照すると、記憶要素の完全な知識を有するストレージコントローラが、スループットを増大させるために記憶デバイス/システムに対する並列読み出し及び書き込みを実行する。このストレージコントローラは、信頼性のためのFEC符号化、及び、一部の記憶要素が故障した場合にデータを回復するためのFEC復号も利用する。ストレージコントローラは、最適な統合ソリューションのためにソフトウェアに基づく部分とハードウェアに基づく部分の両方を有することができる。
ビデオ通信について、ソース−宛先対の間で順次のストリーミングパケットを送るために順方向誤り訂正を適用すること、及び、並列な相関の弱い経路を使用することは既知の技法である。この技法の代表的な例示が図2に示されており、ソースノードはその宛先ノードにパケットを送るために3つの別個の経路を使用する。ソースパケットは、パケット損失に対する保護を拡張するためにパリティパケットを用いて拡張される。当該文脈において遅いパケットはパケット損失に相当するため、当該シナリオは、FECの遅延の影響を受けやすい適用及び経路の多様性として対処することができる。しかしながら、これらの設定において、別個の経路は、ソースにとっては複数の異なるインターフェース又は全体的なトポロジーに見える。
本明細書において、キー値に基づく記憶システムに対する低遅延アクセスのための方法及び装置が開示される。
一実施形態において、データをキー値ストアに置くための方法が、データをK個の部分に分割するステップであって、Kは整数である、分割するステップと、複数の異なる要求タイプ及びオブジェクトサイズについての測定を通じて得られる遅延分布を所与として異なる数のパリティブロックが使用されるときの遅延性能のオフライン性能シミュレーションに基づく、キー値ストアにオブジェクトを置く遅延目標及び後続の読み出し要求の遅延目標の一方又は両方を満足するように生成すべきパリティブロックの数を求めるサブステップを含む、キー値に基づく記憶システムの遅延性能に応じてK個の部分に適用するための消失訂正符号化を選択するステップと、K個の部分に消失訂正符号化を適用して、N個のデータブロックを生成するステップと、データブロックへの書き込みを求めるN個の書き込み要求を記憶システムに送るステップであって、各ブロックにはキー値ストア内の一意のキーが割り当てられる、送るステップとを含む。一実施形態において、N個のデータブロックは、並列及び直列転送の組み合わせを使用して送ることができる。一実施形態において、方法は、後続の読み出し動作に対する遅延目標が存在しない場合、N個の書き込み要求のうちのK個が首尾よく完了すると、最大N−K個の要求を取り消すステップをさらに含む。
別の実施形態において、続いてキー値ストアからデータを取得するための方法は、N個の要求を使用して、データの対応する一意のキーを使用してN個の部分を要求するステップと、データの別個の部分が取り出されるときに消失復号を適用するステップとを含む。一実施形態において、方法は、元のオブジェクトを復元するのにいずれかK個の部分で十分である場合、N個の要求のうちのK個からのK個の部分の受信が首尾よく完了した後、次いで未完了のままである最大N−K個の要求を停止するステップをさらに含む。
以下に与えられる詳細な説明から、及び、本発明の様々な実施形態の添付の図面から本発明はより十分に理解されよう。しかしながら、これらは本発明を特定の実施形態に限定するものととられるべきではなく、説明及び理解のためのものに過ぎない。
順方向誤り訂正(FEC)を使用する従来技術の記憶システムを示す図である。 通信ネットワークにおいて復号遅延を低減するためにFEC及び多経路ルーティングを連携して使用することの一例を示す図である。 本発明による記憶システムの一実施形態のブロック図である。 ストレージコントローラアプリケーションの一実施形態の機能ブロック図である。 読み出し/書き込みジョブを実行し、現在のジョブのサービスが完了したときにタスク待ち行列から新たなジョブを得る並列スレッドを示す図である。 各々が一意のキーを有するサブブロックに分割されている一意の名前を有するオブジェクトの一例を示す図である。 相補累積分布関数(CCDF)曲線の使用を示す図である。 データベースに記憶されている複数の異なるクラウド位置についての遅延性能に関する生データを示す図である。 データの処理から判定される遅延性能を示す図である。遅延性能が、4タプル(位置、演算型、オブジェクトサイズ範囲、RTT遅延パーセンタイル)からRTT遅延値へのマッピングからの表形式で記憶されている。 生データの処理からオフラインで作成される性能表を示す図である。性能表は様々なオブジェクトサイズについての仮説的FECシナリオに関するものである。 要求ハンドラによって実行される読み出し要求処理の過程の一実施形態の流れ図である。 要求ハンドラによって実行される書き込み要求処理の過程の一実施形態の流れ図である。 ストレージコントローラによって実行される過程の一実施形態の流れ図である。 ストレージコントローラによって実行される過程の別の実施形態の流れ図である。 ストレージゲートウェイ又はクライアントデバイスの一実施形態のブロック図である。 ストレージコントローラによって実行される過程の代替的な実施形態の流れ図である。
本発明の実施形態は、クラウドに基づく記憶システムにおける、たとえば、限定ではないが、ビデオ、画像、文書、メタデータなどのようなデータオブジェクトの記憶及び取り出しにおけるより堅固な遅延性能を提供するための方法及び装置を含む。クラウドに基づく記憶システムは、Amazon S3のような公衆クラウドを含んでもよい。本明細書に説明する1つ又は複数の技法は、データが生成及び/又は消費されるホストデバイスによって、並びに、ホストデバイスとストレージ設備との間に存在するプロキシノードによって使用され得る。
公衆ストレージ設備は、APIクライアント(ホスト又はプロキシノード)とAPIサーバ(ストレージ設備に存在する)との間の接続を開く、当該ストレージ設備のAPIを使用することによってアクセスされる。APIを通じて、クライアントは、適切な場合に、セキュリティ証明書、オブジェクトを一意に識別するためのローカルキー及びグローバル名、オブジェクトを表すバイト列などを提供するプット(put)、取得、削除、コピー、リストなどの要求を発行することができる。したがって、クラウド記憶システムのこれらの態様は制御することができない。本発明の実施形態は、バックエンド記憶システムの内部を占有又は制御せず、記憶システムは、記憶システムのストレージサービスを明確に定義されたAPIを通じて提供する「ブラックボックス」として扱われる。データオブジェクトがAPIを通じて書き込み/読み出し/コピーされた後で、ストレージクライアントは、データがどのようにストライプ及び保護されたか、動作がどのように並列化及び負荷平衡されたかなどの可視性を有しない。クライアントは、クライアントの要求がクラウドに基づく記憶システム内でどのように演算上実行されるかについて不可知であるが、クライアントは、クライアントの要求を解決するときに受けるエンドツーエンド遅延の影響に対して敏感である。
本発明の実施形態は、キー値に基づく記憶システムにおけるテイルパフォーマ(tail performer)をなくすために、固定レート消失訂正符号化技法を利用する。クライアント又は他のストレージアクセスシステム/デバイス(たとえば、1つ又は複数の記憶システムに対する、ネットワークに結合されているゲートウェイ)は、順序付けされたオブジェクトセットを作成するために、より大きいオブジェクトを、より小さいオブジェクト又はグループ一般的にともに使用される小さいオブジェクトに分割する。一実施形態において、セットの各オブジェクトは事前構成のサイズよりも小さくなければならない(たとえば、バイト単位)。最も小さいインデックス値から始まって最も大きいインデックス値までのオブジェクトが、各ブロックが事前構成のサイズまでパディングされた後に固定レート消失訂正符号化器に対する入力ブロックとして与えられる。たとえば、順序付けされたセットが濃度Kを有し、消失訂正符号レートがK/Nである場合、符号化器は、同じ固定サイズの(N−K)個の出力パリティブロックを生成する。クライアントは、公衆ストレージ設備におけるN個の順序付けされた一意のキーを使用して、元のK個のソースブロック及び(N−K)個のパリティブロックを別個に記憶する。クライアント(又はストレージアクセスシステム/デバイス)が、大きいオブジェクト又はオブジェクトグループをプット/書き込み又は取得/読み出しする必要があるとき、クライアントは、すべてのソースブロックに対する一意のキー及び大きいオブジェクト又はオブジェクトグループに関連付けられるパリティブロックを使用して、N個の並列プット/書き込み又は取得/読み出し要求を送る。クライアント(又はストレージアクセスシステム/デバイス)が、これらのN個の要求の任意のサブセットに対するK個の有効な応答を受信すると、クライアントは動作を完了したものとして考える。要求がプット/読み出し要求であった場合、クライアントは、元のK個のより小さいオブジェクトを、消失復号を通じて再構築する。再構築において、キーの順序が、消失訂正符号化器によって生成される符号語内でより小さいオブジェクト及びパリティブロックの順序を判定するのに使用される。そのような場合、システム内で消失訂正符号化を使用することは、ストレージ信頼性を増大させるためでもパケット損失を処理するためでもなく、低いストレージ及び通信オーバヘッドにおける遅延性能を向上させるためである。
最も早いK個の応答が動的に又は静的に決定された遅延閾値を超えて遅延されたとき、クライアント(又はストレージアクセスシステム/デバイス)は、本来要求されていたセット内のすべてのオブジェクトを復元するのに十分である、N個のキーのサブセットに対する最小数の新たなプット/書き込み又は取得/読み出し要求を発行する。
本発明の実施形態は、公衆クラウド記憶システムが大きい遅延ジッタを呈する場合に公衆クラウド記憶システムに記憶されているオブジェクトに対する読み出し要求と書き込み要求都の両方に関する堅固な遅延性能を与える。遅延対オーバヘッド性能は、複数の異なるFECレート(コード化なしを含む)を使用してコンテンツベースでトレードオフされ得る。システムは、書き込みのみ、読み出しのみ、又は読み出し及び書き込みの両方の性能を対象とすることができるように設計され得る。パリティブロックは、信頼性又は可用性に影響を与えることなく任意に削除され得、これは、信頼性又は可用性の保証がストレージサービスによって直交して与えられるためである。より堅固な遅延性能を有するそのような実施形態は、より重要なコンテンツに対して選択的に低い遅延を保証するのに使用され得る。
本発明の実施形態において使用されるFEC及びバックエンド記憶システムによって適用されるFEC(適用される場合)は、互いに相補的であり、ともに結合されない。本発明の実施形態は、高い信頼性及び可用性を達成するために、パリティブロックをストレージに対して読み出し/書き込みせず、これは、これらの信頼性及び可用性の目標が、バックエンド記憶システムによってすでに満たされているためである。そのため、本明細書に記載されている技法によって生成されるパリティブロックを失うことは、再生成を必要とせず、可用性のために重大でもない。事実、記憶空間を節約するために、又は記憶コストを低減するために、パリティブロックは任意に削除され得る。さらに、バックエンド記憶システムにおいて信頼性を増大させるためにFECが使用されるとき、システムに不要な負荷がかかるのを回避するために、通常の故障のないシナリオの間、読み出し動作はパリティブロックを読み出すことを必要としない。FECを用いる書き込み動作も、システムが、故障が発生したときの復元可能性を保証するためにすべてのパリティブロックが書き込まれることを保証しなければならないようなシステムにおいてより大きい遅延を引き起こす可能性がある。対照的に、本発明の実施形態は、最初のk個のブロックが首尾よく書き込まれることのみを考慮し、これが遅延を低減する鍵となる。
本発明の実施形態の1つの特徴は、当該特徴が、バックエンドストレージを、非決定的遅延性能を有する「ポイントツーポイントチャネル」(ストレージクライアントと記憶システムとの間)として扱うことである。本発明の実施形態は、様々な範囲のオブジェクトサイズについてシステムの遅延分布を構築し、様々なFEC戦略(すなわち、(n,k)の複数の異なるタプルについて)及び並列化をともに使用して遅延分布を再構築する。クライアント(又はストレージアクセスシステム/デバイス)が所与のパーセンタイルにおいて特定の遅延性能を目標とするとき、クライアントは、当該性能を実現するための並列化及びFEC戦略を選定する。
以下の詳細な説明において、本発明のより完全な説明を提供するために、多数の詳細が記載される。しかしながら、本発明はこれらの具体的な詳細なしに実施されることができることは当業者には明らかであろう。他の事例において、本発明が不明瞭になるのを避けるために、既知の構造及びデバイスが、詳細にではなくブロック図形式で示されている。
以下の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する動作のアルゴリズム及び記号的表現に関連して提示されている。これらのアルゴリズム記述及び表現は、データ処理分野の当業者が、自身の研究の内容を他の当業者に最も効率的に伝達するのに使用する手段である。アルゴリズムは本明細書において、また一般的に、所望の結果をもたらす首尾一貫したステップシーケンスであると考えられる。ステップは、物理量の物理的操作を必要とするものである。通常、必須ではないが、これらの物理量は、記憶、転送、組み合わせ、比較、及び他の様態で操作されることが可能な電気又は磁気信号の形態をとる。時として、主に一般的な使用状況の理由から、これらの信号をビット、値、要素、記号、文字、用語、数などとして参照することが簡便であることが分かっている。
しかしながら、これらの及び類似の用語のすべてが適切な物理量に関連付けられるべきであり、これらの物理量に適用される簡便な標識に過ぎないことが留意されるべきである。以下の説明から明らかなように別途特記されない限り、本明細書全体を通じて、「処理(processing)」又は「計算(computing)」又は「算出(calculating)」又は「決定(determining)」又は「表示(displaying)」などのような用語を利用した説明は、コンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータを操作及び変換して、コンピュータシステムメモリ若しくはレジスタ又は他のそのような情報記憶、送信若しくは表示デバイス内の物理量として同様に表わされる他のデータにするコンピュータシステム、又は類似の電子計算デバイスの動作及び過程を指すことが諒解される。
本発明は、本明細書における動作を実行するための装置にも関する。本装置は、必要とされる目的に特別に構築されてもよく、又は、コンピュータに記憶されているコンピュータプログラムによって選択的に起動又は再構成される汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、限定ではないが、フロッピーディスク、光ディスク、CD−ROM、及び光磁気ディスクを含む任意のタイプのディスク、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気若しくは光カード、又は、電子命令を記憶するのに適しており、各々がコンピュータシステムバスに結合される任意のタイプの媒体のような、コンピュータ可読記憶媒体に記憶されてもよい。
本明細書に提示されているアルゴリズム及び表示は、本質的に任意の特定のコンピュータ又は他の装置に関係するものではない。様々な汎用システムが、本明細書における教示によるプログラムによって使用されてもよく、又は、必要とされる方法ステップを実行するのにより特化された装置を構築することが簡便であることが分かる場合がある。様々なこれらの汎用システムに必要とされる構造は、下記の説明から明らかになる。加えて、本発明は、いかなる特定のプログラミング言語を参照しても説明されない。本明細書に記載されているような本発明の教示を実施するのに様々なプログラミング言語が使用されてもよいことが諒解されよう。
機械可読媒体は、情報を機械(たとえば、コンピュータ)によって読み取り可能な形態で記憶又は送信するための任意の機構を含む。たとえば、機械可読媒体は、読み出し専用メモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイスなどを含む。
概説
図3は、記憶システムの一実施形態のブロック図である。図3を参照すると、一実施形態において、アーキテクチャに対する3つの主な構成要素、すなわち、アプリケーション301、キー値ストアクライアント302、及び分散キー値ストア303がある。
アプリケーション301は、記憶システムの消費者である。アプリケーション301は、バックエンドストレージ(たとえば、分散キー値ストア303)に記憶されるべきデータを生成し、バックエンドストレージに記憶されているデータをダウンロードする。
キー値ストアクライアント302は、バックエンドストレージ、すなわち、分散キー値ストア303を用いてアプリケーション301とインターフェースする。一実施形態において、キー値ストアクライアント302は、アプリケーション301の要求を受信し、当該要求に応答し戻すために、アプリケーション301にAPIを与える。これらの要求は、読み出し及び書き込み要求(310)及び応答(311)を含む。一実施形態において、読み出し要求はファイル名(fname)を指定し、書き込み要求は、記憶されているファイル名(fname)及びデータオブジェクト(value)を指定する。一実施形態において、読み出し応答は、読み出し応答及び要求されたデータオブジェクト(value)を指定し、書き込み応答は、データオブジェクトがバックエンドストレージに首尾よく記憶された又はされなかったことを示す応答を指定する。
一実施形態において、キー値ストアクライアント302は、アプリケーション301に応答し戻す前にアプリケーション301からの要求を解決するためにバックエンドストレージに後続の要求を発行するためにバックエンドストレージによって与えられるAPIを使用する。一実施形態において、キー値ストア303に対する読み出し要求はRead<Key−1>の形態をとり、キー値ストア303に対する書き込み要求はWrite<Key−1,value,metadata>の形態をとり、Key−1はキー値ストア303内の位置を指定し、「value」は書き込まれているデータオブジェクトを指定し、「metadata」は記憶されているデータオブジェクトに関連付けられるメタデータを指定する。一実施形態において、キー値ストア303からの読み出し応答はRead<response,value>の形態をとり、キー値ストア303からの書き込み応答はWrite<response>の形態をとり、「response」は動作が首尾よく実行されたか否かを指定し、「value」はキー値ストア303から読み出されているデータオブジェクトを指定する。「value」がキー値ストレージから返された、又は、キー値ストアクライアントからキー値ストレージへ送られた場合、この値は、データオブジェクトの非コード化部分又は符号化部分のいずれかに対応する。各部分(ソース又はパリティ)は所与のサイズのオブジェクト(すなわち、バイト列)として扱われ、「value」はこのとき、データにアクセスするのに使用されるキーに応じてソースブロック又はパリティブロックである。
一実施形態において、最初のK個のキーはデータオブジェクトのK個のブロックの非コード化シーケンスに対応し、(K+1)番目〜N番目のキーは、データオブジェクトに関連付けられるパリティブロックに対応することに留意されたい。一実施形態において、メタデータは、キー値ストアクライアント302にあるメモリ又はディスクにローカルに記憶されていない場合にのみ読み出されることにも留意されたい。下記により詳細に説明されるように、キー値ストアクライアント302は、K個の成功した読み出し/書き込み回答を受信した後にのみ、アプリケーション301に応答を返す。
一実施形態において、キー値ストアクライアント302は、アプリケーション301のデータを記憶し、アプリケーション301の要求を解決するために、それ自体のローカルディスク302A及びメモリ内キャッシュ302Bを有する。一実施形態において、キー値ストアクライアント302はまた、FECを適用した、及び、FECを適用していない、複数の異なるパケット範囲に対する遅延の累積分布関数をモデル化する。一実施形態において、キー値ストアクライアント302は、読み出し書き込み要求を、分散ストレージバックエンドを用いて並列化する役割も担う。
分散キー値ストア303は、オブジェクト(たとえば、一連の不透明なバイト)の書き込み、読み出し、削除、コピーのような動作のために、API及び/又はライブラリをストアクライアントに与える分散ストレージバックエンドである。そのようなストレージバックエンドの一般的な例は、限定ではないが、Amazon S3、Cassandra、DynamoDBなどを含む。一実施形態において、キー値ストア303は、持続性で、可用性が高く、耐久性のある記憶を可能にする。この記憶を達成するために、キー値ストア303は、同じオブジェクトの複数のコピーが、複数の異なる物理的位置に記憶され、複数の異なる物理的位置からアクセスされる複製を使用する。一実施形態において、より高い記憶効率で耐久性を増大させるために、キー値ストア303は、データオブジェクト内の(すなわち、データストライプと連動する)、又はデータオブジェクトにわたるFEC保護を使用する。そのような特徴は、アプリケーション301及びキー値ストアクライアント302の両方に対してトランスペアレントである。
一実施形態において、アプリケーション301及びキー値ストアクライアント302によって実行される過程は、同じ物理的機械上で作動する。別の実施形態において、それらの過程は、異なる物理的機械上で作動され、直接、又はネットワークを介して通信することができる。
図4は、図3の分散キー値ストア303のような分散キー値ストアからのオブジェクトを記憶及び取り出しするための、異なるブロック間の関係を含む、図3のキー値ストアクライアント302のようなキー値ストアクライアントによって実行されるアプリケーションのブロックを示すブロック図である。一実施形態において、キー値ストアによって与えられるAPIを直接使用するとき、ユーザアプリケーション301は、ユーザアプリケーションのオブジェクトをプット又は取得するときにエンドツーエンド遅延の性能変動を見ることができる。一実施形態において、ユーザアプリケーション301によって使用されるAPIは、キー値ストアによって与えられるAPIと同様であるか、又はそのAPIの正確なクローンである。ユーザアプリケーションによって使用されるAPIは、図4において符号350を付されているインターフェースに対応する。一実施形態において、API自体が、要求される動作に対する遅延目標を指定する任意選択のパラメータをサポートする。別の実施形態において、遅延目標を大域的に設定するための管理インターフェースを通じて、構成選択肢がユーザアプリケーション301に与えられる。一実施形態において、両方の選択肢が利用可能である。
図4のキー値クライアントアプリケーションによって実行される中心的な動作は、読み出し及び書き込み動作である。図11は、読み出し動作を実行するための過程の一実施形態を示す流れ図であり、図12は、書き込み動作を実行するための過程の一実施形態を示す流れ図である。これらの読み出し及び書き込み動作は下記により詳細に説明する。
図4を参照すると、インターフェース350を通じて読み出し要求を受信した後、1セットの条件下で(たとえば、基礎となるクラウドAPIによって誤りが報告されていない通常条件下で)、以下の動作が行われる。
1.要求ハンドラ400が、入来するメッセージ自体から、要求されるオブジェクト(O)の一意のID及び遅延目標Dを抽出する。図11において、この第1の抽出動作は処理ブロック1100に対応する。
2.ストレージ階層内で要求されているオブジェクトが記憶されている場所を判定するために、要求ハンドラ400がインターフェース401を使用して、要求されているオブジェクトの一意のIDを有する位置マッパ410にマッピングサービスを発行する。オブジェクトがローカル(たとえば、キー値ストアクライアントのメモリ内キャッシュ又はローカルディスク)に記憶されている場合、要求ハンドラ400は、ローカルストレージ(図4には示さず)からデータを取り出し、オブジェクトをユーザアプリケーションに送る。これらの方法ステップは、図11の処理ブロック1110及び1155に対応する。
3.要求されているオブジェクトがローカルに記憶されていない場合、位置マッパ410は、オブジェクト(O)に対応する順序付けされたキー値セット(Key,・・・,Key)、及び、キーによっていずれのデータストアが使用されるべきかを返す(図11のブロック1120)。この順序付けされたキー値セットは、要求されているオブジェクトのソースブロック及びパリティブロックを指し示す。たとえば、ユーザアプリケーションがビデオファイル「foo.mpeg」(図6参照)を読み出すことを望む場合、オブジェクト名を与えられたユーザアプリケーションは、開示されているクライアント(たとえば、クライアント302)の一意のIDを生成するための一意のアプリケーションIDを前に付けられ得る。図6に示す例において、「foo.mpeg」はは、最後の書き込み動作の結果として、10個の均等な部分に分割され(すなわち、K=10)、これらの10個の均等な部分は、交換可能にソースブロック又はサブブロックと称される。これらの均等な部分は、元のコンテンツにおけるそれらのバイト順序に関連して列挙され、一意のキー、たとえば、<UID,foo.mpeg.part1>、・・・、<UID,foo.mpeg.part10>を割り当てられる。本明細書における目的のために、<*,*>という表記は、コンマによって分離されている2つの部分列を連結するのに使用される。これらのサブブロックは、各々が順序を保持するように一意のキーを割り当てられるパリティブロックを生成するために、リードソロモンコーダのようなFEC符号化器430にさらに入力される。キー割り当てについて、<UID,foo.mpeg.partK+1>〜<UID,foo.mpeg.parkN>は、それぞれパリティブロック1〜(N−K)に割り当てられる。前回このオブジェクトが更新されたとき、このオブジェクトには、6つの追加のパリティブロックが書き込まれている(すなわち、K=10についてN−K=6又はN=16)。したがって、FEC符号化器430によって出力された順序に従って、一意のキー標識<UID,foo.mpeg.part11>、・・・、<UID,foo.mpeg.part16>があることになる。特定のアプリケーションのための「foo.mpeg」からこれらの一意のキーへのマッピング、及び、これらのキーのうち元のオブジェクトストライプに対応する個数に関する情報がメタデータとして持続的に記憶され、要求ハンドラ400近くにキャッシュされる。要求ハンドラ400がオブジェクト<UID,foo.mpeg>についてのマッピングサービスを発行すると、位置マッパ410は、この一意のキー標識のリスト、及び、標識ごとのバックエンドストレージIDによって応答することができる。図4において、2つのバックエンド記憶位置が、私的クラウド470及び公衆クラウド490として識別される。キーに対応するソース又はパリティブロックが、複数の記憶位置、たとえば、<UID,foo.mpeg.part16>に記憶され得、470及び490の両方において利用可能な当該ブロックの値を有することができる。その場合、両方の位置が、それらの位置の間の優先傾向なしで位置マッパ410によって返される。
4.要求ハンドラ400は、遅延目標D(一実施形態においてユーザアプリケーション301からのアプリケーション要求において指定される)、ソースブロックの数及びソースブロックサイズの情報(各オブジェクトについて持続的に記憶されているメタデータから取り出される)をクラウド性能モニタ420に渡し、クラウド性能モニタは、発行されるべき並列の線形独立要求の数に関する情報、及び、記憶クラウドの優先傾向順序を返す。一実施形態において、必要とされる並列の独立要求の数を求めるために、読み出し又は書き込み動作が行われるかにかかわらず、要求がワイヤ上に置かれた時点から完了応答が受信されるまでの動作の遅延が記録されることに留意されたい。CPMは、この遅延の情報を使用して複数の異なるオブジェクトサイズについての遅延分布を構築する。その後、CPMは、FECによって使用されるブロックサイズに近いオブジェクトの遅延分布を使用して異なるFECが利用された場合、オフライン遅延分布を計算する。これらの動作は、図11のブロック1130の決定を行うのを補助する。一実施形態において、並列要求の数はK以上であり、N以下である。したがって、{Key1,・・・,Key}内の任意のキーサブセットSが要求ハンドラ400によって選定され得る。一実施形態において、私的クラウド270がコピーを有し、輻輳していない場合、私的クラウド270は公衆クラウド490よりも高い優先傾向でリストされる。私的クラウド470が公衆クラウド490と比較して過剰な負荷及び遅延を見込む場合、公衆クラウド490はより高い優先傾向を有し得る。
5.要求ハンドラ400は、クラウド性能モニタ420の出力を使用して並列読み出しジョブを用意し(図11のブロック1140)、各ジョブはソース又はパリティブロックに対応する1つの一意のキーに対するものである。一実施形態において、各ジョブは、いずれのクラウド位置がそのジョブに使用されるべきかがそのジョブ記述に含まれているという意味で、自己記述的である。同じオブジェクトに対応するすべての並列読み出しジョブが、バッチとしてタスク待ち行列440に渡される。一実施形態において、バッチ内のジョブに、他のバッチに属するジョブは挟み込まれない。
6.インターフェース404は2つの目的、すなわち、(i)実際のジョブを渡すこと、及び(ii)ジョブ又はバッチ属性を渡すことをサービスする。要求ハンドラ400は、ジョブ又はバッチ属性を「取り消し」に変更することによって、個々のジョブ又は所与のバッチのすべてのジョブを取り消すことができる。ジョブが依然としてその待ち行列にある場合、タスク待ち行列440がジョブを削除する。それ以外の場合、タスク待ち行列440はジョブを処理するスレッドに停止命令を発行する。
7.ワーカスレッド(スレッド450及び460)は、一度に1つのジョブをサービスし、ワーカスレッドの現在のジョブが完了すると(ブロック1150を実行するために要求ハンドラ400に渡される)、ワーカスレッドはタスク待ち行列440からの新たなタスクを要求する。タスク待ち行列440は、要求しているワーカスレッドに先頭のジョブを渡す。ワーカスレッドは、ジョブ記述を使用して複数の異なるクラウド位置にアクセスすることができる。これらの複数の異なるクラウドにアクセスするためのAPIは異なり得、したがって、位置情報が、いずれのクラウドインスタンスが使用されるべきか、及び、いずれのAPI呼び出しが発行されなければならないかを指示する。進行中のジョブに対する停止命令が受信された場合、ワーカスレッドはその現在のジョブを取り消し、ジョブステータスを要求ハンドラ400に返すことができ、新たなジョブを要求する。
8.FECが使用される場合、要求ハンドラ400は、所与のバッチのソースブロック及びパリティブロックがいくつかのワーカスレッドによって返されたとき、それらのソースブロック及びパリティブロックをFEC復号器430に渡す。返されたブロックがソースブロックである場合、そのブロックはまた、要求ハンドラ400によって保持される。FEC復号器430は、任意の欠けているソースブロック(まだ受信されていない)を復元することが可能であるとき、復元されたソースブロックを要求ハンドラ400に渡す(図11の処理ブロック1151及び1152)。
9.一実施形態において、要求されているオブジェクトのすべてのソースブロックを受信する(図11の処理ブロック1153及び1154)と、要求ハンドラ400は、ユーザアプリケーションにオブジェクトOを送り戻す(図11の処理ブロック1155)。別の実施形態において、要求ハンドラ400は、ユーザアプリケーションがソースブロックを順序よく読みだすことが出来るストリームチャネルを開く。そのような場合、ユーザアプリケーションは、要求ハンドラ400によってオブジェクト全体が復元される前に、バイトストリームの受信を開始することができる。
10.所与のバッチについてすべてのソースブロックが復元された後で、要求ハンドラ400は、同じバッチの残りのジョブについて取り消し要求をタスク待ち行列440に発行する(図11の処理ブロック1154)。
一実施形態においてオブジェクトが読み出されたとき、要求ハンドラ400は、まだ私的クラウド470に記憶されていないブロックについて、書き込み要求をバックグラウンドジョブとして私的クラウド470に発行する。この発行によって、将来同じオブジェクトのために公衆クラウド490に接続する必要性が回避される。キャッシングは、複数の階層で行われ得、メモリ内又はローカルディスク内記憶のキャッシュ入れ替え方針が、私的クラウド470に対する書き込み動作を引き起こし得る。
インターフェース350を通じて書き込み要求を受信した後、1セットの条件下で(すなわち、基礎となるクラウドAPIによって誤りが報告されていない通常条件下で)、以下の動作が行われる。
11.要求ハンドラ400が一意のIDを抽出し、オブジェクト全体、並びに、同じオブジェクトOに対する現在の書き込み動作の遅延目標(D)及び/又は後続の読み出し動作の遅延目標(D)を受信する(図12の処理ブロック1200)。一実施形態において、オブジェクトはローカルにキャッシュ/記憶される。
12.要求ハンドラ400は、インターフェース402を使用してクラウド性能モニタ420に、オブジェクトサイズ並びに書き込み及び読み出し遅延目標を渡す。クラウド性能モニタ420は、遅延目標を達成するために並列に送られるべきソースの数(すなわち、K)及びパリティブロックの数(すなわち、N−K)に関する情報を返す(図12の処理ブロック1210)。
13.FECが利用されるべきである場合、要求ハンドラ400は、クラウド性能モニタ420による出力を使用してオブジェクトをK個のソースブロックに分割し、クラウド性能モニタ420に従って必要とされる数に一致するN−K個のパリティブロックを生成するようFEC符号化器430に求める(図12の処理ブロック1220、1230及び1240)。FECが使用されない場合、単一の一意のキー割り当て(たとえば、Key)、単一の書き込みジョブを発行すること、書き込みジョブが首尾よく完了したときに成功結果を送り戻すことが、実行されるデフォルトの動作セットである(図12の処理ブロック1222、1224、1226、1290)。
14.要求ハンドラ400は、同じ書き込み動作の一部として書き込まれるべき各ソースブロック及びパリティブロックを標識するための一意のキーの順序付けされたセットS(Key,・・・,Key)を生成する。一実施形態において、このメタデータは、ローカルに持続的に記憶され、また、書き込みジョブにタグ付けされる(すなわち、公衆クラウド490もメタデータを記憶することになる)。図6の例を使用して、元のオブジェクトが10個のソースブロックに分割され、FEC符号化器430が6個のパリティブロックを生成する。したがって、要求ハンドラ400は、所与のオブジェクトのソースブロック及びパリティブロックを個々に、また一意に識別するために、16個の一意のキーから成るセットを作成し順序付けされた。これらの動作は、図12の処理ブロック1250及び1260の一部として実行される。
15.要求ハンドラ400は過剰なパリティブロックをキャッシュし、各ジョブがあらたに生成された順序付けされているセットの一意のキーに関する書き込み要求であるジョブの新たなバッチを生成する。このジョブのバッチはタスク待ち行列440に渡される。以上のこれらの動作は、図12の処理ブロック1270に対応する。一実施形態において、バッチ内のジョブに、他のバッチに属するジョブは挟み込まれない。別の実施形態において、ジョブが「バックグラウンドジョブ」ステータスに格下げされる場合、ジョブは挟み込まれる。
16.一実施形態において、要求ハンドラ400は、ジョブ又はバッチ属性を「バックグラウンドジョブ」に変更することによって、個々のジョブ又は所与のバッチのすべてのジョブを格下げすることができる。このとき、要求ハンドラ400は、より優先傾向の高いジョブをこれらのバックグラウンドジョブの前に移動させることができる。バックグラウンドトラフィックに格下げされている複数の異なるバッチのジョブは、先着順に処理される。属性の変化はインターフェース404を通じて行われる。
17.一実施形態において、ワーカスレッド450及び460は、一度に1つのジョブをサービスし、ワーカスレッドの現在のジョブが完了すると、ワーカスレッドはタスク待ち行列440からの新たなタスクを要求する。タスク待ち行列440は、要求しているワーカスレッドに先頭のジョブを渡す。ワーカスレッド450及び460は、ジョブ記述を使用して複数の異なるクラウド位置にアクセスすることができる。これらの複数の異なるクラウドにアクセスするためのAPIは異なり得、したがって、位置情報が、いずれのクラウドインスタンスが使用されるべきか、及び、いずれのAPI呼び出しが発行されなければならないかを指示する。
18.要求ハンドラ400は、所与のバッチに関するワーカスレッド450及び460からの成功した書き込み応答(すなわち、ACK又は肯定応答)の数をリスンする。十分な数の成功した書き込み応答(すなわちACK)を受信した後、要求ハンドラ400は、当初書き込み要求を発行したアプリケーションに成功応答(すなわち、ACK)を送り戻す。以上のこれらの動作は、図12の処理ブロック1280及び1290に対応する。一実施形態において、要求ハンドラ400は、インターフェース404を通じてジョブ属性を変更することによって、同じバッチ内の残りのジョブをバックグラウンドステータスに格下げする。
一実施形態において、タスク待ち行列400は先入れ先出し(FIFO)待ち行列を使用して実装され、同じFECブロック又はグループに属する読み出し又は書き込みジョブが、他のFECブロックに属するジョブを挟み込まれることなく1つのバッチに置かれる。一実施形態において、個々のワーカスレッドは、一度に1つのジョブをサービスし、任意のスレッドがアイドルになると、ワーカスレッドは、タスク待ち行列の先頭で待っているジョブを取得する。図5は、読み出し/書き込みジョブを実行し、現在のジョブのサービスが完了したときにタスク待ち行列440から新たなジョブを得る並列スレッド、すなわち、thread−1〜thread−mを示す図である。一実施形態において、スレッド自体は、タスク待ち行列440によってすべてのバッファリングが行われたときに待ち行列を有しない。輻輳がある、すなわち、アイドルスレッドよりも多くの、タスク待ち行列で待っているジョブがあるとき、遅延性能は悪化する。その理由から、別の実施形態において、遅延要件がより低い(たとえば、より低いレートのFECコードを使用する)要求は厳密な優先順位を与えられ、タスク待ち行列440の先頭に置かれる。別の実施形態において、いくつかのスレッドは、優先順位の高いジョブのみをサービスするためにともにプールされ得るか、又は、割り込みモードにおいて使用され得る(すなわち、優先順位の高いジョブをサービスするために優先順位の低いジョブが中止又は取り消しされる)。
一実施形態において、クラウド性能モニタ(CPM)420が決定実行過程に使用される。ワーカスレッド250及び260のようなワーカスレッドが、オブジェクトサイズ、要求タイプ(読み出し又は書き込み)、送信時間、クラウド位置、及び往復時間遅延(すなわち、ジョブがスケジュールされた時間から成功応答が受信された時間まで)に関する情報を有する、首尾よく完了したジョブのログを作成する。図8は、CPM420が、データベースに記憶されている表にこの情報をどのようにログ記録するかを示す。図8を参照すると、オブジェクトサイズ、動作タイプ、往復時間(RTT)遅延及びクラウド位置を含む情報が、表に記憶されている。CPMは、複数の異なるジョブタイプ及びオブジェクトサイズの遅延性能に関する累積分布関数(CDF)又は相補CDF(CCDF)を作成するために、これらのログを処理する。一実施形態において、この処理を実行するために、CDFは遅延目標xについて、x未満でサービスされた要求の割合を集計する。同様に、CCDFは、遅延目標xについて、x秒超でサービスされた要求の割合を集計する。任意のタプル{x,オブジェクトサイズ、動作}を指定して、生のデータセットから回答を計算することができる。この計算は相当の時間をとる場合があるため、有限のタプルセットに対する参照テーブルを用意するための他の方法がある。例は図9及び図10に参照テーブルとして与えられている。
図7は、読み出し及び書き込みジョブに関して、1メガバイトのブロックサイズのAmazon S3クラウドサービスについて得られたそのようなCCDF曲線の一例を示す。図7を参照すると、生の遅延統計を使用して実線の曲線が得られ、一方で、様々なFEC方式が利用された後の性能のオフライン分析/シミュレーションを通じて破線が得られる。凡例において、nはブロックの総数(すなわち、ソースブロック+パリティブロック)を示し、一方でkはパリティブロックの数を示す。それゆえ、(n,k)=(16,1)は、15個のソースブロック及び1個のパリティブロックがあったことを意味する。ブロックサイズは1メガバイトであるため、1個のパリティブロックがそこから生成された、1メガバイトの15個のブロックにストライプされている15メガバイトのオブジェクトについて、読み出し又は書き込み遅延性能は、1メガバイトのオブジェクトの非コード化遅延性能のすぐ左の曲線になる。一実施形態において、CPM420は、オブジェクトサイズのビンを作成し、1つのビンに対応するすべての遅延測定値を集約してCDF曲線又はCCDF曲線にする。これらの性能曲線は一般的に、図9に示されているような表形式で記憶される。プリセットのブロックサイズリストを使用して、様々な(n,k)設定について、CDF曲線又はCCDF曲線のライブラリが構築される。たとえば、8メガバイトのオブジェクトが99パーセンタイルにおいて300ミリ秒の読み出し遅延保証を必要とするとき、1メガバイトのブロックサイズ及び(n,k)=(16,8)を使用することによって、要求は満たされる。優先傾向は、記憶クラウドを使用するオーバヘッドを低減するために可能な限り大きいブロックサイズ、及び、可能な限り最小数のパリティブロックを使用することである。これらの構築されたFECに基づくCDF性能曲線は一般的に、図10に示されているような表形式で記憶される。したがって、CPM420が要求ハンドラ400から要求を受信すると、CPM420は、任意のFECモードが所望の遅延保証を達成するために使用され得るか否かを調査するために、様々なオブジェクトサイズについてこれらの表を参考にすることができる。読み出し動作について、調査は、要求されているオブジェクトに書き込むのに実際に使用されたモードに限定される。
遅延性能が単一の書き込み動作に対して要求され、後続の読み出しに対しては要求されない場合、すべてのソースブロックが首尾よく書き込まれることが補償された後で、パリティブロックはキー値ストアから削除され得る。別の実施形態において、読み出し性能が必要とされない場合、最初の書き込み動作の後ソースブロックはともにバックグラウンド内で組み合わされ得、オブジェクトがその元の形式で書き込まれる。その後、ソースブロックも削除され得る。
一実施形態において、大きいオブジェクトをより小さいオブジェクトに分割するのではなく、キー値ストアクライアントが複数の小さいオブジェクトをグループ化して1つのオブジェクトにし、その後、残りの記憶過程をその1つのオブジェクトに適用することに留意されたい。たとえば、複数の書き込み要求が保留されている場合、その1つのオブジェクトからパリティブロックが作成され、並列に書き込まれる。言い換えれば、複数のオブジェクトが連結されて1つのオブジェクトになる場合、オブジェクトはK個のブロックに分割され得、FECが適用され得る。その後、FECクロック及びソースブロックが並列に書き込まれる。別の例として、ユーザアプリケーション要求が、複数のオブジェクトが読み出されることを常に要求する場合、キー値ストアクライアントは、複数のオブジェクトをともにグループ化して、パリティブロックも生成する。この例において、1つの大きいオブジェクトは生成されず、各オブジェクトが直接パディングされて、使用することが所望される大きいサイズにされ、その後、オブジェクトにわたってFECが適用される。
キー値ストアクライアントが、それ自体遅延ボトルネックになるようにするとき、開示されている機構を使用することは有用ではなく、処理及び通信負荷を増大させるため、有害であり得る。したがって、一般的な実施態様において、最大数のスレッドが厳密に制御されるべきであり、遅延の影響を受けやすいジョブに、タスク待ち行列440における優先順位が与えられるべきである。遅延の影響を受けやすい要求にわたって競合がある場合、システムはFECの使用から手をひくべきである。
図13は、ストレージコントローラによって実行される過程の一実施形態の流れ図である。過程は、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステム又は専用機械上で実行されるものなど)、ファームウェア、又はこれらの2つ以上の組み合わせを含んでもよい処理論理によって実行される。一実施形態において、過程はキー値ストアクライアントによって実行される。別の実施形態において、過程はストレージゲートウェイによって実行される。
図13を参照すると、過程は、オブジェクトを受信する処理論理によって開始する(処理ブロック1301)。処理論理は、オブジェクトをK個の部分、Kは整数、に分割し(処理ブロック1302)、K個の部分の各々に個別のキーを割り当てる(処理ブロック1303)。
オブジェクトがK個の部分に分割された後、処理論理は、キー値に基づく記憶システムの遅延性能に応じてK個の部分に適用するための消失訂正符号化を選択する(処理ブロック1304)。一実施形態において、消失訂正符号化は、順方向誤り訂正(FEC)コード化を含む。一実施形態において、適用するための消失訂正符号化を選択することは、遅延目標に基づく。別の実施形態において、適用するための消失訂正符号化を選択することは、遅延性能の累積分布関数に基づく。別の実施形態において、適用するための消失訂正符号化を選択することは、実行されるべき動作に関連付けられる遅延性能に基づく。またなお別の実施形態において、適用するための消失訂正符号化を選択することは、オブジェクトのサイズに基づく。
次に、処理論理は、N個のデータブロックを生成するためにK個の部分に消失訂正符号化を適用する(処理ブロック1305)。処理論理は、K個の部分に消失訂正符号化を適用する結果もたらされるN個のデータブロックの各々に個別のキーを割り当て(処理ブロック1306)、K個の部分に割り当てられるキー、及びN個のブロックに割り当てられるキーを順序付ける(処理ブロック1307)。
消失訂正符号化が適用された後、処理論理は、別個の転送を使用してN個のデータブロックを記憶システムへ送る(処理ブロック1308)。一実施形態において、個別の接続を介してN個のデータブロックを記憶システムに送ることは、個別の接続の2つを介してN個のデータブロックのうち少なくとも2つを並列に送ることを含む。
一実施形態において、N個の別個の転送を使用してN個のデータブロックを記憶システムへ送ることは、別個の接続上ですべてのN個のブロックを並列にキー値ストアへ送ることを含み、これは、N個の別個の転送のうちK個が首尾よく完了した後に首尾よく完了しなかったN個の別個の転送のいずれかを取り消すことを含む。
その後、オブジェクトが要求されたとき、処理論理は、各要求がストレージからのN個のデータブロックのうちの1つを要求するためのものである複数の個々の要求を生成し(処理ブロック1309)、N個のブロックの各々が受信されると消失復号を適用し(処理ブロック1310)、N個のブロックのうちK個を受信した後に未処理のままであるN−K個の要求を取り消し(処理ブロック1311)、オブジェクトを要求者に返す(処理ブロック1312)。
代替的な実施形態において、N個未満のアイドル接続(L<N個のアイドル接続)がN個のそのような並列要求に対して利用可能である場合、N個の並列要求を生成する代わりに、要求の数がmax(K,min(L,N))として選択され、式中、Kはソースブロックの数であり、Lは、要求の数が選定された時点のアイドルスレッドの数であり、Nは、遅延のみが一定であった場合の要求の理想的な数である。図16は、ストレージコントローラによって実行される過程の代替的な実施形態の流れ図である。過程は、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステム又は専用機械上で実行されるものなど)、ファームウェア、又はこれらの2つ以上の組み合わせを含んでもよい処理論理によって実行される。
図16を参照すると、過程は、処理論理が遅延目標及び測定遅延CCDFに基づいてNを決定することによって開始する(処理ブロック1601)。次に、処理論理は、N個のアイドルスレッドが利用可能であるか否かを判定する(処理ブロック1602)。N個のアイドルスレッドが利用可能である場合、処理論理はN個の要求を用意する(処理ブロック1603)。そうでない場合、過程は処理ブロック1604に遷移し、処理論理は、L個のアイドルスレッドがあるか否かを判定し、LはN未満であるがKよりも大きい。L個のアイドルスレッドがある場合、処理論理はL個の要求を用意し(処理ブロック1605)、そうでない場合、処理論理はK個の要求を用意する(処理ブロック1606)。
図14は、ストレージコントローラによって実行される過程の別の実施形態の流れ図である。過程は、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステム又は専用機械上で実行されるものなど)、ファームウェア、又はこれらの2つ以上の組み合わせを含んでもよい処理論理によって実行される。
図14を参照すると、過程は、処理論理が複数のオブジェクトの各々を複数の部分に分割することによって開始し、各オブジェクトは遅延目標に関連付けられる(処理ブロック1401)。
各オブジェクトを分割した後、処理論理は、オブジェクトの各々の部分に消失訂正符号化を適用し、これは、それらのオブジェクトに関連付けられる遅延目標の間の差に基づいてオブジェクトのうちの2つ以上に異なる消失訂正符号化を適用するために消失訂正符号化を適合させることを含む(処理ブロック1402)。
その後、処理論理は、オブジェクトの部分に消失訂正符号化を適用する結果もたらされた消失訂正符号化データを記憶システムに送る(処理ブロック1403)。
システムの一例
図15は、クラウドに基づく記憶システムのような、バックエンド記憶システムにアクセスするのに使用されてもよいストレージゲートウェイのブロック図を示す。そのようなバックエンド記憶システムへのアクセスはネットワーク(たとえば、広域ネットワーク、ローカルエリアネットワーク、インターネットなど)を介してもよい。ストレージゲートウェイとして、システムはユーザアプリケーションを実行するクライアントをバックエンド記憶システムにインターフェースすることができる。そのようなクライアントはストレージゲートウェイに直接結合されてもよく、又は、ネットワーク(たとえば、広域ネットワーク、ローカルエリアネットワーク、インターネットなど)を介してストレージゲートウェイと通信してもよい。図15に示されているシステムはまた、上記で説明された動作を実行した、又は、データオブジェクトを読み出す又は書き込むためにストレージゲートウェイと対話するクライアントデバイスであってもよい。
一実施形態において、図15のストレージゲートウェイは、図4の表現のアプリケーションに関連付けられる動作を実行及び実施する。
図15を参照すると、ストレージゲートウェイ1510は、プロセッサ1514、システムメモリ1517(たとえば、RAM、ROMなど)、入出力コントローラ1518、ディスプレイアダプタ1526を介した表示画面1524などの外部デバイス、シリアルポート1528及び1530、キーボード1532(キーボードコントローラ1533とインターフェースされる)、ストレージインターフェース1534、フロッピーディスク1538を受け入れるように動作するフロッピーディスクドライブ1537、ファイバチャネルネットワーク1590と接続するように動作するホストバスアダプタ(HBA)インターフェースカード1535A、並びに光ディスクドライブ1540のような、ストレージゲートウェイ1510のサブシステムを相互接続するためのバス1512を含む。マウス1546(又は、シリアルポート1528を介してバス1512に結合されている他のポイントアンドクリックデバイス)、モデム1547(シリアルポート1530を介してバス1512に結合されている)、及びネットワークインターフェース1548(バス1512に直接結合されている)も含まれている。
バス1512は、中央プロセッサ1514とシステムメモリ1517との間のデータ通信を可能にする。システムメモリ1517(たとえば、RAM)は,一般的に、オペレーティングシステム及びアプリケーションプログラムがロードされる主記憶装置であってもよい。ROM又はフラッシュメモリは、他のコードの中でも、周辺構成要素との対話のような基本ハードウェア動作を制御する基本入出力システム(BIOS)を含むことができる。コンピュータシステム1510に常駐するアプリケーションは一般的に、ハードディスクドライブ(たとえば、固定ディスク1544)、光学ドライブ(たとえば、光学ドライブ1540)、フロッピーディスクユニット1537、又は他の記憶媒体のようなコンピュータ可読媒体に記憶され、当該コンピュータ可読媒体を介してアクセスされる。
ストレージインターフェース1534は、コンピュータシステム1510の他のストレージインターフェースと同様に、固定ディスクドライブ1544のような、情報の記憶及び/又は取り出しのために、標準的なコンピュータ可読媒体に接続することができる。固定ディスクドライブ1544は、コンピュータシステム1510の一部であってもよく、又は、別個であり他のインターフェースシステムを通じてアクセスされてもよい。
モデム1547は、電話リンクを介したバックエンド記憶システム若しくはクライアントへの、又はインターネット接続サービス業者(ISP)を介したインターネットへの直接接続を提供してもよい。ネットワークインターフェース1548が、バックエンド記憶システム及び/又はクライアントへの直接接続を提供してもよい。ネットワークインターフェース1548が、POP(存在点)を介したインターネットへの直接ネットワークリンクを介したバックエンド記憶システム及び/又はクライアントへの直接接続を提供してもよい。ネットワークインターフェース1548は、デジタル携帯電話接続、パケット接続、デジタル衛星データ接続などを含む、ワイヤレス技法を使用してそのような接続を提供してもよい。
多くの他のデバイス又はサブシステム(図示せず)が同様に接続されてもよい(たとえば、文書スキャナ、デジタルカメラなど)。反対に、図15に示されているデバイスのすべてが、本明細書に記載されている技法を実践するために存在する必要はない。デバイス及びサブシステムは、図15に示されているものとは異なる方法で相互接続され得る。図15に示されているもののようなコンピュータシステムの動作は、当該技術分野において既知であり、本出願において詳細には説明しない。
本明細書に記載されているストレージゲートウェイ動作を実施するためのコードはシステムメモリ1517、固定ディスク1544、光ディスク1542、又はフロッピーディスク1538のうちの1つ又は複数のようなコンピュータ可読記憶媒体に記憶され得る。コンピュータシステム1510に設けられるオペレーティングシステムは、MS−DOS(登録商標)、MS−WINDOWS(登録商標)、OS/2(登録商標)、UNIX(登録商標)、Linux(登録商標)、又は別の既知のオペレーティングシステムであってもよい。
本発明の多くの代替形態及び変更形態が、上記の説明を読んだ後の当業者には疑いなく明らかとなろうが、例示として図示及び説明されている任意の特定の実施形態は、限定として考えられるようには決して意図されていないことは理解されたい。それゆえ、様々な実施形態の詳細に対する参照は、それ自体は本発明に必須と考えられる特徴のみを記載している特許請求項の範囲を限定するようには意図されていない。

Claims (25)

  1. キー値に基づく記憶システムに使用するための方法であって、
    オブジェクトをK個(Kは整数)の部分に分割するステップと、
    キー値ストアに前記オブジェクトを置く遅延目標及び後続の読み出し要求の遅延目標の一方又は両方を満足するように生成すべきパリティブロックの数を求めるサブステップを含む、前記キー値に基づく記憶システムの遅延性能に応じて前記K個の部分に適用するための消失訂正符号化を選択するステップであり、両方の遅延目標が、複数の異なる要求タイプ及びオブジェクトサイズについての測定を通じて得られる遅延分布を所与として異なる数のパリティブロックが使用されるときの遅延性能のオフライン性能シミュレーションに基づく、前記選択するステップと、
    前記K個の部分に前記消失訂正符号化を適用して、N個のデータブロックを生成するステップと、
    別個の転送を使用して前記N個のデータブロックを前記記憶システムに送るステップと
    を含む方法。
  2. オブジェクトを前記記憶システムに置き、オブジェクトを前記記憶システムから取得する前記遅延性能を測定するステップと、
    前記遅延性能の測定の結果に基づいて前記オフライン性能シミュレーションを生成するステップと
    をさらに含む、請求項1に記載の方法。
  3. 適用するための消失訂正符号化を選択する前記ステップが、前記遅延性能の累積分布関数に基づく、請求項1に記載の方法。
  4. 前記適用するための消失訂正符号化を選択する前記ステップが、実行されるべき動作に関連付けられる前記遅延性能に基づく、請求項1に記載の方法。
  5. 前記適用するための消失訂正符号化を選択する前記ステップが、前記オブジェクトのサイズに基づく、請求項1に記載の方法。
  6. 前記消失訂正符号化が、順方向誤り訂正(FEC)コード化を含む、請求項1に記載の方法。
  7. 個別の接続を介して前記N個のデータブロックを前記記憶システムに送る前記ステップが、前記個別の接続の2つを介して前記N個のブロックのうち少なくとも2つを並列に送るステップを含む、請求項1に記載の方法。
  8. 前記K個の部分の各々に個別のキーを割り当てるステップと、
    前記K個の部分に前記消失訂正符号化を適用する結果もたらされるN個のデータブロックの各々に個別のキーを割り当てるステップと、
    前記K個の部分に割り当てられている前記キー及び前記N個のブロックに割り当てられている前記キーを順序付けするステップと
    をさらに含み、
    N個の別個の転送を使用して前記N個のデータブロックを前記記憶システムへ送る前記ステップが、前記N個の別個の転送のうちK個が首尾よく完了した後に首尾よく完了しなかった前記N個の別個の転送のいずれかを取り消すサブステップを含む、別個の接続上ですべてのN個のブロックを並列に前記キー値ストアへ送るステップを含む、請求項1に記載の方法。
  9. 複数の個々の要求を生成するステップであって、各要求がストレージから前記N個のデータブロックのうちの1つを要求するためのものである、前記生成するステップと、
    N個のブロックの各々が受信されたとき、消失復号を適用するステップと、
    N個のブロックのうちK個を受信した後に、未処理のままであるN−K個の要求を取り消すステップと、
    要求者に前記オブジェクトを返すステップと
    をさらに含む、請求項1に記載の方法。
  10. Nが利用可能なスレッドの数である、請求項1に記載の方法。
  11. 前記別個の転送が、並列及び直列転送の組み合わせを含む、請求項1に記載の方法。
  12. 前記N個の別個の転送のうちK個が首尾よく完了した後に、首尾よく完了しなかった前記N個の転送のいずれかを取り消すステップをさらに含む、請求項1に記載の方法。
  13. キー値に基づく記憶システムに使用するための装置であって、
    前記ネットワークからオブジェクトを受信するために動作可能である、ネットワークに結合するための通信インターフェースと、
    前記オブジェクトを記憶するために前記通信インターフェースに結合されているメモリと、
    前記メモリ及び前記通信インターフェースに結合されているプロセッサと
    を備え、前記プロセッサが、
    前記オブジェクトをK個(Kは整数)の部分に分割し、
    少なくとも一部にはキー値ストアに前記オブジェクトを置く遅延目標及び後続の読み出し要求の遅延目標の一方又は両方を満足するように生成すべきパリティブロックの数を求めることにより、前記キー値に基づく記憶システムの遅延性能に応じて前記K個の部分に適用するための消失訂正符号化を選択し、両方の遅延目標は、複数の異なる要求タイプ及びオブジェクトサイズについての測定を通じて得られる遅延分布を所与として異なる数のパリティブロックが使用されるときの遅延性能のオフライン性能シミュレーションに基づくものであり、
    前記K個の部分に前記消失訂正符号化を適用して、N個のデータブロックを生成するように動作可能であり、
    前記プロセッサは、前記通信インターフェースを用いて、別個の転送を使用して前記N個のデータブロックを前記記憶システムに送るように動作する、装置。
  14. 前記プロセッサが、
    オブジェクトを前記記憶システムに置き、オブジェクトを前記記憶システムから取得する前記遅延性能を測定し、
    前記遅延性能の測定の結果に基づいて前記オフライン性能シミュレーションを生成するようにさらに動作可能である、請求項13に記載の装置。
  15. プロセッサが、前記遅延性能の累積分布関数に基づいて適用するための前記消失訂正符号化を選択する、請求項13に記載の装置。
  16. 前記プロセッサが、実行されるべき動作に関連付けられる前記遅延性能に基づいて適用するための前記消失訂正符号化を選択する、請求項13に記載の装置。
  17. 前記プロセッサが、前記オブジェクトのサイズに基づいて適用するための前記消失訂正符号化を選択する、請求項13に記載の装置。
  18. 前記消失訂正符号化が、順方向誤り訂正(FEC)コード化を含む、請求項13に記載の装置。
  19. 前記通信インターフェースが、前記個別の接続の2つを介して前記N個のブロックのうち少なくとも2つを並列に送る、請求項13に記載の装置。
  20. 前記プロセッサが、
    前記K個の部分の各々に個別のキーを割り当て、
    前記K個の部分に前記消失訂正符号化を適用する結果もたらされるN個のデータブロックの各々に個別のキーを割り当て、
    前記K個の部分に割り当てられている前記キー及び前記N個のブロックに割り当てられている前記キーを順序付けする
    ようにさらに動作可能であり、
    前記通信インターフェースが、別個の接続上でN個の別個の転送を使用して前記N個のブロックを並列に前記キー値ストアへ送り、前記N個の別個の転送のうちK個が首尾よく完了した後に首尾よく完了しなかった前記N個の別個の転送のいずれかを取り消す、請求項13に記載の装置。
  21. 前記プロセッサが、
    複数の個々の要求を生成し、各要求がストレージから前記N個のデータブロックのうちの1つを要求するためのものであり、
    N個のブロックの各々が受信されたとき、消失復号を適用し、
    N個のブロックのうちK個を受信した後に、未処理のままであるN−K個の要求を取り消し、
    要求者に前記オブジェクトを返す
    ようにさらに動作可能である、請求項13に記載の装置。
  22. システムによって実行されたとき、前記システムに、
    オブジェクトをK個(Kは整数)の部分に分割するステップと、
    キー値ストアに前記オブジェクトを置く遅延目標及び後続の読み出し要求の遅延目標の一方又は両方を満足するように生成すべきパリティブロックの数を求めるサブステップを含む、キー値に基づく記憶システムの遅延性能に応じて前記K個の部分に適用するための消失訂正符号化を選択するステップであり、両方の遅延目標が、複数の異なる要求タイプ及びオブジェクトサイズについての測定を通じて得られる遅延分布を所与として異なる数のパリティブロックが使用されるときの遅延性能のオフライン性能シミュレーションに基づく、前記選択するステップと、
    前記K個の部分に前記消失訂正符号化を適用して、N個のデータブロックを生成するステップと、
    別個の転送を使用して前記N個のデータブロックを前記記憶システムに送るステップと
    を含む方法を実行させる命令を記憶している1つ又は複数の非一時的なコンピュータ可読記憶媒体を有する製造品。
  23. オブジェクトを前記記憶システムに置き、オブジェクトを前記記憶システムから取得する前記遅延性能を測定するステップと、
    前記遅延性能の測定の結果に基づいて前記オフライン性能シミュレーションを生成するステップと
    をさらに含む、請求項22に記載の製造品。
  24. 適用するための消失訂正符号化を選択する前記ステップが、前記遅延性能の累積分布関数に基づく、請求項22に記載の製造品。
  25. キー値に基づく記憶システムに使用するための方法であって、
    複数のオブジェクトの各々を複数の部分に分割するステップであり、前記複数のオブジェクトの各々が遅延目標に関連付けられる、前記分割するステップと、
    少なくとも2つのオブジェクトに関連付けられる遅延目標の間の差に基づいて前記複数のオブジェクトのうちの少なくとも2つのオブジェクトに異なる消失訂正符号化を適用するために前記消失訂正符号化を適合させることを含む、前記複数のオブジェクトの各々の前記複数の部分に消失訂正符号化を適用するステップと、
    前記複数のオブジェクトの部分に前記消失訂正符号化を適用する結果もたらされた消失訂正符号化データを前記記憶システムに送るステップと
    を含む方法。
JP2015516007A 2012-06-08 2013-03-13 Fec技法を使用したキー値に基づく記憶システムに対する低遅延アクセスのための方法、装置、及びコンピュータ読み取り可能な記憶媒体 Active JP6279560B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261657554P 2012-06-08 2012-06-08
US61/657,554 2012-06-08
PCT/US2013/030891 WO2013184201A1 (en) 2012-06-08 2013-03-13 A method and apparatus for low delay access to key-value based storage systems using fec techniques

Publications (2)

Publication Number Publication Date
JP2015520588A true JP2015520588A (ja) 2015-07-16
JP6279560B2 JP6279560B2 (ja) 2018-02-14

Family

ID=49712429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015516007A Active JP6279560B2 (ja) 2012-06-08 2013-03-13 Fec技法を使用したキー値に基づく記憶システムに対する低遅延アクセスのための方法、装置、及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
US (1) US9426517B2 (ja)
JP (1) JP6279560B2 (ja)
WO (1) WO2013184201A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156656A (ja) * 2017-03-20 2018-10-04 三星電子株式会社Samsung Electronics Co.,Ltd. 仮想装置階層を利用した複数のメモリ装置を含む仮想装置に対する客体の格納及び読み取り方法とこれを用いたストレージ装置
US11275762B2 (en) 2017-03-20 2022-03-15 Samsung Electronics Co., Ltd. System and method for hybrid data reliability for object storage devices

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747293B2 (en) * 2012-02-28 2017-08-29 Deep Information Sciences, Inc. Method and system for storage and retrieval of information
WO2015049756A1 (ja) * 2013-10-03 2015-04-09 富士通株式会社 プログラム、符号化装置、及び符号化方法
TWI604320B (zh) * 2014-08-01 2017-11-01 緯創資通股份有限公司 巨量資料存取方法以及使用該方法的系統
US10599621B1 (en) * 2015-02-02 2020-03-24 Amazon Technologies, Inc. Distributed processing framework file system fast on-demand storage listing
US9459959B1 (en) * 2015-03-30 2016-10-04 Amazon Technologies, Inc. Failure-decoupled volume-level redundancy coding techniques
US10740290B2 (en) * 2015-04-14 2020-08-11 Jetflow Technologies Systems and methods for key-value stores
US10298259B1 (en) 2015-06-16 2019-05-21 Amazon Technologies, Inc. Multi-layered data redundancy coding techniques
US10270475B1 (en) 2015-06-16 2019-04-23 Amazon Technologies, Inc. Layered redundancy coding for encoded parity data
US10977128B1 (en) 2015-06-16 2021-04-13 Amazon Technologies, Inc. Adaptive data loss mitigation for redundancy coding systems
US10270476B1 (en) 2015-06-16 2019-04-23 Amazon Technologies, Inc. Failure mode-sensitive layered redundancy coding techniques
US9998150B1 (en) 2015-06-16 2018-06-12 Amazon Technologies, Inc. Layered data redundancy coding techniques for layer-local data recovery
US9959167B1 (en) 2015-07-01 2018-05-01 Amazon Technologies, Inc. Rebundling grid encoded data storage systems
US10108819B1 (en) 2015-07-01 2018-10-23 Amazon Technologies, Inc. Cross-datacenter extension of grid encoded data storage systems
US10198311B1 (en) 2015-07-01 2019-02-05 Amazon Technologies, Inc. Cross-datacenter validation of grid encoded data storage systems
US10162704B1 (en) 2015-07-01 2018-12-25 Amazon Technologies, Inc. Grid encoded data storage systems for efficient data repair
US9998539B1 (en) 2015-07-01 2018-06-12 Amazon Technologies, Inc. Non-parity in grid encoded data storage systems
US10394762B1 (en) 2015-07-01 2019-08-27 Amazon Technologies, Inc. Determining data redundancy in grid encoded data storage systems
US10089176B1 (en) 2015-07-01 2018-10-02 Amazon Technologies, Inc. Incremental updates of grid encoded data storage systems
US9928141B1 (en) 2015-09-21 2018-03-27 Amazon Technologies, Inc. Exploiting variable media size in grid encoded data storage systems
US11386060B1 (en) 2015-09-23 2022-07-12 Amazon Technologies, Inc. Techniques for verifiably processing data in distributed computing systems
US9940474B1 (en) 2015-09-29 2018-04-10 Amazon Technologies, Inc. Techniques and systems for data segregation in data storage systems
US10394789B1 (en) 2015-12-07 2019-08-27 Amazon Technologies, Inc. Techniques and systems for scalable request handling in data processing systems
US10642813B1 (en) 2015-12-14 2020-05-05 Amazon Technologies, Inc. Techniques and systems for storage and processing of operational data
US10248793B1 (en) 2015-12-16 2019-04-02 Amazon Technologies, Inc. Techniques and systems for durable encryption and deletion in data storage systems
US10127105B1 (en) 2015-12-17 2018-11-13 Amazon Technologies, Inc. Techniques for extending grids in data storage systems
US10324790B1 (en) 2015-12-17 2019-06-18 Amazon Technologies, Inc. Flexible data storage device mapping for data storage systems
US10180912B1 (en) 2015-12-17 2019-01-15 Amazon Technologies, Inc. Techniques and systems for data segregation in redundancy coded data storage systems
US10235402B1 (en) 2015-12-17 2019-03-19 Amazon Technologies, Inc. Techniques for combining grid-encoded data storage systems
US10102065B1 (en) * 2015-12-17 2018-10-16 Amazon Technologies, Inc. Localized failure mode decorrelation in redundancy encoded data storage systems
KR102667783B1 (ko) * 2016-03-04 2024-05-23 삼성전자주식회사 Ecc 관련 데이터를 키-밸류 맵핑 정보에서 관리하는 오브젝트 스토리지 시스템
US10592336B1 (en) 2016-03-24 2020-03-17 Amazon Technologies, Inc. Layered indexing for asynchronous retrieval of redundancy coded data
US10061668B1 (en) 2016-03-28 2018-08-28 Amazon Technologies, Inc. Local storage clustering for redundancy coded data storage system
US10678664B1 (en) 2016-03-28 2020-06-09 Amazon Technologies, Inc. Hybridized storage operation for redundancy coded data storage systems
US10366062B1 (en) 2016-03-28 2019-07-30 Amazon Technologies, Inc. Cycled clustering for redundancy coded data storage systems
US11137980B1 (en) 2016-09-27 2021-10-05 Amazon Technologies, Inc. Monotonic time-based data storage
US10437790B1 (en) 2016-09-28 2019-10-08 Amazon Technologies, Inc. Contextual optimization for data storage systems
US10657097B1 (en) 2016-09-28 2020-05-19 Amazon Technologies, Inc. Data payload aggregation for data storage systems
US10810157B1 (en) 2016-09-28 2020-10-20 Amazon Technologies, Inc. Command aggregation for data storage operations
US10496327B1 (en) 2016-09-28 2019-12-03 Amazon Technologies, Inc. Command parallelization for data storage systems
US11281624B1 (en) 2016-09-28 2022-03-22 Amazon Technologies, Inc. Client-based batching of data payload
US11204895B1 (en) 2016-09-28 2021-12-21 Amazon Technologies, Inc. Data payload clustering for data storage systems
US10614239B2 (en) 2016-09-30 2020-04-07 Amazon Technologies, Inc. Immutable cryptographically secured ledger-backed databases
CN107885612B (zh) * 2016-09-30 2020-02-21 华为技术有限公司 数据处理方法和系统及装置
US10296764B1 (en) 2016-11-18 2019-05-21 Amazon Technologies, Inc. Verifiable cryptographically secured ledgers for human resource systems
US11269888B1 (en) 2016-11-28 2022-03-08 Amazon Technologies, Inc. Archival data storage for structured data
US10783136B1 (en) * 2017-02-28 2020-09-22 Virtuozzo International Gmbh Management of garbage data in distributed systems
TWI750425B (zh) * 2018-01-19 2021-12-21 南韓商三星電子股份有限公司 資料儲存系統和用於寫入鍵值對的物件的方法
US20190286515A1 (en) * 2018-03-14 2019-09-19 Softiron Limited Dynamic and Preemptive Erasure Encoding in Software Defined Storage (SDS) Systems
US10831774B2 (en) * 2018-09-05 2020-11-10 International Business Machines Corporation Accumulating results from batch processing and resuming execution of a data integration flow with the accumulated results passed in
US10673984B1 (en) * 2018-12-05 2020-06-02 Sap Se Directly modifying failed queued requests for an offline application using the backend type system
US10805044B2 (en) 2019-02-25 2020-10-13 At&T Intellectual Property I, L.P. Optimizing delay-sensitive network-based communications with latency guidance
US11575777B2 (en) 2019-05-27 2023-02-07 Massachusetts Institute Of Technology Adaptive causal network coding with feedback
CN113395266B (zh) * 2020-11-06 2022-08-19 中软数智信息技术(武汉)有限公司 应用于物联网和直播平台的数据处理方法及云计算中心
CN112346666B (zh) * 2020-11-30 2022-02-15 华中科技大学 基于ocssd的键值存储系统的写、块粒度压缩合并方法和系统
CN113259439B (zh) * 2021-05-18 2022-05-06 中南大学 基于接收端驱动的键值调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140829A (ja) * 2005-11-17 2007-06-07 Fujitsu Ltd バックアップシステム、方法及びプログラム
JP2010074604A (ja) * 2008-09-19 2010-04-02 Nec Corp データアクセスシステム、データアクセス方法およびデータアクセス用プログラム
US20100218037A1 (en) * 2008-09-16 2010-08-26 File System Labs Llc Matrix-based Error Correction and Erasure Code Methods and Apparatus and Applications Thereof

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000052690A1 (fr) * 1999-02-26 2000-09-08 Hitachi, Ltd. Enregistreur, lecteur et support d'enregistrement de signal numerique
US8694869B2 (en) * 2003-08-21 2014-04-08 QUALCIMM Incorporated Methods for forward error correction coding above a radio link control layer and related apparatus
KR101059005B1 (ko) * 2006-04-13 2011-08-23 엔엑스피 비 브이 반도체 장치, 그 식별자 생성 방법 및 그 식별 방법
US8209577B2 (en) 2007-12-20 2012-06-26 Microsoft Corporation Optimizing XOR-based codes
US9411682B2 (en) 2010-01-14 2016-08-09 Hewlett Packard Enterprise Development Lp Scrubbing procedure for a data storage system
US8103904B2 (en) 2010-02-22 2012-01-24 International Business Machines Corporation Read-other protocol for maintaining parity coherency in a write-back distributed redundancy data storage system
US8458513B2 (en) 2010-07-30 2013-06-04 Hewlett-Packard Development Company, L.P. Efficient failure recovery in a distributed data storage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140829A (ja) * 2005-11-17 2007-06-07 Fujitsu Ltd バックアップシステム、方法及びプログラム
US20100218037A1 (en) * 2008-09-16 2010-08-26 File System Labs Llc Matrix-based Error Correction and Erasure Code Methods and Apparatus and Applications Thereof
JP2010074604A (ja) * 2008-09-19 2010-04-02 Nec Corp データアクセスシステム、データアクセス方法およびデータアクセス用プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARCO MARTALO,ET AL.: "A Practical Network Coding Approach for Peer-to-Peer Distributed Storage", NETWORK CODING(NETCOD),2010 IEEE INTERNATIONAL SYMPOSIUM ON, JPN6017049229, June 2010 (2010-06-01) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156656A (ja) * 2017-03-20 2018-10-04 三星電子株式会社Samsung Electronics Co.,Ltd. 仮想装置階層を利用した複数のメモリ装置を含む仮想装置に対する客体の格納及び読み取り方法とこれを用いたストレージ装置
US11275762B2 (en) 2017-03-20 2022-03-15 Samsung Electronics Co., Ltd. System and method for hybrid data reliability for object storage devices
US11288119B2 (en) 2017-03-20 2022-03-29 Samsung Electronics Co., Ltd. Key value SSD

Also Published As

Publication number Publication date
WO2013184201A1 (en) 2013-12-12
US20150149870A1 (en) 2015-05-28
JP6279560B2 (ja) 2018-02-14
US9426517B2 (en) 2016-08-23

Similar Documents

Publication Publication Date Title
JP6279560B2 (ja) Fec技法を使用したキー値に基づく記憶システムに対する低遅延アクセスのための方法、装置、及びコンピュータ読み取り可能な記憶媒体
US10282101B2 (en) Primary data storage system with quality of service
US9880971B2 (en) Memory appliance for accessing memory
US20200019516A1 (en) Primary Data Storage System with Staged Deduplication
US10382380B1 (en) Workload management service for first-in first-out queues for network-accessible queuing and messaging services
JP6522008B2 (ja) 散在ストレージ・ネットワークにおける多世代記憶されたデータの読取り
US8812450B1 (en) Systems and methods for instantaneous cloning
US10554520B2 (en) Data path monitoring in a distributed storage network
US9998531B2 (en) Computer-based, balanced provisioning and optimization of data transfer resources for products and services
US20150312337A1 (en) Mirroring log data
US20150309874A1 (en) A method and apparatus for code length adaptation for access to key-value based cloud storage systems
US9442672B2 (en) Replicating data across controllers
US20190220366A1 (en) Method, apparatus and computer program product for managing data backup
US20190272229A1 (en) Efficient garbage collection in the presence of block dependencies
US9891992B2 (en) Information processing apparatus, information processing method, storage system and non-transitory computer readable storage media
US9569391B2 (en) Facilitating processing of out-of-order data transfers
US10146652B2 (en) Resilient distributed storage system
CN115981559A (zh) 分布式数据存储方法、装置、电子设备和可读介质
US20160267050A1 (en) Storage subsystem technologies
US9600277B2 (en) Asynchronous cleanup after a peer-to-peer remote copy (PPRC) terminate relationship operation
CN113051244A (zh) 数据访问方法和装置、数据获取方法和装置
US11971902B1 (en) Data retrieval latency management system
US20170052711A1 (en) Data compression for grid-oriented storage systems
US20160266813A1 (en) Storage subsystem technologies
US10187488B2 (en) Methods for managing replacement in a distributed cache environment and devices thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180117

R150 Certificate of patent or registration of utility model

Ref document number: 6279560

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250