JP2022048716A

JP2022048716A - ストレージシステム

Info

Publication number: JP2022048716A
Application number: JP2020154697A
Authority: JP
Inventors: 伸太郎佐野; Shintaro Sano; 和浩檜田; Kazuhiro Hida
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-03-28
Also published as: US11880596B2; US20220083269A1

Abstract

【課題】クライアントとストレージシステムとの間の通信を効率化すること。【解決手段】ストレージシステムは、リモートダイレクトメモリアクセスによりクライアントと通信可能なネットワークインタフェースコントローラと、揮発性メモリと、ストレージデバイスと、を備える。ネットワークインタフェースコントローラは、リモートダイレクトメモリアクセスにより転送される、ライトデータと、ライトデータの書き込み要求を含むサブミッションキューエントリとを揮発性メモリに格納する。ストレージデバイスは、サブミッションキューエントリが揮発性メモリのサブミッションキューに格納されると、サブミッションキューエントリに基づいて、ライトデータをストレージデバイスに書き込む。【選択図】図１

Description

本発明の実施形態は、ストレージシステムに関する。

不揮発性メモリを備えるストレージシステムが普及している。ストレージシステムの一例として、ＮＡＮＤフラッシュ技術ベースのソリッドステートドライブ（ＳＳＤ）が知られている。

ＳＳＤは、例えば、データセンタのサーバ等のようなホスト計算機システムのストレージデバイスとして使用される。

米国特許出願第９６５８７８２号明細書米国特許出願公開第２０１８／００６９９２号明細書米国特許出願公開第２０１８／０３４２４２９号明細書米国特許出願公開第２０１９／０２２２６４９号明細書

本実施形態は、クライアントとストレージシステムとの間の通信を効率化することを目的とする。

実施形態によれば、ストレージシステムは、リモートダイレクトメモリアクセスによりクライアントと通信可能なネットワークインタフェースコントローラと、揮発性メモリと、ストレージデバイスと、を具備する。前記ネットワークインタフェースコントローラは、リモートダイレクトメモリアクセスにより転送される、ライトデータと、前記ライトデータの書き込み要求を含むサブミッションキューエントリとを前記揮発性メモリに格納する。前記ストレージデバイスは、前記サブミッションキューエントリが前記揮発性メモリのサブミッションキューに格納されると、前記サブミッションキューエントリに基づいて、前記ライトデータを前記ストレージデバイスに書き込む。

実施形態１－Ａに係るネットワークストレージシステムの概略構成例を示す図。同実施形態に係るネットワークストレージシステムの動作の一例を示すシーケンスチャート。実施形態１－Ｂに係るネットワークストレージシステムの概略構成例を示す図。実施形態１－Ｃに係るネットワークストレージシステムの概略構成例を示す図。実施形態１－Ｄに係るネットワークストレージシステムの概略構成例を示す図。実施形態１－Ｅに係るネットワークストレージシステムの概略構成例を示す図。実施形態２－Ａに係るネットワークストレージシステムの概略構成例を示す図。同実施形態に係るネットワークストレージシステムの動作の一例を示すシーケンスチャート。実施形態２－Ｂに係るネットワークストレージシステムの概略構成例を示す図。実施形態２－Ｃに係るネットワークストレージシステムの概略構成例を示す図。

以下、図面を参照して、実施形態を説明する。
（実施形態１－Ａ）
実施形態１－Ａでは、クライアントに格納されているデータを効率よくサーバに書き込むことが可能なネットワークストレージシステムについて説明する。

図１は、実施形態１－Ａに係るネットワークストレージシステム１Ａの概略構成例を示す図である。図１に示すように、ネットワークストレージシステム１Ａは、クライアント２と、サーバ３とを備える。クライアント２とサーバ３とは、リモートダイレクトメモリアクセス（RDMA: Remote Direct Memory Access）により通信する。クライアント２とサーバ３との間で行われるリモートダイレクトメモリアクセスによる通信は、Ｉｎｆｉｎｉｂａｎｄ（登録商標）、ＲＤＭＡｏｖｅｒＣｏｎｖｅｒｇｅｄＥｔｈｅｒｎｅｔ（ＲｏＣＥ）、ｉｎｔｅｒｎｅｔＷｉｄｅＡｒｅａＲＤＭＡＰｒｏｔｏｃｏｌ（ｉＷＡＲＰ）等により実現され得る。

クライアント２は、ＣＰＵ（Central Processing Unit）２１と、ＤＲＡＭ（Dynamic Random Access Memory）２２と、ネットワーク装置２３と、を備える。クライアント２に含まれる各部２１～２３は、例えばバスによって相互接続されている。なお、クライアント２はクライアントノードと称されてもよい。

サーバ３は、ネットワーク装置３１と、ＤＲＡＭ３２と、ストレージデバイス３３と、ＣＰＵ３４と、を備える。ネットワーク装置３１、ＤＲＡＭ３２およびＣＰＵ３４は、ストレージデバイス３３のホストとして機能する。サーバ３に含まれる各部３１～３４は、例えばバスによって相互接続されている。上記したホストとストレージデバイス３３とを相互接続するためのインタフェースとしては、ＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）（登録商標）、ＮＶＭＥｘｐｒｅｓｓ（ＮＶＭｅ）（登録商標）等が使用されてもよい。なお、サーバ３はストレージシステムあるいは情報処理装置と称されてもよい。

まず、クライアント２の構成について説明する。
ＣＰＵ２１は、サーバ３への要求を含むサブミッションキューエントリＳＱＥを生成する。サブミッションキューエントリＳＱＥには、各種コマンドが含まれる。本実施形態では、各種コマンドの一つとしてライトコマンドが含まれる場合を説明するが、これに限定されず、各種コマンドとして、他の様々なコマンドが含まれてもよい。

ライトコマンドは、書き込むべきデータ（ライトデータ）をサーバ３に書き込むためのコマンドであり、サーバＤＲＡＭアドレス、ライトデータのサイズ、ストレージアドレス、等を含む。サーバＤＲＡＭアドレスは、サーバ３に含まれるＤＲＡＭ３２のアドレスを示し、サーバ３にＲＤＭＡ転送されるライトデータが一時的に格納されるＤＲＡＭ３２内の位置を示している。ストレージアドレスは、サーバ３に含まれるストレージデバイス３３のアドレスを示し、サーバ３にＲＤＭＡ転送されるライトデータが書き込まれるストレージデバイス３３内の位置を示している。

なお、サブミッションキューエントリＳＱＥは、ストレージシステムとして機能するサーバ３への要求を含むため、ストレージリクエストと称されてもよい。あるいは、サブミッションキューエントリＳＱＥは、各種コマンドを含むため、コマンド情報と称されてもよい。

ＤＲＡＭ２２は揮発性メモリであり、ＣＰＵ２１により生成されたサブミッションキューエントリＳＱＥと、当該サブミッションキューエントリＳＱＥに含まれるライトコマンドによりサーバ３に書き込むべきライトデータＷＤとを格納する。

ネットワーク装置２３は、リモートダイレクトメモリアクセスによりサーバ３と通信し、サーバ３に対してサブミッションキューエントリＳＱＥとライトデータＷＤとをＲＤＭＡ転送する。なお、ネットワーク装置２３はリモートネットワークインタフェースコントローラ（ｒＮＩＣ）と称されてもよい。

次に、サーバ３の構成について説明する。
ネットワーク装置３１は、リモートダイレクトメモリアクセスによりクライアント２と通信し、クライアント２からＲＤＭＡ転送されたサブミッションキューエントリＳＱＥとライトデータＷＤとを受信する。受信されたサブミッションキューエントリＳＱＥは、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに格納される。受信されたライトデータＷＤは、ＤＲＡＭ３２内の記憶領域のうち、サブミッションキューエントリＳＱＥに含まれるサーバＤＲＡＭアドレスにより指定される位置に格納される。なお、ネットワーク装置３１はリモートネットワークインタフェースコントローラ（ｒＮＩＣ）と称されてもよい。

ＤＲＡＭ３２は揮発性メモリであり、ストレージサブミッションキューＳＳＱを含む。ストレージサブミッションキューＳＳＱは、複数の管理単位の記憶領域を有している。ストレージサブミッションキューＳＳＱには、クライアント２からＲＤＭＡ転送されたサブミッションキューエントリＳＱＥが格納される。また、ＤＲＡＭ３２には、クライアント２からＲＤＭＡ転送されたライトデータＷＤが格納される。

ストレージデバイス３３は不揮発性メモリであり、例えばＮＡＮＤ型フラッシュメモリチップ（ＮＡＮＤ型フラッシュメモリダイ）としてもよい。あるいは、ストレージデバイス３３は、例えばＮＯＲ型フラッシュメモリ、ＭＲＡＭ（Magnetoresistive Random Access Memory：磁気抵抗メモリ）、ＰＲＡＭ（Phasechange Random Access Memory：抵抗変化型メモリ）、ＦｅＲＡＭ（Ferroelectric Random Access Memory）等、他の不揮発性半導体メモリであってもよい。例えば、ストレージデバイス３３は、磁気メモリ、３次元構造の半導体メモリ等でもよい。

ストレージデバイス３３はＳＱ監視機構３３Ａを含む。ＳＱ監視機構３３Ａは、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱを周期的にポーリングし、ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視する。ポーリングの結果、新たなサブミッションキューエントリＳＱＥが格納されたことを検知すると、ＳＱ監視機構３３Ａは、当該新たなサブミッションキューエントリＳＱＥに含まれるライトコマンドをフェッチし、当該ライトコマンドに基づいたライト処理を実行する。

ＳＱ監視機構３３Ａは、ストレージサブミッションキューＳＳＱにサブミッションキューエントリＳＱＥが一つも格納されていない場合、最初のサブミッションキューエントリＳＱＥが格納される記憶領域を周期的にポーリングし、新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視する。ポーリングの結果、最初のサブミッションキューエントリＳＱＥが格納される記憶領域に新たなサブミッションキューエントリＳＱＥが格納されたことを検知すると、以降においては、ＳＱ監視機構３３Ａは、次のサブミッションキューエントリＳＱＥ（２番目のサブミッションキューエントリＳＱＥ）が格納される記憶領域を周期的にポーリングして、新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視する。以上のように、ＳＱ監視機構３３Ａは、ストレージサブミッションキューＳＳＱのｎ番目の記憶領域を周期的にポーリングして、新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視し、ｎ番目の記憶領域に新たなサブミッションキューエントリＳＱＥが格納されたことを検知すると、以降においては、ストレージサブミッションキューＳＳＱのｎ＋１番目の記憶領域を周期的にポーリングして、新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視するように動作する。

なお、ＳＱ監視機構３３Ａは、新たなサブミッションキューエントリＳＱＥがストレージサブミッションキューＳＳＱに格納されたか否かを検知するためのものであるため、検知部と称されてもよい。

ＣＰＵ３４は、各部３１～３３の動作等を制御するが、本実施形態においては必須の構成でないため、ここではその詳しい説明を省略する。

以下では、上記のような構成を備える実施形態１－Ａに係るネットワークストレージシステム１Ａによって実行されるライト処理について説明する。

図２は、実施形態１－Ａに係るネットワークストレージシステム１Ａによって実行されるライト処理の一例を示すシーケンスチャートである。なお、ここでは、クライアント２のＤＲＡＭ２２には、サーバ３に書き込むべきライトデータＷＤが格納されているものとする。また、ここでは、サーバ３のストレージデバイス３３に含まれるＳＱ監視機構３３Ａが、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱを周期的にポーリングして、新たなサブミッションキューエントリＳＱＥが格納されたか否かの監視を行っているものとする。

まず、クライアント２のＣＰＵ２１は、ＤＲＡＭ２２に格納されているライトデータＷＤをサーバ３に書き込むためのライトコマンドを含むサブミッションキューエントリＳＱＥを生成し（ステップＳ１）、生成されたサブミッションキューエントリＳＱＥをＤＲＡＭ２２に格納する（ステップＳ２）。

続いて、ＣＰＵ２１は、生成されたサブミッションキューエントリＳＱＥに含まれるライトコマンドにより示されるサーバＤＲＡＭアドレスを取得する。ＣＰＵ２１は、ＤＲＡＭ２２に格納されているライトデータＷＤをサーバ３にＲＤＭＡ転送するための第１転送指示をネットワーク装置２３に出力する（ステップＳ３）。ここで、ネットワーク装置２３に出力される第１転送指示は、例えば、ライトデータＷＤが格納されているＤＲＡＭ２２上の位置を示すＤＲＡＭアドレスと、サーバＤＲＡＭアドレスとを含む。
ネットワーク装置２３は、ＣＰＵ２１からの第１転送指示を受けると、ライトデータＷＤをサーバ３に対してＲＤＭＡ転送する（ステップＳ４）。

サーバ３のネットワーク装置３１は、クライアント２のネットワーク装置２３からＲＤＭＡ転送されたライトデータＷＤとサーバＤＲＡＭアドレスとを受信すると、ＤＲＡＭ３２内の記憶領域のうち、ネットワーク装置２３によって指定された転送先メモリアドレス（ここではサーバＤＲＡＭアドレス）により示された位置に、受信されたライトデータＷＤを格納する（ステップＳ５）。

クライアント２のＣＰＵ２１は、上記した第１転送指示を出力すると、ＤＲＡＭ２２に格納されているサブミッションキューエントリＳＱＥをサーバ３にＲＤＭＡ転送するための第２転送指示をネットワーク装置２３に出力する（ステップＳ６）。ここで、ネットワーク装置２３に出力される第２転送指示は、例えば、サブミッションキューエントリＳＱＥが格納されているＤＲＡＭ２２上の位置を示すＤＲＡＭアドレスを含む。
ネットワーク装置２３は、ＣＰＵ２１からの第２転送指示を受けると、サブミッションキューエントリＳＱＥをサーバ３に対してＲＤＭＡ転送する（ステップＳ７）。

なお、図２では、ＲＤＭＡ転送されたライトデータＷＤがサーバ３のＤＲＡＭ３２に格納された後に、ステップＳ６の処理が実行される場合を例示しているが、ステップＳ６の処理は、上記した第１転送指示が出力された後であれば、ＲＤＭＡ転送されたライトデータＷＤがサーバ３のＤＲＡＭ３２に格納されるより前に実行されても構わない。

サーバ３のネットワーク装置３１は、クライアント２からＲＤＭＡ転送されたサブミッションキューエントリＳＱＥを受信すると、受信されたサブミッションキューエントリＳＱＥを、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに格納する（ステップＳ８）。

以降のタイミングにおいて、ストレージデバイス３３のＳＱ監視機構３３Ａによりポーリングが実行されると、ＳＱ監視機構３３Ａは、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたことを検知する（ステップＳ９）。

ＳＱ監視機構３３Ａは、新たなサブミッションキューエントリＳＱＥが格納されたことを検知すると、当該新たなサブミッションキューエントリＳＱＥに含まれるライトコマンドに基づいた動作（つまり、ライト処理）を実行する。具体的には、まず、ＳＱ監視機構３３Ａは、上記したライトコマンドに含まれるサーバＤＲＡＭアドレスに基づいて、ＤＲＡＭ３２に格納されているライトデータＷＤを読み出す（ステップＳ１０）。その後、ＳＱ監視機構３３Ａは、ストレージデバイス３３内の記憶領域のうち、上記したライトコマンドに含まれるストレージアドレスにより指定される位置に、読み出されたライトデータＷＤを書き込み（ステップＳ１１）、ここでの一連のライト処理を終了させる。

以上説明した実施形態１－Ａにおいて、ネットワークストレージシステム１Ａは、リモートダイレクトメモリアクセスによりサーバ３と通信し、サーバ３に対してライトコマンドを含むサブミッションキューエントリＳＱＥとライトデータＷＤとをＲＤＭＡ転送する、クライアント２を備えている。また、ネットワークストレージシステム１Ａは、クライアント２からＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥを格納するストレージサブミッションキューＳＳＱを含むＤＲＡＭ３２と、当該ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたか否かを周期的なポーリングにより監視するＳＱ監視機構３３Ａとを含む、サーバ３を備えている。

これによれば、サーバ３は、リモートダイレクトメモリアクセスによりＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥがストレージサブミッションキューＳＳＱに格納されたことをポーリングにより検知し、当該検知を契機にして、当該サブミッションキューエントリＳＱＥに含まれるライトコマンドに基づいたライト処理を実行することが可能である。このため、通常であれば必要である、ストレージサブミッションキューＳＳＱにサブミッションキューエントリＳＱＥが格納された際に行われるドアベルテールレジスタを更新する処理（換言すると、サブミッションキューエントリＳＱＥが書き込まれたストレージサブミッションキューＳＳＱの位置を示すポインタを更新する処理）を省略することが可能となり、レイテンシを削減することが可能である。

また、サーバ３において実行されるライトコマンドを含むサブミッションキューエントリＳＱＥは、クライアント２によりリモートで生成され、サーバ３は、ＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに含まれるライトコマンドに基づいたライト処理を実行すればよいので、例えば、クライアント２から送信されて来るリクエストコマンドをサーバ３用に変更し、サーバ３用のリクエストコマンドを生成するといったＣＰＵ処理を省略することが可能である。つまり、サーバ３のＣＰＵ３４によるＣＰＵ処理を削減することが可能である。

なお、ネットワークストレージシステム１Ａに含まれるクライアント２のネットワーク装置２３と、サーバ３のネットワーク装置３１は共に、ＮＶＭｅｏＦを解釈可能な機能を有さない標準的なｒＮＩＣで構築されてもよいし、ＮＶＭｅｏＦを解釈可能な機能を有するｒＮＩＣで構築されるとしても構わない。

（実施形態１－Ｂ）
次に、実施形態１－Ｂについて説明する。図３は、実施形態１－Ｂに係るネットワークストレージシステム１Ｂの概略構成例を示す図である。実施形態１－Ｂは、ストレージサブミッションキューＳＳＱが、新たなサブミッションキューエントリＳＱＥが格納される度に変化するフェーズビットＦＢを含む点で、上記した実施形態１－Ａと相違している。また、実施形態１－Ｂは、ストレージサブミッションキューＳＳＱのフェーズビットＦＢに基づいて、新たなサブミッションキューエントリＳＱＥが格納されたことを検知する点で、上記した実施形態１－Ａと相違している。なお、以下では、上記した実施形態１－Ａと相違する点のみを説明し、上記した実施形態１－Ａと同様な点についての説明は省略する。

ストレージサブミッションキューＳＳＱのフェーズビットＦＢは、図３に示すように、複数の管理単位の記憶領域毎に設定され、最初は全て「０」に設定される。新たなサブミッションキューエントリＳＱＥが、ストレージサブミッションキューＳＳＱの所定の記憶領域に格納されると、当該記憶領域に対応するフェーズビットＦＢは「０」から「１」、または、「１」から「０」に変化する。ストレージデバイス３３のＳＱ監視機構３３Ａは、このフェーズビットＦＢの変化をポーリングにより検知し、新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視する。

以上説明した実施形態１－Ｂによれば、ストレージサブミッションキューＳＳＱが、新たなサブミッションキューエントリＳＱＥが格納される度に変化するフェーズビットＦＢを含むことにより、ＳＱ監視機構３３Ａは、フェーズビットＦＢをポーリングにより監視することで、新たなサブミッションキューエントリＳＱＥが格納されたことを検知する。

この場合においても、ストレージサブミッションキューＳＳＱにサブミッションキューエントリＳＱＥが格納された際に行われるドアベルテールレジスタを更新する処理を省略することが可能な点に変わりはないため、上記した実施形態１－Ａと同様に、レイテンシを削減することが可能である。また、サーバ３において実行されるライトコマンドを含むサブミッションキューエントリＳＱＥが、クライアント２によりリモートで生成され、サーバ３は、ＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに含まれるライトコマンドに基づいたライト処理を実行すればよい点も変わりはないため、上記した実施形態１－Ａと同様に、サーバ３のＣＰＵ３４によるＣＰＵ処理を削減することが可能である。

（実施形態１－Ｃ）
続いて、実施形態１－Ｃについて説明する。実施形態１－Ｃは、図４に示すように、ＦＰＧＡ（Field Programmable Gate Array）３５がさらに設けられ、ストレージデバイス３３の代わりに、ＦＰＧＡ３５がＳＱ監視機構３５Ａを含む点で、上記した実施形態１－Ａと相違している。なお、実施形態１－Ｃは、ＦＰＧＡ３５に含まれるＳＱ監視機構３５Ａが、図１に示したＳＱ監視機構３３Ａの代わりに動作すること以外に相違点はないため、ここでは詳しい説明を省略する。

以上説明した実施形態１－Ｃによれば、上記した実施形態１－Ａと同様な効果を得ることが可能である。

なお、本実施形態では、図１に示したＳＱ監視機構３３Ａに相当する構成が、ＦＰＧＡ３５に設けられている場合について説明したが、ＳＱ監視機構３３Ａに相当する構成はＣＰＵ３４に設けられていてもよい。この場合であっても、上記した実施形態１－Ａと同様な効果を得ることが可能である。

（実施形態１－Ｄ）
さらに、実施形態１－Ｄについて説明する。図５は、実施形態１－Ｄに係るネットワークストレージシステム１Ｄの概略構成例を示す図である。実施形態１－Ｄは、図５に示すように、サーバ３のＤＲＡＭ３２が、コンプリーションキューＣＱと、ドアベルテールレジスタＤＴＲとを含む点で、上記した実施形態１－Ａと相違している。また、実施形態１－Ｄは、ポーリングの対象がストレージサブミッションキューＳＳＱではなく、コンプリーションキューＣＱと、ドアベルテールレジスタＤＴＲとである点でも、上記した実施形態１－Ａと相違している。なお、以下では、上記した実施形態１－Ａと相違する点のみを説明し、上記した実施形態１－Ａと同様な点についての説明は省略する。

コンプリーションキューＣＱは、複数の管理単位の記憶領域を有している。コンプリーションキューＣＱには、クライアント２からサーバ３へのサブミッションキューエントリＳＱＥのＲＤＭＡ転送が完了したことを示すコンプリーション情報ＣＱＥが格納される。なお、本実施形態においては、コンプリーションキューＣＱには、クライアント２からサーバ３へのサブミッションキューエントリＳＱＥのＲＤＭＡ転送が完了したことを示すコンプリーション情報ＣＱＥのみが格納され、クライアント２からサーバ３へのライトデータＷＤのＲＤＭＡ転送が完了したことを示すコンプリーション情報は格納されないものとする。

ドアベルテールレジスタＤＴＲには、コンプリーションキューＣＱに対するライトポインタ（以下、ＣＱテールと称する）ＣＱＴ（の値）が格納される。ＣＱテールＣＱＴは、クライアント２からのコンプリーション情報ＣＱＥを次に書き込むべきコンプリーションキューＣＱの位置を示すポインタである。

ストレージデバイス３３に含まれる監視機構３３Ｂは、ＤＲＡＭ３２内のコンプリーションキューＣＱおよびドアベルテールレジスタＤＴＲを周期的にポーリングし、コンプリーションキューＣＱに新たなコンプリーション情報ＣＱＥが格納されたか否かと、ドアベルテールレジスタＤＴＲに格納されるＣＱテールＣＱＴの値が更新されたか否か（インクリメントされたか否か）と、を監視する。ポーリングの結果、新たなコンプリーション情報ＣＱＥが格納されたことを検知し、かつ、ドアベルテールレジスタＤＴＲに格納されるＣＱテールＣＱＴの値が更新されたことを検知すると、監視機構３３Ｂは、ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたものと認識する。監視機構３３Ｂは、このようにして、新たなサブミッションキューエントリＳＱＥが格納されたことを検知すると、当該新たなサブミッションキューエントリＳＱＥに含まれるライトコマンドをフェッチし、当該ライトコマンドに基づいたライト処理を実行する。

なお、この場合、監視機構３３Ｂは、ドアベルテールレジスタＤＴＲをポーリングしつつ、当該ドアベルテールレジスタＤＴＲに格納されるＣＱテールＣＱＴにより示されるコンプリーションキューＣＱの位置をポーリングして、コンプリーションキューＣＱに新たなコンプリーション情報ＣＱＥが格納されたか否かと、ドアベルテールレジスタＤＴＲに格納されるＣＱテールＣＱＴの値が更新されたか否か（インクリメントされたか否か）と、を監視する。

また、本実施形態では、監視機構３３Ｂは、ポーリングの結果、新たなコンプリーション情報ＣＱＥが格納されたことを検知し、かつ、ドアベルテールレジスタＤＴＲに格納されるＣＱテールＣＱＴの値が更新されたことを検知した場合に、ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたものと認識するとしたが、これに限定されず、新たなコンプリーション情報ＣＱＥが格納されたこと、または、ＣＱテールＣＱＴの値が更新されたことのうちの少なくとも一方を検知した場合に、ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたものと認識してもよい。

以上説明した実施形態１－Ｄにおいて、サーバ３は、ＤＲＡＭ３２内にコンプリーションキューＣＱとドアベルテールレジスタＤＴＲとを含む。また、サーバ３は、ＤＲＡＭ３２内のコンプリーションキューＣＱおよびドアベルテールレジスタＤＴＲを周期的にポーリングすることで、ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視する監視機構３３Ｂを含む。

この場合においても、ストレージサブミッションキューＳＳＱにサブミッションキューエントリＳＱＥが格納された際に行われるドアベルテールレジスタを更新する処理（補足すると、コンプリーションキューＣＱに対応するドアベルテールレジスタＤＴＲを更新する処理ではなく、ストレージサブミッションキューＳＳＱに対応するドアベルテールレジスタを更新する処理）を省略することが可能な点に変わりはないため、上記した実施形態１－Ａと同様に、レイテンシを削減することが可能である。また、サーバ３において実行されるライトコマンドを含むサブミッションキューエントリＳＱＥが、クライアント２によりリモートで生成され、サーバ３は、ＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに含まれるライトコマンドに基づいたライト処理を実行すればよい点も変わりはないため、上記した実施形態１－Ａと同様に、サーバ３のＣＰＵ３４によるＣＰＵ処理を削減することが可能である。

（実施形態１－Ｅ）
次に、実施形態１－Ｅについて説明する。図６は、実施形態１－Ｅに係るネットワークストレージシステム１Ｅの概略構成例を示す図である。実施形態１－Ｅは、クライアント２のＣＰＵ２１により、最初のライトデータＷＤ１が格納されるＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスが設定される一方で、図６に示すように、サブミッションキューエントリＳＱＥからサーバＤＲＡＭアドレスが省略されている点で、上記した実施形態１－Ａと相違している。ＣＰＵ２１により設定されたサーバＤＲＡＭアドレスは、クライアント２からサーバ３に転送され、ストレージデバイス３３のＤＲＡＭアドレス保持部３３Ｃにより保持される。なお、以下では、上記した実施形態１－Ａと相違する点のみを説明し、上記した実施形態１－Ａと同様な点についての説明は省略する。

クライアント２のＣＰＵ２１は、クライアント２からサーバ３に最初にＲＤＭＡ転送されるライトデータＷＤ１が格納されるべきＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスを生成する。生成されたサーバＤＲＡＭアドレスは、クライアント２からサーバ３に転送され、ストレージデバイス３３のＤＲＡＭアドレス保持部３３Ｃにより保持される。

サーバ３のネットワーク装置３１は、リモートダイレクトメモリアクセスによりクライアント２と通信し、クライアント２からＲＤＭＡ転送された最初のライトデータＷＤ１を受信すると、ＤＲＡＭ３２内の記憶領域のうち、ストレージデバイス３３のＤＲＡＭアドレス保持部３３Ｃにおいて保持されるサーバＤＲＡＭアドレスにより指定される位置に、当該ライトデータＷＤ１を格納する。

ネットワーク装置３１は、リモートダイレクトメモリアクセスによりクライアント２と通信し、クライアント２からＲＤＭＡ転送された最初のライトデータＷＤ１に対応するサブミッションキューエントリＳＱＥ１を受信すると、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに、当該サブミッションキューエントリＳＱＥ１を格納する。また、ネットワーク装置３１は、受信されたサブミッションキューエントリＳＱＥ１に含まれるライトデータＷＤ１のサイズを、ストレージデバイス３３のＤＲＡＭアドレス保持部３３Ｃにおいて保持されるサーバＤＲＡＭアドレスに足すことにより、次にＲＤＭＡ転送されるライトデータＷＤ２が格納されるべきＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスを生成する。生成されたサーバＤＲＡＭアドレスは、例えば、ＤＲＡＭアドレス保持部３３Ｃに保持されているサーバＤＲＡＭアドレスを更新することにより保持される。

ネットワーク装置３１は、クライアント２からＲＤＭＡ転送された２番目のライトデータＷＤ２を受信すると、ＤＲＡＭ３２内の記憶領域のうち、ストレージデバイス３３のＤＲＡＭアドレス保持部３３Ｃにおいて保持されるサーバＤＲＡＭアドレスにより指定される位置に、当該ライトデータＷＤ２を格納する。

ネットワーク装置３１は、クライアント２からＲＤＭＡ転送された２番目のライトデータＷＤ２に対応するサブミッションキューエントリＳＱＥ２を受信すると、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに、当該サブミッションキューエントリＳＱＥ２を格納する。また、ネットワーク装置３１は、受信されたサブミッションキューエントリＳＱＥ２に含まれるライトデータＷＤ２のサイズを、ストレージデバイス３３のＤＲＡＭアドレス保持部３３Ｃにおいて保持されるサーバＤＲＡＭアドレスに足すことにより、次にＲＤＭＡ転送されるライトデータＷＤ３が格納されるべきＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスを生成する。生成されたサーバＤＲＡＭアドレスは、ＤＲＡＭアドレス保持部３３Ｃに保持されているサーバＤＲＡＭアドレスを更新することにより保持される。

なお、ネットワーク装置３１は、３番目のライトデータＷＤ３がＲＤＭＡ転送された場合も最初のライトデータＷＤ１および２番目のライトデータＷＤ２がＲＤＭＡ転送された場合と同様に動作するため、ここではその詳しい説明は省略する。

以上説明した実施形態１－Ｅによれば、クライアント２により、最初のライトデータＷＤ１のサーバＤＲＡＭアドレスが設定されることにより、サーバ３は、最初のライトデータＷＤ１のサーバＤＲＡＭアドレスと当該ライトデータＷＤ１のサイズとに基づいて、２番目以降のライトデータＷＤのサーバＤＲＡＭアドレスを特定することが可能である。このため、サブミッションキューエントリＳＱＥからサーバＤＲＡＭアドレスを省略することが可能となり、クライアント２からサーバ３へのサーバＤＲＡＭアドレスの転送を省略することが可能となる。これによれば、サブミッションキューエントリＳＱＥのデータ量を削減することができるため、レイテンシをさらに削減することが可能である。

なお、サーバ３において実行されるライトコマンドを含むサブミッションキューエントリＳＱＥが、クライアント２によりリモートで生成され、サーバ３は、ＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに含まれるライトコマンドに基づいたライト処理を実行すればよい点に変わりはないため、上記した実施形態１－Ａと同様に、サーバ３のＣＰＵ３４によるＣＰＵ処理を削減することが可能である。

以上説明した実施形態１－Ａ～実施形態１－Ｅによれば、クライアント２に格納されているライトデータＷＤを効率よくサーバ３に書き込むことが可能なネットワークストレージシステム１を実現させることが可能である。

（実施形態２－Ａ）
実施形態２－Ａでは、サーバ３に格納されているデータを効率よくクライアント２に転送することが可能なネットワークストレージシステム１について説明する。なお、以下では、主に、上記した実施形態１－Ａ～実施形態１－Ｅと相違する点を説明し、上記した実施形態１－Ａ～実施形態１－Ｅと同様な点についての説明は適宜省略する。

図７は、実施形態２－Ａに係るネットワークストレージシステム１Ｆの概略構成例を示す図である。図７に示すように、ネットワークストレージシステム１Ｆは、クライアント２と、サーバ３とを備える。クライアント２とサーバ３とは、リモートダイレクトメモリアクセスにより通信する。クライアント２とサーバ３との間で行われるリモートダイレクトメモリアクセスによる通信は、Ｉｎｆｉｎｉｂａｎｄ、ＲｏＣＥ、ｉＷＡＲＰ等により実現され得る。

クライアント２は、ＣＰＵ２１と、ＤＲＡＭ２２と、ネットワーク装置２３と、を備える。クライアント２に含まれる各部２１～２３は、例えばバスによって相互接続されている。

サーバ３は、ネットワーク装置３１と、ＤＲＡＭ３２と、ストレージデバイス３３と、ＣＰＵ３４と、を備える。ネットワーク装置３１、ＤＲＡＭ３２およびＣＰＵ３４は、ストレージデバイス３３のホストとして機能する。サーバ３に含まれる各部３１～３４は、例えばバスによって相互接続されている。上記したホストとストレージデバイス３３とを相互接続するためのインタフェースとしては、ＰＣＩｅやＮＶＭｅが使用されてもよい。

まず、クライアント２の構成について説明する。
ＣＰＵ２１は、サーバ３への要求を含むサブミッションキューエントリＳＱＥを生成する。サブミッションキューエントリＳＱＥには、各種コマンドが含まれる。本実施形態では、各種コマンドの一つとしてリードコマンドが含まれる場合を説明する。

リードコマンドは、データ（リードデータ）をサーバ３から読み出すためのコマンドであり、クライアントＤＲＡＭアドレス、サーバＤＲＡＭアドレス、リードデータのサイズ、ストレージアドレス、等を含む。クライアントＤＲＡＭアドレスは、クライアント２に含まれるＤＲＡＭ２２のアドレスを示し、サーバ３から転送されるリードデータが格納されるＤＲＡＭ２２内の位置を示している。サーバＤＲＡＭアドレスは、サーバ３に含まれるＤＲＡＭ３２のアドレスを示し、クライアント２に転送されるリードデータが一時的に格納されるＤＲＡＭ３２内の位置を示している。ストレージアドレスは、サーバ３に含まれるストレージデバイス３３のアドレスを示し、クライアント２に転送されるリードデータが格納されているストレージデバイス３３内の位置を示している。

ＤＲＡＭ２２は、ＣＰＵ２１により生成されたサブミッションキューエントリＳＱＥと、当該サブミッションキューエントリＳＱＥに含まれるリードコマンドによりサーバ３から読み出された（転送された）リードデータＲＤとを格納する。

ネットワーク装置２３は、リモートダイレクトメモリアクセスによりサーバ３と通信し、サーバ３に対してサブミッションキューエントリＳＱＥをＲＤＭＡ転送する。また、ネットワーク装置２３は、サーバ３と通信し、サーバ３から転送されて来るリードデータＲＤを受信する。

次に、サーバ３の構成について説明する。
ネットワーク装置３１は、リモートダイレクトメモリアクセスによりクライアント２と通信し、クライアント２からＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥを受信する。受信されたサブミッションキューエントリＳＱＥは、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに格納される。
また、ネットワーク装置３１は、クライアント２と通信し、クライアント２に対してリードデータＲＤを転送する。

ＤＲＡＭ３２は、ストレージサブミッションキューＳＳＱを含む。ストレージサブミッションキューＳＳＱは、複数の管理単位の記憶領域を有している。ストレージサブミッションキューＳＳＱには、クライアント２からＲＤＭＡ転送されたサブミッションキューエントリＳＱＥが格納される。また、ＤＲＡＭ３２には、クライアント２からＲＤＭＡ転送されたサブミッションキューエントリＳＱＥに含まれるリードコマンドによりストレージデバイス３３から読み出されたリードデータＲＤが格納される。

ストレージデバイス３３はＳＱ監視機構３３Ａを含む。ＳＱ監視機構３３Ａは、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱを周期的にポーリングし、ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたか否かを監視する。ポーリングの結果、新たなサブミッションキューＳＱＥが格納されたことを検知すると、ＳＱ監視機構３３Ａは、当該新たなサブミッションキューエントリＳＱＥに含まれるリードコマンドをフェッチし、当該リードコマンドに基づいたリード処理を実行する。なお、ポーリングの方法については、上記した実施形態１－Ａ～実施形態１－Ｅにおいて既に説明したため、ここではその詳しい説明は省略する。

ＣＰＵ３４は、ストレージデバイス３３によってフェッチされたリードコマンドにより示されるクライアントＤＲＡＭアドレスを取得する。ＣＰＵ３４は、ストレージデバイス３３から読み出されたリードデータＲＤを、クライアント２に転送するための指示をネットワーク装置３１に出力する。ここで、ネットワーク装置３１に出力される指示は、例えば、リードデータＲＤが格納されているＤＲＡＭ３２上の位置を示すサーバＤＲＡＭアドレスと、クライアントＤＲＡＭアドレスとを含む。
ネットワーク装置３１は、ＣＰＵ３４からの指示にしたがって、リードデータＲＤをクライアント２に対して転送する。

なお、リードデータＲＤは、リモートダイレクトメモリアクセスによりＲＤＭＡ転送されてもよいし、ＲＤＭＡ転送とは異なる任意の転送方法で転送されても構わない。

以下では、上記のような構成を備える実施形態２－Ａに係るネットワークストレージシステム１Ｆによって実行されるリード処理について説明する。

図８は、実施形態２－Ａに係るネットワークストレージシステム１Ｆによって実行されるリード処理の一例を示すシーケンスチャートである。なお、ここでは、サーバ３のストレージデバイス３３には、クライアント２に転送されるべきリードデータＲＤが格納されているものとする。また、ここでは、サーバ３のストレージデバイス３３に含まれるＳＱ監視機構３３Ａが、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱを周期的にポーリングして、新たなサブミッションキューエントリＳＱＥが格納されたか否かの監視を行っているものとする。

まず、クライアント２のＣＰＵ２１は、サーバ３からデータを読み出すためのリードコマンドを含むサブミッションキューエントリＳＱＥを生成し（ステップＳ２１）、生成されたサブミッションキューエントリＳＱＥをＤＲＡＭ２２に格納する（ステップＳ２２）。

続いて、ＣＰＵ２１は、生成されたサブミッションキューエントリＳＱＥを、サーバ３にＲＤＭＡ転送するための第３転送指示をネットワーク装置２３に出力する（ステップＳ２３）。ここで、ネットワーク装置２３に出力される第３転送指示は、例えば、サブミッションキューエントリＳＱＥが格納されているＤＲＡＭ２２上の位置を示すＤＲＡＭアドレスを含む。
ネットワーク装置２３は、ＣＰＵ２１からの第３転送指示を受けると、サブミッションキューエントリＳＱＥをサーバ３に対してＲＤＭＡ転送する（ステップＳ２４）。

サーバ３のネットワーク装置３１は、クライアント２からＲＤＭＡ転送されたサブミッションキューエントリＳＱＥを受信すると、受信されたサブミッションキューエントリＳＱＥを、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに格納する（ステップＳ２５）。

以降のタイミングにおいて、ストレージデバイス３３のＳＱ監視機構３３Ａによりポーリングが実行されると、ＳＱ監視機構３３Ａは、ＤＲＡＭ３２内のストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたことを検知する（ステップＳ２６）。

ＳＱ監視機構３３Ａは、新たなサブミッションキューエントリＳＱＥが格納されたことを検知すると、当該新たなサブミッションキューエントリＳＱＥに含まれるリードコマンドに基づいた動作（つまり、リード処理）を実行する。具体的には、まず、ＳＱ監視機構３３Ａは、上記したリードコマンドに含まれるストレージアドレスに基づいて、ストレージデバイス３３に格納されているリードデータＲＤを読み出す（ステップＳ２７）。その後、ＳＱ監視機構３３Ａは、ＤＲＡＭ３２内の記憶領域のうち、上記したリードコマンドに含まれるサーバＤＲＡＭアドレスにより指定される位置に、読み出されたリードデータＲＤを格納する（ステップＳ２８）。

ＣＰＵ３４は、ＤＲＡＭ３２にリードデータＲＤが格納されたことを検知すると、上記したリードコマンドにより示されるクライアントＤＲＡＭアドレスを取得する。ＣＰＵ３４は、ＤＲＡＭ３２に格納されているリードデータＲＤをクライアント２に転送するための第４転送指示をネットワーク装置３１に出力する（ステップＳ２９）。ここで、ネットワーク装置３１に出力される第４転送指示は、例えば、リードデータＲＤが格納されているＤＲＡＭ３２上の位置を示すサーバＤＲＡＭアドレスと、クライアントＤＲＡＭアドレスとを含む。
ネットワーク装置３１は、ＣＰＵ３４からの第４転送指示を受けると、リードデータＲＤをクライアント２に対して転送する（ステップＳ３０）。

クライアント２のネットワーク装置２３は、サーバ３のネットワーク装置３１から転送されたリードデータＲＤを受信すると、ＤＲＡＭ２２内の記憶領域のうち、ネットワーク装置３１によって指定された転送先メモリアドレス（ここではクライアントＤＲＡＭアドレス）により示された位置に、受信されたリードデータＲＤを格納し（ステップＳ３１）、ここでの一連のリード処理を終了させる。

なお、ＤＲＡＭ３２にリードデータＲＤが格納されたことを検知する方法（換言すると、ストレージデバイス３３によるリードコマンドに基づいた動作の完了を検知する方法）は、リードコマンドに基づいた動作の完了を示すコンプリーション情報が格納されるコンプリーションキューをポーリングして検知すること、ドアベルテールレジスタに格納されるＣＱテールの値の更新を検知すること、割り込みを検知すること等、既存のいずれかの方法を使用して実現される。

以上説明した実施形態２－Ａにおいて、ネットワークストレージシステム１Ｆは、リモートダイレクトメモリアクセスによりサーバ３と通信し、サーバ３に対してリードコマンドを含むサブミッションキューエントリＳＱＥをＲＤＭＡ転送する、クライアント２を備えている。また、ネットワークストレージシステム１Ｆは、クライアント２からＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥを格納するストレージサブミッションキューＳＳＱを含むＤＲＡＭ３２と、当該ストレージサブミッションキューＳＳＱに新たなサブミッションキューエントリＳＱＥが格納されたか否かを周期的なポーリングにより監視するＳＱ監視機構３３Ａとを含む、サーバ３を備えている。

これによれば、サーバ３は、リモートダイレクトメモリアクセスによりＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥがストレージサブミッションキューＳＳＱに格納されたことをポーリングにより検知し、当該検知を契機にして、当該サブミッションキューエントリＳＱＥに含まれるリードコマンドに基づいたリード処理を実行することが可能である。このため、通常であれば必要である、ストレージサブミッションキューＳＳＱにサブミッションキューエントリＳＱＥが格納された際に行われるドアベルテールレジスタを更新する処理を省略することが可能となり、レイテンシを削減することが可能である。

また、サーバ３において実行されるリードコマンドを含むサブミッションキューエントリＳＱＥは、クライアント２によりリモートで生成され、サーバ３は、ＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに含まれるリードコマンドに基づいたリード処理を実行すればよいので、クライアント２から送信されて来るリクエストコマンドをサーバ３用に変更し、サーバ３用のリクエストコマンドを生成するといったＣＰＵ処理を省略することが可能である。つまり、サーバ３のＣＰＵ３４によるＣＰＵ処理を削減することが可能である。

なお、上記した実施形態１－Ａ～実施形態１－Ｅと同様に、ネットワークストレージシステム１Ｆに含まれるクライアント２のネットワーク装置２３と、サーバ３のネットワーク装置３１は共に、ＮＶＭｅｏＦを解釈可能な機能を有さない標準的なｒＮＩＣで構築されてもよいし、ＮＶＭｅｏＦを解釈可能な機能を有するｒＮＩＣで構築されるとしても構わない。

（実施形態２－Ｂ）
次に、実施形態２－Ｂについて説明する。図９は、実施形態２－Ｂに係るネットワークストレージシステム１Ｇの概略構成例を示す図である。実施形態２－Ｂは、図９に示すように、クライアント２のＤＲＡＭ２２が、クライアントＤＲＡＭアドレスを格納するレシービングキューＲＱを含む一方で、サブミッションキューエントリＳＱＥからクライアントＤＲＡＭアドレスが省略されている点で、上記した実施形態２－Ａと相違している。なお、以下では、上記した実施形態２－Ａと相違する点のみを説明し、上記した実施形態２－Ａと同様な点についての説明は省略する。

クライアント２のネットワーク装置２３は、サーバ３から転送されたリードデータＲＤを受信すると、ＤＲＡＭ２２内のレシービングキューＲＱに格納されたクライアントＤＲＡＭアドレスにより指定された位置に、受信されたリードデータＲＤを格納する。

以上説明した実施形態２－Ｂによれば、クライアント２のＤＲＡＭ２２が、クライアントＤＲＡＭアドレスを格納可能なレシービングキューＲＱを含むことにより、サブミッションキューエントリＳＱＥからクライアントＤＲＡＭアドレスを省略することが可能となり、クライアント２からサーバ３へのクライアントＤＲＡＭアドレスの転送を省略することが可能となる。これによれば、サブミッションキューエントリＳＱＥのデータ量を削減することができるため、レイテンシをさらに削減することが可能である。

なお、サーバ３において実行されるリードコマンドを含むサブミッションキューエントリＳＱＥが、クライアント２によりリモートで生成され、サーバ３は、ＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに含まれるリードコマンドに基づいたリード処理を実行すればよい点に変わりはないため、上記した実施形態２－Ａと同様に、サーバ３のＣＰＵ３４によるＣＰＵ処理を削減することが可能である。

（実施形態２－Ｃ）
続いて、実施形態２－Ｃについて説明する。図１０は、実施形態２－Ｃに係るネットワークストレージシステム１Ｈの概略構成例を示す図である。実施形態２－Ｃは、図１０に示すように、サーバ３のストレージデバイス３３が第１ＤＲＡＭアドレス保持部３３Ｄを含み、かつ、サーバ３のＤＲＡＭ３２が第２ＤＲＡＭアドレス保持部３２Ａを含む一方で、サブミッションキューエントリＳＱＥからサーバＤＲＡＭアドレスが省略されている点で、上記した実施形態２－Ａと相違している。第１ＤＲＡＭアドレス保持部３３Ｄと第２ＤＲＡＭアドレス保持部３２Ａとには、ストレージデバイス３３から読み出されたリードデータＲＤが格納されるべきＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスが保持される。なお、第１ＤＲＡＭアドレス保持部３３Ｄと第２ＤＲＡＭアドレス保持部３２Ａとは、同じ値のサーバＤＲＡＭアドレスを保持するように初期化される。

サーバ３のストレージデバイス３３は、クライアント２からサーバ３に最初にＲＤＭＡ転送されたサブミッションキューエントリＳＱＥがストレージサブミッションキューＳＳＱに格納されたことを検知すると、当該サブミッションキューエントリＳＱＥに含まれるストレージアドレスに格納されているリードデータＲＤを読み出す。ストレージデバイス３３は、読み出されたリードデータＲＤを、ＤＲＡＭ３２内の記憶領域のうち、第１ＤＲＡＭアドレス保持部３３Ｄにより保持されるサーバＤＲＡＭアドレス（初期値）により指定された位置に格納する。なお、ストレージデバイス３３は、最初のサブミッションキューエントリＳＱＥに含まれるリードデータＲＤのサイズを、第１ＤＲＡＭアドレス保持部３３Ｄにおいて保持されるサーバＤＲＡＭアドレスに足すことにより、次にＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに対応するリードデータＲＤが格納されるべきＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスを生成する。生成されたサーバＤＲＡＭアドレスは、第１ＤＲＡＭアドレス保持部３３Ｄに保持されているサーバＤＲＡＭアドレスを更新することにより保持される。

ＣＰＵ３４は、最初のサブミッションキューエントリＳＱＥに対応するリードデータＲＤがＤＲＡＭ３２に格納されたことを検知すると、第２ＤＲＡＭアドレス保持部３２Ａにより保持されるサーバＤＲＡＭアドレス（初期値）により指定された位置に格納されているリードデータＲＤをクライアント２に転送するための指示をネットワーク装置３１に出力する。なお、ＣＰＵ３４は、最初のサブミッションキューエントリＳＱＥに含まれるリードデータＲＤのサイズを、第２ＤＲＡＭアドレス保持部３２Ａにおいて保持されるサーバＤＲＡＭアドレスに足すことにより、次にＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに対応するリードデータＲＤが格納されるべきＤＲＡＭ３２内の位置を示すサーバＤＲＡＭアドレスを生成する。生成されたサーバＤＲＡＭアドレスは、第２ＤＲＡＭアドレス保持部３２Ａに保持されているサーバＤＲＡＭアドレスを更新することにより保持される。

サーバ３のストレージデバイス３３は、２番目以降にＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに対応するリードデータＲＤが読み出された場合も同様に動作して、第１ＤＲＡＭアドレス保持部３３Ｄにおいて保持されるサーバＤＲＡＭアドレスを更新する。また、ＣＰＵ３４も同様に、２番目以降にＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに対応するリードデータＲＤが読み出された場合も同様に動作して、第２ＤＲＡＭアドレス保持部３２Ａにおいて保持されるサーバＤＲＡＭアドレスを更新する。これによれば、第１ＤＲＡＭアドレス保持部３３Ｄにおいて保持されるサーバＤＲＡＭアドレスと、第２ＤＲＡＭアドレス保持部３２Ａにおいて保持されるサーバＤＲＡＭアドレスとを、常に同じ値にすることが可能である。

以上説明した実施形態２－Ｃによれば、サーバ３は、第１ＤＲＡＭアドレス保持部３３Ｄと第２ＤＲＡＭアドレス保持部３２Ａとに保持されるサーバＤＲＡＭアドレスと、受信されたサブミッションキューエントリＳＱＥに含まれるリードデータＲＤのサイズとに基づいて、次にＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥに対応するリードデータＲＤのサーバＤＲＡＭアドレスを特定することが可能である。このため、サブミッションキューエントリＳＱＥからサーバＤＲＡＭアドレスの転送を省略することが可能となり、クライアント２からサーバ３へのサーバＤＲＡＭアドレスの転送を省略することが可能となる。これによれば、サブミッションキューエントリＳＱＥのデータ量を削減することができるため、レイテンシをさらに削減することが可能である。

以上説明した実施形態２－Ａ～実施形態２－Ｃによれば、サーバ３に格納されているデータを効率よくクライアント２に転送することが可能なネットワークストレージシステム１を実現させることが可能である。

以上説明した少なくとも一つの実施形態において、ネットワークストレージシステム１は、リモートダイレクトメモリアクセスによりＲＤＭＡ転送されて来るサブミッションキューエントリＳＱＥがストレージサブミッションキューＳＳＱに格納されたことをポーリングにより検知し、当該検知を契機にして、当該サブミッションキューエントリＳＱＥに含まれるコマンドに基づいた処理を実行することが可能なサーバ３を備えている。これによれば、クライアント２とサーバ（ストレージシステム）３との間の通信を効率化することが可能なネットワークストレージシステム１を実現させることが可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…ネットワークストレージシステム
２…クライアント
３…サーバ（ストレージシステム）
２１…ＣＰＵ、２２…ＤＲＡＭ、２３…ネットワーク装置（ｒＮＩＣ）
３１…ネットワーク装置、３２…ＤＲＡＭ、３３…ストレージデバイス、３３Ａ…ＳＱ監視機構、３４…ＣＰＵ
ＳＱＥ…サブミッションキューエントリ、ＳＳＱ…ストレージサブミッションキュー、ＷＤ…ライトデータ。

Claims

リモートダイレクトメモリアクセスによりクライアントと通信可能なネットワークインタフェースコントローラと、
揮発性メモリと、
ストレージデバイスと、
を具備するストレージシステムであって、
前記ネットワークインタフェースコントローラは、リモートダイレクトメモリアクセスにより転送される、ライトデータと、前記ライトデータの書き込み要求を含むサブミッションキューエントリとを前記揮発性メモリに格納し、
前記ストレージデバイスは、前記サブミッションキューエントリが前記揮発性メモリのサブミッションキューに格納されると、前記サブミッションキューエントリに基づいて、前記ライトデータを前記ストレージデバイスに書き込む、ストレージシステム。
前記サブミッションキューエントリは、前記ライトデータの書き込み先を示すストレージアドレスを含み、
前記ストレージデバイスは、前記サブミッションキューエントリに含まれる前記ストレージアドレスにより指定される位置に、前記ライトデータを書き込む、請求項１に記載のストレージシステム。
前記ストレージデバイスは、前記サブミッションキューエントリが前記サブミッションキューに格納されたか否かを検知する、請求項１に記載のストレージシステム。
前記ストレージデバイスは、前記サブミッションキューを監視し、前記サブミッションキューエントリが前記サブミッションキューに格納されたことを検知する、請求項３に記載のストレージシステム。
前記サブミッションキューは、サブミッションキューエントリが格納される度に更新されるビット情報を含み、
前記ストレージデバイスは、前記ビット情報が更新されると、前記サブミッションキューエントリが前記サブミッションキューに格納されたことを検知する、請求項３または請求項４に記載のストレージシステム。
前記ストレージデバイスは、リモートダイレクトメモリアクセスによる前記クライアントとの通信が完了したことを検知すると、前記サブミッションキューエントリが前記サブミッションキューに格納されたことを検知する、請求項３に記載のストレージシステム。
前記サブミッションキューエントリは、前記ライトデータのサイズを含み、
前記ストレージデバイスは、前記揮発性メモリのアドレスであって、前記クライアントから最初に転送されるライトデータの書き込み先を示すメモリアドレスを保持し、以降に前記クライアントから転送されるライトデータの前記揮発性メモリにおける書き込み先を、前記メモリアドレスと、前記ライトデータのサイズとに基づいて特定する、請求項１に記載のストレージシステム。
前記サブミッションキューエントリが前記サブミッションキューに格納されたか否かを検知する検知部をさらに具備する、請求項１に記載のストレージシステム。
リモートダイレクトメモリアクセスによりクライアントと通信可能なネットワークインタフェースコントローラと、
揮発性メモリと、
ストレージデバイスと、
プロセッサと、
を具備するストレージシステムであって、
前記ネットワークインタフェースコントローラは、リモートダイレクトメモリアクセスにより転送される、前記ストレージデバイスに格納されたデータの読み出し要求を含むサブミッションキューエントリを前記揮発性メモリに格納し、
前記ストレージデバイスは、前記サブミッションキューエントリが前記揮発性メモリのサブミッションキューに格納されると、前記サブミッションキューエントリに基づいて読み出し対象のリードデータを読み出し、
前記プロセッサは、前記リードデータを、前記クライアントに転送するための指示を前記ネットワークインタフェースコントローラに出力する、ストレージシステム。
前記サブミッションキューエントリは、前記リードデータの格納先を示すストレージアドレスを含み、
前記ストレージデバイスは、前記サブミッションキューエントリに含まれる前記ストレージアドレスにより指定される位置から前記リードデータを読み出す、請求項９に記載のストレージシステム。
前記ストレージデバイスは、前記サブミッションキューエントリが前記サブミッションキューに格納されたか否かを検知する、請求項９に記載のストレージシステム。
前記ストレージデバイスは、前記サブミッションキューを監視し、前記サブミッションキューエントリが前記サブミッションキューに格納されたことを検知する、請求項１１に記載のストレージシステム。
前記サブミッションキューは、サブミッションキューエントリが格納される度に更新されるビット情報を含み、
前記ストレージデバイスは、前記ビット情報が更新されると、前記サブミッションキューエントリが前記サブミッションキューに格納されたことを検知する、請求項１１または請求項１２に記載のストレージシステム。
前記ストレージデバイスは、リモートダイレクトメモリアクセスによる前記クライアントとの通信が完了したことを検知すると、前記サブミッションキューエントリが前記サブミッションキューに格納されたことを検知する、請求項１１に記載のストレージシステム。
前記サブミッションキューエントリは、前記揮発性メモリのアドレスであって、前記リードデータの書き込み先を示すメモリアドレスを含み、
前記ストレージデバイスは、前記サブミッションキューエントリに含まれる前記メモリアドレスにより指定される位置に、前記リードデータを書き込む、請求項９に記載のストレージシステム。
前記サブミッションキューエントリは、前記リードデータの書き込み先を示すクライアントアドレスを含み、
前記プロセッサは、前記リードデータおよび前記クライアントアドレスを、前記クライアントに転送するための指示を前記ネットワークインタフェースコントローラに出力する、請求項９に記載のストレージシステム。
前記クライアントは、前記リードデータの書き込み先を示すクライアントアドレスを格納するレシービングキューを含み、
前記リードデータは、前記レシービングキューに格納される前記クライアントアドレスにより指定される位置に書き込まれる、請求項９に記載のストレージシステム。
前記サブミッションキューエントリは、前記リードデータのサイズを含み、
前記ストレージデバイスおよび前記揮発性メモリは、前記揮発性メモリのアドレスであって、前記クライアントに最初に転送されるリードデータの書き込み先を示すメモリアドレスを保持し、
前記ストレージデバイスは、２番目以降に転送されるリードデータの前記揮発性メモリにおける書き込み先を、前記メモリアドレスと、前記リードデータのサイズとに基づいて特定する、請求項９に記載のストレージシステム。