JP2022108619A

JP2022108619A - 情報処理システム、情報処理装置、及び、情報処理方法

Info

Publication number: JP2022108619A
Application number: JP2021003717A
Authority: JP
Inventors: 純加藤; Jun Kato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2022-07-26
Also published as: US20220222175A1

Abstract

【課題】情報処理装置へのデータの書き込みの際の通信量を削減する。【解決手段】第１の情報処理装置２は、ネットワークを介して接続される第２の情報処理装置４への書込対象のデータのフィンガープリント（ＦＰ）が、データのＦＰを記憶する第１記憶領域２０ａに存在する場合に当該ＦＰを含む書込要求を、存在しない場合に当該ＦＰ及び書込対象のデータを含む書込要求を、第２の情報処理装置４に送信し、第２の情報処理装置４は、受信した複数のＦＰの、記憶装置４０ｃに書き込まれた複数のデータの各ＦＰを複数のデータの書き込み順に記憶する第２記憶領域４０ｄのデータレイアウト上の書込位置に基づき、複数の書込要求のシーケンシャル性を検出した場合、当該データレイアウト上で複数のＦＰの後続のＦＰを読み出し第１の情報処理装置２に送信し、第１の情報処理装置２は、受信した後続のＦＰを第１記憶領域２０ａに格納する。【選択図】図１４

Description

本発明は、情報処理システム、情報処理装置、及び、情報処理方法に関する。

複数の情報処理装置を備える情報処理システムの一例として、コンピュートサーバとストレージサーバとをネットワークを介して相互に通信可能に接続したブロックストレージシステムが知られている。

特開２０１８－１４２３１４号公報特開２０１８－１８５７６０号公報特開２００５－２０２９４２号公報

ブロックストレージシステムにおいて、コンピュートサーバからストレージサーバにデータが書き込まれる場合、データがネットワークを経由することによる通信が発生する。

例えば、コンピュートサーバにコンテンツキャッシュを採用することで、キャッシュヒットする書き込みについては、データがネットワークを経由することを抑制できる、換言すれば重複排除することが可能である。一方、キャッシュミスとなるデータについては、重複排除が行なわれない。

このように、情報処理システムの運用形態、情報処理装置への書き込みアクセスの傾向等に応じて、例えばキャッシュミスの頻度が増加するほど、重複排除による通信量の削減効果が低下する場合がある。

１つの側面では、本発明は、情報処理装置へのデータの書き込みの際の通信量を削減することを目的の１つとする。

１つの側面では、情報処理システムは、第１の情報処理装置と、前記第１の情報処理装置とネットワークを介して接続される第２の情報処理装置と、を備えてよい。前記第１の情報処理装置は、データのフィンガープリントを記憶する第１記憶領域と、送信部と、を備えてよい。前記送信部は、前記第２の情報処理装置への書込対象のデータのフィンガープリントが前記第１記憶領域に存在する場合、前記フィンガープリントを含む書込要求を前記第２の情報処理装置に送信し、前記フィンガープリントが前記第１記憶領域に存在しない場合、前記書込対象のデータと前記フィンガープリントとを含む書込要求を前記第２の情報処理装置に送信してよい。前記第２の情報処理装置は、記憶装置と、制御部と、を備えてよい。前記記憶装置は、前記記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する第２記憶領域を備えてよい。前記制御部は、前記第１の情報処理装置から前記ネットワークを介して前記書込要求を受信してよい。また、前記制御部は、受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記第２記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出してよい。さらに、前記制御部は、前記複数の書込要求のシーケンシャル性を検出した場合、前記第２記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１の情報処理装置に送信してよい。前記第１の情報処理装置は、受信した前記後続のフィンガープリントを前記第１記憶領域に格納してよい。

１つの側面では、本発明は、情報処理装置へのデータの書き込みの際の通信量を削減することができる。

ブロックストレージシステムの第１構成例を示す図である。ブロックストレージシステムの第２構成例を示す図である。ブロックストレージシステムの第３構成例を示す図である。ブロックストレージシステムの第４構成例を示す図である。図１に示す第１構成例又は図３に示す第３構成例において、コンピュートサーバにローカルキャッシュを設けた構成例を示す図である。図４に示す第４構成例の詳細な一例を示す図である。図６に示すブロックストレージシステムにおけるキャッシュによる通信量削減のための手法の一例を示す図である。コンテンツキャッシュが効果的な場合の一例を説明するための図である。一実施形態に係る手法を簡単に説明するための図である。一実施形態に係るシーケンシャル判定の一例を説明するための図である。ストレージ上のデータレイアウトとシーケンシャル判定との関係の一例を説明するための図である。ストレージ上のデータレイアウトとシーケンシャル判定及びプリフェッチとの関係の一例を説明するための図である。一実施形態に係るフィンガープリントのコンパクション処理の一例を説明するための図である。一実施形態に係るブロックストレージシステムの機能構成例を示すブロック図である。ヒット履歴テーブルの一例を示す図である。ＦＰ履歴テーブルの一例を示す図である。パラメータ調整部の動作例を説明するための図である。プリフェッチヒット契機のコンパクション処理の一例を説明するための図である。コンパクション処理の一例を説明するための図である。シーケンシャル判定契機のコンパクション処理の一例を説明するための図である。一実施形態に係るコンピュートサーバの動作例を説明するためのフローチャートである。一実施形態に係るストレージサーバの動作例を説明するためのフローチャートである。図２２に示すストレージサーバのプリフェッチ処理の動作例を説明するためのフローチャートである。一実施形態に係る手法の適用例を説明するための図である。一実施形態に係る手法の適用例を説明するための図である。一実施形態に係る手法の適用例を説明するための図である。コンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
〔１－１〕ブロックストレージシステムの説明
図１～図４は、それぞれ、ブロックストレージシステムの第１～第４構成例を示す図である。

図１に示すように、第１構成例に係るブロックストレージシステム１００Ａは、複数のコンピュートサーバ１１０と複数のストレージサーバ１３０とを、ネットワーク１２０を介して相互に通信可能に接続した構成を備えてよい。ブロックストレージシステム１００Ａでは、符号Ａ１～Ａ３で示すように、複数のコンピュートサーバ１１０、ネットワーク１２０、及び、複数のストレージサーバ１３０で運用の管理単位が独立となっている。ブロックストレージシステム１００Ａでは、複数のコンピュートサーバ１１０、ネットワーク１２０、及び、複数のストレージサーバ１３０を独立して備えるため、コンピュートと、符号Ａ４で示すストレージとを独立にスケールアップ（例えばサーバの増設等）することができる。

図２に示すように、第２構成例に係るブロックストレージシステム１００Ｂは、複数のコンピュートサーバ１１０を、ネットワーク１２０を介して相互に通信可能に接続した構成を備えてよい。ブロックストレージシステム１００Ｂでは、符号Ｂ１で示すように、複数のコンピュートサーバ１１０及びネットワーク１２０を運用の管理単位としてまとめることで、インフラストラクチャを一元管理できる。また、コンピュートサーバ１１０にストレージ機能を有するストレージコンポーネント１４０を設けることで、例えばストレージコンポーネント１４０のキャッシュを利用してアクセスの高速化を図ることができる。

図３に示すように、第３構成例に係るブロックストレージシステム１００Ｃは、複数のコンピュートサーバ１１０と複数のストレージサーバ１３０とを、ネットワーク１２０を介して相互に通信可能に接続した構成を備えてよい。ブロックストレージシステム１００Ｃでは、符号Ｃ１で示すように、複数のコンピュートサーバ１１０、ネットワーク１２０、及び、複数のストレージサーバ１３０を運用の管理単位としてまとめることで、インフラストラクチャを一元管理できる。また、ブロックストレージシステム１００Ｃでは、複数のコンピュートサーバ１１０、ネットワーク１２０、及び、複数のストレージサーバ１３０を独立して備えるため、コンピュートと、符号Ｃ２で示すストレージとを独立にスケールアップ（例えばサーバの増設等）することができる。

図４に示すように、第４構成例に係るブロックストレージシステム１００Ｄは、複数のコンピュートサーバ１１０と複数のストレージサーバ１３０とを、ネットワーク１２０を介して相互に通信可能に接続した構成を備えてよい。ブロックストレージシステム１００Ｄでは、符号Ｄ１で示すように、複数のコンピュートサーバ１１０、ネットワーク１２０、及び、複数のストレージサーバ１３０を運用の管理単位としてまとめることで、図２及び図３と同様に、インフラストラクチャを一元管理できる。また、ブロックストレージシステム１００Ｄでは、複数のコンピュートサーバ１１０、ネットワーク１２０、及び、複数のストレージサーバ１３０を独立して備えるため、図１及び図３と同様に、コンピュートと、符号Ｄ２で示すストレージとを独立にスケールアップ（例えばサーバの増設等）することができる。さらに、コンピュートサーバ１１０にストレージ機能を有するストレージコンポーネント１４０を設けることで、図２と同様に、例えばストレージコンポーネント１４０のキャッシュを利用してアクセスの高速化を図ることができる。

図１、図３及び図４に示す第１、第３及び第４構成例では、コンピュートサーバ１１０によるデータの書き込み先がストレージサーバ１３０のドライブであるため、コンピュートサーバ１１０からストレージサーバ１３０への通信が発生する。また、図２に示す第２構成例では、コンピュートサーバ１１０が多重化（例えば二重化）される場合がある。この場合、コンピュートサーバ１１０は、ストレージコンポーネント１４０に書き込んだデータを、二重化状態を維持するために他のコンピュートサーバ１１０に書き込むことで、通信が発生する。

例えば、コンピュートサーバ１１０にコンテンツキャッシュを採用することで、キャッシュヒットする書き込みについては、データがネットワーク１２０を経由することを抑制できる、換言すれば重複排除することが可能である。

図５は、図１に示す第１構成例、又は、図３に示す第３構成例において、コンピュートサーバ１１０にローカルキャッシュ１５０を設けたブロックストレージシステム１００Ｅの構成の一例を示す図である。

ローカルキャッシュ１５０は、キャッシュ１５１を備える。ストレージサーバ１３０は、キャッシュ１３１、データの重複排除及び圧縮を行なう重複排除・圧縮部１３２、並びに、データを格納するＲＡＩＤ（Redundant Arrays of Inexpensive Disks）１３３を備える。第１及び第３構成例は、図５に示すように、符号Ｅ１で示すコンピュートと、符号Ｅ２で示すストレージとが独立しているため、ブロックストレージシステム１００Ｅ全体においてキャッシュが２つ存在し、処理及びリソースに無駄が発生する。

図６は、図４に示す第４構成例の詳細な一例を示す図である。図６に示すように、ブロックストレージシステム１００Ｄにおいて、ストレージコンポーネント１４０は、キャッシュ（例えばコンテンツキャッシュ）１４１を備える。ストレージサーバ１３０は、重複排除・圧縮部１３２、及び、ＲＡＩＤ１３３を備える。第４構成例に係るブロックストレージシステム１００Ｄは、図６の符号Ｄ１に示すように、コンピュートサーバ１１０（ストレージコンポーネント１４０）及びストレージサーバ１３０が密結合している。このため、ブロックストレージシステム１００Ｄ全体において、処理及びリソースの無駄を低減又は排除できる。なお、図２に示す第２構成例において、二重化状態維持のためのデータが書き込まれるコンピュートサーバ１１０側に重複排除・圧縮の機能を設ける場合も、コンピュートサーバ１１０が密結合となるため、処理及びリソースの無駄を低減又は排除できる。

しかし、図５及び図６のいずれの例においても、キャッシュミスとなるデータについては、重複排除が行なわれない。すなわち、ブロックストレージシステム１００Ａ～１００Ｄの運用形態、ストレージサーバ１３０又はコンピュートサーバ１１０への書き込みアクセスの傾向等に応じて、例えばキャッシュミスの頻度が増加するほど、重複排除による通信量の削減効果が低下する場合がある。

図７は、図６に示すブロックストレージシステム１００Ｄにおけるキャッシュ（コンテンツキャッシュ）１４１による通信量削減のための手法の一例を示す図である。

コンテンツキャッシュ１４１は、例えば、重複排除が行なわれたキャッシュであり、一例として、「ＬＵＮ（Logical Unit Number）」、「ＬＢＡ（Logical Brock Address）」、「フィンガープリント」及び「データ」を含んでよい。フィンガープリント（ＦＰ；Finger Print）は、データに基づき算出される固定長又は可変長のデータ列であり、一例として、ハッシュ関数により算出されるハッシュ値であってよい。ハッシュ関数としては、ＳＨＡ－１等の種々のハッシュ関数が挙げられる。

図７に示すように、ストレージコンポーネント１４０は、書込対象のデータから、当該データのＦＰ（例えばＳＨＡ－１等のハッシュ値）を算出し、コンテンツキャッシュ１４１にＦＰが一致する同一データの有無を判定する。同一データが存在する場合、ストレージコンポーネント１４０は、ストレージサーバ１３０にＦＰ、ＬＵＮ及びＬＢＡを送信し、既に過去に送られているデータの送信を抑止する。

図７の例では、コンテンツキャッシュ１４１の３つのエントリのうち、重複排除により、データがキャッシュされるのは２つのエントリのみとなる。また、通信時において、“01234...”のデータは、２回は送信されない。例えば、“01234...”のデータは、コンテンツキャッシュ１４１のエントリのうち、１回目にのみ送信され、２回目以降はＦＰ、ＬＵＮ及びＬＢＡ等のメタデータのみが送信される。

これにより、キャッシュ容量の効率化を図ることができ、通信の観点では、書き込み時のデータ転送量を削減することができる。

コンテンツキャッシュ１４１が効果的な例としては、図８に示すように、コンピュートサーバ１１０を仮想化基盤として、仮想化基盤で動作する仮想デスクトップ上でウイルス対策ソフトの定義ファイルを更新する場合等が挙げられる。図８の例では、仮想デスクトップをＶＭ（Virtual Machine；仮想マシン）１６０と表記する。

仮想デスクトップの起動の際に定義ファイルが更新される場合、勤務開始時刻付近で複数の仮想デスクトップからストレージサーバ１３０に同じデータの書き込みが複数発生する。この書き込みは、略同時、且つ、書き込みに係るデータサイズが小さいため、当該データがコンテンツキャッシュ１４１に載る（格納される）。

図８の例では、１台のコンピュートサーバ１１０あたり２つのＶＭ１６０からの書き込みが発生するが、データ本体の転送はそのうちの１回であるため、３台分のコンピュートサーバ１１０ではデータ本体の転送回数を６回から３回に削減できる。

以上のように、コンテンツキャッシュ１４１において重複排除が行なわれないと通信量が削減されない。換言すれば、データがコンテンツキャッシュ１４１にヒットしないと通信量が削減されない。他のアプローチとしてデータの圧縮が考えられるが、圧縮では通信量を３割～４割程度減らすに留まり、重複排除のようにデータ全体の送信を抑制するというドラスティックな変化は生じない。

コンテンツキャッシュ１４１で重複排除が行なわれない原因の１つとして、コンテンツが以前に書き込まれていたが、コンテンツキャッシュ１４１では重複排除できなかった場合が挙げられる。この場合、通信が増加するものの、ストレージサーバ１３０に問い合わせを行なえば重複排除ができた可能性がある。根本的な原因は、コンピュートサーバ１１０のコンテンツキャッシュ１４１が、システム全体で見たＦＰのうちの一部のみを記憶することである。

ブロックストレージシステムのユースケースとして、複数のユーザがＡＩ（Artificial Intelligence）の機械学習を行なうために、データセットをストレージサーバ１３０に格納するケースが挙げられる。

ＡＩの機械学習で使用されるデータセットは、数十ＰＢ（ペタバイト）のサイズになる場合がある。ユーザは、例えば、コミュニティサイトからデータセットをダウンロードしてストレージサーバ１３０に展開する。機械学習で使用されるデータセットは、同じデータ、同じような書き込み順番であることを想定する。

数十ＰＢ級のデータセットの全ての書き込みをコンテンツキャッシュ１４１に載せることは、コンテンツキャッシュ１４１の記憶容量の観点から困難である。しかし、データセットは、同じデータ及び同じような書き込み順番を持つ規則性のあるデータである。

そこで、一実施形態では、情報処理装置へのデータの書き込みの際の通信量を削減する手法の一例として、２人目以降のユーザによるデータセットの書き込みについて、規則性を利用して、重複排除を行なえるようにする手法を説明する。

なお、以下、第４構成例に係るブロックストレージシステム１００Ｄをベースとした説明を行なうが、例えば、第２構成例に係るブロックストレージシステム１００Ｂにおける二重化のための書き込みに対しても、一実施形態に係る手法を適用可能である。換言すれば、Ｉ／Ｏ（Input / Output）パスの観点では、ブロックストレージシステム１００Ｂにおける書き込み先のコンピュートサーバ１１０を、ブロックストレージシステム１００Ｄのストレージサーバ１３０と同様に扱うことができる。

コンピュートサーバ１１０は、第１の情報処理装置の一例であり、ストレージサーバ１３０は、第２の情報処理装置の一例である。また、図２に示す例において、複数のコンピュートサーバ１１０が冗長構成であり、コンピュートサーバ１１０間でデータの書き込みが行なわれる場合、データの書込元のコンピュートサーバ１１０が第１の情報処理装置の一例であり、データの書込先のコンピュートサーバ１１０が第２の情報処理装置の一例である。

〔１－２〕一実施形態の説明
図９は、一実施形態に係る手法を簡単に説明するための図である。図９に示すように、一実施形態に係るブロックストレージシステム１は、例示的に、複数のコンピュートサーバ２、ネットワーク３、及び、複数のストレージサーバ４を備えてよい。コンピュートサーバ２は第１の情報処理装置又は第１のコンピュータの一例であり、ストレージサーバ４は、コンピュートサーバ２とネットワーク３を介して接続される第２の情報処理装置又は第２のコンピュータの一例である。

コンピュートサーバ２は、コンテンツキャッシュ２０ａを有するストレージコンポーネント２０を備えてよい。ストレージサーバ４は、プリフェッチャ４０ａ、重複排除・圧縮部４０ｂ及びストレージ４０ｃを備えてよい。

一実施形態に係るストレージサーバ４は、規則性を予測して、コンピュートサーバ２により書き込まれる可能性の高いＦＰを、予めコンピュートサーバ２のコンテンツキャッシュ２０ａに送信することで、通信量を削減する。

例えば、ストレージサーバ４は、ストレージサーバ４の内部で検出できるデータのシーケンシャル性に着目し、ＦＰのプリフェッチを行なう。図９に例示するように、プリフェッチャ４０ａは、ＦＰ［4F89A3］及び［B107E5］を既に保持していることをストレージコンポーネント２０に通知する。ストレージコンポーネント２０は、通知されたＦＰとコンテンツキャッシュ２０ａとに基づき、３つのデータのうちの［!”#$%...］のデータのみを転送し、通知されたＦＰに対応するデータ２つ分の通信量を削減できる。

上述した規則性を検出する手法として、例えば、時系列分析が知られている。時系列分析は、例えば、ＬＵＮごとに書き込んだＦＰにタイムスタンプを付与して分析を行なう手法である。時系列分析では、ＦＰのタイムスタンプ管理に、ストレージサーバ４又はクラウド上のサーバの追加リソースが用いられる。また、ストレージサーバ４のストレージ内部で時系列分析を実行する場合、時系列分析自体の処理負荷が高く、ストレージサーバ４の性能低下が生じる可能性がある。

そこで、一実施形態では、規則性として、データのシーケンシャル性に着目する。規則性として、ストレージサーバ４のストレージ内部で検出できるデータのシーケンシャル性が用いられることで、ストレージで完結して処理が可能となる。なお、検出精度を向上させるために、追加リソースの利用が許容される範囲で、規則性として、データのシーケンシャル性に加えて、時系列分析を採用してもよい。

図１０は、一実施形態に係るシーケンシャル判定の一例を説明するための図である。図１０に示すように、シーケンシャル判定では、ＦＰがストレージ４０ｃに物理的に書き込まれた位置に基づき行なわれる。

図１０に示すように、ストレージ４０ｃ上の記憶領域４０ｄのデータレイアウトにおいて、ストレージ４０ｃの５１２バイトの位置から、８バイトのＦＰが［4F89A3］、［B107E5］、・・・と並んで配置されている（以前にこの順番で書き込まれた）と仮定する。ここで、ＦＰは、基本的には、重複排除が行なわれない初回の書き込み時にストレージ４０ｃに書き込まれる。なお、図１０に例示する記憶領域４０ｄは、ＲＡＩＤ等のストレージ４０ｃのうちのメタデータを格納する記憶領域を示すものとする。

図１０に例示するように、コンピュートサーバ２は、コンテンツキャッシュ２０ａのＦＰを、なるべくＬＵＮ単位に書き込み順でまとめてストレージサーバ４に書き込む（符号（１）参照）。ストレージサーバ４は、シーケンシャル判定により、書き込まれたＦＰが、記憶領域４０ｄのデータレイアウト上で５１２、５２０、５２８と連続して配置されている、すなわちシーケンシャルな書き込みであることを検出する（符号（２）参照）。

ストレージサーバ４は、シーケンシャルであると判定した（判定に成功した）場合、受信したＦＰに続く、記憶領域４０ｄのデータレイアウト上で５３２バイト以降のＦＰを読み出してコンピュートサーバ２に転送する（符号（３）参照）。

これにより、コンピュートサーバ２は、書き込み順で４番目以降のデータのＦＰがストレージサーバ４から受信したＦＰと一致する場合、１～３番目のデータと同様に、データの送信を省略できる。換言すれば、ブロックストレージシステム１では、重複排除によって通信量の削減を図ることができる。

なお、上述したシーケンシャル判定では、ストレージ４０ｃ、例えばＲＡＩＤ等のディスクグループにおける書き込み位置を利用するものとした。

例えば、シーケンシャル判定にＬＵＮ及びＬＢＡを用いる場合、ＬＵＮ上のデータレイアウトは、実際のデータの論理的な書き込み位置に基づくため、ＬＵＮ及びＬＢＡに基づきシーケンシャルに読み出す場合、後続のデータが続くことが保証される。換言すれば、ＬＵＮ上のデータレイアウトにおいて、後続のデータは同一ＬＵＮの次のデータということが保証される。

一方で、一実施形態に係る手法では、シーケンシャル判定がフィンガープリントの書き込み順に依存する。すなわち、図１０の例において、「なるべくＬＵＮ単位に書き込み順で」まとめてストレージサーバ４に書き込むことができれば、シーケンシャルであると判定される可能性を向上できる。

ところで、「なるべくＬＵＮ単位に書き込み順で」書き込むことが困難になる場合の１つとして、ファイルシステムのメタデータ又はジャーナルログの書き込みが発生する場合が挙げられる。例えば、ブロックストレージは、ファイルシステムを利用する場合がある。ファイルシステムは、ユーザのワークロードデータに応じて、本体以外に、例えばメタデータ及びジャーナルログ等をストレージ４０ｃに書き込むことがある。

図１１に例示するように、メタデータ及びジャーナルログは、タイムスタンプを含むため互いに重複せず、シーケンシャル判定においてシーケンシャルであると判定されない（失敗する）要因になり易い。以下、便宜上、メタデータ及びジャーナルログ等のデータ及びそのＦＰを、「不要データ」と表記する。シーケンシャル判定におけるこのような不要データによるノイズの影響を軽減するために、シーケンシャルであると判定するための基準を緩くすることが考えられるが、基準を緩くすると過剰なプリフェッチに繋がる可能性がある。

また、図１２に例示するように、過剰なプリフェッチの結果、不要データがコンテンツキャッシュ２０ａに送られることになり、ヒット率が低下する可能性がある。プリフェッチは、ヒットしないと処理の無駄になるため、過剰なプリフェッチの発生を抑制したい。

そこで、図１３に例示するように、一実施形態に係るブロックストレージシステム１は、ＦＰのコンパクションを行なってもよい。

例えば、図１３に示すように、コンピュートサーバ２によりコンテンツキャッシュ２０ａの順番で書き込みが行なわれる場合を想定する（符号（１）参照）。ストレージサーバ４は、記憶領域４０ｄ－１のデータレイアウトにおいて、シーケンシャル判定に失敗した場合であっても、シーケンシャル判定の基準を緩くすればシーケンシャル判定が成功することを検出する（符号（２）参照）。この場合、ストレージサーバ４は、他の記憶領域４０ｄ－２において、記憶領域４０ｄ－１の不要データを除外してＦＰをシーケンシャルに配置することでＦＰのコンパクションを行なってよい（符号（３）参照）。なお、記憶領域４０ｄ－１及び４０ｄ－２は、それぞれストレージ４０ｃのうちの、ＦＰ等のメタデータを格納する記憶領域である。また、ストレージサーバ４は、シーケンシャル判定に成功する場合であっても、不要データが多い場合には、コンパクションを行なってよい。

これにより、ストレージサーバ４への次回の書き込みの際には、記憶領域４０ｄ－２でコンパクションが行なわれているため、シーケンシャルであると判定され易くなり、また、不要データが少ないためプリフェッチのヒット率を改善できる。

以上のように、一実施形態に係る手法によれば、プリフェッチによりヒットする可能性の高いＦＰを予めストレージサーバ４からコンピュートサーバ２に転送しておくことで、プリフェッチヒットにより重複排除率を向上させることができる。従って、通信量を削減することができる。

例えば、シーケンシャル性があり、重複排除が効きやすい書き込みのワークロードが実行される場合、大規模な書き込みであってもコンテンツキャッシュ２０ａのサイズに依存せずに重複排除を行なうことができる。

また、コンパクションにより、シーケンシャル判定を誤らせ、プリフェッチヒット率を低下させる要因となる不要データを取り除くことができるため、例えば３回目以降の書き込みで重複排除率をさらに向上させることができる。

〔１－３〕機能構成例
図１４は、一実施形態に係るブロックストレージシステム１の機能構成例を示すブロック図である。

（コンピュートサーバ２）
図１４に示すように、コンピュートサーバ２は、例示的に、コンテンツキャッシュ２０ａ、ダーティデータ管理部２１、重複排除判定部２２、ＦＰ（フィンガープリント）管理部２３、及び、ネットワークＩＦ（Interface）部２０ｂを備えてよい。ブロック２１～２３並びに２０ａ及び２０ｂは、図９に示すストレージコンポーネント２０の機能の一例である。ブロック２１～２３並びに２０ａ及び２０ｂを含むコンピュートサーバ２の機能は、例えば、コンピュートサーバ２のプロセッサがメモリに展開したプログラムを実行することで実現されてよい。

コンテンツキャッシュ２０ａは、例えば、重複排除が行なわれたキャッシュであり、一例として、図７に示すデータ構造と同様に、「ＬＵＮ」、「ＬＢＡ」、「フィンガープリント」及び「データ」を含んでよい。コンテンツキャッシュ２０ａは第１記憶領域の一例である。

ダーティデータ管理部２１は、コンテンツキャッシュ２０ａの中で未だストレージサーバ４に書き込まれていないダーティ（Dirty）データを管理する。ダーティデータ管理部２１は、例えば、ダーティデータととともに、ＬＵＮ＋ＬＢＡ等のメタデータを管理してよい。ダーティデータ管理部２１は、重複排除判定部２２により重複排除を行なうと判定された際にデータを重複排除判定部２２に出力する。

重複排除判定部２２は、データのＦＰを算出し、データの重複排除を行なうか否かを判定する。重複排除判定部２２が算出したＦＰは、ＦＰ管理部２３により管理される。

ＦＰ管理部２３は、コンテンツキャッシュ２０ａが保持するＦＰを管理する。ＦＰ管理部２３は、コンテンツキャッシュ２０ａのデータから算出したＦＰに加えて、ストレージサーバ４のプリフェッチャ４０ａから受信するＦＰを管理してよい。

ネットワークＩＦ部２０ｂは、ストレージサーバ４等の外部の情報処理装置との間の通信ＩＦとしての機能を有する。

（ストレージサーバ４）
図１４に示すように、ストレージサーバ４は、例示的に、ネットワークＩＦ部４０ｅ、第１管理部４１、第２管理部４２、重複排除ヒット判定部４３、第１レイアウト管理部４４、第２レイアウト管理部４５、及び、ドライブＩＦ部４０ｆを備えてよい。また、ストレージサーバ４は、例示的に、ストレージ４０ｃ、ヒット率・履歴管理部４６、シーケンシャル判定部４７、プリフェッチャ４０ａ、パラメータ調整部４８、及び、コンパクション判定部４９を備えてよい。ブロック４１～４３は、図９に示す重複排除・圧縮部４０ｂの一例である。また、ブロック４１～４９、４０ａ、４０ｅ及び４０ｆは、制御部４０の一例である。制御部４０の機能は、例えば、ストレージサーバ４のプロセッサがメモリに展開したプログラムを実行することで実現されてよい。

ネットワークＩＦ部４０ｅは、コンピュートサーバ２等の外部の情報処理装置との間の通信ＩＦとしての機能を有する。

第１管理部４１は、ストレージサーバ４が保持するＦＰを管理する。例えば、第１管理部４１は、第１レイアウト管理部４４を通じて、バックエンドからＦＰを読み書きしてよい。第１管理部４１は、例えば、ネットワークＩＦ部４０ｅにより、ストレージ４０ｃへの書込対象のデータのＦＰを含む書込要求を、コンピュートサーバ２からネットワーク３を介して受信してよい。

第２管理部４２は、ＦＰ以外のデータを管理する。例えば、第２管理部４２は、ストレージサーバ４が保持する、参照カウント、及び、ＬＵＮ＋ＬＢＡからデータのアドレスへのマッピング、等のメタデータ、並びに、データ本体等を管理してよい。第２管理部４２は、重複排除の判定の際に、データ本体を重複排除ヒット判定部４３に出力する。第２管理部４２は、第２レイアウト管理部４５を通じて、バックエンドからＦＰ以外を読み書きしてよい。

重複排除ヒット判定部４３は、データのＦＰを算出し、データの重複排除を行なうか否かを判定する。重複排除ヒット判定部４３が算出したＦＰは、第１管理部４１により管理される。

第１レイアウト管理部４４は、ドライブＩＦ部４０ｆを通じて、ＦＰを読み書きする際のストレージ４０ｃのボリューム上のレイアウトを管理する。例えば、第１レイアウト管理部４４は、読み書きをするＦＰの位置を求めてよい。

第２レイアウト管理部４５は、ドライブＩＦ部４０ｆを通じて、参照カウント、及び、ＬＵＮ＋ＬＢＡからデータのアドレスへのマッピング、等のメタデータ、並びに、データ本体等を読み書きする際のストレージ４０ｃのボリューム上のレイアウトを管理する。例えば、第２レイアウト管理部４５は、読み書きするメタデータ及びデータ本体等の位置を求めてよい。

ドライブＩＦ部４０ｆは、重複排除のバックエンドとなるストレージ４０ｃのドライブへの読み書きを行なうＩＦとしての機能を有する。

ストレージ４０ｃは、複数のドライブを組み合わせて構成される記憶装置の一例である。ストレージ４０ｃは、例えば、ＲＡＩＤ等の仮想ボリュームであってもよい。ドライブとしては、例えば、ＳＳＤ（Solid State Drive）、ＨＤＤ（Hard Disk Drive）及びリモートドライブ等のドライブのうちの少なくとも１種類が挙げられる。ストレージ４０ｃは、書き込まれるデータを格納する記憶領域（図示省略）と、ＦＰ等のメタデータを格納する１以上の記憶領域４０ｄとを有してよい。

記憶領域４０ｄは、第２記憶領域の一例であり、例えば、ストレージ４０ｃに書き込まれた複数のデータの各々のＦＰを複数のデータの書き込み順に記憶してよい。

ヒット率・履歴管理部４６は、プリフェッチヒット率の判定、及び、ヒット履歴の管理を行なう。

例えば、ヒット率・履歴管理部４６は、プリフェッチヒット率を判定するために、コンテンツキャッシュ２０ａにプリフェッチしたＦＰを追加する際に、第１管理部４１を通じて、プリフェッチしたＦＰであることを示す情報、例えばフラグをＦＰに付加してよい。ヒット率・履歴管理部４６は、フラグを付加したＦＰについてコンピュートサーバ２から書き込みが行なわれる、すなわちプリフェッチヒットした場合、第１管理部４１を通じて、当該フラグを付加した状態でＦＰをストレージ４０ｃに転送し、ヒット率を更新してよい。なお、フラグの有無は、後述するヒット履歴テーブル４６ａのエントリの有無、と捉えられてもよい。すなわち、ＦＰへのフラグの付加は、ヒット履歴テーブル４６ａへのエントリの追加、を意味してもよい。

また、例えば、ヒット率・履歴管理部４６は、プリフェッチのヒット履歴の管理を行なうために、ストレージサーバ４においてヒット回数を管理するヒット履歴テーブル４６ａを利用してよい。ヒット履歴テーブル４６ａは、プリフェッチにおいて送信した複数のＦＰの各々について、プリフェッチにおいて送信したＦＰと一致するＦＰを含む書込要求を受信した回数を記録する情報の一例である。

図１５は、ヒット履歴テーブル４６ａの一例を示す図である。以下の説明では、便宜上、ヒット履歴テーブル４６ａをテーブル形式のデータとして説明するが、これに限定されるものではなく、ＤＢ（Database）又は配列等の種々のデータ形式であってよい。図１５に示すように、ヒット履歴テーブル４６ａは、例示的に、記憶領域４０ｄのデータレイアウト上のＦＰの「場所」、「ＦＰ」、及び、「ヒット回数」の項目を含んでよい。「場所」は、ストレージ４０ｃにおけるアドレス等の位置であってよい。

ヒット率・履歴管理部４６は、ストレージサーバ４においてプリフェッチが実行された際に、ヒット履歴テーブル４６ａにエントリを作成してよい。また、ヒット率・履歴管理部４６は、プリフェッチヒットした際に、対象のＦＰのヒット回数を更新してよい。なお、ヒット率・履歴管理部４６は、プリフェッチ後、一定時間経過した場合にエントリを削除してよい。

シーケンシャル判定部４７は、ＦＰに基づきシーケンシャル判定を行なう。例えば、シーケンシャル判定部４７は、受信した複数の書込要求に含まれる複数のＦＰの、記憶領域４０ｄのデータレイアウト上の書込位置に基づき、複数の書込要求のシーケンシャル性を検出してよい。

シーケンシャル判定部４７は、シーケンシャル判定において、Ｐ、Ｎ及びＨのパラメータを利用してよい。Ｐは、シーケンシャル判定部４７が検出するシーケンシャル性の数であり、２以上の整数であってよい。Ｎは、記憶領域４０ｄのデータレイアウト上においてヒットしたＦＰの位置が連続していると判定する、換言すればシーケンシャルであると判定するための基準となる、ＦＰ間の距離を決定する係数であり、例えば１以上の整数であってよい。Ｈは、プリフェッチを実行するための閾値であり、例えば２以上の整数であってよい。以下の説明では、Ｐ＝８、Ｎ＝１６、Ｈ＝５であるものとする。

例えば、シーケンシャル判定部４７は、記憶領域４０ｄのデータレイアウト上で最後に（例えば直前の書込要求で）ヒットした場所から±（α×Ｎ）（第１所定範囲以内）の場所のＦＰがヒットした場合、シーケンシャルであると判定してよい。なお、αはＦＰのデータサイズであり、例えば８バイトであるものとする。Ｎ＝＋１の場合に真のシーケンシャルであるといえるが、Ｉ／Ｏの順番入れ替え等を考慮し、Ｎは、余裕を持たせて２以上の値としてよい。これにより、シーケンシャル判定部４７は、ＦＰが記憶領域４０ｄのデータレイアウト上で連続していなくても、ヒットしたＦＰが±（α×Ｎ）の距離以内であればシーケンシャルであると判定することができる。

また、例えば、シーケンシャル判定部４７は、Ｈ回以上、記憶領域４０ｄのデータレイアウト上のＦＰがヒットした場合にシーケンシャル性があると判定してよい。このように、シーケンシャル判定部４７は、ＦＰが或る程度の回数ヒットしてからシーケンシャル性があると判定することで、シーケンシャル判定の精度を上げることができる。

図１６は、ＦＰ履歴テーブル４７ａの一例を示す図である。以下の説明では、便宜上、ＦＰ履歴テーブル４７ａをテーブル形式のデータとして説明するが、これに限定されるものではなく、ＤＢ（Database）又は配列等の種々のデータ形式であってよい。図１６に示すように、ＦＰ履歴テーブル４７ａは、例示的に、ＦＰの場所の履歴を保持するＰ個のエントリを含んでよい。例えば、シーケンシャル判定部４７は、ＦＰ履歴テーブル４７ａに基づき、Ｐ個のシーケンシャル性を検出してよい。

図１６の例において、「No.0」のエントリでは、記憶領域４０ｄのデータレイアウト上で「1856」、「1920」、「2040」、「2048」の順で過去に４回ＦＰがヒットしており、最後は「2048」である。また、各ＦＰ間の距離は「8」、「15」、「1」である。例えば、シーケンシャル判定部４７は、記憶領域４０ｄのデータレイアウト上で最後にヒットした場所である「2048」から±（８×Ｎ）の場所のＦＰがヒットした場合、「No.0」は５回目のヒットになり、「Ｈ＝５」の場合にはシーケンシャル性があると判定する。なお、シーケンシャル判定部４７は、Ｈ回のヒットを検出したエントリ（図１６の例では「No.0」）をＦＰ履歴テーブル４７ａから削除してよい。

シーケンシャル判定部４７は、ＦＰ履歴テーブル４７ａのエントリを入れ替える場合、一定間隔以上利用されていないエントリ、又は、アクセスのあったＦＰの場所に最も近い場所を値として有するエントリと入れ替えてよい。

以上のように、シーケンシャル判定部４７は、複数の書込要求に含まれる複数のＦＰと一致する記憶領域４０ｄに記憶された複数のＦＰについて、複数の書込要求の受信順で隣り合うＦＰ間の前記データレイアウト上の書込位置の距離が、所定個のＦＰ間において第１所定範囲以内である場合、複数の書込要求のシーケンシャル性を検出してよい。

パラメータ調整部４８は、シーケンシャル判定に用いられる上述したパラメータを調整する。例えば、パラメータ調整部４８は、条件を緩和したシーケンシャル判定を行なう際にパラメータ調整を行ない、調整後のパラメータに基づきシーケンシャル判定部４７にシーケンシャル判定を実行させてよい。

例えば、パラメータ調整部４８は、シーケンシャル判定部４７によるシーケンシャル判定において、シーケンシャルであると判定されない場合に、シーケンシャルであると判定されるための条件を緩和させるようにパラメータを調整する。

一例として、パラメータ調整部４８は、図１７に示すように、不要データが含まれる場合でもシーケンシャルであると判定されることを許容するために、Ｎの値を大きくして、シーケンシャル判定部４７にリトライさせる。一実施形態では、パラメータ調整部４８は、Ｎの値を２倍、例えば１６から３２に設定するものとする。以下、調整後のＮをＮ’と表記する。なお、パラメータ調整部４８は、Ｐ、Ｎ、Ｈのうちのいずれか１つ、又は、２つ以上の組み合わせのパラメータを調整してもよい。

シーケンシャル判定部４７は、Ｈ回ヒットした場合、ＦＰ履歴テーブル４７ａの該当エントリから各ＦＰ間の距離を算出し、パラメータ調整後のＮ’に基づく距離よりも大きい距離が存在するか否かを判定する。Ｎ’に基づく距離よりも大きい距離が１つ以上存在する場合、条件を緩和した状態でのシーケンシャル判定であるため、シーケンシャル判定部４７は、プリフェッチャ４０ａに対してプリフェッチの実行を抑止させ、処理がコンパクション判定部４９によるコンパクション判定に移行する。一方、Ｎ’に基づく距離よりも大きい距離が存在しない場合、シーケンシャル判定部４７は、シーケンシャル性があると判定してよい。

以上のように、シーケンシャル判定部４７は、第１所定範囲に基づく判定で複数の書込要求のシーケンシャル性を検出しない場合、第１所定範囲を範囲に含む第２所定範囲（例えば±（α×Ｎ’））に基づき、複数の書込要求のシーケンシャル性を検出してよい。第２所定範囲に基づく判定でシーケンシャル性を検出した場合、シーケンシャル判定部４７は、プリフェッチャ４０ａによるプリフェッチを抑制してよい。

プリフェッチャ４０ａは、ＦＰをプリフェッチしてコンピュートサーバ２に転送する。例えば、プリフェッチャ４０ａは、シーケンシャル判定部４７によりシーケンシャル性があると判定（検出）された場合、換言すればシーケンシャル判定に成功した場合、プリフェッチを実行すると判定し、プリフェッチをスケジュールしてよい。

例えば、プリフェッチャ４０ａは、プリフェッチにおいて、直前に受信した複数のＦＰの後続のＦＰ、例えば記憶領域４０ｄのデータレイアウト上で後続のＦＰを読み出してコンピュートサーバ２に送信してよい。

一例として、プリフェッチャ４０ａは、シーケンシャル判定部４７においてＨ回ヒットしたＦＰに続くＦＰの情報を、第１レイアウト管理部４４を通じて取得し、ネットワークＩＦ部４０ｅを介してコンピュートサーバ２に通知してよい。

なお、シーケンシャル判定部４７において、パラメータ調整部４８により調整されたＮ’に基づく距離以上の距離が１つ以上存在すると判定された場合、条件を緩和した状態でのシーケンシャル判定であるため、プリフェッチの実行を抑止してよい。一方、Ｎ’に基づく距離以上の距離が存在しない場合、プリフェッチャ４０ａは、プリフェッチを実行すると判定してよい。

コンピュートサーバ２のストレージコンポーネント２０は、プリフェッチャ４０ａが送信したＦＰを受信すると、当該ＦＰをコンテンツキャッシュ２０ａに格納してよい。これにより、コンピュートサーバ２は、次の書込要求の送信の際の重複排除判定部２２の処理に、プリフェッチされたＦＰを利用することができる。

コンパクション判定部４９は、コンパクションを行なうか否かを判定する。コンパクション判定部４９は、例えば、プリフェッチヒット、及び、シーケンシャル判定の一方又は双方を契機として判定を行なってよい。

（プリフェッチヒット契機のコンパクション）
コンパクション判定部４９は、プリフェッチヒットした際に、ヒット履歴テーブル４６ａにおける、ヒットしたＦＰの周囲のエントリを参照し、ヒット回数に差異が存在するエントリを不要データとしてマークする。ヒット回数に差異が存在するエントリとしては、例えば、ヒットしたＦＰの周囲のエントリのうちの最大ヒット回数、又は、平均ヒット回数から所定の閾値（第１閾値）を減じた回数以下のエントリであってよい。

図１８は、プリフェッチヒット契機のコンパクション処理の一例を説明するための図である。コンパクション判定部４９は、例えば、ＦＰ［B107E5］にプリフェッチヒットした場合（符号（１）参照）、ヒット履歴テーブル４６ａにおけるＦＰ［B107E5］のエントリの周囲ｎ個の履歴を参照し（符号（２）参照）、不要データを検出してよい。

第１の例では、コンパクション判定部４９は、ヒットした周辺ｎ（ｎは１以上の整数）個の履歴で（最大ヒット回数－閾値）以下のエントリを不要データと認識してよい。ｎ＝３、閾値＝２とした場合、図１８の例では最大ヒット回数が３、閾値が２であるため、コンパクション判定部４９は、ヒット回数が１回以下の［C26D4A］を不要データとして認識する。

第２の例では、コンパクション判定部４９は、ヒットした周辺ｎ個の履歴で（平均ヒット回数－閾値）以下のエントリを不要データと認識してよい。ｎ＝３、閾値＝１とした場合、図１８の例では平均ヒット回数が２、閾値が１であるため、コンパクション判定部４９は、ヒット回数が１回以下の［C26D4A］を不要データとして認識する。

そして、コンパクション判定部４９は、周辺ｎ個の履歴の中で、不要データの数が閾値（第２閾値）以上である場合、コンパクションをスケジュールしてよい。

図１９は、コンパクション処理の一例を説明するための図である。図１９の例では、プリフェッチヒットした際に、ヒット履歴テーブル４６ａにおけるヒットしたエントリの周囲ｎ個を参照し、０回であれば不要データであると判定し、不要データを１つ以上検出した場合にコンパクションを行なう設定であるものとする。

図１９の例では、「532」のＦＰにヒットした場合、「528」のＦＰは「0」回ヒットであるため、コンパクション判定部４９は、「528」のＦＰ［58E13B］が不要データであると判定し、判定後にコンパクションをスケジュールしてよい。

例えば、第１レイアウト管理部４４は、スケジュールされたコンパクションにより、記憶領域４０ｄ－１における「528」のＦＰ［58E13B］を除外したＦＰ［4F89A3］、［B107E5］、［C26D4A］を他の記憶領域４０ｄ－２に配置してよい。なお、コンパクション判定部４９は、ヒット履歴テーブル４６ａに対して、記憶領域４０ｄ－２に配置後のＦＰの場所（位置）を更新してよい。

以上のように、コンパクション判定部４９は、プリフェッチにおいて送信したＦＰと一致するＦＰを含む書込要求を受信した場合（プリフェッチヒットの場合）、ヒット履歴テーブル４６ａに基づき除外対象のＦＰを選択してよい。そして、コンパクション判定部４９は、記憶領域４０ｄの第１領域４０ｄ－１に記憶された複数のフィンガープリントのうち、選択した除外対象のＦＰを除いた１以上のＦＰを、記憶領域４０ｄの第２領域４０ｄ－２に移動してよい。

（シーケンシャル判定契機のコンパクション）
コンパクション判定部４９は、シーケンシャル判定においてＨ回ヒットした場合、ＦＰ履歴テーブル４７ａの該当エントリから各ＦＰ間の距離を算出し、Ｎに基づく距離以上の距離が存在するか否かを判定する。コンパクション判定部４９は、Ｎに基づく距離以上の距離が存在する場合、不要データを除外するためにコンパクションをスケジュールする。

図２０は、シーケンシャル判定契機のコンパクション処理の一例を説明するための図である。

第１の例では、コンパクション判定部４９は、（Ｎ－閾値）以上の距離がｍ（ｍは１以上の整数）個以上存在する場合、コンパクションを実行すると判定してよい。Ｎ＝１６、閾値（第３閾値）＝２、ｍ＝２とした場合、図２０の例では、「No.0」に「１４」以上の距離が２つ存在するため、コンパクション判定部４９は、コンパクションをスケジュールする。

第２の例では、コンパクション判定部４９は、各距離の平均値が（Ｎ－閾値）以上である場合、コンパクションを実行すると判定してよい。Ｎ＝１６、閾値（第４閾値）＝７とした場合、図２０の例では、「No.0」における距離の平均値は「9.75」であり、「９」以上であるため、コンパクション判定部４９は、コンパクションをスケジュールする。

なお、シーケンシャル判定契機のコンパクションでは、コンパクション判定部４９は、例えば、記憶領域４０ｄのデータレイアウト上で（Ｎ－閾値）以上の距離が離れたＦＰ間に存在するＦＰを除外対象の不要データとして決定してもよい。第１レイアウト管理部４４は、図１９に例示するように、記憶領域４０ｄ－１のＦＰのうちの不要データを除外したＦＰを記憶領域４０ｄ－２に配置してよい。

以上のように、コンパクション判定部４９は、シーケンシャル判定部４７が第２所定範囲に基づきシーケンシャル性を検出した場合、隣り合うＦＰ間のデータレイアウト上の書込位置の距離と第１所定範囲とに基づき除外対象のＦＰを選択してよい。そして、コンパクション判定部４９は、記憶領域４０ｄの第１領域４０ｄ－１に記憶された複数のＦＰのうち、選択した除外対象のＦＰを除いた１以上のＦＰを、記憶領域４０ｄの第２領域４０ｄ－２に移動してよい。

〔１－４〕動作例
次に、上述した一実施形態に係るブロックストレージシステム１の動作例を説明する。

〔１－４－１〕コンピュートサーバの動作例
図２１は、一実施形態に係るコンピュートサーバ２の動作例を説明するためのフローチャートである。図２１に例示するように、コンピュートサーバ２で書き込みが発生する（ステップＳ１）。

ストレージコンポーネント２０のダーティデータ管理部２１は、重複排除判定部２２を利用して、書き込み対象のデータのＦＰがコンテンツキャッシュ２０ａにヒットするか否かを判定する（ステップＳ２）。

コンテンツキャッシュ２０ａにヒットする場合（ステップＳ２でＹＥＳ）、ダーティデータ管理部２１は、ＦＰ及びＬＵＮ＋ＬＢＡをストレージサーバ４に転送し（ステップＳ３）、処理がステップＳ５に移行する。

コンテンツキャッシュ２０ａにヒットしない場合（ステップＳ２でＮＯ）、ダーティデータ管理部２１は、書き込み対象のデータと、ＦＰ及びＬＵＮ＋ＬＢＡとをストレージサーバ４に転送し（ステップＳ４）、処理がステップＳ５に移行する。

ダーティデータ管理部２１は、ステップＳ３及びＳ４においてストレージサーバ４に送信したリクエストに対する、ストレージサーバ４からの応答を待ち合わせる（ステップＳ５）。

ダーティデータ管理部２１は、受信した応答を解析し、プリフェッチされたＦＰが応答に含まれるか否かを判定する（ステップＳ６）。プリフェッチされたＦＰが応答に含まれない場合（ステップＳ６でＮＯ）、処理が終了する。

プリフェッチされたＦＰが応答に含まれる場合（ステップＳ６でＹＥＳ）、ダーティデータ管理部２１は、ＦＰ管理部２３を通じて、受信したＦＰをコンテンツキャッシュ２０ａに追加し（ステップＳ７）、コンピュートサーバ２による書き込み処理が終了する。

コンピュートサーバ２は、書き込むデータ単位で図２１に例示する処理を実行する。このため、ステップＳ７において、ストレージサーバ４から受信したＦＰをコンテンツキャッシュ２０ａに追加することで、後続のデータのＦＰがステップＳ２でコンテンツキャッシュ２０ａにヒットする可能性を高めることができる。

〔１－４－２〕ストレージサーバの動作例
図２２は、一実施形態に係るストレージサーバ４の動作例を説明するためのフローチャートである。図２２に例示するように、ストレージサーバ４は、コンピュートサーバ２からステップＳ３又はＳ４（図２１参照）で転送されたデータを受信する（ステップＳ１１）。

ストレージサーバ４は、第１管理部４１及び第２管理部４２により、重複排除以降のストレージ処理を実行する（ステップＳ１２）。ストレージ処理は、例えば、既知のブロックストレージシステムにおけるストレージサーバの処理と同様であってよい。

ストレージサーバ４は、プリフェッチ処理を実行する（ステップＳ１３）。プリフェッチャ４０ａは、プリフェッチするＦＰが存在するか否かを判定する（ステップＳ１４）。

プリフェッチするＦＰが存在する場合（ステップＳ１４でＹＥＳ）、プリフェッチャ４０ａは、コンピュートサーバ２に対して、プリフェッチするＦＰを付加して、書き込み完了を応答し（ステップＳ１５）、ストレージサーバ４による受信処理が終了する。

プリフェッチしたＦＰが存在しない場合（ステップＳ１４でＮＯ）、ストレージサーバ４は、コンピュートサーバ２に対して、書き込み完了を応答し（ステップＳ１６）、ストレージサーバ４による受信処理が終了する。

〔１－４－３〕ストレージサーバのプリフェッチ処理の動作例
図２３は、図２２のステップＳ１３に示すストレージサーバ４のプリフェッチ処理の動作例を説明するためのフローチャートである。図２３に例示するように、ストレージサーバ４のヒット率・履歴管理部４６は、プリフェッチヒット率及びヒット履歴（ヒット履歴テーブル４６ａ）を更新する（ステップＳ２１）。

コンパクション判定部４９は、ヒット履歴テーブル４６ａに基づき、プリフェッチヒット且つヒット履歴で不要データが多いか否かを判定する（ステップＳ２２）。例えば、コンパクション判定部４９は、図１８に例示するように、周辺ｎ個の履歴の中で、不要データの数が閾値（第２閾値）以上であるか否かを判定する。

プリフェッチヒットではない、又は、ヒット履歴で不要データが多くない場合（ステップＳ２２でＮＯ）、処理がステップＳ２４に移行する。

プリフェッチヒット且つヒット履歴で不要データが多い場合（ステップＳ２２でＹＥＳ）、コンパクション判定部４９は、プリフェッチヒット契機のコンパクションをスケジュールし（ステップＳ２３）、処理がステップＳ２４に移行する。

シーケンシャル判定部４７は、ＦＰ履歴テーブル４７ａと、コンピュートサーバ２から受信したＦＰとに基づくシーケンシャル判定を行ない、ＦＰがＦＰ履歴テーブル４７ａにヒットするか否かを判定する（ステップＳ２４）。

ヒットしない場合（ステップＳ２４でＮＯ）、シーケンシャル判定部４７及びパラメータ調整部４８は、条件（パラメータ）を緩和したシーケンシャル判定を行ない、ＦＰがＦＰ履歴テーブル４７ａにヒットするか否かを判定する（ステップＳ２５）。

ステップＳ２５でヒットしない場合（ステップＳ２５でＮＯ）、処理がステップＳ２８に移行する。一方、ステップＳ２４又はＳ２５でヒットする場合（ステップＳ２４でＹＥＳ又はステップＳ２５でＹＥＳ）、処理がステップＳ２６に移行する。

ステップＳ２６において、プリフェッチャ４０ａは、プリフェッチを実行するか否かを判定する。プリフェッチを実行しない、例えばステップＳ２５でＹＥＳ経由で実行されたステップＳ２６の場合（ステップＳ２６でＮＯ）、処理がステップＳ２８に移行する。

プリフェッチを実行する、例えばステップＳ２４でＹＥＳ経由で実行されたステップＳ２６の場合（ステップＳ２６でＹＥＳ）、プリフェッチャ４０ａは、プリフェッチをスケジュールし（ステップＳ２７）、処理がステップＳ２８に移行する。

ステップＳ２８において、コンパクション判定部４９は、ＦＰ履歴テーブル４７ａに基づき、シーケンシャル判定時に不要データが多いか否かを判定する。例えば、コンパクション判定部４９は、図２０に例示するように、（Ｎ－閾値（第３閾値））以上の距離がｍ個以上存在するか否か、又は、各距離の平均値が（Ｎ－閾値（第４閾値））以上か否かを判定する。

シーケンシャル判定時に不要データが多くない場合（ステップＳ２８でＮＯ）、プリフェッチ処理が終了する。

シーケンシャル判定時に不要データが多い場合（ステップＳ２８でＹＥＳ）、コンパクション判定部４９は、シーケンシャル判定契機のコンパクションをスケジュールし（ステップＳ２９）、プリフェッチ処理が終了する。

なお、ステップＳ２３及びＳ２９でスケジュールされたコンパクションは、第１レイアウト管理部４４により所定のタイミングで実施される。また、ステップＳ２７でスケジュールされたプリフェッチは、プリフェッチャ４０ａにより所定のタイミング（例えば図２２のステップＳ１５）で実施される。

〔１－５〕適用例
以下、図２４～図２６を参照して、一実施形態に係る手法の適用例を説明する。適用例では、それぞれがコンピュートサーバ２を利用するユーザＡ～Ｃが、ストレージサーバ４上で同一の１ＰＢのデータセット４０ｇを利用して機械学習を実行する場合を想定する。

図２４に例示するように、ユーザＡは、１ＰＢのデータセット４０ｇをストレージサーバ４のストレージ４０ｃに書き込む。なお、以下の説明では、重複排除の単位を４ＫｉＢ、ファイルの平均サイズを８ＫｉＢとする。また、記憶領域４０ｄ－１に例示するように、ファイルのＦＰ（「データ」と表記）の２回の書き込みに続いてファイルメタデータ（「メタデータ」と表記）又はジャーナリングのＦＰが１回書き込まれるものとする。さらに、メタデータ又はジャーナリングは重複せず、不要データになるものとする。

次に、図２５に例示するように、ユーザＢは、他のコンピュートサーバ２（ユーザＡと同じコンピュートサーバ２でもよい）から、データセット４０ｇをストレージサーバ４のストレージ４０ｃに書き込む。ユーザＢが利用するコンピュートサーバ２からの書き込みにおいて、ストレージサーバ４では、最初の数ファイルの書き込み以降、シーケンシャル判定が行なわれ、プリフェッチが動作すれば、データの転送がなくなるため通信量の削減が可能となる。このとき、シーケンシャル判定部４７及びコンパクション判定部４９により、プリフェッチするＦＰのうちの３分の１は不要データであることが検出されるため、記憶領域４０ｄ－１から記憶領域４０ｄ－２へのコンパクションが実行される。また、シーケンシャル判定で失敗し通信量の削減ができない場合にも、シーケンシャル判定契機のコンパクションが実行される。

次に、図２６に例示するように、ユーザＣは、他のコンピュートサーバ２（ユーザＡ又はＢと同じコンピュートサーバ２でもよい）から、データセット４０ｇをストレージサーバ４のストレージ４０ｃに書き込む。ユーザＢによる書き込みの際にコンパクションが実行されているため、シーケンシャル判定及びプリフェッチが動作し、ユーザＢによる書き込みのときよりもデータの転送を抑制でき、通信量を削減できる。

例えば、通信量として、ＬＵＮ＋ＬＢＡを８＋８＝１６Ｂ、ＦＰを２０Ｂと仮定した場合、従来の手法であれば、１回の通信サイズが４０９６＋１６＋２０＝４１３２Ｂとなる。一方、一実施形態に係る手法において、全てのデータの重複排除ができた場合、１回の通信サイズは１６＋２０＝３６Ｂとなる。１ＰＢのデータセット４０ｇの書き込みでは、通信回数が２^{（５０－１２）}＝２^３８回であるため、通信量を、４１３２×２^３８Ｂから、３６×２^３８Ｂに削減することができる。割合としては、３６／４１３２＝０．８７％にまで通信量を削減することができる。

ストレージサーバ４からコンピュートサーバ２へのＦＰの転送量は、理想的な場合で２０×２^３８Ｂである。図２５に例示するユーザＢによる書き込みの場合は、２つのデータにつき１つの割合で不要データが含まれるため、転送量はユーザＣによる書き込みの場合の１．５倍程度となる。一方、図２６に例示するユーザＣによる書き込みの場合には、コンパクションによって、転送量が理想的な２０×２^３８Ｂに近い値とすることができる。

なお、上述した例は、通信量の削減効果が大きくなると考えられるユースケースに対して一実施形態に係る手法を適用したものであり、ユースケース、ワークロード、データセット等に応じて、通信量の削減効果は変化する。従って、上述した一実施形態に係るシーケンシャル判定、コンパクション、プリフェッチ等の処理におけるパラメータ等の各種条件は、ユースケース、ワークロード、データセット等に応じて適宜調整されてよい。

〔１－６〕ハードウェア構成例
上述したコンピュートサーバ２及びストレージサーバ４のそれぞれを実現する装置は、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、コンピュートサーバ２及びストレージサーバ４の機能は、それぞれ１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、コンピュートサーバ２及びストレージサーバ４のそれぞれの機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

コンピュートサーバ２及びストレージサーバ４のそれぞれは、互いに同様のコンピュータにより実現されてよい。以下、コンピュートサーバ２及びストレージサーバ４のそれぞれの機能を実現するコンピュータとして、コンピュータ１０を例に挙げる。

図２７は、コンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。コンピュートサーバ２及びストレージサーバ４のそれぞれの機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図２７に例示するＨＷ構成を備えてよい。

図２７に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、Ｉ／Ｏ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

なお、コンピュートサーバ２が記憶するコンテンツキャッシュ２０ａの情報は、メモリ１０ｂ及び記憶部１０ｃの一方又は双方が有する記憶領域に格納されてもよい。また、ストレージサーバ４のストレージ４０ｃ、記憶領域４０ｄは、メモリ１０ｂ及び記憶部１０ｃの一方又は双方が有する記憶領域により実現されてもよい。さらに、ストレージ４０ｃが記憶するヒット履歴テーブル４６ａ及びＦＰ履歴テーブル４７ａの情報は、メモリ１０ｂ及び記憶部１０ｃの一方又は双方が有する記憶領域に格納されてもよい。

また、記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（情報処理プログラム）を格納してよい。例えば、コンピュートサーバ２のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、図９に例示するストレージコンポーネント２０、及び、図１４に例示するブロック２１～２３としての機能を実現できる。また、ストレージサーバ４のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、図９に例示するプリフェッチャ４０ａ、重複排除・圧縮部４０ｂ、及び、図１４に例示するブロック４１～４９としての機能を実現できる。

ＩＦ部１０ｄは、コンピュートサーバ２間、ストレージサーバ４間、及び、コンピュートサーバ２とストレージサーバ４との間の各ネットワーク、一例としてネットワーク３の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、図１４に示すネットワークＩＦ部２０ｂ及び４０ｅは、それぞれＩＦ部１０ｄの一例である。また、例えば、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

Ｉ／Ｏ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、コンピュートサーバ２及びストレージサーバ４の一方又は双方において、Ｉ／Ｏ部１０ｅ及び読取部１０ｆの少なくとも一方は、省略されてもよい。

〔２〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図１４に示すコンピュートサーバ２が備えるブロック２１～２３は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。また、図１４に示すストレージサーバ４が備えるブロック４１～４９は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

さらに、ブロックストレージシステム１、コンピュートサーバ２、ストレージサーバ４のそれぞれは、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。例えば、図１４に示す複数の機能ブロックのそれぞれは、Ｗｅｂサーバ、アプリケーションサーバ、ＤＢサーバ等のサーバに分散して配置されてよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、ブロックストレージシステム１、コンピュートサーバ２、ストレージサーバ４としての各処理機能を実現してもよい。

〔３〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
第１の情報処理装置と、
前記第１の情報処理装置とネットワークを介して接続される第２の情報処理装置と、を備え、
前記第１の情報処理装置は、
データのフィンガープリントを記憶する第１記憶領域と、
前記第２の情報処理装置への書込対象のデータのフィンガープリントが前記第１記憶領域に存在する場合、前記フィンガープリントを含む書込要求を前記第２の情報処理装置に送信し、前記フィンガープリントが前記第１記憶領域に存在しない場合、前記書込対象のデータと前記フィンガープリントとを含む書込要求を前記第２の情報処理装置に送信する送信部と、を備え、
前記第２の情報処理装置は、
記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する第２記憶領域を備える前記記憶装置と、
前記第１の情報処理装置から前記ネットワークを介して前記書込要求を受信し、
受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記第２記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出し、
前記複数の書込要求のシーケンシャル性を検出した場合、前記第２記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１の情報処理装置に送信する、
制御部と、を備え、
前記第１の情報処理装置は、受信した前記後続のフィンガープリントを前記第１記憶領域に格納する、
情報処理システム。

（付記２）
第１の情報処理装置とネットワークを介して接続される第２の情報処理装置であって、
記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する記憶領域を備える前記記憶装置と、
前記記憶装置への書込対象のデータのフィンガープリントを含む書込要求を、前記第１の情報処理装置から前記ネットワークを介して受信し、
受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出し、
前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１の情報処理装置に送信する、
制御部と、
を備える、情報処理装置。

（付記３）
前記制御部は、前記検出する処理において、前記複数の書込要求に含まれる前記複数のフィンガープリントと一致する前記記憶領域に記憶された複数のフィンガープリントについて、前記複数の書込要求の受信順で隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離が、所定個のフィンガープリント間において第１所定範囲以内である場合、前記複数の書込要求のシーケンシャル性を検出する、
付記２に記載の情報処理装置。

（付記４）
前記制御部は、
前記検出する処理において、前記複数の書込要求のシーケンシャル性を検出しない場合、前記隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離が、前記所定個のフィンガープリント間において前記第１所定範囲を含む第２所定範囲以内である場合、前記複数の書込要求のシーケンシャル性を検出し、
前記送信する処理において、前記後続のフィンガープリントの送信を抑制する、
付記３に記載の情報処理装置。

（付記５）
前記制御部は、前記第２所定範囲に基づき前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域の第１領域に記憶された複数のフィンガープリントのうち、隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離と前記第１所定範囲とに基づき選択した除外対象のフィンガープリントを除いた１以上のフィンガープリントを、前記記憶領域の第２領域に移動する、
付記４に記載の情報処理装置。

（付記６）
前記制御部は、
前記送信する処理において送信した複数のフィンガープリントの各々について、前記送信する処理において送信したフィンガープリントと一致するフィンガープリントを含む書込要求を受信した回数を記録する情報を管理し、
前記送信する処理において送信したフィンガープリントと一致するフィンガープリントを含む書込要求を受信した場合、前記記憶領域の第１領域に記憶された複数のフィンガープリントのうち、前記情報に基づき選択した除外対象のフィンガープリントを除いた１以上のフィンガープリントを、前記記憶領域の第２領域に移動する、
付記２～付記５のいずれか１項に記載の情報処理装置。

（付記７）
第１のコンピュータとネットワークを介して接続される第２のコンピュータが、
記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する記憶領域を備える前記記憶装置への書込対象のデータのフィンガープリントを含む書込要求を、前記第１のコンピュータから前記ネットワークを介して受信し、
受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出し、
前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１のコンピュータに送信する、
処理を実行する、情報処理方法。

（付記８）
前記検出する処理は、前記複数の書込要求に含まれる前記複数のフィンガープリントと一致する前記記憶領域に記憶された複数のフィンガープリントについて、前記複数の書込要求の受信順で隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離が、所定個のフィンガープリント間において第１所定範囲以内である場合、前記複数の書込要求のシーケンシャル性を検出する、処理を含む、
付記７に記載の情報処理方法。

（付記９）
前記検出する処理は、前記複数の書込要求のシーケンシャル性を検出しない場合、前記隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離が、前記所定個のフィンガープリント間において前記第１所定範囲を含む第２所定範囲以内である場合、前記複数の書込要求のシーケンシャル性を検出する、処理を含み、
前記送信する処理は、前記第２所定範囲に基づき前記複数の書込要求のシーケンシャル性を検出した場合、前記後続のフィンガープリントの送信を抑制する、処理を含む、
付記８に記載の情報処理方法。

（付記１０）
前記第２所定範囲に基づき前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域の第１領域に記憶された複数のフィンガープリントのうち、隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離と前記第１所定範囲とに基づき選択した除外対象のフィンガープリントを除いた１以上のフィンガープリントを、前記記憶領域の第２領域に移動する、
処理を前記コンピュータが実行する、付記９に記載の情報処理方法。

（付記１１）
前記送信する処理において送信した複数のフィンガープリントの各々について、前記送信する処理において送信したフィンガープリントと一致するフィンガープリントを含む書込要求を受信した回数を記録する情報を管理し、
前記送信する処理において送信したフィンガープリントと一致するフィンガープリントを含む書込要求を受信した場合、前記記憶領域の第１領域に記憶された複数のフィンガープリントのうち、前記情報に基づき選択した除外対象のフィンガープリントを除いた１以上のフィンガープリントを、前記記憶領域の第２領域に移動する、
処理を前記コンピュータが実行する、付記７～付記１０のいずれか１項に記載の情報処理方法。

１ブロックストレージシステム
２コンピュートサーバ
２０ストレージコンポーネント
２０ａコンテンツキャッシュ
２０ｂ、４０ｅネットワークＩＦ部
２１ダーティデータ管理部
２２重複排除判定部
２３ＦＰ管理部
３ネットワーク
４ストレージサーバ
４０ａプリフェッチャ
４０ｂ重複排除・圧縮部
４０ｃストレージ
４０ｄ記憶領域
４０ｆドライブＩＦ部
４０ｇデータセット
４１第１管理部
４２第２管理部
４３重複排除ヒット判定部
４４第１レイアウト管理部
４５第２レイアウト管理部
４６ヒット率・履歴管理部
４６ａヒット履歴テーブル
４７シーケンシャル判定部
４７ａＦＰ履歴テーブル
４８パラメータ調整部
４９コンパクション判定部

Claims

第１の情報処理装置と、
前記第１の情報処理装置とネットワークを介して接続される第２の情報処理装置と、を備え、
前記第１の情報処理装置は、
データのフィンガープリントを記憶する第１記憶領域と、
前記第２の情報処理装置への書込対象のデータのフィンガープリントが前記第１記憶領域に存在する場合、前記フィンガープリントを含む書込要求を前記第２の情報処理装置に送信し、前記フィンガープリントが前記第１記憶領域に存在しない場合、前記書込対象のデータと前記フィンガープリントとを含む書込要求を前記第２の情報処理装置に送信する送信部と、を備え、
前記第２の情報処理装置は、
記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する第２記憶領域を備える前記記憶装置と、
前記第１の情報処理装置から前記ネットワークを介して前記書込要求を受信し、
受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記第２記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出し、
前記複数の書込要求のシーケンシャル性を検出した場合、前記第２記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１の情報処理装置に送信する、
制御部と、を備え、
前記第１の情報処理装置は、受信した前記後続のフィンガープリントを前記第１記憶領域に格納する、
情報処理システム。
第１の情報処理装置とネットワークを介して接続される第２の情報処理装置であって、
記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する記憶領域を備える前記記憶装置と、
前記記憶装置への書込対象のデータのフィンガープリントを含む書込要求を、前記第１の情報処理装置から前記ネットワークを介して受信し、
受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出し、
前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１の情報処理装置に送信する、
制御部と、
を備える、情報処理装置。
前記制御部は、前記検出する処理において、前記複数の書込要求に含まれる前記複数のフィンガープリントと一致する前記記憶領域に記憶された複数のフィンガープリントについて、前記複数の書込要求の受信順で隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離が、所定個のフィンガープリント間において第１所定範囲以内である場合、前記複数の書込要求のシーケンシャル性を検出する、
請求項２に記載の情報処理装置。
前記制御部は、
前記検出する処理において、前記複数の書込要求のシーケンシャル性を検出しない場合、前記隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離が、前記所定個のフィンガープリント間において前記第１所定範囲を含む第２所定範囲以内である場合、前記複数の書込要求のシーケンシャル性を検出し、
前記送信する処理において、前記後続のフィンガープリントの送信を抑制する、
請求項３に記載の情報処理装置。
前記制御部は、前記第２所定範囲に基づき前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域の第１領域に記憶された複数のフィンガープリントのうち、隣り合うフィンガープリント間の前記データレイアウト上の書込位置の距離と前記第１所定範囲とに基づき選択した除外対象のフィンガープリントを除いた１以上のフィンガープリントを、前記記憶領域の第２領域に移動する、
請求項４に記載の情報処理装置。
前記制御部は、
前記送信する処理において送信した複数のフィンガープリントの各々について、前記送信する処理において送信したフィンガープリントと一致するフィンガープリントを含む書込要求を受信した回数を記録する情報を管理し、
前記送信する処理において送信したフィンガープリントと一致するフィンガープリントを含む書込要求を受信した場合、前記記憶領域の第１領域に記憶された複数のフィンガープリントのうち、前記情報に基づき選択した除外対象のフィンガープリントを除いた１以上のフィンガープリントを、前記記憶領域の第２領域に移動する、
請求項２～請求項５のいずれか１項に記載の情報処理装置。
第１のコンピュータとネットワークを介して接続される第２のコンピュータが、
記憶装置に書き込まれた複数のデータの各々のフィンガープリントを前記複数のデータの書き込み順に記憶する記憶領域を備える前記記憶装置への書込対象のデータのフィンガープリントを含む書込要求を、前記第１のコンピュータから前記ネットワークを介して受信し、
受信した複数の前記書込要求に含まれる複数の前記フィンガープリントの、前記記憶領域のデータレイアウト上の書込位置に基づき、前記複数の書込要求のシーケンシャル性を検出し、
前記複数の書込要求のシーケンシャル性を検出した場合、前記記憶領域のデータレイアウト上で前記複数のフィンガープリントの後続のフィンガープリントを読み出して前記第１のコンピュータに送信する、
処理を実行する、情報処理方法。