JP7225175B2

JP7225175B2 - ストレージ装置及びデータ処理方法

Info

Publication number: JP7225175B2
Application number: JP2020156106A
Authority: JP
Inventors: 尚長尾; 朋宏吉原; 彰山本; 雄策清田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2023-02-20
Anticipated expiration: 2040-09-17
Also published as: JP2022049848A; US11210032B1; US20220121402A1; JP7411127B2; CN114201105A; JP2023054829A

Description

本発明は、容量削減機能を有するストレージ装置に関する。

近年、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）及びＡＩ（ＡｒｔｉｆｉｃａｌＩｎｔｅｌｉｇｅｎｃｅ）に代表されるように、膨大なデータを分析することによって、新たな価値を生み出す技術が普及している。膨大なデータを格納するストレージ装置には、低いデータ保持コスト（容量当たりの価格）と高いＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）性能が求められる。

データ保持コストは、ビットコスト（容量当たりの価格）及び格納するデータ量の積として算出される。格納するデータ量を削減することによってデータ保持コストの削減を実現する技術として、重複排除及び圧縮がある。重複排除は、ストレージ装置内の同じデータを検索し、一方のデータを削除し、他方のデータを参照するように制御する機能である。圧縮は、データのビット列を符号化することによって、短いビット列に置換する機能である。

近年、重複排除及び圧縮を組み合わせて、データ保持コストが低いストレージ装置が普及している。

しかし、ビット列の符号化は、演算負荷の大きい処理であるため、膨大なデータを扱うストレージ装置において、Ｉ／Ｏ性能の低下を引き起こす。

Ｉ／Ｏ性能の低下への対処として、例えば、特許文献１に記載の技術が知られている。特許文献１には、データの圧縮及び伸張を専用ハードウェアで高速に行うことができるアクセラレータをＣＰＵバス上に搭載し、メモリに保持したデータ及びバス上で入出力されるデータの圧縮及び伸張をアクセラレータにオフロードし、ＣＰＵの負荷を減らすシステムが開示されている。

米国公開特許第２０１７／０１４７６２４号

重複排除及び圧縮のデータ削減効果は処理単位の大きさによって異なる。

重複排除では、処理単位が小さいほどデータ削減効果が高い。なぜならば、処理単位が小さいと、ストレージ装置内に同一データが存在する確率が高くなるためである。例えば、ＡＢＣＤとＤＣＢＡというデータがあるとき、処理単位が４文字である場合、二つのデータは異なるデータとして扱われ、重複排除されない。一方で、処理単位が１文字であれば、Ａ、Ｂ、Ｃ、Ｄの各部分が同じデータとして扱われ、重複排除できる。

一方で、圧縮では、処理単位が大きいほどデータ削減効果が高い。例えば、８ｋＢのデータが８個ある状況を想定した場合、各データを個別に圧縮するよりも、８個のデータを一つに結合した６４ｋＢのデータを圧縮するほうがデータ削減率は高い。ストレージ装置で用いる可逆圧縮アルゴリズムは一般にスライド辞書方式であり、圧縮単位が大きいほどより広い辞書探索空間があり、文字列が一致する確率が高まるためである。

高いデータ削減効果を得るためには、処理単位が小さい重複排除と処理単位が大きい圧縮を組み合わせる必要がある。まず、データ列のうち、小さい処理単位で同じデータを検索し、重複排除する。次に、重複排除によって削除されたデータを除いたデータ列を圧縮する。ここで、重複排除によって削除したデータを除くために、プロセッサによるデータ列の操作が必要となり、Ｉ／Ｏ性能が低下する課題がある。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プロセッサ、アクセラレータ、メモリ、及び記憶装置を備えたストレージ装置であって、前記プロセッサは、前記メモリに格納される、複数のデータから構成されるデータ列に対して重複排除処理を実行し、当該重複排除処理の結果に基づいて、前記データ列を構成するデータの中から、前記記憶装置に格納するデータである圧縮対象データを特定し、前記データ列における前記圧縮対象データの位置を示す第１位置情報を、前記圧縮対象データに関する情報として生成し、前記圧縮対象データに関する情報を含む圧縮指示を、前記アクセラレータに送信し、前記アクセラレータは、前記圧縮指示を受信した場合、前記メモリから前記データ列を読み出し、前記第１位置情報に基づいて、前記データ列から複数の前記圧縮対象データを取得し、複数の前記圧縮対象データを圧縮することによって、前記記憶装置に格納する圧縮データを生成する。

本発明によれば、Ｉ／Ｏ性能を低下させることなく、データ削減効果が高いストレージ装置を実現できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１のストレージ装置が実行する処理の概要を説明する図である。実施例１のストレージ装置が実行する処理の概要を説明する図である。実施例１のストレージ装置の構成の一例を示す図である。実施例１の圧縮データ管理情報の一例を示す図である。実施例１の重複排除データ管理情報の一例を示す図である。実施例１のプロセッサが実行するデータ削減処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行する圧縮処理の一例を説明するフローチャートである。実施例１のプロセッサが実行するデータ列の読出処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行する伸張処理の一例を説明するフローチャートである。実施例２のストレージ装置が実行する処理の概要を説明する図である。実施例２のストレージ装置が実行する処理の概要を説明する図である。実施例２の圧縮データ管理情報の一例を示す図である。実施例２のホストデータ管理情報の一例を示す図である。実施例２のプロセッサが実行するデータ削減処理の一例を説明するフローチャートである。実施例２のプロセッサが実行するデータ削減処理の一例を説明するフローチャートである。実施例２のアクセラレータが実行する圧縮処理の一例を説明するフローチャートである。実施例２のプロセッサが実行するガベージコレクションの一例を説明するフローチャートである。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

まず、実施例１のストレージ装置１００が実行する処理の概要を図１及び図２を用いて説明する。図１及び図２は、実施例１のストレージ装置１００が実行する処理の概要を説明する図である。

ストレージ装置１００は、ホスト２００（図３参照）に記憶領域を提供する装置であり、プロセッサ１１１、アクセラレータ１１２、及びメモリ１１３を含むストレージコントローラ１０１と、記憶媒体１０２とを備える。ホスト２００は、提供される記憶領域を論理的なボリュームとして認識し、当該ボリュームを用いてデータの読出し及びデータの書込みを行う。

まず、図１を用いて実施例１のストレージ装置１００が実行する書込処理の概要について説明する。ここでは、ホスト２００が、アドレス（論理アドレス）順に整列された複数のデータから構成されるデータ列をボリュームに対して書き込んだ場合の処理について説明する。

まず、ホスト２００が書き込んだデータ列はメモリ１１３に格納される。図１では、データ列ＸＢＹＺが書き込まれた後、データ列ＡＢＣＤが書き込まれたものとする。

なお、データ列ＸＢＹＺは、データＸ、Ｂ、Ｙ、Ｚから構成されるデータ列であり、データ列ＡＢＣＤは、データＡ、Ｂ、Ｃ、Ｄから構成されるデータ列である。データ列の各データは論理アドレスの順に並べられている。

プロセッサ１１１は、メモリ１１３にデータ列ＡＢＣＤが格納された後、所定の処理単位で、メモリ１１３に格納されるデータ列ＸＢＹＺとデータ列ＡＢＣＤとを比較する。処理単位は、例えば、データ列の最小データサイズ、すなわち、データＸ、Ａといった単位でデータを比較する。プロセッサ１１１は、前述の比較の結果、データ列ＡＢＣＤのデータＢが他のデータ列ＸＢＹＺのデータＢと一致しているため、データＢは記憶媒体１０２への格納が不要なデータであると判定する。プロセッサ１１１は、データＡ、Ｃ、Ｄが圧縮対象データであることを示す情報を生成する。

プロセッサ１１１は、アクセラレータ１１２に対して、メモリ１１３上のデータ列ＡＢＣＤのアドレス及び圧縮対象データに関する情報とともに、圧縮を指示する。ここで、圧縮対象データに関する情報は、例えば、ビットマップ及びアドレス範囲のリスト等である。ビットマップは、データ列を構成するデータの数と同数のビット列であり、圧縮対象データに対応するビットに１が格納される。

アクセラレータ１１２は、データ列ＡＢＣＤのアドレスに基づいて、メモリ１１３からデータ列ＡＢＣＤを取得する。また、アクセラレータ１１２は、圧縮対象データに関する情報に基づいて、データ列ＡＢＣＤからデータＡ、Ｃ、Ｄを取得し、取得したデータＡ、Ｃ、Ｄをアドレス順に並べてデータ列ＡＣＤを生成し、圧縮アルゴリズムに基づいてデータ列ＡＣＤを圧縮することによって圧縮データａｃｄを生成する。アクセラレータ１１２は、圧縮データａｃｄをメモリ１１３に格納する。その後、プロセッサ１１１は、メモリ１１３上の圧縮データａｃｄを記憶媒体１０２に格納する。

重複排除では、プロセッサ１１１は小さい処理単位で重複するデータを検索する。これによって、重複したデータを効率的に検索し、削除できるため、データ削減効果を高めることができる。圧縮では、アクセラレータ１１２は、圧縮対象データを並べて生成されたデータ列、すなわち、重複排除より大きい処理単位のデータ（データ列）を圧縮する。これによって、圧縮率が高い圧縮データを生成できるため、データ削減効果を高めることができる。

以上が、書込処理の概要である。

次に、図２を用いて実施例１のストレージ装置１００が実行する読出処理の概要について説明する。ここでは、ホスト２００が、ストレージ装置１００に対して、データ列ＡＢＣＤの読出要求を送信した場合の処理について説明する。なお、読出要求には、ボリュームにおけるデータ列ＡＢＣＤの論理アドレスが含まれる。

プロセッサ１１１は、記憶媒体１０２から、重複排除処理によって削除されたデータＢを読み出し、メモリ１１３に格納する。また、プロセッサ１１１は、記憶媒体１０２から、圧縮データａｃｄを読み出し、メモリ１１３に格納する。プロセッサ１１１は、アクセラレータ１１２に対して、メモリ１１３上の圧縮データａｃｄのアドレス、メモリ１１３上のデータ列ＡＢＣＤの格納位置（アドレス）、及び伸張されたデータＡ、Ｃ、Ｄの配置に関する情報とともに、伸張を指示する。ここで、伸張されたデータの配置に関する情報は、例えば、ビットマップ及びアドレスのリスト等である。ビットマップは、データ列を構成するデータの数と同数のビット列であり、データを配置する位置に対応するビットに１が格納される。

アクセラレータ１１２は、圧縮データａｃｄのアドレスに基づいて、メモリ１１３から圧縮データａｃｄを取得し、圧縮データａｃｄを伸張することによってデータ列ＡＣＤを生成する。また、アクセラレータ１１２は、伸張されたデータの配置に関する情報に基づいて、データ列ＡＣＤのデータＡ、Ｃ、Ｄをメモリ１１３の所定のアドレスに格納する。

例えば、伸張されたデータの配置に関する情報がビットマップである場合、アクセラレータ１１２は、データ列ＡＣＤにおけるデータの順番にしたがって、１が格納されるビットに対応するデータ列の位置にデータを格納する。つまり、アクセラレータ１１２は、データ列ＡＢＣＤのメモリ１１３の配置場所の１番目の位置にデータＡを格納し、３番目の位置にデータＣを格納し、４番目の位置にデータＤを格納する。

なお、データＢをメモリ１１３に格納した後に、データＡ、Ｃ、Ｄがメモリ１１３に格納されているが、メモリ１１３へのデータの格納順は異なっていてもよい。

以上が、読出処理の概要である。

次に、実施例１のストレージ装置１００の詳細について説明する。

図３は、実施例１のストレージ装置１００の構成の一例を示す図である。

ストレージ装置１００は、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）及びＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワークを介して、記憶領域を提供するホスト２００と接続する。ホスト２００は、例えば、パーソナルコンピュータ及びスマートフォン等である。

ストレージ装置１００は、ストレージコントローラ１０１及び記憶媒体１０２を備える。

ストレージコントローラ１０１は、コマンドに応じた処理を実行する。ストレージコントローラ１０１は、プロセッサ１１１、アクセラレータ１１２、メモリ１１３、及びホストインタフェース１１４を有する。各ハードウェアは内部ネットワークを介して相互に接続される。

ホストインタフェース１１４は、ホスト２００と接続するためのインタフェースである。ホストインタフェース１１４は、ストレージ装置１００及びホスト２００の間でコマンド及びデータの送受信処理を実行する。

プロセッサ１１１は、メモリ１１３に格納されるプログラムを実行する。実施例１のプロセッサ１１１は、コマンドに応じて各種処理を実行する演算部又は制御部として機能する。

アクセラレータ１１２は、本発明の特徴的な要素であり、プロセッサ１１１の指示に従って圧縮処理及び伸張処理を実行する。アクセラレータ１１２は、圧縮処理及び伸張処理を高速に実行できるように設計されたハードウェアであり、例えば、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を用いて実装される。

メモリ１１３は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶装置であり、プロセッサ１１１が実行するプログラム及びプログラムが使用する情報を格納する。また、メモリ１１３は、プログラムが使用するワークエリアとしても利用される。メモリ１１３は、揮発性のメモリ及び不揮発性のメモリのいずれでもよい。

本実施例のメモリ１１３は、圧縮データ管理情報３００及び重複排除データ管理情報３１０を格納する。また、メモリ１１３は、演算部又は制御部を実現するプログラム（図示省略）を格納する。圧縮データ管理情報３００及び重複排除データ管理情報３１０の詳細については、図４及び図５を用いて説明する。

記憶媒体１０２は、不揮発性の記憶装置である。記憶媒体１０２は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の半導体メモリである。記憶媒体１０２は、内部ネットワークを介してストレージコントローラ１０１と接続し、プロセッサ１１１との間のコマンドの送受信処理、メモリ１１３との間のデータの送受信処理を実行する。なお、記憶媒体１０２は、内部ネットワークを介して、直接ストレージコントローラ１０１と接続しているが、内部ネットワークに接続された記憶媒体用のインタフェースを介して、ストレージコントローラ１０１と接続してもよい。

図４は、実施例１の圧縮データ管理情報３００の一例を示す図である。

圧縮データ管理情報３００は、圧縮データを管理するための情報である。圧縮データ管理情報３００は、論理アドレス３０１、物理アドレス３０２、及びデータサイズ３０３から構成されるエントリを格納する。一つのエントリは、一つの圧縮データに対応する。

論理アドレス３０１は、ホスト２００に提供されたボリュームにおける、データ列の格納場所を示す論理アドレスを格納するフィールドである。

物理アドレス３０２は、ストレージ装置１００における、圧縮データの格納場所を示すアドレスを格納するフィールドである。ここで、圧縮データは、重複排除処理が実行されたデータ列を圧縮することによって生成されたデータである。

データサイズ３０３は、圧縮データのデータサイズを格納するフィールドである。

圧縮データのデータサイズは、もとのデータ列のサイズ及び格納される値等に依存する。したがって、各圧縮データのサイズは一般的に異なる。データ削減効果を高めるためには、隙間がないように圧縮データを記憶媒体１０２に格納する必要がある。そこで、プロセッサ１１１は、圧縮データ管理情報３００を用いて、記憶媒体１０２上の圧縮データの配置を制御する。

なお、記憶媒体１０２の物理アドレスの代わりに、記憶媒体１０２がストレージコントローラ１０１に提供するアドレス、又は複数の記憶媒体１０２を用いた生成されたＲＡＩＤ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｅｘｐｅｎｓｉｖｅＤｉｓｋｓ）ボリュームのアドレス、容量仮想化機構によって提供される外接のストレージ装置１００のアドレスであってもよい。

図５は、実施例１の重複排除データ管理情報３１０の一例を示す図である。

重複排除データ管理情報３１０は、重複排除によってデータ列から削除されたデータを管理するための情報である。重複排除データ管理情報３１０は、論理アドレス３１１及び参照論理アドレス３１２から構成されるエントリを格納する。一つのエントリは、重複排除によって削除された一つのデータに対応する。

論理アドレス３１１は、ボリュームにおける、重複排除によってデータ列から削除されたデータの格納場所を示すアドレスを格納するフィールドである。

参照論理アドレス３１２は、ボリュームにおける、削除されたデータに一致するデータの格納場所を示すアドレスを格納するフィールドである。

重複排除の処理単位は、圧縮の処理単位より小さいため、あるデータ列に含まれるデータが、他のデータ列に含まれるデータと一致する場合がある。

図６は、実施例１のプロセッサ１１１が実行するデータ削減処理の一例を説明するフローチャートである。

プロセッサ１１１は、書込処理の実行時又は周期的にデータ削減処理を実行する。書込処理は、ストレージ装置１００が、ホスト２００からデータ列を受信した場合に実行される。ここでは、書込処理の実行時にデータ削減処理が実行されるものとして説明する。なお、書込処理では、ストレージ装置１００は、メモリ１１３にデータ列を格納し、ホスト２００に書込処理の完了通知を送信する。

プロセッサ１１１は、重複排除の処理単位に基づいてデータ列を分割する（ステップＳ１０１）。このとき、プロセッサ１１１は、圧縮対象データに関する情報を初期化する。例えば、プロセッサ１１１は、分割されたデータの数と同数のビット列（ビットマップ）を生成する。

次に、プロセッサ１１１は、分割されたデータの中からターゲットデータを選択する（ステップＳ１０２）。

次に、プロセッサ１１１は、ターゲットデータに一致するデータを検索する（ステップＳ１０３）。

例えば、プロセッサ１１１は、ターゲットデータからフィンガープリントと呼ばれる小サイズの検索キーワードを算出し、他のデータのフィンガープリントと比較する。ターゲットデータのフィンガープリントと同じフィンガープリントのデータが存在する場合、プロセッサ１１１は、検索されたデータを伸長し、ターゲットデータと伸長したデータとを比較する。

なお、比較するデータはメモリ１１３及び記憶媒体１０２に格納されるデータである。

次に、プロセッサ１１１は、検索の結果に基づいて、ターゲットデータに一致するデータが存在するか否かを判定する（ステップＳ１０４）。

ターゲットデータに一致するデータが存在する場合、プロセッサ１１１は、ターゲットデータに関するエントリを重複排除データ管理情報３１０に登録する（ステップＳ１０５）。その後、プロセッサ１１１はステップＳ１０７に進む。

具体的には、プロセッサ１１１は、重複排除データ管理情報３１０にエントリを追加し、追加されたエントリの論理アドレス３１１にターゲットデータの論理アドレスを格納し、追加されたエントリの参照論理アドレス３１２にターゲットデータに一致するデータの論理アドレスを格納する。

なお、ターゲットデータの論理アドレスは、ターゲットデータを含むデータ列のアドレス、ターゲットデータの先頭からの順番（オフセット）、及び重複排除の処理単位に基づいて算出できる。

ターゲットデータに一致するデータが存在しない場合、プロセッサ１１１は、ターゲットデータを圧縮対象データとして登録する（ステップＳ１０６）。その後、プロセッサはステップＳ１０７に進む。

例えば、プロセッサ１１１は、ビットマップのターゲットデータに対応するビットに１を設定する。

ステップＳ１０７では、プロセッサ１１１は、データ列の全てのデータについて処理が完了したか否かを判定する（ステップＳ１０７）。

データ列の全てのデータについて処理が完了していない場合、プロセッサ１１１は、ステップＳ１０２に戻り、同様の処理を実行する。

データ列の全てのデータについて処理が完了した場合、プロセッサ１１１は、アクセラレータ１１２に対して、メモリ１１３上のデータ列の格納位置（アドレス）及び圧縮対象データに関する情報を含む圧縮指示を送信する（ステップＳ１０８）。プロセッサ１１１は、アクセラレータ１１２から完了通知を受信するまで待ち状態に移行する。なお、完了通知には、メモリ１１３上の圧縮データの格納場所（アドレス）及び圧縮データのデータサイズが含まれる。

アクセラレータ１１２から完了通知を受信した場合、プロセッサ１１１は、記憶媒体１０２における圧縮データの格納場所を決定し（ステップＳ１０９）、その後、データ削減処理を終了する。具体的には、以下のような処理が実行される。

（Ｓ１０９－１）プロセッサ１１１は、圧縮データ管理情報３００を参照し、論理アドレス３０１に、データ列の論理アドレスが格納されるエントリを検索する。該当するエントリが存在しない場合、プロセッサ１１１は、圧縮データ管理情報３００にエントリを追加し、追加されたエントリの論理アドレス３０１にデータ列の論理アドレスを格納する。

（Ｓ１０９－２）プロセッサ１１１は、圧縮データ管理情報３００の物理アドレス３０２を参照し、記憶媒体１０２の圧縮データが格納される記憶領域の最後尾の位置（アドレス）を特定する。プロセッサ１１１は、当該アドレスに基づいて、圧縮データを格納する記憶領域のアドレスを決定する。

（Ｓ１０９－３）プロセッサ１１１は、論理アドレス３０１に、データ列の論理アドレスが格納されるエントリの物理アドレス３０２に決定されたアドレスを格納し、また、当該エントリのデータサイズ３０３に、通知された圧縮データのデータサイズを格納する。これによって、圧縮データは記憶媒体１０２の記憶領域に前詰めに格納される。

以上がステップＳ１０９の処理の説明である。

周期的にデータ削減処理を実行する場合、プロセッサ１１１は、各データ列に対して図６で説明した処理を実行する。

プロセッサ１１１は、データ削減処理を実行された後、任意のタイミングで、記憶媒体１０２の決定されたアドレスに圧縮データを格納する。例えば、データ削減処理と圧縮データの格納処理が連続的に実行されてもよいし、周期的に圧縮データの格納処理が実行されてよい。周期的に圧縮データの格納処理を実行する場合、プロセッサ１１１は、メモリ１１３に格納される圧縮データを検索し、検索された圧縮データを記憶媒体１０２に格納する。

図７は、実施例１のアクセラレータ１１２が実行する圧縮処理の一例を説明するフローチャートである。

アクセラレータ１１２は、プロセッサ１１１から圧縮指示を受信した場合、圧縮処理を開始する。

アクセラレータ１１２は、プロセッサ１１１から通知されたメモリ１１３上のデータ列の格納位置（アドレス）からデータ列を取得する（ステップＳ２０１）。

アクセラレータ１１２は、プロセッサ１１１から通知された圧縮対象データに関する情報に基づいて、データ列から圧縮対象データを抽出する（ステップＳ２０２）。

例えば、圧縮対象データに関する情報がビットマップである場合、アクセラレータ１１２は、１が設定されたビットに対応する位置のデータを圧縮対象データとして抽出する。

アクセラレータ１１２は、圧縮対象データを論理アドレス順に並べることによってデータ列を生成する（ステップＳ２０３）。

次に、アクセラレータ１１２は、生成されたデータ列に対して圧縮アルゴリズムを適用することによって、圧縮データを生成する（ステップＳ２０４）。

次に、アクセラレータ１１２は、メモリ１１３に圧縮データを格納する（ステップＳ２０５）。

次に、アクセラレータ１１２は、メモリ１１３上の圧縮データの格納場所（アドレス）及び圧縮データのデータサイズを含む完了通知をプロセッサ１１１に送信する（ステップＳ２０６）。その後、アクセラレータ１１２は圧縮処理を終了する。

アクセラレータ１１２がデータ列を圧縮することによってプロセッサ１１１の処理負荷を低減できる。

図８は、実施例１のプロセッサ１１１が実行するデータ列の読出処理の一例を説明するフローチャートである。

ストレージ装置１００は、ホスト２００からデータ読出要求を受信した場合、又は、データ読出要求の傾向に基づいて予測されたデータを先読みする場合、データ列の読出処理を開始する。

ここでは、データ読出要求を受信した場合を例に読出処理を説明する。なお、データ読出要求には、ボリュームにおけるデータ列の論理アドレスが含まれる。

プロセッサ１１１は、論理アドレス、ホスト２００が扱うデータ列のサイズ、及び重複排除の処理単位に基づいて、データ列を構成するデータのアドレスリストを生成する（ステップＳ３０１）。アドレスリストは、データ列を構成するデータが格納される先頭アドレス（論理アドレス）のリストである。このとき、プロセッサ１１１は、メモリ１１３上のデータ列の配置場所（アドレス範囲）を決定する。また、プロセッサ１１１は、伸張されたデータ列を構成するデータの配置に関する情報を初期化する。例えば、プロセッサ１１１は、アドレスリストに登録されているアドレスの数と同数のビット列（ビットマップ）を生成する。

次に、プロセッサ１１１は、リストの中からターゲットアドレスを選択する（ステップＳ３０２）。

プロセッサ１１１は、重複排除データ管理情報３１０を参照し、ターゲットアドレスに対応するデータが重複排除により削除されたか否かを判定する（ステップＳ３０３）。

具体的には、プロセッサ１１１は、論理アドレス３１１を参照して、ターゲットアドレス及びデータのサイズ（重複排除の処理単位）によって特定されたアドレス範囲に含まれる論理アドレスが設定されたエントリを検索する。プロセッサ１１１は、前述の条件に該当するエントリが存在する場合、ターゲットデータが重複排除により削除されたと判定する。

ターゲットアドレスに対応するデータが重複排除により削除されたデータであると判定された場合、プロセッサ１１１は、ターゲットアドレスに対応するデータを読み出し、メモリ１１３に格納する（ステップＳ３０４）。その後、プロセッサ１１１はステップＳ３０６に進む。具体的には、以下のような処理が実行される。

（Ｓ３０４－１）プロセッサ１１１は、ホスト２００が扱うデータ列のサイズ、データ列の論理アドレス、及びターゲットデータの論理アドレスに基づいて、メモリ１１３上のターゲットアドレスに対応するデータの配置場所（アドレス）を決定する。

（Ｓ３０４－２）プロセッサ１１１は、ステップＳ３０３において検索されたエントリの参照論理アドレス３１２に対応するデータがメモリ１１３に格納されているか否かを判定する。

（Ｓ３０４－３）データがメモリ１１３に格納されている場合、プロセッサ１１１は、当該データを決定された配置場所にコピーする。

（Ｓ３０４－４）データがメモリ１１３に格納されていない場合、プロセッサ１１１は、圧縮データ管理情報３００を参照し、論理アドレス３０１に、検索されたアドレスを含むアドレス範囲の先頭アドレスが格納されるエントリを検索する。プロセッサ１１１は、検索されたエントリの物理アドレス３０２に格納されるアドレスに基づいて、記憶媒体１０２から圧縮データを読み出し、メモリ１１３に格納する。プロセッサ１１１は、アクセラレータ１１２に、メモリ１１３上の圧縮データの格納場所（アドレス）及び伸張されたデータ列の配置場所を含む、伸張指示を送信する。アクセラレータ１１２から完了通知を受信した場合、プロセッサ１１１は、伸張されたデータ列に含まれる、ターゲットアドレスに対応するデータを、配置場所にコピーする。

なお、アクセラレータ１１２は、伸張指示を受信した場合、圧縮データを伸張し、伸張されたデータ列をメモリ１１３の指定された配置場所に格納する。

以上がステップＳ３０４の処理の説明である。

ターゲットアドレスに対応するデータが重複排除により削除されたデータではないと判定された場合、プロセッサ１１１は、ターゲットアドレスをデータ配置位置として登録する（ステップＳ３０５）。その後、プロセッサ１１１はステップＳ３０６に進む。

具体的には、プロセッサ１１１は、ビットマップのターゲットアドレスに対応するビットに１を設定する。

ステップＳ３０６では、プロセッサ１１１は、アドレスリストの全てのアドレスについて処理が完了したか否かを判定する（ステップＳ３０６）。

アドレスリストの全てのアドレスについて処理が完了していないと判定された場合、プロセッサ１１１は、ステップＳ３０２に戻り、同様の処理を実行する。

アドレスリストの全てのアドレスについて処理が完了したと判定された場合、プロセッサ１１１は、記憶媒体１０２からデータ列に関連する圧縮データを読み出す（ステップＳ３０７）。

具体的には、プロセッサ１１１は、圧縮データ管理情報３００を参照し、論理アドレス３０１に、読出要求によって指定されたアドレス範囲のアドレスが格納されたエントリを検索する。プロセッサ１１１は、検索されたエントリの物理アドレス３０２に格納されるアドレスに基づいて、記憶媒体１０２から圧縮データを読み出し、メモリ１１３に格納する。

次に、プロセッサ１１１は、アクセラレータ１１２に対して、圧縮データのメモリ１１３上の格納場所（アドレス）、データ列の配置場所（アドレス）、及びデータ列の各データの配置場所を示す情報を含む伸張指示を送信する（ステップＳ３０８）。その後、プロセッサ１１１はデータ列の読出処理する。

プロセッサ１１１は、アクセラレータ１１２から完了通知を受信した後、任意のタイミングで、データ列をホスト２００に送信する。

図９は、実施例１のアクセラレータ１１２が実行する伸張処理の一例を説明するフローチャートである。

アクセラレータ１１２は、プロセッサ１１１から伸張指示を受信した場合、伸張処理を開始する。

アクセラレータ１１２は、圧縮データのメモリ１１３上の配置場所に基づいて、メモリ１１３から圧縮データを取得する（ステップＳ４０１）。

次に、アクセラレータ１１２は、圧縮データに対して伸張アルゴリズムを適用することによって、圧縮データを伸張する（ステップＳ４０２）。

次に、アクセラレータ１１２は、データ列の配置場所（アドレス）及びデータ列の各データの配置場所を示す情報に基づいて、伸張されたデータ列に含まれるデータをメモリ１１３に配置する（ステップＳ４０３）。

例えば、データ列の各データの配置場所を示す情報がビットマップである場合、アクセラレータ１１２は、１が設定されたビットに対応する位置に、データ列に含まれるデータを配置する。なお、データ列に含まれるデータの順番にしたがってデータが配置される。

次に、アクセラレータ１１２は、完了通知をプロセッサ１１１に送信する（ステップＳ４０４）。その後、アクセラレータ１１２は伸張処理を終了する。

実施例１によれば、ストレージ装置１００は、アクセラレータ１１２にデータのアライメントの調整処理とともに、圧縮処理及び伸張処理を実行させることによって、プロセッサ１１１の処理負荷を低減できる。また、圧縮処理及び重複排除処理の処理単位は、それぞれの処理に適した処理単位に調整できるため、データ削減効果を高めることができる。

実施例２では、ストレージ装置１００は、複数のデータ列をまとめて圧縮する点が実施例１と異なる。以下、実施例１との差異を中心に実施例２について説明する。

まず、実施例１のストレージ装置１００が実行する処理の概要を図１０及び図１１を用いて説明する。図１０及び図１１は、実施例２のストレージ装置１００が実行する処理の概要を説明する図である。

まず、図１０を用いて実施例１のストレージ装置１００が実行する書込処理の概要について説明する。ここでは、ホスト２００が、異なるボリュームに対してデータ列１０００、１０１０、１０２０を書き込んだ場合の処理について説明する。なお、各データ列１０００、１０１０、１０２０のサイズは同一であるものとする。

まず、ホスト２００が書き込んだデータ列１０００、１０１０、１０２０はメモリ１１３に格納される。プロセッサ１１１は、メモリ１１３にデータ列１０００、１０１０、１０２０が格納された後、各データ列１０００、１０１０、１０２０に対して重複排除処理を実行する。図１０では、データ列１０００はデータＡが残り、データ列１０１０はデータＢ、Ｃが残り、データ列１０２０はデータＤが残ったものとする。

プロセッサ１１１は、メモリ１１３に格納されるデータ列から、圧縮の処理単位分のデータを選択する。ここでは、４つ分のデータのサイズを圧縮の処理単位としている。したがって、データＡ、Ｂ、Ｃ、Ｄが選択される。プロセッサ１１１は、アクセラレータ１１２に対して、データＡ、Ｂ、Ｃ、Ｄの圧縮指示を送信する。

アクセラレータ１１２は、データＡ、Ｂ、Ｃ、Ｄからデータ列ＡＢＣＤを生成し、当該データ列を圧縮することによって圧縮データａｂｃｄを生成する。アクセラレータ１１２は、圧縮データａｂｃｄをメモリ１１３に格納する。その後、プロセッサ１１１は、メモリ１１３上の圧縮データａｂｃｄを記憶媒体１０２に格納する。記憶媒体１０２には、圧縮データを隙間なく格納される。

ホスト２００によってデータ列の一部のデータが更新された場合、本実施例の圧縮データの格納方式では、元の圧縮データは削除されず、更新されたデータを含むデータ列を圧縮した圧縮データが記憶媒体１０２に新たに格納される。これにともなって、論理アドレスに対応づけられる物理アドレスも更新される。論理アドレスとの対応づけが解除されたデータをガベージと呼ぶ。

ボリュームへのデータ列の書込に伴ってガベージが大量に発生する。そこで、実施例２のストレージ装置１００は、ガベージコレクションと呼ばれる処理を実行することによって、ガベージを削除する。さらに、ストレージ装置１００は、ガベージが削除された後、記憶媒体１０２の圧縮データを配置し直す。これによって、記憶媒体１０２へのホスト２００が利用するボリュームへ提供する記憶領域を確保する。

以上が、書込処理の概要である。

次に、図１１を用いて実施例１のストレージ装置１００が実行するガベージコレクションの概要について説明する。ここでは、ホスト２００が、ストレージ装置１００に対して、データＣに対応する更新データＣ’を含むデータ列が書き込まれた場合の処理について説明する。このとき、圧縮データａｂｃｄのデータＣはガベージとなる。

プロセッサ１１１は、記憶媒体１０２から圧縮データａｂｃｄを読み出し、メモリ１１３に格納する。プロセッサ１１１は、アクセラレータ１１２に伸張指示を送信する。アクセラレータ１１２は、圧縮データａｂｃｄを伸張し、データ列ＡＢＣＤをメモリ１１３に格納する。

プロセッサ１１１は、アクセラレータ１１２に対して、データＣを除く、データＡ、Ｂ、Ｄの圧縮指示を送信する。アクセラレータ１１２は、データＡ、Ｂ、Ｄからデータ列ＡＢＣを生成し、圧縮アルゴリズムを適用することによって圧縮データａｂｄを生成する。アクセラレータ１１２は、圧縮データａｂｄをメモリ１１３に格納する。プロセッサ１１１は、記憶媒体１０２の圧縮データが格納される記憶領域の最後尾の位置の次の位置に圧縮データａｂｄを書き込む。

以上が、ガベージコレクションの概要である。前述のように、アクセラレータ１１２は、データ列からガベージを取り除いたデータを再度圧縮する。プロセッサ１１１は直接データ列を処理する必要がないため、負荷を低減できる。

実施例２のストレージ装置１００のハードウェア構成は実施例１と同一である。実施例２では、ストレージ装置１００が保持する管理情報が異なる。

図１２は、実施例２の圧縮データ管理情報１２００の一例を示す図である。

圧縮データ管理情報１２００は、圧縮データを管理するための情報である。圧縮データ管理情報３００は、ブロック番号１２０１、物理アドレス１２０２、及びデータサイズ１２０３から構成されるエントリを格納する。一つのエントリは、一つの圧縮データに対応する。

ブロック番号１２０１は、圧縮データを識別するためのブロック番号を格納するフィールドである。実施例２では、複数のデータ列のデータをまとめて圧縮しているため、圧縮するデータの論理アドレスは連続していない。したがって、論理アドレスの代わりに、ブロック番号を用いて圧縮データを識別する。

物理アドレス１２０２及びデータサイズ１２０３は、物理アドレス３０２及びデータサイズ３０３と同一のフィールドである。

図１３は、実施例２のホストデータ管理情報１３００の一例を示す図である。

ホストデータ管理情報１３００は、重複排除処理によってデータ列から削除されたデータを管理するための情報である。ホストデータ管理情報１３００は、論理アドレス１３０１、ブロック番号１３０２、及びオフセット１３０３から構成されるエントリを格納する。一つのエントリは、重複排除処理によって削除された一つのデータに対応する。

論理アドレス１３０１は、論理アドレス３１１と同一のフィールドである。

ブロック番号１３０２は、データを含むデータ列を圧縮した圧縮データに付与されたブロック番号を格納するフィールドである。

オフセットは、圧縮前のデータ列におけるデータの位置を示す値を格納するフィールドである。

図１４Ａ及び図１４Ｂは、実施例２のプロセッサ１１１が実行するデータ削減処理の一例を説明するフローチャートである。

プロセッサ１１１は、メモリ１１３に格納されるデータ列の中からターゲットデータ列を選択する（ステップＳ５０１）。

プロセッサ１１１は、重複排除の処理単位に基づいてデータ列を分割する（ステップＳ５０２）。

次に、プロセッサ１１１は、分割されたデータの中からターゲットデータを選択する（ステップＳ５０３）。

次に、プロセッサ１１１は、ターゲットデータに一致するデータを検索する（ステップＳ５０４）。データの検索方法はステップＳ１０３と同一である。

次に、プロセッサ１１１は、検索の結果に基づいて、ターゲットデータに一致するデータが存在するか否かを判定する（ステップＳ５０５）。

ターゲットデータに一致するデータが存在する場合、プロセッサ１１１は、ターゲットデータに関する情報をホストデータ管理情報１３００に登録する（ステップＳ５０６）。その後、プロセッサ１１１はステップＳ５０８に進む。

具体的には、プロセッサ１１１は、ホストデータ管理情報１３００にエントリを追加し、追加されたエントリの論理アドレス１３０１にターゲットデータの論理アドレスを格納する。検索されたデータが含まれる圧縮データのブロック番号及び当該データのオフセットを、追加されたエントリのブロック番号１３０２及びオフセット１３０３に格納する。

ターゲットデータに一致するデータが存在しない場合、プロセッサ１１１は、ターゲットデータを圧縮対象データとして登録する（ステップＳ５０７）。その後、プロセッサはステップＳ５０８に進む。

具体的には、プロセッサ１１１は、メモリ１１３上のターゲットデータ列のアドレス及びターゲットデータ列におけるデータの位置（オフセット）を対応づけたデータをリストに登録する。

ステップＳ５０８では、プロセッサ１１１は、ターゲットデータ列の全てのデータの処理が完了したか否かを判定する（ステップＳ５０８）。

ターゲットデータ列の全てのデータの処理が完了していないと判定された場合、プロセッサ１１１は、ステップＳ５０３に戻り、同様の処理を実行する。

ターゲットデータ列の全てのデータの処理が完了したと判定された場合、プロセッサ１１１は、圧縮対象データのデータ量が閾値以上である否かを判定する（ステップＳ５０９）。

具体的には、プロセッサ１１１は、リストに登録されたデータの数及び重複排除の処理単位に基づいて圧縮対象のデータ量を算出する。プロセッサ１１１は、当該データ量が閾値より大きいか否かを判定する。ここで、閾値は圧縮の処理単位である。

圧縮対象データのデータ量が閾値より小さいと判定された場合、プロセッサ１１１は、ステップＳ５０１に戻り、同様の処理を実行する。

圧縮対象データのデータ量が閾値以上であると判定された場合、プロセッサ１１１は、アクセラレータ１１２に対して、リストを含む圧縮指示を送信する（ステップＳ５１０）。プロセッサ１１１は、アクセラレータ１１２から完了通知を受信するまで待ち状態に移行する。なお、完了通知には、メモリ１１３上の圧縮データの格納場所（アドレス）、圧縮前のデータ列における各データのオフセット、及び圧縮データのデータサイズが含まれる。

アクセラレータ１１２から完了通知を受信した場合、プロセッサ１１１は、記憶媒体１０２における圧縮データの格納場所を決定する（ステップＳ５１１）。具体的には、以下のような処理が実行される。

（Ｓ５１１－１）プロセッサ１１１は、圧縮データ管理情報１２００の物理アドレス１２０２を参照し、記憶媒体１０２の圧縮データが格納される記憶領域の最後尾の位置（アドレス）を特定する。プロセッサ１１１は、当該アドレスに基づいて、圧縮データを格納する記憶領域のアドレスを決定する。

（Ｓ５１１－２）プロセッサ１１１は、圧縮データ管理情報１２００にエントリを追加し、ブロック番号１２０１にブロック番号を格納する。プロセッサ１１１は、追加されたエントリの物理アドレス１２０２に、決定されたアドレスを格納する。また、プロセッサ１１１は、当該エントリのデータサイズ１２０３に、通知された圧縮データのデータサイズを格納する。

以上がステップＳ５１１の処理の説明である。

次に、プロセッサ１１１は、ホストデータ管理情報１３００を更新する（ステップＳ５１２）。その後、プロセッサ１１１はデータ削減処理を終了する。具体的には以下のような処理が実行される。

（Ｓ５１２－１）プロセッサ１１１は、リストに登録された圧縮対象データの中からターゲットデータを選択する。

（Ｓ５１２－２）プロセッサ１１１は、ホストデータ管理情報１３００を参照し、ターゲットデータに対応するエントリを検索する。具体的には、プロセッサ１１１は、論理アドレス１３０１に、ターゲットデータのアドレスが格納されるエントリを検索する。

（Ｓ５１２－３）プロセッサ１１１は、ホストデータ管理情報１３００にターゲットデータに対応するエントリが存在しないと判定された場合、すなわち、ターゲットデータがボリュームに対して初めて書き込まれたデータである場合、プロセッサ１１１は、ホストデータ管理情報１３００にエントリを追加する。プロセッサ１１１は、追加されたエントリの論理アドレス１３０１に、ターゲットデータの論理アドレスを格納する。また、プロセッサ１１１は、追加されたエントリのブロック番号１３０２に圧縮データのブロック番号を格納し、オフセット１３０３にターゲットデータのオフセットを格納する。

（Ｓ５１２－４）プロセッサ１１１は、ホストデータ管理情報１３００にターゲットデータに対応するエントリが存在すると判定された場合、すなわち、データを更新する場合、プロセッサ１１１は、検索されたエントリのブロック番号１３０２に圧縮データのブロック番号を格納し、当該エントリのオフセット１３０３にターゲットデータのオフセットを格納する。

（Ｓ５１２－５）プロセッサ１１１は、全ての圧縮対象データの処理が完了したか否かを判定する。全ての圧縮対象データの処理が完了していない場合、プロセッサ１１１は、Ｓ５１２－１に戻り、同様の処理を実行する。全ての圧縮対象データの処理が完了した場合、プロセッサ１１１はステップＳ５１２の処理を終了する。

以上がステップＳ５１２の処理の説明である。ステップＳ５１２の処理の結果、更新されたデータのブロック番号１３０２及びオフセット１３０３は更新される。これにともなって、論理アドレスとの対応づけが解除された物理アドレスをガベージと呼び、ガベージでない物理アドレスを有効状態と呼ぶ。ガベージコレクションでは、有効状態の物理アドレスに格納された圧縮対象データを読み出し、前詰めに記憶媒体１０２に格納する。これによって、記憶媒体１０２の未使用の記憶領域を確保することができる。

図１５は、実施例２のアクセラレータ１１２が実行する圧縮処理の一例を説明するフローチャートである。

アクセラレータ１１２は、プロセッサ１１１から通知されたリストに基づいて、メモリ１１３から圧縮対象データを取得する（ステップＳ６０１）。

アクセラレータ１１２は、圧縮対象データからデータ列を生成する（ステップＳ６０２）。このとき、アクセラレータ１１２は、データ列における各圧縮対象データの位置（オフセット）を示すデータを生成する。

次に、アクセラレータ１１２は、生成されたデータ列に対して圧縮アルゴリズムを適用することによって、圧縮データを生成する（ステップＳ６０３）。

次に、アクセラレータ１１２は、メモリ１１３に圧縮データを格納する（ステップＳ６０４）。

次に、アクセラレータ１１２は、メモリ１１３上の圧縮データの格納場所（アドレス）、圧縮前のデータ列における各データのオフセット、及び圧縮データのデータサイズを含む完了通知をプロセッサ１１１に送信する（ステップＳ６０５）。その後、アクセラレータ１１２は圧縮処理を終了する。

実施例２のデータ読出処理は、実施例１と同様の処理であるため詳細な説明は省略する。

次に、実施例２のガベージコレクションについて説明する。

図１６は、実施例２のプロセッサ１１１が実行するガベージコレクションの一例を説明するフローチャートである。

ガベージコレクションはガベージの発生時に実行してもよいし、周期的に実行してもよい。

プロセッサ１１１は、ターゲット物理アドレスを選択する（ステップＳ７０１）。本実施例では、データ量が大きいガベージ物理アドレスが選択される。これは、格納し直すデータ量を少なくするためである。

例えば、プロセッサ１１１は、有効状態からガベージに遷移する場合に、ガベージに遷移する物理アドレスに格納される圧縮データのデータ量をガベージ量として記憶する。プロセッサ１１１はガベージ量に基づいて物理アドレスを選択する。

プロセッサ１１１は、ターゲット物理アドレスに基づいて記憶媒体１０２から圧縮データを取得し、メモリ１１３に格納する（ステップＳ７０２）。

プロセッサ１１１は、アクセラレータ１１２に対して、メモリ１１３上の圧縮データのアドレスを含む伸張指示を送信する（ステップＳ７０３）。プロセッサ１１１は、アクセラレータ１１２から完了通知を受信するまで待ち状態に移行する。なお、完了通知には、メモリ１１３上のデータ列の格納場所（アドレス）が含まれる。

プロセッサ１１１は、伸張されたデータ列を構成するデータの中からターゲットデータを選択する（ステップＳ７０４）。このとき、プロセッサ１１１は、伸張されたデータ列に含まれるデータの数と同数のビット列（ビットマップ）を生成する。

プロセッサ１１１は、ターゲットデータは有効状態であるか否かを判定する（ステップＳ７０５）。すなわち、ターゲットデータを保持する必要があるか否かが判定される。有効状態でないターゲットデータは保持する必要がないと判定される。

具体的には、プロセッサ１１１は、圧縮データ管理情報１２００を参照して、ターゲット物理アドレスに対応するエントリのブロック番号１２０１の値を取得する。プロセッサ１１１は、ホストデータ管理情報１３００を参照し、ブロック番号１３０２に取得したブロック番号が格納され、かつ、オフセット１３０３に、データ列におけるターゲットデータのオフセットが格納されるエントリを検索する。前述のエントリが少なくとも一つ存在する場合、ターゲットデータは有効状態であると判定される。

ターゲットデータがガベージであると判定された場合、プロセッサ１１１はステップＳ７０７に進む。

ターゲットデータが有効状態であると判定された場合、プロセッサ１１１は、ターゲットデータを圧縮対象データとして登録する（ステップＳ７０６）。その後、プロセッサ１１１はステップＳ７０７に進む。

具体的には、プロセッサ１１１は、ビットマップのターゲットデータに対応するビットに１を設定する。

ステップＳ７０７では、プロセッサ１１１は、伸張されたデータ列の全てのデータについて処理が完了したか否かを判定する（ステップＳ７０７）。

伸張されたデータ列の全てのデータについて処理が完了していないと判定された場合、プロセッサ１１１は、ステップＳ７０４に戻り、同様の処理を実行する。

伸張されたデータ列の全てのデータについて処理が完了したと判定された場合、プロセッサ１１１は、アクセラレータ１１２に対して、メモリ１１３上のデータ列の格納位置（アドレス）及び圧縮対象データに関する情報を含む圧縮指示を送信する（ステップＳ７０８）。プロセッサ１１１は、アクセラレータ１１２から完了通知を受信するまで待ち状態に移行する。なお、完了通知には、メモリ１１３上の圧縮データの格納場所（アドレス）、圧縮前のデータ列における各データのオフセット、及び圧縮データのデータサイズが含まれる。

アクセラレータ１１２から完了通知を受信した場合、プロセッサ１１１は、記憶媒体１０２における圧縮データの格納場所を決定し（ステップＳ７０９）、その後、ガベージコレクションを終了する。具体的には、以下のような処理が実行される。

（Ｓ７０９－１）プロセッサ１１１は、圧縮データ管理情報１２００にエントリを追加し、追加されたエントリのブロック番号１２０１に圧縮データのブロック番号を格納する。また、プロセッサ１１１は、追加されたエントリのデータサイズ１２０３に圧縮データのデータサイズを格納する。

（Ｓ７０９－２）プロセッサ１１１は、圧縮データ管理情報１２００の物理アドレス１２０２を参照し、記憶媒体１０２の圧縮データが格納される記憶領域の最後尾の位置（アドレス）を特定する。プロセッサ１１１は、当該アドレスに基づいて、圧縮データを格納する記憶領域のアドレスを決定する。プロセッサ１１１は、追加されたエントリの物理アドレス１２０２に、決定されたアドレスを格納する。

（Ｓ７０９－３）プロセッサ１１１は、ホストデータ管理情報１３００を参照して、論理アドレス１３０１に圧縮対象データの論理アドレスが格納されるエントリを検索する。プロセッサ１１１は、検索された全エントリのブロック番号１３０２に、圧縮データのブロック番号を格納する。プロセッサ１１１は、検索された各エントリのオフセット１３０３に、圧縮前のデータ列における各データのオフセットを格納する。

以上がステップＳ７０９の処理の説明である。

なお、アクセラレータ１１２が圧縮処理及び伸張処理を一連の処理として実行できる場合、伸張指示及び圧縮指示は逐次的に送信しなくてもよい。すなわち、アクセラレータ１１２は、Ｓ４０１、Ｓ４０２の処理の後、Ｓ６０１からＳ６０５の処理を実行する。この場合、プロセッサ１１１は、Ｓ７０１、Ｓ７０２、Ｓ７０４からＳ７０７の処理を実行し、その後、アクセラレータ１１２に処理の実行を送信する。これによって、同様の結果を得ることができる。

実施例２のストレージ装置１００は、アクセラレータ１１２にデータのアライメントの調整処理とともに、圧縮処理及び伸張処理を実行させることによって、プロセッサ１１１の処理負荷を抑えることができる。また、圧縮処理及び重複排除処理の処理単位は、それぞれの処理に適した処理単位に調整できるため、データのデータ削減効果を高めることができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００ストレージ装置
１０１ストレージコントローラ
１０２記憶媒体
１１１プロセッサ
１１２アクセラレータ
１１３メモリ
１１４ホストインタフェース
２００ホスト
３００圧縮データ管理情報
３１０重複排除データ管理情報
１２００圧縮データ管理情報
１３００ホストデータ管理情報

Claims

プロセッサ、アクセラレータ、メモリ、及び記憶装置を備えたストレージ装置であって、
前記プロセッサは、
前記メモリに格納される、複数のデータから構成されるデータ列に対して重複排除処理を実行し、当該重複排除処理の結果に基づいて、前記データ列を構成するデータの中から、前記記憶装置に格納するデータである圧縮対象データを特定し、
前記データ列における前記圧縮対象データの位置を示す第１位置情報を、前記圧縮対象データに関する情報として生成し、
前記圧縮対象データに関する情報を含む圧縮指示を、前記アクセラレータに送信し、
前記アクセラレータは、
前記圧縮指示を受信した場合、前記メモリから前記データ列を読み出し、
前記第１位置情報に基づいて、前記データ列から複数の前記圧縮対象データを取得し、
複数の前記圧縮対象データを圧縮することによって、前記記憶装置に格納する圧縮データを生成することを特徴とするストレージ装置。
請求項１に記載のストレージ装置であって、
前記重複排除処理によって削除されたデータと、当該データを取得するために参照する参照先とを対応づけた重複排除データ管理情報を保持し、
前記プロセッサは、
読出要求を受信した場合、前記重複排除データ管理情報に基づいて、前記読出要求の対象となる読出データ列を構成するデータであって、前記重複排除処理によって削除されたデータを参照先から取得し、前記メモリに格納し、
前記読出データ列を構成するデータから生成された前記圧縮データを前記記憶装置から取得して、前記メモリに格納し、
前記圧縮データを伸張したデータ列を構成する複数のデータの各々の前記読出データ列における位置を示す第２位置情報を含む伸張指示を、前記アクセラレータに送信し、
前記アクセラレータは、
前記第２位置情報を含む伸張指示を受信した場合、前記取得した圧縮データを伸張することによって第１データ列を生成し、
前記第２位置情報に基づいて、前記読出データ列を構成するように、前記第１データ列を構成する複数のデータの各々を前記メモリに格納することを特徴とするストレージ装置。
請求項１に記載のストレージ装置であって、
前記プロセッサは、
複数のデータ列に対する前記重複排除処理の結果に基づいて、前記複数のデータ列の各々の前記圧縮対象データを特定し、
前記複数のデータ列の各々における前記圧縮対象データの位置を示す第３位置情報を、前記圧縮対象データに関する情報として生成し、
前記アクセラレータは、前記圧縮指示を受信した場合、前記メモリから前記複数のデータ列を読み出し、前記第３位置情報に基づいて、前記複数のデータ列から所定の数の前記圧縮対象データを取得することを特徴とするストレージ装置。
請求項３に記載のストレージ装置であって、
第１データから構成されるデータ列から生成された第１圧縮データを格納し、
前記プロセッサは、
新たなデータ列の書込によって前記第１データを保持する必要がなくなった場合、前記第１圧縮データを前記記憶装置から読み出して前記メモリに格納し、
前記第１圧縮データの伸張指示を前記アクセラレータに送信し、
前記アクセラレータは、前記第１圧縮データの伸張指示を受信した場合、前記第１圧縮データを伸張することによって第２データ列を生成し、前記メモリに格納し、
前記プロセッサは、前記第１データに関する情報を含む圧縮指示を前記アクセラレータに送信し、
前記アクセラレータは、
前記第１データに関する情報を含む圧縮指示を受信した場合、前記第２データ列を構成するデータの中から、前記第１データを除くデータを取得し、
前記取得されたデータから構成される第３データ列を圧縮して、第２圧縮データを生成することを特徴とするストレージ装置。
請求項３に記載のストレージ装置であって、
第１データから構成されるデータ列から生成された第１圧縮データを格納し、
前記プロセッサは、
新たなデータ列の書込によって前記第１データを保持する必要がなくなった場合、前記第１圧縮データを前記記憶装置から読み出して前記メモリに格納し、
前記第１データに関する情報を含む再圧縮指示を前記アクセラレータに送信し、
前記アクセラレータは、
前記再圧縮指示を受け付けた場合、前記第１圧縮データを伸張することによって第２データ列を生成し、前記メモリに格納し、
前記第２データ列を構成するデータの中から、前記第１データを除くデータを取得し、
前記取得されたデータから構成される第３データ列を圧縮して、第２圧縮データを生成することを特徴とするストレージ装置。
ストレージ装置が実行するデータ処理方法であって、
前記ストレージ装置は、プロセッサ、アクセラレータ、メモリ、及び記憶装置を有し、
前記データ処理方法は、
前記プロセッサが、前記メモリに格納される、複数のデータから構成されるデータ列に対して重複排除処理を実行し、当該重複排除処理の結果に基づいて、前記データ列を構成するデータの中から、前記記憶装置に格納するデータである圧縮対象データを特定する第１のステップと、
前記プロセッサが、前記データ列における前記圧縮対象データの位置を示す第１位置情報を、前記圧縮対象データに関する情報として生成する第２のステップと、
前記プロセッサが、前記圧縮対象データに関する情報を含む圧縮指示を、前記アクセラレータに送信する第３のステップと、
前記アクセラレータが、前記圧縮指示を受信した場合、前記メモリから前記データ列を読み出す第４のステップと、
前記アクセラレータが、前記第１位置情報に基づいて、前記データ列から複数の前記圧縮対象データを取得する第５のステップと、
前記アクセラレータが、複数の前記圧縮対象データを圧縮することによって、前記記憶装置に格納する圧縮データを生成する第６のステップと、
を含むことを特徴とするデータ処理方法。
請求項６に記載のデータ処理方法であって、
前記ストレージ装置は、前記重複排除処理によって削除されたデータと、当該データを取得するために参照する参照先とを対応づけた重複排除データ管理情報を保持し、
前記データ処理方法は、
前記プロセッサが、読出要求を受信した場合、前記重複排除データ管理情報に基づいて、前記読出要求の対象となる読出データ列を構成するデータであって、前記重複排除処理によって削除されたデータを参照先から取得し、前記メモリに格納するステップと、
前記プロセッサが、前記読出データ列を構成するデータから生成された前記圧縮データを前記記憶装置から取得して、前記メモリに格納するステップと、
前記プロセッサが、前記圧縮データを伸張したデータ列を構成する複数のデータの各々の前記読出データ列における位置を示す第２位置情報を含む伸張指示を、前記アクセラレータに送信するステップと、
前記アクセラレータが、前記第２位置情報を含む伸張指示を受信した場合、前記取得した圧縮データを伸張することによって第１データ列を生成するステップと、
前記アクセラレータが、前記第２位置情報に基づいて、前記読出データ列を構成するように、前記第１データ列を構成する複数のデータの各々を前記メモリに格納するステップと、を含むことを特徴とするデータ処理方法。
請求項６に記載のデータ処理方法であって、
前記第１のステップは、前記プロセッサが、複数のデータ列に対する前記重複排除処理の結果に基づいて、前記複数のデータ列の各々の前記圧縮対象データを特定するステップを含み、
前記第２のステップは、前記プロセッサが、前記複数のデータ列の各々における前記圧縮対象データの位置を示す第３位置情報を前記圧縮対象データに関する情報として生成するステップを含み、
前記第４のステップは、前記アクセラレータが、前記メモリから前記複数のデータ列を読み出すステップを含み、
前記第５のステップは、前記アクセラレータが、前記第３位置情報に基づいて、前記複数のデータ列から所定の数の前記圧縮対象データを取得するステップを含むことを特徴とするデータ処理方法。
請求項８に記載のデータ処理方法であって、
前記ストレージ装置は、第１データから構成されるデータ列から生成された第１圧縮データを格納し、
前記データ処理方法は、
前記プロセッサが、新たなデータ列の書込によって前記第１データを保持する必要がなくなった場合、前記第１圧縮データを前記記憶装置から読み出して前記メモリに格納するステップと、
前記プロセッサが、前記第１圧縮データの伸張指示を前記アクセラレータに送信するステップと、
前記アクセラレータが、前記第１圧縮データの伸張指示を受信した場合、前記第１圧縮データを伸張することによって第２データ列を生成し、前記メモリに格納するステップと、
前記プロセッサが、前記第１データに関する情報を含む圧縮指示を前記アクセラレータに送信するステップと、
前記アクセラレータが、前記第１データに関する情報を含む圧縮指示を受信した場合、前記第２データ列を構成するデータの中から、前記第１データを除くデータを取得し、前記取得されたデータから構成される第３データ列を圧縮して、第２圧縮データを生成するステップと、を含むことを特徴とするデータ処理方法。
請求項８に記載のデータ処理方法であって、
前記ストレージ装置は、第１データから構成されるデータ列から生成された第１圧縮データを格納し、
前記データ処理方法は、
前記プロセッサが、新たなデータ列の書込によって前記第１データを保持する必要がなくなった場合、前記第１圧縮データを前記記憶装置から読み出して前記メモリに格納するステップと、
前記プロセッサが、前記第１データに関する情報を含む再圧縮指示を前記アクセラレータに送信するステップと、
前記アクセラレータが、前記再圧縮指示を受け付けた場合、前記第１圧縮データを伸張することによって第２データ列を生成し、前記メモリに格納するステップと、
前記アクセラレータが、前記第２データ列を構成するデータの中から、前記第１データを除くデータを取得し、前記取得されたデータから構成される第３データ列を圧縮して、第２圧縮データを生成するステップと、を含むことを特徴とするデータ処理方法。