JP5494817B2 - ストレージシステム、データ管理装置、方法及びプログラム - Google Patents

ストレージシステム、データ管理装置、方法及びプログラム Download PDF

Info

Publication number
JP5494817B2
JP5494817B2 JP2012539576A JP2012539576A JP5494817B2 JP 5494817 B2 JP5494817 B2 JP 5494817B2 JP 2012539576 A JP2012539576 A JP 2012539576A JP 2012539576 A JP2012539576 A JP 2012539576A JP 5494817 B2 JP5494817 B2 JP 5494817B2
Authority
JP
Japan
Prior art keywords
data
unit
duplication
file
determination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012539576A
Other languages
English (en)
Other versions
JPWO2012053152A1 (ja
Inventor
聡 山川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012539576A priority Critical patent/JP5494817B2/ja
Publication of JPWO2012053152A1 publication Critical patent/JPWO2012053152A1/ja
Application granted granted Critical
Publication of JP5494817B2 publication Critical patent/JP5494817B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ストレージシステム、ストレージシステムにおけるデータ管理装置、データ管理方法及びデータ管理プログラムに関する。
複数のコンピューティング端末で生成されたデータを集中的に格納するストレージ装置において、物理的な記録容量を削減するDeduplicationと呼ばれる手法が用いられることある。これは、ハードディスクドライブなどの物理的な記憶媒体にデータを格納する段階で、既に格納されているデータとの重複を判定し、重複しているデータについては記憶媒体にデータを格納せず、既に格納済みの重複データへのポインタ情報のみを記録することによって、物理的な記録容量を削減する手法である。
Deduplicationでは、通常、ファイル単位やファイルシステム上で記憶媒体にデータを格納する際に固定的に割り振られる物理データブロック単位で、既に格納済みのデータとの重複の判定を行なう。この重複判定では、ディジタル認証等で用いられているSHA1やMD5といったハッシュ関数により生成された数十〜数百ビットのサイズの小さいダイジェストデータ同士を比較判定することにより、同一のバイト列で構成されているファイルまたはデータブロックであるか否かを判定している。
このような、ダイジェストデータを用いた重複判定手法を採用することにより、ストレージ装置上で実行される重複判定にかかる処理コストを低減することが可能となる。特に高速なI/O処理の実行が見込まれるストレージ処理においても、I/O処理と同時に重複判定を行うことで、I/O処理性能の劣化を抑えるといった効果も得られる。
この様なダイジェストデータを重複判定手段として持つ、重複排除型ストレージシステムは、データ格納コストを下げる手段の一つとして広く適用が進んでいる。特に同一のバイト列により構成されるファイルやデータブロックが多数見込まれるコンピューティング環境における、バックアップデータの格納を目的としたストレージ装置や、複数の仮想OSのシステム部分のイメージデータの格納を目的としたストレージ装置に適用されている。
また、関連する技術として、例えば、特許文献1には、XMLフォーマットのデータを扱う際に、XMLフォーマットのデータの重複排除を可能とする方法が記載されている。
特開2003−323428号公報
一般的な重複排除ストレージ装置では、格納するデータを重複判定する際のデータの重複判定単位が単一である。つまり、ファイル単位や固定ブロック単位といった、予め固定的に定められた単一のデータ単位ごとに重複判定を実施することしかできない。
また、前述のようなファイル単位や固定ブロック単位等の固定された単位で重複判定を行うのではなく、特定のファイルやデータフォーマットの種別に応じて重複判定に用いるデータの分割方法を変更することで、潜在的に重複しているデータをより多く抽出するなどの工夫がなされている技術がある。
このように重複排除ストレージ装置で様々な重複判定単位を採用することで、潜在的に重複している可能性の高いデータを漏れなく検出することが可能となる。しかし、より小さなサイズのデータ単位での重複判定、またはより複雑なデータの分割方法を採用する場合には、その重複判定処理によるデータ格納時やデータ読み出し時の処理性能の劣化を招く要因となってしまう。
すなわち、いずれの重複判定単位を採用したとしても、実際に格納されるデータの利用環境と、採用した重複判定単位とが整合していなければ、重複排除によるデータ格納コストの低減が実現できない。
このように、単一の重複判定単位での重複判定処理や、ファイルやデータフォーマットの種別に応じた重複判定単位での重複判定処理においては、データの利用環境に基づく重複発生傾向と、その重複判定単位とが一致しなければ、重複していないデータに対する不要な処理を繰り返すこととなる。そのため、データの格納コストの低減のメリットが得られず、単にデータの書き込みや読み出し処理性能が劣化した非効率なストレージ装置となってしまうという課題がある。
特許文献1に記載された方法を用いれば、重複排除率という点においては、効率良くデータの重複排除をすることができる。しかし、上記の課題については考慮されていない。
例えば、一般的に、ファイル<ブロック<オブジェクトという順番で重複排除率が大きくなることが前提となっている中では、単なる重複排除率の大小だけの判断に基づいていては、全てのケースでオブジェクトが選択されてしまう。また、一方で分割処理の負荷という点では、ファイル<ブロック<オブジェクトの順番になることが明らかであり、分割方式間での重複排除率の差異が大きくなければ、処理負荷に見合った効果が得られない。
そこで、本発明は、重複排除の管理コストに見合ったデータ格納容量の削減を行うことができるストレージシステム、データ管理装置、データ管理方法及びデータ管理プログラムを提供することを目的とする。
本発明によるストレージシステムは、ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定手段と、重複単位決定手段が決定した重複判定単位に基づいて、ストレージ装置が格納するデータの重複排除処理を行う重複排除手段とを含み、重複判定単位決定手段は、算出した重複発生率間の差分に基づいて重複判定単位を決定することを特徴とする。
本発明によるストレージシステムは、1台以上のファイルストレージ装置と、重複排除型ストレージ装置とを備え、ファイルストレージ装置のデータの重複発生傾向を複数のデータ分割単位で判定する際、データ分割単位ごとの重複発生率を算出して、比較することにより、データ分割単位を決定するデータ分割単位決定手段と、データ分割単位決定手段が決定したデータ分割単位で、ファイルストレージ装置から重複排除型ストレージ装置にデータを再配置するデータ再配置手段とを含み、データ分割単位決定手段は、算出した重複発生率間の差分に基づいてデータ分割単位を決定することを特徴とする。
本発明によるデータ管理装置は、ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定手段と、重複単位決定手段が決定した重複判定単位に基づいて、ストレージ装置が格納するデータの重複排除処理を行う重複排除手段とを備え、重複判定単位決定手段は、算出した重複発生率間の差分に基づいて重複判定単位を決定することを特徴とする。
本発明によるデータ管理方法は、ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率の差分に基づいて、データの重複判定を行う単位である重複判定単位を決定し、決定した重複判定単位に基づいて、ストレージ装置が格納するデータの重複排除処理を行うことを特徴とする。
本発明によるデータ管理プログラムは、コンピュータに、ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率の差分に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定処理と、決定した重複判定単位に基づいて、ストレージ装置が格納するデータの重複排除を行う重複排除処理とを実行させることを特徴とする。
本発明によれば、重複排除の管理コストに見合ったデータ格納容量の削減を行うことができる。
本発明によるストレージシステムの構成の一例を示すブロック図である。 データ管理装置3の機能構成の一例を示すブロック図である。 重複排除型ストレージ装置4の機能構成の一例を示すブロック図である。 データ再配置処理の一例を示す流れ図である。 重複排除型ストレージ装置4におけるデータ格納処理の一例を示す流れ図である。 重複排除型ストレージ装置4が格納するファイルデータの読み出し処理の一例を示す流れ図である。 ストレージシステムの最小の構成例を示すブロック図である。
以下、図面を参照しながら本発明の実施形態について説明する。図1は、本発明によるストレージシステムの構成の一例を示すブロック図である。
本発明によるストレージシステムは、1つ以上のファイルストレージ装置1と、データ管理装置3と、重複排除型ストレージ装置4とを含む。また、ファイルストレージ装置1と、データ管理装置3と、重複排除型ストレージ装置4とは、インターネットやLAN等によって実現されるネットワーク2を介して相互に接続されているものとする。
なお、本実施形態のストレージシステムでは、ファイルストレージ装置1と、データ管理装置3と、重複排除型ストレージ装置4とは、それぞれ異なる装置であるが、これに限らず、例えば、データ管理装置3と、重複排除型ストレージ装置4とが単一の装置によって実現されていてもよいし、ファイルストレージ装置1と重複排除型ストレージ装置4とが単一の装置によって実現されていてもよい。また、例えば、ファイルストレージ装置1と、データ管理装置3と、重複排除型ストレージ装置4とが単一の装置によって実現されていてもよい。
ファイルストレージ装置1は、ファイルデータ(以下、単にファイルともいう)を格納する。ファイルストレージ装置1は、装置外部からネットワーク2を介して受信したファイルの新規作成、削除、読み出し、書き込み等のファイルアクセス処理要求に基づいて、格納しているファイルデータに対してファイルアクセス処理を実行する機能を備えている。また、ファイルストレージ装置1は、実行したファイルアクセス処理の結果を処理要求元に返信する機能を備えている。ファイルストレージ装置1は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。また、ファイルストレージ装置1は、例えば、データベースサーバによって実現されていてもよい。
次に、データ管理装置3について説明する。図2は、データ管理装置3の機能構成の一例を示すブロック図である。
図2に示すように、データ管理装置3は、ファイルデータ送受信部30と、メタデータ管理部31と、データ配置先決定部32と、データ重複判定単位決定部33と、データ再配置処理部34とを含む。データ管理装置3は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
ファイルデータ送受信部30は、データ管理装置3と外部の装置との間でのファイルデータの入出力インターフェースであり、NFS(Netword File System)やCIFS(Common Internet File System)といった業界標準プロトコルに適応可能なクライアント機能を備えている。ファイルデータ送受信部30は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。
メタデータ管理部31は、ファイルストレージ装置1が格納しているファイル群に付与されたメタデータの中から、ファイル名と、最終更新時刻、最終アクセス時刻または最終メタデータ更新時刻のいずれかの時刻情報とを所定期間ごとに取得して記憶部(図示せず)に記憶させる機能を備えている。これらの情報の取得方法については、例えば、メタデータ管理部31が所定期間ごとにファイルストレージ装置1にアクセスして抽出するようにしてもよいし、ファイルストレージ装置1が所定期間ごとにメタデータ管理部31に送信するようにしてもよい。
また、メタデータ管理部31は、ファイルストレージ装置1から重複排除型ストレージ装置4にファイルデータの再配置処理が行われているか否かを示すデータをメタデータと対応付けて記憶部に記憶させる機能を備えている。以下、メタデータ管理部31が記憶部に記憶させたデータを、メタデータ管理部31が保存しているデータ(メタデータ)とも表現する。メタデータ管理部31は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
データ配置先決定部32は、メタデータ管理部31が保存している最新のメタデータ群を参照し、所定のルールに基づいて、ファイルストレージ装置1から重複排除型ストレージ装置4に再配置するファイルデータ(以下、再配置対象ファイルともいう)を決定する機能を備えている。なお、所定のルールは、例えば、管理者等によって作成され、データ管理装置3の記憶部に格納されている。データ配置先決定部32は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
データ重複判定単位決定部33は、メタデータ管理部31が保存している最新のメタデータ群を参照し、ファイルストレージ装置1からファイルデータを取得する機能を備えている。また、データ重複判定単位決定部33は、複数のデータ分割単位でデータを分割し、それらのデータ分割単位のうちの最も効率的に重複排除可能な単位を重複判定単位として決定し、さらに重複判定単位に基づくデータ分割方法を決定する機能を備えている。データ重複判定単位決定部33は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
データ再配置処理部34は、データ配置先決定部32が決定した再配置対象ファイルを、データ重複判定単位決定部33が決定したデータ分割方法に基づいて、ファイルストレージ装置1から重複排除型ストレージ装置4に再配置する処理を行う機能を備えている。再配置とは、具体的には、ファイルストレージ装置1内の記憶領域から移動して重複排除型ストレージ装置内の記憶領域に格納することをいう。データ再配置処理部34は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
次に、重複排除型ストレージ装置4について説明する。図3は、重複排除型ストレージ装置4の機能構成の一例を示すブロック図である。
図3に示すように、重複排除型ストレージ装置4は、ファイルデータ送受信部40と、名前空間管理部41と、データ分割・合成部42と、データ重複判定部43と、データ管理部44と、データ記憶部45とを含む。
ファイルデータ送受信部40は、重複排除型ストレージ装置4と外部の装置との間でのファイルデータの入出力インターフェースであり、NFSやCIFSといった業界標準プロトコルに適用可能なサーバ機能を備えている。
名前空間管理部41は、ディレクトリ構造と、ディレクトリやファイル名とを管理するとともに、複数の独立したディレクトリツリーを外部に公開する機能を備えている。公開とは、具体的には、外部端末からの要求に応じて、ディレクトリツリーの情報をネットワーク2を介して外部端末に送信することをいう。
データ分割・合成部42は、名前空間管理部41の管理のもとにデータ記憶部45に格納されるファイルデータをブロック単位またはオブジェクト単位で分割する機能を備えている。また、データ分割・合成部42は、データ記憶部45に格納されている分割後のデータを分割前の元のファイルデータに合成する機能を備えている。
データ重複判定部43は、データ分割・合成部42が分割した格納対象のデータが、既に格納済みのデータと重複しているか否かを判定する機能を備えている。
データ管理部44は、データ分割・合成部42が分割したデータと元(分割前)のファイルデータとの関連を示す情報を管理する機能を備えている。また、データ管理部44は、データ記憶部45が格納するデータの格納先アドレス情報を管理する機能を備えている。ここでの管理とは、具体的には、格納先アドレス情報を他の情報と対応付けて格納したり、随時更新したりすること等をいう。
データ記憶部45は、データ管理部44が指定したデータを格納する。データ記憶部45は、具体的には、1つ又は複数の以上のHDD(ハードディスクドライブ)等で構成された記憶装置によって実現される。
本実施形態のストレージシステムでは、データ管理装置3は、ファイルストレージ装置1が格納しているファイルデータのうちの利用頻度の低いデータを判定するとともに、最も効率よく重複検出可能なデータの分割単位を判定し、利用頻度の低いデータを、最適な重複判定単位(データ分割単位)で重複排除型ストレージ装置4に格納させる。本実施形態のストレージシステムは、これらの処理を実行することによって、ストレージシステム全体のデータ格納容量を増加させることを目的としている。
次に、ストレージシステムの動作について説明する。本実施形態のストレージシステムの動作として、ファイルストレージ装置1から重複排除型ストレージ装置4へのデータの再配置処理と、重複排除型ストレージ装置4におけるデータ格納処理と、重複排除型ストレージ装置4に格納されたファイルデータの読み出し処理との3つの処理について説明する。なお、本実施形態では、ファイルストレージ装置1から重複排除型ストレージ装置4へのデータの再配置処理と、重複排除型ストレージ装置4におけるデータ格納処理とを実行することを、ファイルストレージ装置1が格納するデータの重複排除処理ともいう。
<データ再配置処理>
まず、ファイルストレージ装置1から重複排除型ストレージ装置4にファイルデータを再配置する処理について図4を参照して説明する。図4は、データ再配置処理の一例を示す流れ図である。
ここで、複数のファイルストレージ装置1のファイルシステムは、ネットワークファイルシステムにより公開されているものとする。データ管理装置3のメタデータ管理部31は、ファイルデータ送受信部30を介して、公開されている全てのファイルシステムごとに、ファイルシステムに格納されている全てのファイルのメタデータをファイルストレージ装置1から取得する(ステップS101)。
なお、メタデータは、ファイルの最終アクセス時刻、最終更新時刻または最終メタデータ更新時刻のうちのいずれかの時刻情報と、パス名情報とを含む。また、メタデータには、既に重複排除型ストレージ装置4に再配置されているファイルデータであるか否かを示すフラグが付与されているものとする。
次いで、メタデータ管理部31は、ファイルストレージ装置1から取得したメタデータを、公開されているファイルシステムごとに記憶部に記憶させて保存する(ステップS102)。ここでは、メタデータ管理部31は、既に重複排除型ストレージ装置4に再配置されているファイルデータであるか否かを示すフラグをメタデータに対応付けて保存するものとする。なお、本メタデータ取得動作は、例えば、ストレージシステム管理者によって予め定められた期間ごとに実行されるものとする。
メタデータ取得動作の完了後、データ配置先決定部32は、メタデータ管理部31が保存しているメタデータに基づいて、重複排除型ストレージ装置4に再配置する再配置対象ファイルを決定する(ステップS103)。
具体的には、データ配置先決定部32は、メタデータ管理部31が保存しているメタデータを参照し、付与されたフラグに基づいて、重複排除型ストレージ装置4に再配置されていないファイルを特定する。そして、データ配置先決定部32は、特定したファイルのうち、最終アクセス時刻、最終更新時刻または最終メタデータ更新時刻のうちのいずれかの時刻情報に基づいて、所定期間以上のアクセス、更新またはメタデータ更新がないファイルを特定し、これを再配置対象ファイルと決定する。
なお、メタデータ管理部31は、例えば、2回目以降のファイルストレージ装置1からのメタデータ取得動作においては、データ配置先決定部32が再配置対象と決定していないファイルおよび前回のメタデータ取得動作以降に作成されたファイルのみをメタデータ取得の対象とする。
また、メタデータ管理部31は、メタデータ取得後、最終アクセス時刻、最終更新時刻または最終メタデータ更新時刻のうちのいずれかの時刻情報が前回から更新されているかどうか判定し、判定結果に基づいて新規作成ファイルまたは時刻情報の更新されたファイルであることを示すフラグをメタデータと対応付けて保存するものとする。
また、メタデータ管理部31によるメタデータ取得動作の完了後、データ重複判定単位決定部33は、メタデータ管理部31が保存している最新のメタデータに基づいて、管理対象となっているファイルシステム単位で、ファイルデータ送受信部30を介してファイルストレージ装置1からファイルデータを取得する。
そして、データ重複判定単位決定部33は、ファイル単位、ブロック単位およびオブジェクト単位の3つの単位でデータを分割し、ファイルストレージ装置1のファイルシステムごとに、3つの単位のデータ分割方法による、データの重複発生率を算出する(ステップS104)。なお、重複発生率については、例えば、次の式を用いて算出することができる。
(データの重複発生率)=(実際に重複したデータの総数)/(重複評価データの総数)
次いで、データ重複判定単位決定部33は、算出した重複発生率に基づいて、重複判定単位を決定する(ステップS105)。
具体的には、データ重複判定単位決定部33は、(ファイル単位での重複発生率)<(ブロック単位での重複発生率)であり、かつ(ファイル単位での重複発生率)/(ブロック単位での重複発生率)で求めた値であるNが、予め定められた所定の閾値以上であるという条件に合致するか否かを判定する。
そして、条件に合致すると判定した場合には、データ重複判定単位決定部33は、ファイルをブロック単位に分割して重複排除格納することが最も効率が良いものとして決定する。すなわち、データ重複判定単位決定部33は、ブロック単位を重複判定単位と決定する。
一方、条件に合致しないと判定した場合には、データ重複判定単位決定部33は、ファイル単位で重複排除格納することが最も効率が良いものとして決定する。すなわち、データ重複判定単位決定部33は、ファイル単位を重複判定単位と決定する。
また同様にして、データ重複判定単位決定部33は、(ブロック単位での重複発生率)<(オブジェクト単位での重複発生率)であり、かつ(ブロック単位での重複発生率)/(ブロック単位での重複発生率)で求めた値であるNが、予め定められた所定の閾値以上であるという条件に合致するか否かを判定する。
そして、条件に合致すると判定した場合には、データ重複判定単位決定部33は、ファイルをオブジェクト単位に分割して重複排除格納することが最も効率が良いものとして決定する。すなわち、データ重複判定単位決定部33は、オブジェクト単位を重複判定単位と決定する。
一方、条件に合致しないと判定した場合には、データ重複判定単位決定部33は、ファイルをブロック単位で重複排除格納することが最も効率が良いものとして決定する。すなわち、データ重複判定単位決定部33は、ブロック単位を重複判定単位と決定する。
なお、データが重複しているか否かについては、次のような方法で判定することができる。例えば、データ重複判定単位決定部33は、データからハッシュ関数を用いてダイジェストデータを算出し、算出したダイジェストデータをパス名とともにハッシュテーブル上で管理しておく。そして、データ重複判定単位決定部33は、新たに算出したダイジェスト値が既に算出したダイジェスト値と合致するか否かに基づいて、データが重複しているか否かを判定する。
以上のように、データ重複判定単位決定部33は、すべてのファイルシステムにおいて最も重複排除効率が良い単位である重複判定単位を決定する。ここでの重複排除効率には、重複排除率に加え、処理の負荷と効果とを考慮した重複排除の管理コストが反映されているといえる。
そして、データ重複判定単位決定部33は、重複判定単位に基づくデータの分割方法を決定し、メタデータ管理部31が管理しているファイルシステムでの最適なデータ分割方法として設定する(ステップS106)。
このように、本実施形態では、異なる分割方法間における重複排除率の差分の大小に基づいてデータの分割手法を決定している。したがって、複数の分割方法の重複排除率に基づいてデータの分割方法を決定している先行技術に対し、処理負荷に見合った効果を得ることができるデータの分割方法を選択することができる。
なお、データ重複判定単位決定部33による最も重複排除効率が良いデータ分割方法(重複判定単位)の決定動作(すなわち、ステップS104からステップS106)については、データ配置先決定部32による初回の再配置対象のファイルの決定動作(すなわち、ステップS103)に併せて動作し、初回の再配置対象のファイルの決定動作時のみ動作することとする。
また、例えば、データ重複判定単位判定手段33は、所定期間ごとにデータ分割方法の決定動作を実行し、新たに決定したデータ分割方法が、設定したデータ分割方法と異なる場合には、新たに決定したデータ分割方法を最適なデータ分割方法として再設定するようにしてもよい。また、例えば、ストレージシステムは、再設定された最適な重複判定単位(データ分割方法)で、既に格納済みのデータを格納し直すデータ再格納手段(図示せず)を備えていてもよい。
データ配置先決定部32が再配置対象ファイルを決定し、データ重複判定単位決定部33が最適な重複判定単位(すなわち、データ分割方法)を決定すると、データ再配置処理部34は、再配置対象ファイルをファイルストレージ装置1から読み出し、データ分割方法に基づいて重複排除型ストレージ装置4に書き込む(ステップS107)。
ここで、重複排除型ストレージ装置4は、ファイル単位、ブロック単位、オブジェクト単位の分割方法ごとに、データの格納先となる専用のファイルシステムを備えている。そして、データ再配置処理部34は、データ重複判定単位決定部33が決定した最適なデータ分割方法に対応したファイルシステムを、重複排除型ストレージ装置4における格納先として選択する。
なお、具体的には、データ配置先決定部32が再配置対象ファイルとともに書き込み要求を重複排除型ストレージ装置4に送信し、重複排除型ストレージ装置4が書き込み要求に従って書き込み処理を行うが、この処理の詳細については後述する。
次いで、重複排除型ストレージ装置4へのファイルデータの書き込みを行うと、データ再配置処理部34は、ファイルストレージ装置1の読み出し元のファイルを、重複排除型ストレージ装置4に格納したファイルへのリンクファイルに書き換える(ステップS108)。具体的には、データ配置先決定部32が書き換え要求をファイルストレージ装置1に送信し、ファイルストレージ装置1が書き換え要求に従って書き換え処理を行う。その後、データ再配置処理部34は、ファイルの再配置処理を終了する。
なお、ファイルストレージ装置1は、例えば、シンボリックリンクファイル等のリンクファイルを作成するものとする。また、作成されたリンクファイルは、再配置先となる重複排除型ストレージ装置4の格納先アドレス情報を含むものとする。
以上のようにデータ再配置処理部34が全ての再配置対象ファイルの再配置処理を完了すると、データ管理装置3は、データ再配置処理を終了する。
<重複排除型ストレージ装置4におけるデータ格納処理>
次に、重複排除型ストレージ装置4におけるデータ格納処理について図5を参照して説明する。図5は、重複排除型ストレージ装置4におけるデータ格納処理の一例を示す流れ図である。
本実施形態の重複排除型ストレージ装置4は、データ管理装置3が決定可能な各重複判定単位(データ分割方法)に対応した専用の名前空間を複数備えている。また、これらの名前空間は、ファイルデータ送受信部40を介して外部に公開されていることとする。したがって、少なくとも、ファイル単位、ブロック単位およびオブジェクト単位に対応した3つ以上の名前空間が外部に公開されていることとする。なお、オブジェクト単位でのデータ分割方法に対応する名前空間については、ファイルのフォーマットの種別ごとに複数存在していてもよいこととする。
これらの名前空間は、名前空間管理部41によって管理されている。また、各名前空間は、データ分割・合成部42が実行可能なデータ分割方式に対応付けられていることとする。
重複排除型ストレージ装置4におけるデータ格納処理の前段階として、データ管理装置3のデータ再配置処理部34は、ファイルストレージ装置1が格納する再配置対象のファイルデータを抽出する。そして、データ再配置処理部34は、重複排除型ストレージ装置4が備えている名前空間のうち、対応付けられたデータ分割方法が、データ重複判定単位決定部33が決定したデータ分割方法と合致する名前空間をファイルデータの格納先として選択する。
次いで、データ管理装置3のデータ再配置処理部34は、重複排除型ストレージ装置4に、抽出したファイルデータとともに、選択した格納先を示す情報を含む書き込み要求を送信する。
データ管理装置3が上記の処理を実行すると、重複排除型ストレージ装置4のファイルデータ送受信部40は、ファイルデータとともに、書き込み要求を受信する(ステップS201)。そして、ファイルデータ送受信部40は、受信したファイルデータと書き込み要求とに基づいて、データの格納先となる名前空間を管理する名前空間管理部41にファイルデータを出力する。
次いで、名前空間管理部41は、ファイル名を含む名前空間上でのパス名を示すパス名情報を記憶部に記憶させて保存する(ステップS202)。その後、名前空間管理部41は、データ分割・合成部42にファイルデータを出力する。
次いで、データ分割・合成部42は、格納先の名前空間に対応付けられたデータ分割方法でファイルデータを分割し、分割後の各データに重複排除型ストレージ装置4内で一意に識別するための識別子を付与する(ステップS203)。その後、データ分割・合成部42は、分割したデータをデータ重複判定部43に出力する。
次いで、データ重複判定部43は、データからハッシュ関数を用いてダイジェスト値を算出し、算出したダイジェスト値が、既に格納済みとなっているデータのダイジェスト値と合致するか否かを判定する(ステップS204)。なお、格納済みデータのダイジェスト値の一覧はデータ管理部44にテーブル化して登録されているものとする(以下、このテーブルをアドレス管理テーブルともいう)。データ重複判定部43は、算出したダイジェスト値とアドレス管理テーブルに登録されているダイジェスト値との照合を行うこととする。
格納済みデータのダイジェスト値と合致しないと判定した場合、データ重複判定部43は、ダイジェスト値と、ダイジェスト値に対応するデータとを、データ分割・合成部42が付与した識別子とともにデータ管理部44に出力する。
次いで、データ管理部44は、ダイジェスト値をアドレス管理テーブルに登録するとともに、データをデータ記憶部45に格納させ、データ記憶部45における格納先アドレス情報を取得する(ステップS205)。
その後、データ管理部44は、識別子とともに格納先アドレス情報をデータ重複判定部43に出力する。さらに、データ管理部44は、格納先アドレス情報をステップS205において登録したダイジェスト値に対応付けてアドレス管理テーブルに登録する。
識別子と格納先アドレス情報とは、データ重複判定部43から、データ分割・合成部42を経由して、名前空間管理部41に出力される。すなわち、データ重複判定部43は、識別子と格納先アドレス情報とを、名前空間管理部41に対して出力する。
また、ステップS204において格納済みデータのダイジェスト値と合致すると判定した場合、データ重複判定43は、データ管理部44が管理するアドレス管理テーブルに登録されている合致したダイジェスト値に対応付けられている格納先アドレス情報を取得する(ステップS206)。
識別子と格納先アドレス情報とは、同様に、データ重複判定部43から、データ分割・合成部42を経由して、名前空間管理部41に出力される。すなわち、データ重複判定部43は、識別子と格納先アドレス情報とを、名前空間管理部41に対して出力する。
名前空間管理部41は、ステップS205またはS206において出力された識別子と格納先アドレス情報とを、ファイル名を含む名前空間上のパス名情報と対応付けて管理する(ステップS207)。すなわち、名前空間管理部41は、識別子および格納先アドレス情報を、ステップS202で保存したパス名情報と対応付けて記憶部に記憶させる。なお、名前空間管理部41は、これらの情報を、名前空間管理テーブルとしてテーブル化して管理しているものとする。
データ分割・合成部42が分割した全てのデータについて、データ重複判定部43での処理(具体的には、ステップS204からS207)が終了すると、名前空間管理部41は、ファイルデータの格納処理が終了したと判断する。そして、名前空間管理部41は、ファイルデータ送受信部40を介して、データ管理装置3に、ファイルデータの格納処理が終了したことを通知する。以上の処理により、重複排除型ストレージ装置4でのファイルデータの格納処理が終了する。
<重複排除型ストレージ装置4が格納するファイルデータの読み出し処理>
次に、重複排除型ストレージ装置4が格納するファイルデータの読み出し処理について図6を参照して説明する。図6は、重複排除型ストレージ装置4が格納するファイルデータの読み出し処理の一例を示す流れ図である。
ある端末装置がファイルデータを指定した情報(例えば、パス名情報など)を含む読み出し要求を重複排除型ストレージ装置4に送信すると、ファイルデータ送受信部40は、読み出し要求を受信し、名前空間管理部41に出力する(ステップS301)。
次いで、名前空間管理部41は、読み出し要求で指定される読み出し対象のファイルデータに対応するエントリを、例えば、パス名情報に基づいて、名前空間管理テーブルから特定する。そして、名前空間管理部41は、特定したエントリに対応付けて管理している、分割後のデータのデータ記憶部45における格納先アドレス情報をすべて抽出する。そして、名前空間管理部41は、抽出した格納先アドレス情報とともに読み出し要求をデータ管理部44に出力する(ステップS302)。
次いで、データ管理部44は、格納先アドレス情報に基づいてデータ記憶部45から対応するデータを読み出し、読み出したデータを名前空間管理部41に出力する(ステップS303)。
名前空間管理テーブルに登録されているファイルデータ読み出し対象のエントリに対応付けられたすべてのデータの読み出し処理が終了すると、名前空間管理部41は、ファイルデータがブロック単位またはオブジェクト単位で分割されているか否かを判定する(ステップS304)。そして、分割されていると判定した場合には、名前空間管理部41は、データ管理部44が出力したすべてのデータ(分割後のデータ)をデータ分割・合成部42に出力する。
次いで、データ分割・合成部42は、分割後のデータを元の1つのファイルデータに合成する(ステップS305)。その後、データ分割・合成部42は、合成したファイルデータを名前空間管理部41に出力する。
次いで、名前空間管理部41は、ファイルデータ送受信部40を介して、ファイルデータ読み出し要求の送信元の端末装置に、合成した(またはブロック単位もしくはオブジェクト単位で分割されていなかった)ファイルデータを送信する(ステップS306)。以上の処理によって、ファイルデータの読み出し処理が終了する。
以上、図面を参照してこの発明の一実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
上述の重複排除型ストレージ装置4は、内部にコンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスクや光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータがプログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上のように、本実施形態では、複数のデータ単位でデータの重複を判定する手段を備えた重複排除型ストレージ装置と、ファイルストレージ装置群に格納されているファイルデータ群の最適なデータ単位での重複排除方法を判定する手段とを備えている。そして、これらの手段が実行する処理により、ファイルストレージ装置群を利用するユーザやアプリケーションが生成する重複データの傾向およびファイルデータの種別にあわせた、ストレージシステムへのデータの重複排除格納を実現することが可能となる。すなわち、重複排除型ストレージ装置へのデータの格納容量を削減すると共に、予め固定的に定められたデータ単位を用いるのではなく、データ単位を動的に決定することで、重複発生傾向に合わない重複排除を実行することにより発生してしまう、余分な重複排除用の管理データを増やすことがないため、重複排除管理コストに見合ったデータ格納容量の削減を行うことが可能となる。
以上に説明したように、本発明はデータの利用環境に基づく重複発生傾向と重複判定単位とが一致しないことによるデータの重複排除型ストレージ装置の非効率性を解決するためのストレージシステムであって、例えば、あるファイルストレージ装置群に格納されたファイルデータ群の中から、長期保存対象となるファイルデータをアーカイブする目的で利用されるストレージシステムを前提とする。
本発明によるストレージシステムは、ファイルストレージ装置群に格納されたファイルデータのメタデータの中から、最終アクセス時刻または最終更新時刻に関わるデータを取得し、所定期間以上、アクセスや更新がないファイル群を抽出し、ファイルストレージ装置に格納されたデータを、重複排除型ストレージ装置へ配置するか否かを決定するデータ配置先決定手段と、データ配置先決定手段の決定に基づいてデータの再配置処理を実行するデータ再配置処理手段と、ファイルストレージ装置群に格納されているファイルデータを取得し、ファイル単位、ブロック単位、またはオブジェクト単位のそれぞれの単位で必要に応じてデータを分割し、分割したデータ間にデータの重複があるか否かを判定し、各単位でデータの重複がどの程度検出可能かを算出し、どのデータ単位にデータを分割し重複判定を行うのが最適かを決定するデータ重複判定単位決定手段と、データ重複判定単決定位手段が最適な重複判定単位を変更した場合、最適な重複判定単位で、既に格納済みのデータを格納し直すデータ再格納手段とを備えていることを特徴とする。
また、重複排除型ストレージ装置は、ファイル単位、ブロック単位またはオブジェクト単位のそれぞれのデータ分割方法で格納対象となるファイルデータを分割し、それぞれのデータ分割単位で、既に格納済みのデータとのデータの重複があるか否かを判定する重複判定手段と、重複判定手段がデータの重複が存在すると判定した場合、重複したデータ自体を保存せずに、既に格納済みのデータへのポインタデータのみを格納するデータ格納管理手段とを備えていることを特徴とする。
なお、ブロック単位でのデータの分割とは、予め決められたデータサイズごとに、ファイルデータの先頭からデータを分割することを表している。
また、オブジェクト単位でのデータ分割とは、ファイルデータに含まれるテキストデータや画像データといった他のファイル内に重複しうる要素単位でデータを分割することを表している。
次に、本発明によるストレージシステムの最小構成について説明する。図7は、ストレージシステムの最小の構成例を示すブロック図である。図7に示すように、ストレージシステムは、最小の構成要素として、重複判定単位決定手段100と、重複排除手段200とを含む。
図7に示す最小構成のストレージシステムでは、重複判定単位決定手段100は、ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率に基づいて、データの重複判定を行う単位である重複判定単位を決定する。次いで、重複排除手段200は、重複単位決定手段100が決定した重複判定単位に基づいて、ストレージ装置が格納するデータの重複排除処理を行う。
従って、最小構成のストレージシステムによれば、重複発生傾向に合わせて重複排除を実行するため、余分な重複排除用の管理データを増やすことがなく、重複排除管理コストに見合ったデータ格納容量の削減を行うことが可能となる。
なお、本実施形態では、以下の(1)〜(5)に示すようなストレージシステムの特徴的構成が示されている。
(1)ストレージシステムは、ストレージ装置(例えば、ファイルストレージ装置1)が格納するデータを複数の単位(例えば、ファイル単位やブロック単位、オブジェクト単位など)で分割して単位ごとに算出した重複発生率に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定手段(例えば、データ重複判定単位決定部33によって実現される)と、重複単位決定手段が決定した重複判定単位に基づいて、ストレージ装置が格納するデータの重複排除処理を行う重複排除手段(例えば、データ再配置処理部34、データ分割・合成部42、データ重複判定部43およびデータ管理部44によって実現される)とを含むことを特徴とする。
(2)ストレージシステムにおいて、重複判定単位決定手段は、算出した重複発生率間の差分に基づいて重複判定単位を決定するように構成されていてもよい。
(3)ストレージシステムは、1台以上のファイルストレージ装置(例えば、ファイルストレージ装置1)と、重複排除型ストレージ装置(例えば、重複排除型ストレージ装置2)とを備え、ファイルストレージ装置のデータの重複発生傾向を複数のデータ分割単位で判定する際、データ分割単位ごとの重複発生率を算出して、比較することにより、データ分割単位を決定するデータ分割単位決定手段(例えば、データ重複判定単位決定部33によって実現される)と、データ分割単位決定手段が決定したデータ分割単位で、ファイルストレージ装置から重複排除型ストレージ装置にデータを再配置するデータ再配置手段(例えば、データ再配置処理部34、データ分割・合成部42、データ重複判定部43およびデータ管理部44によって実現される)とを含むことを特徴とする。
(4)ストレージシステムにおいて、重複排除型ストレージ装置は、複数のデータ分割単位でデータを分割し、重複排除判定を行う重複排除判定手段(例えば、データ分割・合成部42およびデータ重複判定部43によって実現される)を備えるように構成されていてもよい。
(5)ストレージシステムにおいて、データ分割単位決定手段は、データの分割を行わないファイル単位、予め決められたデータサイズごとにファイルデータの先頭からデータを分割するブロック単位、又はファイルデータに含まれる他のファイル内に重複しうる要素単位でデータを分割するオブジェクト単位のうちのいずれかをデータ分割単位と決定するように構成されていてもよい。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年10月19日に出願された日本特許出願2010−234807を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、データを集中的に格納するストレージ装置において、物理的な記録容量を削減する用途に適用可能である。
1 ファイルストレージ装置
2 ネットワーク
3 データ管理装置
4 重複排除型ストレージ装置
30 ファイルデータ送受信部
31 メタデータ管理部
32 データ配置先決定部
33 データ重複判定単位決定部
34 データ再配置処理部
40 ファイルデータ送受信部
41 名前空間管理部
42 データ分割・合成部
43 データ重複判定部
44 データ管理部
45 データ記憶部
100 重複判定単位決定手段
200 重複排除手段

Claims (7)

  1. ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定手段と、
    前記重複単位決定手段が決定した重複判定単位に基づいて、前記ストレージ装置が格納するデータの重複排除処理を行う重複排除手段とを含み、
    前記重複判定単位決定手段は、算出した前記重複発生率間の差分に基づいて前記重複判定単位を決定する
    ことを特徴とするストレージシステム。
  2. 1台以上のファイルストレージ装置と、
    重複排除型ストレージ装置とを備え、
    前記ファイルストレージ装置のデータの重複発生傾向を複数のデータ分割単位で判定する際、データ分割単位ごとの重複発生率を算出して、比較することにより、データ分割単位を決定するデータ分割単位決定手段と、
    前記データ分割単位決定手段が決定したデータ分割単位で、前記ファイルストレージ装置から前記重複排除型ストレージ装置にデータを再配置するデータ再配置手段とを備え
    前記データ分割単位決定手段は、算出した前記重複発生率間の差分に基づいて前記データ分割単位を決定する
    ことを特徴とするストレージシステム。
  3. 重複排除型ストレージ装置は、複数のデータ分割単位でデータを分割し、重複排除判定を行う重複排除判定手段を備えた
    請求項記載のストレージシステム。
  4. データ分割単位決定手段は、データの分割を行わないファイル単位、予め決められたデータサイズごとにファイルデータの先頭からデータを分割するブロック単位、又はファイルデータに含まれる他のファイル内に重複しうる要素単位でデータを分割するオブジェクト単位のうちのいずれかをデータ分割単位と決定する
    請求項又は請求項記載のストレージシステム。
  5. ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定手段と、
    前記重複単位決定手段が決定した重複判定単位に基づいて、前記ストレージ装置が格納するデータの重複排除処理を行う重複排除手段とを備え
    前記重複判定単位決定手段は、算出した前記重複発生率間の差分に基づいて前記重複判定単位を決定する
    ことを特徴とするデータ管理装置。
  6. ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率の差分に基づいて、データの重複判定を行う単位である重複判定単位を決定し、
    決定した重複判定単位に基づいて、前記ストレージ装置が格納するデータの重複排除処理を行う
    ことを特徴とするデータ管理方法。
  7. コンピュータに、
    ストレージ装置が格納するデータを複数の単位で分割して単位ごとに算出した重複発生率の差分に基づいて、データの重複判定を行う単位である重複判定単位を決定する重複判定単位決定処理と、
    決定した重複判定単位に基づいて、前記ストレージ装置が格納するデータの重複排除を行う重複排除処理とを
    実行させるためのデータ管理プログラム。
JP2012539576A 2010-10-19 2011-10-03 ストレージシステム、データ管理装置、方法及びプログラム Active JP5494817B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012539576A JP5494817B2 (ja) 2010-10-19 2011-10-03 ストレージシステム、データ管理装置、方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010234807 2010-10-19
JP2010234807 2010-10-19
JP2012539576A JP5494817B2 (ja) 2010-10-19 2011-10-03 ストレージシステム、データ管理装置、方法及びプログラム
PCT/JP2011/005574 WO2012053152A1 (ja) 2010-10-19 2011-10-03 ストレージシステム、データ管理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2012053152A1 JPWO2012053152A1 (ja) 2014-02-24
JP5494817B2 true JP5494817B2 (ja) 2014-05-21

Family

ID=45974883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012539576A Active JP5494817B2 (ja) 2010-10-19 2011-10-03 ストレージシステム、データ管理装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20130218851A1 (ja)
JP (1) JP5494817B2 (ja)
WO (1) WO2012053152A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101505263B1 (ko) * 2013-03-07 2015-03-24 포항공과대학교 산학협력단 데이터 중복 제거 방법 및 장치
US9619167B2 (en) 2013-11-27 2017-04-11 Intel Corporation System and method for computing message digests
JP6962018B2 (ja) 2017-06-15 2021-11-05 富士通株式会社 ストレージ制御装置、制御プログラム及び制御方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204636A1 (en) * 2008-02-11 2009-08-13 Microsoft Corporation Multimodal object de-duplication
US7539710B1 (en) * 2008-04-11 2009-05-26 International Business Machines Corporation Method of and system for deduplicating backed up data in a client-server environment
US8626723B2 (en) * 2008-10-14 2014-01-07 Vmware, Inc. Storage-network de-duplication
EP2405358A4 (en) * 2009-03-05 2015-01-07 Hitachi Solutions Ltd INTEGRAL DOUBLON EXCLUSION SYSTEM, DATA STORAGE DEVICE, AND SERVER DEVICE
US8271718B2 (en) * 2009-03-11 2012-09-18 Hitachi, Ltd. Storage system and control method for the same, and program
US8140491B2 (en) * 2009-03-26 2012-03-20 International Business Machines Corporation Storage management through adaptive deduplication
JP5463746B2 (ja) * 2009-06-15 2014-04-09 日本電気株式会社 アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム
KR100985169B1 (ko) * 2009-11-23 2010-10-05 (주)피스페이스 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법

Also Published As

Publication number Publication date
WO2012053152A1 (ja) 2012-04-26
JPWO2012053152A1 (ja) 2014-02-24
US20130218851A1 (en) 2013-08-22

Similar Documents

Publication Publication Date Title
US9792306B1 (en) Data transfer between dissimilar deduplication systems
US10303363B2 (en) System and method for data storage using log-structured merge trees
CN103098035B (zh) 存储系统
US10445292B1 (en) Sharing services between deduplication systems
US8627026B2 (en) Storage apparatus and additional data writing method
US8321384B2 (en) Storage device, and program and method for controlling storage device
KR20170054299A (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US11221992B2 (en) Storing data files in a file system
JP5464269B2 (ja) ファイルストレージ装置、データ格納方法およびデータ格納プログラム
GB2520361A (en) Method and system for a safe archiving of data
US20180107404A1 (en) Garbage collection system and process
US9594643B2 (en) Handling restores in an incremental backup storage system
JP5494817B2 (ja) ストレージシステム、データ管理装置、方法及びプログラム
JP5517224B2 (ja) ストレージ装置
JP5444728B2 (ja) ストレージシステム、ストレージシステムにおけるデータ書込方法及びデータ書込プログラム
US10311026B2 (en) Compressed data layout for optimizing data transactions
TWI420333B (zh) 分散式的重複數據刪除系統及其處理方法
US20170124107A1 (en) Data deduplication storage system and process
US9575679B2 (en) Storage system in which connected data is divided
JP6110354B2 (ja) 異種記憶サーバおよびそのファイル記憶方法
US11347424B1 (en) Offset segmentation for improved inline data deduplication
US11409604B1 (en) Storage optimization of pre-allocated units of storage
JP2010191903A (ja) 分散ファイルシステムのストライピング種別選択方法及びその分散ファイルシステム
WO2015040711A1 (ja) ストレージ装置、ストレージ装置におけるデータの制御方法、及びストレージシステム
JP6330824B2 (ja) ストレージシステム、アクセス装置、クライアント装置、方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5494817

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150