JP2024001607A

JP2024001607A - 情報処理装置および情報処理方法

Info

Publication number: JP2024001607A
Application number: JP2022100367A
Authority: JP
Inventors: 一宏浦田; Kazuhiro Urata
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2024-01-10
Also published as: US20230418798A1

Abstract

【課題】管理テーブルからの不要なハッシュ値の削除処理にかかる時間を短縮する。【解決手段】処理部１２は、複数の部分記憶領域の中から処理対象の第１の部分記憶領域を選択し、複数のグループの中から第１の部分記憶領域が属する第１のグループを特定し、管理テーブル１３に含まれるグループ領域のうち、第１のグループに対応する第１のグループ領域に含まれるレコードの中から、第１の部分記憶領域に含まれる単位記憶領域に対応する第１のレコードを検索し、検索された第１のレコードに対応する第１の部分記憶領域に格納されたデータに対する論理記憶領域からの参照数が０である場合、第１のレコードに含まれる第１のハッシュ値を削除する。【選択図】図１

Description

本発明は、情報処理装置および情報処理方法に関する。

ストレージシステムの技術の１つとして、重複するデータを記憶装置に格納しないようにして、記憶装置の記憶領域を効率的に使用する「重複排除」と呼ばれる技術が知られている。重複排除技術では、データの重複を判定する際に、元のデータ同士が比較されるのではなく、データを基に算出されたハッシュ値が比較されることが多い。この場合、各単位記憶領域に格納されたデータに基づくハッシュ値が、例えば管理テーブルによって管理される。

また、重複排除技術では、記憶装置へのデータ格納単位となる単位記憶領域ごとに、重複除去前のデータからの参照数を示すリファレンスカウンタがカウントされる。リファレンスカウンタは、データの削除要求に応じて減算され得る。リファレンスカウンタが「０」になった場合、対応する単位記憶領域がどこからも参照されていない状態となるので、管理テーブル上のハッシュ値のうち、この単位記憶領域のデータに対応するハッシュ値は不要になる。

ストレージの重複排除技術に関しては、次のような提案がある。例えば、格納済みチャンクデータの重複排除効果値を含むチャンク統計情報を用いて、格納対象チャンクデータと一致する格納済みチャンクデータを検索するストレージシステムが提案されている。また、関連性の高いチャンクによりコンテナを構成することで、リストア処理においてコンテンツを復元する際、単一のコンテナを読み出すことによりコンテンツ内の複数のチャンクを取得できるようにしたストレージシステムも提案されている。

国際公開第２０１６／００６０５０号特開２０２０－４７１０７号公報

ところで、データが重複を排除して格納される記憶装置の記憶領域は、複数の部分記憶領域に分割されて管理される場合がある。この場合、各部分記憶領域には、データの格納単位となる単位記憶領域が複数含まれる。また、このような構成では、リファレンスカウンタが「０」になった単位記憶領域に対応するハッシュ値を管理テーブルから削除する処理が、部分記憶領域ごとに実行される場合がある。

この方法では、ある部分記憶領域についてのハッシュ値削除処理を実行する場合には、管理テーブルから、その部分記憶領域に属する単位記憶領域に対応するハッシュ値を検索する必要がある。この検索では、管理テーブルの全体が検索対象となるため、検索にかかる時間が長くなり、結果的にハッシュ値削除処理の全体にかかる時間も長くなるという問題がある。

１つの側面では、本発明は、管理テーブルからの不要なハッシュ値の削除処理にかかる時間を短縮可能な情報処理装置および情報処理方法を提供することを目的とする。

１つの案では、記憶部と処理部とを有する情報処理装置が提供される。ここで、論理記憶領域に対して書き込みが要求されたデータが重複を排除して格納される物理記憶領域が、複数の部分記憶領域に分割され、複数の部分記憶領域のそれぞれが、データの格納単位となる単位記憶領域を複数含み、複数の部分記憶領域が複数のグループにグループ化されている。このような状態において、記憶部は、単位記憶領域のそれぞれに対応するレコードが登録された管理テーブルを記憶する。この管理テーブルは、複数のグループのそれぞれに対応するグループ領域に分割され、グループ領域のそれぞれには、複数のグループのうち対応するグループに属する部分記憶領域に含まれる単位記憶領域のレコードが登録され、レコードのそれぞれは、対応する単位記憶領域に格納されたデータに基づく第１のハッシュ値と、対応する単位記憶領域の位置情報とを含む。処理部は、複数の部分記憶領域の中から処理対象の第１の部分記憶領域を選択し、複数のグループの中から第１の部分記憶領域が属する第１のグループを特定し、管理テーブルに含まれるグループ領域のうち、第１のグループに対応する第１のグループ領域に含まれるレコードの中から、第１の部分記憶領域に含まれる単位記憶領域に対応する第１のレコードを検索し、検索された第１のレコードに対応する第１の部分記憶領域に格納されたデータに対する論理記憶領域からの参照数が０である場合、第１のレコードに含まれる第１のハッシュ値を削除する。

また、１つの案では、上記の情報処理装置と同様の処理をコンピュータが実行する情報処理方法が提供される。

１つの側面では、管理テーブルからの不要なハッシュ値の削除処理にかかる時間を短縮できる。

第１の実施の形態に係るストレージシステムの構成例および処理例を示す図である。第２の実施の形態に係るストレージシステムの構成例を示す図である。ＣＭが備える処理機能の構成例を示す図である。ハッシュテーブルの比較例を示す図である。リファレンスカウンタテーブルのデータ構成例を示す図である。比較例におけるデータ書き込み処理手順を示すフローチャートの例である。比較例におけるハッシュ値削除処理手順を示すフローチャートの例である。第２の実施の形態におけるハッシュテーブルのデータ構成例を示す図である。重複頻度の算出例を示す図である。データ書き込み処理の手順を示すフローチャートの例（その１）である。データ書き込み処理の手順を示すフローチャートの例（その２）である。データ削除処理の手順を示すフローチャートの例である。ハッシュ値削除処理の手順を示すフローチャートの例である。

以下、本発明の実施の形態について図面を参照して説明する。
〔第１の実施の形態〕
図１は、第１の実施の形態に係るストレージシステムの構成例および処理例を示す図である。図１に示すストレージシステムは、情報処理装置１と記憶装置２を有する。情報処理装置１は、記憶装置２に対するアクセスを制御する装置である。情報処理装置１は、例えばサーバコンピュータやストレージ制御専用の制御装置である。記憶装置２は、例えば不揮発性記憶装置である。記憶装置２は、不揮発性記憶装置を複数台備えていてもよい。

このストレージシステムにおいて、情報処理装置１は、論理記憶領域に対して書き込みが要求されたデータを、重複を排除して記憶装置２の物理記憶領域に格納する。また、記憶装置２の物理記憶領域は、複数の部分記憶領域に分割され、複数の部分記憶領域のそれぞれが、データの格納単位となる単位記憶領域を複数含む。さらに、複数の部分記憶領域は、複数のグループにグループ化されている。

図１の例では、各部分記憶領域は部分記憶領域番号によって識別され、部分記憶領域に含まれる各単位記憶領域には、単位記憶領域を含む部分記憶領域ごとに単位記憶領域番号が付与される。したがって、単位記憶領域は、部分記憶領域番号と単位記憶領域番号との組み合わせによって識別される。また、部分記憶領域を分類するグループのそれぞれは、グループ番号によって識別される。

情報処理装置１は、記憶部１１と処理部１２を有する。記憶部１１は、情報処理装置１が備える図示しない記憶装置に確保される記憶領域である。処理部１２は、例えば、情報処理装置１が備える図示しないプロセッサである。

記憶部１１には、管理テーブル１３が記憶される。管理テーブル１３には、単位記憶領域のそれぞれに対応するレコードが登録される。レコードのそれぞれには、対応する単位記憶領域に格納されたデータに基づくハッシュ値と、この単位記憶領域の位置情報とを含む。図１の例では、単位記憶領域の位置情報として、部分記憶領域番号と単位記憶領域番号との組み合わせが登録されている。

また、管理テーブル１３は、上記のグループにそれぞれ対応するグループ領域に分割されている。グループ領域のそれぞれには、対応するグループに属する部分記憶領域に含まれる単位記憶領域のレコードがまとめて登録される。図１の例では、部分記憶領域番号「１０１」「１１１」の部分記憶領域がグループ番号「０」のグループに分類されているとする。この場合、部分記憶領域番号「１０１」「１１１」の部分記憶領域に含まれる単位記憶領域のレコードは、管理テーブル１３の領域のうち、グループ番号「０」に対応するグループ領域に登録される。

ここで、管理テーブル１３内のハッシュ値は、論理記憶領域に対して書き込みが要求されたデータと同一のデータが、単位記憶領域のいずれかに格納済みであるか（すなわち、データが重複しているか）を判定するために使用される。また、ある単位記憶領域に格納されたデータが論理記憶領域から参照されなくなった場合には、そのデータに対応するハッシュ値は不要になる。このため、次のような手順で、不要になったハッシュ値を管理テーブル１３から削除する処理が実行される。このハッシュ値削除処理は、部分記憶領域を単位として実行される。

処理部１２は、上記の複数の部分記憶領域の中から、処理対象の部分記憶領域を選択する（ステップＳ１）。次に、処理部１２は、上記の複数のグループの中から、ステップＳ１で選択された部分記憶領域が属するグループを特定する（ステップＳ２）。

次に、処理部１２は、管理テーブル１３に含まれる上記のグループ領域のうち、ステップＳ２で特定されたグループに対応するグループ領域に含まれるレコードの中から、ステップＳ１で選択された部分記憶領域に含まれる単位記憶領域に対応するレコードを検索する（ステップＳ３）。処理部１２は、検索されたレコードに対応する部分記憶領域に格納されたデータに対する、論理記憶領域からの参照数を取得する。そして、処理部１２は、取得した参照数が「０」である場合、検索されたレコードに含まれるハッシュ値を削除する（ステップＳ４）。

ここで、ステップＳ３では、管理テーブル１３におけるレコードの検索範囲が、選択された部分記憶領域に対応するグループのグループ領域に限定される。図１では例えば、処理対象として部分記憶領域番号「１０１」の部分記憶領域が選択されたとする。この場合、ステップＳ３でのレコードの検索範囲は、選択された部分記憶領域が属するグループ番号「０」のグループに対応するグループ領域に限定される。

仮に、管理テーブル１３内のレコードがグループごとに分類されていない場合、レコードの検索範囲は管理テーブル１３の全体となる。この場合と比較して、処理部１２による上記処理では、レコードの検索範囲が対応するグループのグループ領域に限定されることから、検索処理にかかる時間を短縮できる。その結果、管理テーブル１３からの不要なハッシュ値の削除処理にかかる時間を短縮できる。

〔第２の実施の形態〕
図２は、第２の実施の形態に係るストレージシステムの構成例を示す図である。図２に示すストレージシステムは、ストレージ装置１００とホストサーバ２００を含む。ストレージ装置１００は、ＣＭ（Controller Module）１１０とドライブ部１２０を備える。

ＣＭ１１０は、図１に示した情報処理装置１の一例である。ＣＭ１１０は、例えばファイバチャネル（ＦＣ：Fibre Channel）やｉＳＣＳＩ（Internet Small Computer System Interface）などを用いたＳＡＮ（Storage Area Network）を介して、ホストサーバ２００と接続されている。ＣＭ１１０は、ホストサーバ２００からの要求に応じて、ドライブ部１２０に搭載された記憶装置へのアクセスを制御するストレージ制御装置である。

ドライブ部１２０は、図１に示した記憶装置２の一例である。ドライブ部１２０には、ホストサーバ２００からのアクセス対象となる記憶装置が複数台搭載されている。本実施の形態では例として、ドライブ部１２０は、記憶装置としてＨＤＤ（Hard Disk Drive）１２１，１２２，１２３，・・・が搭載されたディスクアレイ装置である。なお、記憶装置としては、ＳＳＤ（Solid State Drive）などの他の種類の不揮発性記憶装置が用いられてもよい。

ホストサーバ２００は、例えば業務処理などの各種の処理を実行するサーバ装置である。ホストサーバ２００は、このような処理の実行に伴い、ストレージ装置１００によって提供される記憶領域に対してアクセスする。具体的には、ＣＭ１１０により、ドライブ部１２０内のＨＤＤを用いた論理ボリューム（論理記憶領域）が生成され、ホストサーバ２００は、その論理ボリュームに対するアクセスをＣＭ１１０に要求することでドライブ部１２０内のＨＤＤにアクセスする。後述するように、このような論理ボリュームは、物理領域が動的に割り当てられる仮想ボリュームとして生成される。なお、ＣＭ１１０にはホストサーバ２００が複数台接続されていてもよい。

ここで、図２を用いてＣＭ１１０のハードウェア構成例を説明する。ＣＭ１１０は、プロセッサ１１１、ＲＡＭ（Random Access Memory）１１２、ＳＳＤ１１３、ホストインタフェース（Ｉ／Ｆ）１１４およびドライブインタフェース（Ｉ／Ｆ）１１５を備える。

プロセッサ１１１は、ＣＭ１１０全体を統括的に制御する。プロセッサ１１１は、マルチプロセッサであってもよい。プロセッサ１１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＰＬＤ（Programmable Logic Device）である。また、プロセッサ１１１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。

ＲＡＭ１１２は、ＣＭ１１０の主記憶装置として使用される。ＲＡＭ１１２には、プロセッサ１１１に実行させるＯＳ（Operating System）プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。ＳＳＤ１１３は、ＣＭ１１０の補助記憶装置として使用される。ＳＳＤ１１３には、ＯＳプログラム、アプリケーションプログラム、および各種データが格納される。

ホストインタフェース１１４は、ホストサーバ２００と通信するための通信インタフェースである。ドライブインタフェース１１５は、ドライブ部１２０と通信するための通信インタフェースである。ドライブインタフェース１１５は、例えば、ＳＡＳ（Serial Attached SCSI）インタフェースである。

以上のハードウェア構成によってＣＭ１１０の処理機能が実現される。
図３は、ＣＭが備える処理機能の構成例を示す図である。図３に示すように、ＣＭ１１０は、記憶部１３０、Ｉ／Ｏ（Input／Output）受け付け部１４１、重複排除処理部１４２およびディスクアクセス処理部１４３を備える。

記憶部１３０は、ＲＡＭ１１２、ＳＳＤ１１３など、ＣＭ１１０が備える記憶装置に確保される記憶領域である。記憶部１３０には、ボリューム管理データ１３１、ハッシュテーブル１３２およびリファレンスカウンタテーブル１３３が記憶される。

ＣＭ１１０では、ホストサーバ２００からのアクセス対象となる仮想ボリュームが生成される。仮想ボリュームにおいては、ホストサーバ２００からの要求に応じてデータが書き込まれた領域に対してのみ、ストレージプールから物理領域が割り当てられる。ストレージプールは、ドライブ部１２０に搭載された複数のＨＤＤを用いて実現され、１以上の仮想ボリュームによって共用される記憶領域である。

また、仮想ボリュームへのデータの書き込みの際には、データが重複して格納されないように重複排除処理が実行される。具体的には、ストレージプールは、一定サイズのスロットに分割されて管理され、仮想ボリュームに対してはスロット単位で物理領域が割り当てられる。また、仮想ボリュームに対する書き込みデータは、スロットと同じサイズの論理ブロックに分割される。そして、分割された論理ブロックと同じデータが格納されたスロットが存在しない場合にのみ、その論理ブロックに新たなスロットが割り当てられ、割り当てられたスロットに論理ブロックのデータが格納される。

ボリューム管理データ１３１は、仮想ボリュームに関する管理データである。例えば、ボリューム管理データ１３１は、仮想ボリュームの構成情報や、仮想ボリューム内の各論理ブロックと割り当てられたスロットとの対応関係を示す情報などを含む。

ハッシュテーブル１３２およびリファレンスカウンタテーブル１３３は、重複排除処理に関する管理データである。ハッシュテーブル１３２には、スロットのデータに基づいて算出されるハッシュ値と、そのスロットの位置情報とが対応付けて登録される。リファレンスカウンタテーブル１３３には、スロットごとにリファレンスカウンタのカウント値が登録されている。このカウント値は、スロットのデータがいくつの論理ブロックから参照されているか（すなわち、スロットについてのデータの重複数）を示す。

なお、ハッシュテーブル１３２に登録されたハッシュ値は重複判定のために参照されることから、ハッシュテーブル１３２は、高速にアクセス可能なメモリ（例えばＲＡＭ１１２）に記憶されることが望ましい。この目的のため、ハッシュテーブル１３２は、仮想ボリュームに対するＩ／Ｏ処理時にキャッシュ領域として使用されるメモリ上に記憶される場合があり、この場合にはハッシュテーブル１３２は「ハッシュキャッシュ」と呼ばれることがある。

Ｉ／Ｏ受け付け部１４１、重複排除処理部１４２およびディスクアクセス処理部１４３の処理は、例えば、プロセッサ１１１が所定のアプリケーションプログラムを実行することで実現される。

Ｉ／Ｏ受け付け部１４１は、ホストサーバ２００から、仮想ボリュームに対するＩ／Ｏ要求（書き込み要求、読み出し要求など）を受信し、要求に応じた処理が完了すると応答を返す。

重複排除処理部１４２は、書き込みが要求された書き込みデータを論理ブロックに分割し、各論理ブロックにストレージプールからスロットを割り当てる。このとき、重複排除処理部１４２は、同じデータが重複してストレージプールに格納されないように、同じデータを含む論理ブロックには同一のスロットを割り当てる。

ディスクアクセス処理部１４３は、スロットに対するデータの読み書きを実行する。また、ストレージプールがＲＡＩＤ（Redundant Array of Inexpensive Disks）ボリューム（ＲＡＩＤによって制御される論理記憶領域）として実現される場合、ディスクアクセス処理部１４３は、スロットに対するデータの書き込みをＲＡＩＤによって制御する。

次に、図４～図７を用いて、重複排除処理に関する比較例について説明し、その後に第２の実施の形態における重複排除処理について説明する。
図４は、ハッシュテーブルの比較例を示す図である。図４に示すハッシュテーブル１３２ａは、図３に示したハッシュテーブル１３２の比較例である。

本比較例では、仮想ボリュームに対する物理領域の割り当て元となるストレージプールは、一定サイズ（例えば１６ＧＢ）のコンテナに分割されて管理される。そして、各コンテナがさらに一定サイズのスロットに分割される。各コンテナにはコンテナを識別するためのコンテナ番号（コンテナＮｏ．）が付与され、各コンテナに含まれる各スロットにはスロットを識別するためのスロット番号（スロットＮｏ．）が付与される。スロット番号は、コンテナにおけるスロットの位置を示す。したがって、コンテナ番号とスロット番号との組み合わせによってストレージプール内の各スロットが特定される。

なお、コンテナはストレージプール上のアドレスが連続する領域に確保される。そして、同一コンテナにおいてスロット番号が隣接するスロットは、ストレージプール上で隣接する領域に設定される。

また、本比較例では、コンテナ番号およびスロット番号の組み合わせによって識別されるスロットは、一定数（例えば１２８個）ごとにグループ化されて管理される。本明細書では、このグループを「バンドル」と呼ぶ。バンドルは、バンドル番号（バンドルＮｏ．）によって識別される。また、スロットが属するバンドルは、そのスロットに対応するハッシュ値を用いた特定の計算によって一意に特定される。例えば、スロットが属するバンドルのバンドル番号は、スロットに対応するハッシュ値をバンドルの総数で除算した場合の剰余として算出される。

したがって、図４に示すハッシュテーブル１３２ａの各レコードには、スロットを識別するコンテナ番号およびスロット番号の組み合わせと、スロットに格納されたデータに基づいて算出されたハッシュ値と、スロットが属するバンドルのバンドル番号とが対応付けて登録される。

図５は、リファレンスカウンタテーブルのデータ構成例を示す図である。前述のように、リファレンスカウンタテーブル１３３には、スロットごとにリファレンスカウンタのカウント値（以下、単に「リファレンスカウンタ」と記載する）が登録される。スロットが上記のように管理される場合、リファレンスカウンタテーブル１３３には、図５に示すように、リファレンスカウンタと、コンテナ番号およびスロット番号の組み合わせとが対応付けて登録される。

図６は、比較例におけるデータ書き込み処理手順を示すフローチャートの例である。
［ステップＳ１１］Ｉ／Ｏ受け付け部１４１は、ホストサーバ２００から仮想ボリュームに対するデータの書き込み要求を書き込みデータとともに受信する。重複排除処理部１４２は、書き込みデータをスロットと同じサイズの論理ブロックに分割する。

［ステップＳ１２］ステップＳ２０までのブロック書き込みループが実行される。ブロック書き込みループは、分割された論理ブロックのそれぞれを処理対象として実行される。

［ステップＳ１３］重複排除処理部１４２は、論理ブロックのデータに基づいてハッシュ値を算出する。ハッシュ値は、例えば、ＳＨＡ（Secure Hash Algorithm）－１のハッシュ関数を用いて算出される。

［ステップＳ１４］重複排除処理部１４２は、算出されたハッシュ値に基づいてバンドルを選択する。例えば、重複排除処理部１４２は、ハッシュ値をバンドルの総数で除算した場合の剰余としてバンドル番号を算出し、そのバンドル番号が示すバンドルを選択する。

［ステップＳ１５］重複排除処理部１４２は、ハッシュテーブル１３２ａのレコードのうち、選択されたバンドルに対応するレコードに登録されたハッシュ値の中から、ステップＳ１３で算出されたハッシュ値と一致するものを検索する。

［ステップＳ１６］重複排除処理部１４２は、該当するハッシュ値が存在したかを判定する。該当するハッシュ値が存在した場合、処理がステップＳ１９に進められ、該当するハッシュ値が存在しなかった場合、処理がステップＳ１７に進められる。

［ステップＳ１７］重複排除処理部１４２は、ストレージプールから未使用のスロットを選択し、そのスロットに論理ブロックのデータを格納するようにディスクアクセス処理部１４３に依頼する。このとき、重複排除処理部１４２は、前回のデータ格納時に選択されたスロットに隣接する次の領域のスロットを、可能な限り選択するようにする。これにより、シーケンシャルアクセスが行われた場合に仮想ボリューム上の論理アドレスが近いデータがストレージプール上の隣接する領域に格納されるようになり、その結果、データ読み出しの際の読み出し速度が向上する。

ディスクアクセス処理部１４３は、重複排除処理部１４２からの依頼に応じてスロットに論理ブロックのデータを格納する。
［ステップＳ１８］重複排除処理部１４２は、ステップＳ１３で算出されたハッシュ値に対応するレコードをハッシュテーブル１３２ａに新たに登録する。このレコードには、ステップＳ１４で算出されたバンドル番号と、算出されたハッシュ値と、ステップＳ１７で選択されたスロットを示すコンテナ番号およびスロット番号とが対応付けて登録される。

また、重複排除処理部１４２は、リファレンスカウンタテーブル１３３にレコードを新たに登録する。このレコードには、ステップＳ１７で選択されたスロットを示すコンテナ番号およびスロット番号と、リファレンスカウンタの初期値「１」とが登録される。

さらに、重複排除処理部１４２は、仮想ボリュームにおける論理ブロックの位置（例えば論理ブロックの先頭の論理アドレス）と、選択されたスロットを示すコンテナ番号およびスロット番号と対応付けてボリューム管理データ１３１に登録する。

［ステップＳ１９］重複排除処理部１４２は、ステップＳ１５の検索でハッシュ値が一致したレコードからコンテナ番号およびスロット番号を抽出する。重複排除処理部１４２は、リファレンスカウンタテーブル１３３から、抽出されたコンテナ番号およびスロット番号に対応付けられたリファレンスカウンタを特定し、このリファレンスカウンタに「１」を加算する。

また、重複排除処理部１４２は、仮想ボリュームにおける論理ブロックの位置（例えば論理ブロックの先頭の論理アドレス）と、選択されたスロットを示すコンテナ番号およびスロット番号と対応付けてボリューム管理データ１３１に登録する。

［ステップＳ２０］分割された論理ブロックのすべてについてステップＳ１３～Ｓ１９の処理が実行されると、処理がステップＳ２１に進められる。
［ステップＳ２１］Ｉ／Ｏ受け付け部１４１は、書き込み要求に対する応答をホストサーバ２００に送信する。

上記処理では、書き込みが要求された論理ブロックのデータに基づくハッシュ値がハッシュテーブル１３２に登録されていない場合には、データが重複していないと判定される。この場合、論理ブロックのデータが新たなスロットに格納され、論理ブロックとスロットとが対応付けられる。また、ハッシュ値に対応するリファレンスカウンタとして初期値「１」が登録される。一方、論理ブロックのデータに基づくハッシュ値がハッシュテーブル１３２に登録されている場合には、データが重複していると判定される。この場合、論理ブロックのデータの物理領域への格納はスキップされ、論理ブロックとスロットとが対応付けられるとともに、ハッシュ値に対応するリファレンスカウンタがインクリメントされる。

また、ステップＳ１５では、重複の有無の判定のために、論理ブロックのデータに基づくハッシュ値と一致するハッシュ値がハッシュテーブル１３２ａから検索される。図４に示したように、ハッシュテーブル１３２ａでは、ハッシュ値および対応するスロットがバンドルによってグループ化されている。バンドルはハッシュ値から一意に決定されることから、ステップＳ１５では、検索対象がハッシュテーブル１３２ａの全体ではなく、論理ブロックのデータに基づくハッシュ値からステップＳ１４で選択されたバンドルの範囲内に限定される。これにより、重複判定のためのハッシュテーブル１３２ａの検索処理時間を短縮することが可能となり、その結果として、ホストサーバ２００からの書き込み要求に対する応答時間を短縮できるようになっている。

次に、Ｉ／Ｏ受け付け部１４１が、ホストサーバ２００から仮想ボリュームからのデータの削除要求を受信した場合について説明する。この場合、仮想ボリューム上の削除対象のデータに含まれる論理ブロックごとに、次のような処理が実行される。重複排除処理部１４２は、ボリューム管理データ１３１を参照して、論理ブロックに対応付けられたスロットを特定する。重複排除処理部１４２は、リファレンスカウンタテーブル１３３から、特定されたスロットに対応するリファレンスカウンタを特定し、特定されたリファレンスカウンタから「１」を減算する。そして、重複排除処理部１４２は、ボリューム管理データ１３１において、論理ブロックに対応付けられたスロットの識別情報（コンテナ番号およびスロット番号）を削除する。

なお、ホストサーバ２００から仮想ボリューム上のデータの更新が要求された場合には、更新前のデータに含まれる各論理ブロックについて、上記と同様の処理が実行される。
このように、データの削除や更新によってリファレンスカウンタは減算される。そして、リファレンスカウンタが「０」になったとき、対応するスロットのデータはどの論理ブロックからも参照されていない状態となる。この場合、スロットに対応するハッシュ値は不要になるので、このハッシュ値をハッシュテーブル１３２ａから削除する必要が生じる。

本比較例では、リファレンスカウンタの値を監視して、リファレンスカウンタが「０」のスロットに対応するハッシュ値を削除する処理が、仮想ボリュームのＩ／Ｏ処理に対するバックグラウンド処理として実行される。この処理は、次の図７に示すようにコンテナ単位で実行される。

図７は、比較例におけるハッシュ値削除処理手順を示すフローチャートの例である。
［ステップＳ３１］重複排除処理部１４２は、処理対象のコンテナを１つ選択する。この処理では、前回ハッシュ値の削除（ステップＳ３７）が実行されたコンテナの次のコンテナ（コンテナ番号が１つ大きいコンテナ）が処理対象として選択される。前回ハッシュ値の削除が実行されたコンテナがストレージプール上の末尾のコンテナ（コンテナ番号が最大のコンテナ）である場合には、先頭のコンテナが選択される。

［ステップＳ３２］重複排除処理部１４２は、処理対象のコンテナにおける未使用スロットの割合を示すコンテナ未使用率を算出する。具体的には、重複排除処理部１４２は、リファレンスカウンタテーブル１３３から該当コンテナのコンテナ番号に対応するリファレンスカウンタを取得し、リファレンスカウンタが「０」のスロット数をカウントする。重複排除処理部１４２は、該当コンテナに含まれるスロットの総数に対する、リファレンスカウンタが「０」のスロット数の割合を、コンテナ未使用率として算出する。

［ステップＳ３３］重複排除処理部１４２は、算出されたコンテナ未使用率が所定の閾値（例えば３０％）以上かを判定する。コンテナ未使用率が閾値以上の場合、処理がステップＳ３４に進められる。一方、コンテナ未使用率が閾値未満の場合、処理がステップＳ３１に進められ、次のコンテナが選択される。

［ステップＳ３４］重複排除処理部１４２は、ハッシュテーブル１３２ａに登録されたハッシュ値の中から、対応付けられたコンテナ番号が処理対象のコンテナのコンテナ番号と一致するハッシュ値を検索する。この検索は、ハッシュテーブル１３２ａの先頭側から順に行われる。

［ステップＳ３５］重複排除処理部１４２は、ステップＳ３４の検索により該当するハッシュ値が見つかったかを判定する。該当するハッシュ値が見つかった場合、処理がステップＳ３６に進められ、見つからなかった場合、ハッシュ値削除処理が終了する。

［ステップＳ３６］重複排除処理部１４２は、ステップＳ３５で見つかったハッシュ値に対応するコンテナ番号およびスロット番号をハッシュテーブル１３２ａから取得する。重複排除処理部１４２は、これらのコンテナ番号およびスロット番号に対応するリファレンスカウンタをリファレンスカウンタテーブル１３３から取得し、リファレンスカウンタが「０」であるかを判定する。リファレンスカウンタが「０」の場合、処理がステップＳ３７に進められ、リファレンスカウンタが「１」以上の場合、処理がステップＳ３８に進められる。

［ステップＳ３７］重複排除処理部１４２は、ステップＳ３５で見つかったハッシュ値を含むレコードをハッシュテーブル１３２ａから削除する。これにより、リファレンスカウンタが「０」のスロットに対応するハッシュ値が削除される。また、削除されたレコードに対応するスロットは未使用状態（解放状態）となり、他の論理ブロックに対して割り当てることが可能になる。

［ステップＳ３８］重複排除処理部１４２は、ステップＳ３４の検索処理によってハッシュテーブル１３２ａの末尾まで検索済みかを判定する。ハッシュテーブル１３２ａの末尾まで検索が済んでいない場合（すなわち、ステップＳ３５で見つかったハッシュ値を含むレコードがハッシュテーブル１３２ａの末尾のレコードでない場合）、処理がステップＳ３４に進められる。この場合、ステップＳ３４では、ステップＳ３５で見つかったハッシュ値を含むレコードの次のレコードから検索が続けられる。一方、ハッシュテーブル１３２ａの末尾まで検索済みの場合、ハッシュ値削除処理が終了する。

上記処理では、コンテナ単位でリファレンスカウンタが「０」のスロットの割合（コンテナ未使用率）が算出され、この割合が閾値以上のコンテナを対象としてハッシュ値が削除される。コンテナはストレージプール上の連続した領域に確保されるので、例えば大きなデータの書き込みが要求されることなどにより、１つのコンテナには同一または近いタイミングでデータが格納されやすい。このため、１つのコンテナ内のデータは同一または近いタイミングで削除されやすい。したがって、上記のようにコンテナ単位でハッシュ値を削除することで、比較的多くのスロットに対応するハッシュ値を一度に削除できる可能性が高くなり、削除処理の効率がよい。

ところで、図７に示したハッシュ値削除処理では、削除処理対象のコンテナに含まれるスロットに対応するハッシュ値をハッシュテーブル１３２ａから検索する際に（ステップＳ３４に相当）、ハッシュテーブル１３２ａの全体が検索対象となる。ハッシュテーブル１３２ａのレコード数（すなわち、ストレージプール内のスロット数）が多いほど、検索処理にかかる時間が長くなる。近年、仮想ボリュームの容量が大きくなる傾向があり、それに伴って物理領域の割り当て元であるストレージプールの容量、すなわちストレージプール内のスロット数が増大している。このため、ハッシュテーブル１３２ａからの該当コンテナに対応するハッシュ値の検索処理が長くなり、検索処理負荷が高くなっているという問題がある。このような検索処理負荷が高いほど、仮想ボリュームに対するＩ／Ｏ処理速度を低下させる可能性がある。

また、図６に示したデータ書き込み処理でも、ステップＳ１５においてハッシュテーブル１３２ａからハッシュ値が検索される。前述のように、この処理における検索範囲は１つのバンドルの範囲内に限定されるものの、ストレージプールの容量が増加するほど検索処理時間が長くなることに変わりはなく、この検索処理時間を短縮できることが望まれる。

そこで、第２の実施の形態では、次の図８に示すようなハッシュテーブル１３２が使用される。このハッシュテーブル１３２を用いることで、ハッシュ値の検索にかかる時間が短縮される。

図８は、第２の実施の形態におけるハッシュテーブルのデータ構成例を示す図である。本実施の形態では、コンテナが複数のコンテナグループに分類される。あるコンテナが属するコンテナグループは、そのコンテナのコンテナ番号から一意に決まる。例えば、コンテナのコンテナ番号をコンテナグループの総数で除算した場合の剰余として、対応するコンテナグループを識別するコンテナグループ番号（コンテナグループＮｏ．）が算出される。

図８に示すように、本実施の形態のハッシュテーブル１３２には、ハッシュ値、コンテナ番号およびスロット番号を含むレコードが、コンテナグループごとにまとめて登録される。また、図４に示したハッシュテーブル１３２ａと同様に、各レコードはハッシュ値から決まるバンドルに分類されているので、ハッシュテーブル１３２では、１つのコンテナグループに対応するテーブル領域において、各レコードがさらにバンドルごとにまとめて登録される。

さらに、ハッシュテーブル１３２には、コンテナグループごとに重複頻度が登録される。重複頻度は、コンテナグループに属する各スロットに対応するリファレンスカウンタの合計値である。

図９は、重複頻度の算出例を示す図である。なお、図９に示すテーブル１５１は、スロットが属するコンテナグループのコンテナグループ番号と、スロットに格納されたデータと、スロットに対応するリファレンスカウンタと、コンテナグループに対応する重複頻度とを、わかりやすいように対応付けて示したものである。また、書き込みデータに含まれるアルファベットのそれぞれは、書き込みデータに含まれる各論理ブロックのデータを示す。

まず、ホストサーバ２００から仮想ボリュームに対して書き込みデータ１５２ａの書き込みが要求されたとする。書き込みデータ１５２ａには、データＡが９個、データＢが１個含まれている。データＡ，Ｂがコンテナグループ番号「１」に属する同一のコンテナ内のスロットに格納されたとすると、データＡ，Ｂが格納されたスロットに対応するリファレンスカウンタはそれぞれ「９」、「１」となる。この場合、コンテナグループ番号「１」に対応する重複頻度は「１０」となる。

次に、ホストサーバ２００から仮想ボリュームに対して書き込みデータ１５２ｂの書き込みが要求されたとする。書き込みデータ１５２ｂには、データＡが９個、データＣが１個含まれている。この場合、データＡが格納されているスロットに対応するリファレンスカウンタが「１８」に更新され、コンテナグループ番号「１」に対応する重複頻度は「１９」に更新される。また、データＣはコンテナグループ番号「２」に属するコンテナ内のスロットに格納されたとする。この場合、データＣが格納されたスロットに対応するリファレンスカウンタが「１」となり、コンテナグループ番号「２」に対応する重複頻度は「１」となる。

次に、ホストサーバ２００から仮想ボリュームに対して書き込みデータ１５２ｃの書き込みが要求されたとする。書き込みデータ１５２ｃには、データＡが２個、データＢ，Ｄ～Ｊがそれぞれ１個含まれている。この場合、データＡが格納されているスロットに対応するリファレンスカウンタが「２０」に更新され、データＢが格納されているスロットに対応するリファレンスカウンタが「２」に更新され、コンテナグループ番号「１」に対応する重複頻度が「２２」に更新される。また、データＤ～Ｊはコンテナグループ番号「３」に属するコンテナ内のスロットに格納されたとする。この場合、データＤ～Ｊがそれぞれ格納されたスロットに対応するリファレンスカウンタが「１」となり、コンテナグループ番号「３」に対応する重複頻度は「７」となる。

このように算出される重複頻度は、次のような性質を備える。重複頻度が高いほど、過去に仮想ボリュームに対するデータの書き込みが要求されたときに、そのデータに含まれる論理ブロックのデータが、対応するコンテナグループに属するスロットのデータと重複した頻度が高いことを示す。このため、その後に仮想ボリュームに対するデータの書き込みが要求された場合に、重複頻度が高いコンテナグループほど、コンテナグループに属するスロットのデータが論理ブロックのデータと重複する可能性が高いと推定される。このことから、次の図１０、図１１に示すデータ書き込み処理において、重複頻度が高い順にハッシュ値の検索範囲を順次選択していくことで、早期に検索ヒットが発生することを期待できる。

図１０、図１１は、データ書き込み処理の手順を示すフローチャートの例である。
［ステップＳ４１］Ｉ／Ｏ受け付け部１４１は、ホストサーバ２００から仮想ボリュームに対するデータの書き込み要求を書き込みデータとともに受信する。重複排除処理部１４２は、書き込みデータをスロットと同じサイズの論理ブロックに分割する。

［ステップＳ４２］ステップＳ５３までのブロック書き込みループが実行される。ブロック書き込みループは、分割された論理ブロックのそれぞれを処理対象として実行される。

［ステップＳ４３］重複排除処理部１４２は、論理ブロックのデータに基づいてハッシュ値を算出する。
［ステップＳ４４］重複排除処理部１４２は、ハッシュテーブル１３２を参照し、重複頻度が最も高いコンテナグループを選択する。

［ステップＳ４５］重複排除処理部１４２は、ステップＳ４３で算出されたハッシュ値に基づいてバンドルを選択する。例えば、重複排除処理部１４２は、ハッシュ値をバンドルの総数で除算した場合の剰余としてバンドル番号を算出し、そのバンドル番号が示すバンドルを選択する。なお、このバンドル選択は、ステップＳ４３の直後に実行されてもよい。

［ステップＳ４６］重複排除処理部１４２は、ハッシュテーブル１３２のレコードのうち、ステップＳ４４で選択されたコンテナグループに対応し、かつ、ステップＳ４５で選択されたバンドルに対応するレコードに登録されたハッシュ値の中から、ステップＳ４３で算出されたハッシュ値と一致するものを検索する。

［ステップＳ４７］重複排除処理部１４２は、該当するハッシュ値が存在したかを判定する。該当するハッシュ値が存在した場合、処理がステップＳ５１に進められ、該当するハッシュ値が存在しなかった場合、処理がステップＳ４８に進められる。

［ステップＳ４８］重複排除処理部１４２は、ステップＳ４４においてすべてのコンテナグループを選択済みかを判定する。未選択のコンテナグループがある場合、処理がステップＳ４４に進められ、未選択のコンテナグループの中から重複頻度が最も高いコンテナグループが選択される。一方、該当するハッシュ値が存在しなかった場合、処理がステップＳ４９に進められる。

［ステップＳ４９］重複排除処理部１４２は、ストレージプールから未使用のスロットを選択し、そのスロットに論理ブロックのデータを格納するようにディスクアクセス処理部１４３に依頼する。このとき、重複排除処理部１４２は、前回のデータ格納時に選択されたスロットに隣接する次の領域のスロットを、可能な限り選択するようにする。これにより、シーケンシャルアクセスが行われた場合に仮想ボリューム上の論理アドレスが近いデータがストレージプール上の隣接する領域に格納されるようになり、その結果、データ読み出しの際の読み出し速度が向上する。

ディスクアクセス処理部１４３は、重複排除処理部１４２からの依頼に応じてスロットに論理ブロックのデータを格納する。
［ステップＳ５０］重複排除処理部１４２は、ステップＳ４３で算出されたハッシュ値に対応するレコードをハッシュテーブル１３２に新たに登録する。このレコードには、算出されたハッシュ値と、ステップＳ４９で選択されたスロットを示すコンテナ番号およびスロット番号とが対応付けて登録される。重複排除処理部１４２は、このレコードを、ハッシュテーブル１３２の領域のうち、コンテナ番号に基づくコンテナグループ番号に対応し、かつ、ステップＳ４５で算出されたバンドル番号に対応する領域に登録する。

また、重複排除処理部１４２は、リファレンスカウンタテーブル１３３にレコードを新たに登録する。このレコードには、ステップＳ４９で選択されたスロットを示すコンテナ番号およびスロット番号と、リファレンスカウンタの初期値「１」とが登録される。さらに、重複排除処理部１４２は、ハッシュテーブル１３２の重複頻度のうち、コンテナ番号に基づくコンテナグループ番号に対応する重複頻度に「１」を加算する。

［ステップＳ５１］重複排除処理部１４２は、ステップＳ４６の検索でハッシュ値が一致したレコードからコンテナ番号およびスロット番号を抽出する。重複排除処理部１４２は、リファレンスカウンタテーブル１３３から、抽出されたコンテナ番号およびスロット番号に対応付けられたリファレンスカウンタを特定し、このリファレンスカウンタに「１」を加算する。

［ステップＳ５２］重複排除処理部１４２は、ハッシュテーブル１３２の重複頻度のうち、コンテナ番号に基づくコンテナグループ番号に対応する重複頻度に「１」を加算する。

［ステップＳ５３］分割された論理ブロックのすべてについてステップＳ４３～Ｓ５１の処理が実行されると、処理がステップＳ５４に進められる。
［ステップＳ５４］Ｉ／Ｏ受け付け部１４１は、書き込み要求に対する応答をホストサーバ２００に送信する。

上記処理では、ステップＳ４４で重複頻度が高い順にコンテナグループが選択され、選択されたコンテナグループを検索範囲としてステップＳ４６のハッシュ値検索が実行される。前述のように、仮想ボリュームに対するデータの書き込みが要求された場合に、重複頻度が高いコンテナグループほど、コンテナグループに属するスロットのデータが論理ブロックのデータと重複する可能性が高いと推定される。このため、上記のように重複頻度が高い順にコンテナグループを選択してハッシュ値検索を行うことで、すべてのコンテナグループを選択する前に、早期に一致するハッシュ値が見つかる可能性が高くなる。一致するハッシュ値が見つかるまでの間に選択されるコンテナグループ数が少ないほど、すなわち一致するハッシュ値が早期に見つかるほど、図６の比較例の場合よりハッシュ値の検索範囲が狭くなり、検索にかかる時間が短くなる。したがって、上記処理により、重複判定のためのハッシュ値検索にかかる平均時間を短縮できる。その結果として、書き込み要求に対するホストサーバ２００への応答時間を短縮できる。

図１２は、データ削除処理の手順を示すフローチャートの例である。Ｉ／Ｏ受け付け部１４１が、ホストサーバ２００から仮想ボリュームからのデータの削除要求を受信したとする。このとき、仮想ボリューム上の削除対象のデータに含まれる論理ブロックごとに、図１２の処理が実行される。

［ステップＳ６１］重複排除処理部１４２は、ボリューム管理データ１３１を参照して、論理ブロックに対応付けられたスロットを特定する。
［ステップＳ６２］重複排除処理部１４２は、リファレンスカウンタテーブル１３３から、特定されたスロットに対応するリファレンスカウンタを特定し、特定されたリファレンスカウンタから「１」を減算する。

［ステップＳ６３］重複排除処理部１４２は、ボリューム管理データ１３１において、論理ブロックに対応付けられたスロットの識別情報（コンテナ番号およびスロット番号）を削除する。

なお、ホストサーバ２００から仮想ボリューム上のデータの更新が要求された場合には、更新前のデータに含まれる各論理ブロックについて図１２の処理が実行される。
図１３は、ハッシュ値削除処理の手順を示すフローチャートの例である。

［ステップＳ７１］重複排除処理部１４２は、処理対象のコンテナを１つ選択する。この処理では、前回ハッシュ値の削除（ステップＳ７８）が実行されたコンテナの次のコンテナ（コンテナ番号が１つ大きいコンテナ）が処理対象として選択される。前回ハッシュ値の削除が実行されたコンテナがストレージプール上の末尾のコンテナ（コンテナ番号が最大のコンテナ）である場合には、先頭のコンテナが選択される。

［ステップＳ７２］重複排除処理部１４２は、処理対象のコンテナにおける未使用スロットの割合を示すコンテナ未使用率を算出する。具体的には、重複排除処理部１４２は、リファレンスカウンタテーブル１３３から該当コンテナのコンテナ番号に対応するリファレンスカウンタを取得し、リファレンスカウンタが「０」のスロット数をカウントする。重複排除処理部１４２は、該当コンテナに含まれるスロットの総数に対する、リファレンスカウンタが「０」のスロット数の割合を、コンテナ未使用率として算出する。

［ステップＳ７３］重複排除処理部１４２は、算出されたコンテナ未使用率が所定の閾値（例えば３０％）以上かを判定する。コンテナ未使用率が閾値以上の場合、処理がステップＳ７４に進められる。一方、コンテナ未使用率が閾値未満の場合、処理がステップＳ７１に進められ、次のコンテナが選択される。

［ステップＳ７４］重複排除処理部１４２は、処理対象のコンテナのコンテナ番号に基づいて、このコンテナが属するコンテナグループを選択する。例えば、処理対象のコンテナのコンテナ番号をコンテナグループの総数で除算した場合の剰余として、該当するコンテナグループを識別するコンテナグループ番号が算出される。

［ステップＳ７５］重複排除処理部１４２は、ハッシュテーブル１３２の領域のうち、ステップＳ７４で選択されたコンテナグループに対応するレコードの領域を検索範囲として、ハッシュテーブル１３２に登録されたハッシュ値の中から、対応付けられたコンテナ番号が処理対象のコンテナのコンテナ番号と一致するハッシュ値を検索する。この検索は、検索範囲内の先頭側から順に行われる。

［ステップＳ７６］重複排除処理部１４２は、ステップＳ７５の検索により該当するハッシュ値が見つかったかを判定する。該当するハッシュ値が見つかった場合、処理がステップＳ７７に進められ、見つからなかった場合、ハッシュ値削除処理が終了する。

［ステップＳ７７］重複排除処理部１４２は、ステップＳ７６で見つかったハッシュ値に対応するコンテナ番号およびスロット番号をハッシュテーブル１３２から取得する。重複排除処理部１４２は、これらのコンテナ番号およびスロット番号に対応するリファレンスカウンタをリファレンスカウンタテーブル１３３から取得し、リファレンスカウンタが「０」であるかを判定する。リファレンスカウンタが「０」の場合、処理がステップＳ７８に進められ、リファレンスカウンタが「１」以上の場合、処理がステップＳ７９に進められる。

［ステップＳ７８］重複排除処理部１４２は、ステップＳ７６で見つかったハッシュ値を含むレコードをハッシュテーブル１３２から削除する。これにより、リファレンスカウンタが「０」のスロットに対応するハッシュ値が削除される。また、削除されたレコードに対応するスロットは未使用状態（解放状態）となり、他の論理ブロックに対して割り当てることが可能になる。

［ステップＳ７９］重複排除処理部１４２は、ステップＳ３４の検索処理によって、ハッシュテーブル１３２における該当コンテナグループに対応する領域の末尾まで検索済みかを判定する。該当領域の末尾まで検索が済んでいない場合（すなわち、ステップＳ７６で見つかったハッシュ値を含むレコードが該当領域の末尾のレコードでない場合）、処理がステップＳ７５に進められる。この場合、ステップＳ７５では、ステップＳ７６で見つかったハッシュ値を含むレコードの次のレコードから検索が続けられる。一方、該当領域の末尾まで検索済みの場合、ハッシュ値削除処理が終了する。

上記処理では、ステップＳ７５でのハッシュテーブル１３２からのハッシュ値の検索範囲が、処理対象のコンテナが属するコンテナグループの範囲に限定される。このため、図７の比較例の場合よりハッシュ値の検索範囲が狭くなる。その結果、ハッシュ値の検索処理にかかる時間を短縮でき、検索処理負荷を軽減できる。また、検索処理負荷の軽減により、仮想ボリュームに対するＩ／Ｏ処理に与える検索処理負荷の影響を軽減でき、Ｉ／Ｏ処理速度を向上させることができる。

なお、上記の第２の実施の形態では、仮想ボリューム（論理記憶領域）に対する書き込みデータが、重複を排除して物理記憶領域に格納される例について説明した。しかし、他の例として、書き込みが要求されたファイルが、データの重複を排除して物理記憶領域に格納されてもよい。この場合、ファイルの書き込みの際に、そのファイルが上記の論理ブロックに相当するデータブロックに分割され、データブロックが重複しているかが判定される。また、リファレンスカウンタは、ファイルからの参照数を示すことになる。

また、上記の各実施の形態に示した装置（例えば、情報処理装置１、ＣＭ１１０）の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、磁気テープなどがある。光ディスクには、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク（Blu-ray Disc：ＢＤ、登録商標）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムにしたがった処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムにしたがった処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムにしたがった処理を実行することもできる。

１情報処理装置
２記憶装置
１１記憶部
１２処理部
１３管理テーブル
Ｓ１～Ｓ４ステップ

Claims

記憶部と処理部とを有する情報処理装置であって、
論理記憶領域に対して書き込みが要求されたデータが重複を排除して格納される物理記憶領域が、複数の部分記憶領域に分割され、前記複数の部分記憶領域のそれぞれが、データの格納単位となる単位記憶領域を複数含み、前記複数の部分記憶領域が複数のグループにグループ化されている状態において、前記記憶部は、前記単位記憶領域のそれぞれに対応するレコードが登録された管理テーブルを記憶し、
前記管理テーブルは、前記複数のグループのそれぞれに対応するグループ領域に分割され、前記グループ領域のそれぞれには、前記複数のグループのうち対応するグループに属する前記部分記憶領域に含まれる前記単位記憶領域の前記レコードが登録され、前記レコードのそれぞれは、対応する前記単位記憶領域に格納されたデータに基づく第１のハッシュ値と、対応する前記単位記憶領域の位置情報とを含み、
前記処理部は、
前記複数の部分記憶領域の中から処理対象の第１の部分記憶領域を選択し、
前記複数のグループの中から前記第１の部分記憶領域が属する第１のグループを特定し、
前記管理テーブルに含まれる前記グループ領域のうち、前記第１のグループに対応する第１のグループ領域に含まれる前記レコードの中から、前記第１の部分記憶領域に含まれる前記単位記憶領域に対応する第１のレコードを検索し、
検索された前記第１のレコードに対応する前記第１の部分記憶領域に格納されたデータに対する前記論理記憶領域からの参照数が０である場合、前記第１のレコードに含まれる前記第１のハッシュ値を削除する、
情報処理装置。
前記レコード内の前記位置情報は、前記複数の部分記憶領域のうち対応する前記単位記憶領域が属する第２の部分記憶領域を示す第１の識別番号と、前記第２の部分記憶領域における対応する前記単位記憶領域の位置を示す第２の識別番号とを含み、
前記第１のレコードの検索では、前記第１のグループ領域に含まれる前記レコードの中から、前記第１の部分記憶領域を示す前記第１の識別番号が登録された前記レコードを、前記第１のレコードとして検索する、
請求項１記載の情報処理装置。
前記管理テーブルには、前記複数のグループのそれぞれについて、対応する前記グループ領域内の前記レコードに対応する前記単位記憶領域のデータに対する前記参照数の合計値が登録され、
前記処理部は、さらに、
第１のデータの書き込みが要求されると、前記第１のデータに基づく第２のハッシュ値を算出し、
前記管理テーブルに含まれる前記グループ領域の中から前記合計値が大きい順に第２のグループ領域を選択し、選択された前記第２のグループ領域に含まれる前記レコードの中から、前記第２のハッシュ値と一致する前記第１のハッシュ値が登録された前記第２のレコードを検索し、前記第２のレコードが見つかった場合には、前記第２のグループ領域の選択を停止して、前記物理記憶領域に対する前記第１のデータの格納をスキップし、前記第２のレコードが見つからなかった場合には、前記物理記憶領域から未使用の第１の単位記憶領域を選択して前記第１のデータを前記第１の単位記憶領域に格納し、前記第１の単位記憶領域を示す前記位置情報と、前記第１のハッシュ値としての前記第２のハッシュ値とを含む新たな前記レコードを前記管理テーブルに登録する、
請求項１記載の情報処理装置。
前記管理テーブルでは、前記複数のグループ領域のそれぞれに含まれる前記レコードが、前記第１のハッシュ値に基づく複数のサブグループに分類されており、
前記第２のレコードの検索では、前記複数のサブグループの中から前記第２のハッシュ値に基づいて第１のサブグループを特定し、前記第２のグループ領域に含まれる前記レコードのうち、前記第１のサブグループに属する前記レコードの中から前記第２のレコードを検索する、
請求項３記載の情報処理装置。
コンピュータが、
論理記憶領域に対して書き込みが要求されたデータが重複を排除して格納される物理記憶領域が、複数の部分記憶領域に分割され、前記複数の部分記憶領域のそれぞれが、データの格納単位となる単位記憶領域を複数含み、前記複数の部分記憶領域が複数のグループにグループ化されている状態において、前記単位記憶領域のそれぞれに対応するレコードが登録された管理テーブルを記憶部に記憶し、前記管理テーブルは、前記複数のグループのそれぞれに対応するグループ領域に分割され、前記グループ領域のそれぞれには、前記複数のグループのうち対応するグループに属する前記部分記憶領域に含まれる前記単位記憶領域の前記レコードが登録され、前記レコードのそれぞれは、対応する前記単位記憶領域に格納されたデータに基づく第１のハッシュ値と、対応する前記単位記憶領域の位置情報とを含み、
前記複数の部分記憶領域の中から処理対象の第１の部分記憶領域を選択し、
前記複数のグループの中から前記第１の部分記憶領域が属する第１のグループを特定し、
前記管理テーブルに含まれる前記グループ領域のうち、前記第１のグループに対応する第１のグループ領域に含まれる前記レコードの中から、前記第１の部分記憶領域に含まれる前記単位記憶領域に対応する第１のレコードを検索し、
検索された前記第１のレコードに対応する前記第１の部分記憶領域に格納されたデータに対する前記論理記憶領域からの参照数が０である場合、前記第１のレコードに含まれる前記第１のハッシュ値を削除する、
情報処理方法。