JP2010287167A - アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム - Google Patents

アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム Download PDF

Info

Publication number
JP2010287167A
JP2010287167A JP2009142361A JP2009142361A JP2010287167A JP 2010287167 A JP2010287167 A JP 2010287167A JP 2009142361 A JP2009142361 A JP 2009142361A JP 2009142361 A JP2009142361 A JP 2009142361A JP 2010287167 A JP2010287167 A JP 2010287167A
Authority
JP
Japan
Prior art keywords
data
storage device
file
group
archive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009142361A
Other languages
English (en)
Other versions
JP5463746B2 (ja
Inventor
Satoshi Yamakawa
聡 山川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009142361A priority Critical patent/JP5463746B2/ja
Publication of JP2010287167A publication Critical patent/JP2010287167A/ja
Application granted granted Critical
Publication of JP5463746B2 publication Critical patent/JP5463746B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】アーカイブを格納するアーカイブストレージ装置において、データの重複を検出し、データの重複を管理するインデックスを作成し、重複するデータをまとめて圧縮するアーカイブストレージ装置を提供する。
【解決手段】
アーカイブストレージ装置10は、少なくとも1つ以上の外部ストレージ装置20に格納されているデータを読み出して格納するアーカイブストレージ装置であって、読み出したデータのファイルの種別を判定する名前空間管理手段11と、判定されたファイルの種別ごとにデータを分割するデータ分割手段12と、分割されたデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成するデータグループ制御手段13と、重複するデータを代替データに置き換えて、代替データをグループ化されたグループ単位でまとめて圧縮するデータ処理手段14とを備える。
【選択図】図5

Description

本発明は、複数のコンピューティング端末で生成されたデータを集中的に格納するアーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラムに関する。
複数のコンピューティング端末で生成されたデータを集中的に格納するストレージ装置において、ハードディスクドライブなどの物理的な記憶媒体にデータを格納する段階で、データに圧縮処理をかけることにより、物理的な記録容量を削減することが可能である。このデータの圧縮処理を前提としたデータの格納手法として、デ・デュプリケーション(Deduplication)と呼ばれる方法がある。
デ・デュプリケーションは、ストレージ装置に格納するデータ群の中から同一のバイト列からなる重複データ群を検出し、重複データの1つを物理的に格納することによって、論理的には複数のデータが格納されていることを再現可能にする。デ・デュプリケーションは、通常、ファイル単位またはファイルを構成するデータブロック単位でデータの重複の判定を行なう。データの重複判定を行う際には、ディジタル認証で用いられているSHA1やMD5などのハッシュ関数により生成された数十〜数百ビットのサイズの小さいダイジェストデータを使ってデータ同士を比較判定する。そのため、重複判定にかかる処理コストを削減することが可能である。
このようなデータの重複判定処理を前提とするストレージ装置の記録容量の削減手段は、ファイルやファイルを構成するデータブロック単位でのデータの重複が多数見込まれることを前提としたコンピューティング環境においては、情報源符号化に基づくデータ圧縮処理よりも処理負荷が低く、かつ一定以上のデータ削減効果も見込める。そのため、ストレージ装置における物理的なデータの記憶容量の削減手段の1つとして利用が進んでいる。
特許文献1には、デ・デュプリケート機能および全文検索機能を備えるストレージシステムが記載されている。特許文献1に記載されたストレージシステムでは、ストレージ装置に格納するファイルについて、メタデータなどを除くデータ本体が同一である中身同一ファイルを検出し、中身同一ファイルの代表ファイルを記憶領域に格納し、記憶領域への格納を1回に抑える。また、複数の中身同一ファイルに対応するインデックスデータにもデ・デュプリケーションを行い、重複したインデックスデータを作成および保持しないようにすることで、インデックスデータの量を削減し、記憶資源を節約する。
大規模なデータを管理するという観点においては、データを格納する際に、データのライフサイクルを定義することにより、時系列によるデータの使用頻度やデータ廃棄時期を設定する仕組みがある。時系列によるデータの使用頻度やデータ廃棄時期を設定することによって、データの配置場所やデータ削除をストレージ装置側で制御し、大規模なデータを管理する場合であってもI/O処理のサービスレベルを一定に保つことができる。また、業務種別などの外部のコンピューティング端末で実行されるアプリケーションや業務内容などに応じたデータの種別をメタデータとして付与することによって、データのライフサイクルの定義を簡略化するなどの工夫が行なわれている。
このようなデータのライフサイクル管理を行うことを前提とした場合、データに対する変更や読み出し処理が行われなくなったデータ、つまりI/O処理が発生する可能性が低いデータを検出し、それらのデータのみを対象にデ・デュプリケート処理を施すことにより、少なくともデータ圧縮時の処理をI/O処理サービスとは独立して実行することができるので、データ圧縮処理をI/O処理の実行時間内に済ませる必要がなくなるというアプローチも存在する。例えば、アーカイブにされたデータは、データに対するI/O処理が発生する可能性が低いと考えられる。
特開2008−158993号公報(段落0012−0016)
ストレージ装置へのデ・デュプリケーションの適用においては、予めデータの重複の予測が立つようなバックアップデータの保存などに用途を絞ることにより、ファイルや比較的サイズの大きなブロック単位でのデータの重複判定処理を利用してデータを圧縮し、ストレージへのデータの格納容量を削減することが可能である。しかし、データの重複が予測できないデータ、例えば、様々なデータが混在する汎用的に使われているストレージにおいては、デ・デュプリケーションによりデータをファイル単位、または比較的サイズの大きなブロック単位で分割しても、データの重複を検出できない可能性があり、ストレージへのデータの格納容量を削減することができないという課題がある。
この課題を解決するために、一意にデータの分割単位をより小さくすることにより、データの重複をより多く検出する方法も考えられるが、データの重複を管理するインデックスが巨大化するとともに、インデックスデータ自体がストレージ装置内のメモリに搭載しきれず、ハードディスク装置などのより低速な媒体に格納されることになり、結果としてデータの圧縮/展開処理能力が劣化する。
特許文献1に記載されたストレージシステムでは、データが重複するファイルのインデックスデータにデ・デュプリケーションを行い、重複したインデックスデータを作成および保持しないようにすることで、インデックスデータの増加を抑えることができるが、データの分割単位を小さくした場合に、データの重複を管理するインデックスが巨大化する問題に対応するものではない。
また、データ圧縮の他のアプローチとして、より小さな単位のデータの重複を検出する情報源符号化をベースとした圧縮/展開アプリケーションを用いる手法が考えられるが、圧縮/展開の単位がファイルなどの小さなデータ単位でしか実現できないため、ファイル間での重複を排除することが出来ない場合や、外部からストレージ装置へのデータ格納の段階で既に圧縮処理が施されているようなファイルについては、データの圧縮効果が見られない場合がある。
そこで、本発明は、データの更新が発生しないアーカイブを格納するアーカイブストレージ装置において、従来のデ・デュプリケーションによるデータ圧縮手法や情報源符号化に基づくデータ圧縮手法では検出できないデータの重複を検出し、データの重複を管理するインデックスを作成し、重複するデータをまとめて圧縮するアーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラムを提供することを目的とする。
本発明によるアーカイブストレージ装置は、少なくとも1つ以上の外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置であって、外部ストレージ装置から読み出したデータのファイルの種別を判定する名前空間管理手段と、名前空間管理手段によって判定されたファイルの種別ごとにデータを分割するデータ分割手段と、データ分割手段によって分割されたデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成するデータグループ制御手段と、重複するデータを代替データに置き換えて、代替データをデータグループ制御手段によってグループ化されたグループ単位でまとめて圧縮するデータ処理手段とを備えたことを特徴とする。
本発明によるストレージシステムは、少なくとも1つ以上のデータアクセスクライアントと、少なくとも1つ以上の外部ストレージ装置と、外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置とがネットワークを介して接続されるストレージシステムであって、外部ストレージ装置は、データアクセスクライアントからの命令に応じてデータを格納し、アーカイブストレージ装置は、外部ストレージ装置から読み出したデータのファイルの種別を判定する名前空間管理手段と、名前空間管理手段によって判定されたファイルの種別ごとにデータを分割するデータ分割手段と、データ分割手段によって分割されたデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成するデータグループ制御手段と、重複するデータを代替データに置き換えて、代替データをデータグループ制御手段によって生成されたグループ単位でまとめて圧縮するデータ処理手段とを備えたことを特徴とする。
本発明によるデータ格納方法は、少なくとも1つ以上の外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置におけるデータ格納方法であって、外部ストレージ装置から読み出したデータのファイルの種別を判定し、判定したファイルの種別ごとにデータを分割し、分割したデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成し、重複するデータを代替データに置き換えて、代替データをグループ化されたグループ単位でまとめて圧縮することを特徴とする。
本発明によるデータ格納プログラムは、少なくとも1つ以上の外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置に備えられたコンピュータに、外部ストレージ装置から読み出したデータのファイルの種別を判定する処理と、判定したファイルの種別ごとにデータを分割する処理と、分割したデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成する処理と、重複するデータを代替データに置き換えて、代替データをグループ化されたグループ単位でまとめて圧縮する処理とを実行させることを特徴とする。
本発明によれば、データの更新が発生しないアーカイブを格納するアーカイブストレージ装置において、従来のデ・デュプリケーションによるデータ圧縮手法や情報源符号化に基づくデータ圧縮手法では検出できないデータの重複を検出し、データの重複を管理するインデックスを作成し、重複するデータをまとめて圧縮することによって、アーカイブストレージ装置の用途によらず、データの圧縮率を高めることができる。
本発明によるアーカイブストレージ装置を含むストレージシステムの一実施形態の構成を示すブロック図である。 図1に示すデータグループ管理部の構成を示すブロック図である。 図1に示すストレージシステムにおいて、アーカイブストレージ装置が外部ストレージ装置に格納されているデータを格納する動作を示すフローチャートである。 図1に示すストレージシステムにおいて、アーカイブストレージ装置がデータアクセスクライアントからデータの読み出しを要求される場合の動作を示すフローチャートである。 本発明によるアーカイブストレージ装置の主要部を示すブロック図である。
図1は、本発明によるアーカイブストレージ装置を含むストレージシステムの一実施形態の構成を示すブロック図である。図1を参照して、本発明によるストレージシステムの一実施形態の構成を説明する。
図1に示すストレージシステムは、少なくとも1台以上のデータアクセスクライアント1、少なくとも1台以上の外部ストレージ装置2、およびアーカイブストレージ装置100を備える。データアクセスクライアント1と、外部ストレージ装置2と、アーカイブストレージ装置100とは、LAN(Local Area Network)などのネットワーク3を介して相互に接続されている。
データアクセスクライアント1は、例えば、プログラムに従って動作するパーソナルコンピュータなどの情報処理装置である。データアクセスクライアント1は、ネットワーク3を介して外部ストレージ装置2およびアーカイブストレージ装置100にアクセスする。データアクセスクライアント1は、NFS(Network File System)やCIFS(Common Internet File System)に代表されるネットワークファイルシステムなどを利用して、外部ストレージ装置2やアーカイブストレージ装置100が格納するデータにアクセスする。
外部ストレージ装置2は、例えば、NAS(Network Attached Storage)やファイルサーバである。外部ストレージ装置2は、データアクセスクライアント1などの外部装置からの命令を受けると、ファイルなどのデータの格納単位に基づいてデータの格納を行う。外部ストレージ装置2は、データの読み出し手段および書き込み手段(図示せず)を備える。
アーカイブストレージ装置100は、外部ストレージ2に格納されているデータを読み出して集中的に格納する。アーカイブストレージ装置100は、名前空間管理部101、データグループ管理部102、データ格納部103、インデックス管理部104、外部ストレージ装置管理部105および名前空間データ格納部106を備える。アーカイブストレージ装置100では、例えば、CPUがプログラムに従って制御を行う。
名前空間管理部101は、アーカイブストレージ装置100内に格納するデータの名前、作成時間およびアクセス時間などのシステムメタデータと、格納するデータに対してデータアクセスクライアント1によって明示的に付与されるその他のメタデータと、アーカイブストレージ装置100内でのデータ格納先を示すアドレス情報とを格納する。さらに、名前空間管理部101は、データアクセスクライアント1からの要求に応じて、アーカイブストレージ装置100内に格納されている各種のデータを提供する。
図2は、図1に示すデータグループ管理部の構成を示すブロック図である。データグループ管理部102は、データ圧縮/展開処理部151、データグループ制御部152および管理データ格納部153を備える。
データ圧縮/展開処理部151は、データの種別ごとにデータの内部を解析し、データを分割するデータ解析モジュール154を複数含み、データの種別に合致するデータ解析モジュールを用いて、データの圧縮/展開処理を実施する。なお、解析モジュール154は、データの種別ごとに異なる方法で、データを分割することができる。データグループ制御部152は、複数のデータ群をグループとしてまとめる制御を行う。また、データグループ制御部152は、データ圧縮/展開部151がデータの圧縮/展開処理を実施する際に、名前空間管理部101から入出力される圧縮前または圧縮後のデータをデータ圧縮/展開部151に転送する。管理データ格納部153は、グループとしてまとめた複数のデータに関してデータグループ制御部152が作成した、個々のファイルとグループとの対応関係を示すリスト、そのグループに関連する圧縮後のデータ、および圧縮に用いたインデックスデータの格納先アドレスを格納する。
データ格納部103は、データグループ管理部102で圧縮処理された圧縮データを格納する。インデックスデータ格納部104は、データグループ管理部102でデータの圧縮処理が行われる際に作成されるインデックスデータを格納する。
外部ストレージ装置管理部105は、ネットワーク3を介して外部ストレージ装置2に定期的にアクセスし、外部ストレージ装置2に格納されているデータのシステムメタデータ等を参照して、データアクセスクライアント1からのアクセス頻度が低いデータ群を抽出する。名前空間データ格納部106は、アーカイブストレージ装置100に格納されたファイル等の名前およびシステムメタデータを格納する。
図3は、図1に示すストレージシステムにおいて、アーカイブストレージ装置が外部ストレージ装置に格納されているデータを格納する動作を示すフローチャートである。図3を参照して、外部ストレージ装置2がファイルを取り扱うNASやファイルサーバである場合に、アーカイブストレージ装置100が、外部ストレージ装置2に格納されているファイルデータをアーカイブストレージ装置100に格納する動作を説明する。
まず、外部ストレージ装置2に格納されているファイルデータの中から、アーカイブストレージ装置100に格納するファイルデータを決定するために、外部ストレージ装置管理部105は、予め決められた日時や周期に従い、定期的に外部ストレージ装置2に格納されているすべてのファイルのシステムメタデータを取得する。外部ストレージ装置管理部105は、取得したシステムメタデータの中から、ファイル名、格納先アドレスおよび最終アクセス時間等のデータを抽出し、外部ストレージ装置管理部105内にリスト化して保存する。なお、取得したシステムメタデータが、外部ストレージ装置管理部105が保存するリストに既に登録されているファイルに関するものであった場合には、リストの情報を最新の情報に更新し、外部ストレージ装置管理部105が保存するリストに登録されていないファイルに関するものであった場合には、リストに当該ファイルの情報を追加する。また、外部ストレージ装置管理部105が保存するリストには登録されているが、既に外部ストレージ装置2に存在していないファイルが存在していた場合には、リストから当該ファイルの情報を削除する。
さらに、外部ストレージ装置管理部105は、予め決められた日時や周期に従い、外部ストレージ装置管理部105が保存するリストに登録された各ファイルに関する最終アクセス時間と、予め決められたアーカイブストレージ装置100へのデータの移行条件に含まれている無アクセス期間とを比較し、アーカイブストレージ装置100へのデータの移行条件を満たすファイル(移行対象となるファイル)群を抽出する。なお、例えば、システム管理者等が、外部ストレージ装置2におけるファイルの格納先アドレスが含まれたファイルのリストを外部ストレージ装置管理部105に登録して、移行対象となるファイルを直接特定するなど、他の手順によって移行対象となるファイル群を特定してもよい。
外部ストレージ装置管理部105において移行対象となるファイルが特定された後、外部ストレージ装置管理部105は、移行対象となるファイルのリストを名前空間管理部101に送信する(ステップS101)。名前空間管理部101は、送信されたリストに登録されているファイル格納先アドレスを元に、外部ストレージ装置2からファイルデータを取得する(ステップS102)。名前空間管理部101は、送信されたリストに登録されているすべてのファイルに対して、ファイル名に記載されている拡張子を抽出し、ファイルの種別を判定する(ステップS103)。
ステップS103においてファイルの種別を判定すると、名前空間管理部101は、リスト内に登録されているファイルの種別のデータ解析モジュールが存在するかどうか、データグループ管理部102に問い合わせる。データグループ管理部102は、名前空間管理部101からの問い合わせをデータグループ制御部152で受け取り、問い合わせのファイルの種別に関連付けられるデータ種別に対応するデータ解析モジュール154がデータ圧縮/展開処理部151に存在するかどうかを確認する(ステップS104)。
ステップS104において、対応するデータ解析モジュール154がデータ圧縮/展開処理部151に存在する場合には(ステップS104のY)、データグループ制御部152は、データ解析モジュール154が存在していることを名前空間管理部101に通知する。名前空間管理部101は、データグループ制御部152から通知を受けると、リストに登録されているファイルデータのうち、対応するデータの種別の個々のファイルデータを外部ストレージ装置2より読み出し、データグループ管理部102に転送する。
データグループ管理部102のデータグループ制御部152は、名前空間管理部101から転送されたファイルデータをデータ圧縮/展開処理部151に転送し、ファイルデータのデータの種別に対応するデータ解析モジュール154に、データの種別に応じたデータの分割処理を実行させる。データグループ制御部152は、分割処理が行われた各データ(以降、要素データと呼ぶ。)のうち、各ファイル単位で要素データの頻出回数をカウントし、頻出回数の上位から所定のN個までの要素データを抽出する。さらに、データグループ制御部152は、要素データの頻出回数を基に、データ移行対象となっているファイル群の中から、同じ要素データ(重複する要素データ)から構成されるファイルを抽出してグループ化し、要素データのインデックスを作成するとともに、個々のファイルとグループとの対応関係を示すリストを管理データ格納部153に格納する(ステップS105)。なお、インデックスを作成する際に、データグループ制御部152は、グループを構成する重複する要素データの総数から、そのデータを表現できるデータ長を算出し、要素データを置き換える代替データを生成し、代替データおよびインデックスから要素データを読み出すことができるように要素データのインデックスを作成する。
次に、データグループ制御部152は、データ圧縮/展開処理部151に、インデックスと、グループに含まれているファイルデータとを転送する。データ圧縮/展開処理部151は、転送されたファイルデータに含まれる要素データを代替データに置き換え、置き換えた代替データを圧縮して圧縮データを生成する。データ圧縮/展開処理部151は、生成した圧縮データをデータグループ制御部152に転送する。データグループ制御部152は、転送された圧縮データをデータ格納部103に格納するとともに、管理データ格納部153に格納しているグループとファイルとの対応関係を示すリストの対応するファイルのエントリに、データ格納部103の格納先アドレスを登録する。
データグループ制御部152は、グループ化したすべてのファイルについて、データ圧縮/展開処理部151で同様のデータ圧縮処理を行い、圧縮データをデータ格納部103に格納する。その後、データグループ制御部152は、インデックスをインデックスデータとしてインデックスデータ格納部104に格納し、データの移行対象となるファイルのリストから、データの格納処理が終了したファイルのリストを名前空間管理部101に通知する。名前空間管理部101は、通知に含まれているファイルのリストからデータの格納処理が終了したファイルを特定し、移行元のファイル名をシステムメタデータとともに名前空間データ格納部106に登録する(ステップS106)。
次に、データグループ制御部152は、データ圧縮/展開処理部151による圧縮処理が行われていない未解析処理のグループが存在するか否か確認する(ステップS107)。未解析処理のグループが存在する場合には(ステップS107のY)、ステップS105〜S106における処理と同様に、未圧縮処理のグループについて、インデックスの作成とデータの圧縮処理とを実行し、圧縮データの格納処理が終了したファイルの移行元のファイル名およびシステムメタデータを名前空間データ格納部106に登録する。
ステップS105〜S107において、グループ化したファイルについて圧縮処理が行われると(ステップS107のN)、データグループ制御部152は、ステップS105におけるグループ化によってグループ化されなかったファイルデータが存在するか否かを確認する(ステップS108)。
ステップS108において、グループ化されなかったファイルデータが存在する場合には(ステップS108のY)、データグループ制御部152は、当該ファイルデータをファイル単位でデータ圧縮/展開処理部151に転送する。データ圧縮/展開処理部151は、転送されたファイルデータを元に圧縮処理を実行して圧縮データを作成し、データグループ制御部152に圧縮データを転送する。データグループ制御部152は、転送された圧縮データをデータ格納部103に格納し、データ格納部103の格納先アドレスを管理データ格納部153に登録した後、データの移行対象となるファイルのリストから処理の終了したファイルを名前空間管理部101に通知する。名前空間管理部101は、通知されたファイルの移行元のファイル名をシステムメタデータとともに名前空間データ格納部106に登録する(ステップS109)。なお、グループ化されていないすべてのファイルデータについて、同様のデータ圧縮処理と圧縮データの格納処理とを実施する。
ステップS108においてグループ化されなかったファイルデータが存在しない場合(ステップS108のN)、およびステップS109における処理が終了した場合には、データグループ管理部102は、圧縮処理が終了していないデータ種別が存在するか否か確認する(ステップS110)。
ステップS110において、圧縮処理が終了していないデータ種別が存在する場合には(ステップS110のY)、ステップS104に戻り、ステップS105〜S106における解析処理に基づくグループ化とデータ圧縮処理とを実施する。
ステップS104において、対応するデータ解析モジュール154がデータ圧縮/展開処理部151に存在しない場合、すなわち、データ解析モジュールが存在しないデータ種別に属するファイルが存在する場合には(ステップS104のN)、データグループ制御部152は、ファイル単位でデータ圧縮/展開処理部151に当該ファイルデータを転送する。データ圧縮/展開処理部151は、転送されたファイルの種別に依存しないデータ圧縮処理を行い、データグループ制御部152に圧縮データを転送する。データグループ制御部152は、転送された圧縮データをデータ格納部103に格納し、データ格納部103の格納先アドレスを管理データ格納部153に登録した後、データの移行対象となるファイルのリストから処理の終了したファイルを名前空間管理部101に通知する。名前空間管理部101は、通知されたファイルの移行元のファイル名をシステムメタデータとともに名前空間データ格納部106に登録する(ステップS109)。なお、データ解析モジュールが存在しないすべてのファイルデータについて、同様のデータ圧縮処理と圧縮データの格納処理とを実施する。
ステップS110において、圧縮処理が終了していないデータ種別が存在しない場合には(ステップS110のN)、アーカイブストレージ装置100は、書き込み処理を終了する。
このようなストレージシステムでは、アーカイブストレージ装置にデータを書き込む際に、書き込むデータのファイルの種別に応じたデータ解析モジュールを用いてデータを分割するので、ファイルの種別ごとに異なる分割方法でデータを分割することができる。そして、分割したデータの重複度合いを基に抽出したファイルをグループ化し、重複するデータを代替データに置き換えてグループ単位で圧縮し、さらに、重複するデータと代替データとの置き換えを管理するインデックスをグループ化された複数のファイルで共有するので、データの圧縮率を高めることができる。
また、このようなストレージシステムでは、アーカイブストレージ装置にデータを書き込む際に、書き込むデータがどのファイルの種別にも属さない場合、または、ファイルがグループ化されなかったデータが存在する場合には、ファイル単位で当該データを圧縮するので、種別またはグループに分けられないようなデータに対しても圧縮処理を実行することができる。すなわち、アーカイブストレージ装置またはストレージシステムの用途によらず、データの圧縮率を高めることができる。
図4は、図1に示すストレージシステムにおいて、アーカイブストレージ装置がデータアクセスクライアントからデータの読み出しを要求される場合の動作を示すフローチャートである。図4を参照して、アーカイブストレージ装置100がデータアクセスクライアント1からデータの読み出し要求を受けた場合に、図1に示すストレージシステムで行われる動作を説明する。
まず、データアクセスクライアント1からアーカイブストレージ装置100にデータの読み出し要求が出され、読み出し対象となるデータのファイル名が通知される(ステップS201)。
次に、アーカイブストレージ装置100の名前空間管理部101は、通知を受け取り、通知されたファイル名を元に、名前空間データ格納部106に登録されているファイル名に該当するファイルが存在するかどうか判定する。当該ファイル名が名前空間データ格納部106に登録されていない場合には、名前空間管理部101は、対応するファイルデータが存在しない旨をデータアクセスクライアント1に通知する。当該ファイル名が名前空間データ格納部106に登録されていた場合には、名前空間管理部101は、データグループ管理部102にデータの読み出し要求を転送する。
データグループ管理部102のデータグループ制御部152は、転送されたデータの読み出し要求から読み出し対象となるファイルがグループに属しているかどうか、管理データ格納部153に登録されているデータを参照して判定する(ステップS202)。
ステップS202において、読み出し対象となるファイルがグループに属している場合には(ステップS202のY)、データグループ制御部152は、対応するグループのインデックスデータ、および圧縮データの格納先アドレスを管理データ格納部153から抽出し、対応するグループのアドレスを解決する(ステップS203)。さらに、データグループ制御部152は、管理データ格納部153から抽出した格納先アドレスを元に、インデックスデータ格納部104、およびデータ格納部103からインデックスデータ、および圧縮データを読み出し、データ圧縮/展開処理部151に転送する。
ステップS202において、読み出し対象となるファイルがどのグループにも属していない場合には(ステップS202のN)、データグループ制御部152は、圧縮データの格納先アドレスを管理データ格納部153から抽出し、対応するファイルのアドレスを解決する(ステップS205)。さらに、データグループ制御部152は、管理データ格納部153から抽出した格納先アドレスを元に、データ格納部103から圧縮データを読み出した後、圧縮データをデータ圧縮/展開処理部151に転送する。
ステップS203またはS205において、データグループ制御部152から圧縮データやインデックスデータが転送されると、データ圧縮/展開処理部151は、転送されたデータ群(インデックスデータおよび圧縮データ)を元に、読み出し対象のファイルデータを展開する(ステップS204)。データ圧縮/展開処理部151は、展開したファイルデータをデータグループ制御部152に転送する。
データグループ制御部152は、転送されたファイルデータを名前空間管理部101に転送する。名前空間管理部101は、ネットワーク3を介してデータアクセスクライアント1にファイルデータを送信する(ステップS206)。
このようなストレージシステムでは、アーカイブストレージ装置からグループに属しているデータを読み出す際に、インデックスを示すインデックスデータおよび圧縮データの格納先アドレスを読み出すことによって、圧縮データから読み出し対象のデータを展開することができる。
なお、データの読み出し処理において、グループに属しているファイルのデータを読み出す際に、データアクセスクライアント1から他のファイルデータの読み出し処理が実行される場合に備えて、インデックスデータをデータ圧縮/展開処理部151に保存しておき、データ圧縮/展開処理部151が、グループに属する他のファイルのデータを先読みして展開しておいてもよい。
このようなストレージシステムでは、アーカイブストレージ装置は、グループに属している他のデータを先読みして展開しておくので、データアクセスクライアント1から当該グループに属する他のデータの読み出し要求が行われた場合に、改めて展開処理を行う必要がなく、効率的にデータを読み出すことができる。
図5は、本発明によるアーカイブストレージ装置の主要部を示すブロック図である。図5に示すように、アーカイブストレージ装置10(例えば、図1に示すアーカイブストレージ装置100に相当)は、少なくとも1つ以上の外部ストレージ装置20(例えば、図1に示す外部ストレージ装置2に相当)に格納されているデータを読み出して格納するアーカイブストレージ装置であって、外部ストレージ装置20から読み出したデータのファイルの種別を判定する名前空間管理手段11(例えば、図1に示す名前空間管理部101に相当)と、名前空間管理手段11によって判定されたファイルの種別ごとにデータを分割するデータ分割手段12(例えば、図1に示すデータ解析モジュール154に相当)と、データ分割手段12によって分割されたデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成するデータグループ制御手段13(例えば、図1に示すデータグループ制御部152に相当)と、重複するデータを代替データに置き換えて、代替データをデータグループ制御手段13によってグループ化されたグループ単位でまとめて圧縮するデータ処理手段14(例えば、図1に示すデータ圧縮/展開処理部151に相当)とを備えるように構成されている。
また、上記の実施形態のストレージシステムには、以下の(1)〜(4)に示すようなアーカイブストレージ装置も開示されている。
(1)データ分割手段は、ファイルの種別ごとに異なる分割方法でデータを分割するアーカイブストレージ装置。
(2)データ処理手段は、外部ストレージ装置から読み出したデータがファイルの種別に対応するデータ分割手段によって分割されない場合、または、当該データのファイルがデータグループ制御手段によってグループ化されなかった場合には、当該データをファイル単位で圧縮するアーカイブストレージ装置。
(3)データ制御手段は、アーカイブストレージ装置に格納されているデータの読み出しを要求された場合に、当該データのファイルが属するグループを判定し、データ処理手段は、データグループ制御手段に判定されたグループに関するインデックスを示すインデックスデータ、および圧縮データを元に当該データを展開するアーカイブストレージ装置。
(4)データ処理手段は、アーカイブストレージ装置に格納されているデータの読み出しを要求された場合に、当該データのファイルが属するグループに関するインデックスを示すインデックスデータを保存し、インデックスデータおよび圧縮データを元に、当該データのファイルと同じグループに属する他のファイルのデータも展開するアーカイブストレージ装置。
本発明を、複数のコンピューティング端末で生成されたデータを集中的に格納するストレージ装置に適用できる。
1 データアクセスクライアント
2 外部ストレージ装置
3 ネットワーク
10 アーカイブストレージ装置
11 名前空間管理手段
12 データ分割手段
13 データグループ制御手段
14 データ処理手段
20 外部ストレージ装置
100 アーカイブストレージ装置
101 名前空間管理部
102 データグループ管理部
103 データ格納部
104 インデックスデータ格納部
105 外部ストレージ装置管理部
106 名前空間データ格納部
151 データ圧縮/展開処理部
152 データグループ制御部
153 管理データ格納部
154 データ解析モジュール

Claims (11)

  1. 少なくとも1つ以上の外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置であって、
    前記外部ストレージ装置から読み出したデータのファイルの種別を判定する名前空間管理手段と、
    前記名前空間管理手段によって判定されたファイルの種別ごとにデータを分割するデータ分割手段と、
    前記データ分割手段によって分割されたデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成するデータグループ制御手段と、
    重複するデータを代替データに置き換えて、前記代替データを前記データグループ制御手段によってグループ化されたグループ単位でまとめて圧縮するデータ処理手段とを備えた
    ことを特徴とするアーカイブストレージ装置。
  2. データ分割手段は、ファイルの種別ごとに異なる分割方法でデータを分割する
    請求項1記載のアーカイブストレージ装置。
  3. データ処理手段は、外部ストレージ装置から読み出したデータがファイルの種別に対応するデータ分割手段によって分割されない場合、または、当該データのファイルがデータグループ制御手段によってグループ化されなかった場合には、当該データをファイル単位で圧縮する
    請求項1または請求項2記載のアーカイブストレージ装置。
  4. データ制御手段は、アーカイブストレージ装置に格納されているデータの読み出しを要求された場合に、当該データのファイルが属するグループを判定し、
    データ処理手段は、前記データグループ制御手段に判定されたグループに関するインデックスを示すインデックスデータ、および圧縮データを元に当該データを展開する
    請求項1から請求項3のうちのいずれか1項に記載のアーカイブストレージ装置。
  5. データ処理手段は、アーカイブストレージ装置に格納されているデータの読み出しを要求された場合に、当該データのファイルが属するグループに関するインデックスを示すインデックスデータを保存し、インデックスデータおよび圧縮データを元に、当該データのファイルと同じグループに属する他のファイルのデータも展開する
    請求項4に記載のアーカイブストレージ装置。
  6. 少なくとも1つ以上のデータアクセスクライアントと、少なくとも1つ以上の外部ストレージ装置と、前記外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置とがネットワークを介して接続されるストレージシステムであって、
    前記外部ストレージ装置は、前記データアクセスクライアントからの命令に応じてデータを格納し、
    前記アーカイブストレージ装置は、
    前記外部ストレージ装置から読み出したデータのファイルの種別を判定する名前空間管理手段と、
    前記名前空間管理手段によって判定されたファイルの種別ごとにデータを分割するデータ分割手段と、
    前記データ分割手段によって分割されたデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成するデータグループ制御手段と、
    重複するデータを代替データに置き換えて、前記代替データを前記データグループ制御手段によって生成されたグループ単位でまとめて圧縮するデータ処理手段とを備えた
    ことを特徴とするストレージシステム。
  7. データ分割手段は、ファイルの種別ごとに異なる分割方法でデータを分割する
    請求項6記載のストレージシステム。
  8. 少なくとも1つ以上の外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置におけるデータ格納方法であって、
    前記外部ストレージ装置から読み出したデータのファイルの種別を判定し、
    前記判定したファイルの種別ごとにデータを分割し、
    前記分割したデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成し、
    重複するデータを代替データに置き換えて、前記代替データを前記グループ化されたグループ単位でまとめて圧縮する
    ことを特徴とするデータ格納方法。
  9. ファイルの種別ごとに異なる分割方法でデータを分割する
    請求項8記載のデータ格納方法。
  10. 少なくとも1つ以上の外部ストレージ装置に格納されているデータを読み出して格納するアーカイブストレージ装置に備えられたコンピュータに、
    前記外部ストレージ装置から読み出したデータのファイルの種別を判定する処理と、
    前記判定したファイルの種別ごとにデータを分割する処理と、
    前記分割したデータにおける重複の度合いに応じてファイルをグループ化するとともに、グループ化するファイルのインデックスを作成する処理と、
    重複するデータを代替データに置き換えて、前記代替データを前記グループ化されたグループ単位でまとめて圧縮する処理とを実行させるための
    データ格納プログラム。
  11. コンピュータに、
    ファイルの種別ごとに異なる分割方法でデータを分割する処理を実行させるための
    請求項10記載のデータ格納プログラム。
JP2009142361A 2009-06-15 2009-06-15 アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム Active JP5463746B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009142361A JP5463746B2 (ja) 2009-06-15 2009-06-15 アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009142361A JP5463746B2 (ja) 2009-06-15 2009-06-15 アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム

Publications (2)

Publication Number Publication Date
JP2010287167A true JP2010287167A (ja) 2010-12-24
JP5463746B2 JP5463746B2 (ja) 2014-04-09

Family

ID=43542797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009142361A Active JP5463746B2 (ja) 2009-06-15 2009-06-15 アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム

Country Status (1)

Country Link
JP (1) JP5463746B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012053152A1 (ja) * 2010-10-19 2012-04-26 日本電気株式会社 ストレージシステム、データ管理装置、方法及びプログラム
JP2014514620A (ja) * 2011-08-19 2014-06-19 株式会社日立製作所 ストレージ装置及び重複データ検出方法
JP2023501656A (ja) * 2020-01-06 2023-01-18 アーミク カンパニー,リミテッド データの送信および照会時の費用を最小化するためのデータアーカイビング方法およびシステム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04360246A (ja) * 1991-06-06 1992-12-14 Toshiba Corp ファイル圧縮装置
JP2003150323A (ja) * 2001-11-13 2003-05-23 Hitachi Ltd 情報記憶装置
JP2003524243A (ja) * 2000-02-18 2003-08-12 アヴァマー テクノロジーズ インコーポレイテッド 共通性ファクタリングシステムに用いられるハッシュファイルシステムおよび方法
JP2006201843A (ja) * 2005-01-18 2006-08-03 C-Grip:Kk 通信方法及び装置
WO2008026186A2 (en) * 2006-09-01 2008-03-06 Pacbyte Software Pty Limited Method and system for transmitting a data file over a data network
JP2008129678A (ja) * 2006-11-17 2008-06-05 Nec Corp ファイル圧縮自動判定方式および方法、並びに、プログラム
JP2008158993A (ja) * 2006-12-26 2008-07-10 Hitachi Ltd ストレージシステム
JP2008533571A (ja) * 2005-03-11 2008-08-21 ロックソフト リミテッド 低冗長記憶システム内のサブブロックの存在を検出する方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04360246A (ja) * 1991-06-06 1992-12-14 Toshiba Corp ファイル圧縮装置
JP2003524243A (ja) * 2000-02-18 2003-08-12 アヴァマー テクノロジーズ インコーポレイテッド 共通性ファクタリングシステムに用いられるハッシュファイルシステムおよび方法
JP2003150323A (ja) * 2001-11-13 2003-05-23 Hitachi Ltd 情報記憶装置
JP2006201843A (ja) * 2005-01-18 2006-08-03 C-Grip:Kk 通信方法及び装置
JP2008533571A (ja) * 2005-03-11 2008-08-21 ロックソフト リミテッド 低冗長記憶システム内のサブブロックの存在を検出する方法
WO2008026186A2 (en) * 2006-09-01 2008-03-06 Pacbyte Software Pty Limited Method and system for transmitting a data file over a data network
JP2008129678A (ja) * 2006-11-17 2008-06-05 Nec Corp ファイル圧縮自動判定方式および方法、並びに、プログラム
JP2008158993A (ja) * 2006-12-26 2008-07-10 Hitachi Ltd ストレージシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012053152A1 (ja) * 2010-10-19 2012-04-26 日本電気株式会社 ストレージシステム、データ管理装置、方法及びプログラム
JP2014514620A (ja) * 2011-08-19 2014-06-19 株式会社日立製作所 ストレージ装置及び重複データ検出方法
JP2023501656A (ja) * 2020-01-06 2023-01-18 アーミク カンパニー,リミテッド データの送信および照会時の費用を最小化するためのデータアーカイビング方法およびシステム
JP7387116B2 (ja) 2020-01-06 2023-11-28 アーミク カンパニー,リミテッド データの送信および照会時の費用を最小化するためのデータアーカイビング方法およびシステム

Also Published As

Publication number Publication date
JP5463746B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
US9875029B2 (en) Network-attached storage enhancement appliance
US9880746B1 (en) Method to increase random I/O performance with low memory overheads
CN103098035B (zh) 存储系统
US8904137B1 (en) Deduplication system space recycling through inode manipulation
US8712963B1 (en) Method and apparatus for content-aware resizing of data chunks for replication
US11954373B2 (en) Data structure storage and data management
JP5485866B2 (ja) 情報管理方法、及び情報提供用計算機
US7548928B1 (en) Data compression of large scale data stored in sparse tables
US7844643B2 (en) Storage management system with integrated continuous data protection and remote copy
KR20170054299A (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US11151030B1 (en) Method for prediction of the duration of garbage collection for backup storage systems
WO2012056493A1 (en) File management method and computer system
US9922041B2 (en) Storing data files in a file system
US10628298B1 (en) Resumable garbage collection
JP6527462B2 (ja) 圧縮装置、圧縮方法、記録媒体および伸張装置
WO2017042978A1 (ja) 計算機システム、ストレージ装置、及びデータの管理方法
Zhai et al. Hadoop perfect file: A fast and memory-efficient metadata access archive file to face small files problem in hdfs
CN104965835A (zh) 一种分布式文件系统的文件读写方法及装置
US10331362B1 (en) Adaptive replication for segmentation anchoring type
JP5463746B2 (ja) アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム
JP5444728B2 (ja) ストレージシステム、ストレージシステムにおけるデータ書込方法及びデータ書込プログラム
US10083121B2 (en) Storage system and storage method
JP7007565B2 (ja) 情報処理装置および情報処理プログラム
JP5494817B2 (ja) ストレージシステム、データ管理装置、方法及びプログラム
EP3819754B1 (en) Information processing apparatus and recording medium storing information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140106

R150 Certificate of patent or registration of utility model

Ref document number: 5463746

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150