JP2018159999A - ストレージシステム - Google Patents

ストレージシステム Download PDF

Info

Publication number
JP2018159999A
JP2018159999A JP2017055640A JP2017055640A JP2018159999A JP 2018159999 A JP2018159999 A JP 2018159999A JP 2017055640 A JP2017055640 A JP 2017055640A JP 2017055640 A JP2017055640 A JP 2017055640A JP 2018159999 A JP2018159999 A JP 2018159999A
Authority
JP
Japan
Prior art keywords
file
file table
divided data
files
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017055640A
Other languages
English (en)
Other versions
JP6337982B1 (ja
Inventor
ジェームズ俊介 レイノルズ
Shunsuke Reynolds James
ジェームズ俊介 レイノルズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017055640A priority Critical patent/JP6337982B1/ja
Priority to US15/912,908 priority patent/US20180276236A1/en
Application granted granted Critical
Publication of JP6337982B1 publication Critical patent/JP6337982B1/ja
Publication of JP2018159999A publication Critical patent/JP2018159999A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Retry When Errors Occur (AREA)

Abstract

【課題】重複排除を行ってデータを格納するストレージシステムにおいて、リストアの高速化を図ること。
【解決手段】本発明のストレージシステムは、重複排除ストレージ装置と、ファイルの格納状況を表すファイルテーブルに基づいてファイルの読み出しを行う複数の読み出し装置と、を備え、ファイルを特定するファイル特定情報と、当該ファイルを構成する分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、ファイルテーブルに基づいて、複数のファイルがグループを形成するようファイルテーブルを変更するファイルテーブル変更部と、を備える。
【選択図】図10

Description

本発明は、ストレージシステムにかかり、特に、重複記憶排除機能を有するストレージ装置に対するデータ記憶を制御するストレージシステムに対する。
近年、コンピュータの発達及び普及に伴い、種々の情報がデジタルデータ化されている。このようなデジタルデータを保存しておく装置として、磁気テープや磁気ディスクなどの記憶装置がある。そして、保存すべきデータは日々増大し、膨大な量となるため、大容量なストレージシステムが必要となっている。また、記憶装置に費やすコストを削減しつつ、信頼性も必要とされる。これに加えて、後にデータを容易に取り出すことが可能であることも必要である。その結果、自動的に記憶容量や性能の増大を実現できると共に、重複記憶を排除して記憶コストを削減し、さらには、冗長性の高いストレージシステムが望まれている。
このような状況に応じて、近年では、特許文献1に示すように、コンテンツアドレスストレージシステムが開発されている。このコンテンツアドレスストレージシステムは、データを分散して複数の記憶装置に記憶すると共に、このデータの内容に応じて特定される固有のコンテンツアドレスによって、当該データを格納した格納位置が特定される。また、コンテンツアドレスストレージシステムの中には、所定のデータを複数のフラグメントに分割すると共に、冗長データとなるフラグメントをさらに付加して、これら複数のフラグメントをそれぞれ複数の記憶装置にそれぞれ格納する、というものもある。
そして、上述したようなコンテンツアドレスストレージシステムでは、後に、コンテンツアドレスを指定することにより、当該コンテンツアドレスにて特定される格納位置に格納されているデータつまりフラグメントを読み出し、複数のフラグメントから分割前の所定のデータを復元することができる。
また、上記コンテンツアドレスは、データの内容に応じて固有となるよう生成される値、例えばデータのハッシュ値、に基づいて生成される。このため、重複データであれば同じ格納位置のデータを参照することで、同一内容のデータを取得することができる。従って、重複データを別々に格納する必要がなく、重複記録を排除して、データ容量の削減を図ることができる。
特に、上述したような重複排除ストレージシステムでは、ファイルなど書き込み対象となるデータを所定容量の複数のブロックデータに分割して圧縮し、記憶装置に書き込む。このように、ファイルを分割したブロックデータ単位で重複記憶を排除することで、重複率が増大し、データ容量の削減を図っている。
ここで、多くの組織では、機器故障、誤操作、災害などによるデータロスが起こっても事業が継続できるよう、業務上のデータをバックアップするための専用のバックアップシステムを用意している。一般に、バックアップデータは重複率が高いため、バックアップシステムに上述したような重複排除ストレージ装置が利用される。
このような状況において、複雑なIT(Information Technology)システムをもつ組織では、多数のバックアップサーバを統一的に管理して多数の業務用サーバのバックアップを行うことが求められる。一方、データロスの際にも事業を中断せずに継続するためには、短期間で高速にバックアップデータをリストアすることが求められる。ここで、バックアップに重複排除ストレージ装置を用いたストレージシステムの構成の一例を、図1乃至図2を参照して説明する。
図1に示すストレージシステムは、バックアップ対象のデータを持つ1つ以上の業務用サーバ10と、バックアップ処理を実行する1つ以上のバックアップサーバ20と、バックアップを管理するバックアップ管理サーバ30と、バックアップデータが格納される重複排除ストレージ装置40と、を備えている。このとき、全ての業務用サーバ10は、全てのバックアップサーバ20にネットワークを介して接続されており、また、全てのバックアップサーバ20は、重複排除ストレージ装置40にネットワークを介して接続されている。また、バックアップ管理サーバ30が、各業務用サーバ10、バックアップサーバ20、重複排除ストレージ装置40に接続されている。
図2に、上述した各装置が備える構成要素を示す。業務用サーバ10は、1つ以上のバックアップ対象ファイル11を持つ。
バックアップサーバ20は、業務用サーバ10(または重複排除ストレージ装置40)からファイルを読み出し、書き込むためのファイル読み出し/書き込み部22を持つ。また、バックアップサーバ20は、業務用サーバ10のどのファイルをバックアップ/リストアすべきかを規定するとともに、ファイル読み出し/書き込み部22を使用して、ファイルの重複排除ストレージ装置40へのバックアップまたは業務用サーバ10へのリストアを実現するバックアップジョブ21を持つ。
さらに、バックアップサーバ20は、チャンク分割/結合部24、ストレージ連携重複排除部25、チャンク保持領域26、を有するクライアント側重複排除モジュール23を備える。チャンク分割/結合部24は、読み出したバックアップ対象ファイルをチャンク(重複排除のデータ単位)に分割し、ストレージ連携重複排除部25を使用して、既に重複排除ストレージ装置40に記憶されていないチャンクを判別する。そして、ストレージ連携重複排除部25は、新しいチャンクのみ重複排除ストレージ装置40に書き込み、既に記憶されているチャンクは、重複排除ストレージ装置40に格納されているチャンクを参照させる。また、チャンク保持領域26は、リストアを高速化する目的で、分割したチャンクの一部をキャッシュのようにして保持する。
バックアップ管理サーバ30は、バックアップジョブ設定部31を有し、各バックアップサーバ20のバックアップジョブ21を設定する。そして、バックアップ管理サーバ30は、バックアップ/リストア実行部32を有し、各バックアップサーバ20のバックアップジョブ21の実行を制御する。
重複排除ストレージ装置40は、業務用サーバ10のバックアップ対象ファイル11のデータを最終的に格納するストレージ領域42を有する。そして、重複排除ストレージ装置40は、書き込んだデータを重複排除する機能(データのチャンクへの分割やチャンクとファイルの対応関係の管理など)を有する重複排除部41を備える。
上述した構成のストレージシステムにおいては、業務システム環境つまり全ての業務用サーバ10のバックアップを行う際、バックアップ管理サーバ30の制御のもと、あらかじめ設定された各バックアップジョブに則って、それぞれの業務用サーバ10のバックアップ対象ファイルがそれぞれのバックアップサーバ20にて読み出される。なお、バックアップジョブは、一般に、バックアップの高速性などバックアップ時の都合に基づいて設定される。
バックアップサーバ20では、チャンク分割/結合部24がバックアップ対象ファイルをチャンクに分割し、ストレージ連携重複排除部25が重複排除ストレージ装置40にチャンクが既に存在するかどうかを確認する。そして、ストレージ連携重複排除部25は、重複排除ストレージ装置40内に存在しないチャンクのデータを、当該ストレージ装置40に書き込む。一方、既に存在する場合は、データの代わりにチャンクのハッシュ値を送り、重複排除ストレージ装置40では既に存在するデータを参照することで、チャンクのデータが書き込まれたとみなす。このバックアップの際に、バックアップサーバ30は、読み出したバックアップ対象ファイルを構成するチャンクの一部を、自身のチャンク保持領域26に格納する。
一方、業務用サーバ10に障害があった場合には、バックアップストレージからリストアが必要となる。この際、バックアップ管理サーバ30の制御のもと、リストア対象の業務用サーバ10のファイルをバックアップしたバックアップサーバ20により、リストア対象の業務用サーバ10のファイルが重複排除ストレージ装置40から読み出され、業務用サーバ10に書き込むことでリストアが行われる。
このリストア処理において、バックアップサーバ20が重複排除ストレージ装置40からデータを読み出す際には、チャンク単位でデータが読み出され、チャンク分割/結合部24によりファイルが作られ、業務用サーバ10にリストアされる。なお、ある業務用サーバ10のリストア対象ファイルは、バックアップジョブに設定されているバックアップ対象ファイルと同様であり、同じバックアップサーバ20が同じファイルのバックアップおよびリストアを担当する。
さらに、重複排除ストレージ装置40からチャンクを読み出す際には、チャンク保持領域26を確認し、既にチャンクがチャンク保持領域26に格納されている場合には、重複排除ストレージ装置40から読み出すのではなく、直接、チャンク保持領域26のデータを使用して読み出す。チャンクを重複排除ストレージ装置40ではなくチャンク保持領域26から読み出すことにより、重複排除ストレージ装置40からの読み出しデータ量を低減させ、リストア時間を短縮することができる。
特開2005−235171号公報 特開2011−198321号公報
しかしながら、一般的に全ての業務用サーバ10に含まれるバックアップ対象ファイルのデータ総量に対して、全てのバックアップサーバ20のチャンク保持領域26の容量は非常に小さい。このため、上述したリストア方法では、データ転送量の削減やリストア時間の短縮の効果が小さくなってしまい、さらなるリストアの高速化を図ることができない。
また、バックアップの際には、バックアップジョブがバックアップ処理の高速性/容易性に基づいて設定されることがあるが、そのようなバックアップジョブにより、リストアには最適ではない設定となる場合がある。例えば、特許文献2では、バックアップ状況記録を記憶しておき、かかる記録に基づいてリストアを行っている場合がある。このように、バックアップの設定をそのままリストアに用いる場合には、例えば、複数の業務用サーバのデータが1つのバックアップサーバ20からバックアップ及びリストアされることや、1つのファイルが複数のバックアップサーバ20からリストアされることもあり得る。すると、バックアップサーバ20の効率的な利用を図ることができず、リストアのさらなる高速化を図ることができない、という問題が生じる。
このため、本発明の目的は、上述した課題である、重複排除を行ってデータを格納するストレージシステムにおいて、データの読み取りやリストアの高速化を図ることができない、ことを解決することにある。
本発明の一形態であるストレージシステムは、
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置と、
前記重複排除ストレージ装置への前記ファイルの格納状況を表すファイルテーブルに基づいて、前記重複排除ストレージ装置から前記ファイルの読み出しを行う複数の読み出し装置と、
を備えたストレージシステムであって、
前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成された前記ファイルテーブルを取得するファイルテーブル取得部と、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
を備えた、
という構成をとる。
また、本発明の一形態である情報処理装置は、
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置、への前記ファイルの格納状況を表し、前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
を備えた、
という構成をとる。
また、本発明の一形態であるプログラムは、
情報処理装置に、
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置、への前記ファイルの格納状況を表し、前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
を実現させる、
という構成をとる。
また、本発明の一形態である情報処理方法は、
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置と、
前記重複排除ストレージ装置への前記ファイルの格納状況を表すファイルテーブルに基づいて、前記重複排除ストレージ装置から前記ファイルの読み出しを行う複数の読み出し装置と、
を備えたストレージシステムによる情報処理方法であって、
前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成された前記ファイルテーブルを取得し、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更する、
という構成をとる。
本発明は、以上のように構成されることにより、重複排除を行ってデータを格納するストレージシステムにおいて、データの読み出しやリストアの高速化を図ることができる。
本発明の実施形態1におけるストレージシステム全体の構成を示すブロック図である。 本発明に関連するストレージシステムの構成を示すブロック図である。 本発明の実施形態1におけるストレージシステムの構成を示すブロック図である。 図3に開示したリストア対象ファイルテーブルに記憶されるデータの一例を示す図である。 図3に開示したチャンクテーブルに記憶されるデータの一例を示す図である。 図3に開示したバックアップ管理サーバによる処理の様子を説明するための図である。 図3に開示したストレージシステムにおける動作を示すフローチャートである。 図3に開示したストレージシステムにおける動作を示すフローチャートである。 図3に開示したストレージシステムにおける動作を示すフローチャートである。 本発明の実施形態2におけるストレージシステムの構成を示すブロック図である。
<実施形態1>
本発明の第1の実施形態を、図3乃至図9を参照して説明する。図3乃至図5は、ストレージシステムの構成を説明するための図である。図6乃至図9は、ストレージシステムの動作を説明するための図である。
[構成]
本発明におけるストレージシステムは、上述した図1と同様の構成を有する。つまり、ストレージシステムは、バックアップ対象のデータを持つ1つ以上の業務用サーバ10と、バックアップ処理を実行する1つ以上のバックアップサーバ20と、バックアップを管理するバックアップ管理サーバ30と、バックアップデータが格納される重複排除ストレージ装置40と、を備えている。なお、図1では、業務用サーバ10が3つ、バックアップサーバ20が3つ、バックアップ管理サーバ30が1つ、重複排除ストレージ装置40が1つである構成を示しているが、各サーバ・装置の数は、図1で示すものに限定されない。
図3に、本実施形態におけるストレージシステムが備える各サーバ・装置が備える構成要素を示す。ストレージシステムは、基本的には、上述した図2と同様の構成を有し、これに加え、いくつかの追加構成を備える。
業務用サーバ10は、1つ以上のバックアップ対象ファイル11を持つ。
バックアップサーバ20は、業務用サーバ10(または重複排除ストレージ装置40)からファイルを読み出し、書き込むためのファイル読み出し/書き込み部22を持つ。また、バックアップサーバ20は、業務用サーバ10のどのファイルをバックアップ/リストアすべきかを規定するとともに、ファイル読み出し/書き込み部22を使用して、ファイルの重複排除ストレージ装置40へのバックアップまたは業務用サーバ10へのリストアを実現するバックアップジョブ21を持つ。
さらに、バックアップサーバ20は、チャンク分割/結合部24、ストレージ連携重複排除部25、チャンク保持領域26、を有するクライアント側重複排除モジュール23を備える。チャンク分割/結合部24は、読み出したバックアップ対象ファイルをチャンク(重複排除のデータ単位:分割データ)に分割し、ストレージ連携重複排除部25を使用して、既に重複排除ストレージ装置40に記憶されていないチャンクを判別する。そして、ストレージ連携重複排除部25は、新しいチャンクのみ重複排除ストレージ装置40に書き込み、既に記憶されているチャンクは、重複排除ストレージ装置40に格納されているチャンクを参照させる。また、チャンク保持領域26は、分割したチャンクの一部を、リストアを高速化する目的で、キャッシュのようにして保持する。
また、バックアップサーバ20は、チャンク分割/結合部24により、ファイルを読み出したり、業務用サーバ10にリストアする際に、チャンク単位でデータを読み出してファイルを作成する読み出し装置として機能する。このとき、バックアップサーバ20は、後述するように、自身に記憶されたリストア対象ファイルテーブル(ファイルテーブル)を参照して行う。
バックアップ管理サーバ30は、バックアップジョブ設定部31を有し、各バックアップサーバ20のバックアップジョブ21を設定する。そして、バックアップ管理サーバ30は、バックアップ/リストア実行部32を有し、各バックアップサーバ20のバックアップジョブ21の実行を制御する。
重複排除ストレージ装置40は、業務用サーバ10のバックアップ対象ファイル11のデータを最終的に格納するストレージ領域42を有する。そして、重複排除ストレージ装置40は、書き込んだデータを重複排除する機能(データのチャンクへの分割やチャンクとファイルの対応関係の管理など)を有する重複排除部41を備える。
上記構成に加え、本実施形態におけるバックアップサーバ20は、リストア対象ファイルテーブル27と、チャンクテーブル28と、を有する。なお、リストア対象ファイルテーブル27とチャンクテーブル28とは、それぞれ各バックアップサーバ20が有している。
上記リストア対象ファイルテーブル27(ファイルテーブル)は、バックアップの際に、各リストア対象ファイルのエントリを追加し、当該ファイルの管理する情報が記憶される。例えば、リストア対象ファイルテーブル27は、図4に示すように、各リストア対象ファイルについて、「リストア先」と、「パス/ファイル名」と、チャンクの「ハッシュ値」と、チャンクのファイル内における「オフセット」と、が関連付けられている。
上記「リストア先」は、ファイルのバックアップ元でありリストア先となる業務用サーバ10(リストア先装置)を示す情報である。「パス/ファイル名」は、リストア対象ファイルのパスとファイル名を示し、リストア対象ファイルを特定するファイル特定情報のである。「ハッシュ値」は、ファイルを構成する全てのチャンクのハッシュ値であり、チャンクの内容に応じて算出され、チャンクを特定する分割データ特定情報となる。「オフセット」は、ファイル内におけるチャンクの位置を表す情報である。なお、一般に、1つのファイルは多数のチャンクから構成される。
そして、リストア対象ファイルテーブル27は、バックアップサーバ20において、リストアを行う際に参照される。つまり、バックアップサーバ20は、リストア対象ファイルテーブル27に基づいて、チャンク分割/結合部24によりチャンク単位でデータを読み出してファイルを作成することで、業務用サーバ10にリストアする。なお、リストア対象ファイルテーブル27は、後述するように、バックアップ管理サーバ30によって変更されうる。
また、上記チャンクテーブル28は、上述したバックアップの際に、各チャンクの情報が記憶される。例えば、チャンクテーブル28は、図5に示すように、各チャンクの「ハッシュ値」、「チャンク保持対象(Yes,No)」、「重複回数」の情報を含む。「チャンク保持対象」は、テーブルを記憶しているバックアップサーバ20がそのチャンクを保持対象とするかどうかを表す情報である。「重複回数」は、テーブルを記憶しているバックアップサーバ20が扱うデータ(リストア対象ファイルテーブル27内の全ファイル)の中での重複回数を表す情報である。
また、本実施形態におけるバックアップ管理サーバ30は、リストア対象ファイル最適化部33を備える。リストア対象ファイル最適化部33は、全てのバックアップサーバ20から、リストア対象ファイルテーブル27およびチャンクテーブル28の情報を取得するファイルテーブル取得部として機能する。
また、リストア対象ファイル最適化部33は、収集したリストア対象ファイルテーブル27を変更するファイルテーブル変更部として機能する。リストア対象ファイル最適化部33は、例えば、「ハッシュ値」が同一であるチャンクに関連付けられた複数のファイル、つまり、同一のチャンクを含む複数のファイル、を同一のグループに含め、当該同一のグループを1つのリストア対象ファイルテーブルに含めるよう、リストア対象ファイルテーブルを変更する。このとき、同一のチャンクを含む複数のファイルのグループに、当該複数のファイルをそれぞれ構成する他のチャンクと同一のチャンクを含む他のファイルも含め、当該グループを1つのリストア対象ファイルテーブルに含めるよう変更する。なお、リストア対象ファイルテーブルの変更については、動作説明時に詳述する。
なお、リストア対象ファイル最適化部33は、必ずしもチャンクの「ハッシュ値」が同一であるかによってファイルをグループ分けすることに限定されない。例えば、チャンクが共通の特徴を有する複数のファイルを同一のグループに含めるなど、他の方法によって、複数のファイルを同一のグループに含め、当該グループを1つのリストア対象ファイルテーブルに含めるよう変更してもよい。
また、リストア対象ファイル最適化部33は、上述したリストア対象ファイルテーブル27の変更と併せて、チャンクテーブル28の変更も行う。つまり、上述したリストア対象ファイルテーブル27の変更により、バックアップサーバ20が管理するファイルが変更されるため、それに対応してチャンクの「チャンク保持対象」や「重複回数」の情報を変更する。
また、リストア対象ファイル最適化部33は、変更したリストア対象ファイルテーブル27及びチャンクテーブル28を、それぞれ各バックアップサーバ20に送信して更新する。
そして、上記バックアップサーバ20は、リストアなどの際に、チャンク分割/結合部24により、上述したように更新されたリストア対象ファイルテーブルに基づいて、重複排除ストレージ装置40及びチャンク保持領域26から、チャンク単位でデータを読み出してファイルを作成する。なお、チャンク保持領域26には、更新されたリストア対象ファイルテーブルに基づいて更新されたチャンクテーブル28を参照して、チャンクが格納される。例えば、チャンク保持領域26には、バックアップサーバ20が割り当てられたリストア対象ファイルテーブルに含まれる同一グループに含められた複数のファイルに共通するチャンクが格納される。このとき、特に、チャンク保持領域26には、ファイル間で重複する回数が多いチャンクが優先して格納される。
なお、上述したバックアップサーバ20、バックアップ管理サーバ30、重複排除ストレージ装置40が有する各部は、各サーバ・装置が装備する演算装置にプログラムが組み込まれることで構築される。
[動作]
次に、上述した構成のストレージシステムの動作を、図6乃至図9を参照して説明する。図6は、バックアップ管理サーバによるリストア対象ファイルテーブルの変更処理の様子を示す図である。図7乃至図9は、ストレージシステムの動作を示すフローチャートである。なお、以下では、ストレージシステムによる、バックアップ処理、リストア対象の更新処理、リストア時の処理、について説明する。
<バックアップ処理>
まず、全業務用サーバ10のデータ(全てのバックアップ対象ファイル11)をバックアップする際の処理を、図7のフローチャートを参照して説明する。
最初に、バックアップ管理サーバ30が、各バックアップサーバ20にバックアップの実行開始の指示を送る(ステップA1)。
続いて、バックアップ管理サーバ30からバックアップの実行を指示されたバックアップサーバ20は、バックアップジョブにおいて指示されたバックアップ対象が設定されている場合、設定されているバックアップ対象ファイル11をバックアップする(ステップA2)。この例では、全ての業務用サーバ10の全てのバックアップ対象ファイル11をバックアップする。
ファイルのバックアップを行うためには(ステップA3)、まず、バックアップサーバ20がバックアップ対象ファイル11を業務用サーバ10から読み出す(ステップA4)。次に、チャンク分割/結合部24が、バックアップ対象ファイル11をチャンクに分割する(ステップA5)。このとき、チャンクへの分割は、一定バイト数ごとの分割、またはデータのビット列のハッシュ値が特定の条件に当てまる箇所で分割する、などの方法で行う。
続いて、チャンクに分割した後に、バックアップサーバ20が処理しているファイルのエントリを、当該バックアップサーバ20が保持しているリストア対象ファイルテーブル27に追加する。例えば、図4に示すように、ファイルが置かれている業務用サーバ、ファイル名/パス、ファイルを構成する全てのチャンクのハッシュ値とオフセットの情報を、リストア対象ファイルテーブル27に記録する。また、チャンクテーブル28に、バックアップサーバ20にて処理した各チャンクのハッシュ値と、バックアップサーバ20が処理した今回のバックアップにおいて同じチャンクが現れた回数、を記録する(ステップA6)。
次に、バックアップサーバ20は、ストレージ連携重複排除部25を使用して、重複排除ストレージ装置40に対して、チャンクが既に重複排除ストレージ装置40に格納されているかどうかを問合せて判定する(ステップA7)。重複排除ストレージ装置40にチャンクが格納されていない場合は、チャンクのデータを重複排除ストレージ装置40に書き込み、既にチャンクが格納されている場合は、チャンクを表すハッシュ値のみを重複排除ストレージ装置40に送る(ステップA8)。つまり、既にチャンクが格納されている場合は、重複排除ストレージ装置40に記憶されているチャンクを、当該チャンクのハッシュ値に基づくコンテンツアドレスで参照することで、当該チャンクの重複記憶を排除する。
バックアップサーバ20から重複排除ストレージ装置40にファイルを書き込んだ後、バックアップサーバ20のチャンク保持領域26に、チャンク分割処理の際に作られたチャンクを格納する(ステップA9)。このとき、一般に、1回のバックアップで生成されるチャンクの合計データ量はチャンク保持領域の容量よりも大きいため、LRUなどの法則に従い、チャンク保持領域26に保持するチャンクを選択する。
<リストア対象の更新処理>
次に、バックアップ後の各バックアップサーバ20のリストア対象の更新処理を、図8のフローチャートを参照して説明する。
バックアップが完了後、まず、バックアップ管理サーバ30が、全てのバックアップサーバ20に格納されているリストア対象ファイルテーブル27およびチャンクテーブル28の情報を、バックアップ管理サーバ30にコピーする(ステップB1)。これにより、前回のバックアップにおいて生成された全てのリストア対象ファイルとチャンクの情報がバックアップ管理サーバ30に収集される。
次に、全てのリストア対象ファイルテーブル27のファイルとチャンクの情報より、同一のチャンクを含むファイルを調べて、これら重複するチャンクを含むファイルをまとめたグループ(またはクラスタ)を作成する(ステップB2)。また、同一チャンクを含まない2つのファイルであっても、どちらも同じ第3のファイルのチャンクと共有する場合には、これらを同じグループに含める。つまり、重複するチャンクを含むことにより同一グループに含められたファイルのうち、少なくとも1つとチャンクを共通する他のファイルも、この同一グループに含めることとする。
グループ作成の一例を、図6を参照して説明する。まず、ファイルF1がチャンクc1,c2,c3から、ファイルF2がチャンクc1,c4から、ファイルF3がチャンクc3,c5,c6から、ファイルF4がチャンクc7,c8から、ファイルF5がチャンクc7,c9,...から構成されていることとする。この場合、ファイルF1とファイルF2はどちらもチャンクc1を含むため、同じグループG1に含まれる。また、ファイルF1とファイルF3はどちらもチャンクc3を含むため、同じグループG1に含まれる。したがって、ファイルF2とファイルF3は同一のチャンクをもたないが、ファイルF1、F2、F3は全て同じグループG1に含める。一方で、ファイルF4とファイルF5は、どちらもチャンクc7を含むが、グループG1のファイルとは同一のチャンクを持たない。このため、ファイルF4、F5は、グループG1とは異なるグループG2に含める。
上述した処理により、重複部分を持ったファイルから構成されるファイルのグループが多数作成される。また、他のファイルと重複するチャンクを持たない、グループに含まれないファイルも多数残ることとなる。
次に、上述したグループ生成に伴い、バックアップ管理サーバ30内で、それぞれのバックアップサーバ20のリストア対象ファイルテーブルおよびチャンクテーブルの内容に変更を加え、更新された新しいリストア対象ファイルテーブルおよびチャンクテーブルを作成する(ステップB3)。この時、各バックアップサーバ20のリストア対象ファイルテーブルにファイルを含める(リストアをアサインする)にあたって、以下のポリシーに従う。
・ポリシー1
ステップB2で作成した、同一グループに含まれるファイルは、同一のバックアップサーバ20にリストをアサインする。つまり、1つのグループは、1つのリストア対象ファイルテーブルに含めて、1つのバックアップサーバ20に割り当てられるようにする。このとき、複数のグループが、各バックアップサーバ20に均等に分散して割り当てられるようにもする。このときさらに、グループに含まれるファイルの総容量がバックアップサーバ20間で概ね均等となるように、ファイルのリストアをアサインする。
・ポリシー2
また、各業務用サーバ10のデータが、各バックアップサーバ20に均等に割り当てられるように、ファイルのリストアをアサインする。つまり、リストアの際にいずれの業務用サーバ10を選んでも、その業務用サーバ10のファイルが、全てのバックアップサーバ12に均等に分散されるように、リストアがアサインされている。このとき、例えば、各業務用サーバ10のデータの容量やファイル数が、全てのバックアップサーバ20に均等に分散されるように、リストアがアサインされる。
上記ポリシーに従い、各バックアップサーバ20に割り当てられるリストア対象ファイルテーブルを更新すると、当該リストア対象ファイルテーブルの内容に対応するよう、各バックアップサーバ20に割り当てられるチャンクテーブルを更新する。このとき、割り当てられたバックアップサーバ20でチャンクが重複する回数を更新し、チャンクテーブルの中で、重複回数の高いチャンクから優先的に、チャンク保持対象に「Yes」をマークする。このマークがついているチャンクは、割り当てられたバックアップサーバ20内のチャンク保持領域26に格納されることを示す
次に、バックアップ管理サーバ30において更新した、各バックアップサーバ20に割り当てられるリストア対象ファイルテーブルおよびチャンクテーブルの情報を、各バックアップサーバ20にコピーする。これにより、古いテーブルを新しいテーブルの情報に更新する(ステップB4)。
最後に、各バックアップサーバ20は、更新された新しいチャンクテーブルにおいてチャンク保持対象となっているチャンクを、重複排除ストレージ装置40から読み出し、チャンク保持領域26に格納する(ステップB5)。
<リストア処理>
次に、いずれかの業務用サーバ10のリストアを実施する際の処理を、図9のフローチャートを参照して説明する。
最初に、バックアップ管理サーバ30が全てのバックアップサーバ20にリストア対象の業務用サーバ10のリストアの実行を指示する(ステップC1)。リストア実行の指示を受け、各バックアップサーバ20は、自身が記憶している割り当てられたリストア対象ファイルテーブルのファイルのうち、リストア対象の業務用サーバ10の全てのファイルのリストアを行う(ステップC2)。
そして、リストアする各ファイルについて、まず、リストア対象ファイルテーブルに記載されている構成チャンクがチャンク保持領域26に含まれているかどうかを確認する(ステップC4)。チャンク保持領域26に含まれないファイルは重複排除ストレージ装置40から読み出し(ステップC5)、チャンク保持領域26に含まれるチャンクと結合して、リストア対象ファイルを生成する(ステップC6)。最後に、バックアップサーバ20で生成したリストア対象ファイルをリストア対象の業務用サーバ10に書き出してリストアを完了する(ステップC7)。
以上のように、本発明のストレージシステムによると、上述したようにリストア対象ファイルテーブルを変更しているため、リストア時やファイル読み出し時に以下のような効果を奏する。
まず、同一グループに含まれるファイルは重複するチャンクをもつファイルであるため、同一バックアップサーバ20にアサインし、かつ重複するチャンクを優先的にチャンク保持領域26に含めることにより、1つのバックアップサーバ20で高速にファイル作成を行うことができる。また、チャンク保持領域26においてチャンクの重複排除が効率的に行われ、1つのチャンク分の容量で複数のファイルにチャンクを提供することができる。
例えば、上述した例では、ファイルF1がチャンクc1、c2、c3から、ファイルF2がチャンクc1、c4から構成されており、これらを同一グループに含めた場合を示している。このとき、ファイルF1とファイルF2それぞれに含まれるチャンクの合計数は5つであるが、チャンクc1は共通しているため、同一のバックアップサーバ20でファイル作成を行うことで、チャンクc1、c2、c3、c4の4つのチャンクを保持すれば、両方のファイルを構成する全てのチャンクを読み出すことができる。このため、チャンクの読み出し効率が向上し、リストアを効率よく高速に行うことができる。また、同一のチャンク保持領域26に複数のファイルに重複するチャンクを優先的に格納することで、チャンク保持領域26の容量効率が高くなり、リストア時のチャンクのキャッシュとしての効果が高まる。
また、上述したように作成した複数のグループをバックアップサーバ20間で均等に配置することで、チャンク保持領域26の容量効率向上の効果が、全てのバックアップサーバ20のチャンク保持領域に等しく適用される。また、リストアの負荷をバックアップサーバ20間で分散させることができる。
また、各業務用サーバ10のファイルが各バックアップサーバ20間で均等に分散されてバックアップが行われるため、各バックアップサーバ20間でリストアの負荷を分散させることができる。また、リストア対象の業務用サーバ10と各バックアップサーバ20の間のネットワーク帯域が特定箇所に集中することを抑制し、全ての帯域を活用することができるため、リストア時の転送速度を高めることができる。
なお、上記では、リストア対象ファイルテーブルやチャンクテーブルの変更をバックアップ管理サーバ30が行っている場合を例示したが、かかる処理を行う機能は、バックアップサーバ20や重複排除ストレージ装置40、あるいは、他のサーバに装備してもよい。また、各バックアップサーバ20が保持するリストア対象ファイルテーブルやチャンクテーブルは、テーブルが割り当てられるバックアップサーバ20を特定して、重複排除ストレージ装置40や他のサーバに記憶してもよい。
<実施形態2>
次に、本発明の第2の実施形態を、図10を参照して説明する。図10は、実施形態2におけるストレージシステムの構成を示すブロック図である。なお、本実施形態におけるストレージシステムは、実施形態1で説明したストレージシステムの構成の概略を示している。
図10に示すように、本実施形態おけるストレージシステムは、
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の分割データを参照することによって重複記憶を排除する重複排除ストレージ装置100と、
重複排除ストレージ装置100へのファイルの格納状況を表すファイルテーブルに基づいて、重複排除ストレージ装置100からファイルの読み出しを行う複数の読み出し装置110と、
を備える。
そして、ストレージシステムは、
ファイルを特定するファイル特定情報と、当該ファイルを構成する分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部120と、
ファイルテーブルに基づいて、複数のファイルがグループを形成するようファイルテーブルを変更するファイルテーブル変更部130と、
を備える。
上記構成によると、ファイルを構成する分割データが重複排除されている重複排除ストレージ装置100において、ファイルと分割データとの関係から、複数のファイルがグループを形成するようファイルテーブルが変更される。そして、変更されたファイルテーブルのグループに基づいて、読み出し装置が分割データを読み出してファイルを生成することで、効率よくファイルを読み出すことができ、読み出しやリストアの高速化を図ることができる。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるストレージシステム、情報処理装置、プログラム、情報処理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置と、
前記重複排除ストレージ装置への前記ファイルの格納状況を表すファイルテーブルに基づいて、前記重複排除ストレージ装置から前記ファイルの読み出しを行う複数の読み出し装置と、
を備えたストレージシステムであって、
前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成された前記ファイルテーブルを取得するファイルテーブル取得部と、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
を備えたストレージシステム。
(付記2)
付記1に記載のストレージシステムであって、
前記ファイルテーブル変更部は、前記ファイルに含まれる前記分割データが共通の特徴を有する複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
ストレージシステム。
(付記3)
付記1又は2に記載のストレージシステムであって、
前記ファイルテーブル変更部は、前記ファイルに関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
ストレージシステム。
(付記4)
付記3に記載のストレージシステムであって、
前記ファイルテーブル変更部は、関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを含む前記グループに、当該グループに含められた複数の前記ファイルをそれぞれ構成する少なくとも1の前記分割データの前記分割データ特定情報が同一である他の前記ファイルも含めるよう前記ファイルテーブルを変更する、
ストレージシステム。
(付記5)
付記1乃至4のいずれかに記載のストレージシステムであって、
複数の前記読み出し装置は、それぞれ前記ファイルテーブルが割り当てられており、当該割り当てられたファイルテーブルに基づいて前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
前記ファイルテーブル変更部は、前記グループが1つの前記ファイルテーブルに含まれるよう当該ファイルテーブルを変更する、
ストレージシステム。
(付記6)
付記5に記載のストレージシステムであって、
前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記グループが分散して含められるよう前記ファイルテーブルを変更する、
ストレージシステム。
(付記7)
付記5又は6に記載のストレージシステムであって、
複数の前記読み出し装置は、それぞれ前記分割データを格納する分割データ保持領域を備えると共に、当該分割データ保持領域及び前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、さらに、変更した前記ファイルテーブルに基づいて、同一グループに含められた複数の前記ファイルに共通する前記分割データを、前記分割データ保持領域に格納する、
ストレージシステム。
(付記8)
付記1乃至7のいずれかに記載のストレージシステムであって、
前記ファイルテーブルは、前記ファイルのリストア先となるリストア先装置の情報を含み、
前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記リストア先装置が分散して含められるよう前記ファイルテーブルを変更する、
ストレージシステム。
(付記9)
付記1乃至8のいずれかに記載のストレージシステムであって、
前記読み出し装置は、前記ファイルを格納するサーバから当該ファイルを前記重複排除ストレージ装置に重複記憶を排除してバックアップすると共に、当該バックアップを行った前記ファイルの格納状況を表す前記ファイルテーブルを生成し、
さらに、前記読み出し装置は、変更された前記ファイルテーブルに基づいて、前記重複排除ストレージ装置に格納された前記ファイルを読み出して前記サーバにリストアする、
ストレージシステム。
(付記10)
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置、への前記ファイルの格納状況を表し、前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
を備えた情報処理装置。
(付記10.1)
付記10に記載の情報処理装置であって、
前記ファイルテーブル変更部は、前記ファイルに含まれる前記分割データが共通の特徴を有する複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
情報処理装置。
(付記10.2)
付記10又は10.1に記載の情報処理装置であって、
前記ファイルテーブル変更部は、前記ファイルに関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
情報処理装置。
(付記10.3)
付記10.2に記載の情報処理装置であって、
前記ファイルテーブル変更部は、関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを含む前記グループに、当該グループに含められた複数の前記ファイルをそれぞれ構成する少なくとも1の前記分割データの前記分割データ特定情報が同一である他の前記ファイルも含めるよう前記ファイルテーブルを変更する、
情報処理装置。
(付記10.4)
付記10乃至10.3のいずれかに記載の情報処理装置であって、
前記ファイルテーブルは、複数の読み出し装置にそれぞれ割り当てられており、当該読み出し装置は、割り当てられた前記ファイルテーブルに基づいて前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
前記ファイルテーブル変更部は、前記グループが1つの前記ファイルテーブルに含まれるよう当該ファイルテーブルを変更する、
情報処理装置。
(付記10.5)
付記10.4に記載の情報処理装置であって、
前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記グループが分散して含められるよう前記ファイルテーブルを変更する、
情報処理装置。
(付記10.6)
付記10乃至10.5のいずれかに記載の情報処理装置であって、
前記ファイルテーブルは、前記ファイルのリストア先となるリストア先装置の情報を含み、
前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記リストア先装置が分散して含められるよう前記ファイルテーブルを変更する、
情報処理装置。
(付記11)
情報処理装置に、
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置、への前記ファイルの格納状況を表し、前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
を実現させるためのプログラム。
(付記11.1)
付記11に記載のプログラムであって、
前記ファイルテーブル変更部は、前記ファイルに含まれる前記分割データが共通の特徴を有する複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
プログラム。
(付記11.2)
付記11又は11.1に記載のプログラムであって、
前記ファイルテーブル変更部は、前記ファイルに関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
プログラム。
(付記11.3)
付記11.2に記載のプログラムであって、
前記ファイルテーブル変更部は、関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを含む前記グループに、当該グループに含められた複数の前記ファイルをそれぞれ構成する少なくとも1の前記分割データの前記分割データ特定情報が同一である他の前記ファイルも含めるよう前記ファイルテーブルを変更する、
プログラム。
(付記11.4)
付記11乃至11.3のいずれかに記載のプログラムであって、
前記ファイルテーブルは、複数の読み出し装置にそれぞれ割り当てられており、当該読み出し装置は、割り当てられた前記ファイルテーブルに基づいて前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
前記ファイルテーブル変更部は、前記グループが1つの前記ファイルテーブルに含まれるよう当該ファイルテーブルを変更する、
プログラム。
(付記11.5)
付記11.4に記載のプログラムであって、
前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記グループが分散して含められるよう前記ファイルテーブルを変更する、
プログラム。
(付記11.6)
付記11乃至11.5のいずれかに記載のプログラムであって、
前記ファイルテーブルは、前記ファイルのリストア先となるリストア先装置の情報を含み、
前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記リストア先装置が分散して含められるよう前記ファイルテーブルを変更する、
プログラム。
(付記12)
ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置と、
前記重複排除ストレージ装置への前記ファイルの格納状況を表すファイルテーブルに基づいて、前記重複排除ストレージ装置から前記ファイルの読み出しを行う複数の読み出し装置と、
を備えたストレージシステムによる情報処理方法であって、
前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成された前記ファイルテーブルを取得し、
前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更する、
情報処理方法。
(付記13)
付記12に記載の情報処理方法であって、
前記ファイルに含まれる前記分割データが共通の特徴を有する複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
情報処理方法。
(付記14)
付記12又は13に記載の情報処理方法であって、
前記ファイルに関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
情報処理方法。
(付記15)
付記14に記載の情報処理方法であって、
関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを含む前記グループに、当該グループに含められた複数の前記ファイルをそれぞれ構成する少なくとも1の前記分割データの前記分割データ特定情報が同一である他の前記ファイルも含めるよう前記ファイルテーブルを変更する、
情報処理方法。
(付記16)
付記12乃至15のいずれかに記載の情報処理方法であって、
複数の前記読み出し装置は、それぞれ前記ファイルテーブルが割り当てられており、当該割り当てられたファイルテーブルに基づいて前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
前記グループが1つの前記ファイルテーブルに含まれるよう当該ファイルテーブルを変更する、
情報処理方法。
(付記17)
付記16に記載の情報処理方法であって、
複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記グループが分散して含められるよう前記ファイルテーブルを変更する、
情報処理方法。
(付記18)
付記15又は16に記載の情報処理方法であって、
複数の前記読み出し装置は、それぞれ前記分割データを格納する分割データ保持領域を備えると共に、当該分割データ保持領域及び前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、さらに、変更された前記ファイルテーブルに基づいて、同一グループに含められた複数の前記ファイルに共通する前記分割データを、前記分割データ保持領域に格納する、
情報処理方法。
(付記19)
付記12乃至18のいずれかに記載の情報処理方法であって、
前記ファイルテーブルは、前記ファイルのリストア先となるリストア先装置の情報を含み、
複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記リストア先装置が分散して含められるよう前記ファイルテーブルを変更する、
情報処理方法。
なお、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
10 業務用サーバ
11 バックアップ対象ファイル
20 バックアップサーバ
21 バックアップジョブ
22 ファイル読み出し/書き込み部
23 クライアント側重複排除モジュール
24 チャンク分割/結合部
25 ストレージ連携重複排除部
26 チャンク保持領域
27 リストア対象ファイルテーブル
28 チャンクテーブル
30 バックアップ管理サーバ
31 バックアップジョブ設定部
32 バックアップ/リストア実行部
33 リストア対象ファイル最適化部
40 重複排除ストレージ装置
41 重複排除部
42 ストレージ領域
100 重複排除ストレージ装置
110 読み出し装置
120 ファイルテーブル取得部
130 ファイルテーブル変更部

Claims (19)

  1. ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置と、
    前記重複排除ストレージ装置への前記ファイルの格納状況を表すファイルテーブルに基づいて、前記重複排除ストレージ装置から前記ファイルの読み出しを行う複数の読み出し装置と、
    を備えたストレージシステムであって、
    前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成された前記ファイルテーブルを取得するファイルテーブル取得部と、
    前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
    を備えたストレージシステム。
  2. 請求項1に記載のストレージシステムであって、
    前記ファイルテーブル変更部は、前記ファイルに含まれる前記分割データが共通の特徴を有する複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
    ストレージシステム。
  3. 請求項1又は2に記載のストレージシステムであって、
    前記ファイルテーブル変更部は、前記ファイルに関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
    ストレージシステム。
  4. 請求項3に記載のストレージシステムであって、
    前記ファイルテーブル変更部は、関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを含む前記グループに、当該グループに含められた複数の前記ファイルをそれぞれ構成する少なくとも1の前記分割データの前記分割データ特定情報が同一である他の前記ファイルも含めるよう前記ファイルテーブルを変更する、
    ストレージシステム。
  5. 請求項1乃至4のいずれかに記載のストレージシステムであって、
    複数の前記読み出し装置は、それぞれ前記ファイルテーブルが割り当てられており、当該割り当てられたファイルテーブルに基づいて前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
    前記ファイルテーブル変更部は、前記グループが1つの前記ファイルテーブルに含まれるよう当該ファイルテーブルを変更する、
    ストレージシステム。
  6. 請求項5に記載のストレージシステムであって、
    前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記グループが分散して含められるよう前記ファイルテーブルを変更する、
    ストレージシステム。
  7. 請求項5又は6に記載のストレージシステムであって、
    複数の前記読み出し装置は、それぞれ前記分割データを格納する分割データ保持領域を備えると共に、当該分割データ保持領域及び前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
    前記ファイルテーブル変更部は、変更した前記ファイルテーブルに基づいて、同一グループに含められた複数の前記ファイルに共通する前記分割データを、前記分割データ保持領域に格納する、
    ストレージシステム。
  8. 請求項1乃至7のいずれかに記載のストレージシステムであって、
    前記ファイルテーブルは、前記ファイルのリストア先となるリストア先装置の情報を含み、
    前記ファイルテーブル変更部は、複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記リストア先装置が分散して含められるよう前記ファイルテーブルを変更する、
    ストレージシステム。
  9. 請求項1乃至8のいずれかに記載のストレージシステムであって、
    前記読み出し装置は、前記ファイルを格納するサーバから当該ファイルを前記重複排除ストレージ装置に重複記憶を排除してバックアップすると共に、当該バックアップを行った前記ファイルの格納状況を表す前記ファイルテーブルを生成し、
    さらに、前記読み出し装置は、変更された前記ファイルテーブルに基づいて、前記重複排除ストレージ装置に格納された前記ファイルを読み出して前記サーバにリストアする、
    ストレージシステム。
  10. ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置、への前記ファイルの格納状況を表し、前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、
    前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
    を備えた情報処理装置。
  11. 情報処理装置に、
    ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置、への前記ファイルの格納状況を表し、前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成されたファイルテーブルを取得するファイルテーブル取得部と、
    前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更するファイルテーブル変更部と、
    を実現させるためのプログラム。
  12. ファイルを複数に分割した分割データを記憶すると共に、既に記憶されている同一内容の前記分割データを参照することによって重複記憶を排除する重複排除ストレージ装置と、
    前記重複排除ストレージ装置への前記ファイルの格納状況を表すファイルテーブルに基づいて、前記重複排除ストレージ装置から前記ファイルの読み出しを行う複数の読み出し装置と、
    を備えたストレージシステムによる情報処理方法であって、
    前記ファイルを特定するファイル特定情報と、当該ファイルを構成する前記分割データを特定する分割データ特定情報と、が関連付けられて構成された前記ファイルテーブルを取得し、
    前記ファイルテーブルに基づいて、複数の前記ファイルがグループを形成するよう前記ファイルテーブルを変更する、
    情報処理方法。
  13. 請求項12に記載の情報処理方法であって、
    前記ファイルに含まれる前記分割データが共通の特徴を有する複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
    情報処理方法。
  14. 請求項12又は13に記載の情報処理方法であって、
    前記ファイルに関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを同一の前記グループに含めるよう前記ファイルテーブルを変更する、
    情報処理方法。
  15. 請求項14に記載の情報処理方法であって、
    関連付けられた少なくとも1つの前記分割データ特定情報が同一である複数の前記ファイルを含む前記グループに、当該グループに含められた複数の前記ファイルをそれぞれ構成する少なくとも1の前記分割データの前記分割データ特定情報が同一である他の前記ファイルも含めるよう前記ファイルテーブルを変更する、
    情報処理方法。
  16. 請求項12乃至15のいずれかに記載の情報処理方法であって、
    複数の前記読み出し装置は、それぞれ前記ファイルテーブルが割り当てられており、当該割り当てられたファイルテーブルに基づいて前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、
    前記グループが1つの前記ファイルテーブルに含まれるよう当該ファイルテーブルを変更する、
    情報処理方法。
  17. 請求項16に記載の情報処理方法であって、
    複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記グループが分散して含められるよう前記ファイルテーブルを変更する、
    情報処理方法。
  18. 請求項15又は16に記載の情報処理方法であって、
    複数の前記読み出し装置は、それぞれ前記分割データを格納する分割データ保持領域を備えると共に、当該分割データ保持領域及び前記重複排除ストレージ装置から前記ファイルの読み出しを行うよう構成されており、さらに、変更された前記ファイルテーブルに基づいて、同一グループに含められた複数の前記ファイルに共通する前記分割データを、前記分割データ保持領域に格納する、
    情報処理方法。
  19. 請求項12乃至18のいずれかに記載の情報処理方法であって、
    前記ファイルテーブルは、前記ファイルのリストア先となるリストア先装置の情報を含み、
    複数の前記読み出し装置にそれぞれ割り当てられた複数の前記ファイルテーブルに対して、前記リストア先装置が分散して含められるよう前記ファイルテーブルを変更する、
    情報処理方法。
JP2017055640A 2017-03-22 2017-03-22 ストレージシステム Active JP6337982B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017055640A JP6337982B1 (ja) 2017-03-22 2017-03-22 ストレージシステム
US15/912,908 US20180276236A1 (en) 2017-03-22 2018-03-06 Storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017055640A JP6337982B1 (ja) 2017-03-22 2017-03-22 ストレージシステム

Publications (2)

Publication Number Publication Date
JP6337982B1 JP6337982B1 (ja) 2018-06-06
JP2018159999A true JP2018159999A (ja) 2018-10-11

Family

ID=62487551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017055640A Active JP6337982B1 (ja) 2017-03-22 2017-03-22 ストレージシステム

Country Status (2)

Country Link
US (1) US20180276236A1 (ja)
JP (1) JP6337982B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140389A (ja) * 2019-02-27 2020-09-03 Necソリューションイノベータ株式会社 情報処理方法
JP7505252B2 (ja) 2020-05-12 2024-06-25 日本電気株式会社 ファイルサーバ、重複排除システム、処理方法、プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11392551B2 (en) * 2019-02-04 2022-07-19 EMC IP Holding Company LLC Storage system utilizing content-based and address-based mappings for deduplicatable and non-deduplicatable types of data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127566A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 ストレージ装置,制御装置及び制御方法
JP2012238125A (ja) * 2011-05-10 2012-12-06 Internatl Business Mach Corp <Ibm> データの保存を制御する装置及び方法
WO2014087508A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 ストレージシステム及びストレージシステムの制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127566A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 ストレージ装置,制御装置及び制御方法
JP2012238125A (ja) * 2011-05-10 2012-12-06 Internatl Business Mach Corp <Ibm> データの保存を制御する装置及び方法
WO2014087508A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 ストレージシステム及びストレージシステムの制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140389A (ja) * 2019-02-27 2020-09-03 Necソリューションイノベータ株式会社 情報処理方法
JP7255849B2 (ja) 2019-02-27 2023-04-11 Necソリューションイノベータ株式会社 情報処理方法
JP7505252B2 (ja) 2020-05-12 2024-06-25 日本電気株式会社 ファイルサーバ、重複排除システム、処理方法、プログラム

Also Published As

Publication number Publication date
US20180276236A1 (en) 2018-09-27
JP6337982B1 (ja) 2018-06-06

Similar Documents

Publication Publication Date Title
US12067256B2 (en) Storage space optimization in a system with varying data redundancy schemes
WO2017119091A1 (ja) 分散型ストレージシステム、データ格納方法、およびソフトウェアプログラム
US10126946B1 (en) Data protection object store
US9996421B2 (en) Data storage method, data storage apparatus, and storage device
KR20150081810A (ko) 데이터 저장장치에 대한 다중 스냅샷 관리 방법 및 장치
US10628298B1 (en) Resumable garbage collection
CN102349047A (zh) 数据插入系统
JP2016045869A (ja) データの復旧方法、プログラムおよびデータ処理システム
US11442894B2 (en) Methods for scalable file backup catalogs and devices thereof
JP6337982B1 (ja) ストレージシステム
CN107046811A (zh) 一种源存储设备发送源文件和源文件的克隆文件至备份存储设备的方法、源存储设备以及备份存储设备
JP5477927B2 (ja) ストレージシステム
JP6070146B2 (ja) 情報処理装置及びバックアップ方法
US20210103400A1 (en) Storage system and data migration method
WO2011108048A1 (ja) ストレージ装置
JP6269120B2 (ja) ストレージシステム
JP6376626B2 (ja) データ格納方法、データストレージ装置、及びストレージデバイス
JP2012208650A (ja) ストレージ装置
JP5751041B2 (ja) ストレージ装置、ストレージ方法およびプログラム
JP5891842B2 (ja) ストレージシステム
JP7491545B2 (ja) 情報処理方法
US9390096B2 (en) Fast creation of a master GFS2 file system
JP2019152945A (ja) ストレージ装置、データ移行方法、プログラム
JP6279780B1 (ja) 分散ストレージの非同期リモートレプリケーションシステムおよび分散ストレージの非同期リモートレプリケーション方法
JP2016189105A (ja) ストレージシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6337982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150