JP2009110319A - バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム - Google Patents

バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム Download PDF

Info

Publication number
JP2009110319A
JP2009110319A JP2007282582A JP2007282582A JP2009110319A JP 2009110319 A JP2009110319 A JP 2009110319A JP 2007282582 A JP2007282582 A JP 2007282582A JP 2007282582 A JP2007282582 A JP 2007282582A JP 2009110319 A JP2009110319 A JP 2009110319A
Authority
JP
Japan
Prior art keywords
backup
data
file
catalog
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007282582A
Other languages
English (en)
Other versions
JP5018403B2 (ja
Inventor
Hitoshi Okawa
人資 大川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007282582A priority Critical patent/JP5018403B2/ja
Publication of JP2009110319A publication Critical patent/JP2009110319A/ja
Application granted granted Critical
Publication of JP5018403B2 publication Critical patent/JP5018403B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 既に複数の重複したファイルが存在するような環境においてバックアップ領域を不要とすることが可能なバックアップシステムを提供する。
【解決手段】 システム上のデータのバックアップを行うバックアップシステムにおいて、バックアップ時に同一内容のデータをシステム上から検索するデータ比較手段(データ比較部22−1〜22−n)と、データ比較手段で同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なしてバックアップを抑止するよう制御する制御手段(バックアップカタログ管理部14)と、それらのデータの位置情報を記録するカタログ情報記録装置(カタログ情報記録装置15)とを有する。
【選択図】 図1

Description

本発明はバックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラムに関し、特にクライアント装置のデータを記録しておくためのバックアップシステムに関する。
本発明に関連するバックアップシステムの一例としては、非特許文献1,2に記載されたシステムがある。このバックアップシステムは、図12に示すように、大きくバックアップ装置4とクライアント(#1〜#n)5−1〜5−nの2つの装置からなる。
バックアップ装置4は、スケジュール情報記録装置41と、バックアップジョブ管理部42と、クライアント情報記録装置43と、バックアップカタログ管理部44と、カタログ情報記録装置45と、バックアップ記録装置46とから構成されている。
クライアント(#1〜#n)5−1〜5−nは、データ比較部51−1〜51−nと、クライアントバックアップ部52−1〜52−nと、バックアップ対象のデータが格納されたユーザデータ領域53−1〜53−nとから構成されている。
このような構成を有するバックアップシステムは、以下のように動作する。すなわち、バックアップジョブ管理部42は、スケジュール情報記録装置41に格納されたバックアップスケジュールに基づき、クライアント情報記録装置43に記録されたクライアント(#1〜#n)5−1〜5−nに対してバックアップ命令を発行する。
バックアップ命令を受けたクライアント(#1〜#n)5−1〜5−nは、クライアントバックアップ部52−1〜52−nによって、ユーザデータ領域53−1〜53−nに含まれるデータをバックアップ記録装置46にバックアップする。この時、データ比較部51−1〜51−nによって、既にバックアップ記録装置46に同じデータがバックアップされているか、その有無を判定する。その結果、バックアップされたことのない新しいデータだった場合には、バックアップカタログ管理部44にファイル情報を送信するとともに、バックアップ記録装置46へデータを送信してバックアップする。
一方、同じデータが既にバックアップ記憶装置46にバックアップされている場合には、バックアップカタログ管理部44にファイル情報を送信するだけとし、バックアップ記録装置46へのバックアップをスキップする。また、リストアを実行する際には、バックアップ記憶装置46から読出してリストアする。
また、バックアップシステムとしては、下記の特許文献1〜5に記載のシステムがある。特許文献1に記載のシステムでは、画像処理装置(クライアント)同士でバックアップを行っており、特許文献2に記載のシステムでは、ネットワークが低負荷時にバックアップを行っており、特許文献3に記載のシステムでは、優先順位に基づいてバックアップを行うことで、不要なバックアップを防止している。
特許文献4に記載のシステムでは、バックアップしたファイル(ファイルデータ)と、そのファイルの内容を識別できる属性情報(ファイル情報)とを格納したマスタファイル格納部及び同一性判定部を含んでいる。
このシステムでは、まず、ファイルが更新されるか、あるいは新規に作成された場合に、同一性判定部でそれと同じ属性(=内容)のファイルがマスタファイル格納部に格納されているか(バックアップ済みか)どうかを判定する。判定の結果、格納済みであれば処理を終了し、格納されていない場合には、クライアントからデータを取得し、ファイルデータとしてマスタファイル格納部に格納する。その際、ファイルの属性情報をファイル情報として、同様にマスタファイル格納部に格納する。
特許文献5に記載のシステムでは、バックアップ時にクライアント上のファイル情報処理部がバックアップ対象ファイルのチェックサム等を含むファイル識別条件を求め、そのファイル識別条件を基に、共有ファイル判別処理部が同一内容のファイルを持つクライアントの数をカウントし、規定数以上であれば共有ファイルとして管理する。規定数以下の場合には、単一ファイルとして管理する。単一ファイルは、そのファイルを持っている各クライアント上にあるファイル格納処理部が、そのクライアント上の単一ファイル記憶部にバックアップする。
特開2004−072595号公報 特開2003−308238号公報 特開2000−148562号公報 特開2000−200208号公報 特開2003−256263号公報 EMC Avamar データシート,EMC社(http://www.emcsoftware.jp/collateral/storage_software/H2568_emc_avamar_ds_ldv.pdf) Veritas NetBackup PureDiskTM 6.2 データシート,Symantec社(http://eval.symantec.com/mktginfo/ja/jp/enterprise/fact_sheets/nbu_pd62_ds_dpro.pdf)
上述した本発明に関連するバックアップ方法では、元のデータが存在する領域とは別の領域に複製を作ることによってデータを保護するため、バックアップするための領域を必ず1世代分用意しなければならないという問題がある。
また、本発明に関連するバックアップ方法では、重複したファイルが存在する場合でも、それらを検出・記録してリストアに利用する手段を持たない。そのため、本発明に関連するバックアップ方法では、ファイルが破損した際、破損ファイルと同一内容のファイルが別のクライアントにも存在したとしても、それを元に復旧することができないという問題がある。
さらに、本発明に関連するバックアップ方法では、バックアップサーバが全てのデータをバックアップ装置に書き出すため、バックアップサーバにトラフィックが集中するという問題がある。特許文献1〜3に記載のシステムでも、上記と同様の問題がある。
特許文献4に記載のシステムでは、バックアップするデータが単一ファイルとなり、各クライアントのバックアップ領域にバックアップされるという問題がある。特許文献5に記載のシステムでは、各クライアントにそれぞれ単一ファイル記憶部を用意しなければならず、そのクライアントの単一ファイルだけがバックアップされるため、各クライアントで単一ファイルの容量をそれぞれ見積る必要がある。
そこで、本発明の目的は上記の問題点を解消し、既に複数の重複したファイルが存在するような環境においてバックアップ領域を不要とすることができるバックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラムを提供することにある。
本発明によるバックアップシステムは、システム上のデータのバックアップを行うバックアップシステムであって、
前記バックアップ時に同一内容のデータを前記システム上から検索するデータ比較手段と、前記データ比較手段で同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御手段と、それらのデータの位置情報を記録するカタログ情報記録装置とを備えている。
本発明によるサーバ装置は、バックアップ対象の複数のクライアント装置を含むシステム上のデータのバックアップを制御するサーバ装置であって、
前記バックアップ時に同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御手段と、それらのデータの位置情報を記録するカタログ情報記録装置とを備えている。
本発明によるバックアップ方法は、システム上のデータのバックアップを行うバックアップ方法であって、
前記バックアップ時に同一内容のデータを前記システム上から検索するデータ比較処理と、前記データ比較処理で同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御処理と、それらのデータの位置情報をカタログ情報記録装置に記録する記録処理とを含むことを特徴とする。
本発明によるプログラムは、バックアップ対象の複数のクライアント装置を含むシステム上のデータのバックアップを制御するサーバ装置内において制御手段に実行させるプログラムであって、
前記バックアップ時に同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御処理と、それらのデータの位置情報をカタログ情報記録装置に記録する記録処理とを含むことを特徴とする。
本発明は、上記のような構成及び動作とすることで、既に複数の重複したファイルが存在するような環境においてバックアップ領域を不要とすることができるという効果が得られる。
次に、本発明の実施の形態について図面を参照して説明する。図1は本発明の第1の実施の形態によるバックアップシステムの構成例を示すブロック図である。図1において、本発明の第1の実施の形態によるバックアップシステムは、バックアップを制御する機能を持ったバックアップ管理サーバ1と、バックアップ対象のマシンであるn台のクライアント2−1〜2−nとから構成されている。
バックアップ管理サーバ1は、バックアップされたファイルのカタログ情報を格納するカタログ情報記録装置15と、バックアップカタログ管理部14とを備えている。n台のクライアント2−1〜2−nは、バックアップ対象となるユーザデータ25−1〜25−nと、データ比較部22−1〜22−nと、クライアントバックアップ部23−1〜23−nとを備えている。
バックアップカタログ管理部14はクライアント2−1〜2−nから送信されたファイル名・パス名・ハッシュ値を受信し、カタログ情報記録装置15にカタログ情報を生成する。この時、バックアップカタログ管理部14は、ハッシュ値が同じ値となるファイルの組を検出し、クライアント2−1〜2−nに対してデータ比較命令を発行する。尚、ハッシュ値の利用は一例であり、他の任意の方法でもよい。
データ比較部22−1〜22−nは、バックアップカタログ管理部14からのデータ比較命令を受信し、指定された2つのファイルが同一内容か否かを判定する。同一内容と判定されたファイルは、重複ファイルとしてカタログ情報管理装置15のカタログ情報に記録される。同一内容でないと判定されたファイルは、単独のファイルとしてカタログ情報に記録される。
クライアントバックアップ部23−1〜23−nは、データ比較部22−1〜22−nでの比較結果で、重複ファイルが最低複製数より少なかったファイルを他のクライアントの空き領域(図示せず)に複製し、重複ファイルを作り出すことでバックアップを実現する。
このように、本実施の形態では、データ比較部22−1〜22−nで同一内容のデータをシステム上から検索している。この検索において同一内容のものが複数存在した場合、本実施の形態では、それらをバックアップされているものと見なして、それらの位置情報(ファイル名、パス名)をカタログ情報記録装置15に記録している。また、本実施の形態では、重複しているファイルが予め指定した最低複製数に満たないファイルに対し、クライアントバックアップ部23−1〜23−nでバックアップしている。これによって、本実施の形態では、既に複数の重複したファイルが存在するような環境においてバックアップ領域を不要とすることができる。
重複排除によってバックアップ領域やデータ領域を削減する方式は多々実施されているが、本実施の形態では、重複を排除するのではなく、バックアップデータとして活用する点が特徴である。既に重複しているファイルは、「既にバックアップされているもの」とみなし、バックアップしない。重複ファイルばかりのデータだった場合には、バックアップに必要な領域が0となる。尚、本実施の形態では、データ比較部をクライアント2−1〜2−nに設けているが、バックアップ管理サーバ1に設けることも可能である。
図2は本発明の第2の実施の形態によるバックアップシステムの構成例を示すブロック図である。図2において、本発明の第2の実施の形態によるバックアップシステムは、バックアップを制御する機能を持ったバックアップ管理サーバ1aと、バックアップ対象のマシンであるn台のクライアント2−1〜2−nと、外部バックアップ装置3とから構成されている。
バックアップ管理サーバ1aは、スケジュール情報記録装置11と、クライアント情報記録装置13と、カタログ情報記録装置15と、バックアップジョブ管理部12と、バックアップカタログ管理部14とを備えている。ここで、スケジュール情報記録装置11はバックアップ開始時刻を格納し、クライアント情報記録装置13はバックアップ対象のクライアントの情報を格納し、カタログ情報記録装置15はバックアップされたファイルのカタログ情報を格納する。また、バックアップジョブ管理部12及びバックアップカタログ管理部14は、図示せぬ制御部[CPU(中央処理装置)]がプログラムを実行することで実現される。
n台のクライアント2−1〜2−nは、バックアップ対象となるユーザデータ25−1〜25−nと、未使用の記録領域である空き領域26−1〜26−nと、クライアント情報送信部21−1〜21−nと、データ比較部22−1〜22−nと、クライアントバックアップ部23−1〜23−nと、バックアップデータ維持部24−1〜24−nとを備えている。
クライアント情報送信部21−1〜21−nはユーザデータの情報をバックアップ管理サーバ1aに送信し、データ比較部22−1〜22−nはファイルの内容を比較する。クライアントバックアップ部23−1〜23−nはユーザデータを他のクライアントに複製し、バックアップデータ維持部24−1〜24−nはクライアント2−1〜2−n上のファイル操作を監視し、バックアップデータを維持する。
上記の各部はそれぞれ次のように動作する。バックアップジョブ管理部12は、スケジュール情報記録装置11に格納されたバックアップ時刻に基づき、クライアント情報記録装置13に記録されたクライアント2−1〜2−nに対してバックアップ命令を発行する。
バックアップカタログ管理部14はクライアント2−1〜2−n上のクライアント情報送信部21−1〜21−nによって送信されたファイル名・パス名・ハッシュ値を受信し、カタログ情報記録装置15にカタログ情報を生成する。この時、バックアップカタログ管理部14は、ハッシュ値が同じ値となるファイルの組を検出し、クライアント2−1〜2−nに対してデータ比較命令を発行する。
クライアント情報送信部21−1〜21−nは、バックアップジョブ管理部12からのバックアップ命令を受け、クライアント2−1〜2−n内のファイル名、パス名とファイルのハッシュ値を格納したリスト(図9参照)を生成し、バックアップカタログ管理部14に送信する。ハッシュ値が同じファイルが見つかった場合には、後述するデータ比較部22−1〜22−nによってファイル内容を比較する。ハッシュ値が同じファイルが無い場合には、単独のファイルとしてカタログ情報に記録する。
データ比較部22−1〜22−nは、バックアップカタログ管理部14からのデータ比較命令を受信し、指定された2つのファイルが同一内容か否かを判定する。同一内容と判定されたファイルは、重複ファイルとしてカタログ情報管理装置15のカタログ情報に記録される。同一内容でないと判定されたファイルは、単独のファイルとしてカタログ情報に記録される。
クライアントバックアップ部23−1〜23−nは、バックアップカタログ管理部14、及びデータ比較部22−1〜22−nの比較結果、重複ファイルが最低複製数より少なかったファイルを他のクライアントの空き領域26−1〜26−nに複製し、重複ファイルを作り出すことでバックアップを実現する。
バックアップデータ維持部24−1〜24−nは、クライアント2−1〜2−n上のファイルアクセスを監視し、重複ファイルとして扱われているファイルの更新や削除を監視し、重複ファイルの数を維持する。クライアント2−1〜2−n上でファイルが書込み属性でオープンされると、カタログ情報記録装置15からそのファイルの重複ファイルの数を取得する。
バックアップデータ維持部24−1〜24−nは、重複ファイルの数−1が最低複製数より多い場合、カタログ情報を修正して重複ファイルから単独ファイルに変更する。バックアップデータ維持部24−1〜24−nは、最低複製数より少なくなる場合、クライアントバックアップ部23−1〜23−nによって重複ファイルを新たに作り出し、最低複製数を下回らないようにする。これによって、バックアップデータ維持部24−1〜24−nは、重複ファイルの数を維持する。
図3及び図4は本発明の第2の実施の形態によるバックアップシステムの動作を示すシーケンスチャートであり、図5は本発明の第2の実施の形態によるバックアップカタログ管理処理を示すフローチャートである。
図6は本発明の第2の実施の形態によるデータ比較処理を示すフローチャートであり、図7は本発明の第2の実施の形態によるクライアントバックアップ処理を示すフローチャートであり、図8は本発明の第2の実施の形態によるバックアップデータ維持処理を示すフローチャートである。
図9は本発明の第2の実施の形態におけるファイル名とパス名とファイルのハッシュ値とを格納したリストを示す図であり、図10は本発明の第2の実施の形態によるバックアップカタログ管理処理を示す図である。これら図2〜図10を参照して本発明の第2の実施の形態によるバックアップシステムの動作について説明する。尚、図3〜図8に示す処理のうち、バックアップ管理サーバ1aが実行する処理はバックアップ管理サーバ1a内の制御部[CPU(中央処理装置)]がプログラムを実行することで実現される。
ここで、図9においては、パス(「クライアント#1−パス#1」、「クライアント#1−パス#2」)と、ファイル名(「クライアント#1−ファイル名#1」、「クライアント#1−ファイル名#2」)と、ハッシュ値(「ハッシュA」、「ハッシュB」)とからなるリストを示している。また、図10においては、ハッシュ値(「ハッシュA」、「ハッシュB」、「ハッシュC」、「ハッシュD」、・・・)で「クライアント名」、「パス」、「ファイル名」を検索する処理を示している。
バックアップジョブ管理部12にて、最初にスケジュール情報記録装置11に記録されたバックアップ開始時刻を基に、バックアップ開始時刻を決定する(図3のa1)。バックアップジョブ管理部12は、バックアップ開始時刻になると、クライアント情報記録装置13からバックアップ対象クライアントのリストを取得する(図3のa2)。
続いて、バックアップジョブ管理部12は、バックアップ対象クライアントのリストに記載されたクライアント2−1〜2−nに対し、バックアップ命令を発行する(図3のa3〜a5)。バックアップ命令を受けたクライアント2−1〜2−nは、クライアント情報送信部21−1〜21−nを用いて、重複ファイルの検出を行う(図3のa6,a7)。
クライアント情報送信部21−1〜21−nでは、最初にバックアップ対象であるユーザデータ25−1〜25−nに存在するファイル名とパス名との一覧を作成する(図4のb1)。クライアント情報送信部21−1〜21−nは、この一覧に挙げられている各ファイルについて、それぞれハッシュ関数でハッシュ値を求める(図4のb2)。
さらに、クライアント情報送信部21−1〜21−nは、上記のa1の処理で作成したファイル名及びパス名と、上記のa2の処理で作成したハッシュ値とのリスト(図9参照)をバックアップ管理サーバ1aに送信する(図4のb3,a4)。リストを受け取ったバックアップ管理サーバ1aは、バックアップカタログ管理部14によってカタログ情報記録装置15にカタログ情報を作成する(図4のb5)。
バックアップカタログ管理部14では、まずクライアント情報送信部21−1〜21−nから、クライアント2−1〜2−n上のファイル名、パス、ハッシュ値のリスト(図9参照)を受信する(図5ステップS1)。バックアップカタログ管理部14は、カタログ情報記録装置15を参照し(図10参照)、クライアント2−1〜2−nから得たハッシュ値にエントリが存在するかどうかを確認する(図5ステップS2)。エントリが存在した場合には、同一内容のファイルが存在している可能性を示す。エントリが存在しない場合には、同一内容のファイルがまだ見つかっていないことを示す。
エントリが存在した場合、バックアップカタログ管理部14は、カタログ情報から同一のハッシュ値を持つエントリを1つピックアップする(図5ステップS6)。この時、バックアップカタログ管理部14は、ネットワーク上の距離が近いものを優先してピックアップする。
さらに、バックアップカタログ管理部14は、ステップS1の処理で得た情報が指すファイルと、ステップS6の処理でピックアップしたファイルとの内容をデータ比較部22−1〜22−nで比較する(図5ステップS7)。
データ比較部22−1〜22−nでは、バックアップカタログ管理部14から、自身が持つ比較対象のファイルのパス名、ファイル名、比較相手のクライアント名、そのクライアント上でのパス名、ファイル名を受信する(図6ステップS11)。データ比較部22−1〜22−nは、比較相手のクライアントのデータ比較部から相手側のファイル内容を取得し(図6ステップS12)、自身が持つ比較対象のファイルの内容と比較する(図6ステップS13)。
データ比較部22−1〜22−nは、その比較結果を確認し(図6ステップS14)、ファイル内容が同一だった場合、重複ファイルとして、バックアップカタログ管理部14に回答する(図6ステップS15)。データ比較部22−1〜22−nは、内容が一致しない場合、別ファイルとしてバックアップカタログ管理部14に回答する(図6ステップS16)。
バックアップカタログ管理部14は、データ比較部22−1〜22−nからの回答を受け、内容が同一のファイルだった場合(図5ステップS8)、重複ファイルとしてカタログ情報に追加する(図5ステップS9)。バックアップカタログ管理部14は、内容が同一ではなかった場合(図5ステップS8)、単独の新しいファイルとして、カタログ情報に追加する(図5ステップS10)。
バックアップカタログ管理部14は、ステップS2の処理にて、エントリが見つからなかった場合、ステップS1の処理で得たハッシュ値、ファイル名、パス名をカタログ情報記録装置15上のカタログ情報に登録する(図5ステップS3)。
バックアップカタログ管理部14は、クライアント2−1〜2−n上の全ファイルの情報を処理するまで上記の処理を繰り返し(図5ステップS4)、最後に、重複ファイルの数が予め設定された最低複製数以下になったエントリをカタログ情報からピックアップし、クライアントバックアップ部23−1〜23−nでバックアップする(図5ステップS5)。この場合、バックアップ先としては、クライアント情報記録装置13から、空き領域26−1〜26−nのサイズや、ネットワーク上での距離を考慮して決定する。
バックアップカタログ管理部14からバックアップ命令を受けた送信側のクライアントバックアップ部23−1〜23−nは、バックアップ命令に続いてバックアップ対象のファイルのパス名、ファイル名、バックアップ先のクライアント名を受信する(図7ステップS21)。送信側のクライアントバックアップ部23−1〜23−nは、バックアップ先のクライアントバックアップ部に接続し、バックアップ対象であるファイルの内容を送信する(図7ステップS22)。
受信側のクライアントバックアップ部23−1〜23−nでは、受け取ったバックアップデータを自身の空き領域26−1〜26−nに保存する(図7ステップS31)。この場合、バックアップ先としては、外部バックアップ装置3を利用することも可能である。
受信側のクライアントバックアップ部23−1〜23−nは、空き領域26−1〜26−nに保存したバックアップデータのパス名、ファイル名、ハッシュ値をバックアップ管理サーバ1に送信する(図7ステップS32)。バックアップ管理サーバ1は、バックアップカタログ管理部14によって、カタログ情報記録装置15にカタログ情報を作成する。
重複ファイルとしてカタログ情報に登録され、バックアップデータとして扱われているファイルは、ユーザのファイル操作によって変更、削除される可能性がある。このため、バックアップデータ維持部24−1〜24−nでは、最低複製数を維持する。バックアップデータ維持部24−1〜24−nは、クライアント2−1〜2−n上のファイルが、読出し以外の操作(更新、削除等)を行うためにオープンされた場合に実行する。
まず、バックアップデータ維持部24−1〜24−nは、バックアップ管理サーバ1上のカタログ情報記録装置15から、オープンされたファイルが何個の重複ファイルを持つか、問い合わせる(図8ステップS41)。バックアップデータ維持部24−1〜24−nは、問い合わせの結果で得た重複ファイル数と最低複製数とを比較する(図8ステップS42)。
バックアップデータ維持部24−1〜24−nは、重複ファイル数が最低複製数以上だった場合、バックアップ管理サーバ1上のカタログ情報記録装置15から、オープンされたファイルのエントリを削除する(図8ステップS43)。バックアップデータ維持部24−1〜24−nは、ファイルへの操作が変更・移動だった場合、新しいパス名とファイル名、及びハッシュ値をバックアップ管理サーバ1に送信する(図8ステップS44)。
バックアップ管理サーバ1は、バックアップカタログ管理部14によって、カタログ情報記録装置15にカタログ情報を作成する。重複ファイル数が最低複製数未満だった場合には、クライアントバックアップ部23−1〜23−nでバックアップする(図8ステップS45)。バックアップ先はクライアント情報記録装置13から、空き領域26−1〜26−nのサイズや、ネットワーク上での距離を考慮して決定する。
このように、本実施の形態では、重複したファイルを検出し、それらを既に冗長化された状態にあるものとみなしてバックアップしないため、既に複数の重複したファイルが存在するような環境において、バックアップ領域を不要とすることができる。
また、本実施の形態では、重複ファイルが見つからなかった場合のバックアップを、クライアント2−1〜2−n上の空き領域26−1〜26−nに取るように構成しているため、バックアップ管理サーバ1にバックアップ記憶装置が不要となる。
さらに、本実施の形態では、バックアップ時に重複ファイルを検出するとともに、そのファイルの更新・削除を監視し、記録・維持するため、ファイルが破損して復旧が必要になった場合、他の重複したファイルから復旧することができる。
さらに、本実施の形態では、バックアップ時に重複ファイルを検出するとともに、そのファイルの更新・削除を監視し、記録・維持するため、重複したファイルが現時点で全システム上に何個存在するのか、同名のファイルに幾つのバージョンが存在するのかを確認することができる。
図11は本発明の第3の実施の形態によるバックアップシステムの構成例を示すブロック図である。図11において、本発明の第3の実施の形態によるバックアップシステムは、バックアップを制御する機能を持ったバックアップ管理サーバ1bと、バックアップ対象のマシンであるn台のクライアント2a−1〜2a−nとから構成されている。
バックアップ管理サーバ1bは、バックアップ開始時刻を格納するスケジュール情報記録装置11と、クライアント情報記録装置13と、カタログ情報記録装置15と、バックアップジョブ管理部12と、バックアップカタログ管理部14と、バックアップ記憶装置16と、データ比較部17とを備えている。ここで、クライアント情報記録装置13はバックアップ対象のクライアントの情報を格納し、カタログ情報記録装置15はバックアップされたファイルのカタログ情報を格納する。
n台のクライアント2a−1〜2a−nは、バックアップ対象となるユーザデータ25−1〜25−nと、クライアント情報送信部21−1〜21−nと、クライアントバックアップ部23−1〜23−nと、バックアップデータ維持部24−1〜24−nとを備えている。
クライアント情報送信部21−1〜21−nは、ユーザデータの情報をバックアップ管理サーバ1bに送信し、クライアントバックアップ部23−1〜23−nはユーザデータを他のクライアントに複製し、バックアップデータ維持部24−1〜24−nはクライアント2a−1〜2a−n上のファイル操作を監視し、バックアップデータを維持する。図11においては、ファイルA,C,Dが重複ファイルであり、ファイルBが単一ファイルである。
これらの各部はそれぞれ次のように動作する。バックアップジョブ管理部12は、スケジュール情報記録装置11に格納されたバックアップ時刻に基づき、クライアント情報記録装置13に記録されたクライアントに対してバックアップ命令を発行する。
クライアント情報送信部21−1〜21−nは、バックアップジョブ管理部12からのバックアップ命令を受け、クライアント2a−1〜2a−n内のファイル名、パス名、ファイルのハッシュ値を格納したリスト(図9参照)を生成し、バックアップ管理部14に送信する。同時に、クライアントバックアップ部23−1〜23−nは、ユーザデータ25−1〜25−nをバックアップ管理サーバ1b上のバックアップ記憶装置16に送信する。
バックアップカタログ管理部14は、クライアント2a−1〜2a−n上のクライアント情報送信部21−1〜21−nによって送信されたファイル名・パス名・ハッシュ値を受信し、カタログ情報記録装置15にカタログ情報を生成する。この時、バックアップカタログ管理部14は、ハッシュ値が同じ値となるファイルの組を検出し、データ比較部17で双方のデータ比較を実行する。
同一内容と判定されたファイルは、重複ファイルとしてカタログ情報管理装置15のカタログ情報に記録し、バックアップ記憶装置16からバックアップしたデータを削除する。
バックアップデータ維持部24−1〜24−nは、クライアント2a−1〜2a−n上のファイルアクセスを監視し、重複ファイルとして扱われているファイルの更新や削除を監視し、重複ファイルの数を維持する。バックアップデータ維持部24−1〜24−nは、クライアント2a−1〜2a−n上でファイルが書込み属性でオープンされると、カタログ情報記録装置15からそのファイルの重複ファイルの数を取得する。
バックアップデータ維持部24−1〜24−nは、重複ファイルの数−1が最低複製数より多い場合、カタログ情報を修正して重複ファイルから単独ファイルに変更する。バックアップデータ維持部24−1〜24−nは、最低複製数より少なくなる場合、クライアントバックアップ部23−1〜23−nによって重複ファイルを新たに作り出し、最低複製数を下回らないようにする。これによって、バックアップデータ維持部24−1〜24−nは、重複ファイルの数を維持する。
このように、本実施の形態では、ファイルのデータ比較をクライアント2a−1〜2a−n上ではなく、バックアップ管理サーバ1b上で行うように構成することによって、上記の本発明の第2の実施の形態と比較し、クライアント2a−1〜2a−n上の負荷を削減することができる。
また、本実施の形態では、さらに重複ファイルが見つからなかった場合のバックアップを、クライアント2a−1〜2a−n上の空き領域ではなく、バックアップ管理サーバ1b上のバックアップ記憶装置16にバックアップするように構成しているため、将来、バックアップ量が増加した場合でも、バックアップ管理サーバ1bのバックアップ記憶装置16の増強だけで対処することができる。
本発明は、オフィスや事業場内等、多数のPC(Personal Computer)が存在する環境やシンクライアント環境でのバックアップといった用途に適用することができる。
本発明の第1の実施の形態によるバックアップシステムの構成例を示すブロック図である。 本発明の第2の実施の形態によるバックアップシステムの構成例を示すブロック図である。 本発明の第2の実施の形態によるバックアップシステムの動作を示すシーケンスチャートである。 本発明の第2の実施の形態によるバックアップシステムの動作を示すシーケンスチャートである。 本発明の第2の実施の形態によるバックアップカタログ管理処理を示すフローチャートである。 本発明の第2の実施の形態によるデータ比較処理を示すフローチャートである。 本発明の第2の実施の形態によるクライアントバックアップ処理を示すフローチャートである。 本発明の第2の実施の形態によるバックアップデータ維持処理を示すフローチャートである。 本発明の第2の実施の形態におけるファイル名とパス名とファイルのハッシュ値とを格納したリストを示す図である。 本発明の第2の実施の形態によるバックアップカタログ管理処理を示す図である。 本発明の第3の実施の形態によるバックアップシステムの構成例を示すブロック図である。 本発明に関連するバックアップシステムの構成例を示すブロック図である。
符号の説明
1,1a,1b バックアップ管理サーバ
2−1〜2−n,
2a−1〜2a−n クライアント
3 外部バックアップ装置
11 スケジュール情報記録装置
12 バックアップジョブ管理部
13 クライアント情報記録装置
14 バックアップカタログ管理部
15 カタログ情報記録装置
16 バックアップ記憶装置
17,
22−1〜22−n データ比較部
21−1〜21−n クライアント情報送信部
23−1〜23−n クライアントバックアップ部
24−1〜24−n バックアップデータ維持部
25−1〜25−n ユーザデータ
26−1〜26−n 空き領域

Claims (21)

  1. システム上のデータのバックアップを行うバックアップシステムであって、
    前記バックアップ時に同一内容のデータを前記システム上から検索するデータ比較手段と、前記データ比較手段で同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御手段と、それらのデータの位置情報を記録するカタログ情報記録装置とを有することを特徴とするバックアップシステム。
  2. 前記位置情報は、前記データのファイル名及びパス名を少なくとも含むことを特徴とする請求項1記載のバックアップシステム。
  3. 前記システムが、前記バックアップを制御するサーバ装置と、バックアップ対象の複数のクライアント装置とを含み、
    前記データ比較手段で重複が検出されたファイルが予め指定した最低複製数に満たない場合に前記クライアント装置内でバックアップするバックアップ手段を含むことを特徴とする請求項1または請求項2記載のバックアップシステム。
  4. 前記バックアップ手段は、前記重複が検出されたファイルが前記最低複製数より少なかった場合に他のクライアント装置の空き領域に当該ファイルを複製して重複ファイルを作り出すことを特徴とする請求項3記載のバックアップシステム。
  5. 前記カタログ情報記録装置に記録するカタログ情報を生成するカタログ管理手段を含み、
    前記カタログ管理手段は、前記ファイル名及び前記パス名とから特定されるファイルについてハッシュ関数で求められたハッシュ値が同じ値となるファイルの組を検出して前記データ比較手段にデータ比較命令を発行することを特徴とする請求項2から請求項4のいずれか記載のバックアップシステム。
  6. 前記データ比較手段は、前記サーバ装置と前記複数のクライアント装置とのいずれかに配設したことを特徴とする請求項3から請求項5のいずれか記載のバックアップシステム。
  7. 前記サーバ装置は、前記重複ファイルが見つからなかった場合に前記バックアップを行うためのバックアップ記憶装置を含むことを特徴とする請求項4から請求項6のいずれか記載のバックアップシステム。
  8. バックアップ対象の複数のクライアント装置を含むシステム上のデータのバックアップを制御するサーバ装置であって、
    前記バックアップ時に同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御手段と、それらのデータの位置情報を記録するカタログ情報記録装置とを有することを特徴とするサーバ装置。
  9. 前記位置情報は、前記データのファイル名及びパス名を少なくとも含むことを特徴とする請求項8記載のサーバ装置。
  10. 前記制御手段は、前記同一内容である重複が検出されたファイルが予め指定した最低複製数に満たない場合に前記クライアント装置内でバックアップするバックアップ手段にバックアップ命令を発行することを特徴とする請求項8または請求項9記載のサーバ装置。
  11. 前記バックアップ手段は、前記重複が検出されたファイルが前記最低複製数より少なかった場合に他のクライアント装置の空き領域に当該ファイルを複製して重複ファイルを作り出すことを特徴とする請求項10記載のサーバ装置。
  12. 前記カタログ情報記録装置に記録するカタログ情報を生成するカタログ管理手段を含み、
    前記カタログ管理手段は、前記ファイル名及び前記パス名とから特定されるファイルについてハッシュ関数で求められたハッシュ値が同じ値となるファイルの組を検出して前記データ比較手段にデータ比較命令を発行することを特徴とする請求項9から請求項11のいずれか記載のサーバ装置。
  13. 前記重複ファイルが見つからなかった場合に前記バックアップを行うためのバックアップ記憶装置を含むことを特徴とする請求項11または請求項12記載のサーバ装置。
  14. システム上のデータのバックアップを行うバックアップ方法であって、
    前記バックアップ時に同一内容のデータを前記システム上から検索するデータ比較処理と、前記データ比較処理で同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御処理と、それらのデータの位置情報をカタログ情報記録装置に記録する記録処理とを含むことを特徴とするバックアップ方法。
  15. 前記位置情報が、前記データのファイル名及びパス名を少なくとも含むことを特徴とする請求項14記載のバックアップ方法。
  16. 前記システムが、前記バックアップを制御するサーバ装置と、バックアップ対象の複数のクライアント装置とを含み、
    前記クライアント装置が、前記データ比較処理で重複が検出されたファイルが予め指定した最低複製数に満たない場合に前記ファイルのバックアップを行うバックアップ処理を実行することを特徴とする請求項15記載のバックアップ方法。
  17. 前記バックアップ処理において、前記重複が検出されたファイルが前記最低複製数より少なかった場合に他のクライアント装置の空き領域に当該ファイルを複製して重複ファイルを作り出すことを特徴とする請求項16記載のバックアップ方法。
  18. 前記サーバ装置は、前記カタログ情報記録装置に記録するカタログ情報を生成するカタログ管理処理を実行し、
    前記カタログ管理処理において、前記ファイル名及び前記パス名とから特定されるファイルについてハッシュ関数で求められたハッシュ値が同じ値となるファイルの組を検出して前記データ比較処理にデータ比較命令を発行することを特徴とする請求項15から請求項17のいずれか記載のバックアップ方法。
  19. 前記データ比較処理を、前記サーバ装置と前記複数のクライアント装置とのいずれかが実行することを特徴とする請求項16から請求項18のいずれか記載のバックアップ方法。
  20. 前記サーバ装置に、前記重複ファイルが見つからなかった場合に前記バックアップを行うためのバックアップ記憶装置を配設したことを特徴とする請求項17から請求項19のいずれか記載のバックアップ方法。
  21. バックアップ対象の複数のクライアント装置を含むシステム上のデータのバックアップを制御するサーバ装置内において制御手段に実行させるプログラムであって、
    前記バックアップ時に同一内容のデータが複数存在することが検索された時にそれらのデータがバックアップされているものと見なして前記バックアップを抑止するよう制御する制御処理と、それらのデータの位置情報をカタログ情報記録装置に記録する記録処理とを含むことを特徴とするプログラム。
JP2007282582A 2007-10-31 2007-10-31 バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム Expired - Fee Related JP5018403B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007282582A JP5018403B2 (ja) 2007-10-31 2007-10-31 バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007282582A JP5018403B2 (ja) 2007-10-31 2007-10-31 バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム

Publications (2)

Publication Number Publication Date
JP2009110319A true JP2009110319A (ja) 2009-05-21
JP5018403B2 JP5018403B2 (ja) 2012-09-05

Family

ID=40778742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007282582A Expired - Fee Related JP5018403B2 (ja) 2007-10-31 2007-10-31 バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム

Country Status (1)

Country Link
JP (1) JP5018403B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186852A (ja) * 2010-03-09 2011-09-22 Nippon Telegr & Teleph Corp <Ntt> ファイル分割装置及び方法及びプログラム
JP2012198832A (ja) * 2011-03-23 2012-10-18 Nec Corp 重複ファイル検出装置
JP2013513839A (ja) * 2009-12-11 2013-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション クラスタ選択及び協調的レプリケーションのためのクラスタ・ファミリー
JP2013127666A (ja) * 2011-12-16 2013-06-27 Fujitsu Ltd 修復システム、修復方法及びプログラム
KR20140026845A (ko) * 2012-08-23 2014-03-06 주식회사 케이티 콘텐츠 저장 방법 및 그 시스템
JP2014178939A (ja) * 2013-03-15 2014-09-25 Nec Corp 重複データ管理装置、データ転送制御装置、データ転送制御システム、重複データ管理方法、データ転送制御方法、および、コンピュータ・プログラム
JP2014182647A (ja) * 2013-03-19 2014-09-29 International Business Maschines Corporation ファイルのバックアップの処理を行うコンピュータ、システム、方法およびプログラム
CN104166602A (zh) * 2014-08-15 2014-11-26 小米科技有限责任公司 数据备份方法及装置、电子设备
JP2015230504A (ja) * 2014-06-03 2015-12-21 日本電信電話株式会社 スナップショット制御装置、スナップショット制御方法およびスナップショット制御プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332776A (ja) * 1993-05-26 1994-12-02 Nec Corp ファイルバックアップ方式
JPH10124364A (ja) * 1996-10-24 1998-05-15 Casio Comput Co Ltd データバックアップ装置
JP2000293420A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データバックアップシステム
JP2002099454A (ja) * 2000-09-21 2002-04-05 Nec Corp ファイル管理システムおよび方法
JP2002236605A (ja) * 2001-02-13 2002-08-23 Cybozu Networks Inc データバックアップシステム
JP2002278818A (ja) * 2001-03-21 2002-09-27 Konica Corp データ管理システム
JP2004302573A (ja) * 2003-03-28 2004-10-28 Hitachi Computer Peripherals Co Ltd データバックアップ方法及びバッアップシステム
JP2006350470A (ja) * 2005-06-13 2006-12-28 National Institute Of Advanced Industrial & Technology データ管理装置および方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332776A (ja) * 1993-05-26 1994-12-02 Nec Corp ファイルバックアップ方式
JPH10124364A (ja) * 1996-10-24 1998-05-15 Casio Comput Co Ltd データバックアップ装置
JP2000293420A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データバックアップシステム
JP2002099454A (ja) * 2000-09-21 2002-04-05 Nec Corp ファイル管理システムおよび方法
JP2002236605A (ja) * 2001-02-13 2002-08-23 Cybozu Networks Inc データバックアップシステム
JP2002278818A (ja) * 2001-03-21 2002-09-27 Konica Corp データ管理システム
JP2004302573A (ja) * 2003-03-28 2004-10-28 Hitachi Computer Peripherals Co Ltd データバックアップ方法及びバッアップシステム
JP2006350470A (ja) * 2005-06-13 2006-12-28 National Institute Of Advanced Industrial & Technology データ管理装置および方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9250825B2 (en) 2009-12-11 2016-02-02 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
JP2013513839A (ja) * 2009-12-11 2013-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション クラスタ選択及び協調的レプリケーションのためのクラスタ・ファミリー
US8812799B2 (en) 2009-12-11 2014-08-19 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
US10073641B2 (en) 2009-12-11 2018-09-11 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
US9684472B2 (en) 2009-12-11 2017-06-20 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
JP2011186852A (ja) * 2010-03-09 2011-09-22 Nippon Telegr & Teleph Corp <Ntt> ファイル分割装置及び方法及びプログラム
JP2012198832A (ja) * 2011-03-23 2012-10-18 Nec Corp 重複ファイル検出装置
JP2013127666A (ja) * 2011-12-16 2013-06-27 Fujitsu Ltd 修復システム、修復方法及びプログラム
KR20140026845A (ko) * 2012-08-23 2014-03-06 주식회사 케이티 콘텐츠 저장 방법 및 그 시스템
KR101998147B1 (ko) * 2012-08-23 2019-07-09 주식회사 케이티 콘텐츠 저장 방법 및 그 시스템
JP2014178939A (ja) * 2013-03-15 2014-09-25 Nec Corp 重複データ管理装置、データ転送制御装置、データ転送制御システム、重複データ管理方法、データ転送制御方法、および、コンピュータ・プログラム
JP2014182647A (ja) * 2013-03-19 2014-09-29 International Business Maschines Corporation ファイルのバックアップの処理を行うコンピュータ、システム、方法およびプログラム
JP2015230504A (ja) * 2014-06-03 2015-12-21 日本電信電話株式会社 スナップショット制御装置、スナップショット制御方法およびスナップショット制御プログラム
CN104166602B (zh) * 2014-08-15 2017-07-04 小米科技有限责任公司 数据备份方法及装置、电子设备
CN104166602A (zh) * 2014-08-15 2014-11-26 小米科技有限责任公司 数据备份方法及装置、电子设备

Also Published As

Publication number Publication date
JP5018403B2 (ja) 2012-09-05

Similar Documents

Publication Publication Date Title
JP5018403B2 (ja) バックアップシステム、サーバ装置及びそれらに用いるバックアップ方法並びにそのプログラム
US20220092032A1 (en) High availability distributed deduplicated storage system
US10387269B2 (en) Dedicated client-side signature generator in a networked storage system
JP5283952B2 (ja) シングルインスタンス・ストレージプールの複製と再格納
JP4923016B2 (ja) 仮想的データ長期保存処理技術
US9058298B2 (en) Integrated approach for deduplicating data in a distributed environment that involves a source and a target
US8677091B2 (en) Writing data and storage system specific metadata to network attached storage device
JP5207260B2 (ja) バックアップ操作において重複排除を行うためのソース分類
JP6381570B2 (ja) バックアップ・デバイスからデータ・オブジェクトを復元するためのプログラム
JP2009205201A (ja) 重複排除技術を用いたデータバックアップ方法、記憶制御通信装置及びプログラム
JP5136162B2 (ja) バックアップ管理システム、方法、及び、プログラム
JP2007164769A (ja) ミラーリングされたシステム内の障害を管理するための方法、システム、およびプログラム(ミラーリングされたシステム内の障害の管理)
CN106528338B (zh) 一种远程数据复制方法、存储设备及存储系统
JP6287308B2 (ja) レプリケーション制御システム、レプリケーション制御方法、及び、レプリケーション制御プログラム
JP5565691B2 (ja) バックアップシステム、バックアップ方法及びバックアッププログラム
JP6291977B2 (ja) 分散ファイルシステム、バックアップファイル取得方法、制御装置及び管理装置
JP2007257156A (ja) リストアシステム及びリストア方法
JP2015005149A (ja) クラウドプリントにおけるプリントサーバ障害時のリカバリ方法
JP2004302573A (ja) データバックアップ方法及びバッアップシステム
JP2022093720A (ja) バックアップ方法、バックアップ装置およびバックアッププログラム
JP2017068668A (ja) データベースシステム、レプリケーション制御装置、レプリケーション方法、及びプログラム
JP2024049934A (ja) 計算機システム及びデータ制御方法
JP2015232812A (ja) サービス提供システム、サービス提供方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120528

R150 Certificate of patent or registration of utility model

Ref document number: 5018403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees