JP2017142664A - データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム - Google Patents

データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム Download PDF

Info

Publication number
JP2017142664A
JP2017142664A JP2016023641A JP2016023641A JP2017142664A JP 2017142664 A JP2017142664 A JP 2017142664A JP 2016023641 A JP2016023641 A JP 2016023641A JP 2016023641 A JP2016023641 A JP 2016023641A JP 2017142664 A JP2017142664 A JP 2017142664A
Authority
JP
Japan
Prior art keywords
data
partial data
partial
file
duplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016023641A
Other languages
English (en)
Inventor
敦博 吉野
Atsuhiro Yoshino
敦博 吉野
剛 西川
Takeshi Nishikawa
剛 西川
拓 木村
Hiroshi Kimura
拓 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Network Corp
Original Assignee
Mitsubishi Electric Information Network Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Network Corp filed Critical Mitsubishi Electric Information Network Corp
Priority to JP2016023641A priority Critical patent/JP2017142664A/ja
Publication of JP2017142664A publication Critical patent/JP2017142664A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データファイルの取得要求に対する応答を送信する際のデータ送信量を削減する。【解決手段】データI/O制御部101は、業務サーバー装置300から、複数の部分データで構成されるデータファイルの取得要求を受信する。重複排除部102は、データファイルにおいて同一の部分データが重複して出現する場合に、データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと重複部分データの重複数とが通知される、取得要求に対する応答を生成する。データI/O制御部101は、重複排除部102により生成された応答を、業務サーバー装置300に送信する。【選択図】図1

Description

本発明は、データファイルの取得要求に対する応答を送信する際のデータ送信量を削減する技術に関する。
近年は、バックアップ時間の短縮化や、ディスクの使用容量を削減することを目的として、バックアップシステムの中に重複排除機能を取り入れることが多くなっている。重複排除機能の使い方は、大きく分けて、バックアップアプリケーションの機能を使って処理する方式と、バックアップ用途向け専用ストレージ装置(以下、重複排除装置と記す)を使って処理する2つの方式がある。処理能力を重視する場合や、ディザスタリカバリに対応したシステムが必要な場合には、レプリケーション機能が搭載されている重複排除装置を利用することが多い。
図9は、重複排除装置を使って処理する方式について、一連のバックアップ処理の流れを示したものである。
図9について、一連の処理内容を説明する。
例えば、業務サーバー装置3000から重複排除装置1000に対して、ファイルA(実データ[ABCAD])のバックアップを取得した場合、ファイルAは、重複排除装置1000のデータI/O制御部1010を通り、重複排除部1020に送られる。重複排除部1020では、実データをチャンク単位に分割後、分割されたチャンクに対してハッシュ変換を行い、ハッシュ値を算出する。算出されたハッシュ値は、重複排除部1020のハッシュ照合部で保持しているID情報/ハッシュ/チャンク照合表で照会される。ID情報/ハッシュ/チャンク照合表に該当のハッシュ値が無ければ、そのハッシュ値に関連付いたチャンクを記憶領域部1040に格納する。ID情報/ハッシュ/チャンク照合表に該当するハッシュ値があれば、そのハッシュ値に関連付いたチャンクは、同一のチャンクがすでに記憶領域部1040に格納されていると判断し、記憶領域部に格納しない。
ハッシュ照合部では、これら照会済みのチャンクに対して、バックアップ時刻や記憶領域部1050での格納先など、ID情報で管理したメタデータ(以下、ポインタ情報と記す)を作成し、ポインタ格納部に保存する。
この構成では、バックアップデータの保管に必要なディスク容量は削減できるが、実データをすべて重複排除装置1000に送信してから重複排除を行うため、ネットワーク帯域削減やバックアップ処理時間の短縮化に対しては効果が低い。
このため、最近はバックアップアプリケーションのエージェントと重複排除装置1000が連携して、業務サーバー装置3000または、バックアップサーバー装置2000側で重複排除させたデータを重複排除装置1000に送信するバックアップ方式も取られるようになってきた。
図10は、バックアップアプリケーションのエージェントと重複排除装置1000を連携させた場合のバックアップ処理の流れを示したものである。
図10について、一連の処理内容を説明する。
例えば、業務サーバー装置3000から重複排除装置1000に対して、ファイルA(実データ[ABCAD])のバックアップを取得した場合、まず、業務サーバー装置3000上にインストールされたバックアップアプリケーションのエージェントによって、実データがチャンク単位に分割される。次に、分割されたチャンクに対してハッシュ変換が行われ、ハッシュ値が算出される。算出されたハッシュ値は、重複排除装置1000のハッシュ照合部に送信され、ID情報/ハッシュ/チャンク照合表で照会される。ID情報/ハッシュ/チャンク照合表に該当のハッシュ値が無ければ、そのハッシュ値に関連付いたチャンクは、業務サーバー装置3000から重複排除装置1000に送信され、記憶領域部1040に格納される。ID情報/ハッシュ/チャンク照合表に該当するハッシュ値があれば、そのハッシュ値に関連付いたチャンクは、すでに同一チャンクが記憶領域部1040に格納済みであると判断し、記憶領域部1040に格納しない。ハッシュ照合部では、これら照会済みのチャンクに対して、ポインタ情報を作成し、ポインタ格納部に保存する。
この構成では、エージェントを動作させる業務サーバー装置3000の負荷は増すが、図9の構成と比べて、業務サーバー装置3000から重複排除装置1000にかけてのネットワーク帯域削減や、バックアップ処理時間の短縮化に効果がある。
一方で、リストア処理については、いずれの構成においても、ネットワーク帯域を削減することができない仕組みになっている。
なお、リストア処理における通信量を削減する方法として、特許文献1に記載の技術がある。
特許文献1では、バックアップデータのリストア先コンピュータが複数ある場合に、マルチキャストデータ送信とリストアデータの送信順序を工夫することで、同一データの重複転送を回避し、通信量を削減する技術が開示されている。
特開2013−61883号公報
ここでは、図10に示すバックアップアプリケーションのエージェントと重複排除装置1000を連携させた場合のリストア処理を例に取り、リストア処理がもつ課題を提示する。
図11は、バックアップアプリケーションのエージェントと重複排除装置1000を連携させた場合のリストア処理の流れを示したものである。
図11について、一連の処理内容を説明する。
ある特定のファイルを重複排除装置1000から業務サーバー装置3000にリストアする場合、重複排除装置1000において、ポインタ格納部がリストア対象のポインタ情報を取得する。取得したポインタ情報は、ハッシュ照合部に送信され、ID情報/ハッシュ/チャンク照合表との照合作業が行われる。照合結果を基に、ハッシュ照合部は、記憶領域部1040から重複排除済みデータを収集する。収集した重複排除済みデータは、チャンク復元部に送信される。チャンク復元部は、重複したチャンクを作成する。重複したチャンクは、実データ復元部に送信される。実データ復元部は、整合性の取れた実データを作成する。整合性の取れた実データは、バックアップサーバー装置2000経由で業務サーバー装置3000に送信され、業務サーバー装置3000上の記憶領域に書き込まれる。
なお、この場合の重複排除装置1000の動作フローを図14に示し、業務サーバー装置3000の動作フローを図15に示す。
このように、リストア処理では、重複排除装置1000で実データを復元してから、バックアップサーバー装置2000や業務サーバー装置3000に送信しているため、バックアップ処理時のようなネットワーク帯域削減や処理時間の短縮化が図れない。
図12及び図13は、図9〜図11のバックアップ/リストア処理で発生するデータ送信量を矢印の太さで示したものである。
図12は、図9に示すバックアップ処理でのデータ送信量と、図9に示すバックアップ処理に対応するリストア処理でのデータ送信量を示す。
図13は、図10に示すバックアップ処理でのデータ送信量と、図11に示すリストア処理でのデータ送信量を示す。
このように、従来の方式では、リストア処理でのデータ送信量を削減することができないという課題がある。
また、特許文献1の技術では、リストア先コンピュータが複数ある場合に、1つのデータを複数のリストア先コンピュータに同時送信(マルチキャスト)することで、重複転送を回避してデータ送信量を削減することを内容としている。このため、特許文献1の方法では、リストア先コンピュータが複数存在しないと、データ送信量の削減効果が生じない。
本発明は、上記の課題を解決することを主な目的としており、リストア先コンピュータの台数に関わらずに、リストア時、すなわちデータファイルの取得要求に対する応答を送信する際のデータ送信量を削減することを主な目的とする。
本発明に係るデータ処理装置は、
複数の部分データで構成されるデータファイルの取得要求を受信する受信部と、
前記データファイルにおいて同一の部分データが重複して出現する場合に、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する重複排除部と、
前記重複排除部により生成された前記応答を、前記取得要求の送信元に送信する送信部とを有する。
前記重複排除部は、
前記データファイルにおける部分データの出現順序に従って前記データファイルの部分データが重複なく配列されるとともに、前記重複部分データが重複して出現する位置に前記重複部分データの複製指示が設定される、前記取得要求に対する応答を生成する。
前記データ処理装置は、更に、
前記データファイルの部分データを重複なく記憶する記憶領域部を有し、
前記重複排除部は、
前記データファイルでの部分データの構成が部分データの重複を含めて記述されるファイル構成情報を保持しており、
前記記憶領域部から前記データファイルの部分データを重複なく読み出し、
前記記憶領域部から読み出した部分データと前記ファイル構成情報に記述されている部分データの構成とを照合して、前記重複部分データと前記重複部分データの重複数とを導出し、
前記記憶領域部から読み出した部分データが重複なく含まれるとともに、導出した前記重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する。
本発明に係るデータ処理システムは、
複数の部分データで構成されるデータファイルの取得要求を送信する第1のデータ処理装置と、
前記第1のデータ処理装置から送信された前記取得要求を受信し、
前記データファイルにおいて同一の部分データが重複して出現する場合に、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成し、
生成した前記応答を、前記第1のデータ処理装置に送信する第2のデータ処理装置とを有し、
前記第1のデータ処理装置は、
前記データ処理装置から送信された前記応答を受信し、
前記重複部分データの複製を前記重複数分生成し、
前記応答に含まれる部分データと前記重複部分データの複製とを用いて、前記データファイルを再現する。
本発明に係るデータ処理方法は、
コンピュータが、複数の部分データで構成されるデータファイルの取得要求を受信する受信処理と、
前記データファイルにおいて同一の部分データが重複して出現する場合に、前記コンピュータが、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する重複排除処理と、
前記コンピュータが、前記重複排除処理により生成された前記応答を、前記取得要求の送信元に送信する送信処理とを有する。
本発明に係るデータ処理プログラムは、複数の部分データで構成されるデータファイルの取得要求を受信する受信処理と、
前記データファイルにおいて同一の部分データが重複して出現する場合に、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する重複排除処理と、
前記重複排除処理により生成された前記応答を、前記取得要求の送信元に送信する送信処理とをコンピュータに実行させる。
本発明によれば、取得要求に対する応答において、データファイルの部分データを重複なく送信するため、データ送信量を削減することができる。
実施の形態1に係るデータ処理システムの構成例を示す図。 実施の形態1に係る重複排除装置の機能構成例を示す図。 実施の形態1に係る業務サーバー装置の機能構成例を示す図。 実施の形態1に係るリストア処理でのデータ送信量を示す図。 実施の形態1に係る重複排除装置の動作例を示すフローチャート図。 実施の形態1に係る業務サーバー装置の動作例を示すフローチャート図。 実施の形態1に係る重複排除装置のハードウェア構成例を示す図。 実施の形態1に係る業務サーバー装置のハードウェア構成例を示す図。 重複排除装置を使ったバックアップ処理の動作例を示す図。 バックアップアプリケーションのエージェントと重複排除装置を連携させた場合のバックアップ処理の動作例を示す図。 バックアップアプリケーションのエージェントと重複排除装置を連携させた場合のリストア処理の動作例を示す図。 重複排除装置を使ったバックアップ処理とリストア処理のデータ送信量を示す図。 バックアップアプリケーションのエージェントと重複排除装置を連携させた場合のバックアップ処理とリストア処理のデータ送信量を示す図。 重複排除装置の動作例を示すフローチャート図。 業務サーバー装置の動作例を示すフローチャート図。
実施の形態1.
***構成の説明***
図1は、本実施の形態に係るデータ処理システムの構成例を示す。
本実施の形態では、主にリストア処理でのデータ送信量を削減する方法を説明する。バックアップ処理は、図9又は図10に示す方法により行われるものとする。つまり、本実施の形態では、図9又は図10に示す方法によりバックアップ処理が行われたデータファイルのリストア処理においてデータ送信量を削減する方法を説明する。
なお、業務サーバー装置300は、第1のデータ処理装置の例に相当する。また、重複排除装置100は、第2のデータ処理装置又はデータ処理装置の例に相当する。また、重複排除装置100での動作は、データ処理方法及びデータ処理プログラムの例に相当する。
図1において、業務サーバー装置300は、図9〜図11に示す業務サーバー装置3000に対応する。
業務サーバー装置300は、バックアップ時は、図9又は図10に示す業務サーバー装置3000と同様の動作を行う。
リストア時には、業務サーバー装置300は、図11に示す動作とは異なり、重複排除装置1000から送信されたデータセット12からデータファイルであるファイルA14を再現する。
バックアップサーバー装置200は、図9〜図11に示すバックアップサーバー装置2000に対応する。
バックアップサーバー装置200は、バックアップ時は、図9又は図10に示すバックアップサーバー装置2000と同様の動作を行う。
リストア時には、バックアップサーバー装置200は、図11に示す動作とは異なり、重複排除装置100から送信されたデータセット12を業務サーバー装置300に転送する。
重複排除装置100は、図9〜図11に示す重複排除装置1000に対応する。
重複排除装置100は、バックアップ時は、図9又は図10に示す重複排除装置1000と同様の動作を行う。
リストア時には、重複排除装置100は、図11に示す動作とは異なり、ファイルA14の部分データを重複なく含み、重複している部分データを通知するデータセット12を生成し、ファイルA14ではなくデータセット12を送信する。
重複排除装置100は、内部構成として、データI/O制御部101、重複排除部102、データ格納制御部103、記憶領域部104を有する。
データI/O制御部101は、図9〜図11に示すデータI/O制御部1010に対応する。
重複排除部102は、図9〜図11に示す重複排除部1020に対応する。
データ格納制御部103は、図9〜図11に示すデータ格納制御部1030に対応する。
記憶領域部104は、図9〜図11に示す記憶領域部1040に対応する。
なお、データI/O制御部101、重複排除部102、データ格納制御部103、記憶領域部104の詳細は後述する。
図2は、本実施の形態に係る重複排除装置100の機能構成例を示す。また、図7は、本実施の形態に係る重複排除装置100のハードウェア構成例を示す。
図7に示すように、重複排除装置100は、ハードウェアとして、プロセッサ901、記憶装置902及び通信装置903を備えるコンピュータである。
記憶装置902には、データI/O制御部101、重複排除部102及びデータ格納制御部103の機能を実現するプログラムが記憶されている。
そして、プロセッサ901がこれらプログラムを実行して、後述するデータI/O制御部101、重複排除部102及びデータ格納制御部103の動作を行う。
図7では、プロセッサ901がデータI/O制御部101、重複排除部102及びデータ格納制御部103の機能を実現するプログラムを実行している状態を模式的に表している。
また、記憶装置902は、記憶領域部104を実現する。
通信装置903は、バックアップサーバー装置200と通信する回路である。
データI/O制御部101は、業務サーバー装置300から送信された、データファイルの取得要求であるリストア要求をバックアップサーバー装置200から受信する。
また、データI/O制御部101は、リストア要求に対する応答を、リストア要求の送信元である業務サーバー装置300にバックアップサーバー装置200を介して送信する。
データI/O制御部101は、より具体的には、図7に示す通信装置903を用いてリストア要求を受信し、通信装置903を用いて応答を送信する。
データファイルであるファイルA14は、部分データA、B、C、A、Dで構成される。各部分データは、ファイルA14を分割して得られたデータである。部分データはチャンクともいう。
なお、データI/O制御部101は、受信部及び送信部の例に相当する。また、データI/O制御部101で行われる動作は、受信処理及び送信処理の例に相当する。
重複排除部102は、ファイルA14において同一の部分データが重複して出現する場合に、ファイルA14の部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと重複部分データの重複数とが通知される応答を生成する。
上述のように、ファイルA14は、部分データA、B、C、A、Dで構成されており、部分データAが重複している。重複排除部102は、部分データA、B、C、DというファイルA14の部分データを重複なく含むとともに、部分データAが重複部分データであることを示し、部品データAの重複数を通知する応答を生成する。より具体的には、重複排除部102は、ファイルA14における部分データの出現順序に従ってファイルA14の部分データが重複なく配列されるとともに、重複部分データが重複して出現する位置に重複部分データの複製指示が設定される応答を生成する。つまり、重複排除部102により生成される応答には、部分データA、B、C、Dが配列されるとともに、重複部分データである部分データAが重複して出現する位置(部分データCとDの間)に部分データAの複製指示が設定される。また、応答には、部分データA、B、C、Dの識別子であるID情報が含まれる。
以下では、重複排除部102により生成される応答は、データセット12という。
なお、重複排除部102は、図2に示すように、ポインタ格納部1、ハッシュ照合部2、ポインタ重複排除部3及びID情報追加部4を内部構成として含むが、これらポインタ格納部1、ハッシュ照合部2、ポインタ重複排除部3及びID情報追加部4の詳細は後述する。
重複排除部102で行われる動作は、重複排除処理の例に相当する。
データ格納制御部103は、記憶領域部104から重複が排除されたファイルA14の部分データ群を読み出す。なお、重複が排除されたファイルA14の部分データ群を、重複排除済みデータ13という。重複排除済みデータ13は、図2に示すように、部分データA、B、C、Dで構成される。
記憶領域部104は、重複排除済みデータ13を記憶する。すなわち、記憶領域部104は、ファイルA115の部分データを重複なく記憶する。
図3は、本実施の形態に係る業務サーバー装置300の機能構成例を示す。また、図8は、本実施の形態に係る業務サーバー装置300のハードウェア構成例を示す。
図8に示すように、業務サーバー装置300は、ハードウェアとして、プロセッサ911、記憶装置912及び通信装置913を備えるコンピュータである。
記憶装置912には、実データ復元部5、ID情報/実データ分割部6及び書込み制御部7の機能を実現するプログラムが記憶されている。
そして、プロセッサ911がこれらプログラムを実行して、後述する実データ復元部5、ID情報/実データ分割部6及び書込み制御部7の動作を行う。
図8では、プロセッサ911が実データ復元部5、ID情報/実データ分割部6及び書込み制御部7の機能を実現するプログラムを実行している状態を模式的に表している。
通信装置903は、バックアップサーバー装置200と通信する回路である。
実データ復元部5は、データセット12内の複製指示を、重複部分データである部分データAへのリンク情報に置換する。
ID情報/実データ分割部6は、データセット12からID情報を除去する。
書込み制御部7は、データセット12の部分データA、B、Cを記憶領域に書き込み、また、部分データAへのリンク情報に基づき、部分データAの複製を記憶領域に書き込み、最後に、部分データDを記憶領域に書き込む。
このようにして、書込み制御部7は、部分データA、B、C、A、Dを記憶領域に書き込み、ファイルA14を復元する。
***動作の説明***
次に、本実施の形態に係る重複排除装置100及び業務サーバー装置300の動作例を図2、図3、図5及び図6を参照して説明する。
図5は、重複排除装置100の動作例を示すフローチャートであり、図6は、業務サーバー装置300の動作例を示すフローチャートである。
なお、以下では、業務サーバー装置300から重複排除装置100に対してファイルA14についてのリストア要求があった時点以降の重複排除装置100及び業務サーバー装置300の動作例を説明する。
なお、図2に示す、ポインタ情報15及びID情報/ハッシュ/チャンク照合表16は、ファイルA14のバックアップ時に生成されているものとする。すなわち、ファイルA14についてのリストア要求があった時点ではポインタ情報15及びID情報/ハッシュ/チャンク照合表は既に存在している。
業務サーバー装置300がファイルA14についてのリストア要求を通信装置913から送信すると、バックアップサーバー装置200がリストア要求を重複排除装置100に転送する。
重複排除装置100では、データI/O制御部101が通信装置903を用いてリストア要求を受信する。そして、データI/O制御部101は、リストア要求を重複排除部102のポインタ格納部1に転送する。
ポインタ格納部1は、リストア対象のデータファイルであるファイルA14のポインタ情報15を取得する(ステップS501)。ポインタ情報15は、例えば、記憶装置902内の記憶領域部104とは異なる記憶領域に格納されている。
なお、ポインタ情報15とは、ファイルA14に含まれる部分データのID情報が配列された情報である。前述したように、ファイルA14は、部分データA、B、C、A、Dで構成されている。部分データAは、ID情報:1が設定されているものとする。部分データBは、ID情報:2が設定されているものとする。部分データCは、ID情報:7が設定されているものとする。部分データDは、ID情報:8が設定されているものとする。従って、ファイルA14のポインタ情報15は、「12718」である。
ポインタ格納部1は、ポインタ情報15をハッシュ照合部2に転送する。
次に、ハッシュ照合部2は、ファイルA14のポインタ情報15に対応するチャンク情報を、ID情報/ハッシュ/チャンク照合表16から抽出する(ステップS502)。
ID情報/ハッシュ/チャンク照合表16は、部分データごとに、ID情報とハッシュ値とチャンク情報とを対応付けたテーブルである。ハッシュ値は、部分データにハッシュ演算を行って得られる値である。チャンク情報は、部分データ(チャンク)を特定する値である。ID情報/ハッシュ/チャンク照合表16は、例えば、記憶装置902内の記憶領域部104とは異なる記憶領域に格納されている。ID情報/ハッシュ/チャンク照合表16は、データファイルでの部分データの構成が部分データの重複を含めて記述される情報であり、ファイル構成情報の例に相当する。
ハッシュ照合部2は、ポインタ情報15に含まれるID情報:1、2、7、1、8に基づき、ID情報/ハッシュ/チャンク照合表16から、ID情報:1、2、7、1、8と対応付けられているチャンク情報:A、B、C、A、Dを抽出する。このようにして抽出されたチャンク情報群17には、ファイルA14の部分データの構成が示される。なお、チャンク情報は、部分データの名称(A、B等)を破線の四角形で囲んで表現している。一方、実際の部分データは、部分データの名称(A、B等)を実線の四角形で囲んで表現している。チャンク情報群17のA、B等は破線で囲まれているのでチャンク情報である。一方、重複排除済みデータ13のA、B等は実線で囲まれているので、チャンク情報ではなく、実際の部分データである。
ハッシュ照合部2は、抽出したチャンク情報群17を、ポインタ情報15とともに、ポインタ重複排除部3に転送する。
ポインタ重複排除部3は、ポインタ情報15の重複排除処理を行う(ステップS503)。
つまり、ポインタ情報15における「1」の重複を排除して、重複排除済みのポインタ情報18を得る。
また、ポインタ重複排除部3は、重複排除済みのポインタ情報18をデータ格納制御部103を介して記憶領域部104に転送する(ステップS504)。
なお、記憶領域部104は、重複排除済みのポインタ情報18に基づき、重複排除済みデータ13をID情報追加部4に出力する。つまり、記憶領域部104から、ファイルA14の部分データが重複なく読み出される。
また、ポインタ重複排除部3は、ステップS504の処理と並行して、ポインタ情報15とチャンク情報群17をID情報追加部4に転送する(ステップS505)。
ID情報追加部4は、リストア要求に対する応答であるデータセット12を生成する(ステップS506)。
具体的には、ID情報追加部4は、記憶領域部104から読み出された重複排除済みデータ13とチャンク情報群17とを照合して、重複部分データと重複部分データの重複数、重複位置を導出する。
図2の例では、ID情報追加部4は、重複部分データとして部分データAを導出し、また、重複数、重複位置として、部分データCと部分データDとの間を導出する。
そして、ID情報追加部4は、重複部分データの重複位置に、部分データAのチャンク情報を挿入する。この部分データAのチャンク情報は、業務サーバー装置300に対して、部分データAが重複部分データであることを通知し、また、重複部分データの重複数が「1」であることを通知する役割を有する。また、この部分データAのチャンク情報は、業務サーバー装置300に対して、部分データAの複製の生成を指示する役割を有する。
また、ID情報追加部4は、重複排除済みデータ13とチャンク情報に、ポインタ情報15に示されるID情報を付加する。
これにより、データセット12が完成する。
ID情報追加部4は、データセット12をデータI/O制御部101に転送する。
最後に、データI/O制御部101が通信部903を用いて、データセット12をバックアップサーバー装置200を介して業務サーバー装置300にストリーミング送信する(ステップS507)。
業務サーバー装置300では、通信部913がデータセット12を受信し、データ復元部5が、データセット12に含まれるチャンク情報をリンク情報に置き換える(ステップS601)。
図3の例では、データ復元部5は、部分データAについてのチャンク情報を、部分データAへのリンク情報に置き換える。
そして、データ復元部5は、チャンク情報がリンク情報に置き換えられた後のデータセット12をID情報/実データ分割部6に転送する。
ID情報/実データ分割部6は、チャンク情報がリンク情報に置き換えられた後のデータセット12からID情報を除去する(ステップS602)。
そして、ID情報/実データ分割部6は、ID情報が除去された後のデータセット12、すなわち、重複排除済みデータ13とチャンク情報を書き込み制御部7に転送する。
書き込み制御部7は、ID情報が除去された後のデータセット12内の部分データを業務サーバー装置300内の記憶領域に書き込み、更に、リンク情報に従い、該当する部分データの複製を記憶領域に書き込む(ステップS603)。
図3の例では、ID情報が除去された後のデータセット12の最初の3つは部分データA、B、Cなので、書き込み制御部7は、部分データA、B、Cを記憶領域に書き込む。次は部分データAについてのリンク情報なので、書き込み制御部7は部分データAの複製を生成し、部分データAの複製を記憶領域に書き込む。次は部分データDなので、書き込み制御部7は、部分データDを記憶領域に書き込む。
以上の手順により、ファイルA14が復元される。
***実施の形態の効果の説明***
このように、本実施の形態では、重複排除済みデータのリストア処理に必要となる複数のコンポーネントを重複排除装置と業務サーバー装置に分散させたことで、従来技術のリストア処理では実現できなかった重複排除装置から業務サーバー装置にかけてのネットワーク帯域削減を可能にしている。
図4は、本実施の形態のリストア処理で発生するデータ送信量を矢印の太さで示している。
本実施の形態では、重複部分データを重複して送信しないため、図7に示すように、図12及び図13に示すリストア処理でのデータ送信量と比較して、大幅に少ないデータ送信量でリストア処理を行うことができる。
なお、図2及び図3の例では、説明の簡明のために、ファイルA14において、部分データAのみが重複している例を用いたが、実際のデータバックアップでは1つのデータファイルに多数の重複部分データが存在する。このため、本実施の形態に係るリストア処理では、従来の構成と比較して、データ送信量を大幅に削減することができる。
***ハードウェア構成の説明***
最後に、ハードウェア構成の補足説明を行う。
プロセッサ901、911は、プロセッシングを行うIC(Integrated Circuit)である。
プロセッサ901、911は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等である。
記憶装置902、912は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard Disk Drive)等である。
通信装置903、913は、データを受信するレシーバー及びデータを送信するトランスミッターを含む。
通信装置903、913は、例えば、通信チップ又はNIC(Network Interface Card)である。
また、記憶装置902、912には、OS(Operating System)も記憶されている。
そして、OSの少なくとも一部がプロセッサ901、911により実行される。
プロセッサ901、911がOSを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
また、重複排除装置100において、データI/O制御部101、重複排除部102、データ格納制御部103の処理の結果を示す情報やデータや信号値や変数値が、記憶装置902、又は、プロセッサ901内のレジスタ又はキャッシュメモリに記憶される。
また、業務サーバー装置300において、実データ復元部5、ID情報/実データ分離部6、書き込み制御部7の処理の結果を示す情報やデータや信号値や変数値が、記憶装置912、又は、プロセッサ911内のレジスタ又はキャッシュメモリに記憶される。
また、データI/O制御部101、重複排除部102、データ格納制御部103の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD等の可搬記憶媒体に記憶されてもよい。
同様に、実データ復元部5、ID情報/実データ分離部6、書き込み制御部7の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD等の可搬記憶媒体に記憶されてもよい。
また、重複排除装置100及び業務サーバー装置300は、それぞれ、ロジックIC(Integrated Circuit)、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)といった電子回路により実現されてもよい。
1 ポインタ格納部、2 ハッシュ照合部、3 ポインタ重複排除部、4 ID情報追加部、5 実データ復元部、6 ID情報/実データ分離部、7 書き込み制御部、12 データセット、13 重複排除済みデータ、14 ファイルA、15 ポインタ情報、16 ID情報/ハッシュ/チャンク照合表、17 チャンク情報群、18 重複排除済みのポインタ情報、100 重複排除装置、101 データI/O制御部、102 重複排除部、103 データ格納制御部、104 記憶領域部、200 バックアップサーバー装置、300 業務サーバー装置。

Claims (6)

  1. 複数の部分データで構成されるデータファイルの取得要求を受信する受信部と、
    前記データファイルにおいて同一の部分データが重複して出現する場合に、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する重複排除部と、
    前記重複排除部により生成された前記応答を、前記取得要求の送信元に送信する送信部とを有するデータ処理装置。
  2. 前記重複排除部は、
    前記データファイルにおける部分データの出現順序に従って前記データファイルの部分データが重複なく配列されるとともに、前記重複部分データが重複して出現する位置に前記重複部分データの複製指示が設定される、前記取得要求に対する応答を生成する請求項1に記載のデータ処理装置。
  3. 前記データ処理装置は、更に、
    前記データファイルの部分データを重複なく記憶する記憶領域部を有し、
    前記重複排除部は、
    前記データファイルでの部分データの構成が部分データの重複を含めて記述されるファイル構成情報を保持しており、
    前記記憶領域部から前記データファイルの部分データを重複なく読み出し、
    前記記憶領域部から読み出した部分データと前記ファイル構成情報に記述されている部分データの構成とを照合して、前記重複部分データと前記重複部分データの重複数とを導出し、
    前記記憶領域部から読み出した部分データが重複なく含まれるとともに、導出した前記重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する請求項1に記載のデータ処理装置。
  4. 複数の部分データで構成されるデータファイルの取得要求を送信する第1のデータ処理装置と、
    前記第1のデータ処理装置から送信された前記取得要求を受信し、
    前記データファイルにおいて同一の部分データが重複して出現する場合に、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成し、
    生成した前記応答を、前記第1のデータ処理装置に送信する第2のデータ処理装置とを有し、
    前記第1のデータ処理装置は、
    前記データ処理装置から送信された前記応答を受信し、
    前記重複部分データの複製を前記重複数分生成し、
    前記応答に含まれる部分データと前記重複部分データの複製とを用いて、前記データファイルを再現するデータ処理システム。
  5. コンピュータが、複数の部分データで構成されるデータファイルの取得要求を受信する受信処理と、
    前記データファイルにおいて同一の部分データが重複して出現する場合に、前記コンピュータが、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する重複排除処理と、
    前記コンピュータが、前記重複排除処理により生成された前記応答を、前記取得要求の送信元に送信する送信処理とを有するデータ処理方法。
  6. 複数の部分データで構成されるデータファイルの取得要求を受信する受信処理と、
    前記データファイルにおいて同一の部分データが重複して出現する場合に、前記データファイルの部分データが重複なく含まれるとともに、重複して出現する部分データである重複部分データと前記重複部分データの重複数とが通知される、前記取得要求に対する応答を生成する重複排除処理と、
    前記重複排除処理により生成された前記応答を、前記取得要求の送信元に送信する送信処理とをコンピュータに実行させるデータ処理プログラム。
JP2016023641A 2016-02-10 2016-02-10 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム Pending JP2017142664A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016023641A JP2017142664A (ja) 2016-02-10 2016-02-10 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016023641A JP2017142664A (ja) 2016-02-10 2016-02-10 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム

Publications (1)

Publication Number Publication Date
JP2017142664A true JP2017142664A (ja) 2017-08-17

Family

ID=59627863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016023641A Pending JP2017142664A (ja) 2016-02-10 2016-02-10 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム

Country Status (1)

Country Link
JP (1) JP2017142664A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019153134A (ja) * 2018-03-05 2019-09-12 日本電産株式会社 ロボット制御装置、バックアップファイルの保存方法およびプログラム
WO2022038873A1 (ja) 2020-08-21 2022-02-24 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2022044458A1 (ja) 2020-08-24 2022-03-03 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019153134A (ja) * 2018-03-05 2019-09-12 日本電産株式会社 ロボット制御装置、バックアップファイルの保存方法およびプログラム
JP7249735B2 (ja) 2018-03-05 2023-03-31 日本電産株式会社 ロボット制御装置、バックアップファイルの保存方法およびプログラム
WO2022038873A1 (ja) 2020-08-21 2022-02-24 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2022044458A1 (ja) 2020-08-24 2022-03-03 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US11429305B2 (en) Performing backup operations using replicas
US10114581B1 (en) Creating a virtual access point in time on an object based journal replication
US9471590B2 (en) Method and apparatus for replicating virtual machine images using deduplication metadata
US10503604B2 (en) Virtual machine data protection
US9563517B1 (en) Cloud snapshots
US10496487B1 (en) Storing snapshot changes with snapshots
US10949405B2 (en) Data deduplication device, data deduplication method, and data deduplication program
US8924354B2 (en) Block level data replication
US10162555B2 (en) Deduplicating snapshots associated with a backup operation
US20120011101A1 (en) Integrating client and server deduplication systems
US10223007B1 (en) Predicting IO
TW201020824A (en) Efficient transfer of deduplicated data
US8676750B2 (en) Efficient data synchronization in a distributed data recovery system
US20100023561A1 (en) Data Restoration in a Storage System using Multiple Restore Points
US10484179B1 (en) Data consistency in an encrypted replication environment
US10613923B2 (en) Recovering log-structured filesystems from physical replicas
JP2017142664A (ja) データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム
CN106528338A (zh) 一种远程数据复制方法、存储设备及存储系统
US9690837B1 (en) Techniques for preserving redundant copies of metadata in a data storage system employing de-duplication
JP2017167811A (ja) バックアップ制御装置、バックアップ制御方法及びプログラム
US11514002B2 (en) Indexing splitter for any pit replication
JP6413792B2 (ja) ストレージシステム
JP6337982B1 (ja) ストレージシステム
US9607000B1 (en) Backup to tape-out using common backup data storage
JP5751041B2 (ja) ストレージ装置、ストレージ方法およびプログラム