JP4951331B2 - ストレージシステム - Google Patents
ストレージシステム Download PDFInfo
- Publication number
- JP4951331B2 JP4951331B2 JP2006350236A JP2006350236A JP4951331B2 JP 4951331 B2 JP4951331 B2 JP 4951331B2 JP 2006350236 A JP2006350236 A JP 2006350236A JP 2006350236 A JP2006350236 A JP 2006350236A JP 4951331 B2 JP4951331 B2 JP 4951331B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- information
- duplicate
- full
- text search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図24〜図25等を用いて、本発明の実施の形態を従来技術と比較してわかりやすく説明するために、本発明の実施の形態に対する従来技術(前提技術)について簡単に説明する。
次に、図1において、本発明の実施の形態のストレージシステム(情報処理システム)についての構成の概要を示している。本システムは、ホスト装置(クライアント装置)400、デ・デュプリケート機能を備えるストレージ装置100、全文検索機能を備える全文検索サーバ200を有する。ストレージ装置100は、デ・デュプリケート処理部(機能)501を備え、デ・デュプリケート処理部501によるデ・デュプリケート処理に伴い、デ・デュプリケート情報(C2)を作成・管理し、外部(全文検索サーバ200)に提供する。全文検索サーバ200では、全文検索機能(処理部)に、デ・デュプリケート対応処理部502を備える。デ・デュプリケート対応処理部502は、デ・デュプリケート処理部501のデ・デュプリケート処理に対応した全文検索処理(インデックス情報のデ・デュプリケート)を実現する部位である。全文検索サーバ200(全文検索処理部)では、インデックス情報作成処理(キーワード抽出処理を含む)、デ・デュプリケートグループ情報(C2)602の作成・管理、中身同一ファイルについてのキーワード抽出処理の抑止、及びデ・デュプリケートされたインデックス情報に対応した検索結果情報出力などを行う(後述)。なお、インデックス情報300の格納先の記憶手段は、いずれとしてもよい。
次に、図3〜図12を用いて、本発明の実施の形態1のストレージシステムを説明する。実施の形態1は、前記概要構成に従って、デ・デュプリケート機能を備えるNAS及びストレージ装置及び全文検索サーバを備えるストレージシステム構成において、全文検索サーバを、デ・デュプリケート機能に対応した機能(デ・デュプリケート対応処理部)を備える構成にしたものである。また、ファイル他の各種情報をストレージ装置内にまとめて格納する場合である。
図3は、実施の形態1のストレージシステムの構成を示している。本システムの全体は、ホスト装置400群に対して、ネットワーク901を介して、デ・デュプリケート機能及び全文検索機能を備えるストレージシステムが接続される構成である。ストレージシステムは、NAS(ファイルサーバ)101、全文検索サーバ102、及びストレージ装置103を有し、これらが、ネットワーク902を介して相互接続される構成である。
図3において、処理の流れは以下である。例えば、ホスト装置400からNAS101に対してファイルを書き込む(FW:ファイル書き込み、FR:ファイル読み出し)。NAS101は、ホスト装置400からのアクセスに基づき、ファイル(データ本体)とそのメタデータを、ストレージ装置103の記憶領域(検索対象ファイル群700)に格納する。
図4において、全文検索サーバ102及びデ・デュプリケート対応処理部502の詳細構成を示している。全文検索サーバ102は、検索対象ファイル抽出処理11、デ・デュプリケート対応処理部502によるデ・デュプリケートグループ情報追加・作成処理13、デ・デュプリケート対応キーワード抽出処理(キーワード抽出抑止処理)14、及びデ・デュプリケート対応検索処理15等の処理を行う。
図5において、ホスト装置400、NAS101、全文検索サーバ200のハードウェア構成を示している。ホスト装置400は、制御部(CPU)801、メモリ802、ポート(通信処理部)803、キーボードやマウス等の入力装置804、ディスプレイ等の出力装置805などを備える。制御部801によりメモリ802上のプログラム(業務アプリケーションプログラム(AP)806、ストレージ管理・利用プログラム等)を実行することにより、ホスト装置400としての機能を実現する。ホスト装置400は、ポート803により、NAS101及び全文検索サーバ200と通信接続する。ホスト装置400は、ポート803により、NAS101及び全文検索サーバ200と通信接続する。
図6において、ストレージ装置100(特にストレージ装置103)の詳細構成例を示している。ストレージ装置100は、制御(記憶制御)機能を担うDKC(ディスクコントローラ)110と、記憶機能を担うDKU(ディスクユニット)130を備え、また、保守管理機能を備えるSVP(サービスプロセッサ)190等が接続または内蔵されている。
図7(a)〜(c)において、本実施の形態1におけるインデックス情報(デ・デュプリケートグループ情報(C2)を含む)300のテーブル形式の構成例を示している(図7(d)は従来構成例)。これは図2の例と対応している。図7(a)のファイルのメタデータ310は、ファイルID311、ファイル名(パス等を含む)312、デ・デュプリケートグループ情報(C2)602を有する。従来のメタデータ(簡単のため、ファイルID311とファイル名312のみ示す)に対し、デ・デュプリケートグループ情報(C2)602が追加された構成である。デ・デュプリケートグループ情報(C2)602は、代表ファイルフラグ51、次ファイルID52(RN_FID)を有する。代表ファイルフラグ51は、代表ファイルであるかどうかを示すフラグである。次ファイルID52は、同一デ・デュプリケートグループ内のリング構成(前記デ・デュプリケートファイル間リンクと対応している)における次のファイルを示すファイルIDである。図7(b)のキーワード情報320は、従来と同様構成であり、キーワード321、出現場所情報ID(LIDと略す)322を有する。図7(c)の出現場所情報330は、従来と同様構成であり、出現場所情報ID(LID)331、次LID(次の出現場所のLID)332、ファイルID(出現場所のファイルID)333、出現位置情報334を有する。出現位置情報334は、該当ファイル内のキーワードの出現位置である。図7(d)で、従来構成では、例えば、ファイルIDがFID1であるファイル(F1)に関する出現場所情報330のレコードに加えて、それと中身が同一のファイルIDがFID2であるファイル(F2)に関する出現場所情報330のレコード(例えば「IDX12,IDX13,FID2,10,24」)が保持されていたが、本実施の形態の構成(図7(c))では、デ・デュプリケートにより、当該レコードは保持されない。
図8において、検索(解析)対象ファイル群700の例を示している。簡単のため、3つのファイルF1(file1),F2(file2),F3(file3)において(各ファイルIDは、FID1,FID2,FID3)、F1とF2は、中身が同一であり、キーワード“apple”を含み、F3は、独立したファイルであり、キーワード“apple”及び“orange”を含む、という例である。
図9において、デ・デュプリケート情報(C1)601の構成例を示している。デ・デュプリケート情報(C1)601は、ファイル名81、代表ファイルのファイル名82を有する。中身が同一のファイル(例えばF2)は、代表ファイル(例えばF1)に対応付けられる。また、独立した1つのファイル(例えばF3)は、それ自身が代表ファイルとなる。尚ここで、ファイル名81には、自装置(NAS101)自体の名称を含んでいない(含んでも構わない)。
図10において、シグネチャハッシュ603情報の構成例を示している。シグネチャハッシュ603は、シグネチャ61と、同一シグネチャ61を持つファイル名のリスト62とを有する。本システムでは、ファイル群の中身が同一かどうかの判定に際して、公知技術であるシグネチャハッシュの処理を、比較対象を絞り込みするために用いている。これにより、当該処理を高速化することができる。尚ここで、シグネチャハッシュ603の情報では、代表ファイル(例:F1,F3)についてのみ登録する。即ち、各ファイルの処理において、同じシグネチャ61を持ち、中身が同一のファイル(例:F1)が既に登録されている場合は、処理中のファイル(例:F2)を登録しない。また、再解析等でシグネチャハッシュ603の情報を再利用するためには、ファイルの更新日付が更新されていないことの検出や、WORM(Write Once Read Many:書き換え不可能)ファイルであることの検出などの処理が必要であるが、これらの拡張的な処理は自明なので説明省略する。
図11において、インデックス情報300がデ・デュプリケートされている状態における、検索処理の結果の構成例を示している。この例は、ホスト装置400から、キーワードとして“apple”は含むが“orange”は含まない条件を指定して、検索対象ファイル群700を全文検索(即ちインデックス情報300をキーワード検索)した結果である。図11(a)では、通常の、デ・デュプリケート対応処理部502を備えない構成の場合における、検索処理の結果(検索結果情報900)を示している。図11(b)では、本デ・デュプリケート対応処理部502を備える構成における、デ・デュプリケート対応検索処理15による検索処理の結果(検索結果情報900)、即ちファイル群の実態を反映した望ましい検索結果、を示している。図11(a)では、直接インデックス情報300が保持されているFID1のファイルF1(代表ファイル)に関する情報(出現場所情報330のレコード)のみが出力され、それと中身が同一である、FID2のファイルF2の情報が出力されないことになる。検索結果情報900における出現場所情報330のレコードは、LID91、次LID92、ファイルID93、出現位置情報94を有する。一方、図11(b)では、FID1のファイルF1(代表ファイル)に関する情報に加え、それと中身が同一である、同一デ・デュプリケートグループに属するFID2のファイルF2の情報が追加される。
図12において、ホスト装置400側における前述の検索結果の表示例を示している。本システムでの検索結果情報900に基づき、前述の検索結果(図11(b))を、例えばWebページ等の形式で、ホスト装置400の画面に表示した例である。図12(a)は、中身同一ファイル(例:F1,F2)を、別々の情報単位として表示した例、図12(b)は、中身同一ファイルのファイル名を、一覧で纏めて1つの情報単位として表示した例である。太字は、ファイル中で見つかったキーワードである。アンダーライン付きのファイル名部分は、ファイル本体へのリンクになっており、この部分をホスト装置400のユーザがクリックすることにより、NAS101(なおNAS101のサーバ名が“nas1”とする)から該当ファイルを読み出して表示することができる。
実施の形態1の他の構成例として以下が可能である。本例では、NAS101とストレージ装置103とを別個の装置として設けているが、NAS101またはデ・デュプリケート処理部501は、ストレージ装置103内に内蔵して1つの装置としてもよい。また、全文検索サーバ102の機能は、NAS101内やストレージ装置103内に設けること等により1つの装置としてもよい。また、インデックス情報300は、全文検索サーバ102内に格納されても構わないし、別の外部ストレージ装置等に格納されても構わない。
次に、図13〜図15等を用いて、本発明の実施の形態2のストレージシステムを説明する。実施の形態2は、前記概要構成に従って、デ・デュプリケート機能を備えないNAS及びストレージ装置を有する構成において、全文検索サーバを、デ・デュプリケート機能及びデ・デュプリケート対応処理部を備える構成にしたものである。
図13において、実施の形態2のストレージシステムの構成を示している。本ストレージシステムは、NAS(ファイルサーバ)101B、全文検索サーバ102B、及びストレージ装置103を有する。図14は、全文検索サーバ102B及びデ・デュプリケート対応処理部502Bの詳細を示す。図15は、シグネチャハッシュ603Bの詳細を示す。
図14において、全文検索サーバ102B及びデ・デュプリケート対応処理部502Bの詳細を示している。デ・デュプリケートグループ情報追加・作成処理13B(図22に詳細を示す)は、デ・デュプリケート処理部501Bにより行われる、新規の処理である。各部の処理内容は、実施の形態1と同様である。
図15において、シグネチャハッシュ603Bを示している。シグネチャハッシュ603Bは、シグネチャ61B、同一シグネチャを持つファイルのファイルIDのリスト62Bを有する。シグネチャハッシュ603Bの情報には、代表ファイルについてのみ登録する。即ち、各ファイルの処理において、同じシグネチャ61Bを持ち、中身が同一のファイル(例:F1)が既に登録されている場合は、処理中のファイル(例:F2)を登録しない。その場合、デ・デュプリケートグループ情報(C2)602における処理中ファイルに対する代表ファイルフラグをFALSE(偽)とし、既に登録されている代表ファイルの同一デ・デュプリケートグループ内リングに、処理中ファイルを追加する。具体的には、代表ファイルの「同一デ・デュプリケートグループ内リングの次のファイルID」を、P.next、処理中の「同一デ・デュプリケートグループ内リングの次のファイルID」のファイルを、C.next、としたとき、以下のような処理、「tmp(一時変数)=P.next; P.next=「処理中ファイルのファイルID」; C.next=tmp」、を実行する。また、中身同一ファイルが登録されていない場合、デ・デュプリケートグループ情報(C2)602の処理中ファイルに対する代表ファイルフラグをTRUE(真)とし、既に登録されている代表ファイルの同一デ・デュプリケートグループ内リングの次ファイルIDを、処理中ファイル自身のファイルIDとする。
次に、図16〜図23を用いて、前記各実施の形態における各部の処理のフローを説明する。
図16において、デ・デュプリケート処理部501によるデ・デュプリケート処理のフローを示している(Sは処理ステップを示す)。デ・デュプリケート処理の開始後、検索対象ファイル群700中の最初のファイルの名前をFNとする(S7204)。次に、FNが空かどうか判断し(S7206)、空の場合(Y)、終了する。空でない場合(N)、次に、ファイル名がFNのファイルと中身が同一のファイルが、シグネチャハッシュ603情報に登録済みであるかを調べる(S7210)。この処理(中身同一ファイル判定)の詳細は、図17に示される。この処理により、登録済みファイルのファイル名がGNとして返される。
図17において、前記S7210の処理のフローを示している。まず、ファイル名がFNのファイルに対するシグネチャSGNNを計算する(S7214)。次に、シグネチャSGNNは、シグネチャハッシュ603情報に登録済みであるか判断する(S7216)。登録済みでない場合(N)、シグネチャがSGNNであるハッシュエントリHENを作成し、HENのファイル名リストに、FNを登録する(S7218)。そして、GNを空にし(S7220)、終了する。また、前記登録済みである場合(Y)、シグネチャがSGNNであるハッシュエントリをHEとする(S7230)。次に、HEに登録されたファイル名リストでの最初のファイル名をFNXとする(S7232)。次に、FNXが空かどうか判断し(S7234)、空の場合(Y)、HEのファイル名リストにFNを登録する(S7242)。そして、GNを空にし(S7220)、終了する。また、前記空でない場合(N)、ファイルFNとファイルFNXの中身が完全に同一かどうか、比較する(S7236)。比較により、中身が同一である場合(S7238−Y)、GNにGNXを設定し(S7244)、終了する。また、中身が同一でない場合(S7238−N)、HEに登録されたファイル名リストでのFNXの次のファイル名をFNXとし(S7240)、S7234に戻る。
図18において、全文検索サーバ102による検索対象ファイル抽出処理11を示している。まず、検索対象ファイル群700中の最初のファイルをFとする(S1104)。次に、Fは空であるかを判断する(S1106)。空の場合(Y)、終了する。空でない場合(N)、ファイルのメタデータに新しい行(レコード)Rを追加する(S1108)。次に、新規作成した一意のIDを、RのファイルIDに設定する(S1110)。次に、Fのファイル名を、Rのファイル名に、設定する(S1112)。次に、検索対象ファイル群700中のFの次のファイルをFとし(S1114)、S1106に戻る。
図19において、デ・デュプリケートグループ情報追加・作成処理13(実施の形態1に対応する例)を示している。まず、ファイルのメタデータ中の最初の行をNとする(S1304)。次に、Nは空かどうかを判断し(S1306)、空の場合(Y)、終了する。空でない場合(N)、次に、NのファイルIDの値をFIDN、ファイル名をFNNとする(S1308)。次に、ファイル名がFNNのファイルに対するデ・デュプリケート情報(C1)601を、NAS101から取得し、代表ファイルのファイル名FNPを求める(S1310)。次に、ファイルのメタデータから、ファイル名がFNPのファイルのID(FIDP)を求める(S1312)。次に、FIDPがFIDNと同じかを判断し(S1320)、同じ場合(Y)、Nの代表ファイルフラグをTRUEにし(S1322)、NのRN_FIDに、IDNを設定する(S1324)。そして、ファイルのメタデータ中のNの次の行をNとし(S1326)、S1306に戻る。また、前記S1320で、同じではない場合(N)、Nの代表ファイルフラグをFALSEにする(S1330)。次に、ファイルのメタデータ中のファイルIDがFIDPの行を、Pとし(S1332)、PのRN_FIDの値を、Tとし(S1334)、PのRN_FIDに、FIDNを設定し(S1336)、PのRN_FIDに、Tを設定する(S1338)。そして、ファイルのメタデータ中のNの次の行をNとし(S1326)、S1306に戻る。
図20において、デ・デュプリケート対応キーワード抽出処理14を示している。まず、ファイルのメタデータ中の最初の行をNとする(S1404)。Nが空かどうかを判断し(S1406)、空の場合(Y)、終了する。空でない場合(N)、Nの代表ファイルフラグがTRUEかを判断し(S1408)、TRUEでない場合(N)、NのファイルIDとファイル名を使用して、キーワード抽出処理を行う(S1410)。そして、ファイルのメタデータ中のNの次の行をNとし(S1412)、S1406に戻る。また、前記TRUEである場合(Y)、S1412の処理後、S1406に戻る。
図21において、デ・デュプリケート対応検索処理15を示している。まず、通常の検索処理(図11(a))を行い、検索結果情報900を作成する(S1504)。次に、検索結果情報900の最初の行をRとする(S1510)。次に、Rは空かどうかを判断し(S1512)、空の場合(Y)、終了する。空でない場合(N)、Rの出現場所ファイルIDを、FIDRとする(S1514)。次に、ファイルのメタデータでファイルIDがFIDRの行をPとする(S1516)。次に、Pの代表ファイルフラグがTRUEかを判断し(S1518)、TRUEの場合(Y)、検索結果情報900のRの次の行をRとし(S1520)、S1512に戻る。また、TRUEでない場合(N)、Rの次FIDの値をSとする(S1530)。次に、S=Pかどうかを判断し(S1532)、S=Pではない場合(N)、S1520の処理後、S1512へ戻る。S=Pの場合(Y)、検索結果情報900に新しい行Nを追加し、Rの値をコピーした後、出現ファイルIDにSを設定する(S1534)。次に、Tに、Rの次LID(NEXT_LID)を代入し、Rの次LID(NEXT_LID)に、Nを代入し、Nの次LID(NEXT_LID)に、Tを代入する(S1536)。次に、Sの次FID(NEXT_FID)の値をSとし(S1538)、S1532へ戻る。
次に、図22において、デ・デュプリケートグループ情報追加・作成処理13(実施の形態2に対応する例)を示している。まず、ファイルのメタデータ中の最初の行をNとする(S1204)。次に、Nは空かどうかを判断し(S1206)、空の場合(Y)、終了する。空でない場合(N)、次に、NのファイルIDの値をFIDNとする(S1208)。次に、ファイルIDがFIDNのファイルと中身が同一のファイルが、シグネチャ情報に登録済みであるかを調べる処理を行う(S1210)。登録済みのファイルのIDはFIDPとして返される。次に、FIDPが空かを判断し(S1250)、空でない場合(N)、Nの代表ファイルフラグをFALSEにし(S1252)、ファイルのメタデータ中のファイルIDがFIDPの行をPとする(S1254)。次に、PのRN_FIDの値を、Tとし(S1256)、PのRN_FIDに、FIDNを設定し(S1258)、PのRN_FIDに、Tを設定する(S1260)。そして、ファイルのメタデータ中のNの次の行をNとし(S1270)、S1206に戻る。また、前記S1250で、空の場合(Y)、Nの代表ファイルフラグをTRUEにする(S1262)。次に、NのRN_FIDに、FIDNを設定する(S1264)。そして、ファイルのメタデータ中のNの次の行をNとし(S1270)、S1206に戻る。
図23において、前記S1210の処理のフローを示している。まず、ファイルのメタデータを参照し、ファイルIDがFIDNのファイルのファイル名FNNを得て、検索対象ファイル群でのファイル名がFNNのファイルに対するシグネチャSGNNを計算する(S1214)。次に、シグネチャSGNNは、シグネチャハッシュ603情報に登録済みであるか判断する(S1216)。登録済みでない場合(N)、シグネチャがSGNNであるハッシュエントリHENを作成し、HENのファイルIDリストに、FIDNを登録する(S1218)。そして、FIDPを空にし(S1220)、終了する。また、前記登録済みである場合(Y)、シグネチャがSGNNであるハッシュエントリをHEとする(S1230)。次に、HEに登録されたファイルIDリストでの最初のファイルIDをFIDXとする(S1232)。次に、FIDXが空かどうか判断し(S1234)、空の場合(Y)、HEのファイルIDリストにFIDNを登録する(S1242)。そして、FIDPを空にし(S1220)、終了する。また、前記空でない場合(N)、ファイルのメタデータを参照し、ファイルIDがFIDXのファイルのファイル名FNXを得て、検索対象ファイル群に含まれるファイルFNNとファイルFNXの中身が完全に同一か、比較する(S1236)。比較により、中身が同一である場合(S1238−Y)、FIDPにFIDXを設定し(S1244)、終了する。また、中身が同一でない場合(S1238−N)、HEに登録されたファイルIDリストでのFIDXの次のファイルIDをFIDXとし(S1240)、S1234に戻る。
Claims (4)
- ホスト装置から入出力されるデータのファイルを記憶領域に格納するストレージシステムであって、
前記ホスト装置にネットワークを介して接続され前記ホスト装置からの前記ファイルの入出力を受け付けるファイルサーバ装置と、
前記ファイルサーバ装置に接続され前記ファイルサーバ装置からのアクセスにより前記ファイルを自装置内の記憶領域に格納するストレージ装置と、
前記ストレージ装置の記憶領域に格納されるファイル群に対するインデックス情報の作成処理、及び前記ホスト装置からの指示に応じて前記インデックス情報をキーワード検索して検索結果情報を応答する検索処理、を含む全文検索処理を行う全文検索サーバ装置とを有し、
前記ファイルサーバ装置は、前記ストレージ装置の記憶領域に格納されるファイル群について中身が同一の複数のファイルをデ・デュプリケート(de-duplicate)する処理を行い、当該ファイル群のデ・デュプリケートの状況を示す第1の情報を作成する、デ・デュプリケート処理部を備え、
前記全文検索サーバ装置は、前記デ・デュプリケート処理部による前記第1の情報による前記ファイル群のデ・デュプリケートの状況に応じて、前記インデックス情報をデ・デュプリケートする処理を行い、当該インデックス情報のデ・デュプリケートの関係を示す第2の情報を作成して前記検索処理で用いる、デ・デュプリケート対応処理部を備え、
前記第1の情報は、ファイル名を含むメタデータと、当該ファイルを含む中身が同一の複数のファイルのグループにおける代表ファイルのファイル名と、を含み、
前記第2の情報は、中身が同一の複数のファイルのグループにおける代表ファイルのフラグと、当該グループの複数のファイルの間のリンク情報と、を含み、
前記全文検索サーバ装置の前記デ・デュプリケート対応処理部は、前記ストレージ装置の記憶領域から読み出した全文検索処理対象のファイル群について、前記第1の情報に応じて、中身が同一の複数のファイルについては、代表ファイルを除いて、前記インデックス情報の作成処理を抑止することにより、
前記インデックス情報を重複して作成及び保持しないようにすることを特徴とするストレージシステム。 - 請求項1記載のストレージシステムにおいて、
前記インデックス情報の作成処理は、前記ファイルからのキーワード抽出処理を含み、
前記インデックス情報は、前記ファイルのメタデータと、前記ファイルのデータ本体中のキーワード出現場所情報と、前記デ・デュプリケート対応処理部による前記第2の情報と、を含み、
前記全文検索サーバ装置は、前記全文検索処理対象のファイル群についての前記インデックス情報の作成処理の際、前記第1の情報を用いて、前記中身が同一の複数のファイル及び代表ファイルかどうかを判定及び検出し、前記代表ファイルと中身が同一のファイルについては、前記キーワード抽出処理を抑止して、前記インデックス情報内にキーワード出現場所情報を保持しないようにし、
前記全文検索サーバ装置は、前記ホスト装置からのキーワード情報の指定を含む検索指示に応じた検索処理に際して、前記インデックス情報をキーワード情報で検索して、当該キーワードを含む代表ファイルに関する検索結果情報を取得し、前記第2の情報を用いて、当該代表ファイルと中味が同一の他のファイルに関する検索結果情報を追加した、全文検索結果情報を作成し、前記ホスト装置へ応答することを特徴とするストレージシステム。 - 請求項2記載のストレージシステムにおいて、
前記ファイルサーバ装置は、前記第1の情報を前記ストレージ装置の記憶領域に格納し、
前記全文検索サーバ装置は、前記第2の情報を含む前記インデックス情報を前記ストレージ装置の記憶領域に格納することを特徴とするストレージシステム。 - 請求項1記載のストレージシステムにおいて、
前記デ・デュプリケート処理部は、前記代表ファイルについてのシグネチャハッシュ情報を作成及び管理し、前記シグネチャハッシュ情報を用いて、前記中身が同一のファイルを判定及び検出することを特徴とするストレージシステム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006350236A JP4951331B2 (ja) | 2006-12-26 | 2006-12-26 | ストレージシステム |
US11/682,359 US7984026B2 (en) | 2006-12-26 | 2007-03-06 | Storage system with improved de-duplication arrangement |
US13/158,497 US8244690B2 (en) | 2006-12-26 | 2011-06-13 | Storage system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006350236A JP4951331B2 (ja) | 2006-12-26 | 2006-12-26 | ストレージシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008158993A JP2008158993A (ja) | 2008-07-10 |
JP4951331B2 true JP4951331B2 (ja) | 2012-06-13 |
Family
ID=39544591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006350236A Expired - Fee Related JP4951331B2 (ja) | 2006-12-26 | 2006-12-26 | ストレージシステム |
Country Status (2)
Country | Link |
---|---|
US (2) | US7984026B2 (ja) |
JP (1) | JP4951331B2 (ja) |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8943024B1 (en) | 2003-01-17 | 2015-01-27 | Daniel John Gardner | System and method for data de-duplication |
US8375008B1 (en) | 2003-01-17 | 2013-02-12 | Robert Gomes | Method and system for enterprise-wide retention of digital or electronic data |
US9678967B2 (en) * | 2003-05-22 | 2017-06-13 | Callahan Cellular L.L.C. | Information source agent systems and methods for distributed data storage and management using content signatures |
US8527468B1 (en) | 2005-02-08 | 2013-09-03 | Renew Data Corp. | System and method for management of retention periods for content in a computing system |
US20080189273A1 (en) * | 2006-06-07 | 2008-08-07 | Digital Mandate, Llc | System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data |
JP5046863B2 (ja) * | 2007-11-01 | 2012-10-10 | 株式会社日立製作所 | 情報処理システム及びデータ管理方法 |
US8615490B1 (en) | 2008-01-31 | 2013-12-24 | Renew Data Corp. | Method and system for restoring information from backup storage media |
JP4989516B2 (ja) * | 2008-02-27 | 2012-08-01 | キヤノン株式会社 | 表示制御装置、撮像装置及び表示制御方法、プログラム並びに記憶媒体 |
GB2458309A (en) * | 2008-03-13 | 2009-09-16 | Business Partners Ltd | Search engine |
US8176269B2 (en) * | 2008-06-30 | 2012-05-08 | International Business Machines Corporation | Managing metadata for data blocks used in a deduplication system |
US7913114B2 (en) * | 2008-07-31 | 2011-03-22 | Quantum Corporation | Repair of a corrupt data segment used by a de-duplication engine |
US8788466B2 (en) * | 2008-08-05 | 2014-07-22 | International Business Machines Corporation | Efficient transfer of deduplicated data |
US8392791B2 (en) * | 2008-08-08 | 2013-03-05 | George Saliba | Unified data protection and data de-duplication in a storage system |
US20100153375A1 (en) * | 2008-12-16 | 2010-06-17 | Foundation For Research And Technology - Hellas (Institute Of Computer Science --Forth-Ics) | System and method for classifying and storing related forms of data |
US8712974B2 (en) | 2008-12-22 | 2014-04-29 | Google Inc. | Asynchronous distributed de-duplication for replicated content addressable storage clusters |
US9176978B2 (en) * | 2009-02-05 | 2015-11-03 | Roderick B. Wideman | Classifying data for deduplication and storage |
US8650545B2 (en) * | 2009-02-11 | 2014-02-11 | International Business Machines Corporation | File creation utility for deduplication testing |
US8339680B2 (en) * | 2009-04-02 | 2012-12-25 | Xerox Corporation | Printer image log system for document gathering and retention |
JP4592115B1 (ja) * | 2009-05-29 | 2010-12-01 | 誠 後藤 | ファイル格納システム、サーバ装置及びプログラム |
JP5463746B2 (ja) * | 2009-06-15 | 2014-04-09 | 日本電気株式会社 | アーカイブストレージ装置、ストレージシステム、データ格納方法、およびデータ格納プログラム |
US8051050B2 (en) * | 2009-07-16 | 2011-11-01 | Lsi Corporation | Block-level data de-duplication using thinly provisioned data storage volumes |
US8204867B2 (en) * | 2009-07-29 | 2012-06-19 | International Business Machines Corporation | Apparatus, system, and method for enhanced block-level deduplication |
US8180740B1 (en) * | 2009-08-12 | 2012-05-15 | Netapp, Inc. | System and method for eliminating duplicate data by generating data fingerprints using adaptive fixed-length windows |
WO2011018852A1 (ja) * | 2009-08-13 | 2011-02-17 | 株式会社日立ソリューションズ | 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 |
JP4838878B2 (ja) | 2009-12-04 | 2011-12-14 | 富士通株式会社 | データ管理プログラム、データ管理装置、およびデータ管理方法 |
US8738668B2 (en) | 2009-12-16 | 2014-05-27 | Renew Data Corp. | System and method for creating a de-duplicated data set |
US8401185B1 (en) * | 2010-02-01 | 2013-03-19 | Symantec Corporation | Systems and methods for securely deduplicating data owned by multiple entities |
US20110218973A1 (en) * | 2010-03-02 | 2011-09-08 | Renew Data Corp. | System and method for creating a de-duplicated data set and preserving metadata for processing the de-duplicated data set |
US8453031B2 (en) | 2010-03-24 | 2013-05-28 | International Business Machines Corporation | Data deduplication using CRC-seed differentiation between data and stubs |
JP2011215835A (ja) | 2010-03-31 | 2011-10-27 | Toshiba Corp | 全文検索機能を備えるストレージ装置 |
JP5316711B2 (ja) * | 2010-06-10 | 2013-10-16 | 日本電気株式会社 | ファイル記憶装置、ファイル記憶方法およびプログラム |
JP2012008854A (ja) * | 2010-06-25 | 2012-01-12 | Hitachi Ltd | ストレージ仮想化装置 |
US8862876B2 (en) | 2010-11-09 | 2014-10-14 | International Business Machines Corporation | Method and system for deleting data |
US10394757B2 (en) | 2010-11-18 | 2019-08-27 | Microsoft Technology Licensing, Llc | Scalable chunk store for data deduplication |
US10216759B2 (en) | 2010-11-22 | 2019-02-26 | Microsoft Technology Licensing, Llc | Heterogeneous file optimization |
US8438139B2 (en) | 2010-12-01 | 2013-05-07 | International Business Machines Corporation | Dynamic rewrite of files within deduplication system |
CN102033924B (zh) * | 2010-12-08 | 2012-10-31 | 浪潮(北京)电子信息产业有限公司 | 一种数据存储方法和系统 |
US8271462B2 (en) * | 2010-12-10 | 2012-09-18 | Inventec Corporation | Method for creating a index of the data blocks |
US9280550B1 (en) | 2010-12-31 | 2016-03-08 | Emc Corporation | Efficient storage tiering |
US8886901B1 (en) | 2010-12-31 | 2014-11-11 | Emc Corporation | Policy based storage tiering |
US8266115B1 (en) * | 2011-01-14 | 2012-09-11 | Google Inc. | Identifying duplicate electronic content based on metadata |
US8458145B2 (en) * | 2011-01-20 | 2013-06-04 | Infinidat Ltd. | System and method of storage optimization |
US9886446B1 (en) * | 2011-03-15 | 2018-02-06 | Veritas Technologies Llc | Inverted index for text searching within deduplication backup system |
US8521705B2 (en) * | 2011-07-11 | 2013-08-27 | Dell Products L.P. | Accelerated deduplication |
US8990171B2 (en) | 2011-09-01 | 2015-03-24 | Microsoft Corporation | Optimization of a partially deduplicated file |
WO2013095381A1 (en) * | 2011-12-20 | 2013-06-27 | Intel Corporation | Method and system for data de-duplication |
WO2013121456A1 (en) * | 2012-02-13 | 2013-08-22 | Hitachi, Ltd. | Management apparatus and management method for hierarchical storage system |
WO2013187901A2 (en) * | 2012-06-14 | 2013-12-19 | Empire Technology Development Llc | Data deduplication management |
US8914668B2 (en) | 2012-09-06 | 2014-12-16 | International Business Machines Corporation | Asynchronous raid stripe writes to enable response to media errors |
US8843784B2 (en) | 2012-09-06 | 2014-09-23 | International Business Machines Corporation | Remapping disk drive I/O in response to media errors |
JP2013030189A (ja) * | 2012-10-10 | 2013-02-07 | Toshiba Corp | 全文検索機能を備えるストレージ装置 |
US8898118B2 (en) | 2012-11-30 | 2014-11-25 | International Business Machines Corporation | Efficiency of compression of data pages |
US10545918B2 (en) | 2013-11-22 | 2020-01-28 | Orbis Technologies, Inc. | Systems and computer implemented methods for semantic data compression |
KR102187127B1 (ko) * | 2013-12-03 | 2020-12-04 | 삼성전자주식회사 | 데이터 연관정보를 이용한 중복제거 방법 및 시스템 |
US9430490B1 (en) * | 2014-03-28 | 2016-08-30 | Formation Data Systems, Inc. | Multi-tenant secure data deduplication using data association tables |
US10635645B1 (en) | 2014-05-04 | 2020-04-28 | Veritas Technologies Llc | Systems and methods for maintaining aggregate tables in databases |
US10025804B2 (en) * | 2014-05-04 | 2018-07-17 | Veritas Technologies Llc | Systems and methods for aggregating information-asset metadata from multiple disparate data-management systems |
US9732593B2 (en) | 2014-11-05 | 2017-08-15 | Saudi Arabian Oil Company | Systems, methods, and computer medium to optimize storage for hydrocarbon reservoir simulation |
US9659047B2 (en) * | 2014-12-03 | 2017-05-23 | Netapp, Inc. | Data deduplication utilizing extent ID database |
US20180276206A1 (en) * | 2017-03-23 | 2018-09-27 | Hcl Technologies Limited | System and method for updating a knowledge repository |
GB201708762D0 (en) | 2017-06-01 | 2017-07-19 | Microsoft Technology Licensing Llc | Managing electronic slide decks |
CN107330077B (zh) * | 2017-07-01 | 2020-07-14 | 广东电网有限责任公司信息中心 | 一种数字档案馆档案的检索方法 |
JP7298248B2 (ja) * | 2019-04-05 | 2023-06-27 | 富士フイルムビジネスイノベーション株式会社 | 文書処理装置及びプログラム |
CN113626462B (zh) * | 2021-07-15 | 2022-11-15 | 北京百度网讯科技有限公司 | 即时通讯对象的搜索方法、装置、电子设备和存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05342075A (ja) * | 1992-06-05 | 1993-12-24 | Omron Corp | ファイル管理システム |
JPH07146880A (ja) * | 1993-11-22 | 1995-06-06 | Nippon Steel Corp | 文書検索装置及び方法 |
US5813008A (en) * | 1996-07-12 | 1998-09-22 | Microsoft Corporation | Single instance storage of information |
US6547829B1 (en) * | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US6389433B1 (en) * | 1999-07-16 | 2002-05-14 | Microsoft Corporation | Method and system for automatically merging files into a single instance store |
JP3772606B2 (ja) * | 1999-10-19 | 2006-05-10 | 株式会社日立製作所 | 電子文書管理方法及びシステム並びに記録媒体 |
US7730113B1 (en) * | 2000-03-07 | 2010-06-01 | Applied Discovery, Inc. | Network-based system and method for accessing and processing emails and other electronic legal documents that may include duplicate information |
JP2005157768A (ja) * | 2003-11-26 | 2005-06-16 | Hitachi Ltd | 電子ファイル保存方法及び実施装置並びに処理プログラム |
US8131726B2 (en) * | 2005-01-12 | 2012-03-06 | International Business Machines Corporation | Generic architecture for indexing document groups in an inverted text index |
US8635194B2 (en) * | 2006-10-19 | 2014-01-21 | Oracle International Corporation | System and method for data compression |
-
2006
- 2006-12-26 JP JP2006350236A patent/JP4951331B2/ja not_active Expired - Fee Related
-
2007
- 2007-03-06 US US11/682,359 patent/US7984026B2/en not_active Expired - Fee Related
-
2011
- 2011-06-13 US US13/158,497 patent/US8244690B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US7984026B2 (en) | 2011-07-19 |
US20080155192A1 (en) | 2008-06-26 |
US8244690B2 (en) | 2012-08-14 |
US20110246431A1 (en) | 2011-10-06 |
JP2008158993A (ja) | 2008-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4951331B2 (ja) | ストレージシステム | |
JP4824085B2 (ja) | ネットワークファイルシステムをキャッシュするシステム、及び方法 | |
US7680844B2 (en) | Method for preserving virtual filesystem information across high availability takeover | |
US8290994B2 (en) | Obtaining file system view in block-level data storage systems | |
US20070220029A1 (en) | System and method for hierarchical storage management using shadow volumes | |
US7870105B2 (en) | Methods and apparatus for deduplication in storage system | |
US8554808B2 (en) | File management sub-system and file migration control method in hierarchical file system | |
JP5881859B2 (ja) | ストレージ装置 | |
JP5320557B2 (ja) | ストレージシステム | |
US20020087672A1 (en) | Self-defining data units | |
JP2009289252A (ja) | 階層ストレージシステムでのリモート複製 | |
JP2010049488A (ja) | ストレージシステム及びデータ管理方法 | |
JP2005301590A (ja) | ストレージシステム及びデータ複製方法 | |
JP2007072813A (ja) | ストレージシステム、ファイル移動方法、及びコンピュータプログラム | |
JP2007226347A (ja) | 計算機システム、計算機システムの管理装置、及びデータのリカバリー管理方法 | |
US9569311B2 (en) | Computer system for backing up data | |
JP2008305288A (ja) | 情報システム、および、情報システムの情報保存方法 | |
JP2015510174A (ja) | ロケーション非依存のファイル | |
JP2014505910A (ja) | 計算機及び計算機によるデータ管理方法 | |
JP2016066285A (ja) | 記憶システム、記憶システム制御方法及び仮想テープ装置制御プログラム | |
JP2008262561A (ja) | 履歴上のファイル名およびロケーションをインデックス付きにすることによりファイル・サーチおよびファイル操作を支援するためのシステムおよび方法 | |
US9727588B1 (en) | Applying XAM processes | |
US9678972B2 (en) | Packing deduplicated data in a self-contained deduplicated repository | |
JP2005234860A (ja) | バージョン管理システム、バージョン管理サーバ装置、及び記憶デバイス制御装置 | |
CN104281486B (zh) | 一种虚拟机处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120312 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |