JP5485997B2 - 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 - Google Patents
重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 Download PDFInfo
- Publication number
- JP5485997B2 JP5485997B2 JP2011526668A JP2011526668A JP5485997B2 JP 5485997 B2 JP5485997 B2 JP 5485997B2 JP 2011526668 A JP2011526668 A JP 2011526668A JP 2011526668 A JP2011526668 A JP 2011526668A JP 5485997 B2 JP5485997 B2 JP 5485997B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- server
- search
- processing
- file system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013500 data storage Methods 0.000 title claims description 36
- 238000000034 method Methods 0.000 claims description 342
- 230000008569 process Effects 0.000 claims description 256
- 238000012545 processing Methods 0.000 claims description 231
- 238000007726 management method Methods 0.000 claims description 130
- 230000009193 crawling Effects 0.000 claims description 49
- 230000004044 response Effects 0.000 claims description 13
- 238000012217 deletion Methods 0.000 description 39
- 230000037430 deletion Effects 0.000 description 39
- 230000006870 function Effects 0.000 description 29
- 230000008859 change Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/188—Virtual file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
1100、1200、1300・・・ファイルサーバ
1101、1102、1201、1202、1301、1302・・・ファイル
2100、2200・・・検索サーバ
2101、2201・・・検索インデックス
3100、3200、3300・・・クライアントマシン
1110、2110、3110・・・プロセッサ
1120、2120、3120・・・メモリ
1121、2121、3121・・・外部記憶装置I/F制御プログラム
1122、2122、3122・・・ネットワークI/F制御プログラム
1123・・・ファイルサービス制御プログラム
1124・・・ファイル管理制御プログラム
1125・・・重複排除制御サブプログラム
1126・・・仮想ファイルシステム管理制御サブプログラム
1127・・・トリガ通信制御サブプログラム
1128・・・仮想パス名変換制御サブプログラム
1129・・・重複ファイルメタデータ制御サブプログラム
1170・・・登録ファイルシステム
1171・・・格納ファイルシステム
1172・・・仮想ファイルシステム
2123・・・データ管理制御プログラム
2124・・・検索サービス制御プログラム
2125・・・トリガ通信制御サブプログラム
2126・・・クローリング制御サブプログラム
2127・・・インデクシング制御サブプログラム
2128・・・検索クエリ受付制御サブプログラム
2129・・・検索制御サブプログラム
3123・・・ファイル管理制御プログラム
3124・・・ファイルサーバアクセスクライアント制御プログラム
3125・・・検索サーバアクセスクライアント制御プログラム
1130、2130、3130・・・外部記憶装置I/F
1140、2140、3140・・・ネットワークI/F
1150、2150、3150・・・バス
1160、2160、3160・・・外部記憶装置
4100・・・登録ファイル管理表
4110・・・登録ファイルID
4120・・・登録ファイルパス名
4130・・・登録ファイルのメタデータ
4140・・・対応格納ファイルID
4200・・・格納ファイル管理表
4210・・・格納ファイルID
4220・・・格納ファイルパス名
4230・・・格納ファイルのメタデータ
4240・・・重複参照ファイル数
4250・・・照合情報
4260・・・対応登録ファイルID
4300・・・仮想ファイルシステム管理表
4310・・・仮想ファイルID
4320・・・仮想ファイルパス名
4330・・・仮想ファイルのメタデータ
4340・・・照合情報
4350・・・対応格納ファイルID
4400・・・クローリングファイル管理表
4410・・・ファイルパス名
4420・・・作成日時
4430・・・最終更新日時
4440・・・メタデータ
4500・・・検索インデックス管理表
4510・・・キーワード
4520・・・該当位置情報
4521・・・該当ファイルパス名
4522・・・該当位置オフセット
4523・・・重要度情報
Claims (14)
- コンピュータシステムのデータを格納するデータ格納装置であって、
検索インデックスの作成に先立って格納データの重複を検出し、重複が検出された格納データを削除する重複排除制御部と、
前記重複排除制御部による重複排除処理の実行後、かつ、ネットワーク経由で接続された検索サーバによる検索インデックス作成のためのファイル取得に先立って、ファイルシステムを作成するファイル管理制御部と
を有するデータ格納装置。 - 前記ファイルシステムは、前記重複排除処理の実行後の実格納ファイルシステムそのものである
ことを特徴とする請求項1に記載のデータ格納装置。 - 前記ファイルシステムは、前記重複排除処理の実行後のある時点の実格納ファイルシステムについて作成された仮想ファイルシステムである
ことを特徴とする請求項1に記載のデータ格納装置。 - 前記重複排除制御部は、前記格納データの登録処理と同期的に重複排除処理を実行し、
前記ファイル管理制御部は、前記格納データの登録処理と同期的に前記仮想ファイルシステムを更新する
ことを特徴とする請求項3に記載のデータ格納装置。 - 前記重複排除制御部は、前記格納データの登録処理と同期的に重複排除処理を実行し、
前記ファイル管理制御部は、前記格納データの登録処理と非同期に前記仮想ファイルシステムを更新する
ことを特徴とする請求項3に記載のデータ格納装置。 - 前記重複排除制御部は、前記格納データの登録処理と非同期的に重複排除処理を実行し、
前記ファイル管理制御部は、前記格納データの登録処理と非同期に前記仮想ファイルシステムを更新する
ことを特徴とする請求項3に記載のデータ格納装置。 - 前記ファイル管理制御部は、前記仮想ファイルシステムに対応付けられる、前記重複排除処理の実行後の実格納ファイルシステムに関するメタデータを取得する機能部及び又は更新する機能部
を更に有することを特徴とする請求項3に記載のデータ格納装置。 - 前記機能部は、前記メタデータを取得又は更新するためのインタフェースを提供する
ことを特徴とする請求項7に記載のデータ格納装置。 - 前記機能部は、当該データ格納装置以外の制御装置に対して前記仮想ファイルシステムの更新完了を通知するトリガ通知機能
を更に有することを特徴とする請求項7に記載のデータ格納装置。 - 前記ファイル管理制御部は、当該データ格納装置以外の制御装置から前記仮想ファイルシステムの更新要求通知の受信時を契機として、前記仮想ファイルシステムを更新する
ことを特徴とする請求項3に記載のデータ格納装置。 - 前記重複排除制御部は、ファイルレベルの照合により、前記格納データの重複を検出する
ことを特徴とする請求項1〜3のいずれか1項に記載のデータ格納装置。 - 前記重複排除制御部は、ファイルを構成する固定長のブロックレベルの照合により、前記格納データの重複を検出する
ことを特徴とする請求項1〜3のいずれか1項に記載のデータ格納装置。 - コンピュータシステムのデータを格納するデータ格納装置に、ネットワーク経由で接続される制御装置であって、
前記データ格納装置が、検索インデックスの作成に先立って重複する格納データを削除する重複排除制御部と、前記重複排除制御部による重複排除処理の実行後、かつ、ネットワーク経由で接続された前記制御装置による検索インデックス作成のためのファイル取得に先立って、ファイルシステムを作成するファイル管理制御部とを有するとき、
前記データ格納装置に格納されている格納データに対する検索インデックスを作成するために、前記データ格納装置から前記ファイルシステムを取得し、記憶装置に格納するクローリング制御部と、
取得されたファイルシステムに基づいて検索インデックスを作成するインデクシング制御部と
を有することを特徴とする制御装置。 - 前記クローリング制御部は、前記ファイルシステムの更新処理の完了を示すトリガ通知を前記データ格納装置から受信したことを契機として前記ファイルシステムを取得する
ことを特徴とする請求項13に記載の制御装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/064297 WO2011018852A1 (ja) | 2009-08-13 | 2009-08-13 | 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011018852A1 JPWO2011018852A1 (ja) | 2013-01-17 |
JP5485997B2 true JP5485997B2 (ja) | 2014-05-07 |
Family
ID=43586038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011526668A Expired - Fee Related JP5485997B2 (ja) | 2009-08-13 | 2009-08-13 | 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8959062B2 (ja) |
JP (1) | JP5485997B2 (ja) |
WO (1) | WO2011018852A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012008854A (ja) * | 2010-06-25 | 2012-01-12 | Hitachi Ltd | ストレージ仮想化装置 |
US11016938B2 (en) | 2010-09-01 | 2021-05-25 | Apple Inc. | Consolidating information relating to duplicate images |
US8774561B2 (en) | 2010-09-01 | 2014-07-08 | Apple Inc. | Consolidating information relating to duplicate images |
JP5501280B2 (ja) * | 2011-03-31 | 2014-05-21 | 株式会社日立ソリューションズ | 情報処理システム、バックアップ管理方法、及びプログラム |
US9514154B2 (en) * | 2011-10-27 | 2016-12-06 | International Business Machines Corporation | Virtual file system interface for communicating changes of metadata in a data storage system |
US10324893B1 (en) * | 2011-12-15 | 2019-06-18 | Veritas Technologies Llc | Backup application catalog analyzer |
EP2829070B1 (en) | 2012-03-19 | 2017-07-19 | P2S Media Group OY | Method and apparatus for reducing duplicates of multimedia data items in service system |
US8458494B1 (en) * | 2012-03-26 | 2013-06-04 | Symantec Corporation | Systems and methods for secure third-party data storage |
WO2014122733A1 (ja) * | 2013-02-06 | 2014-08-14 | 株式会社日立製作所 | 計算機、データアクセス管理方法及び記録媒体 |
FR3004878B1 (fr) * | 2013-04-19 | 2015-05-29 | Airbus Operations Sas | Methode distribuee d'acquisition de donnees dans un reseau afdx. |
US9195736B2 (en) | 2013-08-07 | 2015-11-24 | Red Hat, Inc. | System and method for content storage |
JP2016194735A (ja) * | 2013-09-03 | 2016-11-17 | 三菱電機株式会社 | 情報取得装置 |
JP6722216B2 (ja) * | 2018-03-09 | 2020-07-15 | 株式会社日立製作所 | データ量削減機能を有する計算機システム、及び、記憶制御方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057159A (ja) * | 1998-08-10 | 2000-02-25 | Ricoh Co Ltd | ファイルシステム |
JP2008305225A (ja) * | 2007-06-08 | 2008-12-18 | Hitachi Ltd | 制御計算機、計算機システム及びアクセス制御方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6745194B2 (en) * | 2000-08-07 | 2004-06-01 | Alta Vista Company | Technique for deleting duplicate records referenced in an index of a database |
US5937401A (en) * | 1996-11-27 | 1999-08-10 | Sybase, Inc. | Database system with improved methods for filtering duplicates from a tuple stream |
US5966702A (en) * | 1997-10-31 | 1999-10-12 | Sun Microsystems, Inc. | Method and apparatus for pre-processing and packaging class files |
US6658423B1 (en) * | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
GB0104227D0 (en) * | 2001-02-21 | 2001-04-11 | Ibm | Information component based data storage and management |
US8375008B1 (en) * | 2003-01-17 | 2013-02-12 | Robert Gomes | Method and system for enterprise-wide retention of digital or electronic data |
US7185088B1 (en) * | 2003-03-31 | 2007-02-27 | Microsoft Corporation | Systems and methods for removing duplicate search engine results |
US7136868B2 (en) * | 2003-06-06 | 2006-11-14 | Microsoft Corporation | Database object script generation method and system |
US7536408B2 (en) * | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US8412682B2 (en) * | 2006-06-29 | 2013-04-02 | Netapp, Inc. | System and method for retrieving and using block fingerprints for data deduplication |
US7747584B1 (en) * | 2006-08-22 | 2010-06-29 | Netapp, Inc. | System and method for enabling de-duplication in a storage system architecture |
JP4951331B2 (ja) | 2006-12-26 | 2012-06-13 | 株式会社日立製作所 | ストレージシステム |
US20080235163A1 (en) * | 2007-03-22 | 2008-09-25 | Srinivasan Balasubramanian | System and method for online duplicate detection and elimination in a web crawler |
JP5040396B2 (ja) * | 2007-03-28 | 2012-10-03 | 富士通株式会社 | Webページ検索プログラム、方法、及び装置 |
US8315984B2 (en) * | 2007-05-22 | 2012-11-20 | Netapp, Inc. | System and method for on-the-fly elimination of redundant data |
US8611422B1 (en) * | 2007-06-19 | 2013-12-17 | Google Inc. | Endpoint based video fingerprinting |
US20090193210A1 (en) * | 2008-01-29 | 2009-07-30 | Hewett Jeffrey R | System for Automatic Legal Discovery Management and Data Collection |
US7908436B1 (en) * | 2008-04-25 | 2011-03-15 | Netapp, Inc. | Deduplication of data on disk devices using low-latency random read memory |
US8645333B2 (en) * | 2008-05-29 | 2014-02-04 | International Business Machines Corporation | Method and apparatus to minimize metadata in de-duplication |
US7913114B2 (en) * | 2008-07-31 | 2011-03-22 | Quantum Corporation | Repair of a corrupt data segment used by a de-duplication engine |
US8788466B2 (en) * | 2008-08-05 | 2014-07-22 | International Business Machines Corporation | Efficient transfer of deduplicated data |
US8095756B1 (en) * | 2009-04-28 | 2012-01-10 | Netapp, Inc. | System and method for coordinating deduplication operations and backup operations of a storage volume |
US9058298B2 (en) * | 2009-07-16 | 2015-06-16 | International Business Machines Corporation | Integrated approach for deduplicating data in a distributed environment that involves a source and a target |
-
2009
- 2009-08-13 US US13/389,473 patent/US8959062B2/en not_active Expired - Fee Related
- 2009-08-13 JP JP2011526668A patent/JP5485997B2/ja not_active Expired - Fee Related
- 2009-08-13 WO PCT/JP2009/064297 patent/WO2011018852A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057159A (ja) * | 1998-08-10 | 2000-02-25 | Ricoh Co Ltd | ファイルシステム |
JP2008305225A (ja) * | 2007-06-08 | 2008-12-18 | Hitachi Ltd | 制御計算機、計算機システム及びアクセス制御方法 |
Also Published As
Publication number | Publication date |
---|---|
US8959062B2 (en) | 2015-02-17 |
WO2011018852A1 (ja) | 2011-02-17 |
JPWO2011018852A1 (ja) | 2013-01-17 |
US20120150827A1 (en) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5485997B2 (ja) | 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 | |
US9767108B2 (en) | Retrieval device, method for controlling retrieval device, and recording medium | |
JP6006267B2 (ja) | 索引キーを使用して検索を絞込むシステムおよび方法 | |
JP5895099B2 (ja) | 移行先ファイルサーバ及びファイルシステム移行方法 | |
US20110167045A1 (en) | Storage system and its file management method | |
JP5162701B2 (ja) | 統合重複排除システム、データ格納装置、及びサーバ装置 | |
WO2015049747A1 (ja) | データ管理システム、及び、データ管理方法 | |
JP5439337B2 (ja) | 情報処理システム、情報処理システムの制御方法、検索制御装置 | |
JP5008748B2 (ja) | 検索方法、統合検索サーバ及びコンピュータプログラム | |
JP5557824B2 (ja) | 階層ファイルストレージに対する差分インデクシング方法 | |
JP4919851B2 (ja) | ファイルレベルの仮想化を行う中間装置 | |
JP2009064120A (ja) | 検索システム | |
JP2009522677A (ja) | ノードの番号付けによるファイル・システムのダンプ/復元のための方法、システム、およびデバイス | |
JP2011191862A (ja) | ファイル管理装置、ファイル管理システム、およびファイル管理プログラム | |
JP5352712B2 (ja) | 検索方法、統合検索サーバ及びコンピュータプログラム | |
US20060020572A1 (en) | Computer, storage system, file management method done by the computer, and program | |
JP2002049637A (ja) | データベース管理方法及び装置並びに記録媒体 | |
WO2014068749A1 (ja) | メタデータ管理システム、メタデータ管理方法及び記憶媒体 | |
JP2012083929A (ja) | ファイル検索装置およびファイル検索プログラム | |
JP2005174063A (ja) | ファイル管理装置,動的名前空間生成方法および動的名前空間生成プログラム | |
JP7141908B2 (ja) | データ管理システムおよびデータ管理方法 | |
US8965938B2 (en) | Orphan management in file systems | |
JP5517779B2 (ja) | 文書管理装置、文書管理方法、およびプログラム | |
JP2008186053A (ja) | ファイル管理装置、ファイル管理方法およびファイル管理プログラム | |
JP5049424B2 (ja) | 文書管理システム、情報処理装置および記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5485997 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |