JP2008305352A - 全文検索システム - Google Patents
全文検索システム Download PDFInfo
- Publication number
- JP2008305352A JP2008305352A JP2007154467A JP2007154467A JP2008305352A JP 2008305352 A JP2008305352 A JP 2008305352A JP 2007154467 A JP2007154467 A JP 2007154467A JP 2007154467 A JP2007154467 A JP 2007154467A JP 2008305352 A JP2008305352 A JP 2008305352A
- Authority
- JP
- Japan
- Prior art keywords
- index
- group
- file
- update
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008859 change Effects 0.000 claims abstract description 24
- 238000012217 deletion Methods 0.000 claims abstract description 23
- 230000037430 deletion Effects 0.000 claims abstract description 23
- 238000004891 communication Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 6
- 230000009193 crawling Effects 0.000 abstract description 21
- 238000000034 method Methods 0.000 description 38
- 238000012545 processing Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 206010017062 Formication Diseases 0.000 description 1
- 241001362551 Samba Species 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Abstract
【解決手段】システムは、電子文書が蓄積されたSMBサーバ1と、文書の新規作成,削除,部分的な変更の入力、検索対象文書のインデクスを入力するPC2と、索引用インデクスを作成し、作成したインデクスを格納するPC3と、PC3で作成されたインデクスを格納するPC4と、これらの間を接続する通信路6とを備え、PC2からサーバ1へアクセスされる情報のうちから、電子文書の新規作成,削除,部分的な変更に関連する更新候補情報を抽出して、格納するPC20を備えている。PC3は、インデクスを最初に作成する際にのみ、サーバ1を全体走査し、インデクスの新規作成,部分的な変更および削除に伴う更新は、PC20に格納されている更新候補情報に基づいて、サーバ1を照査して、新規作成,削除,部分的な変更が実際に行われた更新実行情報を抽出し、これに基づいてインデクスの更新を行う。
【選択図】図1
Description
T(パス名)←タッチ:そのファイルやディレクトリに触れた
D(パス名)← 削除:そのファイルやディレクトリを削除した
R(パス名,old)(パス名,new)← ファイル名やディレクトリ名を変更した
M(パス名,old)(パス名,new)← ファイルやデイレクトを移動した
またその際に列挙した全ての検索対象ファイルをインデクサ用PCに読み出す。これらを用いてインデクスを作成する。なお、インデクサ用PC3は、負荷分散によるインデクス作成/更新時間の短縮のために複数の存在が可能であり、各インデクサPC3に走査対象となるSMBサーバ1を割り当てればよい。
・基点リスト ツリー型のディレクトリ構造を持ったファイル
システム内を巡回する基点となるパス名の列
・検索非対称パス列 基点リストからツリーを巡る際に「その部分だけは検索対象にしない」パス列
・検索対象サフィックス txt,htm,html,pdfなど検索対象とするファイルのサフィクス列
・ログ確認周期
キャプチャ用PC20の出力する「アクセスパケットログ」を確認する周期
2 クライアントPC
3 インデクサPC
4 検索用PC
5 スイッチングハブ
6 通信路
20 キャプチャ用PC
20c パケットフィルタ
20d パケット判別モジュール
20e キャプチャ制御ファイル
20f メモリ領域
20g パケットログ
21 タップ
Claims (5)
- 検索対象となる電子文書が蓄積されたデータベースを有するファイルサーバ群と、
前記電子文書の新規作成,削除,部分的な変更を入力するとともに、検索対象文書のインデクスを入力するクライアントPC群と、
前記ファイルサーバ群の前記電子文書を照査して、当該電子文書に含まれている文言の索引用インデクスを作成するとともに、作成したインデクスを格納するインデクスデータベースを有するインデクサ用PC群と、
前記インデクサ用PC群で作成されたインデクスを格納する検索用PCとを有し、
前記ファイルサーバ群,クライアントPC群,インデクサ用PC群,検索用PCの間のそれぞれがスイッチイングハブを介して接続される通信路とを備え、
任意のクライアントPCから入力された検索対象インデクスに基づいて、前記検索用PCから前記検索対象インデクスに該当するインデクスを抽出して、当該クライアントPCに出力する全文検索システムにおいて、
前記クライアントPC群から前記ファイルサーバ群へアクセスされる情報のうちから、前記前記電子文書の新規作成,削除,部分的な変更に関連する更新候補情報を抽出して、格納するキャプチャ用PCを備え、
前記インデクサ用PC群は、前記インデクスを最初に作成する際にのみ、前記ファイルサーバ群を全体走査し、
前記インデクスの新規作成,部分的な変更および削除に伴う更新は、前記キャプチャPCに格納されている前記更新候補情報に基づいて、前記ファイルサーバ群を照査して、新規作成,削除,部分的な変更が実際に行われた更新実行情報を抽出し、当該更新実行情報に基づいて前記インデクスの更新を行うこと特徴とする全文検索システム。 - 前記更新候補情報は、前記通信路から取得することを特徴とする請求項1記載の全文検索システム。
- 前記更新候補情報は、前記クライアントPC群から前記ファイルサーバ群へアクセスされた情報が、前記ファイルサーバ群に残されているアクセルログから取得することを特徴とする請求項1記載の全文検索システム。
- 前記キャプチャ用PCは、前記通信路に設置されたタップを介して、前記クライアントPC群から前記ファイルサーバ群へアクセスされる情報を取得して、前記更新候補情報を抽出するパケット判別モジュールと、
前記更新候補情報を格納するパケトログと、
前記判別モジュールの制御用ファイルとを有することを特徴とする請求項2記載の全文検索システム。 - 前記インデクスには、前記検索対象となる電子文書へのアクセス権の作成、および、同アクセス権の新規作成,削除,部分的な変更などの更新情報を含ませることを特徴とする請求項1〜5のいずれか1項記載の全文検索システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007154467A JP4422742B2 (ja) | 2007-06-11 | 2007-06-11 | 全文検索システム |
PCT/JP2008/059128 WO2008152884A1 (ja) | 2007-06-11 | 2008-05-19 | 全文検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007154467A JP4422742B2 (ja) | 2007-06-11 | 2007-06-11 | 全文検索システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008305352A true JP2008305352A (ja) | 2008-12-18 |
JP2008305352A5 JP2008305352A5 (ja) | 2009-09-03 |
JP4422742B2 JP4422742B2 (ja) | 2010-02-24 |
Family
ID=40129496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007154467A Active JP4422742B2 (ja) | 2007-06-11 | 2007-06-11 | 全文検索システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4422742B2 (ja) |
WO (1) | WO2008152884A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073557A (ja) * | 2011-09-29 | 2013-04-22 | Hitachi Solutions Ltd | 情報検索システム、検索サーバ及びプログラム |
JP2013120537A (ja) * | 2011-12-08 | 2013-06-17 | Hitachi Solutions Ltd | 情報処理システム |
JP2013178685A (ja) * | 2012-02-29 | 2013-09-09 | Nec Corp | 非同期バックアップ機能を有するデータ処理システム、フロントシステム、バックアップ方法、及びそのためのプログラム |
JP2013196544A (ja) * | 2012-03-22 | 2013-09-30 | Nec Corp | 文書管理システム、文書管理方法、及びそのためのプログラム |
JP2014063447A (ja) * | 2012-09-24 | 2014-04-10 | Hitachi Solutions Ltd | 業務文書処理装置、業務文書処理方法及び業務文書処理プログラム |
JP2016515228A (ja) * | 2013-01-31 | 2016-05-26 | フェイスブック,インク. | 低レイテンシデータアクセス用のデータストリーム分割 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344245A (ja) * | 2000-03-29 | 2001-12-14 | Fujitsu Ltd | 情報処理装置 |
JP2002182961A (ja) * | 2000-12-13 | 2002-06-28 | Nec Corp | データベースの同期化システムとその同期化の方法 |
-
2007
- 2007-06-11 JP JP2007154467A patent/JP4422742B2/ja active Active
-
2008
- 2008-05-19 WO PCT/JP2008/059128 patent/WO2008152884A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344245A (ja) * | 2000-03-29 | 2001-12-14 | Fujitsu Ltd | 情報処理装置 |
JP2002182961A (ja) * | 2000-12-13 | 2002-06-28 | Nec Corp | データベースの同期化システムとその同期化の方法 |
Non-Patent Citations (6)
Title |
---|
SHANKAR PASUPATHY、外2名: "Making enterprise storage more search-friendly", PROC. OF THE 20TH ACM SYMP. ON OS PRINCIPLES, JPN6009043302, 2005, pages 1 - 2, XP058204204, ISSN: 0001469547, DOI: 10.1145/1095810.1118606 * |
大塚丈司、外2名: "センター管理型不正アクセス検知システムの提案", 電子情報通信学会技術研究報告(ISEC2002−13〜33), vol. 第102巻,第211号, JPN6009043099, 18 July 2002 (2002-07-18), JP, pages 39 - 44, ISSN: 0001469551 * |
平林幹雄: "作者が語るHyper Estraierの全て", SOFTWAREDESIGN, vol. 第197号, JPN6009043097, 18 March 2007 (2007-03-18), JP, pages 88 - 98, ISSN: 0001469550 * |
滝田裕、外1名: "全文検索エンジンを利用したファイルシステムの名前空間拡張", 情報処理学会論文誌, vol. 第47巻,第SIG3(ACS13)号, JPN6009043094, 15 March 2006 (2006-03-15), JP, pages 16 - 26, ISSN: 0001469549 * |
進藤達也: "企業を熱くする最新テクノロジ 企業内検索システム 各種サーバからデータを収集 アクセス権と連動して検", 日経コミュニケーション, vol. 第465号, JPN6009043091, 1 July 2006 (2006-07-01), JP, pages 146 - 150, ISSN: 0001469548 * |
進藤達也: "全文検索技術と業務システムへの応用", JAVA PRESS, vol. 第35巻, JPN6009043102, 15 April 2004 (2004-04-15), JP, pages 125 - 133, ISSN: 0001469552 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073557A (ja) * | 2011-09-29 | 2013-04-22 | Hitachi Solutions Ltd | 情報検索システム、検索サーバ及びプログラム |
JP2013120537A (ja) * | 2011-12-08 | 2013-06-17 | Hitachi Solutions Ltd | 情報処理システム |
JP2013178685A (ja) * | 2012-02-29 | 2013-09-09 | Nec Corp | 非同期バックアップ機能を有するデータ処理システム、フロントシステム、バックアップ方法、及びそのためのプログラム |
JP2013196544A (ja) * | 2012-03-22 | 2013-09-30 | Nec Corp | 文書管理システム、文書管理方法、及びそのためのプログラム |
JP2014063447A (ja) * | 2012-09-24 | 2014-04-10 | Hitachi Solutions Ltd | 業務文書処理装置、業務文書処理方法及び業務文書処理プログラム |
JP2016515228A (ja) * | 2013-01-31 | 2016-05-26 | フェイスブック,インク. | 低レイテンシデータアクセス用のデータストリーム分割 |
US10223431B2 (en) | 2013-01-31 | 2019-03-05 | Facebook, Inc. | Data stream splitting for low-latency data access |
Also Published As
Publication number | Publication date |
---|---|
JP4422742B2 (ja) | 2010-02-24 |
WO2008152884A1 (ja) | 2008-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9135257B2 (en) | Technique for implementing seamless shortcuts in sharepoint | |
RU2417419C2 (ru) | Интеллектуальное индексирование контейнера и поиск в нем | |
CN101499088B (zh) | 基于共同元素的用于过滤和组织条目的系统 | |
US7401089B2 (en) | Storage reports file system scanner | |
US8560569B2 (en) | Method and apparatus for performing bulk file system attribute retrieval | |
Cambazoglu et al. | Scalability challenges in web search engines | |
US7865873B1 (en) | Browser-based system and method for defining and manipulating expressions | |
US8417746B1 (en) | File system management with enhanced searchability | |
US8965941B2 (en) | File list generation method, system, and program, and file list generation device | |
CN109522290B (zh) | 一种HBase数据块恢复及数据记录提取方法 | |
WO2011108021A1 (en) | File level hierarchical storage management system, method, and apparatus | |
US8452788B2 (en) | Information retrieval system, registration apparatus for indexes for information retrieval, information retrieval method and program | |
WO2012106378A2 (en) | Real time searching and reporting | |
JP2011065546A (ja) | ファイル検索システム及びプログラム | |
JP4422742B2 (ja) | 全文検索システム | |
Lee et al. | ExtSFR: scalable file recovery framework based on an Ext file system | |
KR101272656B1 (ko) | 태그 기반 파일 관리 방법 및 그 시스템 | |
Thakare et al. | A effective and complete preprocessing for Web Usage Mining | |
US20110137886A1 (en) | Data-Centric Search Engine Architecture | |
CN110245037B (zh) | 一种基于日志的Hive用户操作行为还原方法 | |
US9734195B1 (en) | Automated data flow tracking | |
KR100756421B1 (ko) | 해외 과학기술 전자원문 수집/색인/추출 시스템 및 그 방법 | |
US20050204191A1 (en) | Systems and methods automatically classifying electronic data | |
Dija et al. | A Framework for Browser Forensics in Live Windows Systems | |
Albertsen | The paradigma web harvesting environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090716 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090716 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20090716 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20090804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4422742 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131211 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |