JP4314204B2 - 文書管理方法、システム及びプログラム - Google Patents
文書管理方法、システム及びプログラム Download PDFInfo
- Publication number
- JP4314204B2 JP4314204B2 JP2005069823A JP2005069823A JP4314204B2 JP 4314204 B2 JP4314204 B2 JP 4314204B2 JP 2005069823 A JP2005069823 A JP 2005069823A JP 2005069823 A JP2005069823 A JP 2005069823A JP 4314204 B2 JP4314204 B2 JP 4314204B2
- Authority
- JP
- Japan
- Prior art keywords
- gram
- document
- frequency
- post
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<文書管理システムの全体構成>
図1に示されるように、本発明の一実施形態に係る文書管理システムは、クライアント11とサーバ12により構成される。クライアント11は、例えばパーソナルコンピュータである。サーバ12は、外部に存在する記憶装置であるデータファイル13にアクセスして、文書登録や文書検索を行う。すなわち、文書登録時にはクライアント11により入力された文書データ及び索引データをデータファイル13に記憶させ、文書検索時にはデータファイル13に記憶された文書データ集合を対象として、クライアント11により指定された文字列からなる検索キーワード(検索タームともいう)を含む文書の検索をN−Gramを索引(インデクス)として行う。クライアント11とサーバ12及びデータファイル13は、例えばインターネットのようなネットワーク14により接続される。サーバ12とデータファイル13とは、直接接続されていてもよい。
次に、サーバ12について詳しく説明する。統合パラメータ設定部21は、見掛け上のGram種の数を削減すべく、検索にインパクトを与えない程度に低頻度のGramを統合して管理するための統合パラメータを設定する。統合パラメータの具体例については、後述する。
Oc(g)<Oave ×V2 (2)
図4を参照すると、文書登録がされ始めた初期段階、すなわち複数の文書データが文書データ領域37に記憶され始めた段階(図4でドキュメント数小の領域)では、Gramはどれも発生頻度が非常に小さいため、数式(1)が効いて通常全てのGramが図4中の希少Gramエリアに属すようになり、統合Gramと判定される。初期段階以降の段階(図4でドキュメント数大の領域)では、数式(2)が効いて頻出エリアに属する一定数のGramを除くGramは希少Gramエリアに属すようになり、統合Gramとして判定される。なお、図4に示されるように高頻度Gramと低頻度Gramの発生頻度差は極めて大きく、Gram順位に対して発生頻度は指数カーブを描く。
図5に示されるように、本実施形態における文書登録処理は、新規にデータファイル13内の文書データ領域37に記憶させるべき文書データの読込み(ステップS101)、読み込んだ文書データへの文書IDの割当(ステップS102)及び読み込んだ文書データを検索する際に用いる索引データをデータファイル13内の索引データ領域33に記憶させるための索引登録処理(ステップS103)から構成される。
(2)“料電”<105,2>
(3)“電池”<105,4>
(4)“池と”<105,6>
(5)“とは”<105,8>
これらの各Gramは、統合Gramか一般Gramかを判定する判定基準により統合Gramと判定されたものとすると、図8に示すように統合Gramポスト領域35の統合ポストブロックに統合Gramに対応するポストデータが記憶される。
(2)“料電”<985,2>
(3)“電池”<985,4>
(4)“池と”<985,6>
(5)“とは”<985,8>
統合Gramか一般Gramかを判定するための判定基準により、これらの各Gramのうち“燃料”,“電池”のGramは一般Gramと判定され、それ以外の“料電”,“池と”及び“とは”は統合Gramと判定されたものとする。この場合、図10に示すように統合Gramポスト領域35の統合ポストブロックに統合Gramに対応するポストデータが記憶され、また図11に示すように一般Gramポスト領域36の一般ポストブロックに一般Gramに対応するポストデータが記憶される。
次に、図12〜図13を参照して本実施形態における文書検索処理について説明する。まず、図12に示すように検索キーワードを読み込み(ステップS301)、検索キーワードからGramを切り出してGram集合を生成する(ステップS302)。Gramの切り出しは、検索キーワードからN文字の文字列を切り出す処理を例えば1文字ずつシフトしつつ繰り返すことで行う。
<...,...>,<105,4>,<...,...>,<985,4>,<...,...>
一方、“とは”は統合Gramに判定されるので、統合Gramポスト領域35だけを走査する。その結果、以下のポストデータ集合が得られる。
<...,...>,<105,8>,<...,...>,<985,8>,<...,...>
次に、これら二つのポストデータ集合をマージする。“電池”と“とは”では2文字ずれているので、ポストデータ<文書ID,文書内オフセット>に従って、文書内オフセットの差分が+4であるポストデータ集合をマージする。マージ結果は<...>,<105>,<...>,<985>,<...>であり、これが文書IDリストとなる。
12…サーバ;
13…データファイル(記憶装置);
21…統合パラメータ設定部;
22…文書登録部;
23…索引検索部;
24…Gram判定部;
25…統合Gram登録部;
26…一般Gram登録部;
27…統合Gram操作部;
28…一般Gram操作部;
31…統合パラメータ領域;
32…索引データ領域;
33…統合Gram情報領域;
34…統合Gramポスト領域;
35…一般Gram情報領域;
36…一般Gramポスト領域;
37…文書データ領域
Claims (6)
- 記憶装置の文書データ領域に記憶される文書データを管理する文書管理方法において、
判定手段が、前記文書データから予め定められた数の文字列をシフトしながら切り出すことにより生成される管理用Gramのうち発生頻度が閾値に満たない管理用Gramを低頻度Gramと判定し、それ以外の管理用Gramを高頻度Gramと判定するステップと、
第1の記憶手段が、前記低頻度Gramの文字列を特定するGram値に対応して、該低頻度Gramと該低頻度Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させるステップと、
第2の記憶手段が、前記高頻度Gramの文字列に対応して、前記高頻度Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させるステップとを具備することを特徴とする文書管理方法。 - 前記判定ステップは、前記文書データを前記文書データ領域に記憶し始める初期状態での前記低頻度Gramの発生頻度が平均頻度の何倍かを示す値をV2、前記管理用Gramのうちの現判定対象のGramの発生頻度をOc(g)、前記管理用Gramの平均発生頻度をOave=Σg Oc(g)としたとき、Oc(g)<Oave ×V2が成立すれば前記現判定対象のGramを前記低頻度Gramと判定することを特徴とする請求項1の文書管理方法。
- 前記Gram値は、前記低頻度Gramの文字列についてハッシュ値を計算することにより求められることを特徴とする請求項1記載の文書管理方法。
- 記憶装置の文書データ領域に記憶されるべき文書データから予め定められた数の文字列をシフトしながら切り出すことにより生成される管理用Gramのうち発生頻度が閾値に満たない管理用Gramを低頻度Gramと判定し、それ以外の管理用Gramを高頻度Gramと判定する判定手段と、
前記低頻度Gramの文字列を特定するGram値に対応して、該低頻度Gramと該低頻度Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させる手段と、
前記高頻度Gramの文字列に対応して、前記高頻度Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させる手段とを具備することを特徴とする文書管理システム。 - 前記判定手段は、前記文書データを前記文書データ領域に記憶し始める初期状態での前記低頻度Gramの発生頻度が平均頻度の何倍かを示す値をV2、前記管理用Gramのうちの現判定対象のGramの発生頻度をOc(g)、前記管理用Gramの平均発生頻度をOave=Σg Oc(g)としたとき、Oc(g)<Oave ×V2が成立すれば前記現判定対象のGramを前記低頻度Gramと判定することを特徴とする請求項4の文書管理システム。
- 記憶装置の文書データ領域に記憶されるべき文書データから予め定められた数の文字列をシフトしながら切り出すことにより生成される管理用Gramのうち発生頻度が閾値に満たない管理用Gramを低頻度Gramと判定し、それ以外の管理用Gramを高頻度Gramと判定する判定手段と、
前記低頻度Gramの文字列を特定するGram値に対応して、該低頻度Gramと該低頻度Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させる手段と、
前記高頻度Gramの文字列に対応して、前記高頻度Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させる手段とを具備することを特徴とする文書管理システムとしてコンピュータを機能させるための文書管理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069823A JP4314204B2 (ja) | 2005-03-11 | 2005-03-11 | 文書管理方法、システム及びプログラム |
CNB2006100547428A CN100454305C (zh) | 2005-03-11 | 2006-03-10 | 文档管理方法和装置以及文档搜索方法和装置 |
US11/371,947 US7979438B2 (en) | 2005-03-11 | 2006-03-10 | Document management method and apparatus and document search method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069823A JP4314204B2 (ja) | 2005-03-11 | 2005-03-11 | 文書管理方法、システム及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009029624A Division JP2009104669A (ja) | 2009-02-12 | 2009-02-12 | 文書検索方法、システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006252324A JP2006252324A (ja) | 2006-09-21 |
JP4314204B2 true JP4314204B2 (ja) | 2009-08-12 |
Family
ID=36972286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005069823A Expired - Fee Related JP4314204B2 (ja) | 2005-03-11 | 2005-03-11 | 文書管理方法、システム及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7979438B2 (ja) |
JP (1) | JP4314204B2 (ja) |
CN (1) | CN100454305C (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
JP2008084132A (ja) * | 2006-09-28 | 2008-04-10 | Toshiba Corp | 文書検索装置、文書検索方法および文書検索プログラム |
IL179582A0 (en) * | 2006-11-26 | 2007-05-15 | Algotec Systems Ltd | Comparison workflow automation by registration |
US8352855B2 (en) * | 2009-01-02 | 2013-01-08 | Apple Inc. | Selection of text in an unstructured document |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
JP5512489B2 (ja) * | 2010-10-27 | 2014-06-04 | 株式会社日立ソリューションズ | ファイル管理装置及びファイル管理方法 |
EP2498206A1 (en) * | 2011-03-10 | 2012-09-12 | Adalbert Gubo | Process and apparatus to control multi-step processes |
JP5737079B2 (ja) * | 2011-08-31 | 2015-06-17 | カシオ計算機株式会社 | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 |
EP2857986A4 (en) * | 2012-05-31 | 2015-10-14 | Fujitsu Ltd | INDEX GENERATION PROGRAM AND RESEARCH PROGRAM |
CN104079450B (zh) * | 2014-06-23 | 2017-10-17 | 北京邮电大学 | 特征模式集生成方法及装置 |
US11188594B2 (en) * | 2018-02-07 | 2021-11-30 | Oracle International Corporation | Wildcard searches using numeric string hash |
CN112783896B (zh) * | 2021-01-12 | 2023-05-23 | 湖北宸威玺链信息技术有限公司 | 一种用于加载文件减少内存使用率的方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5440723A (en) * | 1993-01-19 | 1995-08-08 | International Business Machines Corporation | Automatic immune system for computers and computer networks |
US5752051A (en) * | 1994-07-19 | 1998-05-12 | The United States Of America As Represented By The Secretary Of Nsa | Language-independent method of generating index terms |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
EP0834139A4 (en) * | 1995-06-07 | 1998-08-05 | Int Language Engineering Corp | COMPUTER-ASSISTED TRANSLATION TOOLS |
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
US6157905A (en) * | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
US6092038A (en) * | 1998-02-05 | 2000-07-18 | International Business Machines Corporation | System and method for providing lossless compression of n-gram language models in a real-time decoder |
JP3622503B2 (ja) * | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP3620968B2 (ja) * | 1998-08-05 | 2005-02-16 | 株式会社日立製作所 | 文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 |
US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
WO2002027541A1 (en) * | 2000-08-23 | 2002-04-04 | Intel Corporation | A method and apparatus for concept-based searching across a network |
JP4342753B2 (ja) * | 2001-08-10 | 2009-10-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
US7617176B2 (en) * | 2004-07-13 | 2009-11-10 | Microsoft Corporation | Query-based snippet clustering for search result grouping |
-
2005
- 2005-03-11 JP JP2005069823A patent/JP4314204B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-10 US US11/371,947 patent/US7979438B2/en active Active
- 2006-03-10 CN CNB2006100547428A patent/CN100454305C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20060206527A1 (en) | 2006-09-14 |
JP2006252324A (ja) | 2006-09-21 |
CN1831825A (zh) | 2006-09-13 |
CN100454305C (zh) | 2009-01-21 |
US7979438B2 (en) | 2011-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4314204B2 (ja) | 文書管理方法、システム及びプログラム | |
JP4162711B2 (ja) | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 | |
US7467155B2 (en) | Method and apparatus for representation of unstructured data | |
US7072889B2 (en) | Document retrieval using index of reduced size | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
US20120310630A1 (en) | Tokenization platform | |
JP3883622B2 (ja) | 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2009104669A (ja) | 文書検索方法、システム及びプログラム | |
JP4108337B2 (ja) | 電子ファイリングシステム及びその検索インデックス作成方法 | |
JP2004240488A (ja) | 文書管理装置 | |
CN111737397A (zh) | 信息处理装置、文档管理系统、记录媒体及信息处理方法 | |
JP6787755B2 (ja) | 文書検索装置 | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JP2675958B2 (ja) | 情報検索用計算機システム及びその記憶装置の動作方法 | |
JP2009037359A (ja) | データ登録検索方法、データ登録検索プログラムおよびデータベースシステム | |
JP3863041B2 (ja) | 文書作成システム、文書テンプレート登録装置及び方法、プログラム、並びに文書テンプレート登録データ | |
JP7022789B2 (ja) | 文書検索装置、文書検索方法およびコンピュータプログラム | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP2005222244A (ja) | 単語検索装置、単語検索方法、およびその単語検索装置を備える情報提供システム | |
JP7272540B2 (ja) | 情報提供システム、情報提供方法、及びデータ構造 | |
JP2011221662A (ja) | 辞書編集装置およびプログラム | |
JP2000076254A (ja) | キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体 | |
JP2005092688A (ja) | 検索システム、検索プログラム及び記録媒体 | |
JPH11191143A (ja) | 情報処理装置及びその方法、コンピュータ可読メモリ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080909 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090212 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090421 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090518 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4314204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |