JP2006155657A - Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 - Google Patents
Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 Download PDFInfo
- Publication number
- JP2006155657A JP2006155657A JP2006031590A JP2006031590A JP2006155657A JP 2006155657 A JP2006155657 A JP 2006155657A JP 2006031590 A JP2006031590 A JP 2006031590A JP 2006031590 A JP2006031590 A JP 2006031590A JP 2006155657 A JP2006155657 A JP 2006155657A
- Authority
- JP
- Japan
- Prior art keywords
- page
- gram
- grams
- word
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書は、多数のバンク内のページとして索引付けられる。各バンクに対して、1つのバンク索引が存在する。個々のnグラムは、各ページに対して識別されて、バンク索引内に格納される。各バンク索引は更に、所与のnグラムがバンクのページのいずれかに存在するか否かを示し、次いで、バンク内のどのページがnグラムを含むかを更に示すページマップに索引を与える。探索照会が入力されると、照会ワードが、それらのnグラムへと分解される。照会ワードnグラムは、先ずエントリマップと比較されて、照会ワードnグラムが、バンク内のいずれかのページに出現するか否かが判定される。
【選択図】図1
Description
図1を参照すると、そこには、本発明の改善型文書索引付け及び検索システムを用いるためのシステムが示されている。システム100は、コンピュータ101を備え、これは、走査済み文書の長期保存用の二次記憶装置107と、コマンド及びデータを受信及び出力するための入力装置109及び出力装置116と、プロセッサ111による実行用の各種符号モジュールを格納するためのアドレス指定可能メモリ113を有する。
L=[Cmax]Np
となる。
(第2のnグラムレター番号)*max_charN−2 +
(第3のnグラムレター番号)*max_charN−3 +
…
(第N−1のnグラムレター番号)*max_char+
(第Nのnグラムレター番号)*max_charN−1
ここで、nグラムレター番号は、レターがnグラムに出現する際の順序付き数であり、NはnグラムパラメータNpであり、max_charはCmax に等しい。好適な実施例の場合、Cmax は37であり、nグラムパラメータNpは3であるので、上記式は以下のように簡約化される。
(第2のトリグラムレター番号)*37 +
(第3のトリグラムレター番号)。
しかし、第2のnグラム・エントリマップ505bは、2に等しい索引値を有し、第2の索引ページマップ507bに対して索引付ける。従って、それがどんなnグラムであっても、nグラム・エントリマップ505bと関連したnグラムの一事例を有するnグラムバンク217には、少なくとも1つのページが存在する。同様に、第4のnグラム・エントリマップ505dは、第4の索引ページマップ507dに索引付けし、nグラム・エントリマップ505eは、第3の索引ページマップ507cに索引付けし、またnグラム・エントリマップ505fは、第1の索引ページマップ507aに索引付けする。
[ki、nグラムi1、nグラムi2、…、nグラムik]
[k(i+1)、nグラム(i+1)1、nグラム(i+1)2、…、nグラム(i+1)k]…
ここで、ki はページの第iワード内のnグラムの数であり、nグラムi(1…k) は第iワード内のnグラム番号のリストである。値[k]の各グループ[nグラム1、nグラム2、…、nグラムk]は「ワードキー」と呼ばれる。あるページの全てのワードに対するワードキーの集合がページキー509である。ここで留意されたいのは、好適な実施例において、nグラム自体が格納されるのではなく、各nグラムを固有に識別するnグラム番号がページキー509に格納される、ということである。nグラム自体ではなくnグラム番号を用いることにより、結果としてメモリの節約になる。各nグラムは各文字に対して1バイトを要するので、トリグラムは3バイトである。しかし、nグラム番号は以下のビットしか必要としない。
従って、トリグラムは、15.6ビット、又は2バイトしか必要としない。
I.全体の処理流れ
システム100は、情報記憶及び検索システムにおいて、文書を索引付け及び探索する改善された方法を提供する。その方法には、2つの基本的な行程が含まれ、すなわち文書を索引付けする行程と、探索照会を用いて文書を探索する行程である。
次に図8を参照すると、そこには、文書をシステム100へと索引付けする行程703の流れ図が示されており、これは索引監視121により管理される。索引監視121は、一連の演算を実行して、ユーザにより入力された文書205の各ページ215内の各nグラムを索引付けし、また適切なバンク217、バンクリスト219、解放リスト221、及びバンク索引223を更新する。
再度図7を参照すると、ユーザは又、入力探索照会に一致する文書に対して、任意の数のドロワを探索する。一般に、探索には、探索照会内の各ワードをそのnグラムに分解し、どの文書ページがどのnグラムを含むかを判定して、結果としての一致に基づき任意のブール演算又は他の演算を実行するステップが伴う。更に詳細には、各バンクが探索されて、照会ワードのいずれのnグラムが、そのバンク内のいずれのページに出現するかが判定される。これらのページは注記される。次に各ページに対して、照会ワードのnグラムが、そのページの各ページキー内の各ワードキーにおける各nグラムと比較される。これは、照会ワードと各ページのワードの間の一致精度を判定する。
ここで、KQはQ内のnグラム数であり、Eは一致パラメータである。Eは、20等の有用な下境界と100の間のあるであるのが好ましい。
ワードキー一致カウンタアレイ[Q,W]≦KQ *E/100
となる。この試験が満足されると、探索実行モジュール129は、探索照会に対するヒットを示すように、バンク及びページエントリ411に対して結果バッファをセットする(ステップ1414)。内部のループ1407は完了する必要はない。というのは、nグラムが十分一致するためである。
105 オペレーティングシステム
111 プロセッサ
113 アドレス指定可能メモリ
141 データベース
145 ページバッファ
Claims (18)
- 複数のワードを含む格納された文書を索引付けして、少なくとも1つの照会ワードを含む入力探索照会に一致する少なくとも1つの文書を探索する方法において、
各文書の選択されたワードのnグラムを格納するステップと、
少なくとも1つの照会ワードに対して、少なくとも1つの照会ワードnグラムを決定するステップと、
照会ワードnグラムのうちの選択されたものに一致するnグラムを有する文書を検索するステップと、
を含む方法。 - nグラムを格納するステップは、
ある文書の各ページの非停止ワードを識別するステップと、
各非停止ワードに対して、少なくとも1つのnグラムを決定するステップと、
各ページのnグラムを格納するステップと、
を更に含む、請求項1の方法。 - 各nグラムに対して、そのnグラムが生じる少なくとも1つのページのマップを格納するステップと、
nグラムのリストに対応して、マップのリストを格納するステップと、
を更に含む、請求項2の方法。 - 文書を検索するステップは、
照会ワードnグラムをnグラムのリストの1つに突合せるステップと、
nグラムのリストの1つの対応するマップを決定するステップと、
マップから、照会ワードnグラムを含むページを決定するステップと、
ページ、及びそれと関連した文書を検索するステップと、
を更に含む、請求項3の方法。 - nグラムにより文書を索引付けするための記憶構造を備えるコンピュータ読み取り可能メモリであって、各文書は文書番号、文書名、及び少なくとも1つのページを有し、各ページはページ番号を有するコンピュータ読み取り可能メモリにおいて、
ページエントリのリストからなるバンクであって、各ページエントリは、そのページを含む文書の文書番号によりページを、また文書内のページ番号を識別する、バンクと、
バンクと関連したバンク索引であって、
i) 複数のnグラム・エントリマップであって、各nグラム・エントリマップは単一のnグラムと関連し、選択されたnグラム・エントリマップは、バンクで識別された少なくとも1つのページが、nグラム・エントリマップと関連したnグラムを含む索引エントリマップへの索引を有する、複数のnグラム・エントリマップと、
ii) 複数の索引エントリマップであって、各索引エントリマップは、nグラム・エントリマップの1つにより索引付けられ、各索引エントリマップは、索引エントリマップを索引付けするnグラム・エントリマップと関連したnグラムを含むあるページを識別する、バンク内の各ページエントリを識別する、複数の索引エントリマップと、
を備えるバンク索引と、
からなるコンピュータ読み取り可能メモリ。 - バンク内の各ページエントリはオフセットを有し、
各索引エントリマップは複数のビット位置を含み、各ビット位置はバンク内のあるページエントリと関連し、各ビット位置は、そのビット位置と関連したページエントリにおいて識別されるページが、索引エントリマップを索引付けするnグラム・エントリマップと関連したnグラムを含む第1の値と、そのビット位置と関連したページエントリにおいて識別されるページが、索引エントリマップを索引付けするnグラム・エントリマップと関連したnグラムを含まない第2の値とを有する、請求項5のコンピュータ読み取り可能メモリ。 - ドロワから更になり、該ドロワは、
i) 文書のリストであって、各文書は該リスト内で固有に識別される、文書のリストと、
ii) 複数のバンク、及び関連したバンク索引と、
iii)複数のバンクの各々に対して、バンク内の多数の空ページエントリのカウント値を含むバンクリストと、
を備える、請求項5のコンピュータ読み取り可能メモリ。 - 各バンクは更に、
少なくとも1つのページキーを含むページキーテーブルであって、各ページキーはバンク内のあるページエントリと関連し、
i) ページの各ワードに対して、そのワード内のnグラムのリストを備えるページキーテーブルからなる、請求項5のコン
ピュータ読み取り可能メモリ。 - 文書を検索するコンピュータ実施の方法において、
コンピュータ読み取り可能メモリ上に、請求項5の記憶構造を格納するステップと、
照会語を受信するステップであって、照会語内の多数のnグラムの各々に対して、
i) 照会語のnグラムと関連したバンク索引内のnグラムマップから、ある索引エントリマップがnグラムに対して存在するか否かを判定するステップと、
ii) 現存する索引エントリマップに応答して、索引エントリマップから、索引エントリマップと関連したnグラムを含むあるページを識別する、バンク内の各ページエントリを決定するステップと、
iii)nグラムを含む各ページに対して、nグラムカウンタをインクリメントするステップと、
を含むステップと、
バンク内の各ページに対して、そのページに対するnグラムカウンタが、そのページが照会語を含むことを示すために、照会語内のnグラムの数と十分類似しているか否かを判定するステップと、
照会語内のnグラムの数と十分類似しているページ用のnグラムカウンタに応答して、後続の照会解析のためのページを含む文書を検索するステップと、
を含む方法。 - ページ用のnグラムカウンタが、照会語内のnグラムの数と十分類似するのは、
G[P]≦K*E/100
の場合であり、ここで、Pはページであり、G[P]はページP用のnグラム一致カウンタであり、Kは照会語内のnグラム数であり、Eはnグラム一致カウンタとKの間の一致の割合を制御するために選択された、一致パラメータである、請求項9のコンピュータ実施の方法。 - 複数の文書を索引付けするコンピュータ実施の方法であって、各文書は少なくとも1つのページを有し、各ページは、データの最大量よりすくないデータ量を有し、また複数のワードを有する、コンピュータ実施の方法において、
ページのリストを格納するステップであって、各ページはある文書と関連する、ステップと、
nグラムのリストを決定するステップと、
各nグラムに対して、そのnグラムを含むページのマップを確立するステップであって、該ステップは、
i) 文書から現在のページを検索するステップと、
ii) 該現在のページの各非停止ワードに対して、
1) ワード内のnグラムを決定するステップと、
2) ワード内の各nグラムに対して、そのnグラムと固有に関連し、またページのリスト内の各ページに対するあるエントリを含むマップにおいて、ページがnグラムを含むことを指示するように、現在のページに対するエントリを更新するステップと、
により行われる、ステップと、
を含むコンピュータ実施の方法。 - 照会語を含む書類を更に検索するために、
照会語を受信するステップと、
該照会語内の多数のnグラムの各々に対して、
i)マップがそのnグラムに対して存在するか否かを判定するステップと、
ii)現存するマップに応答して、そのマップから、マップと関連したnグラムを含むリスト内の各ページを決定するステップと、
iii)リスト内の各ページに対して、そのページが、照会語を含むことを指示するために、照会語内の十分な数のnグラムを含むか否かを判定するステップと、
照会語を含む各ページに応答して、後続の照会解析のためにそのページを含む文書を検索するステップと、
を含む、請求項11のコンピュータ実施の方法。 - 請求項11のステップを実行するために、プロセッサを構成及び制御するコンピュータ・プログラムを含む、コンピュータ読み取り可能メモリ。
- 各文書が少なくともいつのページを含む、複数の文書を索引付けするプロセッサを制御するためのコンピュータ読み取り可能メモリにおいて、
索引付きページのリストと、
索引マップのリストであって、各索引マップは、1つのnグラムと固有に関連し、且つ複数のエントリを有し、各エントリは、索引付きページのリスト内のページと固有に関連し、且つそのページが、索引マップと関連したnグラムを含むか否かを指示する、索引マップのリストと、
ページ索引付けモジュールであって、
i) 索引付けすべき現在のページを受け取り、
ii) 索引付きページのリストにおいて、現在のページに対するエントリを作成し、
iii)現在のページの各非停止ワードに対して、ワード内のnグラムのリストを格納して、
iv) 各nグラムに対して、現在のページがnグラムを含むことを指示するために、nグラムと関連した索引マップにおいて、現在のページに対するエントリを更新する、
ページ索引付けモジュールと、
からなるコンピュータ読み取り可能メモリ。 - ページ索引付けモジュールは、現在のページの非停止ワードに対して、
ワード内の各nグラムに対してnグラム番号を決定し、
ワード内の各nグラムのnグラム番号を格納して、
現在のページと、格納されたnグラム番号を関連づけることにより、ワード内のnグラムのリストを格納する、請求項14のコンピュータ読み取り可能メモリ。 - 各文書が少なくとも1つのページを含む、複数の文書からの照会語を含む文書を索引付けするプロセッサを制御するためのコンピュータ読み取り可能メモリにおいて、
各ページがある文書と関連した、索引付きページのリストと、
索引マップのリストであって、各索引マップは、1つのnグラムと固有に関連し、且つ複数のエントリを有し、各エントリは、索引付きページのリスト内のページと固有に関連し、且つそのページが、索引マップと関連したnグラムを含むか否かを指示する、索引マップのリストと、
探索モジュールであって、
i) 照会語を受け取り、
ii) 照会語内の多数のnグラムの各々に対して、
iii)照会語内の多数のnグラムの各々に対して、そのnグラムと関連した索引マップがあるか否かを判定し、
iv) 現存する索引マップに応答して、その索引マップから、マップと関連したnグラムを含む索引付きページのリスト内の各ページを決定し、
v) 索引付きページのリスト内の各ページに対して、そのページが、照会語を含むことを指示するために、照会語内の充分な数のnグラムを含むか否かを判定し、
vi) 照会語を含むページに応答して、後続の照会解析のためにそのページを含む文書を検索する、
探索モジュールと、
からなるコンピュータ読み取り可能メモリ。 - 探索モジュールは、あるページが、照会語内の充分な数のnグラムを含むか否かを、
G[P]≦K*E/100
という式により判定し、ここで、Pはページであり、G[P]はページP内に含まれる照会語におけるnグラム数であり、Kは照会語内のnグラム数であり、Eは、ページP内に含まれる照会語内のnグラム数とKの間の一致の割合を制御するために選択された、一致パラメータである、請求項17のコンピュータ読み取り可能メモリ。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/419,126 US5706365A (en) | 1995-04-10 | 1995-04-10 | System and method for portable document indexing using n-gram word decomposition |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53114696A Division JP4162711B2 (ja) | 1995-04-10 | 1996-04-10 | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006155657A true JP2006155657A (ja) | 2006-06-15 |
JP4559371B2 JP4559371B2 (ja) | 2010-10-06 |
Family
ID=23660908
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53114696A Expired - Fee Related JP4162711B2 (ja) | 1995-04-10 | 1996-04-10 | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 |
JP2006031590A Expired - Fee Related JP4559371B2 (ja) | 1995-04-10 | 2006-02-08 | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53114696A Expired - Fee Related JP4162711B2 (ja) | 1995-04-10 | 1996-04-10 | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US5706365A (ja) |
EP (1) | EP0764305B1 (ja) |
JP (2) | JP4162711B2 (ja) |
AU (1) | AU713572B2 (ja) |
BR (1) | BR9606306A (ja) |
DE (1) | DE69631457T2 (ja) |
ES (1) | ES2214535T3 (ja) |
NO (1) | NO965254L (ja) |
NZ (1) | NZ306268A (ja) |
WO (1) | WO1996032686A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013030089A (ja) * | 2011-07-29 | 2013-02-07 | E-Jidai:Kk | 文書検索システムおよび文書検索プログラム |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415307B2 (en) * | 1994-10-24 | 2002-07-02 | P2I Limited | Publication file conversion and display |
US5729665A (en) * | 1995-01-18 | 1998-03-17 | Varis Corporation | Method of utilizing variable data fields with a page description language |
US6243172B1 (en) * | 1995-01-18 | 2001-06-05 | Varis Corporation | Method and system for merging variable text and images into bitmaps defined by a page description language |
US5875443A (en) * | 1996-01-30 | 1999-02-23 | Sun Microsystems, Inc. | Internet-based spelling checker dictionary system with automatic updating |
US5864630A (en) * | 1996-11-20 | 1999-01-26 | At&T Corp | Multi-modal method for locating objects in images |
US5852822A (en) * | 1996-12-09 | 1998-12-22 | Oracle Corporation | Index-only tables with nested group keys |
GB9701866D0 (en) * | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
US5809496A (en) * | 1997-02-20 | 1998-09-15 | International Business Machines Corporation | Hybrid search |
JP3554459B2 (ja) * | 1997-02-26 | 2004-08-18 | 株式会社日立製作所 | テキストデータ登録検索方法 |
US5978797A (en) * | 1997-07-09 | 1999-11-02 | Nec Research Institute, Inc. | Multistage intelligent string comparison method |
US6016546A (en) * | 1997-07-10 | 2000-01-18 | International Business Machines Corporation | Efficient detection of computer viruses and other data traits |
US6487568B1 (en) * | 1997-07-18 | 2002-11-26 | Tesseron, Ltd. | Method and system for flowing data to an arbitrary path defined by a page description language |
US6118887A (en) * | 1997-10-10 | 2000-09-12 | At&T Corp. | Robust multi-modal method for recognizing objects |
US5991714A (en) * | 1998-04-22 | 1999-11-23 | The United States Of America As Represented By The National Security Agency | Method of identifying data type and locating in a file |
BE1012981A3 (nl) | 1998-04-22 | 2001-07-03 | Het Babbage Inst Voor Kennis E | Werkwijze en systeem voor het weervinden van documenten via een elektronisch databestand. |
WO2000007123A1 (en) * | 1998-07-28 | 2000-02-10 | Triada, Ltd. | Methods of deleting information in n-gram tree structures |
US6169969B1 (en) * | 1998-08-07 | 2001-01-02 | The United States Of America As Represented By The Director Of The National Security Agency | Device and method for full-text large-dictionary string matching using n-gram hashing |
JP3696745B2 (ja) | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7031985B1 (en) * | 1999-03-08 | 2006-04-18 | Oracle International Corporation | Lexical cache |
US6516329B1 (en) * | 1999-04-26 | 2003-02-04 | Gateway, Inc. | Method of maintaining search results pages |
US6546383B1 (en) * | 1999-06-09 | 2003-04-08 | Ricoh Company, Ltd. | Method and device for document retrieval |
US20020023123A1 (en) * | 1999-07-26 | 2002-02-21 | Justin P. Madison | Geographic data locator |
JP4115048B2 (ja) * | 1999-08-17 | 2008-07-09 | 株式会社リコー | 文書検索システム |
US6785810B1 (en) | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
JP4065381B2 (ja) | 1999-11-10 | 2008-03-26 | ヤフー! インコーポレイテッド | インターネットラジオ及びブロードキャスト方法 |
US6859805B1 (en) * | 1999-11-29 | 2005-02-22 | Actuate Corporation | Method and apparatus for generating page-level security in a computer generated report |
US6772156B1 (en) | 1999-11-29 | 2004-08-03 | Actuate Corporation | Method and apparatus for creating and displaying a table of content for a computer-generated report having page-level security |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
AU2001249096A1 (en) * | 2000-03-06 | 2001-09-17 | Iarchives, Inc. | System and method for creating a searchable word index of a scanned document including multiple interpretations of word at a given document location |
US6950553B1 (en) * | 2000-03-23 | 2005-09-27 | Cardiff Software, Inc. | Method and system for searching form features for form identification |
US7024485B2 (en) * | 2000-05-03 | 2006-04-04 | Yahoo! Inc. | System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US8352331B2 (en) * | 2000-05-03 | 2013-01-08 | Yahoo! Inc. | Relationship discovery engine |
US7251665B1 (en) * | 2000-05-03 | 2007-07-31 | Yahoo! Inc. | Determining a known character string equivalent to a query string |
US6556990B1 (en) * | 2000-05-16 | 2003-04-29 | Sun Microsystems, Inc. | Method and apparatus for facilitating wildcard searches within a relational database |
GB2380581A (en) * | 2000-07-11 | 2003-04-09 | Launch Media Inc | Online playback system with community bias |
KR100406671B1 (ko) * | 2000-07-24 | 2003-11-21 | 주식회사 유니마이다스 | 문장 표절 및 도용 검색 방법 |
JP5033277B2 (ja) * | 2000-09-12 | 2012-09-26 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体 |
DE10048478C2 (de) * | 2000-09-29 | 2003-05-28 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen |
US8271333B1 (en) | 2000-11-02 | 2012-09-18 | Yahoo! Inc. | Content-related wallpaper |
US7406529B2 (en) * | 2001-02-09 | 2008-07-29 | Yahoo! Inc. | System and method for detecting and verifying digitized content over a computer network |
US20020156809A1 (en) * | 2001-03-07 | 2002-10-24 | O'brien Thomas A. | Apparatus and method for locating and presenting electronic content |
US7574513B2 (en) | 2001-04-30 | 2009-08-11 | Yahoo! Inc. | Controllable track-skipping |
SG103289A1 (en) * | 2001-05-25 | 2004-04-29 | Meng Soon Cheo | System for indexing textual and non-textual files |
EP1407386A2 (en) * | 2001-06-21 | 2004-04-14 | ISC, Inc. | Database indexing method and apparatus |
JP4342753B2 (ja) | 2001-08-10 | 2009-10-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
US6925475B2 (en) * | 2001-10-12 | 2005-08-02 | Commissariat A L'energie Atomique | Process and apparatus for management of multimedia databases |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
US20030149566A1 (en) * | 2002-01-02 | 2003-08-07 | Esther Levin | System and method for a spoken language interface to a large database of changing records |
US7707221B1 (en) | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
US7305483B2 (en) | 2002-04-25 | 2007-12-04 | Yahoo! Inc. | Method for the real-time distribution of streaming data on a network |
US7370271B2 (en) * | 2002-10-30 | 2008-05-06 | Actuate Corporation | Methods and apparatus for generating a spreadsheet report template |
US7743061B2 (en) * | 2002-11-12 | 2010-06-22 | Proximate Technologies, Llc | Document search method with interactively employed distance graphics display |
US7284009B2 (en) * | 2002-12-13 | 2007-10-16 | Sun Microsystems, Inc. | System and method for command line prediction |
US20050004799A1 (en) * | 2002-12-31 | 2005-01-06 | Yevgenly Lyudovyk | System and method for a spoken language interface to a large database of changing records |
US6990224B2 (en) * | 2003-05-15 | 2006-01-24 | Federal Reserve Bank Of Atlanta | Method and system for communicating and matching electronic files for financial transactions |
KR20060120029A (ko) * | 2003-09-10 | 2006-11-24 | 뮤직매치, 인크. | 뮤직을 구매하고 플레이하는 시스템 및 방법 |
US7644076B1 (en) * | 2003-09-12 | 2010-01-05 | Teradata Us, Inc. | Clustering strings using N-grams |
US7325013B2 (en) * | 2004-04-15 | 2008-01-29 | Id3Man, Inc. | Database with efficient fuzzy matching |
US8874504B2 (en) * | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US7730012B2 (en) * | 2004-06-25 | 2010-06-01 | Apple Inc. | Methods and systems for managing data |
US7693856B2 (en) * | 2004-06-25 | 2010-04-06 | Apple Inc. | Methods and systems for managing data |
US8131674B2 (en) | 2004-06-25 | 2012-03-06 | Apple Inc. | Methods and systems for managing data |
US7305385B1 (en) * | 2004-09-10 | 2007-12-04 | Aol Llc | N-gram based text searching |
US7925658B2 (en) * | 2004-09-17 | 2011-04-12 | Actuate Corporation | Methods and apparatus for mapping a hierarchical data structure to a flat data structure for use in generating a report |
US7478081B2 (en) * | 2004-11-05 | 2009-01-13 | International Business Machines Corporation | Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system |
JP4314204B2 (ja) * | 2005-03-11 | 2009-08-12 | 株式会社東芝 | 文書管理方法、システム及びプログラム |
US7870480B1 (en) | 2005-03-14 | 2011-01-11 | Actuate Corporation | Methods and apparatus for storing and retrieving annotations accessible by a plurality of reports |
KR100622129B1 (ko) | 2005-04-14 | 2006-09-19 | 한국전자통신연구원 | 동적으로 변화하는 웹 페이지의 변조 점검 시스템 및 방법 |
US7991767B2 (en) * | 2005-04-29 | 2011-08-02 | International Business Machines Corporation | Method for providing a shared search index in a peer to peer network |
US7685106B2 (en) * | 2005-04-29 | 2010-03-23 | International Business Machines Corporation | Sharing of full text index entries across application boundaries |
US8700404B1 (en) | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US7805430B2 (en) * | 2005-12-22 | 2010-09-28 | Sap Ag | Evaluation of name prefix and suffix during a search |
US8307276B2 (en) * | 2006-05-19 | 2012-11-06 | Symantec Corporation | Distributed content verification and indexing |
US20080155399A1 (en) * | 2006-12-20 | 2008-06-26 | Yahoo! Inc. | System and method for indexing a document that includes a misspelled word |
WO2008120030A1 (en) * | 2007-04-02 | 2008-10-09 | Sobha Renaissance Information | Latent metonymical analysis and indexing [lmai] |
JP5224851B2 (ja) * | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
KR101615164B1 (ko) * | 2009-03-20 | 2016-04-26 | 삼성전자주식회사 | 엔-그램 기반의 질의 처리 장치 및 그 방법 |
WO2010141598A2 (en) * | 2009-06-02 | 2010-12-09 | Index Logic, Llc | Systematic presentation of the contents of one or more documents |
DE102009031872A1 (de) | 2009-07-06 | 2011-01-13 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher |
US8761512B1 (en) | 2009-12-03 | 2014-06-24 | Google Inc. | Query by image |
JP5418218B2 (ja) * | 2009-12-25 | 2014-02-19 | 富士通株式会社 | 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置 |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
JP5708117B2 (ja) * | 2011-03-24 | 2015-04-30 | カシオ計算機株式会社 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
WO2012150637A1 (ja) * | 2011-05-02 | 2012-11-08 | 富士通株式会社 | 抽出方法、情報処理方法、抽出プログラム、情報処理プログラム、抽出装置、および情報処理装置 |
US8694474B2 (en) * | 2011-07-06 | 2014-04-08 | Microsoft Corporation | Block entropy encoding for word compression |
US9218411B2 (en) * | 2012-08-07 | 2015-12-22 | International Business Machines Corporation | Incremental dynamic document index generation |
US9026522B2 (en) * | 2012-10-09 | 2015-05-05 | Verisign, Inc. | Searchable web whois |
US10318523B2 (en) | 2014-02-06 | 2019-06-11 | The Johns Hopkins University | Apparatus and method for aligning token sequences with block permutations |
US11282091B2 (en) * | 2016-09-30 | 2022-03-22 | Transitiv, Inc. | Systems, methods, and devices for dynamic page feed management |
JP2018121133A (ja) * | 2017-01-23 | 2018-08-02 | 京セラドキュメントソリューションズ株式会社 | ファクシミリ装置 |
US11030151B2 (en) * | 2017-03-29 | 2021-06-08 | AVAST Software s.r.o. | Constructing an inverted index |
US10459999B1 (en) * | 2018-07-20 | 2019-10-29 | Scrappycito, Llc | System and method for concise display of query results via thumbnails with indicative images and differentiating terms |
JP2023023191A (ja) * | 2021-08-04 | 2023-02-16 | シャープ株式会社 | 記憶方法、記憶システム、読取装置、及び画像処理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0773187A (ja) * | 1993-09-01 | 1995-03-17 | Hokkaido Nippon Denki Software Kk | 検索システム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4495566A (en) * | 1981-09-30 | 1985-01-22 | System Development Corporation | Method and means using digital data processing means for locating representations in a stored textual data base |
US5469354A (en) * | 1989-06-14 | 1995-11-21 | Hitachi, Ltd. | Document data processing method and apparatus for document retrieval |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5062142A (en) * | 1990-12-14 | 1991-10-29 | General Electric Company | Data processor producing a medial axis representation of an extended region |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5375235A (en) * | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5412807A (en) * | 1992-08-20 | 1995-05-02 | Microsoft Corporation | System and method for text searching using an n-ary search tree |
-
1995
- 1995-04-10 US US08/419,126 patent/US5706365A/en not_active Expired - Fee Related
-
1996
- 1996-04-10 DE DE69631457T patent/DE69631457T2/de not_active Expired - Lifetime
- 1996-04-10 JP JP53114696A patent/JP4162711B2/ja not_active Expired - Fee Related
- 1996-04-10 BR BR9606306A patent/BR9606306A/pt not_active Application Discontinuation
- 1996-04-10 WO PCT/US1996/004945 patent/WO1996032686A1/en active IP Right Grant
- 1996-04-10 AU AU54496/96A patent/AU713572B2/en not_active Ceased
- 1996-04-10 EP EP96911690A patent/EP0764305B1/en not_active Expired - Lifetime
- 1996-04-10 NZ NZ306268A patent/NZ306268A/en not_active IP Right Cessation
- 1996-04-10 ES ES96911690T patent/ES2214535T3/es not_active Expired - Lifetime
- 1996-12-09 NO NO965254A patent/NO965254L/no not_active Application Discontinuation
-
2006
- 2006-02-08 JP JP2006031590A patent/JP4559371B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0773187A (ja) * | 1993-09-01 | 1995-03-17 | Hokkaido Nippon Denki Software Kk | 検索システム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013030089A (ja) * | 2011-07-29 | 2013-02-07 | E-Jidai:Kk | 文書検索システムおよび文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO1996032686A1 (en) | 1996-10-17 |
JP4162711B2 (ja) | 2008-10-08 |
JP4559371B2 (ja) | 2010-10-06 |
DE69631457T2 (de) | 2004-09-16 |
BR9606306A (pt) | 1997-09-09 |
NO965254D0 (no) | 1996-12-09 |
NZ306268A (en) | 1998-05-27 |
AU5449696A (en) | 1996-10-30 |
AU713572B2 (en) | 1999-12-02 |
DE69631457D1 (de) | 2004-03-11 |
EP0764305A1 (en) | 1997-03-26 |
US5706365A (en) | 1998-01-06 |
EP0764305B1 (en) | 2004-02-04 |
NO965254L (no) | 1997-02-06 |
JPH10501912A (ja) | 1998-02-17 |
ES2214535T3 (es) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4559371B2 (ja) | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 | |
US6163775A (en) | Method and apparatus configured according to a logical table having cell and attributes containing address segments | |
US5542090A (en) | Text retrieval method and system using signature of nearby words | |
US8532384B2 (en) | Method of retrieving information from a digital image | |
JPH02271468A (ja) | データ処理方法 | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
KR100459832B1 (ko) | N-그램워드(n-gramword)분해원리를이용하여이식가능한문서를인덱싱하는시스템및방법 | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
KR101694179B1 (ko) | 모음 제거 기반 인덱스 생성 방법 및 장치 | |
US5682543A (en) | Dictionary editing apparatus | |
CA2192435C (en) | System and method for portable document indexing using n-gram word decomposition | |
JP2000231560A (ja) | 文書自動分類方式 | |
JP3958722B2 (ja) | イメージデータ文書検索システム | |
JPH06309368A (ja) | 文書検索装置 | |
JPH0991297A (ja) | 文字列検索方法及び装置 | |
JP2990314B2 (ja) | データ管理装置 | |
JPH0954781A (ja) | 文書検索システム | |
JPH04205561A (ja) | 用語辞書による文書検索システム | |
JPH10187508A (ja) | 電子ファイリング方法及び装置並びに記憶媒体 | |
JPH09138809A (ja) | 全文検索方法 | |
JPH10187516A (ja) | 電子ファイリング方法及び装置並びに記憶媒体 | |
JPH0991304A (ja) | 情報検索方法、情報検索システム及び情報検索用記憶媒体 | |
JP2002351881A (ja) | 構造化文書格納検索装置および構造化文書格納検索プログラム | |
JPH08194702A (ja) | 情報処理装置及びその文字キャッシュ方法 | |
JPH0721212A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080205 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080501 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090204 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090209 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20090217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090507 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091113 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100722 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |