JPH06215029A - テキスト検索方法 - Google Patents
テキスト検索方法Info
- Publication number
- JPH06215029A JPH06215029A JP5169333A JP16933393A JPH06215029A JP H06215029 A JPH06215029 A JP H06215029A JP 5169333 A JP5169333 A JP 5169333A JP 16933393 A JP16933393 A JP 16933393A JP H06215029 A JPH06215029 A JP H06215029A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- index
- inquiry
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 近接探索に必要な処理時間を短縮できるテキ
スト探索方法を提供する。 【構成】 問い合わせ言葉を形式化する(ステップ2
0)。問い合わせ言葉の内基準問い合わせ言葉として1
つ選択する(ステップ21)。基準問い合わせ言葉を除
く問い合わせ言葉にたいして、ビットベクトルを作成す
る(ステップ23)。基準問い合わせ言葉に一致するイ
ンディクスワードのサインを比較し、一致するインディ
クスワードのサインと、問い合わせ言葉のビットベクト
ルとを比較する(ステップ25)。問い合わせ言葉にセ
ットされたビットベクトルとインディクスワードにセッ
トされたビットが一致すれば、ドキュメントをヒットリ
ストに追加する(ステップ26)。集積された全ドキュ
メントに対して、ステップ25及びステップ26を繰り
返す(ステップ28)。
スト探索方法を提供する。 【構成】 問い合わせ言葉を形式化する(ステップ2
0)。問い合わせ言葉の内基準問い合わせ言葉として1
つ選択する(ステップ21)。基準問い合わせ言葉を除
く問い合わせ言葉にたいして、ビットベクトルを作成す
る(ステップ23)。基準問い合わせ言葉に一致するイ
ンディクスワードのサインを比較し、一致するインディ
クスワードのサインと、問い合わせ言葉のビットベクト
ルとを比較する(ステップ25)。問い合わせ言葉にセ
ットされたビットベクトルとインディクスワードにセッ
トされたビットが一致すれば、ドキュメントをヒットリ
ストに追加する(ステップ26)。集積された全ドキュ
メントに対して、ステップ25及びステップ26を繰り
返す(ステップ28)。
Description
【0001】
【産業上の利用分野】本発明は、テキストの検索方法に
関し、特に隣接するか近接するワード(WORD)のサインを
用いて、ワードあるいは問い合わせ言葉を検索する方法
に関する。
関し、特に隣接するか近接するワード(WORD)のサインを
用いて、ワードあるいは問い合わせ言葉を検索する方法
に関する。
【0002】
【従来の技術】テキスト検索システムを改良するため、
かなりの関心が払われている。一般に、テキスト検索シ
ステムは、集積されたドキュメントあるいはドキュメン
トのセットの中で、個々のワードの位置情報を提供す
る。この位置情報は、通常、逆索引(Inverted Index)の
中に記憶されている。この位置情報は、例えば、そのワ
ードが位置するドキュメントの先頭からのワードの個数
によって表されるドキュメントの先頭からのワードのオ
フセットであり、セクションあるいはパラグラフの先頭
からのオフセット、セクション番号、文章番号、または
他のこのような位置を表すインディクスである。画像と
テキストの両方を扱うシステムでは、この位置情報は、
ページ番号、このページ内のX 、Y 座標、高さ及び長さ
等によって表現される。
かなりの関心が払われている。一般に、テキスト検索シ
ステムは、集積されたドキュメントあるいはドキュメン
トのセットの中で、個々のワードの位置情報を提供す
る。この位置情報は、通常、逆索引(Inverted Index)の
中に記憶されている。この位置情報は、例えば、そのワ
ードが位置するドキュメントの先頭からのワードの個数
によって表されるドキュメントの先頭からのワードのオ
フセットであり、セクションあるいはパラグラフの先頭
からのオフセット、セクション番号、文章番号、または
他のこのような位置を表すインディクスである。画像と
テキストの両方を扱うシステムでは、この位置情報は、
ページ番号、このページ内のX 、Y 座標、高さ及び長さ
等によって表現される。
【0003】この位置情報は、2つの目的にために使用
される。それは、お互いに近接する2つもしくはそれ以
上の言葉の検索を効率よく行うためである。インディク
ス内にワードの近接情報がなければ、ドキュメント内で
2つのワードがどこに含まれるかを見つけだすために、
ドキュメントの最初から検索しなければいけないからで
ある。
される。それは、お互いに近接する2つもしくはそれ以
上の言葉の検索を効率よく行うためである。インディク
ス内にワードの近接情報がなければ、ドキュメント内で
2つのワードがどこに含まれるかを見つけだすために、
ドキュメントの最初から検索しなければいけないからで
ある。
【0004】もう1つの目的は、そのドキュメントがな
ぜ検索されたのかその理由についてユーザーにフィード
バックすることである。それは、ドキュメントの一部
を、ドキュメントが選択されることになった言葉ととも
にユーザーに示すことによって出来る。位置情報は、ド
キュメント全体を読むことなく検索したいテキストを見
つけて表示及び強調することを可能にするものである。
ぜ検索されたのかその理由についてユーザーにフィード
バックすることである。それは、ドキュメントの一部
を、ドキュメントが選択されることになった言葉ととも
にユーザーに示すことによって出来る。位置情報は、ド
キュメント全体を読むことなく検索したいテキストを見
つけて表示及び強調することを可能にするものである。
【0005】
【発明が解決しようとする課題】しかしながら、位置情
報は逆索引にしめる中で最も大きなものの一つでありう
るが、テキスト検索システムにおいて索引検索のオーバ
ヘッドを最小にするのが望ましい。しかし、従来では、
位置情報の長いリストのマージ処理が必要となり、この
処理の計算が広範囲に亙ることがあり問題であった。
報は逆索引にしめる中で最も大きなものの一つでありう
るが、テキスト検索システムにおいて索引検索のオーバ
ヘッドを最小にするのが望ましい。しかし、従来では、
位置情報の長いリストのマージ処理が必要となり、この
処理の計算が広範囲に亙ることがあり問題であった。
【0006】そこで、本発明の目的は、索引検索のオー
バーヘッドを極力抑え、近接検索のための計算を減少さ
せる方法を提供することである。
バーヘッドを極力抑え、近接検索のための計算を減少さ
せる方法を提供することである。
【0007】本発明の他の目的は、ドキュメントに含ま
れる一つかそれ以上のワードを効率的に検索できるテキ
スト検索方法を提供することである。
れる一つかそれ以上のワードを効率的に検索できるテキ
スト検索方法を提供することである。
【0008】本発明の他の目的は、なぜドキュメントが
選択されたのかそれについてユーザーに情報を提供でき
るテキスト検索方法を提供することである。
選択されたのかそれについてユーザーに情報を提供でき
るテキスト検索方法を提供することである。
【0009】本発明の他の目的は、ドキュメントに含ま
れる一つかそれ以上のワードを効率的に検索できるテキ
スト検索方法を提供することである。
れる一つかそれ以上のワードを効率的に検索できるテキ
スト検索方法を提供することである。
【0010】本発明の他の目的は、検索したい各ワード
に対して、最初から検索することなく、近接する1つ以
上のワードを効率的に検索できるテキスト検索方法を提
供することである。
に対して、最初から検索することなく、近接する1つ以
上のワードを効率的に検索できるテキスト検索方法を提
供することである。
【0011】本発明の他の目的は、改良したもしくは最
小の逆索引操作あるいは逆索引構成が可能なテキスト検
索方法を提供することである。
小の逆索引操作あるいは逆索引構成が可能なテキスト検
索方法を提供することである。
【0012】本発明の他の目的は、索引検索のオーバー
ヘッドをそれほど増大させることなく、近接検索を行う
ために必要な計算を減少させることのできるテキスト検
索方法を提供することである。
ヘッドをそれほど増大させることなく、近接検索を行う
ために必要な計算を減少させることのできるテキスト検
索方法を提供することである。
【0013】本発明の他の目的は、ドキュメントあるい
は集積されたドキュメントのなかで、互いに近接する2
つもしくはそれ以上のワードを検索する近接問い合わせ
を実行できるテキスト検索方法を提供することである。
は集積されたドキュメントのなかで、互いに近接する2
つもしくはそれ以上のワードを検索する近接問い合わせ
を実行できるテキスト検索方法を提供することである。
【0014】
【課題を解決するための手段】上記目的を達成するため
に本発明に係わる集積されたドキュメント内で複数の問
い合わせ言葉を検索する方法は、前記集積されたドキュ
メント内の各言葉に対して、隣接する幾つかの言葉を選
択し、所定の特徴に基づいてこの選択された各言葉を表
すサインとしての言葉サインを作成し、この作成された
言葉サインからインディクスを作成し、前記複数の問い
合わせ言葉に対して、これらの問い合わせ言葉の1つを
基準言葉として選択し、この基準言葉を除く複数の問い
合わせ言葉に対して、前記所定の特徴に基づいて、検索
のための問い合わせサインを作成し、前記基準言葉に対
して前記インディクスを検索し、前記検索されたインデ
ィクスの言葉サインと前記問い合わせサインとを比較
し、前記検索されたインディクスの言葉サインと前記問
い合わせサインとが一致したとき、その旨通知する。
に本発明に係わる集積されたドキュメント内で複数の問
い合わせ言葉を検索する方法は、前記集積されたドキュ
メント内の各言葉に対して、隣接する幾つかの言葉を選
択し、所定の特徴に基づいてこの選択された各言葉を表
すサインとしての言葉サインを作成し、この作成された
言葉サインからインディクスを作成し、前記複数の問い
合わせ言葉に対して、これらの問い合わせ言葉の1つを
基準言葉として選択し、この基準言葉を除く複数の問い
合わせ言葉に対して、前記所定の特徴に基づいて、検索
のための問い合わせサインを作成し、前記基準言葉に対
して前記インディクスを検索し、前記検索されたインデ
ィクスの言葉サインと前記問い合わせサインとを比較
し、前記検索されたインディクスの言葉サインと前記問
い合わせサインとが一致したとき、その旨通知する。
【0015】例えば、集積されたドキュメント内で各言
葉に対する言葉サインは、各言葉に対して隣接する予め
決められた個数の言葉に対してビットベクトルを作成す
ることによって作成する出来る。この作成されたビット
ベクトルは、結合されてその言葉のサインとなる。隣接
する言葉の数は、問い合わせ言葉の数−1とすることが
出来る。また、隣接する言葉は前、後、あるいは前後い
ずれであっても良い。
葉に対する言葉サインは、各言葉に対して隣接する予め
決められた個数の言葉に対してビットベクトルを作成す
ることによって作成する出来る。この作成されたビット
ベクトルは、結合されてその言葉のサインとなる。隣接
する言葉の数は、問い合わせ言葉の数−1とすることが
出来る。また、隣接する言葉は前、後、あるいは前後い
ずれであっても良い。
【0016】各隣接する言葉に対して作成されるビット
ベクトルは、各言葉にハッシュ関数を適用することによ
って作成することが出来る。この言葉は、ワード、言語
文字、漢字等であっても良い。また、言葉の1つあるい
はそれ以上の形態学上の特徴を用いても言葉サインを作
成することが出来る。
ベクトルは、各言葉にハッシュ関数を適用することによ
って作成することが出来る。この言葉は、ワード、言語
文字、漢字等であっても良い。また、言葉の1つあるい
はそれ以上の形態学上の特徴を用いても言葉サインを作
成することが出来る。
【0017】
【作用】本発明では、各言葉に対して、隣接する幾つか
の言葉を選択して、所定の特徴に基づいて、この選択さ
れた各言葉の言葉サインを作成して、この作成された言
葉サインを含むインディクスを作成する。複数の問い合
わせ言葉に対して、これらの問い合わせ言葉の1つを基
準言葉として選択し、この基準言葉を除く複数の問い合
わせに対して、上記所定の特徴に基づいて、問い合わせ
言葉のためのサインを作成する。上記基準言葉とインデ
ィクスとを比較し、一致するインディクスに対して、こ
のインディクスと、問い合わせ言葉ためのサインと比較
して一致すれば、検索対象の候補となる。
の言葉を選択して、所定の特徴に基づいて、この選択さ
れた各言葉の言葉サインを作成して、この作成された言
葉サインを含むインディクスを作成する。複数の問い合
わせ言葉に対して、これらの問い合わせ言葉の1つを基
準言葉として選択し、この基準言葉を除く複数の問い合
わせに対して、上記所定の特徴に基づいて、問い合わせ
言葉のためのサインを作成する。上記基準言葉とインデ
ィクスとを比較し、一致するインディクスに対して、こ
のインディクスと、問い合わせ言葉ためのサインと比較
して一致すれば、検索対象の候補となる。
【0018】このように、隣接する幾つかの言葉の言葉
サインと問い合わせ言葉のためのサインとを比較するの
で、近接検索のオーバーヘッドを減少させて処理が高速
になる。
サインと問い合わせ言葉のためのサインとを比較するの
で、近接検索のオーバーヘッドを減少させて処理が高速
になる。
【0019】
【実施例】以下、本発明の実施例を説明する。本発明で
は、近接問い合わせを可能にするため、ハッシュ関数を
適用して近接するワード(WORD) のサインを位置情報と
して用いる。本発明の方法は、ドキュメント内でワード
の発生するリスト用いて行う従来の方法に代わって近接
検索を行う方法であって、近接するワードにハッシュ関
数を適用して得られるハッシュ値を持つ逆索引を用いて
行う方法である。
は、近接問い合わせを可能にするため、ハッシュ関数を
適用して近接するワード(WORD) のサインを位置情報と
して用いる。本発明の方法は、ドキュメント内でワード
の発生するリスト用いて行う従来の方法に代わって近接
検索を行う方法であって、近接するワードにハッシュ関
数を適用して得られるハッシュ値を持つ逆索引を用いて
行う方法である。
【0020】選択されたあるワードに近接する各ワード
に対してハッシュ関数を適用して、ハッシュ値を作成
し、これらのハッシュ値を結合してインディクスを作成
するものであり、この方法は、広範囲に適用することが
できるが、その一つとして、CD−ROMや大きなデー
タベースから情報を取り出して、処理するような場合に
用いることができる。
に対してハッシュ関数を適用して、ハッシュ値を作成
し、これらのハッシュ値を結合してインディクスを作成
するものであり、この方法は、広範囲に適用することが
できるが、その一つとして、CD−ROMや大きなデー
タベースから情報を取り出して、処理するような場合に
用いることができる。
【0021】本発明の方法は、例えば、文字(CHARACTE
R)に基づく表現でなく、ワードの形をパラメータ化して
用いることが出来るし、更に、漢字、片仮名、平仮名等
の象形文字で表現される言語に対し、ハッシュ関数が適
用可能なシンボルを含むような画像であれば適用可能で
ある。本実施例では、各隣接するワードに対して作成さ
れたハッシュ値の和をとってワードのサインを評価する
ものであるが、隣接するワードが表れるその順番をチェ
ックすることによって、近接問い合わせやテキスト検索
をより正確に行うことが出来る。
R)に基づく表現でなく、ワードの形をパラメータ化して
用いることが出来るし、更に、漢字、片仮名、平仮名等
の象形文字で表現される言語に対し、ハッシュ関数が適
用可能なシンボルを含むような画像であれば適用可能で
ある。本実施例では、各隣接するワードに対して作成さ
れたハッシュ値の和をとってワードのサインを評価する
ものであるが、隣接するワードが表れるその順番をチェ
ックすることによって、近接問い合わせやテキスト検索
をより正確に行うことが出来る。
【0022】本発明は、テキストデータベースで使用さ
れる逆索引に、直接の位置情報の代わりに、近接するワ
ードに対して作成されたハッシュ値が記憶される。この
ハッシュ値は、インディクスがキーとして作成されるワ
ードに隣接する各ワードに対して、ハッシュ関数が適用
されて、作成される。このハッシュ値が、互いに結合さ
れる。これによって、位置情報の複数のリストをマージ
する必要がなくなり、近接検索の処理時間を短縮するこ
とができる。代わりに、数個のリストのなかで最も短い
ものが問い合わせフレーズのハッシュ値と比較される。
れる逆索引に、直接の位置情報の代わりに、近接するワ
ードに対して作成されたハッシュ値が記憶される。この
ハッシュ値は、インディクスがキーとして作成されるワ
ードに隣接する各ワードに対して、ハッシュ関数が適用
されて、作成される。このハッシュ値が、互いに結合さ
れる。これによって、位置情報の複数のリストをマージ
する必要がなくなり、近接検索の処理時間を短縮するこ
とができる。代わりに、数個のリストのなかで最も短い
ものが問い合わせフレーズのハッシュ値と比較される。
【0023】図1は、テキスト内の各言葉に対してサイ
ンを作成する処理を図示したものである。図1に示すよ
うに、ドキュメント10のテキスト11内のインディク
スがキーとして作成される各ワード(以下、インディク
スワード14)に対して、所定の規則に従って、W個の
ワードを選択し、このW個のワードの各ワードに対し
て、ワードベクトルを作成する。
ンを作成する処理を図示したものである。図1に示すよ
うに、ドキュメント10のテキスト11内のインディク
スがキーとして作成される各ワード(以下、インディク
スワード14)に対して、所定の規則に従って、W個の
ワードを選択し、このW個のワードの各ワードに対し
て、ワードベクトルを作成する。
【0024】W1 、W2 、・・・、WW で示すW個のワ
ードの各ワードに対してハッシュ関数16が適用され
る。この個数Wは、任意に選ぶことができるが、このW
が大きくなるなればなるほど、1個のワードに隣接した
ワードとして認識されるワードの範囲が広くなり、近接
するワードを細かく分離して認識することが出来なくな
る。
ードの各ワードに対してハッシュ関数16が適用され
る。この個数Wは、任意に選ぶことができるが、このW
が大きくなるなればなるほど、1個のワードに隣接した
ワードとして認識されるワードの範囲が広くなり、近接
するワードを細かく分離して認識することが出来なくな
る。
【0025】各ワード(W1 、W2 、・・・、WW )に
対して、ハッシュ関数が適用されて、ワードベクトル
(ワードベクトル1 、ワードベクトル2 、・・・・、ワ
ードベクトルW )が作成される。このとき、インディク
スワードはキー部となるので、インディクスワード14
に対してハッシュ関数を適用する必要はない。
対して、ハッシュ関数が適用されて、ワードベクトル
(ワードベクトル1 、ワードベクトル2 、・・・・、ワ
ードベクトルW )が作成される。このとき、インディク
スワードはキー部となるので、インディクスワード14
に対してハッシュ関数を適用する必要はない。
【0026】この方法だと、このワードベクトル(ワー
ドベクトル1 、ワードベクトル2 、・・・・、ワードベ
クトルW )からインディクスワード14のサインを形成
するので、ワードベクトルはワード数Wに依存する。
ドベクトル1 、ワードベクトル2 、・・・・、ワードベ
クトルW )からインディクスワード14のサインを形成
するので、ワードベクトルはワード数Wに依存する。
【0027】インディクスワード14のサイン(Signatu
re) として形成されるインディクスのワードベクトル
は、位置情報を表すためのLビットの長さを持つ。B
は、Lビット長のビットベクトル内で、1ワード当たり
のビット数である。Wは、インディクスを作成する際に
選択された、インディクスワード14に隣接するワード
の個数である。本実施例では、ワード(W1 、W2 、・
・・、WW )は、インディクスワード14に後続するワ
ードであるが、このインディクスワード14に対して隣
接したワードとして選択されるワードは、インディクス
ワード14に先行するワード、あるいは先行及び後続す
るワードでも良い。このワードの選択方法は、それぞれ
異なる利点を持つ。
re) として形成されるインディクスのワードベクトル
は、位置情報を表すためのLビットの長さを持つ。B
は、Lビット長のビットベクトル内で、1ワード当たり
のビット数である。Wは、インディクスを作成する際に
選択された、インディクスワード14に隣接するワード
の個数である。本実施例では、ワード(W1 、W2 、・
・・、WW )は、インディクスワード14に後続するワ
ードであるが、このインディクスワード14に対して隣
接したワードとして選択されるワードは、インディクス
ワード14に先行するワード、あるいは先行及び後続す
るワードでも良い。このワードの選択方法は、それぞれ
異なる利点を持つ。
【0028】上述したパラメータ(L、B、W)は、L
ビットの長さのビットベクトルが、”0”と”1”の値
をバランス良くとるように選択しなければいけない。そ
うすることによって、このビットベクトルに、より多く
の情報を持たせることが出来る。Lは、大きくすればそ
れだけ、インディクス処理のオーバーヘッドが大きくな
るが、誤ったものをのを検索対象にすることが少なくな
る。
ビットの長さのビットベクトルが、”0”と”1”の値
をバランス良くとるように選択しなければいけない。そ
うすることによって、このビットベクトルに、より多く
の情報を持たせることが出来る。Lは、大きくすればそ
れだけ、インディクス処理のオーバーヘッドが大きくな
るが、誤ったものをのを検索対象にすることが少なくな
る。
【0029】L、B、Wの制約の中でビットベクトルに
充分な情報を記憶させるため、Bが大きくなると、ハッ
シュ値の範囲が大きくなり、誤ったものを検索対象にす
ることが少なくなる。また、Bを小さくすればそれだ
け、Lを小さくすることができるが、Lを小さくする代
わりにWを大きくすることも出来る。
充分な情報を記憶させるため、Bが大きくなると、ハッ
シュ値の範囲が大きくなり、誤ったものを検索対象にす
ることが少なくなる。また、Bを小さくすればそれだ
け、Lを小さくすることができるが、Lを小さくする代
わりにWを大きくすることも出来る。
【0030】Wが小さくなれば、Lを大きくするかある
いは、Bを小さくするする必要はそれほどないが、W
は、近接問い合わせを行うことのできるワードの数を制
限するものであるので、例えば、Wが4であると、ある
ワードから6ワード以内にあるワードの検索を行うこと
が出来なくなる。
いは、Bを小さくするする必要はそれほどないが、W
は、近接問い合わせを行うことのできるワードの数を制
限するものであるので、例えば、Wが4であると、ある
ワードから6ワード以内にあるワードの検索を行うこと
が出来なくなる。
【0031】また、Wが大きくなると、Wの範囲には入
るが、検索したい範囲外のものとなり、誤ったものをの
を検索対象にすることが多くなる。
るが、検索したい範囲外のものとなり、誤ったものをの
を検索対象にすることが多くなる。
【0032】ハッシュ関数は、良く入力される入力(Ty
pical Input )に対しては概ね、全体の範囲をカバーす
るような特性の良いものでなければいけない。
pical Input )に対しては概ね、全体の範囲をカバーす
るような特性の良いものでなければいけない。
【0033】インディクスワードのサインの形成を完成
するために、上述したW個のビットベクトルが結合さ
れ、インディクスワードに隣接するW個のワードの並び
を表すサインが形成される。本実施例では、図1に示す
ように、W個のワードベクトル(ワードベクトル1 、ワ
ードベクトル2 、・・・・、ワードベクトルW )に対し
て、論理ORをとって、これらを結合する。勿論、他の
方法を用いて、ワードベクトルを結合することが出来
る。
するために、上述したW個のビットベクトルが結合さ
れ、インディクスワードに隣接するW個のワードの並び
を表すサインが形成される。本実施例では、図1に示す
ように、W個のワードベクトル(ワードベクトル1 、ワ
ードベクトル2 、・・・・、ワードベクトルW )に対し
て、論理ORをとって、これらを結合する。勿論、他の
方法を用いて、ワードベクトルを結合することが出来
る。
【0034】この結合によって作成されたビットベクト
ル(以下、インディクスワードのサイン)は、ドキュメ
ント10内でのワードの並びを表す位置情報として、イ
ンディクスとなる。
ル(以下、インディクスワードのサイン)は、ドキュメ
ント10内でのワードの並びを表す位置情報として、イ
ンディクスとなる。
【0035】勿論、インディクスワードを作成する方法
は、本実施例に限定されることなく、適用することが出
来る。例えば、隣接するワードの形態的(morphologica
l property) な特徴に基づいてワードのサインを作成
し、これらを結合してインディクスワードのサインを作
成することが出来る。例えば、形態的なワードの特性を
定義する技術は、例えば、係属中であり米国特許庁へ特
許申請をしている(1991年11月19日に提出)申
請書、serial no 07/794,191に記載されており、本申請
書は譲渡されたので、参考のために引用する。
は、本実施例に限定されることなく、適用することが出
来る。例えば、隣接するワードの形態的(morphologica
l property) な特徴に基づいてワードのサインを作成
し、これらを結合してインディクスワードのサインを作
成することが出来る。例えば、形態的なワードの特性を
定義する技術は、例えば、係属中であり米国特許庁へ特
許申請をしている(1991年11月19日に提出)申
請書、serial no 07/794,191に記載されており、本申請
書は譲渡されたので、参考のために引用する。
【0036】抽出された形態的な特徴は、所望の方法で
結合することが出来る。例えば、形態的な特徴がワード
の高さと幅であるとすると、上述したインディクスワー
ドにに隣接する所定の数のワードの高さ及び幅の和をと
ることによって、インディクスワードのサインを作成す
ることが出来る。
結合することが出来る。例えば、形態的な特徴がワード
の高さと幅であるとすると、上述したインディクスワー
ドにに隣接する所定の数のワードの高さ及び幅の和をと
ることによって、インディクスワードのサインを作成す
ることが出来る。
【0037】このようにしてドキュメント10内の各イ
ンディクスワードに対してサインが作成された後、所定
の数の問い合わせ言葉が、ドキュメント内に現れるかど
うかを決定し、またドキュメント内に現れるならば、そ
の位置を決定するため、近接検索が実行される。
ンディクスワードに対してサインが作成された後、所定
の数の問い合わせ言葉が、ドキュメント内に現れるかど
うかを決定し、またドキュメント内に現れるならば、そ
の位置を決定するため、近接検索が実行される。
【0038】図2は、近接検索を行うための処理フロー
である。まず、ステップ20において、近接問い合わせ
言葉を形式化する。この形式化された言葉は、次に示す
フォーマットである。
である。まず、ステップ20において、近接問い合わせ
言葉を形式化する。この形式化された言葉は、次に示す
フォーマットである。
【0039】q1、q2、q3 、・・、q n 、d q1、q2、q3 、・・・q n :問い合わせ言葉 d :問い合わせ言葉であるq1、q2、q3 、・・、q n が
存在するかどうか検索する範囲である。
存在するかどうか検索する範囲である。
【0040】問い合わせ言葉の数 n、及び dは上述した
Wよりも小さくなければいけない。問い合わせ言葉の形
式化は本実施例に限定されることなく、他のフォーマッ
トを使用することが可能である。
Wよりも小さくなければいけない。問い合わせ言葉の形
式化は本実施例に限定されることなく、他のフォーマッ
トを使用することが可能である。
【0041】ステップ21において、上述した問い合わ
せ言葉:q1、q2、q3 、・・、q nの何れか一つを基準
問い合わせ言葉(reference term) として選択する。例
えば、q1を基準問い合わせ言葉として選択する。この基
準問い合わせ言葉は、これらの問い合わせ言葉の中から
任意に選択することができが、出来れば、集積されたド
キュメントのなかで現れる数が最小となる問い合わせ言
葉を選択するのが良い。
せ言葉:q1、q2、q3 、・・、q nの何れか一つを基準
問い合わせ言葉(reference term) として選択する。例
えば、q1を基準問い合わせ言葉として選択する。この基
準問い合わせ言葉は、これらの問い合わせ言葉の中から
任意に選択することができが、出来れば、集積されたド
キュメントのなかで現れる数が最小となる問い合わせ言
葉を選択するのが良い。
【0042】q1のサインと一致するインディクスが位置
情報リスト内で検索される。それから、ステップ23に
おいて、基準問い合わせ言葉(reference term) q1を除
く問い合わせ言葉にたいして、上述した方法によりビッ
トベクトルを作成する。
情報リスト内で検索される。それから、ステップ23に
おいて、基準問い合わせ言葉(reference term) q1を除
く問い合わせ言葉にたいして、上述した方法によりビッ
トベクトルを作成する。
【0043】ステップ25において、この問い合わせ言
葉のビットベクトルが位置情報のインディクスのなか
で、q1のサインと一致するワードインディクスのサイン
と比較する。
葉のビットベクトルが位置情報のインディクスのなか
で、q1のサインと一致するワードインディクスのサイン
と比較する。
【0044】この問い合わせ言葉のビットベクトルにセ
ットされたビットとワードインディクスのサインにセッ
トされたビットが一致すれば、ステップ26において、
そのドキュメントが潜在的にヒット(即ち、検索の対象
外である可能性がある)したと判断し、そのドキュメン
トを識別するための識別子を潜在的なヒットのリストに
付加する。
ットされたビットとワードインディクスのサインにセッ
トされたビットが一致すれば、ステップ26において、
そのドキュメントが潜在的にヒット(即ち、検索の対象
外である可能性がある)したと判断し、そのドキュメン
トを識別するための識別子を潜在的なヒットのリストに
付加する。
【0045】近接検索の条件を満足するドキュメントを
リストすることのみが、近接検索の目的であれば、近接
検索の条件を満足するドキュメントが見つかれば、次の
インディクスワードのサインを検索して、q1を含む次の
ドキュメントを検索する。
リストすることのみが、近接検索の目的であれば、近接
検索の条件を満足するドキュメントが見つかれば、次の
インディクスワードのサインを検索して、q1を含む次の
ドキュメントを検索する。
【0046】ステップ28において、集積されたドキュ
メント内で全インディクスが検索されるまで、ステップ
25及びステップ26を繰り返し実行する。
メント内で全インディクスが検索されるまで、ステップ
25及びステップ26を繰り返し実行する。
【0047】上述したルックアップ処理が終了すると、
検索したい近接するワードの組合せを持つものとして確
実ではないが、可能性のあるドキュメントのリストが得
られる。このドキュメントのリストは、アプリケーショ
ンの要求に応じて渡すことも出来る。つまり、正確に検
索したい場合は、リストに含まれるドキュメントから所
望のドキュメントのみを検索するために、ドキュメント
を調べることが出来る。
検索したい近接するワードの組合せを持つものとして確
実ではないが、可能性のあるドキュメントのリストが得
られる。このドキュメントのリストは、アプリケーショ
ンの要求に応じて渡すことも出来る。つまり、正確に検
索したい場合は、リストに含まれるドキュメントから所
望のドキュメントのみを検索するために、ドキュメント
を調べることが出来る。
【0048】ビットベクトルは、所定のワードの組合せ
を持つドキュメントが存在するかどうかについての情報
を与えるものであるが、ドキュメント内でそのベクトル
がどこに位置するのかについての情報は殆ど与えないの
で、ユーザーが、問い合わせの結果ヒットしたものの中
から更にヒットの絞り込みを指示できるようなフィード
バックを与えるために、対象外のものを除外するのと同
様に、テキスト自体を検索する。
を持つドキュメントが存在するかどうかについての情報
を与えるものであるが、ドキュメント内でそのベクトル
がどこに位置するのかについての情報は殆ど与えないの
で、ユーザーが、問い合わせの結果ヒットしたものの中
から更にヒットの絞り込みを指示できるようなフィード
バックを与えるために、対象外のものを除外するのと同
様に、テキスト自体を検索する。
【0049】本発明による方法は、従来による方法に比
べて、近接検索において比較処理回数が少なくなる。本
発明の近接検索における比較処理回数のオーダーは、O
(max(min(集積されたドキュメント内でのq i の使用頻
度)),N*log( 集積されたドキュメント内でのユニークな
ワード数))である。max の2番目の項は、集積された
ドキュメント内でのqi と 一致する全てのインディク
スワードを検索するために要するコストを表している。
N は、問い合わせの個数である。
べて、近接検索において比較処理回数が少なくなる。本
発明の近接検索における比較処理回数のオーダーは、O
(max(min(集積されたドキュメント内でのq i の使用頻
度)),N*log( 集積されたドキュメント内でのユニークな
ワード数))である。max の2番目の項は、集積された
ドキュメント内でのqi と 一致する全てのインディク
スワードを検索するために要するコストを表している。
N は、問い合わせの個数である。
【0050】一方、従来の方法では、最悪の場合は、各
位置情報を最低1回はチェックしなければならない。ワ
ードが範囲内にあれば、n 回各位置情報をチェックしな
ければならない。従って、従来の方法での最悪の場合の
近接検索において比較処理回数のオーダーは、O(Sum(集
積されたドキュメント内での qiの使用頻度:i=1,・・,
n)+n*log(集積されたドキュメント内でのユニークな
ワード数))となる。
位置情報を最低1回はチェックしなければならない。ワ
ードが範囲内にあれば、n 回各位置情報をチェックしな
ければならない。従って、従来の方法での最悪の場合の
近接検索において比較処理回数のオーダーは、O(Sum(集
積されたドキュメント内での qiの使用頻度:i=1,・・,
n)+n*log(集積されたドキュメント内でのユニークな
ワード数))となる。
【0051】このように、本発明は、従来に比べて、近
接検索における比較処理回数のオーダーが少なくなり、
検索時間が短縮される。
接検索における比較処理回数のオーダーが少なくなり、
検索時間が短縮される。
【0052】
【発明の効果】以上説明したように本発明では、隣接す
る幾つかの言葉の言葉サインと問い合わせ言葉のための
サインとを比較するので、近接検索のオーバーヘッドを
減少させて処理を高速にすることが出来る。
る幾つかの言葉の言葉サインと問い合わせ言葉のための
サインとを比較するので、近接検索のオーバーヘッドを
減少させて処理を高速にすることが出来る。
【図1】テキスト内の各言葉に対してサインを作成する
処理を示す図である。
処理を示す図である。
【図2】近接検索を行うための処理フローを示すフロー
チャートである。
チャートである。
10 ドキュメント 11 テキスト 14 ワードインディクス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マイケル ジェイ.バーバリノ アメリカ合衆国 カリフォルニア州 94038 モス ビーチ ピー.オー.ボッ クス 853
Claims (1)
- 【請求項1】 集積されたドキュメント内で複数の問い
合わせ言葉を検索する方法において、 前記集積されたドキュメント内の各言葉に対して、隣接
する幾つかの言葉を選択し、所定の特徴に基づいてこの
選択された各言葉を表すサインとしての言葉サインを作
成し、この作成された言葉サインからインディクスを作
成し、 前記複数の問い合わせ言葉に対して、これらの問い合わ
せ言葉の1つを基準言葉として選択し、この基準言葉を
除く複数の問い合わせ言葉に対して、前記所定の特徴に
基づいて、検索のための問い合わせサインを作成し、 前記基準言葉に対して前記インディクスを検索し、 前記検索されたインディクスの言葉サインと前記問い合
わせサインとを比較し、 前記検索されたインディクスの言葉サインと前記問い合
わせサインとが一致したとき、その旨通知する、 テキスト検索方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US98853792A | 1992-12-10 | 1992-12-10 | |
US988537 | 1992-12-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06215029A true JPH06215029A (ja) | 1994-08-05 |
JP3132738B2 JP3132738B2 (ja) | 2001-02-05 |
Family
ID=25534230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05169333A Expired - Fee Related JP3132738B2 (ja) | 1992-12-10 | 1993-07-08 | テキスト検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5542090A (ja) |
JP (1) | JP3132738B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6741985B2 (en) | 2001-03-12 | 2004-05-25 | International Business Machines Corporation | Document retrieval system and search method using word set and character look-up tables |
WO2009063925A1 (ja) * | 2007-11-15 | 2009-05-22 | Nec Corporation | 文書管理・検索システムおよび文書の管理・検索方法 |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5812882A (en) * | 1994-10-18 | 1998-09-22 | Lanier Worldwide, Inc. | Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments |
JP3545824B2 (ja) * | 1995-02-21 | 2004-07-21 | 富士通株式会社 | データ検索装置 |
US5778361A (en) * | 1995-09-29 | 1998-07-07 | Microsoft Corporation | Method and system for fast indexing and searching of text in compound-word languages |
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
US5898836A (en) | 1997-01-14 | 1999-04-27 | Netmind Services, Inc. | Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures |
US6374250B2 (en) * | 1997-02-03 | 2002-04-16 | International Business Machines Corporation | System and method for differential compression of data from a plurality of binary sources |
US6167397A (en) | 1997-09-23 | 2000-12-26 | At&T Corporation | Method of clustering electronic documents in response to a search query |
EP0961210A1 (en) * | 1998-05-29 | 1999-12-01 | Xerox Corporation | Signature file based semantic caching of queries |
JP3022539B1 (ja) * | 1999-01-07 | 2000-03-21 | 富士ゼロックス株式会社 | 文書検索装置 |
US6584464B1 (en) | 1999-03-19 | 2003-06-24 | Ask Jeeves, Inc. | Grammar template query system |
US6314419B1 (en) * | 1999-06-04 | 2001-11-06 | Oracle Corporation | Methods and apparatus for generating query feedback based on co-occurrence patterns |
US6611825B1 (en) | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6701305B1 (en) | 1999-06-09 | 2004-03-02 | The Boeing Company | Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace |
US6829640B1 (en) * | 1999-12-23 | 2004-12-07 | International Business Machines Corporation | Method and system for creating a byte stream characteristic number suitable for change quantification |
JP4608740B2 (ja) * | 2000-02-21 | 2011-01-12 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
US6778980B1 (en) * | 2001-02-22 | 2004-08-17 | Drugstore.Com | Techniques for improved searching of electronically stored information |
US6823333B2 (en) * | 2001-03-02 | 2004-11-23 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for conducting a keyterm search |
US6760694B2 (en) * | 2001-03-21 | 2004-07-06 | Hewlett-Packard Development Company, L.P. | Automatic information collection system using most frequent uncommon words or phrases |
US7149748B1 (en) * | 2003-05-06 | 2006-12-12 | Sap Ag | Expanded inverted index |
US20050086234A1 (en) * | 2003-10-15 | 2005-04-21 | Sierra Wireless, Inc., A Canadian Corporation | Incremental search of keyword strings |
US8656039B2 (en) | 2003-12-10 | 2014-02-18 | Mcafee, Inc. | Rule parser |
US8548170B2 (en) | 2003-12-10 | 2013-10-01 | Mcafee, Inc. | Document de-registration |
US7899828B2 (en) | 2003-12-10 | 2011-03-01 | Mcafee, Inc. | Tag data structure for maintaining relational data over captured objects |
US7774604B2 (en) | 2003-12-10 | 2010-08-10 | Mcafee, Inc. | Verifying captured objects before presentation |
US7984175B2 (en) | 2003-12-10 | 2011-07-19 | Mcafee, Inc. | Method and apparatus for data capture and analysis system |
US7814327B2 (en) | 2003-12-10 | 2010-10-12 | Mcafee, Inc. | Document registration |
US7930540B2 (en) | 2004-01-22 | 2011-04-19 | Mcafee, Inc. | Cryptographic policy enforcement |
CA2556023A1 (en) * | 2004-02-20 | 2005-09-09 | Dow Jones Reuters Business Interactive, Llc | Intelligent search and retrieval system and method |
US7962591B2 (en) | 2004-06-23 | 2011-06-14 | Mcafee, Inc. | Object classification in a capture system |
US7698333B2 (en) * | 2004-07-22 | 2010-04-13 | Factiva, Inc. | Intelligent query system and method using phrase-code frequency-inverse phrase-code document frequency module |
US8560534B2 (en) | 2004-08-23 | 2013-10-15 | Mcafee, Inc. | Database for a capture system |
US7949849B2 (en) | 2004-08-24 | 2011-05-24 | Mcafee, Inc. | File system for a capture system |
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
US7907608B2 (en) | 2005-08-12 | 2011-03-15 | Mcafee, Inc. | High speed packet capture |
US7818326B2 (en) * | 2005-08-31 | 2010-10-19 | Mcafee, Inc. | System and method for word indexing in a capture system and querying thereof |
US7730011B1 (en) | 2005-10-19 | 2010-06-01 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US7657104B2 (en) | 2005-11-21 | 2010-02-02 | Mcafee, Inc. | Identifying image type in a capture system |
US9767184B2 (en) * | 2006-03-14 | 2017-09-19 | Robert D. Fish | Methods and apparatus for facilitating context searching |
US8504537B2 (en) | 2006-03-24 | 2013-08-06 | Mcafee, Inc. | Signature distribution in a document registration system |
US8706470B2 (en) | 2006-05-08 | 2014-04-22 | David T. Lorenzen | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet |
US7958227B2 (en) | 2006-05-22 | 2011-06-07 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US7689614B2 (en) | 2006-05-22 | 2010-03-30 | Mcafee, Inc. | Query generation for a capture system |
US8010689B2 (en) | 2006-05-22 | 2011-08-30 | Mcafee, Inc. | Locational tagging in a capture system |
KR100809416B1 (ko) * | 2006-07-28 | 2008-03-05 | 한국전자통신연구원 | 보안 시스템을 위한 최적 시그니처 자동 생성 장치 및 방법 |
US20090228817A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for displaying a search result |
US20090228811A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for processing a plurality of documents |
US8205242B2 (en) | 2008-07-10 | 2012-06-19 | Mcafee, Inc. | System and method for data mining and security policy management |
US9253154B2 (en) | 2008-08-12 | 2016-02-02 | Mcafee, Inc. | Configuration management for a capture/registration system |
US8850591B2 (en) | 2009-01-13 | 2014-09-30 | Mcafee, Inc. | System and method for concept building |
US8706709B2 (en) | 2009-01-15 | 2014-04-22 | Mcafee, Inc. | System and method for intelligent term grouping |
US8473442B1 (en) | 2009-02-25 | 2013-06-25 | Mcafee, Inc. | System and method for intelligent state management |
US8447722B1 (en) | 2009-03-25 | 2013-05-21 | Mcafee, Inc. | System and method for data mining and security policy management |
US8667121B2 (en) | 2009-03-25 | 2014-03-04 | Mcafee, Inc. | System and method for managing data and policies |
US8346787B1 (en) * | 2009-09-15 | 2013-01-01 | Symantec Corporation | Method and apparatus for continuous data protection |
KR100964207B1 (ko) * | 2009-11-13 | 2010-06-17 | 동국대학교 산학협력단 | 해시 기반 문서의 색인화 및 검색 방법 및 장치 |
US8756231B2 (en) | 2010-01-28 | 2014-06-17 | International Business Machines Corporation | Search using proximity for clustering information |
US9002866B1 (en) | 2010-03-25 | 2015-04-07 | Google Inc. | Generating context-based spell corrections of entity names |
US8380723B2 (en) * | 2010-05-21 | 2013-02-19 | Microsoft Corporation | Query intent in information retrieval |
US9600565B2 (en) * | 2010-10-15 | 2017-03-21 | Nec Corporation | Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium |
US8806615B2 (en) | 2010-11-04 | 2014-08-12 | Mcafee, Inc. | System and method for protecting specified data combinations |
US9519714B2 (en) * | 2010-12-22 | 2016-12-13 | Microsoft Technology Licensing, Llc | Presenting list previews among search results |
US9396187B2 (en) * | 2011-06-28 | 2016-07-19 | Broadcom Corporation | System and method for using network equipment to provide targeted advertising |
US20130246431A1 (en) | 2011-12-27 | 2013-09-19 | Mcafee, Inc. | System and method for providing data protection workflows in a network environment |
CN103714118B (zh) * | 2013-11-22 | 2017-02-08 | 浙江大学 | 图书交叉阅读方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4318184A (en) * | 1978-09-05 | 1982-03-02 | Millett Ronald P | Information storage and retrieval system and method |
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4823306A (en) * | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
GB8719572D0 (en) * | 1987-08-19 | 1987-09-23 | Krebs M S | Sigscan text retrieval system |
US5201048A (en) * | 1988-12-01 | 1993-04-06 | Axxess Technologies, Inc. | High speed computer system for search and retrieval of data within text and record oriented files |
CA2000006C (en) * | 1989-01-23 | 1994-07-12 | Walter W. Chang | Combinatorial signatures for data encoding and searching |
US5129082A (en) * | 1990-03-27 | 1992-07-07 | Sun Microsystems, Inc. | Method and apparatus for searching database component files to retrieve information from modified files |
JPH0490054A (ja) * | 1990-08-03 | 1992-03-24 | Toshiba Corp | 画像記憶検索装置 |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5465353A (en) * | 1994-04-01 | 1995-11-07 | Ricoh Company, Ltd. | Image matching and retrieval by multi-access redundant hashing |
-
1993
- 1993-07-08 JP JP05169333A patent/JP3132738B2/ja not_active Expired - Fee Related
-
1994
- 1994-07-27 US US08/280,963 patent/US5542090A/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6741985B2 (en) | 2001-03-12 | 2004-05-25 | International Business Machines Corporation | Document retrieval system and search method using word set and character look-up tables |
WO2009063925A1 (ja) * | 2007-11-15 | 2009-05-22 | Nec Corporation | 文書管理・検索システムおよび文書の管理・検索方法 |
JP5376163B2 (ja) * | 2007-11-15 | 2013-12-25 | 日本電気株式会社 | 文書管理・検索システムおよび文書の管理・検索方法 |
US9454597B2 (en) | 2007-11-15 | 2016-09-27 | Nec Corporation | Document management and retrieval system and document management and retrieval method |
Also Published As
Publication number | Publication date |
---|---|
JP3132738B2 (ja) | 2001-02-05 |
US5542090A (en) | 1996-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH06215029A (ja) | テキスト検索方法 | |
US5544049A (en) | Method for performing a search of a plurality of documents for similarity to a plurality of query words | |
JP3225912B2 (ja) | 情報検索装置、方法及び記録媒体 | |
JP2832988B2 (ja) | データ検索システム | |
US9798776B2 (en) | Systems and methods for parsing search queries | |
JPH06266780A (ja) | 意味パターン認識による文字列検索方法及びその装置 | |
JP3258063B2 (ja) | データベース検索システム及び方法 | |
JPH0844771A (ja) | 情報検索装置 | |
JPH0773197A (ja) | 異表記語辞書作成支援装置 | |
JP2000163576A (ja) | 画像検索方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
JPH05324719A (ja) | 文書検索システム | |
JP3151730B2 (ja) | データベース検索システム | |
JP2000035965A (ja) | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 | |
JPH10162008A (ja) | 情報検索方法及び装置 | |
JP3531222B2 (ja) | 類似文字列検索装置 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP3259781B2 (ja) | データベース検索システムおよびデータベース検索方法 | |
JPH07105237A (ja) | 索引作成方法およびその装置と文書検索装置 | |
JPH1173420A (ja) | 文書処理装置及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3389285B2 (ja) | 固有名詞特定方法 | |
JPH10232871A (ja) | 検索装置 | |
JPH10149367A (ja) | テキスト蓄積検索装置 | |
JP2005085112A (ja) | 情報分類システム及びプログラム | |
JP2002342373A (ja) | 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体 | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20001107 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081124 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091124 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |