JP2002269116A - 文書検索システム及びプログラム - Google Patents

文書検索システム及びプログラム

Info

Publication number
JP2002269116A
JP2002269116A JP2001070406A JP2001070406A JP2002269116A JP 2002269116 A JP2002269116 A JP 2002269116A JP 2001070406 A JP2001070406 A JP 2001070406A JP 2001070406 A JP2001070406 A JP 2001070406A JP 2002269116 A JP2002269116 A JP 2002269116A
Authority
JP
Japan
Prior art keywords
token
search
document
tokens
hyphen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001070406A
Other languages
English (en)
Inventor
Sakiko Honma
咲子 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001070406A priority Critical patent/JP2002269116A/ja
Publication of JP2002269116A publication Critical patent/JP2002269116A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ハイフン語に関する表記のゆれに起因する検
索洩れを、検索効率を低下することなく回避し、ハイフ
ン語処理に伴う位置情報の矛盾を解消する。 【解決手段】 登録処理部12は、所定の区切り文字を
境界として、文書データ又はテキストを単語単位の文字
列であるトークンに分割し、該トークンを少なくともそ
の出現位置情報と共に抽出する。この際に、区切り文字
を含む複数のトークンの連続が特定のパターンに合致す
る場合には、区切り文字によって区切られた複数のトー
クンと同時に、複数のトークンをまとめ上げた1つのト
ークンを抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書検索システ
ム及びプログラムに関する。
【0002】
【従来の技術】英語のように、単語の区切りが明確な言
語によって記述された文書データを対象として全文検索
を行う場合、索引登録時には、空白やピリオド、コンマ
などの区切り文字を境界として各文書を単語単位の文字
列に区切り、抽出した文字列を、出現した文書の識別子
および該文書における出現位置(文書先頭からの単語
数)などと共に索引情報として記憶する。検索時には、
ユーザがテキスト形式で入力した問い合わせから索引登
録時と同様に単語文字列を抽出し、抽出された文字列を
もとに検索システムが処理できる検索条件を作成して、
検索を実行する。
【0003】ピリオドやコンマの他に区切り文字として
扱われる記号の1つとして、ハイフンがある。ハイフン
は、連続する複数の語を1つのまとまり(複合語)とし
て表記する際に用いられる。
【0004】例えば、"client-server system","quake
-resistant buildings"では、ハイフンで連結された2
語(以下、ハイフン語という)がひとまとまりの語とし
て後続の1語を修飾している。このような場合、ハイフ
ン語を構成する個々の語(例えば"quake")が検索対象
となる可能性もあるため、ハイフンの前後を区切って個
々の索引語として登録することにより、検索漏れを避け
ることができる。
【0005】
【発明が解決しようとする課題】しかしながら、ハイフ
ンは、本来1語として記述すべき文字列、あるいは、1
語として記述することが可能な文字列を、分割して記述
する際に用いられることもある。単語の途中で改行する
場合や(例えば"edu-cation")、接頭辞と語幹の区切り
を表す場合(例えば"pre-election")が、これに相当す
る。
【0006】ハイフンを区切り文字として索引登録した
場合、前者では"edu","cation"が索引語となるため、
ユーザが問い合わせとして"education"を入力してもマ
ッチしない。また後者では"pre","election"が索引語
となるが、ユーザの問い合わせが"preelection"の場合
にはマッチしないという問題が生じる。
【0007】検索対象文書やユーザの問い合わせにおけ
る表記のゆれを解決するための従来技術として、特開平
7-65013号公報がある。かかる技術では、異表記候補を
記述した異表記辞書を検索時に参照して検索語の展開を
行っている。
【0008】しかしながら、単語の途中での改行は、大
多数の英単語が対象になる上に、1つの単語で複数の改
行可能箇所があるため(例えば"education"の場合には"
ed-u-ca-tion"の3ヶ所で改行が可能)、辞書の構築が
困難である。また、接頭辞と語幹の連続についても、新
語生成力が強いため、辞書による問題の解決には限界が
ある。更に、検索洩れを厳密に避けるためには、検索語
に対して常に可能なハイフン表記への展開を行なう必要
があり、検索効率低下の問題が生じる。
【0009】懸かる問題を解決する方法として、ハイフ
ン前後のアルファベット文字列を結合し、ハイフンを削
除して、1つのトークンとして索引登録するという方法
がある。しかしながら、この場合、例えば、"quake-res
istant"は"quakeresistant"で登録されてしまい、"quak
e"では検索できないという問題が生じる。これを避ける
ためには、ハイフン前後の文字列をまとめ上げたトーク
ンと、ハイフン前後の個々のトークンの両方を索引登録
する方法が考えられる。
【0010】しかし、この場合、まとめ上げトークンの
位置情報が問題となる。例えば、"governor's pre-elec
tion campaign"というテキストから、"governor","pr
e","election","preelection","campaign"というト
ークンを抽出する場合、"governor"の位置情報を0、"pr
e"を1、"election"を2、"campaign"を3とした場合、"pr
eelection"の位置情報を1とした場合は、後続する"camp
aign"と隣接しないことになり、2とした場合は、先行す
る"governor"と隣接しないことになってしまう。
【0011】更に、文書中に出現する全てのハイフン表
記に対して、二重の索引情報を設けるのは、索引サイズ
の無駄になるため、適当な方法で無駄な二重索引を排除
することが望ましい。
【0012】この発明の目的は、対象とする文書データ
から、特定のパターンに合致するトークンの連続につい
てまとめ上げたトークンと、個々の複数のトークンとの
双方を抽出することを可能として、ハイフン語に関する
表記のゆれに起因する検索洩れを、検索効率を低下する
ことなく回避し、ハイフン語処理に伴う位置情報の矛盾
を解消することである。
【0013】この発明の目的は、まとめ上げトークンと
個々のトークンを含む文書を、いずれも検索することで
ある。
【0014】この発明の目的は、一次検索における検索
ノイズを低減するとともに、必要な場合にのみ、検索洩
れを回避することである。
【0015】この発明の目的は、行末および行末以外に
おけるハイフン語表記のゆれに対応することである。
【0016】この発明の目的は、ハイフンの有無のゆれ
が特に生じ易い場合に限り、索引を二重に作成し、索引
サイズを減らすことである。
【0017】この発明の目的は、ハイフンの有無のゆれ
が生じている可能性が高い場合に限り、索引を二重に作
成し、索引サイズを減らすことである。
【0018】この発明の目的は、まとめ上げたトークン
と隣接するトークンの位置関係を、正確に記憶すること
である。
【0019】この発明の目的は、ハイフン語に関して索
引が二重になっている場合でも、矛盾なく距離演算を行
なうことである。
【0020】
【課題を解決するための手段】請求項1に記載の発明
は、自然言語によって記述された文書データに対して識
別子を付与して格納する文書格納手段と、前記文書格納
手段によって格納された文書データから、ユーザが所望
する文書を検索するための問い合わせテキストを入力す
る問い合わせ入力手段と、所定の区切り文字を境界とし
て、前記文書格納手段によって格納された文書データ、
又は、前記問い合わせ入力手段によって入力されたテキ
ストを単語単位の文字列であるトークンに分割し、該ト
ークンを少なくともその出現位置情報と共に抽出するト
ークン抽出手段と、前記トークン抽出手段によって抽出
されたトークン、該トークンが出現する文書データの識
別子及び出現位置情報を対応付けてインデックスに記憶
する索引登録手段と、前記問い合わせ入力手段によって
入力されたテキストから、前記トークン抽出手段により
抽出されたトークンに基づいて、所定形式の検索条件を
作成する検索条件作成手段と、前記検索条件作成手段に
より作成された検索条件及び前記索引登録手段によって
作成されたインデックスを参照し、該検索条件に合致す
る文書を検索する検索処理手段と、前記文書格納手段よ
って格納された文書データから、前記検索処理手段によ
り検索された文書を取り出して出力処理を行なう出力処
理手段とを備え、前記トークン抽出手段は、区切り文字
を含む複数のトークンの連続が特定のパターンに合致す
る場合には、区切り文字によって区切られた複数のトー
クンと同時に、複数のトークンをまとめ上げた1つのト
ークンを抽出するものである文書検索システムである。
【0021】したがって、対象とする文書データから、
特定のパターンに合致するトークンの連続についてまと
め上げたトークンと、個々の複数のトークンとの双方を
抽出することができるので、ハイフン語に関する表記の
ゆれ(ハイフンの有無、ハイフン語全体と個々の構成
語)に起因する検索洩れを、検索効率を低下することな
く回避し、また、ハイフン語処理に伴う位置情報の矛盾
を解消することができる。
【0022】請求項2に記載の発明は、請求項1に記載
の文書検索システムにおいて、前記検索条件作成手段
は、前記問い合わせ入力手段によって入力されたテキス
トから、前記トークン抽出手段により複数のトークンを
まとめ上げたトークンが抽出された場合は、まとめ上げ
トークンと、まとめ上げトークンを構成する個々のトー
クンの双方を検索語とするものである。
【0023】したがって、まとめ上げトークンと個々の
トークンを含む文書を、いずれも検索することができ
る。
【0024】請求項3に記載の発明は、請求項1記載の
文書検索システムにおいて、前記検索条件作成手段は、
前記問い合わせ入力手段によって入力されたテキストか
ら、前記トークン抽出手段により複数のトークンをまと
め上げたトークンが抽出された場合は、先にまとめ上げ
トークンのみを検索語として前記検索処理手段によって
検索処理を実行し、検索された文書数が予め設定された
閾値以下の場合に、まとめ上げトークンを構成する個々
のトークンを検索語として再度検索処理を行なうもので
ある。
【0025】したがって、一次検索における検索ノイズ
を低減できるとともに、必要な場合にのみ、検索洩れを
回避することができる。
【0026】請求項4に記載の発明は、請求項1〜3の
何れかの一に記載の文書検索システムにおいて、前記ト
ークン抽出手段は、前記特定のパターンとして区切り文
字であるハイフン又はハイフンと改行の連続及びその前
後のアルファベット文字列の連続を用いるものである。
【0027】したがって、行末および行末以外における
ハイフン語表記のゆれに対応することができる。
【0028】請求項5に記載の発明は、請求項1〜3の
何れかの一に記載の文書検索システムにおいて、前記ト
ークン抽出手段は、特定のパターンとして区切り文字で
あるハイフン又はハイフンと改行の連続及びその前後の
アルファベット文字列の連続を用い、かつ、ハイフンに
先行するトークンは接頭辞である。
【0029】したがって、ハイフンの有無のゆれが特に
生じ易い場合に限り、索引を二重に作成し、索引サイズ
を減らすことができる。
【0030】請求項6に記載の発明は、請求項1〜3の
何れかの一に記載の文書検索システムにおいて、前記ト
ークン抽出手段は、特定のパターンとして区切り文字で
あるハイフン又はハイフンと改行の連続及びその前後の
アルファベット文字列の連続を用い、かつ、区切り文字
を除いてまとめ上げたアルファベット文字列が辞書登録
されている場合に抽出するものである。
【0031】したがって、ハイフンの有無のゆれが生じ
ている可能性が高い場合に限り、索引を二重に作成し、
索引サイズを減らすことができる。
【0032】請求項7に記載の発明は、請求項1〜6の
何れかの一に記載の文書検索システムにおいて、前記索
引登録手段は、トークンが出現する文書データの識別子
と出現位置情報に加えて、該トークンを構成する部分ト
ークン数を、前記トークン抽出手段により抽出されたト
ークンに対応付けて記憶する情報としているものであ
る。
【0033】したがって、まとめ上げたトークンと隣接
するトークンの位置関係を、正確に記憶することができ
る。
【0034】請求項8に記載の発明は、請求項7に記載
の文書検索システムにおいて、前記検索処理手段は、前
記検索条件作成手段により作成された検索条件が検索語
間の距離演算を含む場合は、前記索引登録手段において
記憶された部分トークン数を検索語間の距離に加算する
ものである。
【0035】したがって、ハイフン語に関して索引が二
重になっている場合でも、矛盾なく距離演算を行なうこ
とができる。
【0036】請求項9に記載の発明は、自然言語によっ
て記述された文書データに対して識別子を付与して格納
する文書格納処理と、前記文書格納手段によって格納さ
れた文書データから、ユーザが所望する文書を検索する
ための問い合わせテキストを入力する問い合わせ入力処
理と、所定の区切り文字を境界として、前記文書格納処
理によって格納された文書データ、又は、前記問い合わ
せ入力処理によって入力されたテキストを単語単位の文
字列であるトークンに分割し、該トークンを少なくとも
その出現位置情報と共に抽出するトークン抽出処理と、
前記トークン抽出処理によって抽出されたトークン、該
トークンが出現する文書データの識別子及び出現位置情
報を対応付けてインデックスに記憶する索引登録処理
と、前記問い合わせ入力処理によって入力されたテキス
トから、前記トークン抽出処理により抽出されたトーク
ンに基づいて、所定形式の検索条件を作成する検索条件
作成処理と、前記検索条件作成処理により作成された検
索条件及び前記索引登録処理によって作成されたインデ
ックスを参照し、該検索条件に合致する文書を検索する
検索処理処理と、前記文書格納処理よって格納された文
書データから、前記検索処理処理により検索された文書
を取り出して出力処理を行なう出力処理処理と、をコン
ピュータに実行させ、前記トークン抽出処理は、区切り
文字を含む複数のトークンの連続が特定のパターンに合
致する場合には、区切り文字によって区切られた複数の
トークンと同時に、複数のトークンをまとめ上げた1つ
のトークンを抽出するものである、コンピュータに読取
り可能なプログラムである。
【0037】したがって、対象とする文書データから、
特定のパターンに合致するトークンの連続についてまと
め上げたトークンと、個々の複数のトークンとの双方を
抽出することができるので、ハイフン語に関する表記の
ゆれ(ハイフンの有無、ハイフン語全体と個々の構成
語)に起因する検索洩れを、検索効率を低下することな
く回避し、また、ハイフン語処理に伴う位置情報の矛盾
を解消することができる。
【0038】請求項10に記載の発明は、請求項9に記
載のプログラムにおいて、前記検索条件作成処理は、前
記問い合わせ入力処理によって入力されたテキストか
ら、前記トークン抽出処理により複数のトークンをまと
め上げたトークンが抽出された場合は、まとめ上げトー
クンと、まとめ上げトークンを構成する個々のトークン
の双方を検索語とするものである。
【0039】したがって、まとめ上げトークンと個々の
トークンを含む文書を、いずれも検索することができ
る。
【0040】請求項11に記載の発明は、請求項9記載
のプログラムにおいて、前記検索条件作成処理は、前記
問い合わせ入力処理によって入力されたテキストから、
前記トークン抽出処理により複数のトークンをまとめ上
げたトークンが抽出された場合は、先にまとめ上げトー
クンのみを検索語として前記検索処理処理によって検索
処理を実行し、検索された文書数が予め設定された閾値
以下の場合に、まとめ上げトークンを構成する個々のト
ークンを検索語として再度検索処理を行なうものであ
る。
【0041】したがって、一次検索における検索ノイズ
を低減できるとともに、必要な場合にのみ、検索洩れを
回避することができる。
【0042】請求項12に記載の発明は、請求項9〜1
1の何れかの一に記載のプログラムにおいて、前記トー
クン抽出処理は、前記特定のパターンとして区切り文字
であるハイフン又はハイフンと改行の連続及びその前後
のアルファベット文字列の連続を用いるものである。
【0043】したがって、行末および行末以外における
ハイフン語表記のゆれに対応することができる。
【0044】請求項13に記載の発明は、請求項9〜1
1の何れかの一に記載のプログラムにおいて、前記トー
クン抽出処理は、特定のパターンとして区切り文字であ
るハイフン又はハイフンと改行の連続及びその前後のア
ルファベット文字列の連続を用い、かつ、ハイフンに先
行するトークンは接頭辞である。
【0045】したがって、ハイフンの有無のゆれが特に
生じ易い場合に限り、索引を二重に作成し、索引サイズ
を減らすことができる。
【0046】請求項14に記載の発明は、請求項9〜1
1の何れかの一に記載のプログラムにおいて、前記トー
クン抽出処理は、特定のパターンとして区切り文字であ
るハイフン又はハイフンと改行の連続及びその前後のア
ルファベット文字列の連続を用い、かつ、区切り文字を
除いてまとめ上げたアルファベット文字列が辞書登録さ
れている場合に抽出するものである。
【0047】したがって、ハイフンの有無のゆれが生じ
ている可能性が高い場合に限り、索引を二重に作成し、
索引サイズを減らすことができる。
【0048】請求項15に記載の発明は、請求項9〜1
4の何れかの一に記載のプログラムにおいて、前記索引
登録処理は、トークンが出現する文書データの識別子と
出現位置情報に加えて、該トークンを構成する部分トー
クン数を、前記トークン抽出処理により抽出されたトー
クンに対応付けて記憶する情報としているものである。
【0049】したがって、まとめ上げたトークンと隣接
するトークンの位置関係を、正確に記憶することができ
る。
【0050】請求項16に記載の発明は、請求項15に
記載のプログラムにおいて、前記検索処理処理は、前記
検索条件作成処理により作成された検索条件が検索語間
の距離演算を含む場合は、前記索引登録処理において記
憶された部分トークン数を検索語間の距離に加算するも
のである。
【0051】したがって、ハイフン語に関して索引が二
重になっている場合でも、矛盾なく距離演算を行なうこ
とができる。
【0052】
【発明の実施の形態】本発明の一実施の形態について説
明する。
【0053】図1は、文書検索システム1のハードウェ
ア構成を概略的に示すブロック図である。図1に示すよ
うに、この文書検索システム1は、各部を制御する機能
を有する中央処理装置(CPU)2、ROMやRAM等
で構成されるメモリ3、ハードディスク4、キーボード
やマウス等で種々の指示を与える入力装置5、CRT又
は液晶ディスプレイ(LCD)等の表示装置6、CD,
DVD,FDなどの記憶媒体21に対するデータの読み
取りを行なう記憶媒体読取装置8、インターネットなど
のネットワーク22と接続する通信制御装置23が、バ
ス9によって接続されて構成されている。
【0054】ハードディスク4には、この発明のプログ
ラムを実現する文書検索プログラム等各種プログラムが
記憶されている。このプログラムは、記憶媒体21から
記憶媒体読取装置8により読み取るか、あるいは、イン
ターネットなどのネットワーク22からダウンロードす
るなどして、ハードディスク4にインストールしたもの
である。このインストールにより文書検索システム1は
動作可能な状態となる。この対話プログラムは、特定の
アプリケーションソフトの一手段をなすものであっても
よい。また、所定のOS上で動作するものであってもよ
い。
【0055】図2は、文書検索システム1の機能構成を
概略的に示すブロック図である。図2に示すように、メ
モリ3には入力処理部10、テキスト処理部11、登録
処理部12、検索条件作成部13、検索処理部14、出
力処理部15が用意され、中央演算装置2によって実行
を制御される。また、図2に示すように、ハードディス
ク4には、多数の文書データを格納する文書格納手段
(文書データベース)16、各文書データの索引(イン
デックス)を格納する索引記憶手段(インデックス格納
部)17、テキスト処理部11で接頭辞の処理を行なう
際に参照する接頭辞テーブル18、テキスト処理部11
でハイフン語をまとめ上げたトークンのチェックを行な
う際に参照する単語辞書19が用意されている。
【0056】まず、このような構成における索引登録処
理の概略を示す。入力処理部10は、入力装置5から入
力された登録の指示を登録処理部12に送る。登録処理
部12は、入力処理部10から送られた指示に従って、
文書データベース16から1文書ずつ文書データを読み
出し、その読み出された文書データをテキスト処理部1
1に送る。テキスト処理部11は、送られたデータを処
理してトークン(索引語)を抽出し、出現位置情報と共
に登録処理部12に送る。更に、テキスト処理部11
は、区切り文字を含む複数のトークンの連続が、メモリ
に記述された特定パターンに合致する場合は、該当する
複数トークンをまとめ上げた1つのトークン、および、
該まとめ上げトークンを構成する部分トークン数を抽出
し、登録処理部12に送る。この際、必要に応じて接頭
辞テーブル18、単語辞書19を参照して、まとめ上げ
たトークンのチェックを行なう。
【0057】次に、検索処理の概略を示す。入力処理部
10は、入力装置5から入力された検索の問い合わせ
を、検索条件作成部13に送る。検索条件作成部13
は、問い合わせテキストをテキスト処理部11に送る。
テキスト処理部11は、送られた問い合わせテキスト
を、索引登録時と同様に処理してトークン(検索語)を
抽出し、検索条件作成部13に送る。更に、テキスト処
理部11は、区切り文字を含む複数のトークンの連続
が、メモリに記述された特定パターンに合致する場合
は、該当する複数トークンをまとめ上げた1つのトーク
ンを抽出し、検索条件作成部13に送る。この際、必要
に応じて接頭辞テーブル18、単語辞書19を参照し
て、まとめ上げたトークンのチェックを行なう。検索条
件作成部13は、送られた検索語を演算子の形式に変換
し、検索処理部14が処理可能な検索条件を作成する。
検索処理部14は、この検索条件に従って、インデック
ス格納部17に格納されたインデックスを検索し、条件
を満たす文書を特定する。出力処理部15では、検索処
理部14で検索されたインデックスに基づく文書の情報
を表示装置6へ表示する。必要であれば、文書データベ
ース16にアクセスして、文書データを出力する。
【0058】次に、文書検索プログラムに従って中央処
理装置2が実行する文書登録処理及び文書検索処理につ
いて説明する。
【0059】まず、文書登録処理について具体例を用い
て説明する。図3は登録対象文書の具体例を模式的に示
す平面図、図4は登録処理部12における文書登録処理
の流れを概略的に示すフローチャート、図5はテキスト
処理部11におけるトークン抽出処理の流れを概略的に
示すフローチャートである。
【0060】図3に示すように、文書Aは、文書中に"g
overnor's pre-election campaign"なる文字列を含む英
語の文書データであって、文書Aをユニークに示す識別
子である文書IDは"1"を付与されている。
【0061】文書Bは、文書中に"edu-cation system"
なる文字列("edu-"の直後には改行が存在する)を含む
英語の文書データであって、文書Bをユニークに示す識
別子である文書IDは"2"を付与されている。
【0062】文書Cは、文書中に"quake-resistant bui
ldings"なる文字列を含む英語の文書データであって、
文書Cをユニークに示す識別子である文書IDは"3"を
付与されている。
【0063】文書Dは、文書中に"waterproof coats"な
る文字列を含む英語の文書データであって、文書Dをユ
ニークに示す識別子である文書IDは"4"を付与されて
いる。
【0064】図4に示すように、文書登録処理は、ま
ず、ハードディスク4の文書データベース16に格納さ
れた文書データの中に、インデックス未作成の文書があ
るか否かを判断する(S1)。インデックス未作成の文書が
ない場合には(S1-N)、全ての検索対象の文書データのイ
ンデックスが作成されているので、文書登録処理を終了
する。
【0065】一方、インデックス未作成の文書がある場
合には(S1-Y)、インデックス未作成文書を読み込み(S
2)、文書データベース14に格納された各文書をユニー
クに示す文書IDを取得し(S3)、文書データをトークン
抽出処理に送る(S4)。トークン抽出処理からトークンが
返された場合は(S5-Y)、文書IDなどと共にインデック
スに登録し(S6)、S4に戻ってトークン抽出処理を繰り返
す。トークン抽出処理からトークンが返されない場合は
(S5-N)、終了指示であれば(S7-Y)、処理中の文書は終了
したことを示すので、S1に戻って登録処理を繰り返す。
終了指示でなければ(S7-N)、S4に戻ってトークン抽出処
理を繰り返す。
【0066】図5に示すように、トークン抽出処理は、
まず、出現位置をゼロにセット(初期化)し(S10)、開
始位置をセットする(S11)。文書末尾に達していれば(S1
2-Y)、終了指示をリターンして(S13)、処理を終了す
る。文書末尾に達していない場合は(S12-N)、開始位置
の文字が区切り文字であり(S14-Y)、かつハイフンであ
れば(S15-Y)、ハイフン語処理(S20)を実施してから、ハ
イフンでなければ(S15-N)直ちに、開始位置から区切り
文字の連続をスキップする(S16)。区切り文字の連続を
スキップした後、もしくは、開始位置の文字が区切り文
字でない場合(S14-N)は、非区切り文字の連続を抽出し
(S17)、抽出されたトークンと出現位置および構成トー
クン数(この場合は1)を返し(S18)、出現位置を1つ
進めて(S19)、S11に戻って処理を繰り返す。なお、ハイ
フン語処理(S20)によってハイフン前後のトークンをま
とめ上げたトークンが得られた場合は(S21-Y)、該トー
クンと出現位置および構成トークン数を返してから(S2
2)、S16に進む。
【0067】図6は、スペース、タブ、改行以外に、区
切り文字として用いられる記号類の例、図7は、図3に
示した各文書A,B,C,Dから索引登録対象として抽
出されたトークン情報の模式図、図8は、図7のトーク
ン情報から作成され、インデックス格納部17に格納さ
れるインデックスの模式図である。なお、ここでは、所
有格を示す"'s"は削除して登録するものとしている。
【0068】図9は、図5のステップS21におけるハイ
フン語処理の流れを概略的に示すフローチャートであ
る。まず、ハイフンの直前がアルファベットのみで構成
される文字列(英字列)でない場合は(S30-N)、処理を
終了する。ハイフンの直前が英字列であり(S30-Y)、ハ
イフンの直後が英字列である場合(S31-Y)、または、直
後が改行で(S32-Y)、かつ、次行の先頭が英字列である
場合は(S33-Y)、ハイフン前後の文字列を連結して1つ
のトークンとする(S34)。
【0069】次に、ステップS35に進み、接頭辞テーブ
ル18を参照して、ハイフン直前の英字列が接頭辞であ
るかをチェックし、ハイフン直前の英字列が接頭辞であ
る場合は(S35-Y)、連結したトークンと構成トークン数
(この場合は2)を返して(S37)、処理を終了する。
【0070】そして、ステップS36に進み、単語辞書1
9を参照して、連結したトークンが辞書登録されている
かをチェックし、登録されている場合は(S36-Y)、連結
したトークンと構成トークン数(この場合は2)を返し
て(S37)、処理を終了する。なお、図10は、接頭辞テ
ーブル18の模式図である。また、図11は、単語辞書
19の模式図である。
【0071】図7、8の摸式図は、図9のハイフン語処
理において、ステップS35およびS36を実施しない場合の
例である。ステップS35を実施した場合は、文書ID1
における"preelection"が、ステップS36を実施した場合
は、文書ID2における"education"が、それぞれまと
め上げトークンとして抽出されるが、文書ID3におけ
る"quakeresistant"は抽出されないことになる。
【0072】次に、文書検索プログラムに従って中央処
理装置2が実行する文書検索処理について説明する。
【0073】図12は検索条件作成部13における検索
条件作成処理の流れを概略的に示すフローチャート、図
13は検索処理部14における距離演算処理の一例の流
れを概略的に示すフローチャートである。なお、簡単の
ため、図13においては、検索語2語に対して隣接演算
を行なう場合について説明している。また、ここでは、
検索条件作成部は、トークン抽出処理から返された文字
列をOR演算に変換するものとするが、特別な指示があっ
た場合は隣接演算に変換するものとする。
【0074】図12に示すように、文書検索処理は、ま
ず、入力部5からの入力を入力処理部10が処理し、検
索条件作成部13に送る。検索条件作成部13は、送ら
れた指示が終了指示であれば(S40-Y)、処理を終了す
る。終了指示でなければ(S40-N)、問い合わせが入力さ
れたかを判断して、問い合わせが入力されれば(S41-
Y)、問い合わせテキストを図5に示したトークン抽出処
理に送る(S42)。トークン抽出処理から返されたトーク
ンがまとめ上げトークンである場合(S47-Y)、まとめ上
げトークン単独で検索処理を行ない(S48)、検索結果を
出力する(S49)。検索された文書数が閾値N以上であれ
ば(S50-Y)、S40で終了指示の判断を行ない、N以上でな
ければ(S50-N)、S42に戻って処理を続ける。
【0075】トークン抽出処理からトークンがまとめ上
げトークンでない場合(S47-N)、S51に進み、隣接検索指
示であれば(S51-Y)、隣接演算に変換し(S53)、隣接検索
指示でなければ(S51-N)、OR演算に変換し(S52)、S42に
戻って処理を繰り返す。問い合わせテキストに対するト
ークン処理が終了したら(S44)、作成された検索条件に
よって検索処理を行ない(S45)、検索結果を出力する(S4
6)。
【0076】図13に示すように、検索処理は、第1引
数である検索語がインデックスに登録されているかどう
かをチェックし(S60)、次に第2引数である検索語がイ
ンデックスに登録されているかどうかをチェックし(S6
1)、更に同一文書に現れているかをチェックする(S6
2)。次に、両引数の位置情報をチェックする(S63)。こ
こでは、第1引数に対する出現位置をL1、第2引数に対
する出現位置をL2、第1引数に対する構成トークン数を
N1とする。L2が、L1とN1の和と等しければ、条件を満た
す文書IDを返して(S64)、処理を終了する。
【0077】図14は、入力処理部10を通して入力さ
れる問い合わせテキストの例、図15は、各問い合わせ
テキストに対して検索条件作成部13で作成される検索
条件の例である。
【0078】問い合わせ1においては"water-proof"な
るテキストが入力される。図5に示すトークン抽出処
理、および図9に示すハイフン語処理に従って、まずま
とめ上げトークンである"waterproof"が抽出され、続い
て個々のトークンである"water","proof"が抽出され
る。ここでは、図12に示す検索条件作成処理において
は、ステップS47からS50までの処理は行なわず、全ての
トークンがOR演算に変換されるものとし、最終的に図1
5に示す検索条件1が作成される。検索処理S45では、
検索条件1にマッチする文書として、文書ID4が同定
され、検索結果出力処理S46において、文書Dが出力さ
れる。
【0079】問い合わせ2においては"quake-proof"な
るテキストが入力される。図5に示すトークン抽出処
理、および図9に示すハイフン語処理に従って、まずま
とめ上げトークンである"quakeproof"が抽出される。こ
こでは、図12に示す検索条件作成処理において、ステ
ップS47からS50までの処理を実施するものとし、まとめ
上げトークンによる検索文書数の閾値Nを1とする。ま
ず、図15の検索条件2−1によって検索処理を実行す
るが、"quakeproof"は図8に示すインデックスには登録
されていないため、検索文書数は0となりNを下回る。
続いて、個々のトークンである"quake","proof"によっ
て図15の検索条件2−2が作成され、再度検索処理が
実行される。検索処理S45では、検索条件2−2にマッ
チする文書として、文書ID3が同定され、検索結果出
力処理S46において、文書Cが出力される。
【0080】問い合わせ3においては二重引用符に囲ま
れた"preelection campaign"なるテキストが入力され
る。なお、ここでは二重引用符に囲まれた問い合わせテ
キストは、隣接検索を指示するものとする。また、検索
条件における隣接演算は#NEXT()の形式とする。図5に
示すトークン抽出処理に従って、"preelection","camp
aign"が抽出され、隣接演算指示により、図12の検索
条件作成処理において図15の検索条件3が作成され
る。図13に示す隣接演算では、まず第1引数である"p
reelection"を評価する。図8のインデックスにおい
て、"preelection"は文書ID=1、出現位置(L1)=12、
構成トークン数(N1)=2で登録されている。次に、第2
引数である"campaign"を評価する。図8のインデックス
において、"campaign"は文書ID=1、出現位置(L2)=1
4、構成トークン数=1で登録されている。文書IDが同
一であり、L2がL1とN1の和と等しいため、検索条件3に
マッチする文書として、文書ID1が同定され、検索結
果出力処理S46において、文書Aが出力される。
【0081】なお、本実施の形態においては、文書検索
システム1としてスタンドアロン環境のシステムを示し
たが、これに限定されるものではなく、クライアント/
サーバシステムとして文書検索システム1を構築するよ
うにしてもよい。その場合文書検索システム1は、サー
バー側に設け、クライアントの入力装置5からの検索条
件等の入力をサーバーにある文書検索システム1の入力
処理部10へ送信し、検索結果は出力処理部15から要
求元のクライアントへ返信する。クライアントはその結
果をディスプレイ等の表示装置6へ表示するように構成
する。
【0082】
【発明の効果】請求項1に記載の発明は、対象とする文
書データから、特定のパターンに合致するトークンの連
続についてまとめ上げたトークンと、個々の複数のトー
クンとの双方を抽出することができるので、ハイフン語
に関する表記のゆれ(ハイフンの有無、ハイフン語全体
と個々の構成語)に起因する検索洩れを、検索効率を低
下することなく回避し、また、ハイフン語処理に伴う位
置情報の矛盾を解消することができる。
【0083】請求項2に記載の発明は、請求項1に記載
の文書検索システムにおいて、まとめ上げトークンと個
々のトークンを含む文書を、いずれも検索することがで
きる。
【0084】請求項3に記載の発明は、請求項1記載の
文書検索システムにおいて、一次検索における検索ノイ
ズを低減できるとともに、必要な場合にのみ、検索洩れ
を回避することができる。
【0085】請求項4に記載の発明は、請求項1〜3の
何れかの一に記載の文書検索システムにおいて、行末お
よび行末以外におけるハイフン語表記のゆれに対応する
ことができる。
【0086】請求項5に記載の発明は、請求項1〜3の
何れかの一に記載の文書検索システムにおいて、ハイフ
ンの有無のゆれが特に生じ易い場合に限り、索引を二重
に作成し、索引サイズを減らすことができる。
【0087】請求項6に記載の発明は、請求項1〜3の
何れかの一に記載の文書検索システムにおいて、ハイフ
ンの有無のゆれが生じている可能性が高い場合に限り、
索引を二重に作成し、索引サイズを減らすことができ
る。
【0088】請求項7に記載の発明は、請求項1〜6の
何れかの一に記載の文書検索システムにおいて、まとめ
上げたトークンと隣接するトークンの位置関係を、正確
に記憶することができる。
【0089】請求項8に記載の発明は、請求項7に記載
の文書検索システムにおいて、ハイフン語に関して索引
が二重になっている場合でも、矛盾なく距離演算を行な
うことができる。
【0090】請求項9に記載の発明は、対象とする文書
データから、特定のパターンに合致するトークンの連続
についてまとめ上げたトークンと、個々の複数のトーク
ンとの双方を抽出することができるので、ハイフン語に
関する表記のゆれ(ハイフンの有無、ハイフン語全体と
個々の構成語)に起因する検索洩れを、検索効率を低下
することなく回避し、また、ハイフン語処理に伴う位置
情報の矛盾を解消することができる。
【0091】請求項10に記載の発明は、請求項9に記
載のプログラムにおいて、まとめ上げトークンと個々の
トークンを含む文書を、いずれも検索することができ
る。
【0092】請求項11に記載の発明は、請求項9記載
のプログラムにおいて、一次検索における検索ノイズを
低減できるとともに、必要な場合にのみ、検索洩れを回
避することができる。
【0093】請求項12に記載の発明は、請求項9〜1
1の何れかの一に記載のプログラムにおいて、行末およ
び行末以外におけるハイフン語表記のゆれに対応するこ
とができる。
【0094】請求項13に記載の発明は、請求項9〜1
1の何れかの一に記載のプログラムにおいて、ハイフン
の有無のゆれが特に生じ易い場合に限り、索引を二重に
作成し、索引サイズを減らすことができる。
【0095】請求項14に記載の発明は、請求項9〜1
1の何れかの一に記載のプログラムにおいて、ハイフン
の有無のゆれが生じている可能性が高い場合に限り、索
引を二重に作成し、索引サイズを減らすことができる。
【0096】請求項15に記載の発明は、請求項9〜1
4の何れかの一に記載のプログラムにおいて、まとめ上
げたトークンと隣接するトークンの位置関係を、正確に
記憶することができる。
【0097】請求項16に記載の発明は、請求項15に
記載のプログラムにおいて、ハイフン語に関して索引が
二重になっている場合でも、矛盾なく距離演算を行なう
ことができる。
【図面の簡単な説明】
【図1】この発明の一実施の形態である文書検索システ
ムの電気的な接続を示すブロック図である。
【図2】前記文書検索システムの機能ブロック図であ
る。
【図3】前記文書検索システムが行う処理を説明する説
明図である。
【図4】前記文書検索システムが行う処理を説明するフ
ローチャートである。
【図5】同フローチャートである。
【図6】前記文書検索システムが行う処理を説明する説
明図である。
【図7】同説明図である。
【図8】同説明図である。
【図9】前記文書検索システムが行う処理を説明するフ
ローチャートである。
【図10】同説明図である。
【図11】同説明図である。
【図12】同フローチャートである。
【図13】同フローチャートである。
【図14】同説明図である。
【図15】同説明図である。
【符号の説明】
1 文書検索システム 10 問い合わせ入力手段 12 索引登録手段、トークン抽出手段 13 検索条件作成手段 14 検索処理手段 15 出力処理手段 16 文書格納手段

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 自然言語によって記述された文書データ
    に対して識別子を付与して格納する文書格納手段と、 前記文書格納手段によって格納された文書データから、
    ユーザが所望する文書を検索するための問い合わせテキ
    ストを入力する問い合わせ入力手段と、 所定の区切り文字を境界として、前記文書格納手段によ
    って格納された文書データ、又は、前記問い合わせ入力
    手段によって入力されたテキストを単語単位の文字列で
    あるトークンに分割し、該トークンを少なくともその出
    現位置情報と共に抽出するトークン抽出手段と、 前記トークン抽出手段によって抽出されたトークン、該
    トークンが出現する文書データの識別子及び出現位置情
    報を対応付けてインデックスに記憶する索引登録手段
    と、 前記問い合わせ入力手段によって入力されたテキストか
    ら、前記トークン抽出手段により抽出されたトークンに
    基づいて、所定形式の検索条件を作成する検索条件作成
    手段と、 前記検索条件作成手段により作成された検索条件及び前
    記索引登録手段によって作成されたインデックスを参照
    し、該検索条件に合致する文書を検索する検索処理手段
    と、 前記文書格納手段よって格納された文書データから、前
    記検索処理手段により検索された文書を取り出して出力
    処理を行なう出力処理手段とを備え、 前記トークン抽出手段は、区切り文字を含む複数のトー
    クンの連続が特定のパターンに合致する場合には、区切
    り文字によって区切られた複数のトークンと同時に、複
    数のトークンをまとめ上げた1つのトークンを抽出する
    ものである文書検索システム。
  2. 【請求項2】 前記検索条件作成手段は、前記問い合わ
    せ入力手段によって入力されたテキストから、前記トー
    クン抽出手段により複数のトークンをまとめ上げたトー
    クンが抽出された場合は、まとめ上げトークンと、まと
    め上げトークンを構成する個々のトークンの双方を検索
    語とするものである請求項1に記載の文書検索システ
    ム。
  3. 【請求項3】 前記検索条件作成手段は、前記問い合わ
    せ入力手段によって入力されたテキストから、前記トー
    クン抽出手段により複数のトークンをまとめ上げたトー
    クンが抽出された場合は、先にまとめ上げトークンのみ
    を検索語として前記検索処理手段によって検索処理を実
    行し、検索された文書数が予め設定された閾値以下の場
    合に、まとめ上げトークンを構成する個々のトークンを
    検索語として再度検索処理を行なうものである請求項1
    記載の文書検索システム。
  4. 【請求項4】 前記トークン抽出手段は、前記特定のパ
    ターンとして区切り文字であるハイフン又はハイフンと
    改行の連続及びその前後のアルファベット文字列の連続
    を用いるものである請求項1〜3の何れかの一に記載の
    文書検索システム。
  5. 【請求項5】 前記トークン抽出手段は、特定のパター
    ンとして区切り文字であるハイフン又はハイフンと改行
    の連続及びその前後のアルファベット文字列の連続を用
    い、かつ、ハイフンに先行するトークンは接頭辞である
    請求項1〜3の何れかの一に記載の文書検索システム。
  6. 【請求項6】 前記トークン抽出手段は、特定のパター
    ンとして区切り文字であるハイフン又はハイフンと改行
    の連続及びその前後のアルファベット文字列の連続を用
    い、かつ、区切り文字を除いてまとめ上げたアルファベ
    ット文字列が辞書登録されている場合に抽出するもので
    ある請求項1〜3の何れかの一に記載の文書検索システ
    ム。
  7. 【請求項7】 前記索引登録手段は、トークンが出現す
    る文書データの識別子と出現位置情報に加えて、該トー
    クンを構成する部分トークン数を、前記トークン抽出手
    段により抽出されたトークンに対応付けて記憶する情報
    としているものである請求項1〜6の何れかの一に記載
    の文書検索システム。
  8. 【請求項8】 前記検索処理手段は、前記検索条件作成
    手段により作成された検索条件が検索語間の距離演算を
    含む場合は、前記索引登録手段において記憶された部分
    トークン数を検索語間の距離に加算するものである請求
    項7に記載の文書検索システム。
  9. 【請求項9】 自然言語によって記述された文書データ
    に対して識別子を付与して格納する文書格納処理と、 前記文書格納手段によって格納された文書データから、
    ユーザが所望する文書を検索するための問い合わせテキ
    ストを入力する問い合わせ入力処理と、 所定の区切り文字を境界として、前記文書格納処理によ
    って格納された文書データ、又は、前記問い合わせ入力
    処理によって入力されたテキストを単語単位の文字列で
    あるトークンに分割し、該トークンを少なくともその出
    現位置情報と共に抽出するトークン抽出処理と、 前記トークン抽出処理によって抽出されたトークン、該
    トークンが出現する文書データの識別子及び出現位置情
    報を対応付けてインデックスに記憶する索引登録処理
    と、 前記問い合わせ入力処理によって入力されたテキストか
    ら、前記トークン抽出処理により抽出されたトークンに
    基づいて、所定形式の検索条件を作成する検索条件作成
    処理と、 前記検索条件作成処理により作成された検索条件及び前
    記索引登録処理によって作成されたインデックスを参照
    し、該検索条件に合致する文書を検索する検索処理処理
    と、 前記文書格納処理よって格納された文書データから、前
    記検索処理処理により検索された文書を取り出して出力
    処理を行なう出力処理処理と、をコンピュータに実行さ
    せ、 前記トークン抽出処理は、区切り文字を含む複数のトー
    クンの連続が特定のパターンに合致する場合には、区切
    り文字によって区切られた複数のトークンと同時に、複
    数のトークンをまとめ上げた1つのトークンを抽出する
    ものである、コンピュータに読取り可能なプログラム。
  10. 【請求項10】 前記検索条件作成処理は、前記問い合
    わせ入力処理によって入力されたテキストから、前記ト
    ークン抽出処理により複数のトークンをまとめ上げたト
    ークンが抽出された場合は、まとめ上げトークンと、ま
    とめ上げトークンを構成する個々のトークンの双方を検
    索語とするものである請求項9に記載のプログラム。
  11. 【請求項11】 前記検索条件作成処理は、前記問い合
    わせ入力処理によって入力されたテキストから、前記ト
    ークン抽出処理により複数のトークンをまとめ上げたト
    ークンが抽出された場合は、先にまとめ上げトークンの
    みを検索語として前記検索処理処理によって検索処理を
    実行し、検索された文書数が予め設定された閾値以下の
    場合に、まとめ上げトークンを構成する個々のトークン
    を検索語として再度検索処理を行なうものである請求項
    9記載のプログラム。
  12. 【請求項12】 前記トークン抽出処理は、前記特定の
    パターンとして区切り文字であるハイフン又はハイフン
    と改行の連続及びその前後のアルファベット文字列の連
    続を用いるものである請求項9〜11の何れかの一に記
    載のプログラム。
  13. 【請求項13】 前記トークン抽出処理は、特定のパタ
    ーンとして区切り文字であるハイフン又はハイフンと改
    行の連続及びその前後のアルファベット文字列の連続を
    用い、かつ、ハイフンに先行するトークンは接頭辞であ
    る請求項9〜11の何れかの一に記載のプログラム。
  14. 【請求項14】 前記トークン抽出処理は、特定のパタ
    ーンとして区切り文字であるハイフン又はハイフンと改
    行の連続及びその前後のアルファベット文字列の連続を
    用い、かつ、区切り文字を除いてまとめ上げたアルファ
    ベット文字列が辞書登録されている場合に抽出するもの
    である請求項9〜11の何れかの一に記載のプログラ
    ム。
  15. 【請求項15】 前記索引登録処理は、トークンが出現
    する文書データの識別子と出現位置情報に加えて、該ト
    ークンを構成する部分トークン数を、前記トークン抽出
    処理により抽出されたトークンに対応付けて記憶する情
    報としているものである請求項9〜14の何れかの一に
    記載のプログラム。
  16. 【請求項16】 前記検索処理処理は、前記検索条件作
    成処理により作成された検索条件が検索語間の距離演算
    を含む場合は、前記索引登録処理において記憶された部
    分トークン数を検索語間の距離に加算するものである請
    求項15に記載のプログラム。
JP2001070406A 2001-03-13 2001-03-13 文書検索システム及びプログラム Pending JP2002269116A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001070406A JP2002269116A (ja) 2001-03-13 2001-03-13 文書検索システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070406A JP2002269116A (ja) 2001-03-13 2001-03-13 文書検索システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2002269116A true JP2002269116A (ja) 2002-09-20

Family

ID=18928287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070406A Pending JP2002269116A (ja) 2001-03-13 2001-03-13 文書検索システム及びプログラム

Country Status (1)

Country Link
JP (1) JP2002269116A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226843A (ja) * 2007-06-14 2007-09-06 Hitachi Ltd 文書管理システム及び文書管理方法
JP2008541272A (ja) * 2005-05-09 2008-11-20 プロビラ,インク. 署名生成および関連性を有するマッチングエンジン
JP2008546051A (ja) * 2005-05-20 2008-12-18 エヌエイチエヌ コーポレーション クエリマッチングシステム及びその方法、該方法を実行するためのプログラムが記録されたコンピュータ読取可能な記録媒体
JP2009252064A (ja) * 2008-04-09 2009-10-29 Internatl Business Mach Corp <Ibm> 検索システム、索引作成装置、検索エンジン、索引作成方法、検索方法およびプログラム
US10059788B2 (en) 2016-04-29 2018-08-28 Exxonmobil Chemical Patents Inc. Organoaluminum activators on clays
CN109299219A (zh) * 2018-08-31 2019-02-01 阿里巴巴集团控股有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
WO2022254706A1 (ja) * 2021-06-04 2022-12-08 日本電信電話株式会社 データ処理装置、データ処理方法、及びデータ処理プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008541272A (ja) * 2005-05-09 2008-11-20 プロビラ,インク. 署名生成および関連性を有するマッチングエンジン
JP2008546051A (ja) * 2005-05-20 2008-12-18 エヌエイチエヌ コーポレーション クエリマッチングシステム及びその方法、該方法を実行するためのプログラムが記録されたコンピュータ読取可能な記録媒体
JP2007226843A (ja) * 2007-06-14 2007-09-06 Hitachi Ltd 文書管理システム及び文書管理方法
JP2009252064A (ja) * 2008-04-09 2009-10-29 Internatl Business Mach Corp <Ibm> 検索システム、索引作成装置、検索エンジン、索引作成方法、検索方法およびプログラム
US10059788B2 (en) 2016-04-29 2018-08-28 Exxonmobil Chemical Patents Inc. Organoaluminum activators on clays
CN109299219A (zh) * 2018-08-31 2019-02-01 阿里巴巴集团控股有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
WO2022254706A1 (ja) * 2021-06-04 2022-12-08 日本電信電話株式会社 データ処理装置、データ処理方法、及びデータ処理プログラム

Similar Documents

Publication Publication Date Title
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
US20050278292A1 (en) Spelling variation dictionary generation system
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
US20020152258A1 (en) Method and system of intelligent information processing in a network
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP4714127B2 (ja) 記号列検索方法、プログラムおよび装置ならびにそのトライの生成方法、プログラムおよび装置
JP2002269116A (ja) 文書検索システム及びプログラム
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
EP1986113A2 (en) System for retrieving information units
CN109923538B (zh) 文本检索装置、文本检索方法以及计算机程序
CN110795617A (zh) 一种搜索词的纠错方法及相关装置
CN108614821B (zh) 地质资料互联互查系统
JPH09319767A (ja) 類義語辞書登録方法
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JPH10283368A (ja) 情報処理装置及びその方法
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2002132789A (ja) 文書検索方法
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JP3511724B2 (ja) 文書検索方法
JP7371989B1 (ja) 検索サーバー、検索システム、及び検索プログラム
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
JPH0612451A (ja) 例文検索システム
JPS617937A (ja) 知識の連想検索方式

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040930