JP2002269116A

JP2002269116A - 文書検索システム及びプログラム

Info

Publication number: JP2002269116A
Application number: JP2001070406A
Authority: JP
Inventors: Sakiko Honma; 咲子本間
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】ハイフン語に関する表記のゆれに起因する検
索洩れを、検索効率を低下することなく回避し、ハイフ
ン語処理に伴う位置情報の矛盾を解消する。【解決手段】登録処理部１２は、所定の区切り文字を
境界として、文書データ又はテキストを単語単位の文字
列であるトークンに分割し、該トークンを少なくともそ
の出現位置情報と共に抽出する。この際に、区切り文字
を含む複数のトークンの連続が特定のパターンに合致す
る場合には、区切り文字によって区切られた複数のトー
クンと同時に、複数のトークンをまとめ上げた１つのト
ークンを抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、文書検索システ
ム及びプログラムに関する。

【０００２】

【従来の技術】英語のように、単語の区切りが明確な言
語によって記述された文書データを対象として全文検索
を行う場合、索引登録時には、空白やピリオド、コンマ
などの区切り文字を境界として各文書を単語単位の文字
列に区切り、抽出した文字列を、出現した文書の識別子
および該文書における出現位置（文書先頭からの単語
数）などと共に索引情報として記憶する。検索時には、
ユーザがテキスト形式で入力した問い合わせから索引登
録時と同様に単語文字列を抽出し、抽出された文字列を
もとに検索システムが処理できる検索条件を作成して、
検索を実行する。

【０００３】ピリオドやコンマの他に区切り文字として
扱われる記号の１つとして、ハイフンがある。ハイフン
は、連続する複数の語を１つのまとまり（複合語）とし
て表記する際に用いられる。

【０００４】例えば、"client-server system"，"quake
-resistant buildings"では、ハイフンで連結された２
語（以下、ハイフン語という）がひとまとまりの語とし
て後続の１語を修飾している。このような場合、ハイフ
ン語を構成する個々の語（例えば"quake"）が検索対象
となる可能性もあるため、ハイフンの前後を区切って個
々の索引語として登録することにより、検索漏れを避け
ることができる。

【０００５】

【発明が解決しようとする課題】しかしながら、ハイフ
ンは、本来１語として記述すべき文字列、あるいは、１
語として記述することが可能な文字列を、分割して記述
する際に用いられることもある。単語の途中で改行する
場合や（例えば"edu-cation"）、接頭辞と語幹の区切り
を表す場合（例えば"pre-election"）が、これに相当す
る。

【０００６】ハイフンを区切り文字として索引登録した
場合、前者では"edu"，"cation"が索引語となるため、
ユーザが問い合わせとして"education"を入力してもマ
ッチしない。また後者では"pre"，"election"が索引語
となるが、ユーザの問い合わせが"preelection"の場合
にはマッチしないという問題が生じる。

【０００７】検索対象文書やユーザの問い合わせにおけ
る表記のゆれを解決するための従来技術として、特開平
7-65013号公報がある。かかる技術では、異表記候補を
記述した異表記辞書を検索時に参照して検索語の展開を
行っている。

【０００８】しかしながら、単語の途中での改行は、大
多数の英単語が対象になる上に、１つの単語で複数の改
行可能箇所があるため（例えば"education"の場合には"
ed-u-ca-tion"の３ヶ所で改行が可能）、辞書の構築が
困難である。また、接頭辞と語幹の連続についても、新
語生成力が強いため、辞書による問題の解決には限界が
ある。更に、検索洩れを厳密に避けるためには、検索語
に対して常に可能なハイフン表記への展開を行なう必要
があり、検索効率低下の問題が生じる。

【０００９】懸かる問題を解決する方法として、ハイフ
ン前後のアルファベット文字列を結合し、ハイフンを削
除して、１つのトークンとして索引登録するという方法
がある。しかしながら、この場合、例えば、"quake-res
istant"は"quakeresistant"で登録されてしまい、"quak
e"では検索できないという問題が生じる。これを避ける
ためには、ハイフン前後の文字列をまとめ上げたトーク
ンと、ハイフン前後の個々のトークンの両方を索引登録
する方法が考えられる。

【００１０】しかし、この場合、まとめ上げトークンの
位置情報が問題となる。例えば、"governor's pre-elec
tion campaign"というテキストから、"governor"，"pr
e"，"election"，"preelection"，"campaign"というト
ークンを抽出する場合、"governor"の位置情報を0、"pr
e"を1、"election"を2、"campaign"を3とした場合、"pr
eelection"の位置情報を1とした場合は、後続する"camp
aign"と隣接しないことになり、2とした場合は、先行す
る"governor"と隣接しないことになってしまう。

【００１１】更に、文書中に出現する全てのハイフン表
記に対して、二重の索引情報を設けるのは、索引サイズ
の無駄になるため、適当な方法で無駄な二重索引を排除
することが望ましい。

【００１２】この発明の目的は、対象とする文書データ
から、特定のパターンに合致するトークンの連続につい
てまとめ上げたトークンと、個々の複数のトークンとの
双方を抽出することを可能として、ハイフン語に関する
表記のゆれに起因する検索洩れを、検索効率を低下する
ことなく回避し、ハイフン語処理に伴う位置情報の矛盾
を解消することである。

【００１３】この発明の目的は、まとめ上げトークンと
個々のトークンを含む文書を、いずれも検索することで
ある。

【００１４】この発明の目的は、一次検索における検索
ノイズを低減するとともに、必要な場合にのみ、検索洩
れを回避することである。

【００１５】この発明の目的は、行末および行末以外に
おけるハイフン語表記のゆれに対応することである。

【００１６】この発明の目的は、ハイフンの有無のゆれ
が特に生じ易い場合に限り、索引を二重に作成し、索引
サイズを減らすことである。

【００１７】この発明の目的は、ハイフンの有無のゆれ
が生じている可能性が高い場合に限り、索引を二重に作
成し、索引サイズを減らすことである。

【００１８】この発明の目的は、まとめ上げたトークン
と隣接するトークンの位置関係を、正確に記憶すること
である。

【００１９】この発明の目的は、ハイフン語に関して索
引が二重になっている場合でも、矛盾なく距離演算を行
なうことである。

【００２０】

【課題を解決するための手段】請求項１に記載の発明
は、自然言語によって記述された文書データに対して識
別子を付与して格納する文書格納手段と、前記文書格納
手段によって格納された文書データから、ユーザが所望
する文書を検索するための問い合わせテキストを入力す
る問い合わせ入力手段と、所定の区切り文字を境界とし
て、前記文書格納手段によって格納された文書データ、
又は、前記問い合わせ入力手段によって入力されたテキ
ストを単語単位の文字列であるトークンに分割し、該ト
ークンを少なくともその出現位置情報と共に抽出するト
ークン抽出手段と、前記トークン抽出手段によって抽出
されたトークン、該トークンが出現する文書データの識
別子及び出現位置情報を対応付けてインデックスに記憶
する索引登録手段と、前記問い合わせ入力手段によって
入力されたテキストから、前記トークン抽出手段により
抽出されたトークンに基づいて、所定形式の検索条件を
作成する検索条件作成手段と、前記検索条件作成手段に
より作成された検索条件及び前記索引登録手段によって
作成されたインデックスを参照し、該検索条件に合致す
る文書を検索する検索処理手段と、前記文書格納手段よ
って格納された文書データから、前記検索処理手段によ
り検索された文書を取り出して出力処理を行なう出力処
理手段とを備え、前記トークン抽出手段は、区切り文字
を含む複数のトークンの連続が特定のパターンに合致す
る場合には、区切り文字によって区切られた複数のトー
クンと同時に、複数のトークンをまとめ上げた１つのト
ークンを抽出するものである文書検索システムである。

【００２１】したがって、対象とする文書データから、
特定のパターンに合致するトークンの連続についてまと
め上げたトークンと、個々の複数のトークンとの双方を
抽出することができるので、ハイフン語に関する表記の
ゆれ（ハイフンの有無、ハイフン語全体と個々の構成
語）に起因する検索洩れを、検索効率を低下することな
く回避し、また、ハイフン語処理に伴う位置情報の矛盾
を解消することができる。

【００２２】請求項２に記載の発明は、請求項１に記載
の文書検索システムにおいて、前記検索条件作成手段
は、前記問い合わせ入力手段によって入力されたテキス
トから、前記トークン抽出手段により複数のトークンを
まとめ上げたトークンが抽出された場合は、まとめ上げ
トークンと、まとめ上げトークンを構成する個々のトー
クンの双方を検索語とするものである。

【００２３】したがって、まとめ上げトークンと個々の
トークンを含む文書を、いずれも検索することができ
る。

【００２４】請求項３に記載の発明は、請求項１記載の
文書検索システムにおいて、前記検索条件作成手段は、
前記問い合わせ入力手段によって入力されたテキストか
ら、前記トークン抽出手段により複数のトークンをまと
め上げたトークンが抽出された場合は、先にまとめ上げ
トークンのみを検索語として前記検索処理手段によって
検索処理を実行し、検索された文書数が予め設定された
閾値以下の場合に、まとめ上げトークンを構成する個々
のトークンを検索語として再度検索処理を行なうもので
ある。

【００２５】したがって、一次検索における検索ノイズ
を低減できるとともに、必要な場合にのみ、検索洩れを
回避することができる。

【００２６】請求項４に記載の発明は、請求項１〜３の
何れかの一に記載の文書検索システムにおいて、前記ト
ークン抽出手段は、前記特定のパターンとして区切り文
字であるハイフン又はハイフンと改行の連続及びその前
後のアルファベット文字列の連続を用いるものである。

【００２７】したがって、行末および行末以外における
ハイフン語表記のゆれに対応することができる。

【００２８】請求項５に記載の発明は、請求項１〜３の
何れかの一に記載の文書検索システムにおいて、前記ト
ークン抽出手段は、特定のパターンとして区切り文字で
あるハイフン又はハイフンと改行の連続及びその前後の
アルファベット文字列の連続を用い、かつ、ハイフンに
先行するトークンは接頭辞である。

【００２９】したがって、ハイフンの有無のゆれが特に
生じ易い場合に限り、索引を二重に作成し、索引サイズ
を減らすことができる。

【００３０】請求項６に記載の発明は、請求項１〜３の
何れかの一に記載の文書検索システムにおいて、前記ト
ークン抽出手段は、特定のパターンとして区切り文字で
あるハイフン又はハイフンと改行の連続及びその前後の
アルファベット文字列の連続を用い、かつ、区切り文字
を除いてまとめ上げたアルファベット文字列が辞書登録
されている場合に抽出するものである。

【００３１】したがって、ハイフンの有無のゆれが生じ
ている可能性が高い場合に限り、索引を二重に作成し、
索引サイズを減らすことができる。

【００３２】請求項７に記載の発明は、請求項１〜６の
何れかの一に記載の文書検索システムにおいて、前記索
引登録手段は、トークンが出現する文書データの識別子
と出現位置情報に加えて、該トークンを構成する部分ト
ークン数を、前記トークン抽出手段により抽出されたト
ークンに対応付けて記憶する情報としているものであ
る。

【００３３】したがって、まとめ上げたトークンと隣接
するトークンの位置関係を、正確に記憶することができ
る。

【００３４】請求項８に記載の発明は、請求項７に記載
の文書検索システムにおいて、前記検索処理手段は、前
記検索条件作成手段により作成された検索条件が検索語
間の距離演算を含む場合は、前記索引登録手段において
記憶された部分トークン数を検索語間の距離に加算する
ものである。

【００３５】したがって、ハイフン語に関して索引が二
重になっている場合でも、矛盾なく距離演算を行なうこ
とができる。

【００３６】請求項９に記載の発明は、自然言語によっ
て記述された文書データに対して識別子を付与して格納
する文書格納処理と、前記文書格納手段によって格納さ
れた文書データから、ユーザが所望する文書を検索する
ための問い合わせテキストを入力する問い合わせ入力処
理と、所定の区切り文字を境界として、前記文書格納処
理によって格納された文書データ、又は、前記問い合わ
せ入力処理によって入力されたテキストを単語単位の文
字列であるトークンに分割し、該トークンを少なくとも
その出現位置情報と共に抽出するトークン抽出処理と、
前記トークン抽出処理によって抽出されたトークン、該
トークンが出現する文書データの識別子及び出現位置情
報を対応付けてインデックスに記憶する索引登録処理
と、前記問い合わせ入力処理によって入力されたテキス
トから、前記トークン抽出処理により抽出されたトーク
ンに基づいて、所定形式の検索条件を作成する検索条件
作成処理と、前記検索条件作成処理により作成された検
索条件及び前記索引登録処理によって作成されたインデ
ックスを参照し、該検索条件に合致する文書を検索する
検索処理処理と、前記文書格納処理よって格納された文
書データから、前記検索処理処理により検索された文書
を取り出して出力処理を行なう出力処理処理と、をコン
ピュータに実行させ、前記トークン抽出処理は、区切り
文字を含む複数のトークンの連続が特定のパターンに合
致する場合には、区切り文字によって区切られた複数の
トークンと同時に、複数のトークンをまとめ上げた１つ
のトークンを抽出するものである、コンピュータに読取
り可能なプログラムである。

【００３７】したがって、対象とする文書データから、
特定のパターンに合致するトークンの連続についてまと
め上げたトークンと、個々の複数のトークンとの双方を
抽出することができるので、ハイフン語に関する表記の
ゆれ（ハイフンの有無、ハイフン語全体と個々の構成
語）に起因する検索洩れを、検索効率を低下することな
く回避し、また、ハイフン語処理に伴う位置情報の矛盾
を解消することができる。

【００３８】請求項１０に記載の発明は、請求項９に記
載のプログラムにおいて、前記検索条件作成処理は、前
記問い合わせ入力処理によって入力されたテキストか
ら、前記トークン抽出処理により複数のトークンをまと
め上げたトークンが抽出された場合は、まとめ上げトー
クンと、まとめ上げトークンを構成する個々のトークン
の双方を検索語とするものである。

【００３９】したがって、まとめ上げトークンと個々の
トークンを含む文書を、いずれも検索することができ
る。

【００４０】請求項１１に記載の発明は、請求項９記載
のプログラムにおいて、前記検索条件作成処理は、前記
問い合わせ入力処理によって入力されたテキストから、
前記トークン抽出処理により複数のトークンをまとめ上
げたトークンが抽出された場合は、先にまとめ上げトー
クンのみを検索語として前記検索処理処理によって検索
処理を実行し、検索された文書数が予め設定された閾値
以下の場合に、まとめ上げトークンを構成する個々のト
ークンを検索語として再度検索処理を行なうものであ
る。

【００４１】したがって、一次検索における検索ノイズ
を低減できるとともに、必要な場合にのみ、検索洩れを
回避することができる。

【００４２】請求項１２に記載の発明は、請求項９〜１
１の何れかの一に記載のプログラムにおいて、前記トー
クン抽出処理は、前記特定のパターンとして区切り文字
であるハイフン又はハイフンと改行の連続及びその前後
のアルファベット文字列の連続を用いるものである。

【００４３】したがって、行末および行末以外における
ハイフン語表記のゆれに対応することができる。

【００４４】請求項１３に記載の発明は、請求項９〜１
１の何れかの一に記載のプログラムにおいて、前記トー
クン抽出処理は、特定のパターンとして区切り文字であ
るハイフン又はハイフンと改行の連続及びその前後のア
ルファベット文字列の連続を用い、かつ、ハイフンに先
行するトークンは接頭辞である。

【００４５】したがって、ハイフンの有無のゆれが特に
生じ易い場合に限り、索引を二重に作成し、索引サイズ
を減らすことができる。

【００４６】請求項１４に記載の発明は、請求項９〜１
１の何れかの一に記載のプログラムにおいて、前記トー
クン抽出処理は、特定のパターンとして区切り文字であ
るハイフン又はハイフンと改行の連続及びその前後のア
ルファベット文字列の連続を用い、かつ、区切り文字を
除いてまとめ上げたアルファベット文字列が辞書登録さ
れている場合に抽出するものである。

【００４７】したがって、ハイフンの有無のゆれが生じ
ている可能性が高い場合に限り、索引を二重に作成し、
索引サイズを減らすことができる。

【００４８】請求項１５に記載の発明は、請求項９〜１
４の何れかの一に記載のプログラムにおいて、前記索引
登録処理は、トークンが出現する文書データの識別子と
出現位置情報に加えて、該トークンを構成する部分トー
クン数を、前記トークン抽出処理により抽出されたトー
クンに対応付けて記憶する情報としているものである。

【００４９】したがって、まとめ上げたトークンと隣接
するトークンの位置関係を、正確に記憶することができ
る。

【００５０】請求項１６に記載の発明は、請求項１５に
記載のプログラムにおいて、前記検索処理処理は、前記
検索条件作成処理により作成された検索条件が検索語間
の距離演算を含む場合は、前記索引登録処理において記
憶された部分トークン数を検索語間の距離に加算するも
のである。

【００５１】したがって、ハイフン語に関して索引が二
重になっている場合でも、矛盾なく距離演算を行なうこ
とができる。

【００５２】

【発明の実施の形態】本発明の一実施の形態について説
明する。

【００５３】図１は、文書検索システム１のハードウェ
ア構成を概略的に示すブロック図である。図１に示すよ
うに、この文書検索システム１は、各部を制御する機能
を有する中央処理装置（ＣＰＵ）２、ＲＯＭやＲＡＭ等
で構成されるメモリ３、ハードディスク４、キーボード
やマウス等で種々の指示を与える入力装置５、ＣＲＴ又
は液晶ディスプレイ（ＬＣＤ）等の表示装置６、ＣＤ，
ＤＶＤ，ＦＤなどの記憶媒体２１に対するデータの読み
取りを行なう記憶媒体読取装置８、インターネットなど
のネットワーク２２と接続する通信制御装置２３が、バ
ス９によって接続されて構成されている。

【００５４】ハードディスク４には、この発明のプログ
ラムを実現する文書検索プログラム等各種プログラムが
記憶されている。このプログラムは、記憶媒体２１から
記憶媒体読取装置８により読み取るか、あるいは、イン
ターネットなどのネットワーク２２からダウンロードす
るなどして、ハードディスク４にインストールしたもの
である。このインストールにより文書検索システム１は
動作可能な状態となる。この対話プログラムは、特定の
アプリケーションソフトの一手段をなすものであっても
よい。また、所定のＯＳ上で動作するものであってもよ
い。

【００５５】図２は、文書検索システム１の機能構成を
概略的に示すブロック図である。図２に示すように、メ
モリ３には入力処理部１０、テキスト処理部１１、登録
処理部１２、検索条件作成部１３、検索処理部１４、出
力処理部１５が用意され、中央演算装置２によって実行
を制御される。また、図２に示すように、ハードディス
ク４には、多数の文書データを格納する文書格納手段
（文書データベース）１６、各文書データの索引（イン
デックス）を格納する索引記憶手段（インデックス格納
部）１７、テキスト処理部１１で接頭辞の処理を行なう
際に参照する接頭辞テーブル１８、テキスト処理部１１
でハイフン語をまとめ上げたトークンのチェックを行な
う際に参照する単語辞書１９が用意されている。

【００５６】まず、このような構成における索引登録処
理の概略を示す。入力処理部１０は、入力装置５から入
力された登録の指示を登録処理部１２に送る。登録処理
部１２は、入力処理部１０から送られた指示に従って、
文書データベース１６から１文書ずつ文書データを読み
出し、その読み出された文書データをテキスト処理部１
１に送る。テキスト処理部１１は、送られたデータを処
理してトークン（索引語）を抽出し、出現位置情報と共
に登録処理部１２に送る。更に、テキスト処理部１１
は、区切り文字を含む複数のトークンの連続が、メモリ
に記述された特定パターンに合致する場合は、該当する
複数トークンをまとめ上げた１つのトークン、および、
該まとめ上げトークンを構成する部分トークン数を抽出
し、登録処理部１２に送る。この際、必要に応じて接頭
辞テーブル１８、単語辞書１９を参照して、まとめ上げ
たトークンのチェックを行なう。

【００５７】次に、検索処理の概略を示す。入力処理部
１０は、入力装置５から入力された検索の問い合わせ
を、検索条件作成部１３に送る。検索条件作成部１３
は、問い合わせテキストをテキスト処理部１１に送る。
テキスト処理部１１は、送られた問い合わせテキスト
を、索引登録時と同様に処理してトークン（検索語）を
抽出し、検索条件作成部１３に送る。更に、テキスト処
理部１１は、区切り文字を含む複数のトークンの連続
が、メモリに記述された特定パターンに合致する場合
は、該当する複数トークンをまとめ上げた１つのトーク
ンを抽出し、検索条件作成部１３に送る。この際、必要
に応じて接頭辞テーブル１８、単語辞書１９を参照し
て、まとめ上げたトークンのチェックを行なう。検索条
件作成部１３は、送られた検索語を演算子の形式に変換
し、検索処理部１４が処理可能な検索条件を作成する。
検索処理部１４は、この検索条件に従って、インデック
ス格納部１７に格納されたインデックスを検索し、条件
を満たす文書を特定する。出力処理部１５では、検索処
理部１４で検索されたインデックスに基づく文書の情報
を表示装置６へ表示する。必要であれば、文書データベ
ース１６にアクセスして、文書データを出力する。

【００５８】次に、文書検索プログラムに従って中央処
理装置２が実行する文書登録処理及び文書検索処理につ
いて説明する。

【００５９】まず、文書登録処理について具体例を用い
て説明する。図３は登録対象文書の具体例を模式的に示
す平面図、図４は登録処理部１２における文書登録処理
の流れを概略的に示すフローチャート、図５はテキスト
処理部１１におけるトークン抽出処理の流れを概略的に
示すフローチャートである。

【００６０】図３に示すように、文書Ａは、文書中に"g
overnor's pre-election campaign"なる文字列を含む英
語の文書データであって、文書Ａをユニークに示す識別
子である文書ＩＤは"１"を付与されている。

【００６１】文書Ｂは、文書中に"edu-cation system"
なる文字列（"edu-"の直後には改行が存在する）を含む
英語の文書データであって、文書Ｂをユニークに示す識
別子である文書ＩＤは"２"を付与されている。

【００６２】文書Ｃは、文書中に"quake-resistant bui
ldings"なる文字列を含む英語の文書データであって、
文書Ｃをユニークに示す識別子である文書ＩＤは"３"を
付与されている。

【００６３】文書Ｄは、文書中に"waterproof coats"な
る文字列を含む英語の文書データであって、文書Ｄをユ
ニークに示す識別子である文書ＩＤは"４"を付与されて
いる。

【００６４】図４に示すように、文書登録処理は、ま
ず、ハードディスク４の文書データベース１６に格納さ
れた文書データの中に、インデックス未作成の文書があ
るか否かを判断する(S1)。インデックス未作成の文書が
ない場合には(S1-N)、全ての検索対象の文書データのイ
ンデックスが作成されているので、文書登録処理を終了
する。

【００６５】一方、インデックス未作成の文書がある場
合には(S1-Y)、インデックス未作成文書を読み込み(S
2)、文書データベース１４に格納された各文書をユニー
クに示す文書ＩＤを取得し(S3)、文書データをトークン
抽出処理に送る(S4)。トークン抽出処理からトークンが
返された場合は(S5-Y)、文書ＩＤなどと共にインデック
スに登録し(S6)、S4に戻ってトークン抽出処理を繰り返
す。トークン抽出処理からトークンが返されない場合は
(S5-N)、終了指示であれば(S7-Y)、処理中の文書は終了
したことを示すので、S1に戻って登録処理を繰り返す。
終了指示でなければ(S7-N)、S4に戻ってトークン抽出処
理を繰り返す。

【００６６】図５に示すように、トークン抽出処理は、
まず、出現位置をゼロにセット（初期化）し(S10)、開
始位置をセットする(S11)。文書末尾に達していれば(S1
2-Y)、終了指示をリターンして(S13)、処理を終了す
る。文書末尾に達していない場合は(S12-N)、開始位置
の文字が区切り文字であり(S14-Y)、かつハイフンであ
れば(S15-Y)、ハイフン語処理(S20)を実施してから、ハ
イフンでなければ(S15-N)直ちに、開始位置から区切り
文字の連続をスキップする(S16)。区切り文字の連続を
スキップした後、もしくは、開始位置の文字が区切り文
字でない場合(S14-N)は、非区切り文字の連続を抽出し
(S17)、抽出されたトークンと出現位置および構成トー
クン数（この場合は１）を返し(S18)、出現位置を１つ
進めて(S19)、S11に戻って処理を繰り返す。なお、ハイ
フン語処理(S20)によってハイフン前後のトークンをま
とめ上げたトークンが得られた場合は(S21-Y)、該トー
クンと出現位置および構成トークン数を返してから(S2
2)、S16に進む。

【００６７】図６は、スペース、タブ、改行以外に、区
切り文字として用いられる記号類の例、図７は、図３に
示した各文書Ａ，Ｂ，Ｃ，Ｄから索引登録対象として抽
出されたトークン情報の模式図、図８は、図７のトーク
ン情報から作成され、インデックス格納部１７に格納さ
れるインデックスの模式図である。なお、ここでは、所
有格を示す"'s"は削除して登録するものとしている。

【００６８】図９は、図５のステップS21におけるハイ
フン語処理の流れを概略的に示すフローチャートであ
る。まず、ハイフンの直前がアルファベットのみで構成
される文字列（英字列）でない場合は(S30-N)、処理を
終了する。ハイフンの直前が英字列であり(S30-Y)、ハ
イフンの直後が英字列である場合(S31-Y)、または、直
後が改行で(S32-Y)、かつ、次行の先頭が英字列である
場合は(S33-Y)、ハイフン前後の文字列を連結して１つ
のトークンとする(S34)。

【００６９】次に、ステップS35に進み、接頭辞テーブ
ル１８を参照して、ハイフン直前の英字列が接頭辞であ
るかをチェックし、ハイフン直前の英字列が接頭辞であ
る場合は(S35-Y)、連結したトークンと構成トークン数
（この場合は２）を返して(S37)、処理を終了する。

【００７０】そして、ステップS36に進み、単語辞書１
９を参照して、連結したトークンが辞書登録されている
かをチェックし、登録されている場合は(S36-Y)、連結
したトークンと構成トークン数（この場合は２）を返し
て(S37)、処理を終了する。なお、図１０は、接頭辞テ
ーブル１８の模式図である。また、図１１は、単語辞書
１９の模式図である。

【００７１】図７、８の摸式図は、図９のハイフン語処
理において、ステップS35およびS36を実施しない場合の
例である。ステップS35を実施した場合は、文書ＩＤ１
における"preelection"が、ステップS36を実施した場合
は、文書ＩＤ２における"education"が、それぞれまと
め上げトークンとして抽出されるが、文書ＩＤ３におけ
る"quakeresistant"は抽出されないことになる。

【００７２】次に、文書検索プログラムに従って中央処
理装置２が実行する文書検索処理について説明する。

【００７３】図１２は検索条件作成部１３における検索
条件作成処理の流れを概略的に示すフローチャート、図
１３は検索処理部１４における距離演算処理の一例の流
れを概略的に示すフローチャートである。なお、簡単の
ため、図１３においては、検索語２語に対して隣接演算
を行なう場合について説明している。また、ここでは、
検索条件作成部は、トークン抽出処理から返された文字
列をOR演算に変換するものとするが、特別な指示があっ
た場合は隣接演算に変換するものとする。

【００７４】図１２に示すように、文書検索処理は、ま
ず、入力部５からの入力を入力処理部１０が処理し、検
索条件作成部１３に送る。検索条件作成部１３は、送ら
れた指示が終了指示であれば(S40-Y)、処理を終了す
る。終了指示でなければ(S40-N)、問い合わせが入力さ
れたかを判断して、問い合わせが入力されれば(S41-
Y)、問い合わせテキストを図５に示したトークン抽出処
理に送る(S42)。トークン抽出処理から返されたトーク
ンがまとめ上げトークンである場合(S47-Y)、まとめ上
げトークン単独で検索処理を行ない(S48)、検索結果を
出力する(S49)。検索された文書数が閾値Ｎ以上であれ
ば(S50-Y)、S40で終了指示の判断を行ない、Ｎ以上でな
ければ(S50-N)、S42に戻って処理を続ける。

【００７５】トークン抽出処理からトークンがまとめ上
げトークンでない場合(S47-N)、S51に進み、隣接検索指
示であれば(S51-Y)、隣接演算に変換し(S53)、隣接検索
指示でなければ(S51-N)、OR演算に変換し(S52)、S42に
戻って処理を繰り返す。問い合わせテキストに対するト
ークン処理が終了したら(S44)、作成された検索条件に
よって検索処理を行ない(S45)、検索結果を出力する(S4
6)。

【００７６】図１３に示すように、検索処理は、第１引
数である検索語がインデックスに登録されているかどう
かをチェックし(S60)、次に第２引数である検索語がイ
ンデックスに登録されているかどうかをチェックし(S6
1)、更に同一文書に現れているかをチェックする(S6
2)。次に、両引数の位置情報をチェックする(S63)。こ
こでは、第１引数に対する出現位置をL1、第２引数に対
する出現位置をL2、第１引数に対する構成トークン数を
N1とする。L2が、L1とN1の和と等しければ、条件を満た
す文書ＩＤを返して(S64)、処理を終了する。

【００７７】図１４は、入力処理部１０を通して入力さ
れる問い合わせテキストの例、図１５は、各問い合わせ
テキストに対して検索条件作成部１３で作成される検索
条件の例である。

【００７８】問い合わせ１においては"water-proof"な
るテキストが入力される。図５に示すトークン抽出処
理、および図９に示すハイフン語処理に従って、まずま
とめ上げトークンである"waterproof"が抽出され、続い
て個々のトークンである"water"，"proof"が抽出され
る。ここでは、図１２に示す検索条件作成処理において
は、ステップS47からS50までの処理は行なわず、全ての
トークンがOR演算に変換されるものとし、最終的に図１
５に示す検索条件１が作成される。検索処理S45では、
検索条件１にマッチする文書として、文書ＩＤ４が同定
され、検索結果出力処理S46において、文書Ｄが出力さ
れる。

【００７９】問い合わせ２においては"quake-proof"な
るテキストが入力される。図５に示すトークン抽出処
理、および図９に示すハイフン語処理に従って、まずま
とめ上げトークンである"quakeproof"が抽出される。こ
こでは、図１２に示す検索条件作成処理において、ステ
ップS47からS50までの処理を実施するものとし、まとめ
上げトークンによる検索文書数の閾値Ｎを１とする。ま
ず、図１５の検索条件２−１によって検索処理を実行す
るが、"quakeproof"は図８に示すインデックスには登録
されていないため、検索文書数は０となりＮを下回る。
続いて、個々のトークンである"quake"，"proof"によっ
て図１５の検索条件２−２が作成され、再度検索処理が
実行される。検索処理S45では、検索条件２−２にマッ
チする文書として、文書ＩＤ３が同定され、検索結果出
力処理S46において、文書Ｃが出力される。

【００８０】問い合わせ３においては二重引用符に囲ま
れた"preelection campaign"なるテキストが入力され
る。なお、ここでは二重引用符に囲まれた問い合わせテ
キストは、隣接検索を指示するものとする。また、検索
条件における隣接演算は#NEXT()の形式とする。図５に
示すトークン抽出処理に従って、"preelection"，"camp
aign"が抽出され、隣接演算指示により、図１２の検索
条件作成処理において図１５の検索条件３が作成され
る。図１３に示す隣接演算では、まず第１引数である"p
reelection"を評価する。図８のインデックスにおい
て、"preelection"は文書ＩＤ＝1、出現位置(L1)＝12、
構成トークン数(N1)＝2で登録されている。次に、第２
引数である"campaign"を評価する。図８のインデックス
において、"campaign"は文書ＩＤ＝1、出現位置(L2)＝1
4、構成トークン数＝1で登録されている。文書ＩＤが同
一であり、L2がL1とN1の和と等しいため、検索条件３に
マッチする文書として、文書ＩＤ１が同定され、検索結
果出力処理S46において、文書Ａが出力される。

【００８１】なお、本実施の形態においては、文書検索
システム１としてスタンドアロン環境のシステムを示し
たが、これに限定されるものではなく、クライアント／
サーバシステムとして文書検索システム１を構築するよ
うにしてもよい。その場合文書検索システム１は、サー
バー側に設け、クライアントの入力装置５からの検索条
件等の入力をサーバーにある文書検索システム１の入力
処理部１０へ送信し、検索結果は出力処理部１５から要
求元のクライアントへ返信する。クライアントはその結
果をディスプレイ等の表示装置６へ表示するように構成
する。

【００８２】

【発明の効果】請求項１に記載の発明は、対象とする文
書データから、特定のパターンに合致するトークンの連
続についてまとめ上げたトークンと、個々の複数のトー
クンとの双方を抽出することができるので、ハイフン語
に関する表記のゆれ（ハイフンの有無、ハイフン語全体
と個々の構成語）に起因する検索洩れを、検索効率を低
下することなく回避し、また、ハイフン語処理に伴う位
置情報の矛盾を解消することができる。

【００８３】請求項２に記載の発明は、請求項１に記載
の文書検索システムにおいて、まとめ上げトークンと個
々のトークンを含む文書を、いずれも検索することがで
きる。

【００８４】請求項３に記載の発明は、請求項１記載の
文書検索システムにおいて、一次検索における検索ノイ
ズを低減できるとともに、必要な場合にのみ、検索洩れ
を回避することができる。

【００８５】請求項４に記載の発明は、請求項１〜３の
何れかの一に記載の文書検索システムにおいて、行末お
よび行末以外におけるハイフン語表記のゆれに対応する
ことができる。

【００８６】請求項５に記載の発明は、請求項１〜３の
何れかの一に記載の文書検索システムにおいて、ハイフ
ンの有無のゆれが特に生じ易い場合に限り、索引を二重
に作成し、索引サイズを減らすことができる。

【００８７】請求項６に記載の発明は、請求項１〜３の
何れかの一に記載の文書検索システムにおいて、ハイフ
ンの有無のゆれが生じている可能性が高い場合に限り、
索引を二重に作成し、索引サイズを減らすことができ
る。

【００８８】請求項７に記載の発明は、請求項１〜６の
何れかの一に記載の文書検索システムにおいて、まとめ
上げたトークンと隣接するトークンの位置関係を、正確
に記憶することができる。

【００８９】請求項８に記載の発明は、請求項７に記載
の文書検索システムにおいて、ハイフン語に関して索引
が二重になっている場合でも、矛盾なく距離演算を行な
うことができる。

【００９０】請求項９に記載の発明は、対象とする文書
データから、特定のパターンに合致するトークンの連続
についてまとめ上げたトークンと、個々の複数のトーク
ンとの双方を抽出することができるので、ハイフン語に
関する表記のゆれ（ハイフンの有無、ハイフン語全体と
個々の構成語）に起因する検索洩れを、検索効率を低下
することなく回避し、また、ハイフン語処理に伴う位置
情報の矛盾を解消することができる。

【００９１】請求項１０に記載の発明は、請求項９に記
載のプログラムにおいて、まとめ上げトークンと個々の
トークンを含む文書を、いずれも検索することができ
る。

【００９２】請求項１１に記載の発明は、請求項９記載
のプログラムにおいて、一次検索における検索ノイズを
低減できるとともに、必要な場合にのみ、検索洩れを回
避することができる。

【００９３】請求項１２に記載の発明は、請求項９〜１
１の何れかの一に記載のプログラムにおいて、行末およ
び行末以外におけるハイフン語表記のゆれに対応するこ
とができる。

【００９４】請求項１３に記載の発明は、請求項９〜１
１の何れかの一に記載のプログラムにおいて、ハイフン
の有無のゆれが特に生じ易い場合に限り、索引を二重に
作成し、索引サイズを減らすことができる。

【００９５】請求項１４に記載の発明は、請求項９〜１
１の何れかの一に記載のプログラムにおいて、ハイフン
の有無のゆれが生じている可能性が高い場合に限り、索
引を二重に作成し、索引サイズを減らすことができる。

【００９６】請求項１５に記載の発明は、請求項９〜１
４の何れかの一に記載のプログラムにおいて、まとめ上
げたトークンと隣接するトークンの位置関係を、正確に
記憶することができる。

【００９７】請求項１６に記載の発明は、請求項１５に
記載のプログラムにおいて、ハイフン語に関して索引が
二重になっている場合でも、矛盾なく距離演算を行なう
ことができる。

【図面の簡単な説明】

【図１】この発明の一実施の形態である文書検索システ
ムの電気的な接続を示すブロック図である。

【図２】前記文書検索システムの機能ブロック図であ
る。

【図３】前記文書検索システムが行う処理を説明する説
明図である。

【図４】前記文書検索システムが行う処理を説明するフ
ローチャートである。

【図５】同フローチャートである。

【図６】前記文書検索システムが行う処理を説明する説
明図である。

【図７】同説明図である。

【図８】同説明図である。

【図９】前記文書検索システムが行う処理を説明するフ
ローチャートである。

【図１０】同説明図である。

【図１１】同説明図である。

【図１２】同フローチャートである。

【図１３】同フローチャートである。

【図１４】同説明図である。

【図１５】同説明図である。

【符号の説明】

１文書検索システム１０問い合わせ入力手段１２索引登録手段、トークン抽出手段１３検索条件作成手段１４検索処理手段１５出力処理手段１６文書格納手段

Claims

【特許請求の範囲】

【請求項１】自然言語によって記述された文書データ
に対して識別子を付与して格納する文書格納手段と、前記文書格納手段によって格納された文書データから、
ユーザが所望する文書を検索するための問い合わせテキ
ストを入力する問い合わせ入力手段と、所定の区切り文字を境界として、前記文書格納手段によ
って格納された文書データ、又は、前記問い合わせ入力
手段によって入力されたテキストを単語単位の文字列で
あるトークンに分割し、該トークンを少なくともその出
現位置情報と共に抽出するトークン抽出手段と、前記トークン抽出手段によって抽出されたトークン、該
トークンが出現する文書データの識別子及び出現位置情
報を対応付けてインデックスに記憶する索引登録手段
と、前記問い合わせ入力手段によって入力されたテキストか
ら、前記トークン抽出手段により抽出されたトークンに
基づいて、所定形式の検索条件を作成する検索条件作成
手段と、前記検索条件作成手段により作成された検索条件及び前
記索引登録手段によって作成されたインデックスを参照
し、該検索条件に合致する文書を検索する検索処理手段
と、前記文書格納手段よって格納された文書データから、前
記検索処理手段により検索された文書を取り出して出力
処理を行なう出力処理手段とを備え、前記トークン抽出手段は、区切り文字を含む複数のトー
クンの連続が特定のパターンに合致する場合には、区切
り文字によって区切られた複数のトークンと同時に、複
数のトークンをまとめ上げた１つのトークンを抽出する
ものである文書検索システム。
【請求項２】前記検索条件作成手段は、前記問い合わ
せ入力手段によって入力されたテキストから、前記トー
クン抽出手段により複数のトークンをまとめ上げたトー
クンが抽出された場合は、まとめ上げトークンと、まと
め上げトークンを構成する個々のトークンの双方を検索
語とするものである請求項１に記載の文書検索システ
ム。
【請求項３】前記検索条件作成手段は、前記問い合わ
せ入力手段によって入力されたテキストから、前記トー
クン抽出手段により複数のトークンをまとめ上げたトー
クンが抽出された場合は、先にまとめ上げトークンのみ
を検索語として前記検索処理手段によって検索処理を実
行し、検索された文書数が予め設定された閾値以下の場
合に、まとめ上げトークンを構成する個々のトークンを
検索語として再度検索処理を行なうものである請求項１
記載の文書検索システム。
【請求項４】前記トークン抽出手段は、前記特定のパ
ターンとして区切り文字であるハイフン又はハイフンと
改行の連続及びその前後のアルファベット文字列の連続
を用いるものである請求項１〜３の何れかの一に記載の
文書検索システム。
【請求項５】前記トークン抽出手段は、特定のパター
ンとして区切り文字であるハイフン又はハイフンと改行
の連続及びその前後のアルファベット文字列の連続を用
い、かつ、ハイフンに先行するトークンは接頭辞である
請求項１〜３の何れかの一に記載の文書検索システム。
【請求項６】前記トークン抽出手段は、特定のパター
ンとして区切り文字であるハイフン又はハイフンと改行
の連続及びその前後のアルファベット文字列の連続を用
い、かつ、区切り文字を除いてまとめ上げたアルファベ
ット文字列が辞書登録されている場合に抽出するもので
ある請求項１〜３の何れかの一に記載の文書検索システ
ム。
【請求項７】前記索引登録手段は、トークンが出現す
る文書データの識別子と出現位置情報に加えて、該トー
クンを構成する部分トークン数を、前記トークン抽出手
段により抽出されたトークンに対応付けて記憶する情報
としているものである請求項１〜６の何れかの一に記載
の文書検索システム。
【請求項８】前記検索処理手段は、前記検索条件作成
手段により作成された検索条件が検索語間の距離演算を
含む場合は、前記索引登録手段において記憶された部分
トークン数を検索語間の距離に加算するものである請求
項７に記載の文書検索システム。
【請求項９】自然言語によって記述された文書データ
に対して識別子を付与して格納する文書格納処理と、前記文書格納手段によって格納された文書データから、
ユーザが所望する文書を検索するための問い合わせテキ
ストを入力する問い合わせ入力処理と、所定の区切り文字を境界として、前記文書格納処理によ
って格納された文書データ、又は、前記問い合わせ入力
処理によって入力されたテキストを単語単位の文字列で
あるトークンに分割し、該トークンを少なくともその出
現位置情報と共に抽出するトークン抽出処理と、前記トークン抽出処理によって抽出されたトークン、該
トークンが出現する文書データの識別子及び出現位置情
報を対応付けてインデックスに記憶する索引登録処理
と、前記問い合わせ入力処理によって入力されたテキストか
ら、前記トークン抽出処理により抽出されたトークンに
基づいて、所定形式の検索条件を作成する検索条件作成
処理と、前記検索条件作成処理により作成された検索条件及び前
記索引登録処理によって作成されたインデックスを参照
し、該検索条件に合致する文書を検索する検索処理処理
と、前記文書格納処理よって格納された文書データから、前
記検索処理処理により検索された文書を取り出して出力
処理を行なう出力処理処理と、をコンピュータに実行さ
せ、前記トークン抽出処理は、区切り文字を含む複数のトー
クンの連続が特定のパターンに合致する場合には、区切
り文字によって区切られた複数のトークンと同時に、複
数のトークンをまとめ上げた１つのトークンを抽出する
ものである、コンピュータに読取り可能なプログラム。
【請求項１０】前記検索条件作成処理は、前記問い合
わせ入力処理によって入力されたテキストから、前記ト
ークン抽出処理により複数のトークンをまとめ上げたト
ークンが抽出された場合は、まとめ上げトークンと、ま
とめ上げトークンを構成する個々のトークンの双方を検
索語とするものである請求項９に記載のプログラム。
【請求項１１】前記検索条件作成処理は、前記問い合
わせ入力処理によって入力されたテキストから、前記ト
ークン抽出処理により複数のトークンをまとめ上げたト
ークンが抽出された場合は、先にまとめ上げトークンの
みを検索語として前記検索処理処理によって検索処理を
実行し、検索された文書数が予め設定された閾値以下の
場合に、まとめ上げトークンを構成する個々のトークン
を検索語として再度検索処理を行なうものである請求項
９記載のプログラム。
【請求項１２】前記トークン抽出処理は、前記特定の
パターンとして区切り文字であるハイフン又はハイフン
と改行の連続及びその前後のアルファベット文字列の連
続を用いるものである請求項９〜１１の何れかの一に記
載のプログラム。
【請求項１３】前記トークン抽出処理は、特定のパタ
ーンとして区切り文字であるハイフン又はハイフンと改
行の連続及びその前後のアルファベット文字列の連続を
用い、かつ、ハイフンに先行するトークンは接頭辞であ
る請求項９〜１１の何れかの一に記載のプログラム。
【請求項１４】前記トークン抽出処理は、特定のパタ
ーンとして区切り文字であるハイフン又はハイフンと改
行の連続及びその前後のアルファベット文字列の連続を
用い、かつ、区切り文字を除いてまとめ上げたアルファ
ベット文字列が辞書登録されている場合に抽出するもの
である請求項９〜１１の何れかの一に記載のプログラ
ム。
【請求項１５】前記索引登録処理は、トークンが出現
する文書データの識別子と出現位置情報に加えて、該ト
ークンを構成する部分トークン数を、前記トークン抽出
処理により抽出されたトークンに対応付けて記憶する情
報としているものである請求項９〜１４の何れかの一に
記載のプログラム。
【請求項１６】前記検索処理処理は、前記検索条件作
成処理により作成された検索条件が検索語間の距離演算
を含む場合は、前記索引登録処理において記憶された部
分トークン数を検索語間の距離に加算するものである請
求項１５に記載のプログラム。