JP2002269139A

JP2002269139A - 文書検索方法

Info

Publication number: JP2002269139A
Application number: JP2001064404A
Authority: JP
Inventors: Yasutsugu Ogawa; 泰嗣小川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-08
Filing date: 2001-03-08
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】登録された文書群から指定された文字列を含
む文書を簡易にかつ高速に検索することである。【解決手段】登録文書あるいは検索文字列であるテキ
ストをｎ−ｇｒａｍ（ｎ文字組）および単語に分解する
テキスト分割手段、登録文書中のｎ−ｇｒａｍに関する
出現情報をｎ−ｇｒａｍごとに保持しておくｎ−ｇｒａ
ｍ索引、登録文書中の単語境界に関する出現情報を保持
しておく単語境界索引、検索文字列をｎ−ｇｒａｍに分
割した結果に基づいてｎ−ｇｒａｍ索引を参照して検索
文字列を含む文書あるいはその文書における出現位置を
検索する文字列単位検索手段、文字列単位検索手段の結
果に対し検索文字列を単語に分割した結果に基づいて単
語境界索引を参照して検索文字列が単語として現われて
いるかを判断し、検索文字列を単語として含む文書を検
索する単語単位検索手段、からなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、登録された文書群
から指定された文字列を含む文書を検索する文書検索方
法に関する。

【０００２】

【従来の技術】登録された文書群から必要な文書を検索
する文書検索方法には、文字列単位の検索（以下、文字
列単位検索）と単語単位の検索（以下、単語単位検索）
の２つの方法がある。文字列単位検索では、ユーザが指
定した文字列（以下、検索文字列）を文字列として含む
文書を検索する。文字列単位検索を高速化する方法とし
ては、文書中のｎ文字組（以下、ｎ−ｇｒａｍ）を索引
単位として、索引単位ごとに出現した文書識別子と文書
内での出現位置を記録するｎ−ｇｒａｍ索引を用意
しておく方法が知られている。一方、単語単位検索で
は、ユーザが指定した検索文字列を単語として含む文書
を検索する。単語単位検索を高速化する方法としては、
文書中の単語を索引単位として、索引単位ごとに出現し
た文書識別子と文書内での出現位置を記録する単語索引
を用意しておく方法が知られている。

【０００３】

【発明が解決しようとする課題】しかし、いずれの検索
方法にも問題がある。文字列単位検索の場合、単語境界
を無視して検索するため、ユーザが意図しない文書が検
索結果に含まれることがある。例えば、「帯電」（電気
を帯びること；ｅｌｅｃｔｒｉｆｉｃａｔｉｏｎ）を検
索文字列とした場合、「彼女の携帯電話」という文書が
検索されてしまう。一方、単語単位検索の場合、日本語
においては単語の区切れが明示的に示されないため、索
引を作成する際に形態素解析などを施して単語を切り出
す必要があるが、現在の技術レベルでは形態素解析の誤
りが避けられない。したがって、形態素解析誤りが原因
で検索漏れが起こる。例えば、「東京都にある清水寺」
という文書を登録する際、／東／京都／に／ある／清水
寺／と形態素解析されるべきところを／東京／都／に／
ある／清水／寺／のように誤って解析されれば、検索文
字列が「京都」のときに「東京都にある清水寺」という
文書を検索することができない。

【０００４】上述した問題を避けるには、システムが両
検索方法をサポートし、ユーザがニーズに応じていずれ
かの検索方法を指定できるようにすればよい。そのよう
な検索方法の従来技術として特開２０００−６７０７０
がある。この発明では、文書登録時に単語の切れ目に特
殊な区切り文字を挿入し、区切り文字を挿入したデータ
からｎ−ｇｒａｍを切り出し、索引を作成する。その
際、区切り文字の前後を連結させて得られるｎ−ｇｒａ
ｍも切り出して索引に記録する。ユーザが単語単位検索
を指定した場合には区切り文字を含むｎ−ｇｒａｍを無
視することなく検索処理を行い、文字列単位検索を指定
した場合には区切り文字を含むｎ−ｇｒａｍを無視して
検索処理を行う。

【０００５】別の従来技術としては特開平７−８５０３
３号公報に記載された技術がある。この発明では、文字
ごとにその文字が出現する文書、その文書における出現
位置、および各出現位置が単語の先頭／末尾かのフラグ
を記録しておく。検索時には文字ごとの出現位置に基づ
いて文字列単位の検索を実現するとともに、単語の先頭
／末尾かのフラグも参照することで単語単位の検索も実
現する。

【０００６】しかし、前者には以下の問題がある。単語
の切れ目を区切り文字で表現している。一般に文字は固
定長（例えば、ＵＣＳ２表現のユニコードでは２バイ
ト）で表現されるが、表現可能な値がすべて意味ある文
字として使われる場合には、この方法を適用できない。

【０００７】一方、後者には以下の問題がある。文字列
単位の検索が文字索引に基づいているので、ｎ−ｇｒａ
ｍ索引と比較して検索速度が遅い。

【０００８】さらに、両者に共通の問題点として以下の
問題もある。単語の切れ目を発見するための形態素解析
系（あるいはそれが使用する辞書）を更新した場合、切
れ目の位置が変わるため、索引全体の作り直しが必要で
ある。その結果、索引のメンテナンス作業に多大な時間
を要する。

【０００９】

【課題を解決するための手段】本発明はこれら問題点を
鑑みて発明されたもので、文字列単位検索用のｎ−ｇｒ
ａｍ索引に加えて、単語の切れ目の位置を記録した単語
境界索引を用意する。文字列単位検索は従来と同じくｎ
−ｇｒａｍ索引を用いて処理する。単語単位索引は、文
字列単位検索を行った上で検索文字列の文書中での出現
位置が単語境界に一致するかを単語境界索引を用いて判
定し、実現する。本発明によれば、特殊な区切り文字が
不要なので、どんな文字コードに対して適用可能であ
る。また、文字列単位検索をｎ−ｇｒａｍ索引を用いて
行うので高速である。さらに、単語の切れ目に関する情
報はｎ−ｇｒａｍ索引には影響しないので、形態素解析
系を更新した場合でも単語境界索引のみを作り直せばよ
い。

【００１０】

【発明の実施の形態】本発明の第１の実施の形態を図面
に基づいて説明する。図１において、テキスト分割手段
は、登録文書あるいは検索条件に含まれるテキストをｎ
−ｇｒａｍおよび単語に分解する。Ｎ−ｇｒａｍ索引
は、登録文書を分割したｎ−ｇｒａｍの情報を、検索の
ために保持するものである。単語境界索引は、登録文書
を分割した単語の情報を、検索のために保持するもので
ある。文字列単位検索手段は、テキスト分割手段が検索
文字列を分割したｎ−ｇｒａｍに基づいて、ｎ−ｇｒａ
ｍ索引を用いて検索文字列を含む文書を検索するもので
ある。単語単位検索手段は、文字列単位検索手段で求め
られた文字列検索結果において検索文字列が単語として
出現しているかを単語境界索引を用いて決定するもので
ある。

【００１１】登録においては、文書が与えられるとテキ
スト分割手段でｎ−ｇｒａｍと単語に分割し、それら出
現情報をｎ−ｇｒａｍ索引および単語境界索引に記録す
る。

【００１２】なお、単語への分割には形態素解析を利用
するが、形態素解析は既存の手法（例えば、松本裕治
他、「単語と辞書」言語の科学第３巻、岩波書店の５３
ページ以降に書かれている）を採用すればよい。

【００１３】登録手順を図２の例を用いて説明する。登
録文書（＝文書１）の内容が図２の（ａ）、その形態素
解析結果は（ｂ）の通りであるとする。いま、索引単位
をｂｉ−ｇｒａｍ（２文字組；ｎ＝２のｎ−ｇｒａｍ）
とすると、この文書は「携帯」「帯電」のようなｂｉ−
ｇｒａｍに分割され、（ｃ）のようなｎ−ｇｒａｍ索引
ができる。ここで、左側の文字列（「携帯」など）が索
引単位であるｂｉ−ｇｒａｍを表し、右側の数字がその
索引単位が出現した文書識別子、その文書での出現回
数、各出現位置（文書先頭を１とした場合の文字数）を
表す。例えば、「帯電」に対する｛１，１，（５）｝
は、文書１には１回出現し、その位置は５文字目である
ことを意味する。（ｄ）は単語境界索引で、形態素解析
結果で得られる単語境界の出現位置を記録したものであ
る。データの記述方法はｎ−ｇｒａｍ索引と同じであ
り、｛１，５，（１，３，４，６，８）｝は文書１には
５回出現し、その位置は１，３，４，６，８文字目であ
ることを意味する。最後の８文字目は最後の単語の末尾
位置に対応する。

【００１４】なお、ｎ−ｇｒａｍ索引の構成方法は、ｎ
＝２であるｂｉ−ｇｒａｍ以外を用いてもかまわな
い。さらには、文字種に応じてｎを調整する方法でもか
まわない。また、索引中では文書識別子などを圧縮〔例
えば、Ｉ．Ｈ．Ｗｉｔｔｅｎ他、ＭａｎａｇｉｎｇＧ
ｉｇａｂｙｔｅｓ（ｓｅｃｏｎｄｅｄｉｔｉｏ
ｎ），ＭｏｒｇａｎＫａｕｆｍａｎｎの１１４〜１２
８ページの方法〕して記録してもよい。

【００１５】文字列単位検索では、検索文字列が与えら
れると、テキスト分割手段はｎ−ｇｒａｍに分割し、文
字列単位検索手段は分割されたｎ−ｇｒａｍに関する登
録文書中の出現文書あるいは出現文書とその文書内での
出現位置を用いて検索文字列を含む文書を決定する。

【００１６】図２の索引を用いるとして、文字列単位検
索処理を説明する。検索文字列を「帯電」とすると、
（この検索文字列自体がｂｉ−ｇｒａｍなので）テキス
ト分割手段は「帯電」を抽出する。つぎに、文字列単位
検索手段は、索引を調べると、「帯電」は文書１に出現
していることがわかり、文書１を検索結果とする。検索
文字列が「携帯電話」であれば、テキスト分割手段は
「携帯」［帯電］「電話」の３つのｂｉ−ｇｒａｍを抽
出する。つぎに、文字列単位検索手段は、これらのｂｉ
−ｇｒａｍを全て含む文書を特定し、その文書において
ｂｉ−ｇｒａｍが連続した位置に出現している場合には
その文書を検索結果とする。この場合、「携帯」［帯
電］［電話］の出現位置は４，５，６と１ずれているの
で「携帯電話」は文書１において出現位置４に現われて
いると判断でき、文書１を検索結果とする一方、単語単
位検索では、文字列単位検索において文字列検索手段が
求める検索文字列の文書における出現が単語としてであ
るかを判定する。手順は以下の通りである。

【００１７】（１）検索文字列を形態素解析し、単語の
区切りを得る。

【００１８】（２）検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する（なお、（３）（４）か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する）。見つからなければ終了。

【００１９】（３）前述の（２）で検索された文書につ
いて、検索文字列の出現位置を得る（なお、（４）から
戻ってきた場合には、検索文字列の次の出現位置を得
る）。見つからなければ（２）に戻る。

【００２０】（４）前述の（３）で得られた出現位置の
先頭から末尾までに含まれる単語境界を単語境界索引か
ら得る。その相対位置が（１）で得られた検索文字列の
単語境界と一致すれば（２）で特定された文書を検索結
果に追加し、（２）に戻る。相対位置が検索文字列の単
語境界と一致しなければ、（３）に戻る。

【００２１】検索文字列「帯電」を例に説明する。ま
ず、形態素解析し／帯電／という結果が得られ、単語境
界は１，３文字目（先頭位置が１文字目で、末尾位置は
先頭位置に単語の長さ２を足して得られる）とわかる。
次に文字列検索すると文書１が特定され、そこでの出現
位置は５文字目から７文字目とわかる。ところが、この
文書における単語境界は…，４，６，…文字目で、一致
しないことがわかる。これ以外の出現位置・文書は見つ
けられないので、単語単位検索によれば該当文書なしと
いう検索結果になる。つまり、「帯電」は単語としては
現われていないことがわかる。

【００２２】検索文字列が「携帯電話」だと以下のよう
になる。まず、形態素解析し／携帯／電話／という結果
が得られ、単語境界は１，３，５文字目とわかる。次に
文字列検索すると文書１が特定され、そこでの出現位置
は４文字目から８文字目とわかる。一方、この出現位置
付近の単語境界は４，６，８文字目であり、検索文字列
における単語境界と一致する。したがって、文書１は検
索結果に含まれる。この方法では、単語境界を文書の先
頭からの文字数で表現しているので、特殊文字を使用す
る必要がなく、任意の文字コードに対して適用可能であ
る。また、単語境界は文字列検索用のｎ−ｇｒａｍ索引
とは別に作成・管理されるので、形態素解析系の変更時
には単語境界索引だけを作り直せばよく、索引のメンテ
ナンス作業が軽減される。

【００２３】本発明の第２の実施の形態を説明する。前
述の第１の実施形態では、検索文字列の単語区切りと文
字列単位検索結果で得られる文書中の出現位置範囲の単
語区切りが一致することを検査する。したがって、検索
文字列が長くて単語区切りが多く含まれる場合には検索
文字列と文書中での単語区切りの一致検査に要する処理
量も多くなり、検索に時間を要する。

【００２４】そこで、検索文字列と文書中での単語境界
の一致検査で全ての単語境界を用いるのではなく、先頭
位置と末尾位置のみを使用する。検索文字列が３個以上
の単語境界を含むのは複合語と考えられるが、ほとんど
の場合、先頭位置と末尾位置の単語境界が一致すれば文
字列単位検索で生じた誤検索を除くことができる。ま
た、先頭位置と末尾位置しか一致を調べないのであれば
検索文字列を形態素解析する必要もなく、一致検査も検
索文字列の長さに依存しないので、検索を高速化でき
る。

【００２５】この方法では、単語単位検索の手順は以下
のように置き換わる。

【００２６】（１）検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する（なお、（２）（３）か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する）。見つからなければ終了。

【００２７】（２）前述の（１）で検索された文書につ
いて、検索文字列の出現位置を得る（なお、（３）から
戻ってきた場合には、検索文字列の次の出現位置を得
る）。見つからなければ（１）に戻る。

【００２８】（３）前述の（２）で得られた出現位置の
先頭から末尾が、単語境界索引に記録されていれば
（１）で特定された文書を検索結果に追加し、（１）に
戻る。記録されていなければ、（２）に戻る。

【００２９】検索文字列が「携帯電話」の場合、文字列
検索される文書１における出現位置は４文字目から８文
字目である。これらは単語境界索引に記録されているの
で、検索文字列の前後の位置は単語境界であり、文書１
は検索結果に含まれる。

【００３０】本発明の第３の実施の形態を説明する。前
述の第１、第２の実施の形態では単語単位検索により、
検索文字列が単語として出現しているかを判断した上で
検索を行っていた。しかし、特定の文字列で始まる単語
を含む文書を検索したい場合もある（以下では前方一致
検索と呼ぶ）。

【００３１】前方一致検索では、文字列単位検索におい
て文字列検索手段が求める検索文字列の文書における出
現の先頭が単語境界であるかを判定する。検索手順は以
下の通りである。

【００３２】（１）検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する（なお、（２）（３）か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する）。見つからなければ終了。

【００３３】（２）前述の（１）で検索された文書につ
いて、検索文字列の出現位置を得る（なお、（３）から
戻ってきた場合には、検索文字列の次の出現位置を得
る）。見つからなければ（１）に戻る。

【００３４】（３）前述の（２）で得られた出現位置の
先頭が、単語境界索引に記録されていれば（１）で特定
された文書を検索結果に追加し、（１）に戻る。記録さ
れていなければ、（２）に戻る。

【００３５】「携帯」ではじまる単語を含む文書を特定
したいという場合を例に説明する。「携帯」で文字列単
位検索される文書１における出現位置の先頭は４文字目
である。これは単語境界索引に記録されているので、文
書１は検索結果に含まれる。

【００３６】検索文字列が「帯電」であれば、その文字
列単位検索で得られる出現位置の先頭は５文字目で、単
語境界索引に記録されていないので文書１は検索結果に
含まれない。

【００３７】本発明の第４の実施の形態を説明する。第
３の実施の形態とは異なり、特定の文字列で終わる単語
を含む文書を検索したい場合もある（以下では、後方一
致検索と呼ぶ）。

【００３８】後方一致検索では、文字列単位検索におい
て文字列検索手段が求める検索文字列の文書における出
現の末尾が単語境界であるかを判定する。検索手順は以
下の通りである。

【００３９】（１）検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する（なお、（２）（３）か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する）。見つからなければ終了。

【００４０】（２）前述の（１）で検索された文書につ
いて、検索文字列の出現位置を得る（なお、（３）から
戻ってきた場合には、検索文字列の次の出現位置を得
る）。見つからなければ（１）に戻る。

【００４１】（３）前述の（２）で得られた出現位置の
末尾が、単語境界索引に記録されていれば（１）で特定
された文書を検索結果に追加し、（１）に戻る。記録さ
れていなければ、（２）に戻る。

【００４２】「電話」で終わる単語を含む文書を特定し
たいという場合を例に説明する。「電話」で文字列単位
検索される文書１における出現位置の末尾は８文字目で
ある。これは単語境界索引に記録されているので、文書
１は検索結果に含まれる。

【００４３】本発明の第５の実施の形態を説明する。第
１の実施の形態では、全ての単語境界をまとめて記録し
ていたため、検索時に単語境界索引から読み出し、照合
処理にまわされるデータ量が多いという問題がある。通
常の日本語であれば単語の平均文字数は３文字程度であ
るので、１０００文字の文書であれば単語数は３００程
度となる。

【００４４】そこで、本実施の形態では、単語の長さに
注目し、単語の長さ（文字数）によって単語境界位置を
分類し、異なるレコードとして記録する。例えば、図２
（ｄ）には単語長が１と２のものが含まれているので、
単語長ごとに異なるレコードとした場合、図３のように
なる。なお、図２（ｄ）では単語境界位置の末尾に最後
の単語の末尾位置を記録していたが、この方法では単語
の先頭位置と長さから単語の末尾位置が求められるの
で、最後の単語の末尾位置を記録する必要はない。した
がって、単語長１と２の単語境界の出現回数の合計は
４であり、図２（ｄ）の場合の出現回数５よりも１少
なくなっている。

【００４５】この方法で記録した場合でも、単語単位検
索の流れは同じである。ただし、ステップ（４）で文書
から単語境界位置を読み出す際には、検索文字列中の単
語の長さに応じた境界位置を読み出す点が異なる。例え
ば、検索文字列が「帯電」、「携帯電話」であれば、い
ずれも検索文字列中の単語の長さは２なので、単語長２
に対応する単語境界位置データのみを使用する。

【００４６】一方、第２、第３、第４の実施の形態に示
した単語単位検索では照合すべき単語境界に対応する単
語の長さが一意に特定できないので、全ての長さの単語
境界位置を位置順にマージした結果を単語境界位置とし
て使用する必要がある。マージの際、最後の単語の末尾
位置を最後の単語の先頭位置と長さから計算し、マージ
結果に含める必要がある。図３のデータであれば、
（３）と（１，４，６）を単にマージして（１，３，
４，６）とするのでなく、最後の単語の先頭位置６にそ
の単語の長さ２を足した８をアペンドした（１，３，
４，６，８）を単語境界の照合に使用する。

【００４７】本発明の第６の実施の形態を説明する。第
１の実施の形態では、全ての単語境界を記録していたた
め、単語境界索引が大きいという問題がある。１文書中
の単語数が３００の場合、位置を４バイトで記録する
と、１文書あたり１．２キロバイト必要になる。出現位
置は圧縮することでデータ量を削減することは可能だ
が、それでも記録すべき単語境界位置を減らすことが望
ましい。

【００４８】そこで、本実施の形態では、検索語として
実際に使用されるのは名詞等の自立語が大半であるとい
う点に注目し、文書登録時に形態素解析結果から特定の
品詞の単語についてのみ単語境界位置を単語境界索引に
記録する。例えば、図４（ａ）の文書は形態素解析によ
って（ｂ）のように単語分割される。これを実施形態１
の単語境界索引に記録すると（ｃ）のようになる。この
文書の大半の単語は助詞・助動詞・形式名詞であり、検
索文字列として使用されることが多い名詞類は「経験」
「台風」だけである。それにもかかわらず（ｃ）では全
ての単語の位置を記録しているので、多くの領域を使用
している。これに対し、本実施形態では名詞類である
「経験」「台風」の位置だけを記録する。この方法では
記録される単語が連続しているとは限らないので、連続
していない部分には連続していないことを表す特別な値
として０を挿入している。

【００４９】なお、この例では選択する品詞を名詞とし
たが、それ以外の品詞を含めてもかまわない。

【００５０】

【発明の効果】請求項１および請求項２に記載された文
書検索方法においては、文字列単位検索用のｎ−ｇｒａ
ｍ索引とは別個の単語境界索引を用いて単語単位検索を
提供しているので、どんな文字コードに対しても適用可
能であり、検索が高速で、索引のメンテナンスが簡単で
ある。

【００５１】請求項３記載の文書検索方法においては、
単語単位検索時に照合すべき単語境界の個数が少なくな
るので、検索処理が高速になる。

【００５２】請求項４記載の文書検索方法においては、
検索文字列ではじまる単語を検索できるので、ユーザに
柔軟な検索機能を提供できる。

【００５３】請求項５記載の文書検索方法においては、
検索文字列でおわる単語を検索できるので、ユーザに柔
軟な検索機能を提供できる。

【００５４】請求項６記載の文書検索方法においては、
単語境界索引を単語長に応じて分割するので、単語単位
検索時に参照すべき単語境界データが削減され、検索処
理が高速になる。

【００５５】請求項７記載の文書検索方法においては、
単語境界索引に記録する単語を品詞によって選択するの
で、単語境界索引が小型化される。

【図面の簡単な説明】

【図１】文書検索方法の概要を示すブロック図である。

【図２】登録文書と索引の例を示す説明図である。

【図３】単語の長さで分割した単語境界索引の例を示す
説明図である。

【図４】登録文書と単語境界索引の例を示す説明図であ
る。

Claims

【特許請求の範囲】

【請求項１】登録文書あるいは検索文字列であるテキ
ストをｎ−ｇｒａｍ（ｎ文字組）および単語に分解する
テキスト分割手段、登録文書中のｎ−ｇｒａｍに関する
出現情報をｎ−ｇｒａｍごとに保持しておくｎ−ｇｒａ
ｍ索引、登録文書中の単語境界に関する出現情報を保持
しておく単語境界索引、検索文字列をｎ−ｇｒａｍに分
割した結果に基づいてｎ−ｇｒａｍ索引を参照して検索
文字列を含む文書あるいはその文書における出現位置を
検索する文字列単位検索手段、文字列単位検索手段の結
果に対し検索文字列を単語に分割した結果に基づいて単
語境界索引を参照して検索文字列が単語として現われて
いるかを判断し、検索文字列を単語として含む文書を検
索する単語単位検索手段、からなることを特徴とする文
書検索方法。
【請求項２】ｎ−ｇｒａｍ索引および単語境界索引
は、出現情報として出現文書の文書識別子・出現文書で
の出現回数・出現文書での出現位置を含むことを特徴と
する請求項１記載の文書検索方法。
【請求項３】単語単位検索手段は、検索文字列の文書
中での出現の先頭位置と末尾位置がその文書の単語境界
に含まれている文書を、検索文字列を単語として含む文
書として検索することを特徴とする請求項１又は請求項
２記載の文書検索方法。
【請求項４】単語単位検索手段は、検索文字列の文書
中での出現の先頭位置がその文書の単語境界に含まれて
いる文書を、検索文字列ではじまる単語を含む文書とし
て検索することを特徴とする請求項１又は請求項２記載
の文書検索方法。
【請求項５】単語単位検索手段は、検索文字列の文書
中での出現の末尾位置がその文書の単語境界に含まれて
いる文書を、検索文字列で終わる単語を含む文書として
検索することを特徴とする請求項１又は請求項２記載の
文書検索方法。
【請求項６】単語境界索引は、単語の長さごとに単語
境界情報を記録することを特徴とする請求項１又は請求
項２記載の文書検索方法。
【請求項７】単語境界索引は、特定の品詞に属する単
語に関する単語境界情報を記録することを特徴とする請
求項１又は請求項２記載の文書検索方法。