JP3022539B1

JP3022539B1 - 文書検索装置

Info

Publication number: JP3022539B1
Application number: JP11001921A
Authority: JP
Inventors: 宏梅基
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1999-01-07
Filing date: 1999-01-07
Publication date: 2000-03-21
Anticipated expiration: 2019-01-07
Also published as: JP2000200287A; US6470334B1

Abstract

【要約】【課題】欧米語に限らずたとえば日本語のように単語
の区切りが明確でない文書に対しても、比較的小さな容
量のインデックスを用いて文書の全文検索を実行するこ
とができる文書検索装置を提供する。【解決手段】インデックス１に文書に含まれている全
ての単語について重複を省き、これら単語とともに文書
中で当該単語に隣接している単語に関する情報を付加し
て格納しておき、検索時には、複数の単語とこれら単語
の並びとを含む検索条件に基づいて、検索手段４、５
が、インデックス１に格納された複数の単語と検索条件
との合致を判定して、文書が検索条件に合致するか否か
を判定する。また、インデックス１から単語列を復元し
て、該当する文書を復元出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の単語を検索
者が指定した順序で含んでいる文書を、少ない容量のイ
ンデックスを用いて高速に検索することができる文書検
索装置に関する。

【０００２】

【従来の技術】大量の文書から必要な文書を検索する方
式の一つとして、文書の全文に含まれている単語をあら
かじめインデックスに登録しておき、そのインデックス
を用いて高速に検索する方式が知られている。この検索
方式の実現形態の一つは、単語から文書を求めるもので
ある。すなわち、文書の全文の他にインデックスを用意
しておき、そのインデックスに文書中に現れる全ての単
語と各単語が出現している文書へのポインタをあらかじ
め登録しておく。そして、検索時には、検索条件として
単語を受け取り、その単語に対応する文書へのポインタ
をインデックスから求めて、該当する文書の全文を出力
する。

【０００３】しかしながら、この方式では、検索条件と
して指定した単語が全文に含まれていさえすればその文
書は検索されてしまうため、検索結果に検索者が意図し
ない文書が多く含まれてしまうという問題がある。ま
た、検索結果の数を絞るために、検索条件として複数の
単語が同時に現われる文書を求める場合でも、検索語同
士の関係までは指定できないために、前述の問題は依然
として残ってしまう。

【０００４】特開平８─２４９３４６号公報には、キー
ワードの並び方を示す隣接インデックスを用いる文書検
索装置が開示されている。この文書検索装置によれば、
検索条件として入力された２つのキーワード同士の関係
を考慮した検索を行うことができる。ここで、インデッ
クスにあらかじめ登録しておく単語を登録対象の文書中
から取り出すために、一般に、自然言語処理の技術領域
で発展してきた形態素解析が利用されるが、現在の形態
素解析技術を用いた場合、常に正確かつ一意に文書が単
語列に分割されるとは限らない。たとえば、「披露宴会
場外」という文書に形態素解析を施すと、「披露│宴│
会場│外」、「披露宴│会場│外」、「披露│宴会│場
外」、「披露│宴会場│外」などの結果が得られる。な
お、「│」は単語の区切りを表す。このように形態素解
析を行うと、同一箇所の記述に対して異なる位置で単語
が区切られることがある。しかしながら、上記の文書検
索装置で用いるインデックスにおいては、隣接する単語
は１つに限られているため、形態素解析のそれぞれの結
果に対応した構造のインデックスを用意しなければなら
ず、インデックスの容量が膨大なものとなってしまう問
題があった。

【０００５】また、特開平８─２４９３５４号公報に
は、文書中における単語の出現位置をインデックスに格
納する文書検索装置が開示されている。この文書検索装
置によれば、形態素解析によって、複数の異なる単語区
切りが得られたり、更には同一文字列に対して異なる品
詞が推定された場合であっても、得られた単語を１つの
インデックスにまとめて登録することができる。しかし
ながら、この文書検索装置にあっても、インデックスに
登録する単語の数が膨大となって、インデックスの容量
が無視できないほど大きいものとなってしまう問題があ
った。上記のような事情は言語の種類に関わりなく言え
ることであるが、特に、欧米語のように単語の区切りが
明確でない日本語文書において顕著である。

【０００６】

【発明が解決しようとする課題】上記のように、従来の
インデックスを利用して全文検索を行う文書検索装置に
あっては、インデックスが膨大なものとなって大きな記
憶容量を必要とするばかりか、インデックス検索にも長
時間を要して総じて検索速度が低下してしまう課題があ
った。特に、この事情は日本語のように単語の区切りが
明確でない文書に対しては顕著であり、欧米語の場合よ
りもインデックスに登録する単語の数は増えてしまう。
また、単語の区切りの問題を回避するために、例えば、
単語ではなく文字を単位としてインデックスを構成しよ
うとした場合には、登録する単位が膨大になって必要な
インデックスの容量はさらに大きくなってしまう。

【０００７】本発明は上記従来の事情に鑑みなされたも
ので、欧米語に限らずたとえば日本語のように単語の区
切りが明確でない文書に対しても、比較的小さな容量の
インデックスを用いて文書の全文検索を実行することが
できる文書検索装置を提供することを目的とする。更
に、本発明は、文書の全文を登録データとして持たずと
も、インデックスのみを用いて単語のつながりを考慮し
た検索を行うことができ、更には、検索結果の文書全文
を復元して出力できる文書検索装置を提供することを目
的とする。更に、本発明は、インデックスに単語の品詞
情報も少ない容量で格納し、品詞情報の照合を利用した
検索を高速に行うことができる文書検索装置を提供する
ことを目的とする。すなわち、本発明は、文書を形態素
解析した結果をそのままの形で且つ少ない容量でインデ
ックスに格納しておき、このインデックスを利用した検
索を高速に行うことができる文書検索装置を提供するこ
とを目的とする。

【０００８】

【課題を解決するための手段】本発明の文書検索装置で
は、単語格納手段に、文書に含まれている全ての単語に
ついて重複を省き、これら単語とともに当該文書中で当
該単語に隣接している単語に関する情報を付加して格納
しておき、検索時には、複数の単語とこれら単語の並び
とを含む検索条件に基づいて、検索手段が、単語格納手
段に格納された複数の単語と当該検索条件との合致を判
定して、文書が検索条件に合致するか否かを判定する。
すなわち、入力された検索条件に合致する内容の文書が
検索によって得ることができるかが判定される。そし
て、特に、インデックスを構成する単語格納手段は、前
記全ての単語を当該単語格納手段におけるアドレスによ
って同定して格納するとともに、当該単語の直後に前記
隣接している単語を格納し、当該単語に前記単語に関す
る情報として前記隣接している単語に更に隣接している
単語が格納されるアドレスを所定の順序で付加して格納
しており、アドレスの繋がりにより文書中における単語
の並びを表しているとともに、単語の重複が省かれるこ
とにより比較的小さな容量で構成されている。

【０００９】なお、本発明の文書検索装置は、種々な態
様で実施することができるが、下記の実施例に示すよう
に、単語格納手段のインデックスをトライ形式のものと
したり、インデックスを複数の文書に含まれている全て
の単語について共通して構成したり、形式が標準形と表
層形とで異なる２つの同義な単語をインデックスにアド
レスによって繋げて格納したり、単語をその品詞情報を
タグ付けしてインデックスに格納して、文書検索手段が
単語の品詞情報を含む検索条件に基づいて検索条件との
合致を判定するようにすることもできる。

【００１０】また、本発明の文書検索装置では、文書出
力手段が、文書検索手段により合致が判定された複数の
単語をインデックスにおけるアドレスを辿った並びで出
力することにより、検索条件に合致した文書を復元して
出力する。したがって、インデックスの他に登録された
文書の全文を用意しておかずとも、検索された文書の全
文を復元して出力することができ、文書全文の記憶に要
する容量を削減することができる。

【００１１】また、本発明の文書検索装置では、文書索
引手段に文書を特定する情報（ポインタ）と当該文書中
に含まれる単語とをあらかじめ格納しておき、検索時に
は、文書絞込み手段が、複数の単語とこれら単語の並び
とを含む検索条件に基づいて、文書索引手段に格納され
た複数の文書の内で検索条件に含まれる全ての単語を含
む文書を特定する。そして、文書検索手段が、文書絞込
み手段から得られた文書の集合の中から、対応する単語
格納手段を用いて検索条件に含まれる複数の単語とこれ
ら単語の並びとに合致する文書の集合を検索する。した
がって、複数の文書毎或いは複数の文書集合毎にインデ
ックス（単語格納手段）を構成した場合に合っても、検
索条件に基づいて該当する文書の絞込みを行って、この
絞り込まれた文書に対応するインデックスを用いて検索
処理が行われるため、効率的な検索処理が実行される。

【００１２】また、本発明は上記のような機能を実現さ
せるプログラムをコンピュータに実行させることにより
実施することができるが、特に、上記のインデックスは
ＣＤＲＯＭ等の記憶媒体に記憶させておき、コンピュー
タにインストール或いはアクセスさせて、上記の全文検
索を実行させることができる。

【００１３】ここで、単語のつながりや文法的な役割な
どを検索時に考慮できると、検索結果をより検索者の意
図に沿ったものとすることが期待できる。このように単
語のつながりを考慮して検索するためには、インデック
スに各単語が出現している文書へのポインタと文書中に
おける各単語の位置とを対で登録しておき、検索時に
は、検索条件として複数の単語とそれらのつながりを受
け取り、その検索条件を満たす文書へのポインタをイン
デックスから求めるようにすることが考えられる。しか
しながら、単純にこのような方法を採用する場合には、
文書全文のデータの他に大きなインデックスが必要とな
ってしまう。なぜなら、単語から文書を求める場合に
は、文書中の異なり単語について一つずつ文書へのポイ
ンタを持たせればよいが、単語から文書と文書中の位置
を求める場合には、文書中に現れる全ての単語の各々に
ついて文書へのポインタと更には文書中の出現位置まで
持たせる必要があるからである。このような点につい
て、本発明では、文書全文のデータを持たずとも該当す
る文書を検索し、更には、当該文書を復元して出力でき
るため、上記のような膨大なポインタによりインデック
スが大容量となってしまうことはない。

【００１４】また、日本語のように単語の区切りが明確
でない文書に対しては、単語ではなく文字を単位として
インデックスを構成する方法が考えられる。たとえば、
文字をインデックスに登録して、文字列から文書と文書
中の文字の出現位置を求めるものである。すなわち、文
書の全文の他にインデックスを備え、あらかじめインデ
ックスに文書に現われる全ての文字と各文字が出現して
いる文書へのポインタと文書中における文字の出現位置
を対で登録しておく。そして、検索時には、検索条件と
して文字列を受け取り、文字列を構成する各文字を含
み、且つ、指定の順序で文字が出現する文書へのポイン
タを求める。しかしながら、単純にこのような方法を採
用する場合には、必要なインデックスの容量が巨大にな
ってしまう。なぜなら、文書中の総文字数は、異なり単
語数や総単語数と比較してはるかに多いために、文字の
持つ文書中の位置情報の総量は格段に増えるからであ
る。このような点について、本発明では、単語の単位で
インデックスを構成するため、このようにインデックス
が大容量となってしまうことはない。

【００１５】また、形態素解析を利用すると、日本語の
ように単語の区切りが明確でない文書であっても、文書
から単語を取り出すことができ、更には、各単語に品詞
情報を付与することができ、これらを利用すれば、イン
デックスを容易に作成でき、また、インデックスを用い
た検索を迅速に行うことができる。しかしながら、形態
素解析技術を用いた場合、常に正確かつ一意に文書が単
語列に分割されるとは限らず、上記に「披露宴会場外」
という文書で例示したように、同じ記述に対して異なる
位置で単語が区切られることがある。このため、形態素
解析の結果を利用して単純にインデックスを構成する場
合には、同じ記述に対にて異なり単語の数が膨大となっ
て、インデックスの容量が巨大化し、このインデックス
を用いた検索も処理速度が遅いものとなってしまう。

【００１６】一方、このように多くに単語をインデック
スに登録していない場合には、検索者が単語を使って検
索を行うときに、検索者の想定する単語と、検索システ
ムのインデックスに登録されている単語とが一致しない
ことが起きてしまう。たとえば、「コーヒー豆を絞り粕
とともに」という内容の文書を検索したいときに、検索
者は「絞り粕」を検索条件の単語として想定しているの
に対し、検索システムは「絞り粕」ではなく、「絞り」
と「粕」をインデックスに登録している場合がある。ま
たその逆に、検索者は「粕」を検索語として指定したの
に対し、検索システムは「絞り粕」しかインデックスに
登録していない場合もある。どちらの場合も検索もれが
発生して、対応する文書を正しく検索することができな
くなってしまう。このような点について、本発明では、
単語の並びを維持しつつ重複した単語を排除して、小容
量にもかかわらず多くの単語を登録してインデックスを
構成するため、インデックスを用いた迅速な検索処理を
実現し、また、もれのない検索者の意図に沿った検索を
実現することができる。

【００１７】また、文書に形態素解析を施すことによっ
て、文書を単語に分割できるだけではなく、単語の品詞
を推定することもできる。しかしながら、その推定され
た単語の品詞も、常に正確かつ一意であるとは限らな
い。たとえば「コーヒー豆を絞り粕とともに」という文
書において、「絞り」は名詞「絞り」とも動詞「絞る」
とも推定できる。したがって、上記の文書には直接的に
含まれていない「絞る」を検索者が検索条件の単語とし
た場合であっても、上記文書も検索されることが望まし
い。このような点について、本発明では、単語に対する
品詞情報も含んで比較的小容量なインデックスを構成で
きるため、同じ文字列の単語に対して複数の異なる品詞
情報によっても、検索者の意図に沿った検索を実現する
ことができる。

【００１８】

【発明の実施の形態】本発明を、図に示す具体的な実施
例を参照して説明する。なお、以下に示す実施例では、
検索の対象として日本語の文書を扱っているが、本発明
は日本語に限らず、英語、フランス語、中国語、韓国語
などと言った種々な言語の文書に対しても適用すること
ができる。

【００１９】また、以下に示す実施例では、プログラム
をコンピュータに実行させることにより文書検索装置を
構成する各機能手段を実現しているが、本発明では、必
要な機能手段を専用装置として構成することもできる。
また、本発明では、コンピュータによる形態素解析結果
を用いてハードディスク等のメモリにインデックス（単
語格納手段）を自動的に構築してもよいが、あらかじめ
構築したインデックスデータをＣＤＲＯＭ等の記憶媒体
に格納して、この記憶媒体を他のコンピュータに読み取
らせ、コンピュータにインデックスデータをインストー
ルし或いはアクセスさせて、インデックスを用いた文書
検索装置を構成するようにしてもよい。

【００２０】（実施例１）図１には、本発明の実施例１
に係る文書検索装置の構成を示してある。本実施例の文
書検索装置は、主要な構成部として、インデックスを読
み書き自在に格納したメモリから成る単語格納手段１
と、検索者から入力された検索条件に応じてインデック
ス１を用いた文書全文検索を行う文書検索手段２とを備
えている。

【００２１】まず、単語格納手段１の構造を説明する。
単語格納手段１は、文書中に出現する全ての単語に対
し、単語とその単語に関する情報を一つのブロックとし
て、全ブロックを各ブロックの単語の昇降順に保持して
いる。各ブロックは、単語格納手段１におけるアドレス
を割り当てられ、したがってあるアドレスから対応する
ブロックと単語を逆引きすることができる。単語に関す
る情報とは、その単語のデータ長、その単語の後ろに隣
接する単語の総数、その単語の後ろに隣接する単語のブ
ロック中の隣接単語アドレス部のアドレスである。そし
て、この隣接単語アドレスは、当該後ろに隣接する単語
の更に後ろに隣接する単語のアドレスを格納しており、
したがって、たとえば、Ａ、Ｂ、Ｃと言う単語の並びが
ある場合、Ａのブロックの隣接単語アドレスは、Ｂのブ
ロックの隣接アドレス格納部を示しているが、Ｂのブロ
ックの隣接アドレス格納部にはＣの単語ブロックの隣接
単語アドレス格納部が示されている。なお、これらの単
語に関する情報は、固定幅のバイナリデータで表現され
ている。

【００２２】具体的には、図２には「記念日の記念品」
という文書に対応する単語格納手段１の構造（インデッ
クス構造）の一例を示してある。なお、同図中で、横一
行は一つのブロックを表し、四角はデータ領域を、四角
の左上の数字はその四角領域のアドレスをそれぞれ表
す。ブロックは、単語のデータ長、単語の文字列、隣接
単語の総数、隣接単語のアドレスの順に構成される。こ
こでは、単語一文字および単語文字列以外の各構成要素
は幅１で表現されている。

【００２３】すなわち、図２に示すインデックスでは、
アドレス０〜３のブロックは、単語のデータ長が１の単
語「の」であり、この単語「の」に後続して隣接してい
る単語総数は１つで、隣接単語アドレス部にはアドレス
９が格納されている。そして、この隣接単語アドレス９
の位置を含む、アドレス４〜９のブロックは、単語のデ
ータ長が２の単語「記念」であり、この単語「記念」に
後続して隣接している単語総数は１３個で、隣接単語ア
ドレス部にはアドレス１７が格納されている。そして、
この隣接単語アドレス１７の位置を含む、アドレス１４
〜１７のブロックは、単語のデータ長が１の単語「品」
であり、この単語「品」に後続して隣接している単語総
数は１個で、隣接単語アドレス部にはアドレス１８が格
納されている。

【００２４】したがって、これら隣接アドレスの繋がり
により、「の」、「記念」、「品」と言う単語ブロック
が辿れ、各単語ブロックの並びにより「の記念品」とい
う文書が表されている。なお、文書の最後となる単語
「品」については、その隣接単語アドレス部にアドレス
１８が格納されて、文末であることが示されている。

【００２５】文書検索手段２は、入力受付部３と、単語
検索部４と、隣接単語検索部５とを有しており、次ぎの
ような検索処理を行う。入力受付部３が検索者から入力
された検索条件として並びを指定された複数の単語を受
け取ると、まず、単語検索部４が単語格納手段１から検
索条件の先頭の単語を探す。そして、もしその単語が単
語格納手段１に存在する場合には、単語格納手段１に登
録されているその単語に隣接する単語の中から、隣接単
語検索部５が検索条件の次の単語を探す。これを検索条
件の全ての単語について続けていき、検索条件の先頭の
単語までから最後の単語まで順に隣接して単語格納手段
１に存在しているかどうかを判定し、最後にその判定結
果を「該当あり」という表示や、後述するように文書を
復元して表示出力する。

【００２６】図２に示したインデックス（単語格納手
段）１に対して、たとえば「の、記念、日」というなら
びの単語が検索条件として与えられた場合を考えると、
まず、単語「の」を単語格納手段１から探し、それが存
在することが分かるので、インデックスからその後ろに
隣接する単語のアドレス９が一つだけ求まる。そして、
アドレス９の単語をインデックス１から逆引きすると、
インデックスの先頭に格納されている単語はデータ長が
１の「の」であり、隣接単語は一つである。次のブロッ
クの先頭アドレスは、このブロックの先頭アドレス０に
データ長の幅１と単語文字列の幅１、隣接単語の総数の
幅１、隣接単語アドレスの占めるデータ幅１×１とを足
し合わせることで４と求まる。

【００２７】したがって、単語「の」に対応するこのブ
ロックの取り得るアドレスは０以上４未満であり、アド
レス９の単語ではあり得ない。それでは次の単語「記
念」について同様のことを行うと、この単語は４以上１
０未満のアドレスを占めるので、アドレス９の単語はこ
の単語である。そして「記念」は検索条件の第２番目の
単語であるので、上記と同様な処理を更に動作を続け
る。このアドレス９には１７が格納されており、このア
ドレスから逆引きをすると、単語「品」が求まる。しか
しながら、これは検索条件を満たしておらず、また、イ
ンデックス１には、これ以外に「の」を含む箇所がない
ため、インデックスの登録されているこの文書は検索条
件を満たしていないと判定できる。

【００２８】次に、単語格納手段（インデックス）１を
構成する手順について説明する。図３には、インデック
ス１を構成するための装置構成を示してある。なお、こ
の装置は上記の文書検索装置と一体に設けてもよいが、
文書検索装置とは別個な装置としてインデックスを構成
するための専用装置とし、構成したインデックスを記憶
媒体に格納し或いは通信回線で送信して、文書検索装置
に提供するようにしてもよい。

【００２９】まず、データとして登録する文書が入力さ
れると、形態素解析実行部１１が当該文書に形態素解析
処理を施す。次いで、隣接単語抽出部１２が、形態素解
析の結果から順に単語を抽出し、すべての形態素解析結
果に対して以下の処理を繰り返し行う。以下、形態素解
析結果から順に抽出した単語を基底単語を呼ぶことにす
る。ある基底単語がメモリから成る隣接単語格納部１３
に格納されていない場合、その基底単語を隣接単語格納
部１３に格納する。そして、文書中でその基底単語が出
現している箇所に注目し、文書中でその後ろに隣接して
出現している単語を抽出する。以下、基底単語の後ろに
隣接して出現している単語を隣接単語と呼ぶことにす
る。そして、隣接単語格納部１３からその隣接単語に対
応する隣接単語数を求める。

【００３０】一方、その隣接単語が隣接単語格納部１３
に格納されていない場合には、その隣接単語を隣接単語
格納部１３に格納する。次いで、求めた隣接単語数とそ
の隣接単語の組を、その基底単語と対応づけて隣接単語
格納部１３に格納し、その基底単語の隣接単語数を１増
やす。以下、隣接単語数とその隣接単語の組を隣接単語
情報と呼ぶことにする。このように、隣接単語格納部１
３には、基底単語をキーとして、その隣接単語情報の集
合を値として格納される。単語ブロック作成部１４は、
隣接単語格納部１３に格納された全基底単語のブロック
を作成し、単語格納手段１に格納する。ただし、各基底
単語ブロックの直後には、その基底単語に対応する隣接
単語ブロックの集合を格納するための領域をあらかじめ
空けておく。

【００３１】ここで、単語格納手段１における基底単語
ブロックにおいて、ある基底単語をあらわすブロックの
アドレスは一意に定まる。以下、単語格納手段１におい
て、ある単語を表すブロックのアドレスを単語アドレス
とよぶことにする。また、単語アドレスはある固定長の
大きさで表すことができるので、その大きさを単語アド
レス幅とよぶことにする。隣接単語変換部１５は、隣接
単語格納部１３に格納された各隣接単語を、その単語ア
ドレスに単語アドレス幅と隣接単語数との積の値を加え
て表現する。この値を隣接単語アドレスと呼ぶことにす
る。そして、単語格納手段１において、その基底単語を
表すノードの後ろにその隣接単語アドレスを格納してい
く。この結果、単語格納手段１には、登録する文書を形
態素解析した結果の各単語が、元の文書中における並び
を表現した状態で且つ重複なく、図２に示す構造で登録
される。

【００３２】（実施例２）次に、本発明の実施例２を説
明する。なお、本実施例は、単語格納手段（インデック
ス）１の構造が上記の実施例１と異なるものであるた
め、本実施例２の特徴部分を説明し、実施例１と重複す
る部分については説明を割愛する。まず、単語格納手段
１は、文書中に出現する全ての単語に対し重複なく、単
語をトライ形式にしたがって格納し、各単語の終了ノー
ドの直後にその隣接単語アドレスを保持している。

【００３３】たとえば、図４には、「記念日の記念品」
という文書に対応するインデックス１の構造を示してあ
る。なお、図中において、丸（○）は終了状態でないノ
ードを、二重丸（◎）は終了状態のノードを、実線の矢
印は深さ方向へのアークを、点線の矢印は横方向へのア
ークを、アークの左にあるひらがなや漢字はラベルを、
ノードの左上の数字は単語格納手段１におけるノードの
位置（アドレス）を、終了状態のノードの下にある四角
は隣接単語アドレスを格納する領域を、四角の中の数字
は隣接単語アドレスをそれぞれ表している。ただし、隣
接単語アドレス０は後ろに隣接する単語がなく、ここで
文書が終わっていることを表す。また、ここでは、１つ
のアークとノードの組は５の幅であり、単語アドレス幅
は１である。

【００３４】また、図５には、「披露宴会場外」という
内容の文書に対応するインデックス１の構造を示してあ
る。図５に示す例では、文書を形態素解析して、４通り
の解析結果「披露│宴│会場│外」、「披露宴│会場│
外」、「披露│宴会│場外」、「披露│宴会場│外」が
得られた場合を想定している。ただし、隣接単語アドレ
スに負の符合がついている場合、その隣接単語は直前の
隣接単語と同じ文書中の箇所に出現していることを意味
し、隣接単語アドレス自体はその絶対値である。たとえ
ば、ある基底単語の直後に隣接単語アドレスが「５、─
１１、─１７、２８、３４」と並んで格納されている場
合、それぞれ「５」と「１１」と「─１７」で表される
隣接単語は同じ文書中の箇所に出現し、それぞれ「１
７」と「２８」と「３４」で表される隣接単語はいずれ
も異なる文書中の箇所に出現している。

【００３５】このようなインデックス１を用いた検索に
おいても、上記した実施例１と同様に、文書検索手段２
はユーザから検索条件を受け取り、インデックス１に登
録されている文書が検索条件に合致するかどうかを判定
する。すなわち、入力受付手段３が、複数の単語（検索
語と言う）の並びを検索条件として受け取ると、単語検
索手段４が、各検索語に対して各々がとり得る単語アド
レスの範囲をインデックス１から求める。なお、ある単
語がとり得る単語アドレスの範囲を単語アドレス域と呼
ぶ。

【００３６】次いで、隣接単語検索手段５が、先頭の検
索語の隣接単語アドレスの中から、２番目の検索語の単
語アドレス域の範囲内にある隣接単語アドレスを探索
し、該当する隣接単語アドレスが存在した場合には、そ
の隣接単語アドレスが格納されている位置（合致候補箇
所と言う）にある隣接単語アドレスが、３番目の検索語
の単語アドレス域の範囲内にあるか判定する。この判定
処理の結果が真であった場合には、その隣接単語アドレ
スの指す箇所にある隣接単語アドレスが、４番目の検索
語の単語アドレス域の範囲内にあるか判定する。この処
理を最後の検索語まで繰り返し行い、最終的な判定まで
すべて真であった場合には、合致候補箇所は入力された
検索条件に合致する箇所であると分かるため、検索条件
に合致する文書がインデックス１に登録されていると判
定される。

【００３７】たとえば、図４に示すインデックス１に対
して、「記念」「品」と言う単語の並びの検索条件が入
力された場合には、まず、検索語「記念」をインデック
スから探し、アドレス６〜１７を占める単語「記念」を
探し出す。そして、この「記念」の隣接アドレスには２
３と２９とが格納されており、アドレス２３は単語
「日」に繋がり、アドレス２９は「品」に繋がっている
が、後者が検索条件中の２番目の検索語「品」に該当す
るため、検索条件「記念」「品」に合致する文書がイン
デックス１に登録されていると判定される。

【００３８】このように単語集合をトライ形式でインデ
ックスに格納する方法は、大量の文書を検索するために
広く採用されているが、上記の実施例１における単語格
納手段１のように単語をテーブルとして格納する方法に
比べ、トライ構造は必要な記憶容量が小さく、且つ、検
索が高速に行えるという利点がある。トライ構造の場
合、単語同士で共通している先頭文字列の部分は一つの
データとしてまとまった形で保存されるため、テーブル
で保存する場合よりも必要な記憶容量が節約できる。こ
の効果は一般に、単語数が増加するにしたがってより大
きくなる。そして、検索時には、テーブルの場合、先頭
の単語から目的の単語まで順番に探していく必要がある
ため、検索に要する時間は単語の総数にほぼ比例する
が、トライ構造の場合は単語の先頭文字列の部分が目的
の単語のそれと一致しない単語をスキップして検索を進
めるため、検索に要する時間は格段に短かくなると言う
利点がある。したがって、本実施例は実施例１よりも必
要な記憶容量は少なく、かつ、検索時間も短いという利
点がある。

【００３９】（実施例３）次に、本発明の実施例３を説
明する。なお、本実施例は、単語格納手段１に基底単語
の後ろに隣接して出現している単語だけではなく、前に
隣接して出現している単語も格納するところが特徴部分
であり、実施例２と重複する部分については説明を割愛
する。なお、基底単語の前に隣接して出現している単語
を先隣接単語、基底単語の後ろに隣接して出現している
単語を後隣接単語とそれぞれ区別して呼ぶ。

【００４０】図６には、「記念日の記念品」という文書
に対応するインデックス１の構造を示してある。ただ
し、隣接単語アドレスが負の場合、それは先隣接単語で
あることを意味し、そのアドレスの絶対値が隣接単語ア
ドレスである。たとえば、単語「の」については、先隣
接単語のアドレス２７、後隣接単語のアドレス１８が付
加されているため、アドレス２７に該当する「日」が前
に隣接し、アドレス１８に該当する「記念」が後に隣接
して、「日、の、記念」と言う単語の並びの文書がイン
デックス１に登録されている。

【００４１】（実施例４）次に、本発明の実施例４を説
明する。なお、本実施例は、基底単語が標準形と異なる
形の表層形で文書中に現れている場合には、その表層形
を更に単語格納手段１に格納するところが特徴部分であ
り、実施例２と重複する部分については説明を割愛す
る。図７には、「コーヒー豆を絞り粕とともに」という
内容の文書に対応するインデックス１の構造を示してあ
る。ただし、ラベルの｛表層｝は、基底単語が表層形で
文書中に現れていることを表すタグであり、表層形の単
語の直後にはその標準形の基底単語が格納され、表層形
を持つ標準形の基底単語にはその表層形の単語が格納さ
れている。なお、単語のインデックス登録に際しては、
標準形で単語が格納されている場合には標準形の単語の
直後にその表層形が格納され、また、表層形で単語が格
納されている場合には表層形の直後に標準形が格納され
る。

【００４２】このように単語格納手段１を構成すると、
表層形の基底単語でサブトライができる。すなわち、表
層形の基底単語がとり得る単語アドレス域が確定する。
たとえば、図７の例で、「絞り」をキーとしてこの単語
格納手段１を検索すると、標準形の「絞り」が得られる
が、キーワードに表層形のタグを付加して検索すること
で、表層形の「絞り」も得られる。表層形の「絞り」は
その表層形の単語アドレス６２をもち、単語アドレス６
２の標準形「絞り」は、表層形「絞り」の単語アドレス
９１と隣接単語「粕」の単語アドレス７５をもってい
る。したがって、検索条件に含まれる検索語が標準形で
あっても表層形であっても、この構造のインデックスを
用いれば、検索者の意図に沿った検索結果が得られる。

【００４３】（実施例５）次に、本発明の実施例５を説
明する。なお、本実施例は、単語格納手段１に基底単語
をその基底単語の品詞情報がタグ付けされた形で格納す
るところが特徴部分であり、実施例２と重複する部分に
ついては説明を割愛する。図８には、「記念日の記念
品」という内容の文書に対応するインデックス１の構造
を示してある。ただし、ラベルの｛名詞｝や｛助詞｝
は、基底単語の品詞情報を表すタグである。

【００４４】このように単語格納手段１を構成すると、
各品詞ごとにサブトライができる。すなわち、各品詞の
単語がとり得る単語アドレス域が確定する。たとえば、
図８の例で、名詞の単語の単語アドレス域は１４から２
７、助詞の単語アドレス域は３７から３８である。した
がって、品詞情報を検索条件に含ませて隣接単語を検索
する場合には、文書検索手段２が、各隣接単語アドレス
が検索条件に合致する品詞の単語アドレス域内にあるか
どうかを照合すればよいことになる。この処理は、各隣
接単語アドレスをあるアドレス域にあるかどうかを判定
するだけで済むので、文書検索処理を高速に行うことが
できる。なお、本実施例の単語格納手段１は、品詞情報
を格納しているため文書を形態素解析した結果をそのま
まの形で保存することにより構成することができる。ま
た、実施例４のように単語の表層形および標準形をもラ
ベルとして格納するようにすれば、形態素解析によって
得られる表層形および標準形をもそのまま格納すること
ができる。

【００４５】（実施例６）次に、本発明の実施例６を説
明する。なお、本実施例は、実施例２に変更を加えたも
のであるため、実施例２と重複する部分については説明
を割愛する。図９には、本実施例に係る文書検索装置を
示してあり、実施例２の構成に加えて、文書出力手段６
が付加されている。文書出力手段６は、インデックス１
中の検索条件に合致する箇所から隣接単語をたどってい
き、各隣接単語アドレスからインデックス１に格納され
ている単語を用いて文字列に復元し、対応する文書を復
元して出力する処理を行う。

【００４６】アドレスから文書を復元していく具体的な
手順を、図５に示した「披露宴会場外」という内容の文
書に対応する単語格納手段１に対して、アドレス２８の
単語を復元する場合をとりあげて説明する。まず、単語
格納手段１の先頭ノードに注目すると、このノードから
遷移するときに２つのパスがある。一つはラベル「宴」
をたどる深さ方向のパスであり、二つめはラベルなしで
アドレス１８のノードに移る横方向のパスである。前者
の遷移先を子ノード、後者の遷移先を直下の弟ノードと
それぞれ呼ぶことにする。先頭ノードの直下の弟ノード
のアドレスは１８である。したがって、先頭ノードの子
ノードをたどる単語は０より大きく１８未満のアドレス
のノードで終わることが分かる。すなわち、求めたいア
ドレス２８の単語は先頭ノードの子ノードをたどらない
ことが分かる。

【００４７】次いで、直下の弟ノードに注目する。先程
と同様にして、このノードの直下の弟ノードのアドレス
をみると２９である。したがって、アドレス２８の単語
は、少なくとも現在のノードの子ノードをたどることが
分かる。そこで、その子ノードに遷移して、遷移すると
きのラベル「会」をメモリに保存しておき、その遷移先
であるアドレス２３のノードに注目する。このノードは
弟ノードを持っていないので、今度はその子ノードのア
ドレスをみると２８である。これは目的の単語のアドレ
スよりも大きい。したがって、目的の単語はさらに先に
あることが分かる。さらにその子ノードに遷移し、ラベ
ル「場」をさきほどのラベル「会」につづけて保存す
る。

【００４８】さて、現在のノードは子ノードも弟ノード
も持っていない。現在のノードは終了状態であり、且
つ、アドレス２９はこのノードの直後にあるので、現在
のノードに対応する単語が目的の単語であることが分か
る。そして、いままで保存しておいたラベルの列は
「会、場」であり、現在のノードに対応する単語は「会
場」であることが分かる。以上のようにして、文書出力
手段６により、トライ構造におけるアドレスから単語列
を復元することができる。この復元に要する処理は、ト
ライを検索する場合とほぼ同等な計算コストで行うこと
ができる。したがって、インデックスから各単語につい
て復元していき、最終的に文書を出力する際に要する時
間はさほど大きくはない。更に、上記の各実施例でも同
様であるが、本実施例では文書の本文データを持たずに
インデックス１だけから本文を復元することができる。
したがって、必要な記憶容量は、従来の全文検索に比べ
て格段に少くてすむ。

【００４９】ここで、本発明による記憶容量の削減効果
を定量的に説明するために、同一のサンプル文書を対象
に本発明と従来技術とで必要な記憶容量を比較すること
にする。従来技術は、本文の他に一文字単位のインデッ
クスを備えた検索装置である。なお、検索対象の文書
は、無作為に抽出した公開特許公報６件であり、各文書
に対してそれぞれインデックスを作成し、単語アドレス
幅は２バイトとした。図１０には本発明の場合を、図１
１には従来技術の場合をそれぞれ示してある。両者を比
較すると、元の文書に対する必要な記憶容量の増分比
は、本発明の場合、平均で０．１７であるが、従来技術
の場合、平均で１．１４であり、したがって、本発明に
必要な記憶容量の増分は従来技術の６．７分の１であ
り、格段の効果があると言える。

【００５０】更に、本発明では、インデックス１の容量
自体も文書容量と比較して同程度と十分小さくなってい
る。たとえば、単語を単位として単語の位置情報を求め
ることができる従来技術を考えることにする。この従来
技術を応用して、本発明のように本文を持たせずにかつ
本文を復元できる構造を想定することはできる。それは
単語の出現位置からインデックスのアドレスを検索でき
るインデックスを別に用意すればよい。たとえば、図１
２および図１３は、「披露宴会場外」という内容の文書
に対するこの考えに基づくインデックス１を図示したも
のである。図１２は、単語からその出現位置の集合を検
索するためのインデックスであり、図１３は、出現位置
からそこに出現している単語アドレスを検索するインデ
ックスである。

【００５１】しかしながら、この想定の場合と比較して
も、本発明で必要なインデックスは図１３に相当するイ
ンデックスが不要であるため、必要な容量が少なくてす
むと言うことができる。本発明のインデックス容量の内
訳を図１４に示す。この内訳から、単語自体を格納する
記憶領域よりも、単語をポイントために必要な記憶容量
の方が大きいことが分かる。本発明は前述したように、
隣接単語の更にその後に隣接している単語のアドレスを
格納して、各単語の並びを表現しているので、単語をポ
イントするために必要な記憶領域を極力削減することが
でき、かなり大きな単語量となる実際の文書を扱うとき
に大きな効果が得られる。

【００５２】（実施例７）次に、本発明の実施例７を説
明する。なお、本実施例は、実施例２に変更を加えて、
検索対象の文書集合から、検索者が入力した検索条件を
含む文書を検索するたものであるため、実施例２と重複
する部分については説明を割愛する。図１５には、本実
施例に係る文書検索装置を示してあり、文書検索手段２
に加えて、文書索引手段７、文書絞込み手段８、文書内
索引手段１０が付加されている。

【００５３】文書索引手段７は、単語とそれを含む文書
集合へのポインタを格納しているメモリである。文書絞
込み手段８は、検索条件を入力とし、文書検索手段７を
用いて、検索条件として指定された全ての単語を含む文
書の集合を特定する。文書内索引手段１０は、各文書毎
Ａ〜Ｄに作成されたインデックス１ａ〜１ｄの集合であ
り、これら各インデックスは上記実施例のような構造と
なっている。

【００５４】すなわち、本実施例では、文書検索手段２
が、検索条件として指定された全ての単語を含む文書の
集合を、文書絞り込み手段８から求める。なお、得られ
た文書の集合は、検索条件を満たす文書を漏れなく含ん
でおり、これら文書を候補文書と呼ぶ。そして、文書検
索手段２が、文書内索引手段１０中の候補文書に対応す
るインデックス１ａ〜１ｄを用いて、候補文書の内から
検索条件の単語の並びを満たす文書を出力する。したが
って、本実施例によれば、インデックスを用いた検索に
先立って対象文書の絞込みが行われるため、比較的時間
の要するインデックス検索の負担を軽減して、総じて検
索速度を高めることができる。

【００５５】

【発明の効果】以上説明したように本発明によると、欧
米語に限らず、たとえば日本語のように単語の区切りが
明確でない文書に対しても、文書の全文を持たずに、比
較的小さな容量に抑えられたインデックスのみを用いて
単語のつながりを考慮した全文検索を行うことができ、
且つ、検索結果の文書全文をも出力することができる。
また、本発明によると、単語の品詞情報や表層形等の形
式を少ない容量でインデックスに格納し、且つ、これら
の情報の照合を高速に行うことができるため、たとえば
本発明によって、文書の形態素解析結果をそのままの形
でかつ少ない容量でインデックスに保存しておき、任意
の単語から高速にアクセスして所期の検索を実行するこ
とができる。

【図面の簡単な説明】

【図１】本発明の実施例１に係る文書検索装置を示す
構成図である。

【図２】本発明の実施例１に係るインデックス構成を
示す概念図である。

【図３】インデックスを作成する装置を示す構成図で
ある。

【図４】本発明の実施例２に係るインデックス構成の
一例を示す概念図である。

【図５】本発明の実施例２に係るインデックス構成の
他の一例を示す概念図である。

【図６】本発明の実施例３に係るインデックス構成を
示す概念図である。

【図７】本発明の実施例４に係るインデックス構成を
示す概念図である。

【図８】本発明の実施例５に係るインデックス構成を
示す概念図である。

【図９】本発明の実施例６に係る文書検索装置を示す
構成図である。

【図１０】本発明の容量比較データを示す図である。

【図１１】従来技術の容量比較データを示す図であ
る。

【図１２】インデックス構成を示す概念図である。

【図１３】インデックス構成を示す概念図である。

【図１４】本発明の容量の内訳データを示す図であ
る。

【図１５】本発明の実施例７に係る文書検索装置を示
す構成図である。

【符号の説明】

１、、１ａ〜１ｄ：単語格納手段（インデックス）、
２：文書検索手段、３：入力受付部、４：単語検索
部、５：隣接単語検索部、６：文書出力手段、７：
文書索引手段、８：文書絞込み手段、１０：文書内索
引手段、

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ０６Ｆ 15/415 (56)参考文献特開平８−249354（ＪＰ，Ａ) 特開平８−194718（ＪＰ，Ａ) 特開平９−138809（ＪＰ，Ａ) 増市，外３名「形態素解析を用いた全文検索システムとその応用」情報処理学会研究報告（94−ＮＬ−102−３），Ｖｏｌ．94，Ｎｏ．63，1994（平６−７− 21) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 12/00 520 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文書が検索条件に合致するか否かを判定
する文書検索装置において、文書に含まれている全ての単語について重複を省き、こ
れら単語に前記文書中で当該単語に隣接している単語に
関する情報を付加して格納する単語格納手段と、複数の単語とこれら単語の並びとを含む検索条件に基づ
いて、前記単語格納手段に格納された複数の単語と当該
検索条件との合致を判定する文書検索手段と、を備え、前記単語格納手段は、前記全ての単語を当該単語格納手
段におけるアドレスによって同定して格納するととも
に、当該単語の直後に前記隣接している単語を格納し、
当該単語に前記単語に関する情報として前記隣接してい
る単語に更に隣接している単語が格納されるアドレスを
所定の順序で付加して格納して、アドレスの繋がりによ
り文書中における単語の並びを表していることを特徴と
する文書検索装置。
【請求項２】請求項１に記載の文書検索装置におい
て、前記単語格納手段は、前記全ての単語及び単語に関する
情報を深さ優先順にノードが記録され、ノードを繋ぐア
ークに単語を構成する文字のラベルが付されたトライ形
式のインデックスとして格納することを特徴とする文書
検索装置。
【請求項３】請求項１又は請求項２に記載の文書検索
装置において、前記単語格納手段は、複数の文書に含まれている全ての
単語について、共通して単語及び単語に関する情報を格
納していることを特徴とする文書検索装置。
【請求項４】請求項１乃至請求項３のいずれか１項に
記載の文書検索装置において、前記単語格納手段は、形式が標準形と表層形とで異なる
２つの同義な単語をアドレスによって繋げて格納してい
ることを特徴とする文書検索装置。
【請求項５】請求項１乃至請求項４のいずれか１項に
記載の文書検索装置において、前記単語格納手段は、単語をその品詞情報をタグ付けし
て格納し、前記文書検索手段は、単語の品詞情報を更に含む検索条
件に基づいて、前記単語格納手段に格納された複数の単
語と当該検索条件との合致を判定することを特徴とする
文書検索装置。
【請求項６】検索条件に合致した文書を出力する文書
検索装置において、文書に含まれている全ての単語について重複を省き、こ
れら単語をアドレスによって同定して格納するととも
に、当該単語の直後に前記文書中で隣接している単語を
格納し、当該単語に前記隣接している単語に更に隣接し
ている単語が格納されるアドレスを所定の順序で付加し
て格納して、アドレスの繋がりにより単語を文書中にお
ける並びを表して格納する単語格納手段と、複数の単語とこれら単語の並びとを含む検索条件に基づ
いて、前記単語格納手段に格納された複数の単語と当該
検索条件との合致を判定する文書検索手段と、合致した複数の単語をアドレスを辿った並びで出力する
ことにより文書を復元する文書出力手段と、を備えたこ
とを特徴とする文書検索装置。
【請求項７】文書の集合から検索条件に合致した文書
の集合を検索する文書検索装置において、文書を特定する情報と当該文書中に含まれる単語とを格
納する文書索引手段と、前記文書索引手段に格納されたそれぞれの文書に対応し
て、文書に含まれている全ての単語について重複を省
き、これら単語をアドレスによって同定して格納すると
ともに、当該単語の直後に前記文書中で隣接している単
語を格納し、当該単語に前記隣接している単語に更に隣
接している単語が格納されるアドレスを所定の順序で付
加して格納して、アドレスの繋がりにより単語を文書中
における並びを表して格納する単語格納手段と、複数の単語とこれら単語の並びとを含む検索条件に基づ
いて、前記文書索引手段に格納された複数の文書の内で
前記検索条件に含まれる全ての単語を含む文書を特定す
る文書絞込み手段と、前記文書絞込み手段から得られた文書の集合の中から、
対応する前記単語格納手段を用いて前記検索条件に含ま
れる複数の単語とこれら単語の並びとに合致する文書の
集合を検索する文書検索手段と、を備えたことを特徴と
する文書検索装置。
【請求項８】文書の全文検索に用いるインデックスを
コンピュータにより読み取り可能に記憶した記憶媒体で
あって、前記インデックスは、文書に含まれている全ての単語に
ついて重複を省き、これら単語をアドレスによって同定
して記録するとともに、当該単語の直後に前記文書中で
隣接している単語を記録し、当該単語に前記隣接してい
る単語に更に隣接している単語が記録されるアドレスを
所定の順序で付加して記録して、アドレスの繋がりによ
り単語を文書中における並びを表して記録することによ
り構成され、コンピュータにより構成される文書検索手段が、複数の
単語とこれら単語の並びとを含む検索条件に基づいて、
前記インデックスに記録された複数の単語と当該検索条
件との合致を判定して、対応する文書を出力することを
特徴とする文書の全文検索に用いるインデックスを記憶
した記憶媒体。