JPH09153051A

JPH09153051A - 類似文書検索方法

Info

Publication number: JPH09153051A
Application number: JP7310325A
Authority: JP
Inventors: Natsuko Mizutani; 奈津子水谷; Hisamitsu Kawaguchi; 川口　　久光; Atsushi Hatakeyama; 敦畠山; Katsumi Tada; 勝己多田; Kanji Kato; 寛次加藤; Satoshi Asakawa; 悟志浅川; Akio Azuma; 秋夫東
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-11-29
Filing date: 1995-11-29
Publication date: 1997-06-10
Anticipated expiration: 2015-11-29
Also published as: JP3674119B2

Abstract

(57)【要約】【課題】本発明の課題は、文字種の多い日本語等の文書
データベースに対しても、高速で低ノイズのレリバンス
・フィードバックを実現する文書検索システムを提供す
ることである。【解決手段】対象テキストデータベース中のテキスト１
０３に存在する所定の部分文字列のテキストにおける出
現頻度を出現頻度ファイル１０６として格納するステッ
プと、これらの部分文字列の重みを重み算出プログラム
１１７で算出して重みファイル１０５として格納するス
テップと、ユーザが指定したテキストから重みが所定の
基準を満たす部分文字列を抽出するステップとを有し、
出現頻度ファイル１０６と重みファイル１０５を用いて
ユーザが指定したテキストに対する類似度を算出し、算
出された類似度を用いて文書を検索する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大規模文書データ
ベースを対象に検索を行い、検索結果を検索条件に関連
の深い順に整列して出力する文書検索システムに係る。
特に、ユーザが検索結果の中から必要な文書を選択する
ことによってその文書に関連の深い順に文書を並べ直す
ことができる類似文書検索方法に関する。このとき特
に、大規模文書データベース中の文書は、日本語、中国
語などのように分かち書きされていないものに向いてい
る。

【０００２】

【従来の技術】近年、ワードプロセッサ等により作成さ
れる電子化文書は増大しており、今後も増大していくこ
とが見込まれる。このため、文書検索の対象となるデー
タベースも大規模になってきている。その結果、文書検
索によって得られる検索結果としての文書集合も大型化
する。それゆえ、この集合の中からユーザが、本当に欲
しい文書を探し出すことが非常に困難になってきてい
る。

【０００３】この問題を解決するため、従来よりReleva
nce Ranking（レリバンス・ランキング）ならびにRelev
ance Feedback（レリバンス・フィードバック）と呼ば
れる技術が提案されている。

【０００４】レリバンス・ランキングについては、「Ra
nking Algorithms」（Donna Harman著，Information Re
trieval，p.３６３−３９２）に具体的に記載されてい
る。以下、これを従来技術１と呼ぶ。従来技術１は、ユ
ーザが指定した検索条件（単一もしくは複数の単語の
列）に関連の深い順にデータベース中の文書を並べると
いうものである。以下、図２を用いてその内容を説明す
る。

【０００５】検索は、簡単なベクトル演算によって実現
される。このベクトルの要素は、データベース中に出現
する全ての単語を重複削除したもの（但し，ストップワ
ード等は除く）である。図２の例では、（factors，inf
ormation，help，human，operation，retrieval，syste
ms）が要素となっている。検索条件式にその要素が存在
すれば「１」を、存在しなければ「０」を該当位置に立
てる。このことによって、検索条件式のベクトルＱ０が
作成される。すなわち、「human factors in informati
on retrieval systems」という検索条件式に対し、
（１，１，０，１，０，１，１）というベクトルＱ０が
作成される。

【０００６】データベース中の文書に対しても同様に文
書のベクトルが作成される。各要素である「human」「f
actors」「information」「retrieval」が含まれる文書
１に対し、ベクトルV1（１，１，０，１，０，１，０）
が作成される。また、「human」「factors」「help」
「systems」が含まれる文書２に対し、ベクトルV2
（１，０，１，１，０，０，１）が、作成される。さら
に、「factors」「operation」「systems」を含む文書
３に対し、ベクトルV3（１，０，０，０，１，０，１）
が作成される。

【０００７】ここで、ランキングに用いられる得点は、
検索条件式のベクトルQ0と文書のベクトルViとのベクト
ル積Vi・Q0をとることによって算出される。その結果、
文書１が４点、文書２が３点、文書３が２点となる。こ
れらの文書を得点の高い順に並べることによって、レリ
バンス・ランキングが実現される。つまり、関連の高い
文書から並べることができる。

【０００８】なお、文書のベクトルについては、ベクト
ルの要素を「１」「０」ではなく、単語の出現頻度で表
現することも可能である。例えば、文書１には、「huma
n」が５個、「factors」が２個、「information」が３
個、「retrieval」が３個含まれるとする。この文書１
に対し、ベクトルV'1（２，３，０，５，０，３，０）
が作成される。また、文書２には、「human」が５個、
「factors」が２個、「help」が４個、「systems」が１
個含まれるとする。この文書２に対し、ベクトルV'2
（２，０，４，５，０，０，１）が作成される。また、
「factors」が２個、「operation」が２個、「system
s」が１個含まれるとする。この文書３に対し、ベクト
ルV'3（２，０，０，０，２，０，１）が作成される。

【０００９】これらのベクトルV'iと検索条件式のベク
トルQ0とのベクトル積V'i・Q0をとることによって、各
文書の得点が算出される。その結果、文書１が１３点、
文書２が８点、文書３が３点となる。この点に従って文
書を降順に並べることによって、レリバンス・ランキン
グが実現される。つまり、文書１が最も関連が深く、文
書３が最も関連がない、との結果を得る。

【００１０】レリバンス・フィードバックについては、
「Relevance Feedback and Other Query Modification
Techniques」（Donna Harman著，Information Retrieva
l，p.２４１−２６３）に記載されている。以下、これ
を従来技術２と呼ぶ。これは、所定の観点でランキング
された文書の集合から適切な（もしくは不適切な）文書
を、ユーザが指定することによって、その文書に関連の
深い（もしくは関連のない）順にデータベース中の文書
を並べ直すというものである。これは、所定の観点で行
われたランキングに用いた検索条件のベクトルをユーザ
が指定した文書に基づいて修正する。さらに、この修正
したベクトルを用いてランキングをし直すことによって
実現される。修正後のベクトルを算出する最も単純な式
は、以下の（数１）で表される。

【００１１】

【数１】

【００１２】ここで、Q0は、前回のランキングに用いた
検索条件式のベクトルである。Q1は、修正後の検索条件
式のベクトルである。Riは、適切な文書iのベクトルで
ある。Siは、不適切な文書iのベクトルである。n1は、
適切な文書の数である。n2は、不適切な文書の数であ
る。

【００１３】従来技術１や従来技術２のような方法を用
いるには、データベース中の単語のインデックスを作成
し、なおかつそれを検索に用いる単語インデックス方式
を採用する必要がある。しかし、分かち書きのされてい
ない日本語のような文書に対し，単語インデックス方式
を用いると次のような問題が生じる。

【００１４】（１）単語を抽出するために、文字種分割
（文字種が変化したところで文字列を分割）や形態素解
析等を用いる必要がある。このため、単語の抽出の仕方
によっては検索できない単語が発生する。例えば、「開
発作業」だけを単語として抽出した場合には「開発」で
は検索ができないことになる。

【００１５】（２）また、検索漏れが生じる場合もあ
る。例えば、文書１に「開発作業」というインデックス
が、文書２に「開発」というインデックスが付与されて
いるとする。「開発」が検索タームとして指定された場
合、文書２は探し出すことができるが、文書１は探し出
すことができない。このため、検索漏れが生じる。これ
らの問題は、単語を接続して新たな単語が作られる独語
などにもある。

【００１６】以上のような問題を解決するものとして、
特開昭６４−３５６２７号公報（以下、従来技術３と呼
ぶ）がある。この従来技術３は、分かち書きのされてい
ない日本語のような文書に対しての問題を解決するもの
である。従来技術３は、n文字が連続する文字列（以
下、n-gramと呼ぶ）のインデックスを用いて検索を行う
n-gramインデックス方式である。本方式を用いれば、単
語を意識することなく登録および検索を行うことが可能
となる。従来技術３は、文書の登録時に、データベース
へ登録する文書のテキストデータからn-gram（従来技術
３では、文字連鎖と呼んでいる）とそのn-gramのテキス
ト中における出現位置をインデックスとして磁気ディス
ク装置に格納しておく。検索時には指定された検索文字
列（以下、検索タームと呼ぶ）中に存在するn-gramを抽
出する。抽出されたn-gramに対応するインデックスを上
記磁気ディスク装置から読み込み、インデックス中のn-
gramの出現位置を比較する。比較の結果、検索タームか
ら抽出したn-gramの位置関係とインデックス中のn-gram
の位置関係が、等しいかどうかを判定する。このことに
よって、指定された検索タームが出現する文書を高速に
探し出す方式が開示されている。

【００１７】以下、この従来技術３について図３を用い
て具体的にその内容を説明する。本図では、説明の都合
上、インデックスに出現位置のみを格納した場合を示
す。実際には文書番号と出現位置を格納し文書検索に用
いてもよい。また、本図ではn-gramのnの値を３と想定
している。

【００１８】まず、文書の登録時にデータベースに登録
するテキスト３０１がインデックス作成部３０２に読み
込まれ、n-gramインデックス３００が作成される。この
n-gramインデックス３００には、テキスト３０１に出現
する全ての3-gramとテキスト３０１におけるその3-gram
の出現位置が格納される。例えば、本図に示すテキスト
３０１では、「abc」という3-gramはテキスト３０１の
２文字目、９文字目、・・・に現われる。したがって、n-g
ramインデックス３００には3-gram「abc」とこれに対応
した形で出現位置｛２，９，・・・｝が格納される。

【００１９】検索時には、まず、検索タームがn-gram抽
出部３０３に入力され、検索ターム中に存在する全ての
n-gramとそのn-gramの検索タームにおける出現位置が抽
出される。次に、抽出されたn-gramとこれに対応するn-
gramの検索タームにおける出現位置が、インデックス検
索部３０４に入力される。インデックス検索部３０４で
は、検索タームから抽出されたn-gramに対応するインデ
ックスがn-gramインデックス３００から読み込まれる。
そして、これらのインデックスの中から検索ターム中の
位置関係と同じ出現位置を持つものが抽出され、検索結
果として出力される。本図の例では、検索タームとして
「abcd」が入力された場合、まずn-gram抽出部３０３に
おいて、「n-gram「abc」，n-gram位置「１」」と「n-g
ram「bcd」，n-gram位置「２」」が抽出される。ここ
で、n-gram位置「１」は、検索タームの先頭、n-gram位
置「２」は、その次の文字位置を示す。次に、インデッ
クス検索部３０４において、n-gramインデックス３００
からn-gram「abc」と「bcd」に対応するインデックスが
読み込まれる。これらのインデックスにおける出現位置
が、n-gram位置「１」とn-gram位置「２」のように連続
するもの（すなわち隣接するもの）が、抽出され検索結
果として出力される。実際には，文書番号もインデック
スに格納されており、文書番号が一致していることも判
定される。その結果、文書番号が一致し、出現位置が検
索ターム中の位置関係と同じであるものが抽出され、そ
の文書番号が検索結果として出力される。

【００２０】本図では、n-gram「abc」の出現位置
「２」とn-gram「bcd」の出現位置「３」が隣接するた
め、n-gram「abcd」が文字列として存在することが分か
る。このため、テキスト中に検索ターム「abcd」が、出
現することが示される。しかし、n-gram「abc」の出現
位置「２」とn-gram「bcd」の出現位置「１８」、n-gra
m「abc」の出現位置「９」とn-gram「bcd」の出現位置
「３」、n-gram「abc」の出現位置「９」とn-gram「bc
d」の出現位置「２０」は隣接していない。このため、
この位置には検索ターム「abcd」が出現しないことがわ
かる。

【００２１】このようなn-gramインデックス方式におい
て、レリバンス・フィードバックを実現する方法が、
「特開平６−１１０９４８号」（以下，従来技術４と呼
ぶ）に開示されている。以下、図４を用いて、本従来技
術によるレリバンス・フィードバックの手順を説明す
る。

【００２２】（ステップ１）データベース中のそれぞれ
の文書から全てのn-gram（nはあらかじめ決められた１
以上の整数）を抽出する。

【００２３】（ステップ２）上記（ステップ１）で抽出
されたn-gramを重複削除したn-gramに対し、その出現頻
度を基に文書毎にウェートを割り当てる。

【００２４】（ステップ３）データベース中の文書間の
共通性を所定の計算式を用いて算出し、この値を各n-gr
amのウェートから差し引く。

【００２５】（ステップ４）上記（ステップ３）で算出
したウェートを用いて、ユーザが選択した文書とデータ
ベース中の文書との間の得点を算出する。

【００２６】（ステップ５）上記（ステップ４）で算出
した得点の高い順に文書を出力する。

【００２７】以下、文書１「新開発の心電計による発作
時の心電図」、文書２「新しいソフトウェアの開発作
業」、文書３「ソフト開発を支援するソフトウェア」
が、登録されているデータベースを対象にn-gramのnの
値を２とし、文書２をユーザが選択した場合を例に具体
的に手順を説明する。まず、データベース中の文書１〜
文書３からn-gramを抽出する。

【００２８】

【表１】

【００２９】表１に、文書１中に存在する2-gramを重複
削除した2-gramを全て示す。次に、示された2-gramの各
々に対し正規化出現頻度（本従来技術ではウェートと呼
んでいる）を計算する。この正規化出現頻度は、各々の
2-gramの出現頻度をその文書中にある2-gramの総数で割
ることによって得られる。文書２および文書３に対して
も、同様の処理が施され、表２および表３に示す正規化
出現頻度が得られる。

【００３０】

【表２】

【００３１】

【表３】

【００３２】その後、データベース中の文書間の共通性
が除去される。ここでは、まず第１にデータベース中に
存在する2-gramを重複削除した2-gramについて、その平
均ウェート（本従来技術では共通性ウェートと呼んでい
る）が算出される。平均ウェートは、各2-gramについ
て、データベース中の全文書の正規化出現頻度の合計を
全文書の数で割ることによって算出される。

【００３３】

【表４】

【００３４】表４に、文書１、文書２および文書３の間
の平均ウェートを示す。例えば、2-gram「新開」の平均
ウェートは、(0.063+0.0+0.0)/3=0.021である。また、2
-gram「開発」の平均ウェートは、(0.063+0.077+0.067)
/3=0.069となる。2-gram「新開」は、文書２および文書
３に出現していないので、正規化出現頻度はそれぞれ0.
0となっている。平均ウェートは各n-gramの正規化出現
頻度の平均値である。この値をn-gramの正規化出現頻度
から差し引くことにより、データベース中の文書間の共
通性を除去する。もし、あるn-gramが全ての文書に同じ
割合で出現していれば、正規化出現頻度も平均ウェート
も全て同じ値となる。また、共通性を除去した正規化出
現頻度（以下、正規化ウェートと呼ぶ）は、「０」とな
る。つまり、ストップワードのようにどの文書にも同じ
ように出現するn-gramに対しては、正規化出現頻度を限
りなく「０」に近づけ、その影響を小さくすることがで
きる。表５、表６および表７に文書１、文書２および文
書３の正規化ウェートを示す。

【００３５】

【表５】

【００３６】

【表６】

【００３７】

【表７】

【００３８】以上のようにして得られた正規化ウェート
を用いて、ユーザが選択した文書とデータベース中の全
文書との類似性を得点（以下、類似度と呼ぶ）として表
わす。類似度は、以下に示す数２によって算出される。

【００３９】

【数２】

【００４０】ここで、Uiは、選択文書のn-gram（i）の
正規化ウェートを示し、Riは、データベース中の文書の
n-gram（i）の正規化ウェートを示す。数２を用いて、
選択文書である文書２とデータベース中の全ての文書と
の類似度を算出すると以下のようになる。文書１は、0.
018、文書２は、1、文書３は、0.119である。最後に、
得られた得点の降順に文書が出力される。この例では、
文書２、文書３、文書１の順で出力されることになる。

【００４１】このようにn-gram単位でレリバンス・フィ
ードバックを行っているため、単語の識別を行う必要が
なく、分かち書きのされていない日本語のような文書に
対しても適用が可能となっている。

【００４２】

【発明が解決しようとする課題】しかしながら、以上説
明した従来技術４では、以下に示す問題が残されてい
る。

【００４３】（１）処理時間の問題日本語の場合、n-gramの種類数が多いため、データベー
ス中の全てのn-gramを対象にして得点の算出処理を行う
と膨大な時間が掛かる。英語の場合、文字の種類が55種
であり、2-gramの種類数はその二乗の3,025種となる。
しかし、日本語は漢字第１水準だけでも1,024種も存在
し、その組み合わせとなる2-gramの種類は1,048,576種
にもおよぶ。さらに平仮名、片仮名等も含めると2-gram
の種類は膨大な数になり、得点の算出に長大な時間を要
する。

【００４４】（２）ランキング・ノイズの問題 n-gramを単位としてレリバンス・フィードバックを行っ
ているため、全く関係のない文書が上位にランキングさ
れる可能性がある。従来技術４の説明を行ったときに用
いた文書１、文書２および文書３から構成されるデータ
ベースに文書４「ソフトの新製品の新聞発表」を加えた
データベースを例にこの問題を説明する。本例で文書２
が、ユーザに選択されたとする。

【００４５】

【表８】

【００４６】表８に文書４に存在する全ての2-gramを重
複削除した2-gramに対する、正規化出現頻度を示す。こ
の文書４の正規化出現頻度と表１〜表３に示した文書１
〜文書３の正規化出現頻度を用いて、データベース中の
文書間の共通性が除去される。

【００４７】まず、各2-gramの平均ウェートが算出され
る。

【００４８】

【表９】

【００４９】表９に、文書１〜文書４における平均ウェ
ートを示す。例えば、2-gram「ソフ」の平均ウェート
は、(0.0+0.077+0.133+0.091)/4=0.075となる。次に、
この平均ウェートをn-gramの正規化出現頻度から差し引
くことにより、データベース中の文書間の共通性を除去
した正規化ウェートを求める。

【００５０】

【表１０】

【００５１】

【表１１】

【００５２】

【表１２】

【００５３】表１０、表１１および表１２に示したもの
は文書１、文書２および文書４の共通性を除去した正規
化ウェートである。これらを用いて、選択文書である文
書２に対する文書１と文書４の類似度を算出し、比較す
ると以下の通りになる。文書１は0.043、文書４は、0.0
02である。

【００５４】この結果、文書２、文書４ともにソフトウ
ェアに関する文書であるにもかかわらず、全く関係のな
い文書１の方が文書２に類似していると判断されてしま
う。これは、文書２の「開発作業」中の2-gramである
「開発」、「発作」が文書１に存在しているためであ
る。n-gramは単語のように意味的にまとまった単位の文
字列ではないため、同じn-gramであっても同じ意味を持
つn-gramとは限らない。そのため、この例のように全く
関係のない文書が上位にランキングされてしまうという
問題が生じる。

【００５５】こうした問題に対し、本発明では以下の課
題を解決することを目的とする。また、本発明は、n-gr
amを単位として行うレリバンス・フィードバックを対象
としている。

【００５６】（１）文字種の多い日本語のような言語に
対しても、高速なレリバンス・フィードバックを実現す
る。（２）n-gram単位に行うことによるノイズを減少させる
レリバンス・フィードバックを実現する。

【００５７】

【課題を解決するための手段】上記課題を解決するため
に、本発明では、テキストデータの登録処理として以下
のステップを有する。

【００５８】（ステップ１）：テキストデータを読み込
むステップ（ステップ２）上記（ステップ１）で読み込んだテキス
トデータからn文字（nは予め定められた１以上の整数）
が連続する文字列（以下、n-gramと呼ぶ）を全て抽出
し、そのn-gramのテキストデータにおける出現頻度を算
出するステップ（ステップ３）上記（ステップ２）で算出された出現頻
度を該当する出現頻度ファイルに格納するステップ（ステップ４）上記（ステップ２）で算出された出現頻
度を基に、予め定められた算出式を用いて上記抽出n-gr
amに対する重みを算出するステップ（ステップ５）上記（ステップ４）で算出された重みを
該当する重みファイルに格納するステップこれらのステップは、重みを算出する重み算出ステップ
である。

【００５９】また、検索処理として以下のステップを有
する。

【００６０】（ステップ６）前記重みファイルを読み込
むステップ（ステップ７）前記出現頻度ファイルを読み込むステッ
プ（ステップ８）上記（ステップ６）で読み込まれた重み
ファイルの中で、重みが予め定められた基準を満たすn-
gramを全て、ユーザが選択したテキスト（以下、選択文
書と呼ぶ）から抽出し、そのn-gramの選択文書における
出現頻度を算出するステップ（ステップ９）上記（ステップ８）で抽出されたn-gram
の対象データベース中のテキストデータの出現頻度を、
上記（ステップ７）で読み込まれた出現頻度ファイルか
ら得るステップ（ステップ１０）上記（ステップ８）と上記（ステップ
９）で算出された出現頻度ならびに上記（ステップ６）
で読み込まれたn-gramの重みを用いて、予め定められた
算出式を用いて選択文書とデータベース中のテキストデ
ータ間の類似度を算出するステップ（ステップ１１）上記（ステップ１０）で算出された類
似度を、予め定められた方法で修正するステップ（ステップ１２）上記（ステップ１１）で修正された類
似度の降順に、テキストデータの一覧を出力するステッ
プ（ステップ１３）上記（ステップ１１）で修正された類
似度を前回得点として主メモリに記憶するステップ上記文書検索方法を用いた本発明の原理を、以下に説明
する。文書を登録する際には、（ステップ１）〜（ステ
ップ５）からなる重み算出ステップを実行する。まず、
（ステップ１）で登録対象となるテキストデータを読み
込む。次に、（ステップ２）において、（ステップ１）
で読み込まれたテキストデータ中の全てのn文字（nは予
め定められた１以上の整数）が連続する文字列（以下、
n-gramと呼ぶ）を抽出するそして、そのn-gramのテキス
トデータ中の出現頻度を算出する。例えば、表８に示し
た文書４「ソフトの新製品の新聞発表」から2-gramを抽
出すると、「2-gram「ソフ」は1回出現する」、「2-gra
m「の新」は2回出現する」といった情報が得られる。そ
して、（ステップ３）において、（ステップ２）で算出
された出現頻度を該当する出現頻度ファイルに格納す
る。図５に、出現頻度ファイルの例を示す。本図に示し
た出現頻度ファイルは、表１、表２、表３および表８に
示した文書１〜文書４を登録した場合の例である。次
に、（ステップ４）において（ステップ２）で算出され
た出現頻度を基に、予め定められた算出式を用いて上記
n-gramに対する重みを算出する。そして、（ステップ
５）においてその重みを該当する重みファイルに格納す
る。この重みとしては、例えば、従来技術４で示した平
均ウェート（本従来技術では共通性ウェートと呼ばれて
いる）を用いてもよい。重みの算出に、以下に示す数３
を用いる。

【００６１】

【数３】

【００６２】ここで、Fijはn-gram（i）のデータベース
中の文書jにおける出現頻度を示し、Cjはデータベース
中の文書jに存在するn-gramの総数を示す。また、nはデ
ータベース中の文書数である。図６に重みファイルの例
を示す。ここで示した重みは、表１〜表４に示した文書
１〜文書４が登録されている文書データベースを対象と
し、数３を用いて算出したものである。

【００６３】検索時にユーザからレリバンス・フィード
バックの要求がなされた場合には、（ステップ６）〜
（ステップ１１）からなるレリバンス・フィードバック
ステップを実行する。まず、（ステップ６）において
（ステップ５）で作成された重みファイルをメモリに読
み込む。次に、（ステップ７）において、（ステップ
３）で作成された出現頻度ファイルをメモリに読み込
む。次に、（ステップ８）において、（ステップ６）で
読み込まれた重みファイルの中で重みが予め定められた
基準を満たすn-gram全てをユーザが指定した選択文書か
ら抽出し、そのn-gramの選択文書における出現頻度を算
出する。

【００６４】図７に文書４が選択された場合の（ステッ
プ８）のn-gram抽出処理の概要を示す。本図では、nを
２とし、2-gramを抽出するための基準として「重みが0.
050以上のもの」としている。文書４から2-gramを全て
抽出すると、「ソフ」「フト」「トの」「の新」「新
製」「製品」「品の」「新聞」「聞発」「発表」の１０
種類（「の新」のみ２回出現）の2-gramが抽出される。
これに対し、「重みが0.050以上のもの」という基準で2
-gramを抽出すると、重みが0.075の「ソフ」「フト」お
よび0.052の「聞発」のみが抽出され、３種類の2-gram
に削減できる。このように本発明では、選択文書から抽
出するn-gramの種類数を削減している。

【００６５】次に、（ステップ９）において、（ステッ
プ８）で抽出されたn-gramの対象データベース中の全文
書における出現頻度を（ステップ７）で読み込まれた出
現頻度ファイルから得る。そして、（ステップ１０）に
おいて、（ステップ８）および（ステップ９）で算出さ
れた出現頻度ならびに（ステップ６）で読み込まれたn-
gramの重みから、予め定められた算出式を用いて選択文
書とデータベース中の全文書間の類似度を算出する。こ
の算出式は、従来技術４で示した数２を用いてもよい。

【００６６】次に、（ステップ１１）において、（ステ
ップ１０）で算出された類似度を予め定められた方法で
修正する。この修正には、以下の２つの方法がある。

【００６７】（１）算出した類似度を０〜１の間に正規
化して修正度とし、前回のランキングで得られた類似度
に乗ずる。

【００６８】通常のレリバンス・ランキングでは、ユー
ザが指定した検索タームで検索を行い、その結果得られ
た検索タームの出現頻度を基に類似度の算出を行う。す
なわち、単語を単位としたランキングである。そのた
め、無意味なまとまりであるn-gramを単位としてランキ
ングを行う場合よりノイズが少ない。しかし、n-gramを
単位としてランキングを行う場合にでも、算出した類似
度を０〜１の間に正規化して修正度とし、前回のランキ
ングで得られた類似度に乗じて修正し新たな類似度を得
ることにより、単語を単位としたランキングの結果を利
用できる。このため、n-gramを単位とすることによるノ
イズを減少させることができる。

【００６９】レリバンス・ランキングを行わずに、最初
から文書を選択してレリバンス・フィードバックを行っ
ていくこともできる。この場合，１回のレリバンス・フ
ィードバックだけではノイズが存在する可能性が高い。
しかし、上述したような修正を行いながらレリバンス・
フィードバックを繰り返していくことにより、１回のレ
リバンス・フィードバックでユーザが選択した文書のみ
に対する類似度ではなく、それまでのレリバンス・フィ
ードバックで選択してきた文書全てに対する類似度を算
出するのと同様な効果が得られる。このため、 n-gram
を単位とすることによるノイズを減少させることができ
る。

【００７０】（２）前回までのレリバンス・フィードバ
ックでユーザが選択した文書に対する類似度を高くす
る。

【００７１】ユーザが選択した文書は、ユーザが欲して
いる文書に近い文書である。このため、本来ならばレリ
バンス・フィードバックを繰り返していく過程におい
て、常に高い類似度を持たなければならない文書であ
る。しかし、n-gramをレリバンス・フィードバックの単
位とすることによって、これらの文書がその他の関係の
ない文書より類似度が低くなってしまう可能性がある。
そのため、それまでにユーザが選択した文書に対する得
点を高く（すなわち、ランキングで上位になければなら
ない文書の類似度を高く）することによって、その他の
関係のない文書の類似度を相対的に下げることになる。
このため、n-gramを単位とすることによるノイズを減少
させることができる。

【００７２】また本発明では、（ステップ８）において
ユーザが指定した選択文書から抽出するn-gramを、その
重みが予め定められた基準を満たすn-gramのみに限定
し、その種類数を削減している。そのため、（ステップ
９）における対象データベース中の全文書における出現
頻度の取得処理と、（ステップ１０）における文書間の
類似度算出処理を数を削減したn-gramのみを対象として
行えばよい。このため、これらの処理に掛かる時間を削
減することができる。その結果として、高速なレリバン
ス・フィードバックが可能となる。

【００７３】以上の結果、文字種の多い日本語等の文書
データベースを対象にn-gramを単位としたレリバンス・
フィードバックを行った場合でも、（ステップ８）にお
いて処理対象となるn-gramの種類数を押さえることが可
能になる。このため、得点算出のための処理を削減する
ことができ、高速なレリバンス・フィードバックが可能
となる。また、（ステップ１１）において、（ステップ
１０）で算出した類似度を修正度として、前回のランキ
ングによって得られた類似度を修正して新たな類似度を
得るため、単語を単位としたランキングの類似度が利用
できる。さらに、それまでのレリバンス・フィードバッ
クでユーザが選択した文書全てにたいする類似度を算出
するのと同様な効果が得られるため、n-gramを算出単位
とすることによるノイズを削減することができる。

【００７４】

【発明の実施の形態】以下、本発明の第一の実施例につ
いて図１を用いて説明する。本発明を適用した文書検索
システムは、ディスプレイ１００、キーボード１０１、
中央演算処理装置（ＣＰＵ）１０２、磁気ディスク装置
１０７、フロッピディスクドライバ（ＦＤＤ）１０８、
主メモり１１１およびこれらを結ぶバス１１０から構成
される。磁気ディスク装置１０７は二次記憶装置の一つ
であり、テキスト１０３、インデックス１０４、重みフ
ァイル１０５および出現位置ファイル１０６が格納され
る。ＦＤＤ１０８を介してフロッピディスク１０９に格
納されている情報が、主メモリ１１１あるいは磁気ディ
スク装置１０７へ読み込まれる。

【００７５】主メモリ１１１には、システム制御プログ
ラム１１２、文書登録制御プログラム１１３、テキスト
登録プログラム１１４、インデックス作成登録プログラ
ム１１５、重みファイル作成登録プログラム１１６、検
索制御プログラム１１９、検索条件式解析プログラム１
２０、インデックス検索プログラム１２１、レリバンス
・ランキングプログラム１２２、レリバンス・フィード
バックプログラム１２３およびソートプログラム１２８
が格納されるとともにワークエリア１２９が確保され
る。重みファイル作成登録プログラム１１６は、重み算
出プログラム１１７および重みファイル作成プログラム
１１８で構成される。また、レリバンス・フィードバッ
クプログラム１２３は、ファイル読込みプログラム１２
４、ｎ−ｇｒａｍ抽出プログラム１２５、出現頻度取得
プログラム１２６およびフィードバック得点算出プログ
ラム１２７で構成される。文書登録制御プログラム１１
３および検索制御プログラム１１９は、ユーザによるキ
ーボード１０１からの指示に応じてシステム制御プログ
ラム１１２によって起動され、それぞれテキスト登録プ
ログラム１１４、インデックス作成登録プログラム１１
５、重みファイル作成登録プログラム１１６の制御と、
検索条件式解析プログラム１２０、インデックス検索プ
ログラム１２１、レリバンス・ランキングプログラム１
２２、レリバンス・フィードバックプログラム１２３、
ソートプログラム１２８の制御を行う。

【００７６】以下、本実施例における文書検索システム
の処理内容について説明する。まず、システム制御プロ
グラム１１２の処理内容について図８のＰＡＤ（Ｐｒｏ
ｂｌｅｍＡｎａｌｙｓｉｓＤｉａｇｒａｍ）図を用
いて説明する。

【００７７】システム制御プログラム１１２は、まずス
テップ８００で、キーボード１０１から入力されたコマ
ンドを解析する。そしてこの結果が、ステップ８０１で
登録実行のコマンドであると解析された場合には，ステ
ップ８０２で文書登録制御プログラム１１３を起動し
て、文書の登録を行う。また、ステップ８０３で検索実
行のコマンドであると解析された場合には、ステップ８
０４で検索制御プログラム１１９を起動して、文書の検
索を行う。以上がシステム制御プログラム１１２の処理
内容である。

【００７８】次に、文書登録制御プログラム１１３によ
る文書登録の処理内容について、図９のＰＡＤ図を用い
て説明する。

【００７９】文書登録制御プログラム１１３は、システ
ム制御プログラム１１２によって起動される。本プログ
ラムは、まずステップ９００でテキスト登録プログラム
１１４を起動し、ＦＤＤ１０８に挿入されたフロッピデ
ィスク１０９から登録する文書のテキストデータをワー
クエリア１２９に読み込み、これをテキスト１０３とし
て磁気ディスク装置１０７へ格納する。テキストデータ
は、フロッピディスクを用いて入力するだけに限らず、
通信回線やＣＤ−ＲＯＭ装置（図１には示していない）
等を用いて他の装置から入力するような構成をとること
も可能である。次に、ステップ９０１で文書登録制御プ
ログラム１１３は、インデックス作成登録プログラム１
１５を起動して、テキスト１０３中の所定のn-gramのテ
キスト１０３における出現位置をインデックス１０４と
して磁気ディスク装置１０７へ格納する。また、そのn-
gramの出現頻度を出現頻度ファイル１０６として磁気デ
ィスク装置１０７へ格納する。最後に、ステップ９０２
で文書登録制御プログラム１１３は、重みファイル作成
登録プログラム１１６を起動し、上記インデックス作成
登録プログラム１１５で算出されたn-gramの出現頻度を
基にn-gramの重みを算出し、重みファイル１０５として
磁気ディスク装置１０７に格納する。以上が、文書登録
制御プログラム１１３による文書登録の処理内容であ
る。

【００８０】次に、検索制御プログラム１１９による文
書検索の処理内容について、図１０のＰＡＤ図を用いて
説明する。

【００８１】検索制御プログラム１１９は、まずステッ
プ１０００で検索条件式解析プログラム１２０を起動す
る。そして、キーボード１０１から入力された検索条件
式で指定されている検索方法がインデックス検索、レリ
バンス・ランキング、レリバンス・フィードバックのい
ずれであるのかを解析し、検索条件式から検索タームあ
るいは文書番号を抽出する。そして、検索条件式解析プ
ログラム１２０によって解析する。この結果が、インデ
ックス検索であった場合には、検索制御プログラム１１
９は、インデックス検索プログラム１２１を起動し、検
索条件式解析プログラム１２０によって抽出された検索
タームのテキスト１０３における出現文書番号および出
現位置を算出する（ステップ１００２）。

【００８２】また、検索条件式解析プログラム１２０に
よって解析された結果が、レリバンス・ランキングであ
った場合には、検索制御プログラム１１９はインデック
ス検索プログラム１２１を起動し、検索条件式解析プロ
グラム１２０によって抽出された検索タームのテキスト
１０３における出現文書番号および出現位置を算出する
（ステップ１００４）。次に、レリバンス・ランキング
プログラム１２２を起動し、インデックス検索プログラ
ム１２１によって算出された検索タームの出現文書番号
および出現位置から各文書の類似度を算出する（ステッ
プ１００５）。そして、ソートプログラム１２８を起動
し、レリバンス・ランキングプログラム１２２によって
算出された各文書の類似度を降順にソートする（ステッ
プ１００６）。

【００８３】また、第三番目のケースとして、検索条件
式解析プログラム１２０によって解析された結果がステ
ップ１００７でレリバンス・フィードバックであった場
合には、検索制御プログラム１１９は、ステップ１００
８でレリバンス・フィードバックプログラム１２３を起
動し、検索条件式解析プログラム１２０によって抽出さ
れた番号の文書に対する各文書の類似度を算出する。そ
して、ソートプログラム１２８を起動し、レリバンス・
フィードバックプログラム１２３によって算出された各
文書の類似度を降順にソートする（ステップ１００
９）。

【００８４】最後に、検索制御プログラム１１９はステ
ップ１０１０で、インデックス検索プログラム１２１に
よって算出された文書番号、あるいはソートプログラム
１２８によってソートされた類似度を出力する。以上が
検索制御プログラム１１９による文書検索の処理内容で
ある。

【００８５】次に、図９に示した文書登録制御プログラ
ム１１３による文書登録処理におけるインデックス作成
登録プログラム１１５および重みファイル作成登録プロ
グラム１１６の処理内容について、図１１および図１２
のＰＡＤ図を用いて説明する。

【００８６】インデックス作成登録プログラム１１５
は、図１１に示すようにまずステップ１１００でテキス
ト１０３から所定のn-gramとそのテキスト１０３におけ
る出現位置を抽出し、ワークエリア１２９に格納する。
そして、ステップ１１０１で、抽出したn-gramの出現位
置をインデックス１０４として磁気ディスク装置１０７
に格納する。このインデックスの作成については、従来
技術３に示されているような方法を用いてもよい。次
に、ステップ１１０２で、ワークエリア１２９に格納さ
れているn-gramの個数をカウントし、各々のn-gramのテ
キスト１０３の各文書中の出現頻度を算出する。そし
て、ステップ１１０３で、算出したn-gramの各文書中の
出現頻度を出現頻度ファイル１０６として、磁気ディス
ク装置１０７に格納する。

【００８７】重みファイル作成登録プログラム１１６
は、図１２に示すように、まずステップ１２００で重み
算出プログラム１１７を起動し、上記インデックス作成
登録プログラム１１５よって算出されたn-gramのテキス
ト１０３の各文書中の出現頻度を基に各々のn-gramの重
みを算出する。この重みには、例えば、従来技術３で開
示されているような出現頻度を文書に含まれるn-gramの
総数で割った正規化出現頻度の平均値（従来技術３では
共通性ウェートと呼ばれている）を用いてもよい。最後
に、ステップ１２０１で重みファイル作成プログラム１
１８を起動し、重み算出プログラム１１７によって算出
されたn-gramの重みを重みファイル１０５として磁気デ
ィスク装置１０７に格納する。

【００８８】次に、図１０に示した検索制御プログラム
１１９による文書検索処理における検索条件式解析プロ
グラム１２０、インデックス検索プログラム１２１、レ
リバンス・ランキングプログラム１２２およびレリバン
ス・フィードバックプログラム１２３の処理内容につい
て、図１３〜図１６のＰＡＤ図を用いて説明する。

【００８９】検索条件式解析プログラム１２０は、図１
３に示すように、まずステップ１３００でキーボード１
０１から入力された検索条件式に、インデックス検索、
レリバンス・ランキング、レリバンス・フィードバック
のいずれが指定されているのかを判定する。そして、判
定結果がステップ１３０１でインデックス検索であった
場合には、ステップ１３０２で検索条件式から検索ター
ムを抽出する。ここで、抽出された検索タームが、ステ
ップ１３０３で２つ以上であった場合には、ステップ１
３０４でそれらの検索ターム間の論理的な関係あるいは
テキスト１０３中での位置関係を検索条件式から抽出す
る。ここで、複数の検索ターム間の論理的な関係とは、
例えば、ＡＮＤ条件やＯＲ条件がある。ここで、ＡＮＤ
条件とは、検索式「「文書」（ＡＮＤ）「検索」」のよ
うに、「「文書」と「検索」の両方の文字列が現れる文
書を探せ」という意味を持つ。また、ＯＲ条件とは、検
索式「「文書」（ＯＲ）「検索」」のように、「「文
書」か「検索」のどちらかの文字列が現れる文書を探
せ」という意味を持つ。

【００９０】また、複数の検索ターム間のテキスト１０
３中での位置関係とは、文脈条件、近傍条件や隣接条件
などがある。文脈条件とは、例えば検索式「「文書」
（Ｓ）「検索」」のように、「「文書」と「検索」が同
一の文（センテンス）に共起（同時に出現）する文書を
探せ」という意味を持つ。近傍条件とは、検索式「「文
書」（２Ｃ）「検索」」のように、「「文書」と「検
索」が２文字以内に近接して現れる文書を探せ」という
意味を持つ。さらに、隣接条件とは、検索式「「文書」
（Ａ）「検索」」のように、「「文書」と「検索」が隣
接して現れる文書を探せ」という意味を持つ。

【００９１】また、ステップ１３０５において、検索条
件式の判定結果がレリバンス・ランキングであった場合
には、ステップ１３０６で検索条件式から検索タームを
抽出する。また第三番目のケースとして、ステップ１３
０７において、検索条件式でレリバンス・フィードバッ
クであった判定された場合には、ステップ１３０８で検
索条件式から文書番号を抽出する。

【００９２】インデックス検索プログラム１２１は、図
１４に示すように、まずステップ１４００において、上
記検索条件式解析プログラム１２０によって抽出された
検索タームのテキスト１０３における出現文書番号およ
び出現位置を求める。このインデックス検索について
は、従来技術３に示されているような方法を用いてもよ
い。すなわち、検索タームに含まれるn-gramのインデッ
クスの間で文書番号および出現位置を比較し、その文書
番号が同じで出現位置の関係が検索タームにおける位置
関係と等しいものを抽出する。次に、ステップ１４０１
において、検索条件式解析プログラム１２０によって解
析された結果がインデックス検索であった場合には、ス
テップ１４０２でキーボード１０１から入力された検索
条件式中の検索ターム数を判定する。また、検索ターム
が検索条件式中に２つ以上存在する場合には、ステップ
１４０３で算出した複数の出現文書番号および出現位置
が検索条件式に指定されている検索条件と合致するもの
を抽出する。ここで、検索条件式解析プログラム１２０
によって検索ターム間の論理的な関係が検索条件式から
抽出されている場合には、得られた検索タームに対応す
る各出現文書番号で論理積や論理和をとる。また、検索
タームのテキスト１０３中での位置関係が検索条件式か
ら抽出されている場合には、得られた複数の検索ターム
の出現位置のうちで検索条件式で指定されている位置関
係に合致するものを抽出する。

【００９３】レリバンス・ランキングプログラム１２２
は、図１５に示すように、まずステップ１５００におい
て、上記インデックス検索プログラム１２１によって算
出された検索タームの出現文書番号および出現位置を基
に、検索タームの各文書中の出現頻度を算出する。そし
て、ステップ１５０１で算出した検索タームの出現頻度
を基に、各文書の類似度を算出する。この類似度の算出
については、従来技術１に開示されているベクトルによ
る算出方法を用いてもよいし、「A Very FastPrototype
Retrieval System using Statiscal Ranking」（Donna
Harman and Gerald Candela著、SIGIR FORUM Spring/S
ummer １９８９，Vol.２３，No.３,４，pp.１００−１
１０）で述べられている以下の数４を用いてもよい。

【００９４】

【数４】

【００９５】ここで、Qは検索条件式中の検索タームの
数、Freq（jk）は検索タームkの文書j中の出現頻度、Mj
は文書j中の単語の総数（日本語の場合はテキスト長で
代用）を示す。また、IDF（k）は以下の数５で示され
る。

【００９６】

【数５】

【００９７】ここで、Nはデータベース中の文書の数、N
umD（k）は検索タームkを１つ以上含む文書の数、すな
わち、文書ヒット件数を示す。文書の類似度は、検索タ
ームの出現頻度をテキスト長で正規化したものである。
この値は、指定された検索タームが多く出現する文書ほ
ど高くなる。また、IDF（k）は、検索タームの対象デー
タベースにおける出現のばらつき具合を示す。IDF（k）
は、検索タームが対象データベース中の全ての文書に出
現する場合に最も小さく、偏って出現するほど大きくな
る。全ての文書に出現する検索タームはストップワード
であるため、IDF（k）を出現頻度に乗ずることによっ
て、ストップワードの影響を抑えることができる。

【００９８】レリバンス・フィードバックプログラム１
２３は、図１６に示すように、まずステップ１６００で
ファイル読込みプログラム１２４を起動し、重みファイ
ル１０５および出現頻度ファイル１０６をワークエリア
１２９に読み込む。次に、ステップ１６０１において、
n-gram抽出プログラム１２５を起動し、上記検索条件式
解析プログラム１２０によって検索条件式から抽出され
た文書番号に対応する文書（以下、選択文書と呼ぶ）か
ら重みが所定の基準を満たすn-gramを抽出する。ここで
基準としては、重みが上位m（mは１以上の予め定められ
た整数）個にあるn-gramとしてもよいし、重みがある決
められた範囲（例えば、i以上k未満、i,kは予め定めら
れた数値）にあるn-gramとしてもよい。次に、ステップ
１６０２において、出現頻度取得プログラム１２６を起
動し、n-gram抽出プログラム１２５によって抽出された
n-gramの各文書中の出現頻度を出現頻度ファイル１０６
から得る。最後に、ステップ１６０３において、フィー
ドバック得点算出プログラム１２７を起動し、ファイル
読込みプログラム１２４によって読み込まれたn-gramの
重み、出現頻度取得プログラム１２６によって得られた
n-gramの出現頻度を基にデータベース中の各文書の類似
度を算出する。この類似度の算出については、従来技術
４に開示されている数２のような算出式を用いてもよい
し、n-gramを単語とみなしてレリバンス・ランキングで
用いた数５を用いてもよい。以上が、本発明の文書検索
方法の第一の実施例である。

【００９９】以下、図１２に示した本実施例における重
みファイル作成登録プログラム１１６の処理手順につい
て具体的に説明する。

【０１００】まず、図１２の重みファイル作成登録プロ
グラム１１６のステップ１２００における重み算出プロ
グラム１１７の処理について、図１７〜図１８の例を用
いて説明する。重み算出プログラム１１７は、重みファ
イル作成登録プログラム１１６によって起動される。こ
の時、インデックス作成登録プログラム１１５によって
算出されたn-gramの各文書における出現頻度が重み算出
プログラム１１７へ渡される。図１７に文書１、文書
２、文書３および文書４からなるテキスト１０３からイ
ンデックス作成登録プログラム１１５によって2-gramの
出現頻度が算出される様子を示す。本図では、まず、テ
キスト１０３から2-gram１７００が抽出される。例え
ば、文書１「新開発の心電計による発作時の心電図」か
らは「新開、開発、発の、の心、心電、電計、計に、に
よ、よる、る発、発作、作時、時の、の心、心電、電
図」という2-gram１７００が抽出される。

【０１０１】次に、この抽出されたn-gramの出現頻度１
７０１が算出される。本図に示すように、2-gram１７０
０から出現頻度１７０１が算出される。例えば、文書１
からは「（新開，１）（開発，１）（発の，１）（の
心，２）（心電，２）（電計，１）（計に，１）（に
よ，１）（よる，１）（る発，１）（発作，１）（作
時，１）（時の，１）（電図，１）」という出現頻度１
７０１が算出される。ここで、例えば（新開，１）とは
2-gram（新開）は「１」回出現することを示す。このよ
うにしてインデックス作成登録プログラム１１５によっ
て算出されたn-gramの出現頻度が、重み算出プログラム
１１７の起動時に渡される。そして、重み算出プログラ
ム１１７は、図１２のステップ１２００で渡された出現
頻度を基にn-gramの重みを算出する。重み算出の例を図
１８に示す。本図では，2-gram「開発」と「ソフ」の算
出例を示してある。また、重みには、出現頻度をテキス
ト長で割った正規化出現頻度の平均値を用いている。例
えば、「開発」の正規化出現頻度は、テキスト長が17の
文書１では0.059、テキスト長が14の文書２では0.071、
テキスト長が16の文書３では0.063、テキスト長が12の
文書４では0である。このため、その重みは0.048（=(0.
059+0.071+0.063+0)/4）となる。

【０１０２】次に、図１２の重みファイル作成登録プロ
グラム１１６のステップ１２０１における重みファイル
作成プログラム１１８の処理について説明する。重みフ
ァイル作成プログラム１１８は、重みファイル作成登録
プログラム１１６によって重み算出プログラム１１７の
次に起動される。重みファイル作成プログラム１１８
は、図１２のステップ１２０１で重み算出プログラム１
１７によって算出されたn-gramの重みを重みファイル１
０５として磁気ディスク装置１０７に格納する。重みフ
ァイル１０５は、図６に示したような形式で作成する。

【０１０３】以上が、本実施例における重みファイル作
成登録プログラム１１６の詳細な手順である。この例で
はn-gramのnの値を2として説明を行ったが、nが1、ある
いは3以上についても同様に重みファイル作成登録の処
理を行うことができる。

【０１０４】以下、図１６に示した本実施例におけるレ
リバンス・フィードバックプログラム１２３の処理手順
について具体的に説明する。

【０１０５】まず、図１６のレリバンス・フィードバッ
クプログラム１２３のステップ１６００におけるファイ
ル読込みプログラム１２４の処理について説明する。フ
ァイル読込みプログラム１２４は、レリバンス・フィー
ドバックプログラム１２３によって起動される。本プロ
グラム１２４は、図１６のステップ１６００で重みファ
イル１０５および出現頻度ファイル１０６を磁気ディス
ク装置１０７からワークエリア１２９に読み込む。ここ
で、読み込まれる重みファイル１０５および出現頻度フ
ァイル１０６は、図６および図５に示した形式で作成さ
れている。

【０１０６】次に、図１６のレリバンス・フィードバッ
クプログラム１２３のステップ１６０１におけるn-gram
抽出プログラム１２５の処理について、図１９の例を用
いて説明する。 n-gram抽出プログラム１２５は、レリ
バンス・フィードバックプログラム１２３によってファ
イル読込みプログラム１２４の次に起動される。本プロ
グラム１２５は、図１６のステップ１６０１において、
ユーザが指定した選択文書から所定のn-gramを抽出す
る。そして、抽出されたn-gramの中からその重みが所定
の基準を満たすものだけを抽出する。この処理の例を図
１９に示す。本図では、文書２「新しいソフトウェアの
開発作業」を選択文書とし、n-gramのnの値を2とした場
合を示している。また、基準としては（重みが0.040以
上のn-gram）を用いる。まず、選択文書から2-gramを抽
出する。この結果、文書２からは13種類の2-gram「新
し，しい，いソ，ソフ，フト，トウ，ウェ，ェア，ア
の，の開，開発，発作，作業」が抽出される。次に、こ
れらのn-gramから（重みが0.040以上のn-gram）という
基準を満たすn-gramを抽出する。このとき、基準を満た
すもののみ抽出してもよい。本例では、「ソフ」の重み
が0.070、「フト」の重みが0.070、「開発」の重みが0.
048で基準に当てはまる。このため、「ソフ、フト、開
発」という2-gram１９００が抽出される。重みファイル
１０５中の「の新」の重みは、0.042であり、基準を満
たしている。しかし、「の新」は、文書２の中に存在し
ないので抽出されない。

【０１０７】次に、図１６のレリバンス・フィードバッ
クプログラム１２３のステップ１６０２における出現頻
度取得プログラム１２６の処理について、図２０の例を
用いて説明する。出現頻度取得プログラム１２６は、レ
リバンス・フィードバックプログラム１２３によって、
n-gram抽出プログラム１２５の次に起動される。本プロ
グラム１２６は、図１６のステップ１６０２において、
n-gram抽出プログラム１２５によって抽出されたn-gram
の各文書における出現頻度を出現頻度ファイル１０６か
ら得る。この処理の例を図２０に示す。本図では、図１
９の例で選択文書から抽出された「ソフ、フト、開発」
という2-gram１９００の出現頻度を出現頻度ファイル１
０６から得る。例えば、文書３の場合「（開発，１）、
（ソフ，２）、（フト，２）」という出現頻度２０００
を得ることができる。

【０１０８】最後に、図１６のレリバンス・フィードバ
ックプログラム１２３のステップ１６０３におけるフィ
ードバック得点算出プログラム１２７の処理について、
図２１の例を用いて説明する。フィードバック得点算出
プログラム１２７は、レリバンス・フィードバックプロ
グラム１２３によって出現頻度取得プログラム１２６の
次に起動される。本プログラム１２７は、図１６のステ
ップ１６０３において、上記ファイル読込みプログラム
１２４によって読み込まれたn-gramの重みおよび出現頻
度取得プログラム１２６によって得られたn-gramの出現
頻度から各文書の類似度を算出する。この類似度の算出
については、従来技術４に開示されている数２のような
算出式を用いてもよいし、n-gramを単語とみなしてレリ
バンス・ランキングで用いた数４を用いてもよい。図２
１に示す例では、類似度算出に従来技術４に示されてい
る数２を用いており、正規化出現頻度がウェート、重み
が共通性ウェートに相当する。類似度算出の結果、各文
書に対する類似度が得られる。本図に示した例では、文
書１は0.049点、文書２は1.000点、文書３は0.249点、
文書４は−0.910点となる。

【０１０９】以上説明したように、本実施例では，登録
時にn-gramの重みを算出しておき，レリバンス・フィー
ドバックを行う際には，テキストから抽出するn-gramと
してその重みが基準を満たしたものだけに限定し，類似
度算出に用いるn-gramの種類数を減らすことにより，類
似度算出に掛かる時間を削減し，高速なレリバンス・フ
ィードバックを実現することが可能となる。

【０１１０】このことにより、文字種の多い日本語等の
文書データベースを対象にn-gram単位のレリバンス・フ
ィードバックを行った場合でも、n-gramの種類数が限定
される。このため得点算出のための処理を減らすことが
でき、高速なレリバンス・フィードバックが可能とな
る。

【０１１１】次に、本発明の第二の実施例について説明
する。本実施例で示す文書検索方法では，文書を登録す
る際に、異なる文字種にまたがるようなn-gramを削除し
てn-gramの出現頻度および重みを算出し格納しておくも
のである。このことにより、出現頻度ファイルおよび重
みファイルの容量を削減するとともに、レリバンス・フ
ィードバック時に選択文書からn-gramを抽出する際、選
択文書から抽出するn-gramを同一文字種のものだけに限
定できる。このことにより、レリバンス・フィードバッ
クの処理に用いるn-gramの種類数を削減する。この方法
によれば、必要な磁気ディスク装置の容量を削減できる
とともに、レリバンス・フィードバックにおける類似度
算出処理を高速に実現できることになる。

【０１１２】本実施例は、基本的に第一の実施例（図
１）と同様の構成をとるが、その中の文書登録制御プロ
グラム１１３の制御下のインデックス作成登録プログラ
ム１１５が異なる。このプログラムは、図２２に示すよ
うな構成となる。図２２に示すように文書登録制御プロ
グラム１１３ａは、テキスト登録プログラム１１４、文
字種分割出現頻度ファイル型インデックス作成登録プロ
グラム２２００および重みファイル作成登録プログラム
１１６を制御する。

【０１１３】以下、本実施例における処理手順のうち、
第一の実施例と異なる文字種分割出現頻度ファイル型イ
ンデックス作成登録プログラム２２００の処理手順につ
いて説明する。

【０１１４】文字種分割出現頻度ファイル型インデック
ス作成登録プログラム２２００の処理内容を図２３のPA
D図に示す。本プログラム２２００の処理内容は、図１
１に示したインデックス作成登録プログラム１１５とス
テップ２３００が異なるだけである。本プログラム２２
００は図２３に示すように、まずステップ１１００でテ
キスト１０３から所定のn-gramとそのテキスト１０３に
おける出現位置を抽出し、ワークエリア１２９に格納す
る。そして、ステップ１１０１で、抽出したn-gramの出
現位置をインデックス１０４として磁気ディスク装置１
０７に格納する。次に、ステップ２３００において、ワ
ークエリア１２９に格納されているn-gramの中で、異な
る文字種にまたがるものを削除する。そして、ステップ
１１０２において、ワークエリア１２９に格納されてい
るn-gramの個数をカウントし、各々のn-gramのテキスト
１０３の各文書中の出現頻度を算出する。そして、ステ
ップ１１０３において、算出したn-gramの各文書中の出
現頻度を出現頻度ファイル１０６として磁気ディスク装
置１０７に格納する。以上が本発明の文書検索方法を適
用した第二の実施例の概略である。

【０１１５】以下、図２３に示した本実施例における文
字種分割出現頻度ファイル型インデックス作成登録プロ
グラム２２００の処理手順のうち、第一の実施例と処理
結果が異なるステップ２３００、ステップ１１０２およ
びステップ１１０３について、図２４に示す例を用いて
具体的に説明する。図１７に示したように、図２３のス
テップ１１００で文書１、文書２、文書３および文書４
からなるテキスト１０３から2-gram１７００が抽出さ
れ、ワークエリア１２９に格納される。例えば、文書１
「新開発の心電計による発作時の心電図」からは「新
開、開発、発の、の心、心電、電計、計に、によ、よ
る、る発、発作、作時、時の、の心、心電、電図」とい
う2-gram１７００が抽出される。そして、ステップ２３
００において、この2-gram１７００の中で、異なる文字
種にまたがるものが削除される。例えば、文書１から抽
出された2-gramから異なる文字種にまたがる「発の、の
心、計に、る発、時の、の心」が削除され、「新開、開
発、心電、電計、によ、よる、発作、作時、心電、電
図」という2-gram２４００が残される。次に、ステップ
１１０２において、削除されずに残ったn-gramの出現頻
度が算出される。

【０１１６】本図に示すように、2-gram２４００から出
現頻度２４０１が算出される。例えば、「新開、開発、
心電、電計、によ、よる、発作、作時、心電、電図」と
いう2-gram２４００からは、「（新開，１）、（開発，
１）、（心電，２）、（電計，１）、（によ，１）、
（よる，１）、（発作，１）、（作時，１）、（電図，
１）」という出現頻度２４０１が算出される。ここで、
例えば（新開，１）とは、2-gram「新開」は、「１」回
出現することを示す。最後に、ステップ１１０３におい
て、算出したn-gramの出現頻度を出現頻度ファイル１０
６として磁気ディスク装置１０７に格納する。ここで、
作成される出現頻度ファイル１０６には、異なる文字種
にまたがるn-gramは存在しないので、図２５に示すよう
なファイルになる。

【０１１７】重みファイル作成登録プログラム１１６の
処理内容は、第一の実施例の図１２で示したものと同様
である。しかし、上記文字種分割出現頻度ファイル型イ
ンデックス作成登録プログラム２２００によって算出さ
れる出現頻度は同一文字種のn-gramに対してのみであ
る。そのため、本プログラム１１６によって作成される
重みファイル１０５には、同一文字種のn-gramだけが含
まれ、図２６に示すようになる。

【０１１８】本実施例におけるレリバンス・フィードバ
ックプログラム１２３の処理手順は、第一の実施例で示
した図１６と全く同様である。しかし、上記重みファイ
ル作成登録プログラム１１６によって作成される重みフ
ァイル１０５には同一文字種のn-gramだけが格納されて
いるので、結果として選択文書から抽出されるn-gramも
同一文字種のものだけになり、n-gram種が削減される。

【０１１９】以上説明したように、本実施例では、文書
を登録する際に異なる文字種にまたがるようなn-gramを
削除して重みを算出する。このことにより、重みファイ
ルの容量を小さくすることができるため、第一の実施例
に比べ小容量の磁気ディスク装置を用いることができ
る。また、レリバンス・フィードバック時に選択文書か
ら抽出するn-gramは同一文字種のもののみに限定するた
め、文書の類似度算出の処理に用いるn-gramの種類数を
削減することができる。このため、第一の実施例に比べ
高速なレリバンス・フィードバックを実現することが可
能となる。

【０１２０】以上により、文字種の多い日本語等の文書
データベースを対象にn-gram単位のレリバンス・フィー
ドバックを行った場合でも、n-gramの種類数が限定され
るため、類似度算出のための処理を減らすことができ、
高速なレリバンス・フィードバックを実現することがが
可能となる。

【０１２１】次に、本発明の第三の実施例について説明
する。本実施例は、前回のレリバンス・ランキングやレ
リバンス・フィードバックで算出された文書の類似度を
記憶しておく。レリバンス・フィードバックを行う際に
は、記憶しておいた類似度が予め定められたしきい値以
上である文書に対してのみ類似度を算出する。ことによ
り、ユーザが欲する文書と関連が薄い文書に対する類似
度算出処理を省くことができる。この方法によれば、レ
リバンス・フィードバックにおける類似度算出処理をさ
らに高速に実現できることになる。

【０１２２】本実施例は、基本的に第一の実施例（図
１）と同様の構成をとる。しかし、主メモリ１１１に、
前回得点記憶部を確保するところと、検索制御プログラ
ム１１９の制御下のレリバンス・フィードバックプログ
ラム１２３が異なる。本発明を適用した文書検索システ
ムのうち、主メモリ１１１の構成を図２７に示す。本図
に示すように本実施例では、主メモリ１１１に前回記憶
部２７０２が確保される。また、検索制御プログラム１
１９ａは、検索条件式解析プログラム１２０、インデッ
クス検索プログラム１２１、レリバンス・ランキングプ
ログラム１２２、レリバンス・フィードバックプログラ
ム１２３ａおよびソートプログラム１２８を制御する。
レリバンス・フィードバックプログラム１２３ａは、フ
ァイル読込みプログラム１２４、検索対象文書抽出プロ
グラム２７００、n-gram抽出プログラム１２５、出現頻
度取得プログラム１２６、フィードバック得点算出プロ
グラム１２７および得点記憶プログラム２７０１で構成
される。

【０１２３】以下、本実施例における処理手順のうち、
第一の実施例と異なるレリバンス・フィードバックプロ
グラム１２３ａの処理手順について図２８を用いて説明
する。本図は、第一の実施例で示した図１６とステップ
２８００およびステップ２８０１が異なる。

【０１２４】レリバンス・フィードバックプログラム１
２３ａは、図２８に示すように、まずステップ１６００
において、ファイル読込みプログラム１２４を起動し、
重みファイル１０５および出現頻度ファイル１０６をワ
ークエリア１２９に読み込む。次に、ステップ２８００
において、検索対象文書抽出プログラム２７００を起動
し、前回得点記憶部２７０２に記憶されている前回の類
似度が予め定められたしきい値以上である文書の集合を
検索対象文書集合とする。次に、ステップ１６０１でn-
gram抽出プログラム１２５を起動し、検索条件式解析プ
ログラム１２０によって検索条件式から抽出された選択
文書から重みが所定の基準を満たすn-gramを抽出する。
次に、ステップ１６０２において、出現頻度取得プログ
ラム１２６を起動し、n-gram抽出プログラム１２５によ
って抽出されたn-gramの検索対象文書中の出現頻度を出
現頻度ファイル１０６から得る。そして、ステップ１６
０３でフィードバック得点算出プログラム１２７を起動
し、ファイル読込みプログラム１２４によって読み込ま
れたn-gramの重み、出現頻度取得プログラム１２６によ
って得られたn-gramの出現頻度を基にデータベース中の
各文書の類似度を算出する。最後に、ステップ２８０１
において、得点記憶プログラム２７０１を起動し、算出
された類似度を前回得点記憶部２７０２に記憶する。以
上が本発明の文書検索方法を適用した第三の実施例の概
略である。

【０１２５】以下、図２８に示した本実施例におけるレ
リバンス・フィードバックプログラム１２３ａの処理手
順のうち、第一の実施例と異なる部分について具体的に
説明する。

【０１２６】まず、図２８のステップ２８００におい
て、起動される検索対象文書抽出プログラム２７００の
処理について、図２９の例を用いて説明する。検索対象
文書抽出プログラム２７００は、前回得点記憶部２７０
２に記憶されている前回の類似度が予め定められたしき
い値以上である文書の集合を検索対象文書集合とする。
各文書の前回の類似度は、前回得点記憶部２７０２に図
２９に示すような形式で記憶されている。この前回得点
記憶部２７０２に記憶されている類似度が、予め定めら
れたしきい値以上である文書番号を抽出し、その文書の
集合を検索対象文書集合とする。図２９では、「0.1」
をしきい値とし、それ以上の類似度を持つ文書番号を抽
出し、検索対象文書集合としている。例えば、文書２は
類似度が「0.59」なので集合に含まれるが、文書１は類
似度が「0.08」なので集合には含まれない。

【０１２７】この結果、本図では文書２、文書３および
文書４の集合が作成され、検索対象文書集合となる。こ
こで得られた検索対象文書に対し、図２８のステップ１
６０１〜ステップ１６０３で文書の類似度が算出され
る。例えば、文書２を選択文書とした場合には、第一の
実施例で図１９〜図２１を用いて説明した中で文書１以
外に対して行った類似度算出処理と同様の処理が行われ
る。この結果、文書２の類似度「1.000」、文書３の類
似度「0.249」、文書４の類似度「−0.910」が得られ
る。最後に、図２８のステップ２８０１で得点記憶プロ
グラム２７０１が起動され、算出された類似度を前回得
点記憶部２７０２に記憶する。フィードバック得点算出
プログラム１２７によって算出された文書２の類似度
「1.000」、文書３の類似度「0.249」、文書４の類似度
「−0.910」を前回得点記憶部２７０２に格納した例を
図３０に示す。ここで、文書１は類似度が算出されてい
ないため記憶されていない。

【０１２８】以上説明したように、本実施例では、前回
のレリバンス・ランキングやレリバンス・フィードバッ
クで算出された文書の類似度を記憶しておき、レリバン
ス・フィードバックを行う際には，記憶してある前回類
似度が予め定められたしきい値以上である文書に対して
のみ類似度を算出する。このことにより、類似度算出対
象文書が削減できるため、高速なレリバンス・フィード
バックが実現できる。

【０１２９】以上の構成により、文字種の多い日本語等
の文書データベースを対象にn-gram単位のレリバンス・
フィードバックを行った場合でも、類似度算出対象文書
が削減される。このため、類似度算出の処理を軽減する
ことができ、高速なレリバンス・フィードバックが可能
となる。

【０１３０】次に、本発明の第四の実施例について説明
する。本実施例で示す文書検索方法では、前回のレリバ
ンス・ランキングやレリバンス・フィードバックで算出
された各文書の類似度を記憶しておく。レリバンス・フ
ィードバックを行う際には、算出した類似度を０から１
の間に正規化して修正率とし、その類似度を選択文書が
最高類似度になるまで前回の類似度に乗ずる。このこと
により、前回までのレリバンス・ランキングやレリバン
ス・フィードバックの結果を今回のレリバンス・フィー
ドバックに反映する。本方法によれば、n-gram単位にレ
リバンス・フィードバックを行うことによるノイズを削
減することが可能となる。

【０１３１】本実施例は、基本的に第三の実施例（図２
７）と同様の構成をとる。しかし、検索制御プログラム
１１９ａの制御下のレリバンス・フィードバックプログ
ラム１２３ａが異なる。本発明を適用した文書検索シス
テムのうち、レリバンス・フィードバックプログラム１
２３ｂの構成を図３１に示す。本図に示すように、レリ
バンス・フィードバックプログラム１２３ｂは、ファイ
ル読込みプログラム１２４、n-gram抽出プログラム１２
５、出現頻度取得プログラム１２６、フィードバック得
点算出プログラム１２７、得点修正プログラム３１００
および得点記憶プログラム２７０１で構成される。

【０１３２】以下、本実施例における処理手順のうち、
第三の実施例と異なるレリバンス・フィードバックプロ
グラム１２３ｂの処理手順について、図３２を用いて説
明する。本図は、第三の実施例で示した図２８からステ
ップ２８００を削除し、ステップ３２００を追加したも
のである。

【０１３３】レリバンス・フィードバックプログラム１
２３ｂは、図３２に示すように、まずステップ１６００
でファイル読込みプログラム１２４を起動し、重みファ
イル１０５および出現頻度ファイル１０６をワークエリ
ア１２９に読み込む。次に、ステップ１６０１でn-gram
抽出プログラム１２５を起動し、検索条件式解析プログ
ラム１２０によって検索条件式から抽出された選択文書
から重みが所定の基準を満たすn-gramを抽出する。次
に、ステップ１６０２において、出現頻度取得プログラ
ム１２６を起動し、n-gram抽出プログラム１２５によっ
て抽出されたn-gramの検索対象文書中の出現頻度を出現
頻度ファイル１０６から得る。そして、ステップ１６０
３において、ィードバック得点算出プログラム１２７を
起動し、ファイル読込みプログラム１２４によって読み
込まれたn-gramの重み、出現頻度取得プログラム１２６
によって得られたn-gramの出現頻度を基にデータベース
中の各文書の類似度を算出する。次に、ステップ３２０
０で得点修正プログラム３１００を起動し、算出された
類似度と前回得点記憶部２７０２に記憶されている前回
の類似度を用いて新たな類似度を算出する。最後に、ス
テップ２８０１で得点記憶プログラム２７０１を起動
し、算出された類似度を前回得点記憶部２７０２に記憶
する。

【０１３４】以下、図３２に示したレリバンス・フィー
ドバックプログラム１２３ｂの処理手順のうち、ステッ
プ３２００で起動される得点修正プログラム３１００の
処理内容について、図３３のPAD図を用いて説明する。

【０１３５】得点修正プログラム３１００は、レリバン
ス・フィードバックプログラム１２３ｂによって、フィ
ードバック得点算出プログラム１２７の次に起動され
る。得点修正プログラム３１００は、ステップ３３００
でフィードバック得点算出プログラム１２７によって算
出された文書の類似度を正規化（例えば、最高類似度を
１として０から１の間に）し、この値を修正率とする。
次に、ステップ３３０２において、前回得点記憶部２７
０２に記憶されている前回の類似度に上記修正率を乗じ
る。そして、ステップ３３０１で選択文書の類似度が最
も高くなるまで、ステップ３３０２を繰り返す。以上が
本発明の文書検索方法を適用した第四の実施例の概略で
ある。

【０１３６】以下、図３３に示した本実施例における得
点修正プログラム３１００の処理手順について、図３４
に示す例を用いて具体的に説明する。図３４の例では、
文書４を選択文書としている。

【０１３７】得点修正プログラム３１００は、レリバン
ス・フィードバックプログラム１２３ｂによって、フィ
ードバック得点算出プログラム１２７の次に起動され
る。フィードバック得点算出プログラム１２７では、文
書の類似度３４００が算出される。文書の類似度３４０
０としては、文書１（25点）、文書２（18点）、文書３
（29点）および文書４（54点）などがある。図３３で、
得点修正プログラム３１００は、ステップ３３００でフ
ィードバック得点算出プログラム１２７によって算出さ
れた文書の類似度を正規化（例えば、最高類似度を１と
して０から１の間に）し、これを修正率とする。図３４
の例では、文書４が５４点で最高類似度であるので、こ
の５４点で各文書の類似度３４００を正規化し、修正率
を得る。この結果、文書１（0.46）、文書２（0.33）、
文書３（0.54）および文書４（1.00）という修正率３４
０１が得られる。次に、ステップ３３０２において、前
回得点記憶部２７０２に格納されている前回の類似度に
修正率を乗じる。このことにより、ステップ３３０１で
選択文書の類似度が最も高くなるまで、ステップ３３０
２を繰り返す。

【０１３８】図３４の例では、前回得点記憶部２７０２
に、文書１（0.08点）、文書２（0.59点）、文書３（0.
87点）および文書４（0.32点）という前回の類似度が格
納されている。まず、１回目のステップ３３０２で、こ
れらの類似度に修正率が掛けられる。例えば、文書１で
は、類似度0.08に修正率0.46が掛けられ、0.04という類
似度が得られる。この結果、文書１（0.04点）、文書２
（0.19点）、文書３（0.47点）および文書４（0.32点）
という新たな類似度３４０２が得られる。

【０１３９】しかし、この１回目のステップ３３０２が
終了した時点では、選択文書である文書４（0.32点）は
最も高い類似度になっていないので、もう一度ステップ
３３０２を繰り返す。この結果、文書１（0.02点）、文
書２（0.06点）、文書３（0.25点）および文書４（0.32
点）という新たな類似度３４０３が得られる。この結
果、文書４（0.32点）が最高類似度となっているため、
ここでステップ３３０１のループ処理を終了する。

【０１４０】図３４に示した例で、本得点修正プログラ
ム３１００の処理を行なわずにレリバンス・フィードバ
ックを行なうと文書４、文書３、文書１、文書２という
順で出力される。すなわち、文書２「新しいソフトウェ
アの開発作業」より文書１「新開発の心電計による発作
時の心電図」の方が、選択文書である文書４「ソフトの
新製品の新聞発表」と関連が深いと判断される。な
お、、本プログラムを実行することによって前回の選択
文書との関連が低かった文書１の類似度を低くすること
ができる。

【０１４１】以上説明したように、本実施例では、前回
のレリバンス・ランキングやレリバンス・フィードバッ
クで算出された各文書の類似度を記憶しておく。レリバ
ンス・フィードバックを行う際には、算出した類似度を
０から１の間に正規化し、選択文書が最高類似度になる
までその値を記憶してある前回の類似度に乗ずる。この
ことにより、ユーザが選択する一連の文書群と関連のな
い文書の類似度を下げることができ、結果としてユーザ
が希望するより関連の深い文書から表示を行うことが可
能となる。

【０１４２】以上により、文字種の多い日本語等の文書
データベースを対象にn-gram単位のレリバンス・フィー
ドバックを行った場合でも、前回までのレリバンス・ラ
ンキングやレリバンス・フィードバックで得た情報も類
似度の算出に用いることにより、n-gramを算出単位とす
ることによるノイズを削減できる。また、より関連の深
い文書から適切にランキングを行うことが可能となる。

【０１４３】最後に、本発明の第五の実施例について説
明する。本実施例の文書検索方法は、レリバンス・フィ
ードバックにおいて、各文書の類似度を算出する際に、
前回までの選択文書（すなわち、ユーザニーズと関連の
高い一連の文書群）の類似度を高くすることによって、
相対的に選択文書との関連の低い文書の類似度を下げる
方法である。本方法によれば、n-gram単位にレリバンス
・フィードバックを行うことによるノイズを削減するこ
とができる。また、第四の実施例と組み合わせることに
より、さらにノイズを削減することができる。

【０１４４】本実施例は、基本的に第一の実施例（図
１）と同様の構成をとる。しかし、主メモリ１１１に選
択フラグ格納部を確保するところと、検索制御プログラ
ム１１９の制御下のレリバンス・フィードバックプログ
ラム１２３が異なる。本発明を適用した文書検索システ
ムのうち、主メモリ１１１の構成を図３５に示す。本図
に示すように本実施例では、主メモリ１１１に選択フラ
グ格納部３５０１が確保される。また、検索制御プログ
ラム１１９ｂは検索条件式解析プログラム１２０、イン
デックス検索プログラム１２１、レリバンス・ランキン
グプログラム１２２、レリバンス・フィードバックプロ
グラム１２３ｃおよびソートプログラム１２８を制御す
る。レリバンス・フィードバックプログラム１２３ｃは
ファイル読込みプログラム１２４、n-gram抽出プログラ
ム１２５、出現頻度取得プログラム１２６、フィードバ
ック得点算出プログラム１２７および選択フラグ修正プ
ログラム３５００で構成される。

【０１４５】以下、本実施例における処理手順のうち、
第一の実施例と異なるレリバンス・フィードバックプロ
グラム１２３ｃの処理手順について図３６を用いて説明
する。本図は、第一の実施例で示した図１６とステップ
３６００が異なる。

【０１４６】レリバンス・フィードバックプログラム１
２３ｃは図３６に示すように、まずステップ１６００で
ファイル読込みプログラム１２４を起動する。そして、
重みファイル１０５および出現頻度ファイル１０６をワ
ークエリア１２９に読み込む。次に、ステップ１６０１
でn-gram抽出プログラム１２５を起動し、検索条件式解
析プログラム１２０によって検索条件式から抽出された
選択文書から重みが所定の基準を満たすn-gramを抽出す
る。次に、ステップ１６０２において、出現頻度取得プ
ログラム１２６を起動し、n-gram抽出プログラム１２５
によって抽出されたn-gramの検索対象文書中の出現頻度
を出現頻度ファイル１０６から得る。そして、ステップ
１６０３でフィードバック得点算出プログラム１２７を
起動し、ファイル読込みプログラム１２４によって読み
込まれたn-gramの重み、出現頻度取得プログラム１２６
によって得られたn-gramの出現頻度を基にデータベース
中の各文書の類似度を算出する。最後に、ステップ３６
００で選択フラグ修正プログラム３５００を起動し、選
択フラグ格納部３５０１にフラグが設定されている文書
の類似度を予め定められた割合で高くする。以上が本発
明の文書検索方法を適用した第五の実施例の概略であ
る。

【０１４７】以下、図３６のステップ３６００で実行さ
れる選択フラグ修正プログラム３５００の処理手順につ
いて、図３７を用いて具体的に説明する。本図の例で
は、文書４が選択文書ととなっており、前回までのレリ
バンス・フィードバックで文書２が選択されているもの
とする。

【０１４８】選択フラグ修正プログラム３５００は、レ
リバンス・フィードバックプログラム１２１ｃによっ
て、フィードバック得点算出プログラム１２７の次に起
動される。フィードバック得点算出プログラム１２７で
は、文書の類似度３４００が算出される。文書の類似度
３４００としては、例えば文書１（25点）、文書２（18
点）、文書３（29点）および文書４（54点）というよう
なものがある。得点修正プログラム３５００は、フィー
ドバック得点算出プログラム１２７によって算出された
文書の類似度の中で、選択フラグ格納部３５０１にフラ
グが設定されている文書の類似度を予め定められた割合
で高くする。図３７に、選択フラグ格納部３５０１の例
を示す。前回までのレリバンス・フィードバックで文書
２が選択されているため、文書２に対する選択フラグは
ONに設定され、それ以外の文書に対する選択フラグはOF
Fになっている。選択フラグ修正プログラム３５００で
は、選択フラグが設定されている文書２の類似度を高く
する。本例では、元の類似度の1.5倍に類似度を修正し
ている。この結果、文書２の類似度は1.5倍され、27点
となる。次に、現在選択されている文書のフラグを選択
フラグ格納部３５０１に設定する。図３７では、選択フ
ラグ格納部３５０１ａのように、選択文書である文書４
の選択フラグがONに設定される。

【０１４９】図３７に示した例で、本プログラムの処理
を行なわずにレリバンス・フィードバックを行なうと文
書４、文書３、文書１、文書２という順で出力される。
すなわち、文書２「新しいソフトウェアの開発作業」よ
り文書１「新開発の心電計による発作時の心電図」の方
が、選択文書である文書４「ソフトの新製品の新聞発
表」と関連が深いと判断される。しかし、本プログラム
を実行することによって、ユーザが今までに選択した一
連の文書群の類似度を高くし、相対的に文書１のような
関連の低い文書の類似度を下げることが可能となる。

【０１５０】以上説明したように、本実施例では、レリ
バンス・フィードバック時に、選択文書として選ばれた
文書に印を付けておく。類似度を算出する際に、印の付
けられた文書（すなわち、ユーザが指定するユーザニー
ズと関連の高い一連の文書群）の類似度を高くすること
によって、相対的に選択文書との関連の低い文書の類似
度を下げることができる。このため、より関連の深い文
書から順に表示することが可能となる。

【０１５１】以上の構成により、文字種の多い日本語等
の文書データベースを対象にn-gram単位のレリバンス・
フィードバックを行った場合でも、前回までのレリバン
ス・ランキングやレリバンス・フィードバックで得た情
報も類似度の算出に利用することにより、n-gramを算出
単位とすることによるノイズを削減できる。また、適切
なランキング処理を実現することが可能となる。

【０１５２】

【発明の効果】本発明によれば、n-gram単位にレリバン
ス・フィードバックを行なう場合でも、類似度算出に用
いるn-gramの種類数や類似度を算出する文書数を限定で
きる。このため、類似度算出のための処理を軽減するこ
とができ、高速なレリバンス・フィードバックを実現す
ることが可能となる。また、レリバンス・フィードバッ
ク時に、前回のレリバンス・ランキングやレリバンス・
フィードバックの情報も類似度算出に利用することによ
り、特定の選択文書に対してはノイズとなる文書の類似
度を低くすることができる。このため、n-gramを算出単
位とすることによるノイズを削減でき、より適切なラン
キング結果を得ることが可能となる。この結果、文字種
の多い日本語等の文書データベースを対象にn-gram単位
のレリバンス・フィードバックを行った場合でも、高速
で低ノイズのレリバンス・フィードバックが行える文書
検索システムを提供することが可能となる。

【図面の簡単な説明】

【図１】本発明の第一の実施例の構成を示す図。

【図２】従来技術の説明図。

【図３】従来技術の説明図。

【図４】従来技術の説明図。

【図５】出現頻度ファイルの説明図。

【図６】重みファイルの説明図。

【図７】本発明の作用の説明図。

【図８】第一の実施例のシステム制御プログラム１１２
の処理手順を示すＰＡＤ図。

【図９】第一の実施例の文書制御プログラム１１３の処
理手順を示すＰＡＤ図。

【図１０】第一の実施例の検索制御プログラム１１９の
処理手順を示すＰＡＤ図。

【図１１】第一の実施例のインデックス作成登録プログ
ラム１１５の処理手順を示すＰＡＤ図。

【図１２】第一の実施例の重みファイル作成登録プログ
ラム１１６の処理手順を示すＰＡＤ図。

【図１３】第一の実施例の検索条件式解析プログラム１
２０の処理手順を示すＰＡＤ図。

【図１４】第一の実施例のインデックス検索プログラム
１２１の処理手順を示すＰＡＤ図。

【図１５】第一の実施例のレリバンス・ランキングプロ
グラム１２２の処理手順を示すＰＡＤ図。

【図１６】第一の実施例のレリバンス・フィードバック
プログラム１２３の処理手順を示すＰＡＤ図。

【図１７】出現頻度算出処理の説明図。

【図１８】重み算出処理の説明図。

【図１９】n-gram抽出処理の説明図。

【図２０】データベース中の各文献におけるn-gramの出
現頻度取得処理の説明図。

【図２１】各文献の類似度算出処理の説明図。

【図２２】第二の実施例の文書登録制御プログラム１１
３ａの制御下にあるプログラムの構成を示す図。

【図２３】第二の実施例の文字種分割出現頻度ファイル
型インデックス作成登録プログラム２２００の処理手順
を示すＰＡＤ図。

【図２４】第二の実施例の出現頻度算出処理の説明図。

【図２５】第二の実施例の出現頻度ファイルの説明図。

【図２６】第二の実施例の重みファイルの説明図。

【図２７】第三の実施例の構成を示す図。

【図２８】第三の実施例のレリバンス・フィードバック
プログラム１２３ａの処理手順を示すＰＡＤ図。

【図２９】第三の実施例の検索対象文書抽出プログラム
２７００の説明図。

【図３０】第三の実施例の前回得点記憶部２７０２の説
明図。

【図３１】第四の実施例のレリバンス・フィードバック
プログラム１２３ｂの構成を示す図。

【図３２】第四の実施例のレリバンス・フィードバック
プログラム１２３ｂの処理手順を示すＰＡＤ図。

【図３３】第四の実施例の得点修正プログラム３１００
の処理手順を示すＰＡＤ図。

【図３４】第四の実施例の得点修正プログラム３１００
の処理手順の説明図。

【図３５】第五の実施例の構成を示す図。

【図３６】第五の実施例のレリバンス・フィードバック
プログラム１２３ｃの処理手順を示すＰＡＤ図。

【図３７】第五の実施例の選択フラグ修正プログラム３
５００の処理手順の説明図。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
ＣＰＵ、１０３…テキスト、１０４…インデックス、１
０５…重みファイル、１０６…出現頻度ファイル、１０
７…磁気ディスク装置、１０８…ＦＤＤ、１０９…フロ
ッピディスク、１１０…バス、１１１…主メモリ、１１
２…システム制御プログラム、１１３…文書登録制御プ
ログラム、１１４…テキスト登録プログラム、１１５…
インデックス作成登録プログラム、１１６…重みファイ
ル作成登録プログラム、１１７…重み算出プログラム、
１１８…重みファイル作成プログラム、１１９…検索制
御プログラム、１２０…検索条件式解析プログラム、１
２１…インデックス検索プログラム、１２２…レリバン
ス・ランキングプログラム、１２３…レリバンス・フィ
ードバックプログラム、１２４…ファイル読込みプログ
ラム、１２５…n-gram抽出プログラム、１２６…出現頻
度取得プログラム、１２７…フィードバック得点算出プ
ログラム、１２８…ソートプログラム、１２９…ワーク
エリア、

───────────────────────────────────────────────────── フロントページの続き (72)発明者多田勝己神奈川県川崎市幸区鹿島田890番地の12 株式会社日立製作所情報・通信開発本部内 (72)発明者加藤寛次神奈川県川崎市幸区鹿島田890番地の12 株式会社日立製作所情報・通信開発本部内 (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウエア開発本部内 (72)発明者東秋夫東京都江東区新砂一丁目６番27号株式会社日立製作所公共情報事業部内

Claims

【特許請求の範囲】

【請求項１】文書情報を文字コードデータであるテキス
トとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該
テキストにおける出現頻度を抽出し、該出現頻度を基に
所定の算出式を用いて算出した該部分文字列の重要度を
重要度ファイルとして記憶する重要度ファイル作成登録
ステップと、ユーザが指定した文書に対応する選択テキストから所定
の部分文字列を抽出し、該部分文字列の該選択テキスト
と対象テキストデータベース中のテキストにおける出現
頻度を取得し、該出現頻度と上記重要度ファイルから所
定の算出式を用いて該対象テキストデータベース中の該
テキストの該選択テキストに対する類似度を算出し、そ
の類似度の降順にテキストをソートして出力するレリバ
ンス・フィードバックステップを有する文書検索方法に
おいて、上記レリバンス・フィードバックステップは、上記選択
テキストからの部分文字列の抽出時に、重要度が所定の
基準を満たす部分文字列を抽出する選択テキスト部分文
字列抽出ステップを有することを特徴とした文書検索方
法。
【請求項２】文書情報を文字コードデータであるテキス
トとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該
テキストにおける出現頻度を抽出し、該出現頻度を基に
所定の算出式を用いて算出した該部分文字列の重要度を
重要度ファイルとして記憶する重要度ファイル作成登録
ステップと、ユーザが指定した文書に対応する選択テキストから所定
の部分文字列を抽出し、該部分文字列の該選択テキスト
と対象テキストデータベース中のテキストにおける出現
頻度を取得し、該出現頻度と上記重要度ファイルから所
定の算出式を用いて該対象テキストデータベース中の該
テキストの該選択テキストに対する類似度を算出し、そ
の類似度の降順にテキストをソートして出力するレリバ
ンス・フィードバックステップを有する文書検索方法に
おいて、上記重要度ファイル作成登録ステップは、対象テキスト
からの所定の部分文字列の抽出後に、該部分文字列の中
から異なる文字種にまたがるものを削除する異文字種文
字列削除ステップを有することを特徴とした文書検索方
法。
【請求項３】文書情報を文字コードデータであるテキス
トとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該
テキストにおける出現頻度を抽出し、該出現頻度を基に
所定の算出式を用いて算出した該部分文字列の重要度を
重要度ファイルとして記憶する重要度ファイル作成登録
ステップと、ユーザが指定した文書に対応する選択テキストから所定
の部分文字列を抽出し、該部分文字列の該選択テキスト
と対象テキストデータベース中のテキストにおける出現
頻度を取得し、該出現頻度と上記重要度ファイルから所
定の算出式を用いて該対象テキストデータベース中の該
テキストの該選択テキストに対する類似度を算出し、そ
の類似度の降順にテキストをソートして出力するレリバ
ンス・フィードバックステップを有する文書検索方法に
おいて、上記レリバンス・フィードバックステップにおいて、前
回のレリバンス・フィードバックステップによって算出
された類似度が所定の基準を満たすテキストのみを検索
対象として設定する検索対象文書抽出ステップを有する
ことを特徴とする文書検索方法。
【請求項４】文書情報を文字コードデータであるテキス
トとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該
テキストにおける出現頻度を抽出し、該出現頻度を基に
所定の算出式を用いて算出した該部分文字列の重要度を
重要度ファイルとして記憶する重要度ファイル作成登録
ステップと、ユーザが指定した文書に対応する選択テキストから所定
の部分文字列を抽出し、該部分文字列の該選択テキスト
と対象テキストデータベース中のテキストにおける出現
頻度を取得し、該出現頻度と上記重要度ファイルから所
定の算出式を用いて該対象テキストデータベース中の該
テキストの該選択テキストに対する類似度を算出し、そ
の類似度の降順にテキストをソートして出力するレリバ
ンス・フィードバックステップを有する文書検索方法に
おいて、上記レリバンス・フィードバックステップにおいて，上
記出現頻度と上記重要度ファイルから算出した上記テキ
ストの上記選択テキストに対する類似度を前回のレリバ
ンス・フィードバックステップによって算出された類似
度を用いて修正する得点修正ステップを有することを特
徴とする文書検索方法。
【請求項５】文書情報を文字コードデータであるテキス
トとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該
テキストにおける出現頻度を抽出し、該出現頻度を基に
所定の算出式を用いて算出した該部分文字列の重要度を
重要度ファイルとして記憶する重要度ファイル作成登録
ステップと、ユーザが指定した文書に対応する選択テキストから所定
の部分文字列を抽出し、該部分文字列の該選択テキスト
と対象テキストデータベース中のテキストにおける出現
頻度を取得し、該出現頻度と上記重要度ファイルから所
定の算出式を用いて該対象テキストデータベース中の該
テキストの該選択テキストに対する類似度を算出し、そ
の類似度の降順にテキストをソートして出力するレリバ
ンス・フィードバックステップを有する文書検索方法に
おいて、上記レリバンス・フィードバックステップは、選択テキ
ストとして用いられたことのあるテキストに対する上記
出現頻度と上記重要度ファイルから算出した上記テキス
トの上記選択テキストに対する類似度を所定の計算式を
用いて修正する選択テキスト修正ステップを有すること
を特徴とした文書検索方法。