JP2001134588A

JP2001134588A - 文書検索装置

Info

Publication number: JP2001134588A
Application number: JP31444299A
Authority: JP
Inventors: Hiroko Mano; 博子真野; Yasutsugu Ogawa; 泰嗣小川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-11-04
Filing date: 1999-11-04
Publication date: 2001-05-18

Abstract

(57)【要約】【課題】入力されたキーワードに適合する文書を検索
するために、各単語の重みを決定し、安定した検索精度
で適合文書を適合可能な情報検索装置を提供する。【解決手段】文書ランキング部２２は、検索対象文書
とその中に含まれる単語統計情報２５′を有する文書デ
ータベース２５により、キーワード１０に適合する文書
の集合を選定する。この際、重み付けには、重みが絶対
負にならない計算式を用いる。単語ランキング部２３
は、適合文書（Ｄ）中の単語を関連度に応じて選出し、
それらをキーワード関連語として元のキーワードに追加
した新しいキーワード（Ｆ）を作成し、新しいキーワー
ド（Ｆ）により適合文書３０を選出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書検索装置に関
し、より詳細には、与えられたキーワードに対して適合
する文書を選択する検索装置であって、適合文書から抽
出したキーワードに関連した単語によってキーワードを
拡張させ、拡張されたキーワードに対して適合する文書
を選択する検索装置に関する。

【０００２】

【従来の技術】一般に、文書検索装置においては、ユー
ザが入力したキーワードに適合する文書をさがし出すた
めに、キーワード中の各単語に重みをあたえ、それに基
づいて検索対象の各文書のキーワードに対する適合の度
合を求めるという方法を用いている。この単語の重みの
計算式には、たとえば、確率モデルに基づくＲｏｂｅｒ
ｔｓｏｎの計算式（式（１））が知られている（Robert
son, S.E. and Walker,S. "On relevance weights with
little relevance information," SIGIR 97, ACM Pres
s, pp.16-24）。

【０００３】

【式５】

【０００４】式（１）において、Ｎは総文書数、ｎは単
語の出現する文書数、ｐ₀はｎが０と仮定したときの適
合文書に単語の出現する確率の推定で０≦ｐ₀≦１であ
る。

【０００５】この計算式では、単語の重みは、キーワー
ドに適合する文書にキーワード中の単語があらわれるで
あろう推定確率と、キーワードに適合しない文書にキー
ワード中の単語があらわれるであろう推定確率をもとに
計算される。ここで、ｌｏｇ（ｐ₀／（１−ｐ₀））をｋ
₄とおくと、下式（２）のようになる。

【０００６】重み＝ｋ₄ ＋ｌｏｇ（Ｎ／ｎ）（２）ここで、ｋ₄は確率推定に基づく調整パラメータであ
る。ｋ₄の範囲は、０≦ｐ ₀≦１より−∞＜ｋ₄＜∞とな
る。このように、キーワード中の各単語の重みは、検索
対象集合全体でのそれらの単語の出現状況に応じて付与
される。

【０００７】キーワード中の各単語の重みが定まった
ら、これに対して、各文書がキーワード中の各単語をど
のくらい含んでいるかをもとに各文書の文書適合度を計
算する。この文書適合度の計算式は、Ｒｏｂｅｒｔｓｏ
ｎによれば、下式（３）となる。

【０００８】

【式６】

【０００９】式（３）において、ｔｆは文書あたりの単
語の出現数、ｋ₁は調整パラメータである。さらに、ユ
ーザが入力したキーワードを用いて一旦検索した後、適
合する文書中に出現する単語から入力キーワードに関連
する単語を選出、元のキーワードに追加し、再度検索す
ることでユーザの求めるものに近いものがより得られや
すくなることも知られている。このようにして関連語を
追加した場合、再検索時の重みづけには、例えば、適合
文書、非適合文書の中での出現頻度などのフィードバッ
ク情報を利用した、Ｒｏｂｅｒｔｓｏｎの下式（４）の
計算式が知られている。

【００１０】

【式７】

【００１１】式（４）において、Rは適合文書数、ｒは
適合文書集合の中で単語の出現する文書数、Sは非適合
文書数、ｓは非適合文書集合の中で単語の出現する文書
数、ｋ₅，ｋ₆は調整パラメータである。

【００１２】また、キーワード関連語を選出するには、
適合する文書から選出すべき関連語を選択するための関
連度評価値ＴＳＶの算出方法として、例えば、適合文書
及び非適合文書の中での出現頻度などのフィードバック
情報を利用した、Ｂｏｕｇｈａｎｅｍの計算式（下式
（５））がある（Walker, S. et al., "Okapi at TREC-
6: Automated ad hoc, VLC, routing, filtering and Q
SDR," The Sixth Test REtrieval Conference (TREC-
6), 1996, NIST）。

【００１３】関連度＝（ｒ／Ｒ−αｓ／Ｓ）×重み（５）ここで、αは調整パラメータとする。

【００１４】また、関連度評価値計算式として、他に、
検索対象集合全体での単語の出現する頻度に各文書内で
の出現頻度をかけあわせる方法も特開平１１−２５１２
８号公報に記載の発明において提案されており、Ｃを定
数として、下式（６）で表される。

【００１５】

【式８】

【００１６】

【発明が解決しようとする課題】上述の重み計算式
（１）及び（２）による方法では、推定確率によって
は、パラメータｋ₄の値は負になり、実際にその方が検
索性能がよくなることも多いが、Ｒｏｂｅｒｔｓｏｎも
指摘しているように、ｋ₄の値が負である場合、単語の
出現文書数によっては、結果的に重みが負になることが
あり、そのために検索精度が大きく低下することもあ
る。安定した検索精度を得るには、重みがつねに正にな
るような計算方法が望ましい。

【００１７】またキーワード関連語を選出するための再
検索時の重み式（４）や関連度評価値計算式（５）につ
いては、この方法により選択された単語には、例えば、
電話番号のように、汎用性がいちじるしく低いにもかか
わらず、たまたま適合文書に含まれていたにすぎないよ
うな単語が多く含まれがちである。この問題に対してＢ
ｏｕｇｈａｎｅｍ，Ｒｏｂｅｒｔｓｏｎらのシステムで
は、数字を含む単語は一律に除く（キーワードに含まれ
る場合以外）などの方法で対処しているが、単に、数字
を含むからという理由で単語を除外するのは、関連語と
しての価値を評価していることにはならず、適切な方法
とはいえない。また、関連度評価値計算式（６）では、
再検索時の重みにフィードバック情報が反映されない。

【００１８】本発明は、上述のごとき実情に鑑みてなさ
れたものであり、入力されたキーワードに適合する文書
を検索するために、各単語の重みを決定し、安定した検
索精度で適合文書を検索可能な文書検索装置を提供する
ことをその目的とする。

【００１９】

【課題を解決するための手段】本発明においては、単語
の重み決定のための確率推定方法を変更することで、式
（１）及び（２）を改良し、重みが絶対に負にならない
計算式とする。式（２）の改良に応じて式（４）も改良
し、再検索時の単語の重みも調節する。

【００２０】キーワード関連語を選出するための関連度
評価値計算についても、式（５）を改良し、フィードバ
ック情報を反映しつつ、文書内での出現頻度を加味する
ことによって、適合文書に多く出現する単語の重みを重
くしつつ、電話番号のような汎用性の低い単語が選ばれ
にくくする。

【００２１】式（４）をさらに改良し、適合文書に多く
出現する単語であっても、検索対象文書全体に頻出する
単語は重みが小さくなるよう、線形結合の係数に単語の
適合文書及び非適合文書での出現頻度に検索対象文書全
体での出現頻度も反映した式に変更する。

【００２２】本発明は、ユーザから入力されたキーワー
ドと検索対象文書集合の中の各文書について、その中に
出現する各単語の出現状況などの統計情報を利用して各
単語の重みを算出し、それに基づいてキーワードに適合
する文書を適合の度合の順に検索する手段と、検索され
た文書の集合から、その中に出現する各単語について、
適合文書および非適合文書の中での出現状況などのフィ
ードバック情報を利用してキーワードとの関連度を算出
し関連度の高い単語を選出する手段と、選出した関連語
を元のキーワードに追加し、さらにフィードバック情報
を反映した単語の重みを付与して新しいキーワードとし
て自動的に作成し直し、それを用いて再度、適合する文
書を適合の度合の順に選出する手段を備えることを特徴
としたものである。

【００２３】そして、各請求項の発明は、以下の技術手
段により構成される。請求項１の発明は、ユーザから入
力された１以上の単語を含むキーワードから、検索対象
文書集合の中の各文書の中に出現する各々の前記単語の
出現状況などの統計情報を利用して、各単語に対して、
その単語の出現する確率を推定し、かつ、正の値となる
重みを算出し、該重みを付与された前記各単語に基づい
て前記キーワードに適合する文書を適合の度合の順に検
索する手段を有することを特徴としたものである。

【００２４】請求項２の発明は、請求項１に記載の発明
において、前記正の値となる重みは、前記各単語に対し
て、Ｎを検索対象文書数、ｎを前記各単語の出現する文
書数、ｋ₄′を調整パラメータとして、式

【００２５】

【式９】

【００２６】を用いて算出することを特徴としたもので
ある。

【００２７】請求項３の発明は、請求項１又は２に記載
の発明において、前記正の値となる重みを基にして、適
合文書及び非適合文書集合の中での出現頻度などのフィ
ードバック情報を線形結合した重みを与えて、前記検索
された文書の集合から、その中に出現する各単語につい
て、適合文書及び非適合文書の中での出現状況などのフ
ィードバック情報を利用して前記キーワードとの関連度
を算出して関連度の高い単語を選出することを特徴とし
たものである。

【００２８】請求項４の発明は、請求項３に記載の発明
において、前記選出した関連単語を元の前記キーワード
に追加して、さらに前記適合文書及び非適合文書集合の
中での出現頻度などのフィードバック情報を反映した単
語の重みを付与して新しいキーワードとして作成し直
し、該新しいキーワードの各単語に対して、前記重みを
基にして、前記新しいキーワードに適合する文書を適合
の度合の順に再度検索する手段を有することを特徴とし
たものである。

【００２９】請求項５の発明は、請求項３又は４に記載
の発明において、前記正の値となる重みを基にした、前
記適合文書及び非適合文書集合の中での出現頻度などの
フィードバック情報を線形結合した前記重みは、Ｎを検
索対象文書数、ｎを前記単語の出現する文書数、Ｒを適
合文書数、Ｓを非適合文書数、ｒを適合文書集合の中で
の前記単語の出現する文書数、ｓを非適合文書集合の中
での前記単語の出現する文書数、ｋ₄′，ｋ₅，ｋ₆を調
整パラメータとして、式

【００３０】

【式１０】

【００３１】を用いて算出することを特徴としたもので
ある。

【００３２】請求項６の発明は、請求項３乃至５のいず
れかに記載の発明において、前記キーワードとの前記関
連度は、前記検索対象文書集合での頻度と各適合文書及
び非適合文書の中での頻度とを反映させて算出すること
を特徴としたものである。

【００３３】請求項７の発明は、請求項６に記載の文書
検索装置において、前記キーワードとの前記関連度は、
Ｒを適合文書数、Ｓを非適合文書数、ｔｆを各文書にお
ける単語の出現頻度数、ｋ₁，βを調整パラメータとし
て、式

【００３４】

【式１１】

【００３５】を用いて算出することを特徴としたもので
ある。

【００３６】請求項８の発明は、請求項３乃至７のいず
れかに記載の発明において、前記線形結合の係数に前記
検索対象文書集合中での単語の頻度情報を反映させるこ
とを特徴としたものである。

【００３７】請求項９の発明は、請求項３乃至７のいず
れかに記載の発明において、前記正の値となる重みを基
にした、前記適合文書及び非適合文書集合の中での出現
頻度などのフィードバック情報を線形結合した前記重み
は、Ｎを検索対象文書数、ｎを単語の出現する文書数、
Ｒを適合文書数、Ｓを非適合文書数、ｒを適合文書集合
の中での前記単語の出現する文書数、ｓを非適合文書集
合の中での前記単語の出現する文書数、ｋ₄′，ｋ₅′，
ｋ₆′を調整パラメータとして、式

【００３８】

【式１２】

【００３９】を用いて算出することを特徴としたもので
ある。

【００４０】

【発明の実施の形態】本発明においては、単語の重み決
定のための確率推定方法を変更することで、式（１）及
び（２）を改良し、重みが絶対に負にならない計算式と
する。式（２）の改良に応じて式（４）も改良し、再検
索時の単語の重みも調節する。

【００４１】キーワード関連語を選出するための関連度
評価値計算についても、式（５）を改良し、フィードバ
ック情報を反映しつつ、文書内での出現頻度を加味する
ことによって、適合文書に多く出現する単語の重みを重
くしつつ、電話番号のような汎用性の低い単語が選ばれ
にくくする。

【００４２】式（４）をさらに改良し、適合文書に多く
出現する単語であっても、検索対象文書全体に頻出する
単語は重みが小さくなるよう、線形結合の係数に単語の
適合文書及び非適合文書での出現頻度に検索対象文書全
体での出現頻度も反映した式に変更する。

【００４３】図１は、本発明の第1の実施形態にかかわ
る文書検索装置の構成を示すブロック図である。文書検
索装置２０は、キーワード入力部２１、文書ランキング
部２２、単語ランキング部２３、文書出力部２４及び文
書データベース２５より構成される。キーワード入力部
２１では、ユーザがキーボード等により、検索文字列と
なるキーワード１０を入力できる。文書ランキング部２
２は、キーワード１０及び新キーワード（図中Ｆ参照）
に適合する文書（図中Ｄ参照）及び適合文書３０の集合
を選定する。単語ランキング部２３は、適合文書（Ｄ）
中の単語を関連度に応じて選出し、それらをキーワード
関連語として元のキーワードに追加した新しいキーワー
ド（Ｆ）を作成する。文書出力部２４は、選出した適合
文書３０を出力する。文書データベース２５は、検索対
象となる文書と、その中に含まれる単語について、出現
頻度などの統計情報（単語統計情報）２５′を持ってい
る。

【００４４】次に、このように構成された第1の実施の
形態にかかわる文書検索装置の動作について図２及び図
３を参照して説明する。図２及び図３は、本発明の第１
の実施形態にかかわる文書検索装置の動作の１実施例を
説明するための図で、主に、図２は文書ランキング部２
２を、図３は単語ランキング部２３の動作を説明するた
めの図である。まず、キーワード入力部２１から入力さ
れたキーワード（Ａ）が、文書ランキング部２２にわた
される。この例では、キーワード（Ａ）として、「アマ
ゾン」と「雨林」のふたつの単語が入力されている。

【００４５】文書ランキング部２２は、まず、文書デー
タベース２５中の単語統計情報２５′を用いて、キーワ
ード（Ａ）の中のそれぞれの単語について、単語の重要
度に応じた重みを付与する。本実施例では、重みつきキ
ーワードとして、「アマゾン」に５.７、「雨林」に４.
２の重みがつけられている（図２中Ｂ参照）。この重み
は、各単語のキーワードとしての相対的な価値をあらわ
す。

【００４６】次に、文書ランキング部２２は、検索対象
である文書データベース２５中のそれぞれの文書につい
て、単語統計情報２５′を用いて、キーワード（Ａ）中
の単語がどれくらい含まれているかを調べ、その結果に
それらの単語の重みを反映させてそれぞれの文書の文書
適合度を計算する。本実施例では、例えば、文書＃３に
おいて、「アマゾン」と「雨林」のそれぞれが２回出現
しており、その結果、この文書の文書適合度は６.６と
なっている（図２中Ｃ参照）。

【００４７】各文書の文書適合度が求まったら、文書ラ
ンキング部２２は、適合度の高い順に各文書を順序づ
け、上位何件かを適合文書とみなす。あるいは、上位何
件かまたは適合していると判断された文書すべてをユー
ザに提示し、適合しているかどうか判断してもらい、適
合していると判断された文書を適合文書（図２中Ｄ参
照）としてもよい。非適合文書については、適合度の低
い下位何件かを非適合文書とみなすか、ユーザに提示し
て適合しないと判断された文書を非適合文書としてもよ
い。あるいは、検索精度より計算コストを優先するなら
ば、非適合文書からの情報を用いないことにしてもよ
い。本実施例では、文書＃３，文書＃７，文書＃６が適
合文書として選出されている（図２中Ｄ参照）。

【００４８】適合文書が選出されたら、単語ランキング
部２３は、適合文書（Ｄ）中のすべての単語について、
文書データベース２５の単語統計情報２５′を参照しな
がら、適合文書及び非適合文書での出現状況、すなわち
フィードバック情報を反映させて、それぞれの単語の重
みを求める。さらに、単語ランキング部２３は、この重
みとフィードバック情報から適合文書中の各単語につい
て、キーワード（Ａ）との関連度ＴＳＶを求める。

【００４９】本実施例では、単語ランキング情報（図３
Ｅ参照）として、「アマゾン」に６.８、「雨林」に４.
９、「熱帯」に３.８の重みがつけられ、さらにキーワ
ード関連度がそれぞれ１８.４，１２.８，８.５になっ
ている。「アマゾン」と「雨林」については、もともと
キーワード（Ａ）として指定された単語なので、当然、
適合文書中に多く現れており、その分、キーワード関連
度が高くなっている。また、適合文書（Ｄ）中に「熱
帯」も多くあらわれているので、「熱帯」もキーワード
関連度が高くなる。なお、この例では、非適合文書中で
の出現状況が示されていないが、適合文書だけに出現す
る単語の方が、非適合文書にも出現する単語より、キー
ワード関連度は低くなる。

【００５０】このようにして、単語ランキング部２３
は、上記関連度の高いものから順にキーワード関連語を
選出し、上記重みを反映させて元のキーワード（Ａ）に
追加する。元のキーワード（Ａ）中の単語も、上記重み
を反映させて、重みを変更する。このようにして新しい
キーワードが作成される（図３中Ｆ参照）。

【００５１】上記の新しいキーワード（Ｆ）は、再び、
文書ランキング部２２にわたされ、再度、適合文書３０
が選出される。このとき、文書適合度の算出には、上記
で求めた重みが使われる。このようにして、選出された
適合文書３０は、文書出力部２４からユーザに返され
る。

【００５２】図４は、本発明の第１の実施形態にかかわ
る文書検索装置の動作の詳細を説明するためのフロー図
である。文書ランキング部２２は、キーワード入力部２
１からキーワード１０を得る（ステップＳ１）と、ステ
ップＳ２では、まず、文書データベース２５の単語統計
情報２５′を用いて、キーワード１０の中のそれぞれの
単語について、単語の重要度に応じて、重みを付与す
る。この重みの算出には、以下の式（７）を使用する。

【００５３】

【式１３】

【００５４】式（７）において、Ｎは総文書数、ｎは単
語の出現する文書数である。また、パラメータｋ₄′は
新しい確率推定に基づく調整パラメータであり、その値
は下式（８）の確率推定に基づいて決定される。

【００５５】

【式１４】

【００５６】式（８）において、p₀はnが0と仮定したと
きの適合文書に単語の出現する確率の推定であり、０≦
ｐ₀≦１である。ｋ₄′＝ｐ₀／（１−Ｐ₀）なので、０≦
ｐ₀≦１において、０≦ｋ₄′＜∞となるため、重みは常
に正の値となる。従来方式のように、ｐ₀の推定値が適
切でなかったために重みが負になり検索精度が劣化す
る、といったことはおこらなくなる。上述した重みつき
キーワードの重み５.７や４.２は、この式（８）で計算
される（図２中Ｂ参照）。

【００５７】次に、文書ランキング部２２は、文書デー
タベース２５の単語統計情報２５′を用いて、それぞれ
の文書ごとの文書適合度を計算する。これには、例え
ば、先に示した式（３）を用いる。

【００５８】

【式１５】

【００５９】式（９）において、ｔｆは文書あたりの単
語の出現数、ｋ₁は調整パラメータである。図２中の文
書、例えば文書＃３の文書適合度６.６は、ｋ₁を１とし
て求めた値である。各文書の文書適合度が求まったら、
文書ランキング部２２は、適合度の高い上位何件か及び
下位何件かをとるなりして、適合文書及び非適合文書を
選出する。

【００６０】ステップＳ３では、適合文書が選出された
ら、単語ランキング部２３は、適合文書中の各単語につ
いて、文書データベース２５の単語統計情報２５′をも
とに、さらに適合文書及び非適合文書からのフィードバ
ック情報である適合文書及び非適合文書中での出現頻度
とを組み合わせて、下式（１０）を用いて、単語の重み
を求める。この重みの計算には、従来の確率推定方法の
かわりに上述の確率推定方法の式（８）から導かれる重
みが反映される。

【００６１】

【式１６】

【００６２】式（１０）において、Ｎは検索対象文書
数、ｎは単語の出現する文書数、Ｒは適合文書数、Ｓは
非適合文書数，ｒは適合文書集合の中で単語の出現する
文書数で、ｓは非適合文書集合の中で単語の出現する文
書数である。非適合文書からの情報を用いない場合は、
式（１０）におけるＳとｓは０になる。単語ランキング
情報（図３Ｅ参照）の例えば「アマゾン」の重み６.８
は、このようにして計算する。なお、式（１０）におい
て、線形結合の係数におけるＲ及びＳの平方根の部分を
単にＲ及びＳとした下式（１１）を用いてもよいし、
Ｒ，Ｓの他の関数を用いてもよい。

【００６３】

【式１７】

【００６４】さらに、単語ランキング部２３は、適合文
書中の各単語について、文書データベース２５の単語統
計情報２５′をもとに、さらに適合文書及び非適合文書
からのフィードバック情報である適合文書及び非適合文
書中での出現頻度とを組み合わせて、下式（１２）を用
いて、キーワードとの関連度ＴＳＶを求める（βを調整
パラメータとする）。非適合文書からの情報を用いない
場合は、下式（１２）のβは０になる。

【００６５】

【式１８】

【００６６】単語ランキング情報（図３Ｅ参照）の例え
ば「アマゾン」のＴＳＶ１８.４は、このようにして計
算する。この式（１２）では、従来方式と異なり、適合
文書及び非適合文書からのフィードバック情報が重みに
反映されるのに加えて、さらに適合文書及び非適合文書
における各単語の文書内での頻度がキーワード関連度に
反映される。これにより、適合文書に多く出現する単語
の重みが重くなると同時に電話番号のような汎用性の低
い単語が選ばれにくくなる。

【００６７】このようにして、単語ランキング部２３
は、上記関連度の高いものから順にキーワード関連語を
選出し、上記重みを反映させて元のキーワード１０に追
加する。元のキーワード中の単語も、式（１０）の重み
を反映させて、重みを変更する。このようにして新しい
キーワードが作成される（図３中Ｆ参照）。

【００６８】ステップＳ４において、上記の新しいキー
ワードは、再び、文書ランキング部２２にわたされ、再
度、適合文書が選出される。このとき、文書適合度の算
出には、式（１０）で求めた重みが使われる。このよう
にして、選出された適合文書３０は、文書出力部２４か
らユーザに返される。

【００６９】次に、本発明の第２の実施形態にかかわる
文書検索装置の動作について説明する。本実施形態にか
かわる文書検索装置の構成は、実施形態１の構成とおな
じであり、図１で示される。この実施形態２と実施形態
１との違いは、文書ランキング部２２において適合文書
が選出された後、単語ランキング部２３が単語の重みを
付与するのに、線形結合の係数に単語の適合文書及び非
適合文書での頻度ＲやＳに検索対象文書全体での頻度ｎ
も反映させるところにある。

【００７０】この実施形態２においては、単語の重み
は、下式（１３）を用いて求める。非適合文書からの情
報を用いない場合は、下式（１３）のＳとｓは０にな
る。

【００７１】

【式１９】

【００７２】式（１３）において、ｋ₅′，ｋ₆′は調整
パラメータである。この重み計算式にすると、たとえば
「する」などの検索対象文書全体に頻出する単語は、た
とえ適合文書に多く出現していても、重みが相対的に小
さくなる。なお、式（１３）において、線形結合の係数
におけるＲ／（Ｒ＋ｎ−ｒ）及びＳ／（Ｓ＋ｎ−ｓ）の
平方根の部分を単にＲ／（Ｒ＋ｎ−ｒ）及びＳ／（Ｓ＋
ｎ−ｓ）とした下式（１４）を用いてもよいし、Ｒ，
ｒ，ｎの他の関数及びそれに対応するＳ，ｓ，ｎの他の
関数を用いてもよい。

【００７３】

【式２０】

【００７４】

【発明の効果】本発明によれば、パラメータの値の設定
によって重みが負になることがなくなり、その結果、検
索精度が安定する。

【００７５】本発明によれば、単語の関連度を計算する
際、文書あたりの出現頻度が低い単語はキーワードとの
関連度が小さくなり、検索対象文書全体に頻出する単語
は重みが相対的に小さくなるために、こういった単語が
選ばれにくくなり、かわりに、適合文書だけに頻繁に現
れる単語が選ばれやすくなり、再検索での検索精度が向
上する。

【図面の簡単な説明】

【図１】本発明の第1の実施形態にかかわる文書検索
装置の構成を示すブロック図である。

【図２】本発明の第１の実施形態にかかわる文書検索
装置の動作の１実施例を説明するための図である。

【図３】本発明の第１の実施形態にかかわる文書検索
装置の動作の１実施例を説明するための図である。

【図４】第１の実施形態にかかわる文書検索装置の動
作の詳細を説明するためのフロー図である。

【符号の説明】

１０…キーワード、２０…文書検索装置、２１…キーワ
ード入力部、２２…文書ランキング部、２３…単語ラン
キング部、２４…文書入力部、２５…文書データベー
ス、２５′…単語統計情報、３０…適合文書。

Claims

【特許請求の範囲】

【請求項１】ユーザから入力された１以上の単語を含
むキーワードから、検索対象文書集合の中の各文書の中
に出現する各々の前記単語の出現状況などの統計情報を
利用して、各単語に対して、その単語の出現する確率を
推定し、かつ、正の値となる重みを算出し、該重みを付
与された前記各単語に基づいて前記キーワードに適合す
る文書を適合の度合の順に検索する手段を有することを
特徴とする文書検索装置。
【請求項２】請求項１に記載の文書検索装置におい
て、前記正の値となる重みは、前記各単語に対して、Ｎ
を検索対象文書数、ｎを前記各単語の出現する文書数、
ｋ₄′を調整パラメータとして、式【式１】を用いて算出することを特徴とする文書検索装置。
【請求項３】請求項１又は２に記載の文書検索装置に
おいて、前記正の値となる重みを基にして、適合文書及
び非適合文書集合の中での出現頻度などのフィードバッ
ク情報を線形結合した重みを与えて、前記検索された文
書の集合から、その中に出現する各単語について、適合
文書及び非適合文書の中での出現状況などのフィードバ
ック情報を利用して前記キーワードとの関連度を算出し
て関連度の高い単語を選出することを特徴とする文書検
索装置。
【請求項４】請求項３に記載の文書検索装置におい
て、前記選出した関連単語を元の前記キーワードに追加
して、さらに前記適合文書及び非適合文書集合の中での
出現頻度などのフィードバック情報を反映した単語の重
みを付与して新しいキーワードとして作成し直し、該新
しいキーワードの各単語に対して、前記重みを基にし
て、前記新しいキーワードに適合する文書を適合の度合
の順に再度検索する手段を有することを特徴とする文書
検索装置。
【請求項５】請求項３又は４に記載の文書検索装置に
おいて、前記正の値となる重みを基にした、前記適合文
書及び非適合文書集合の中での出現頻度などのフィード
バック情報を線形結合した前記重みは、Ｎを検索対象文
書数、ｎを前記単語の出現する文書数、Ｒを適合文書
数、Ｓを非適合文書数、ｒを適合文書集合の中での前記
単語の出現する文書数、ｓを非適合文書集合の中での前
記単語の出現する文書数、ｋ₄′，ｋ₅，ｋ₆を調整パラ
メータとして、式【式２】を用いて算出することを特徴とする文書検索装置。
【請求項６】請求項３乃至５のいずれかに記載の文書
検索装置において、前記キーワードとの前記関連度は、
前記検索対象文書集合での頻度と各適合文書及び非適合
文書の中での頻度とを反映させて算出することを特徴と
する文書検索装置。
【請求項７】請求項６に記載の文書検索装置におい
て、前記キーワードとの前記関連度は、Ｒを適合文書
数、Ｓを非適合文書数、ｔｆを各文書における単語の出
現頻度数、ｋ₁，βを調整パラメータとして、式【式３】を用いて算出することを特徴とする文書検索装置。
【請求項８】請求項３乃至７のいずれかに記載の文書
検索装置において、前記線形結合の係数に前記検索対象
文書集合中での単語の頻度情報を反映させることを特徴
とする文書検索装置。
【請求項９】請求項３乃至７のいずれかに記載の文書
検索装置において、前記正の値となる重みを基にした、
前記適合文書及び非適合文書集合の中での出現頻度など
のフィードバック情報を線形結合した前記重みは、Ｎを
検索対象文書数、ｎを単語の出現する文書数、Ｒを適合
文書数、Ｓを非適合文書数、ｒを適合文書集合の中での
前記単語の出現する文書数、ｓを非適合文書集合の中で
の前記単語の出現する文書数、ｋ₄′，ｋ₅′，ｋ₆′を
調整パラメータとして、式【式４】を用いて算出することを特徴とする文書検索装置。