JP2001134588A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2001134588A
JP2001134588A JP31444299A JP31444299A JP2001134588A JP 2001134588 A JP2001134588 A JP 2001134588A JP 31444299 A JP31444299 A JP 31444299A JP 31444299 A JP31444299 A JP 31444299A JP 2001134588 A JP2001134588 A JP 2001134588A
Authority
JP
Japan
Prior art keywords
document
documents
word
conforming
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31444299A
Other languages
English (en)
Other versions
JP2001134588A5 (ja
Inventor
Hiroko Mano
博子 真野
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP31444299A priority Critical patent/JP2001134588A/ja
Publication of JP2001134588A publication Critical patent/JP2001134588A/ja
Publication of JP2001134588A5 publication Critical patent/JP2001134588A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力されたキーワードに適合する文書を検索
するために、各単語の重みを決定し、安定した検索精度
で適合文書を適合可能な情報検索装置を提供する。 【解決手段】 文書ランキング部22は、検索対象文書
とその中に含まれる単語統計情報25′を有する文書デ
ータベース25により、キーワード10に適合する文書
の集合を選定する。この際、重み付けには、重みが絶対
負にならない計算式を用いる。単語ランキング部23
は、適合文書(D)中の単語を関連度に応じて選出し、
それらをキーワード関連語として元のキーワードに追加
した新しいキーワード(F)を作成し、新しいキーワー
ド(F)により適合文書30を選出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索装置に関
し、より詳細には、与えられたキーワードに対して適合
する文書を選択する検索装置であって、適合文書から抽
出したキーワードに関連した単語によってキーワードを
拡張させ、拡張されたキーワードに対して適合する文書
を選択する検索装置に関する。
【0002】
【従来の技術】一般に、文書検索装置においては、ユー
ザが入力したキーワードに適合する文書をさがし出すた
めに、キーワード中の各単語に重みをあたえ、それに基
づいて検索対象の各文書のキーワードに対する適合の度
合を求めるという方法を用いている。この単語の重みの
計算式には、たとえば、確率モデルに基づくRober
tsonの計算式(式(1))が知られている(Robert
son, S.E. and Walker,S. "On relevance weights with
little relevance information," SIGIR 97, ACM Pres
s, pp.16-24)。
【0003】
【式5】
【0004】式(1)において、Nは総文書数、nは単
語の出現する文書数、p0はnが0と仮定したときの適
合文書に単語の出現する確率の推定で0≦p0≦1であ
る。
【0005】この計算式では、単語の重みは、キーワー
ドに適合する文書にキーワード中の単語があらわれるで
あろう推定確率と、キーワードに適合しない文書にキー
ワード中の単語があらわれるであろう推定確率をもとに
計算される。ここで、log(p0/(1−p0))をk
4とおくと、下式(2)のようになる。
【0006】 重み=k4 +log(N/n) (2) ここで、k4は確率推定に基づく調整パラメータであ
る。k4の範囲は、0≦p 0≦1より−∞<k4<∞とな
る。このように、キーワード中の各単語の重みは、検索
対象集合全体でのそれらの単語の出現状況に応じて付与
される。
【0007】キーワード中の各単語の重みが定まった
ら、これに対して、各文書がキーワード中の各単語をど
のくらい含んでいるかをもとに各文書の文書適合度を計
算する。この文書適合度の計算式は、Robertso
nによれば、下式(3)となる。
【0008】
【式6】
【0009】式(3)において、tfは文書あたりの単
語の出現数、k1は調整パラメータである。さらに、ユ
ーザが入力したキーワードを用いて一旦検索した後、適
合する文書中に出現する単語から入力キーワードに関連
する単語を選出、元のキーワードに追加し、再度検索す
ることでユーザの求めるものに近いものがより得られや
すくなることも知られている。このようにして関連語を
追加した場合、再検索時の重みづけには、例えば、適合
文書、非適合文書の中での出現頻度などのフィードバッ
ク情報を利用した、Robertsonの下式(4)の
計算式が知られている。
【0010】
【式7】
【0011】式(4)において、Rは適合文書数、rは
適合文書集合の中で単語の出現する文書数、Sは非適合
文書数、sは非適合文書集合の中で単語の出現する文書
数、k5,k6は調整パラメータである。
【0012】また、キーワード関連語を選出するには、
適合する文書から選出すべき関連語を選択するための関
連度評価値TSVの算出方法として、例えば、適合文書
及び非適合文書の中での出現頻度などのフィードバック
情報を利用した、Boughanemの計算式(下式
(5))がある(Walker, S. et al., "Okapi at TREC-
6: Automated ad hoc, VLC, routing, filtering and Q
SDR," The Sixth Test REtrieval Conference (TREC-
6), 1996, NIST)。
【0013】 関連度=(r/R−αs/S)×重み (5) ここで、αは調整パラメータとする。
【0014】また、関連度評価値計算式として、他に、
検索対象集合全体での単語の出現する頻度に各文書内で
の出現頻度をかけあわせる方法も特開平11−2512
8号公報に記載の発明において提案されており、Cを定
数として、下式(6)で表される。
【0015】
【式8】
【0016】
【発明が解決しようとする課題】上述の重み計算式
(1)及び(2)による方法では、推定確率によって
は、パラメータk4の値は負になり、実際にその方が検
索性能がよくなることも多いが、Robertsonも
指摘しているように、k4の値が負である場合、単語の
出現文書数によっては、結果的に重みが負になることが
あり、そのために検索精度が大きく低下することもあ
る。安定した検索精度を得るには、重みがつねに正にな
るような計算方法が望ましい。
【0017】またキーワード関連語を選出するための再
検索時の重み式(4)や関連度評価値計算式(5)につ
いては、この方法により選択された単語には、例えば、
電話番号のように、汎用性がいちじるしく低いにもかか
わらず、たまたま適合文書に含まれていたにすぎないよ
うな単語が多く含まれがちである。この問題に対してB
oughanem,Robertsonらのシステムで
は、数字を含む単語は一律に除く(キーワードに含まれ
る場合以外)などの方法で対処しているが、単に、数字
を含むからという理由で単語を除外するのは、関連語と
しての価値を評価していることにはならず、適切な方法
とはいえない。また、関連度評価値計算式(6)では、
再検索時の重みにフィードバック情報が反映されない。
【0018】本発明は、上述のごとき実情に鑑みてなさ
れたものであり、入力されたキーワードに適合する文書
を検索するために、各単語の重みを決定し、安定した検
索精度で適合文書を検索可能な文書検索装置を提供する
ことをその目的とする。
【0019】
【課題を解決するための手段】本発明においては、単語
の重み決定のための確率推定方法を変更することで、式
(1)及び(2)を改良し、重みが絶対に負にならない
計算式とする。式(2)の改良に応じて式(4)も改良
し、再検索時の単語の重みも調節する。
【0020】キーワード関連語を選出するための関連度
評価値計算についても、式(5)を改良し、フィードバ
ック情報を反映しつつ、文書内での出現頻度を加味する
ことによって、適合文書に多く出現する単語の重みを重
くしつつ、電話番号のような汎用性の低い単語が選ばれ
にくくする。
【0021】式(4)をさらに改良し、適合文書に多く
出現する単語であっても、検索対象文書全体に頻出する
単語は重みが小さくなるよう、線形結合の係数に単語の
適合文書及び非適合文書での出現頻度に検索対象文書全
体での出現頻度も反映した式に変更する。
【0022】本発明は、ユーザから入力されたキーワー
ドと検索対象文書集合の中の各文書について、その中に
出現する各単語の出現状況などの統計情報を利用して各
単語の重みを算出し、それに基づいてキーワードに適合
する文書を適合の度合の順に検索する手段と、検索され
た文書の集合から、その中に出現する各単語について、
適合文書および非適合文書の中での出現状況などのフィ
ードバック情報を利用してキーワードとの関連度を算出
し関連度の高い単語を選出する手段と、選出した関連語
を元のキーワードに追加し、さらにフィードバック情報
を反映した単語の重みを付与して新しいキーワードとし
て自動的に作成し直し、それを用いて再度、適合する文
書を適合の度合の順に選出する手段を備えることを特徴
としたものである。
【0023】そして、各請求項の発明は、以下の技術手
段により構成される。請求項1の発明は、ユーザから入
力された1以上の単語を含むキーワードから、検索対象
文書集合の中の各文書の中に出現する各々の前記単語の
出現状況などの統計情報を利用して、各単語に対して、
その単語の出現する確率を推定し、かつ、正の値となる
重みを算出し、該重みを付与された前記各単語に基づい
て前記キーワードに適合する文書を適合の度合の順に検
索する手段を有することを特徴としたものである。
【0024】請求項2の発明は、請求項1に記載の発明
において、前記正の値となる重みは、前記各単語に対し
て、Nを検索対象文書数、nを前記各単語の出現する文
書数、k4′を調整パラメータとして、式
【0025】
【式9】
【0026】を用いて算出することを特徴としたもので
ある。
【0027】請求項3の発明は、請求項1又は2に記載
の発明において、前記正の値となる重みを基にして、適
合文書及び非適合文書集合の中での出現頻度などのフィ
ードバック情報を線形結合した重みを与えて、前記検索
された文書の集合から、その中に出現する各単語につい
て、適合文書及び非適合文書の中での出現状況などのフ
ィードバック情報を利用して前記キーワードとの関連度
を算出して関連度の高い単語を選出することを特徴とし
たものである。
【0028】請求項4の発明は、請求項3に記載の発明
において、前記選出した関連単語を元の前記キーワード
に追加して、さらに前記適合文書及び非適合文書集合の
中での出現頻度などのフィードバック情報を反映した単
語の重みを付与して新しいキーワードとして作成し直
し、該新しいキーワードの各単語に対して、前記重みを
基にして、前記新しいキーワードに適合する文書を適合
の度合の順に再度検索する手段を有することを特徴とし
たものである。
【0029】請求項5の発明は、請求項3又は4に記載
の発明において、前記正の値となる重みを基にした、前
記適合文書及び非適合文書集合の中での出現頻度などの
フィードバック情報を線形結合した前記重みは、Nを検
索対象文書数、nを前記単語の出現する文書数、Rを適
合文書数、Sを非適合文書数、rを適合文書集合の中で
の前記単語の出現する文書数、sを非適合文書集合の中
での前記単語の出現する文書数、k4′,k5,k6を調
整パラメータとして、式
【0030】
【式10】
【0031】を用いて算出することを特徴としたもので
ある。
【0032】請求項6の発明は、請求項3乃至5のいず
れかに記載の発明において、前記キーワードとの前記関
連度は、前記検索対象文書集合での頻度と各適合文書及
び非適合文書の中での頻度とを反映させて算出すること
を特徴としたものである。
【0033】請求項7の発明は、請求項6に記載の文書
検索装置において、前記キーワードとの前記関連度は、
Rを適合文書数、Sを非適合文書数、tfを各文書にお
ける単語の出現頻度数、k1,βを調整パラメータとし
て、式
【0034】
【式11】
【0035】を用いて算出することを特徴としたもので
ある。
【0036】請求項8の発明は、請求項3乃至7のいず
れかに記載の発明において、前記線形結合の係数に前記
検索対象文書集合中での単語の頻度情報を反映させるこ
とを特徴としたものである。
【0037】請求項9の発明は、請求項3乃至7のいず
れかに記載の発明において、前記正の値となる重みを基
にした、前記適合文書及び非適合文書集合の中での出現
頻度などのフィードバック情報を線形結合した前記重み
は、Nを検索対象文書数、nを単語の出現する文書数、
Rを適合文書数、Sを非適合文書数、rを適合文書集合
の中での前記単語の出現する文書数、sを非適合文書集
合の中での前記単語の出現する文書数、k4′,k5′,
6′を調整パラメータとして、式
【0038】
【式12】
【0039】を用いて算出することを特徴としたもので
ある。
【0040】
【発明の実施の形態】本発明においては、単語の重み決
定のための確率推定方法を変更することで、式(1)及
び(2)を改良し、重みが絶対に負にならない計算式と
する。式(2)の改良に応じて式(4)も改良し、再検
索時の単語の重みも調節する。
【0041】キーワード関連語を選出するための関連度
評価値計算についても、式(5)を改良し、フィードバ
ック情報を反映しつつ、文書内での出現頻度を加味する
ことによって、適合文書に多く出現する単語の重みを重
くしつつ、電話番号のような汎用性の低い単語が選ばれ
にくくする。
【0042】式(4)をさらに改良し、適合文書に多く
出現する単語であっても、検索対象文書全体に頻出する
単語は重みが小さくなるよう、線形結合の係数に単語の
適合文書及び非適合文書での出現頻度に検索対象文書全
体での出現頻度も反映した式に変更する。
【0043】図1は、本発明の第1の実施形態にかかわ
る文書検索装置の構成を示すブロック図である。文書検
索装置20は、キーワード入力部21、文書ランキング
部22、単語ランキング部23、文書出力部24及び文
書データベース25より構成される。キーワード入力部
21では、ユーザがキーボード等により、検索文字列と
なるキーワード10を入力できる。文書ランキング部2
2は、キーワード10及び新キーワード(図中F参照)
に適合する文書(図中D参照)及び適合文書30の集合
を選定する。単語ランキング部23は、適合文書(D)
中の単語を関連度に応じて選出し、それらをキーワード
関連語として元のキーワードに追加した新しいキーワー
ド(F)を作成する。文書出力部24は、選出した適合
文書30を出力する。文書データベース25は、検索対
象となる文書と、その中に含まれる単語について、出現
頻度などの統計情報(単語統計情報)25′を持ってい
る。
【0044】次に、このように構成された第1の実施の
形態にかかわる文書検索装置の動作について図2及び図
3を参照して説明する。図2及び図3は、本発明の第1
の実施形態にかかわる文書検索装置の動作の1実施例を
説明するための図で、主に、図2は文書ランキング部2
2を、図3は単語ランキング部23の動作を説明するた
めの図である。まず、キーワード入力部21から入力さ
れたキーワード(A)が、文書ランキング部22にわた
される。この例では、キーワード(A)として、「アマ
ゾン」と「雨林」のふたつの単語が入力されている。
【0045】文書ランキング部22は、まず、文書デー
タベース25中の単語統計情報25′を用いて、キーワ
ード(A)の中のそれぞれの単語について、単語の重要
度に応じた重みを付与する。本実施例では、重みつきキ
ーワードとして、「アマゾン」に5.7、「雨林」に4.
2の重みがつけられている(図2中B参照)。この重み
は、各単語のキーワードとしての相対的な価値をあらわ
す。
【0046】次に、文書ランキング部22は、検索対象
である文書データベース25中のそれぞれの文書につい
て、単語統計情報25′を用いて、キーワード(A)中
の単語がどれくらい含まれているかを調べ、その結果に
それらの単語の重みを反映させてそれぞれの文書の文書
適合度を計算する。本実施例では、例えば、文書#3に
おいて、「アマゾン」と「雨林」のそれぞれが2回出現
しており、その結果、この文書の文書適合度は6.6と
なっている(図2中C参照)。
【0047】各文書の文書適合度が求まったら、文書ラ
ンキング部22は、適合度の高い順に各文書を順序づ
け、上位何件かを適合文書とみなす。あるいは、上位何
件かまたは適合していると判断された文書すべてをユー
ザに提示し、適合しているかどうか判断してもらい、適
合していると判断された文書を適合文書(図2中D参
照)としてもよい。非適合文書については、適合度の低
い下位何件かを非適合文書とみなすか、ユーザに提示し
て適合しないと判断された文書を非適合文書としてもよ
い。あるいは、検索精度より計算コストを優先するなら
ば、非適合文書からの情報を用いないことにしてもよ
い。本実施例では、文書#3,文書#7,文書#6が適
合文書として選出されている(図2中D参照)。
【0048】適合文書が選出されたら、単語ランキング
部23は、適合文書(D)中のすべての単語について、
文書データベース25の単語統計情報25′を参照しな
がら、適合文書及び非適合文書での出現状況、すなわち
フィードバック情報を反映させて、それぞれの単語の重
みを求める。さらに、単語ランキング部23は、この重
みとフィードバック情報から適合文書中の各単語につい
て、キーワード(A)との関連度TSVを求める。
【0049】本実施例では、単語ランキング情報(図3
E参照)として、「アマゾン」に6.8、「雨林」に4.
9、「熱帯」に3.8の重みがつけられ、さらにキーワ
ード関連度がそれぞれ18.4,12.8,8.5になっ
ている。「アマゾン」と「雨林」については、もともと
キーワード(A)として指定された単語なので、当然、
適合文書中に多く現れており、その分、キーワード関連
度が高くなっている。また、適合文書(D)中に「熱
帯」も多くあらわれているので、「熱帯」もキーワード
関連度が高くなる。なお、この例では、非適合文書中で
の出現状況が示されていないが、適合文書だけに出現す
る単語の方が、非適合文書にも出現する単語より、キー
ワード関連度は低くなる。
【0050】このようにして、単語ランキング部23
は、上記関連度の高いものから順にキーワード関連語を
選出し、上記重みを反映させて元のキーワード(A)に
追加する。元のキーワード(A)中の単語も、上記重み
を反映させて、重みを変更する。このようにして新しい
キーワードが作成される(図3中F参照)。
【0051】上記の新しいキーワード(F)は、再び、
文書ランキング部22にわたされ、再度、適合文書30
が選出される。このとき、文書適合度の算出には、上記
で求めた重みが使われる。このようにして、選出された
適合文書30は、文書出力部24からユーザに返され
る。
【0052】図4は、本発明の第1の実施形態にかかわ
る文書検索装置の動作の詳細を説明するためのフロー図
である。文書ランキング部22は、キーワード入力部2
1からキーワード10を得る(ステップS1)と、ステ
ップS2では、まず、文書データベース25の単語統計
情報25′を用いて、キーワード10の中のそれぞれの
単語について、単語の重要度に応じて、重みを付与す
る。この重みの算出には、以下の式(7)を使用する。
【0053】
【式13】
【0054】式(7)において、Nは総文書数、nは単
語の出現する文書数である。また、パラメータk4′は
新しい確率推定に基づく調整パラメータであり、その値
は下式(8)の確率推定に基づいて決定される。
【0055】
【式14】
【0056】式(8)において、p0はnが0と仮定したと
きの適合文書に単語の出現する確率の推定であり、0≦
0≦1である。k4′=p0/(1−P0)なので、0≦
0≦1において、0≦k4′<∞となるため、重みは常
に正の値となる。従来方式のように、p0の推定値が適
切でなかったために重みが負になり検索精度が劣化す
る、といったことはおこらなくなる。上述した重みつき
キーワードの重み5.7や4.2は、この式(8)で計算
される(図2中B参照)。
【0057】次に、文書ランキング部22は、文書デー
タベース25の単語統計情報25′を用いて、それぞれ
の文書ごとの文書適合度を計算する。これには、例え
ば、先に示した式(3)を用いる。
【0058】
【式15】
【0059】式(9)において、tfは文書あたりの単
語の出現数、k1は調整パラメータである。図2中の文
書、例えば文書#3の文書適合度6.6は、k1を1とし
て求めた値である。各文書の文書適合度が求まったら、
文書ランキング部22は、適合度の高い上位何件か及び
下位何件かをとるなりして、適合文書及び非適合文書を
選出する。
【0060】ステップS3では、適合文書が選出された
ら、単語ランキング部23は、適合文書中の各単語につ
いて、文書データベース25の単語統計情報25′をも
とに、さらに適合文書及び非適合文書からのフィードバ
ック情報である適合文書及び非適合文書中での出現頻度
とを組み合わせて、下式(10)を用いて、単語の重み
を求める。この重みの計算には、従来の確率推定方法の
かわりに上述の確率推定方法の式(8)から導かれる重
みが反映される。
【0061】
【式16】
【0062】式(10)において、Nは検索対象文書
数、nは単語の出現する文書数、Rは適合文書数、Sは
非適合文書数,rは適合文書集合の中で単語の出現する
文書数で、sは非適合文書集合の中で単語の出現する文
書数である。非適合文書からの情報を用いない場合は、
式(10)におけるSとsは0になる。単語ランキング
情報(図3E参照)の例えば「アマゾン」の重み6.8
は、このようにして計算する。なお、式(10)におい
て、線形結合の係数におけるR及びSの平方根の部分を
単にR及びSとした下式(11)を用いてもよいし、
R,Sの他の関数を用いてもよい。
【0063】
【式17】
【0064】さらに、単語ランキング部23は、適合文
書中の各単語について、文書データベース25の単語統
計情報25′をもとに、さらに適合文書及び非適合文書
からのフィードバック情報である適合文書及び非適合文
書中での出現頻度とを組み合わせて、下式(12)を用
いて、キーワードとの関連度TSVを求める(βを調整
パラメータとする)。非適合文書からの情報を用いない
場合は、下式(12)のβは0になる。
【0065】
【式18】
【0066】単語ランキング情報(図3E参照)の例え
ば「アマゾン」のTSV18.4は、このようにして計
算する。この式(12)では、従来方式と異なり、適合
文書及び非適合文書からのフィードバック情報が重みに
反映されるのに加えて、さらに適合文書及び非適合文書
における各単語の文書内での頻度がキーワード関連度に
反映される。これにより、適合文書に多く出現する単語
の重みが重くなると同時に電話番号のような汎用性の低
い単語が選ばれにくくなる。
【0067】このようにして、単語ランキング部23
は、上記関連度の高いものから順にキーワード関連語を
選出し、上記重みを反映させて元のキーワード10に追
加する。元のキーワード中の単語も、式(10)の重み
を反映させて、重みを変更する。このようにして新しい
キーワードが作成される(図3中F参照)。
【0068】ステップS4において、上記の新しいキー
ワードは、再び、文書ランキング部22にわたされ、再
度、適合文書が選出される。このとき、文書適合度の算
出には、式(10)で求めた重みが使われる。このよう
にして、選出された適合文書30は、文書出力部24か
らユーザに返される。
【0069】次に、本発明の第2の実施形態にかかわる
文書検索装置の動作について説明する。本実施形態にか
かわる文書検索装置の構成は、実施形態1の構成とおな
じであり、図1で示される。この実施形態2と実施形態
1との違いは、文書ランキング部22において適合文書
が選出された後、単語ランキング部23が単語の重みを
付与するのに、線形結合の係数に単語の適合文書及び非
適合文書での頻度RやSに検索対象文書全体での頻度n
も反映させるところにある。
【0070】この実施形態2においては、単語の重み
は、下式(13)を用いて求める。非適合文書からの情
報を用いない場合は、下式(13)のSとsは0にな
る。
【0071】
【式19】
【0072】式(13)において、k5′,k6′は調整
パラメータである。この重み計算式にすると、たとえば
「する」などの検索対象文書全体に頻出する単語は、た
とえ適合文書に多く出現していても、重みが相対的に小
さくなる。なお、式(13)において、線形結合の係数
におけるR/(R+n−r)及びS/(S+n−s)の
平方根の部分を単にR/(R+n−r)及びS/(S+
n−s)とした下式(14)を用いてもよいし、R,
r,nの他の関数及びそれに対応するS,s,nの他の
関数を用いてもよい。
【0073】
【式20】
【0074】
【発明の効果】本発明によれば、パラメータの値の設定
によって重みが負になることがなくなり、その結果、検
索精度が安定する。
【0075】本発明によれば、単語の関連度を計算する
際、文書あたりの出現頻度が低い単語はキーワードとの
関連度が小さくなり、検索対象文書全体に頻出する単語
は重みが相対的に小さくなるために、こういった単語が
選ばれにくくなり、かわりに、適合文書だけに頻繁に現
れる単語が選ばれやすくなり、再検索での検索精度が向
上する。
【図面の簡単な説明】
【図1】 本発明の第1の実施形態にかかわる文書検索
装置の構成を示すブロック図である。
【図2】 本発明の第1の実施形態にかかわる文書検索
装置の動作の1実施例を説明するための図である。
【図3】 本発明の第1の実施形態にかかわる文書検索
装置の動作の1実施例を説明するための図である。
【図4】 第1の実施形態にかかわる文書検索装置の動
作の詳細を説明するためのフロー図である。
【符号の説明】
10…キーワード、20…文書検索装置、21…キーワ
ード入力部、22…文書ランキング部、23…単語ラン
キング部、24…文書入力部、25…文書データベー
ス、25′…単語統計情報、30…適合文書。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 ユーザから入力された1以上の単語を含
    むキーワードから、検索対象文書集合の中の各文書の中
    に出現する各々の前記単語の出現状況などの統計情報を
    利用して、各単語に対して、その単語の出現する確率を
    推定し、かつ、正の値となる重みを算出し、該重みを付
    与された前記各単語に基づいて前記キーワードに適合す
    る文書を適合の度合の順に検索する手段を有することを
    特徴とする文書検索装置。
  2. 【請求項2】 請求項1に記載の文書検索装置におい
    て、前記正の値となる重みは、前記各単語に対して、N
    を検索対象文書数、nを前記各単語の出現する文書数、
    4′を調整パラメータとして、式 【式1】 を用いて算出することを特徴とする文書検索装置。
  3. 【請求項3】 請求項1又は2に記載の文書検索装置に
    おいて、前記正の値となる重みを基にして、適合文書及
    び非適合文書集合の中での出現頻度などのフィードバッ
    ク情報を線形結合した重みを与えて、前記検索された文
    書の集合から、その中に出現する各単語について、適合
    文書及び非適合文書の中での出現状況などのフィードバ
    ック情報を利用して前記キーワードとの関連度を算出し
    て関連度の高い単語を選出することを特徴とする文書検
    索装置。
  4. 【請求項4】 請求項3に記載の文書検索装置におい
    て、前記選出した関連単語を元の前記キーワードに追加
    して、さらに前記適合文書及び非適合文書集合の中での
    出現頻度などのフィードバック情報を反映した単語の重
    みを付与して新しいキーワードとして作成し直し、該新
    しいキーワードの各単語に対して、前記重みを基にし
    て、前記新しいキーワードに適合する文書を適合の度合
    の順に再度検索する手段を有することを特徴とする文書
    検索装置。
  5. 【請求項5】 請求項3又は4に記載の文書検索装置に
    おいて、前記正の値となる重みを基にした、前記適合文
    書及び非適合文書集合の中での出現頻度などのフィード
    バック情報を線形結合した前記重みは、Nを検索対象文
    書数、nを前記単語の出現する文書数、Rを適合文書
    数、Sを非適合文書数、rを適合文書集合の中での前記
    単語の出現する文書数、sを非適合文書集合の中での前
    記単語の出現する文書数、k4′,k5,k6を調整パラ
    メータとして、式 【式2】 を用いて算出することを特徴とする文書検索装置。
  6. 【請求項6】 請求項3乃至5のいずれかに記載の文書
    検索装置において、前記キーワードとの前記関連度は、
    前記検索対象文書集合での頻度と各適合文書及び非適合
    文書の中での頻度とを反映させて算出することを特徴と
    する文書検索装置。
  7. 【請求項7】 請求項6に記載の文書検索装置におい
    て、前記キーワードとの前記関連度は、Rを適合文書
    数、Sを非適合文書数、tfを各文書における単語の出
    現頻度数、k1,βを調整パラメータとして、式 【式3】 を用いて算出することを特徴とする文書検索装置。
  8. 【請求項8】 請求項3乃至7のいずれかに記載の文書
    検索装置において、前記線形結合の係数に前記検索対象
    文書集合中での単語の頻度情報を反映させることを特徴
    とする文書検索装置。
  9. 【請求項9】 請求項3乃至7のいずれかに記載の文書
    検索装置において、前記正の値となる重みを基にした、
    前記適合文書及び非適合文書集合の中での出現頻度など
    のフィードバック情報を線形結合した前記重みは、Nを
    検索対象文書数、nを単語の出現する文書数、Rを適合
    文書数、Sを非適合文書数、rを適合文書集合の中での
    前記単語の出現する文書数、sを非適合文書集合の中で
    の前記単語の出現する文書数、k4′,k5′,k6′を
    調整パラメータとして、式 【式4】 を用いて算出することを特徴とする文書検索装置。
JP31444299A 1999-11-04 1999-11-04 文書検索装置 Pending JP2001134588A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31444299A JP2001134588A (ja) 1999-11-04 1999-11-04 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31444299A JP2001134588A (ja) 1999-11-04 1999-11-04 文書検索装置

Publications (2)

Publication Number Publication Date
JP2001134588A true JP2001134588A (ja) 2001-05-18
JP2001134588A5 JP2001134588A5 (ja) 2005-04-07

Family

ID=18053416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31444299A Pending JP2001134588A (ja) 1999-11-04 1999-11-04 文書検索装置

Country Status (1)

Country Link
JP (1) JP2001134588A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2007004240A (ja) * 2005-06-21 2007-01-11 Hidetsugu Nanba 情報処理装置、情報処理システム、およびプログラム
JP2009223890A (ja) * 2008-03-18 2009-10-01 Korea Advanced Inst Of Science & Technology 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法
JP2010086210A (ja) * 2008-09-30 2010-04-15 Yahoo Japan Corp 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP2011134355A (ja) * 2007-07-12 2011-07-07 Oki Data Corp 文書検索装置
CN103164415A (zh) * 2011-12-09 2013-06-19 富士通株式会社 基于微博平台的扩展关键词获取方法和设备
WO2013098886A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 検索装置
JP2013536519A (ja) * 2010-08-25 2013-09-19 オミクロン データ クオリティ ゲーエムべーハー 多数のデータレコードをサーチする方法及びサーチエンジン
JP2014106665A (ja) * 2012-11-27 2014-06-09 Hitachi Ltd 文書検索装置、文書検索方法
JP2014532928A (ja) * 2011-10-31 2014-12-08 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索結果をランク付けする方法および装置ならびに検索方法および装置
CN104636415A (zh) * 2013-11-11 2015-05-20 乐金信世股份有限公司 提取重要关键字的方法和执行所述方法的服务器
JP2020537268A (ja) * 2017-10-10 2020-12-17 ネイゲントロピクス ゾフトバー ゼットアールティー. 大規模なデータベースにおけるセマンティック検索のための方法及びシステム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2007004240A (ja) * 2005-06-21 2007-01-11 Hidetsugu Nanba 情報処理装置、情報処理システム、およびプログラム
JP2011134355A (ja) * 2007-07-12 2011-07-07 Oki Data Corp 文書検索装置
JP2009223890A (ja) * 2008-03-18 2009-10-01 Korea Advanced Inst Of Science & Technology 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法
JP2010086210A (ja) * 2008-09-30 2010-04-15 Yahoo Japan Corp 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP2013536519A (ja) * 2010-08-25 2013-09-19 オミクロン データ クオリティ ゲーエムべーハー 多数のデータレコードをサーチする方法及びサーチエンジン
JP2014532928A (ja) * 2011-10-31 2014-12-08 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索結果をランク付けする方法および装置ならびに検索方法および装置
CN103164415A (zh) * 2011-12-09 2013-06-19 富士通株式会社 基于微博平台的扩展关键词获取方法和设备
WO2013098886A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 検索装置
JP5512055B2 (ja) * 2011-12-27 2014-06-04 三菱電機株式会社 検索装置
US9507881B2 (en) 2011-12-27 2016-11-29 Mitsubishi Electric Corporation Search device
JP2014106665A (ja) * 2012-11-27 2014-06-09 Hitachi Ltd 文書検索装置、文書検索方法
CN104636415A (zh) * 2013-11-11 2015-05-20 乐金信世股份有限公司 提取重要关键字的方法和执行所述方法的服务器
JP2020537268A (ja) * 2017-10-10 2020-12-17 ネイゲントロピクス ゾフトバー ゼットアールティー. 大規模なデータベースにおけるセマンティック検索のための方法及びシステム

Similar Documents

Publication Publication Date Title
US7792833B2 (en) Ranking search results using language types
EP1643385B1 (en) System and method for ranking search results using click distance
RU2387005C2 (ru) Способ и система ранжирования объектов на основе отношений внутри типа и между типами
US7260573B1 (en) Personalizing anchor text scores in a search engine
RU2421802C2 (ru) Функции ранжирования, использующие смещенное расстояние, измеряемое количеством последовательных переходов, до документа в сети
US20060200460A1 (en) System and method for ranking search results using file types
KR101076894B1 (ko) 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
EP1225517B1 (en) System and methods for computer based searching for relevant texts
US6947920B2 (en) Method and system for response time optimization of data query rankings and retrieval
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US7483885B2 (en) System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries
US20030120654A1 (en) Metadata search results ranking system
US7324988B2 (en) Method of generating a distributed text index for parallel query processing
JP2009545809A (ja) インクリメンタルに更新可能な変形ナイーブベイズクエリ分類器を使用したランク付け関数
WO1992004681A1 (en) Adaptive ranking system for information retrieval
RU2007114029A (ru) Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети
JP2001134588A (ja) 文書検索装置
JP2001134588A5 (ja)
JP3505100B2 (ja) 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP4671212B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JPH08320879A (ja) 適合フィードバック装置
JP2000348039A (ja) 情報提供方式及びその方式を用いた情報提供装置
JP2002140355A (ja) 文書検索装置、文書検索方法および記録媒体
JP2003216646A (ja) 文書検索装置、文書検索方法、文書検索プログラム及びこのプログラムを記録した記録媒体
JP2003058566A (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071029

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071127