JP2001134588A - 文書検索装置 - Google Patents
文書検索装置Info
- Publication number
- JP2001134588A JP2001134588A JP31444299A JP31444299A JP2001134588A JP 2001134588 A JP2001134588 A JP 2001134588A JP 31444299 A JP31444299 A JP 31444299A JP 31444299 A JP31444299 A JP 31444299A JP 2001134588 A JP2001134588 A JP 2001134588A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- word
- conforming
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
するために、各単語の重みを決定し、安定した検索精度
で適合文書を適合可能な情報検索装置を提供する。 【解決手段】 文書ランキング部22は、検索対象文書
とその中に含まれる単語統計情報25′を有する文書デ
ータベース25により、キーワード10に適合する文書
の集合を選定する。この際、重み付けには、重みが絶対
負にならない計算式を用いる。単語ランキング部23
は、適合文書(D)中の単語を関連度に応じて選出し、
それらをキーワード関連語として元のキーワードに追加
した新しいキーワード(F)を作成し、新しいキーワー
ド(F)により適合文書30を選出する。
Description
し、より詳細には、与えられたキーワードに対して適合
する文書を選択する検索装置であって、適合文書から抽
出したキーワードに関連した単語によってキーワードを
拡張させ、拡張されたキーワードに対して適合する文書
を選択する検索装置に関する。
ザが入力したキーワードに適合する文書をさがし出すた
めに、キーワード中の各単語に重みをあたえ、それに基
づいて検索対象の各文書のキーワードに対する適合の度
合を求めるという方法を用いている。この単語の重みの
計算式には、たとえば、確率モデルに基づくRober
tsonの計算式(式(1))が知られている(Robert
son, S.E. and Walker,S. "On relevance weights with
little relevance information," SIGIR 97, ACM Pres
s, pp.16-24)。
語の出現する文書数、p0はnが0と仮定したときの適
合文書に単語の出現する確率の推定で0≦p0≦1であ
る。
ドに適合する文書にキーワード中の単語があらわれるで
あろう推定確率と、キーワードに適合しない文書にキー
ワード中の単語があらわれるであろう推定確率をもとに
計算される。ここで、log(p0/(1−p0))をk
4とおくと、下式(2)のようになる。
る。k4の範囲は、0≦p 0≦1より−∞<k4<∞とな
る。このように、キーワード中の各単語の重みは、検索
対象集合全体でのそれらの単語の出現状況に応じて付与
される。
ら、これに対して、各文書がキーワード中の各単語をど
のくらい含んでいるかをもとに各文書の文書適合度を計
算する。この文書適合度の計算式は、Robertso
nによれば、下式(3)となる。
語の出現数、k1は調整パラメータである。さらに、ユ
ーザが入力したキーワードを用いて一旦検索した後、適
合する文書中に出現する単語から入力キーワードに関連
する単語を選出、元のキーワードに追加し、再度検索す
ることでユーザの求めるものに近いものがより得られや
すくなることも知られている。このようにして関連語を
追加した場合、再検索時の重みづけには、例えば、適合
文書、非適合文書の中での出現頻度などのフィードバッ
ク情報を利用した、Robertsonの下式(4)の
計算式が知られている。
適合文書集合の中で単語の出現する文書数、Sは非適合
文書数、sは非適合文書集合の中で単語の出現する文書
数、k5,k6は調整パラメータである。
適合する文書から選出すべき関連語を選択するための関
連度評価値TSVの算出方法として、例えば、適合文書
及び非適合文書の中での出現頻度などのフィードバック
情報を利用した、Boughanemの計算式(下式
(5))がある(Walker, S. et al., "Okapi at TREC-
6: Automated ad hoc, VLC, routing, filtering and Q
SDR," The Sixth Test REtrieval Conference (TREC-
6), 1996, NIST)。
検索対象集合全体での単語の出現する頻度に各文書内で
の出現頻度をかけあわせる方法も特開平11−2512
8号公報に記載の発明において提案されており、Cを定
数として、下式(6)で表される。
(1)及び(2)による方法では、推定確率によって
は、パラメータk4の値は負になり、実際にその方が検
索性能がよくなることも多いが、Robertsonも
指摘しているように、k4の値が負である場合、単語の
出現文書数によっては、結果的に重みが負になることが
あり、そのために検索精度が大きく低下することもあ
る。安定した検索精度を得るには、重みがつねに正にな
るような計算方法が望ましい。
検索時の重み式(4)や関連度評価値計算式(5)につ
いては、この方法により選択された単語には、例えば、
電話番号のように、汎用性がいちじるしく低いにもかか
わらず、たまたま適合文書に含まれていたにすぎないよ
うな単語が多く含まれがちである。この問題に対してB
oughanem,Robertsonらのシステムで
は、数字を含む単語は一律に除く(キーワードに含まれ
る場合以外)などの方法で対処しているが、単に、数字
を含むからという理由で単語を除外するのは、関連語と
しての価値を評価していることにはならず、適切な方法
とはいえない。また、関連度評価値計算式(6)では、
再検索時の重みにフィードバック情報が反映されない。
れたものであり、入力されたキーワードに適合する文書
を検索するために、各単語の重みを決定し、安定した検
索精度で適合文書を検索可能な文書検索装置を提供する
ことをその目的とする。
の重み決定のための確率推定方法を変更することで、式
(1)及び(2)を改良し、重みが絶対に負にならない
計算式とする。式(2)の改良に応じて式(4)も改良
し、再検索時の単語の重みも調節する。
評価値計算についても、式(5)を改良し、フィードバ
ック情報を反映しつつ、文書内での出現頻度を加味する
ことによって、適合文書に多く出現する単語の重みを重
くしつつ、電話番号のような汎用性の低い単語が選ばれ
にくくする。
出現する単語であっても、検索対象文書全体に頻出する
単語は重みが小さくなるよう、線形結合の係数に単語の
適合文書及び非適合文書での出現頻度に検索対象文書全
体での出現頻度も反映した式に変更する。
ドと検索対象文書集合の中の各文書について、その中に
出現する各単語の出現状況などの統計情報を利用して各
単語の重みを算出し、それに基づいてキーワードに適合
する文書を適合の度合の順に検索する手段と、検索され
た文書の集合から、その中に出現する各単語について、
適合文書および非適合文書の中での出現状況などのフィ
ードバック情報を利用してキーワードとの関連度を算出
し関連度の高い単語を選出する手段と、選出した関連語
を元のキーワードに追加し、さらにフィードバック情報
を反映した単語の重みを付与して新しいキーワードとし
て自動的に作成し直し、それを用いて再度、適合する文
書を適合の度合の順に選出する手段を備えることを特徴
としたものである。
段により構成される。請求項1の発明は、ユーザから入
力された1以上の単語を含むキーワードから、検索対象
文書集合の中の各文書の中に出現する各々の前記単語の
出現状況などの統計情報を利用して、各単語に対して、
その単語の出現する確率を推定し、かつ、正の値となる
重みを算出し、該重みを付与された前記各単語に基づい
て前記キーワードに適合する文書を適合の度合の順に検
索する手段を有することを特徴としたものである。
において、前記正の値となる重みは、前記各単語に対し
て、Nを検索対象文書数、nを前記各単語の出現する文
書数、k4′を調整パラメータとして、式
ある。
の発明において、前記正の値となる重みを基にして、適
合文書及び非適合文書集合の中での出現頻度などのフィ
ードバック情報を線形結合した重みを与えて、前記検索
された文書の集合から、その中に出現する各単語につい
て、適合文書及び非適合文書の中での出現状況などのフ
ィードバック情報を利用して前記キーワードとの関連度
を算出して関連度の高い単語を選出することを特徴とし
たものである。
において、前記選出した関連単語を元の前記キーワード
に追加して、さらに前記適合文書及び非適合文書集合の
中での出現頻度などのフィードバック情報を反映した単
語の重みを付与して新しいキーワードとして作成し直
し、該新しいキーワードの各単語に対して、前記重みを
基にして、前記新しいキーワードに適合する文書を適合
の度合の順に再度検索する手段を有することを特徴とし
たものである。
の発明において、前記正の値となる重みを基にした、前
記適合文書及び非適合文書集合の中での出現頻度などの
フィードバック情報を線形結合した前記重みは、Nを検
索対象文書数、nを前記単語の出現する文書数、Rを適
合文書数、Sを非適合文書数、rを適合文書集合の中で
の前記単語の出現する文書数、sを非適合文書集合の中
での前記単語の出現する文書数、k4′,k5,k6を調
整パラメータとして、式
ある。
れかに記載の発明において、前記キーワードとの前記関
連度は、前記検索対象文書集合での頻度と各適合文書及
び非適合文書の中での頻度とを反映させて算出すること
を特徴としたものである。
検索装置において、前記キーワードとの前記関連度は、
Rを適合文書数、Sを非適合文書数、tfを各文書にお
ける単語の出現頻度数、k1,βを調整パラメータとし
て、式
ある。
れかに記載の発明において、前記線形結合の係数に前記
検索対象文書集合中での単語の頻度情報を反映させるこ
とを特徴としたものである。
れかに記載の発明において、前記正の値となる重みを基
にした、前記適合文書及び非適合文書集合の中での出現
頻度などのフィードバック情報を線形結合した前記重み
は、Nを検索対象文書数、nを単語の出現する文書数、
Rを適合文書数、Sを非適合文書数、rを適合文書集合
の中での前記単語の出現する文書数、sを非適合文書集
合の中での前記単語の出現する文書数、k4′,k5′,
k6′を調整パラメータとして、式
ある。
定のための確率推定方法を変更することで、式(1)及
び(2)を改良し、重みが絶対に負にならない計算式と
する。式(2)の改良に応じて式(4)も改良し、再検
索時の単語の重みも調節する。
評価値計算についても、式(5)を改良し、フィードバ
ック情報を反映しつつ、文書内での出現頻度を加味する
ことによって、適合文書に多く出現する単語の重みを重
くしつつ、電話番号のような汎用性の低い単語が選ばれ
にくくする。
出現する単語であっても、検索対象文書全体に頻出する
単語は重みが小さくなるよう、線形結合の係数に単語の
適合文書及び非適合文書での出現頻度に検索対象文書全
体での出現頻度も反映した式に変更する。
る文書検索装置の構成を示すブロック図である。文書検
索装置20は、キーワード入力部21、文書ランキング
部22、単語ランキング部23、文書出力部24及び文
書データベース25より構成される。キーワード入力部
21では、ユーザがキーボード等により、検索文字列と
なるキーワード10を入力できる。文書ランキング部2
2は、キーワード10及び新キーワード(図中F参照)
に適合する文書(図中D参照)及び適合文書30の集合
を選定する。単語ランキング部23は、適合文書(D)
中の単語を関連度に応じて選出し、それらをキーワード
関連語として元のキーワードに追加した新しいキーワー
ド(F)を作成する。文書出力部24は、選出した適合
文書30を出力する。文書データベース25は、検索対
象となる文書と、その中に含まれる単語について、出現
頻度などの統計情報(単語統計情報)25′を持ってい
る。
形態にかかわる文書検索装置の動作について図2及び図
3を参照して説明する。図2及び図3は、本発明の第1
の実施形態にかかわる文書検索装置の動作の1実施例を
説明するための図で、主に、図2は文書ランキング部2
2を、図3は単語ランキング部23の動作を説明するた
めの図である。まず、キーワード入力部21から入力さ
れたキーワード(A)が、文書ランキング部22にわた
される。この例では、キーワード(A)として、「アマ
ゾン」と「雨林」のふたつの単語が入力されている。
タベース25中の単語統計情報25′を用いて、キーワ
ード(A)の中のそれぞれの単語について、単語の重要
度に応じた重みを付与する。本実施例では、重みつきキ
ーワードとして、「アマゾン」に5.7、「雨林」に4.
2の重みがつけられている(図2中B参照)。この重み
は、各単語のキーワードとしての相対的な価値をあらわ
す。
である文書データベース25中のそれぞれの文書につい
て、単語統計情報25′を用いて、キーワード(A)中
の単語がどれくらい含まれているかを調べ、その結果に
それらの単語の重みを反映させてそれぞれの文書の文書
適合度を計算する。本実施例では、例えば、文書#3に
おいて、「アマゾン」と「雨林」のそれぞれが2回出現
しており、その結果、この文書の文書適合度は6.6と
なっている(図2中C参照)。
ンキング部22は、適合度の高い順に各文書を順序づ
け、上位何件かを適合文書とみなす。あるいは、上位何
件かまたは適合していると判断された文書すべてをユー
ザに提示し、適合しているかどうか判断してもらい、適
合していると判断された文書を適合文書(図2中D参
照)としてもよい。非適合文書については、適合度の低
い下位何件かを非適合文書とみなすか、ユーザに提示し
て適合しないと判断された文書を非適合文書としてもよ
い。あるいは、検索精度より計算コストを優先するなら
ば、非適合文書からの情報を用いないことにしてもよ
い。本実施例では、文書#3,文書#7,文書#6が適
合文書として選出されている(図2中D参照)。
部23は、適合文書(D)中のすべての単語について、
文書データベース25の単語統計情報25′を参照しな
がら、適合文書及び非適合文書での出現状況、すなわち
フィードバック情報を反映させて、それぞれの単語の重
みを求める。さらに、単語ランキング部23は、この重
みとフィードバック情報から適合文書中の各単語につい
て、キーワード(A)との関連度TSVを求める。
E参照)として、「アマゾン」に6.8、「雨林」に4.
9、「熱帯」に3.8の重みがつけられ、さらにキーワ
ード関連度がそれぞれ18.4,12.8,8.5になっ
ている。「アマゾン」と「雨林」については、もともと
キーワード(A)として指定された単語なので、当然、
適合文書中に多く現れており、その分、キーワード関連
度が高くなっている。また、適合文書(D)中に「熱
帯」も多くあらわれているので、「熱帯」もキーワード
関連度が高くなる。なお、この例では、非適合文書中で
の出現状況が示されていないが、適合文書だけに出現す
る単語の方が、非適合文書にも出現する単語より、キー
ワード関連度は低くなる。
は、上記関連度の高いものから順にキーワード関連語を
選出し、上記重みを反映させて元のキーワード(A)に
追加する。元のキーワード(A)中の単語も、上記重み
を反映させて、重みを変更する。このようにして新しい
キーワードが作成される(図3中F参照)。
文書ランキング部22にわたされ、再度、適合文書30
が選出される。このとき、文書適合度の算出には、上記
で求めた重みが使われる。このようにして、選出された
適合文書30は、文書出力部24からユーザに返され
る。
る文書検索装置の動作の詳細を説明するためのフロー図
である。文書ランキング部22は、キーワード入力部2
1からキーワード10を得る(ステップS1)と、ステ
ップS2では、まず、文書データベース25の単語統計
情報25′を用いて、キーワード10の中のそれぞれの
単語について、単語の重要度に応じて、重みを付与す
る。この重みの算出には、以下の式(7)を使用する。
語の出現する文書数である。また、パラメータk4′は
新しい確率推定に基づく調整パラメータであり、その値
は下式(8)の確率推定に基づいて決定される。
きの適合文書に単語の出現する確率の推定であり、0≦
p0≦1である。k4′=p0/(1−P0)なので、0≦
p0≦1において、0≦k4′<∞となるため、重みは常
に正の値となる。従来方式のように、p0の推定値が適
切でなかったために重みが負になり検索精度が劣化す
る、といったことはおこらなくなる。上述した重みつき
キーワードの重み5.7や4.2は、この式(8)で計算
される(図2中B参照)。
タベース25の単語統計情報25′を用いて、それぞれ
の文書ごとの文書適合度を計算する。これには、例え
ば、先に示した式(3)を用いる。
語の出現数、k1は調整パラメータである。図2中の文
書、例えば文書#3の文書適合度6.6は、k1を1とし
て求めた値である。各文書の文書適合度が求まったら、
文書ランキング部22は、適合度の高い上位何件か及び
下位何件かをとるなりして、適合文書及び非適合文書を
選出する。
ら、単語ランキング部23は、適合文書中の各単語につ
いて、文書データベース25の単語統計情報25′をも
とに、さらに適合文書及び非適合文書からのフィードバ
ック情報である適合文書及び非適合文書中での出現頻度
とを組み合わせて、下式(10)を用いて、単語の重み
を求める。この重みの計算には、従来の確率推定方法の
かわりに上述の確率推定方法の式(8)から導かれる重
みが反映される。
数、nは単語の出現する文書数、Rは適合文書数、Sは
非適合文書数,rは適合文書集合の中で単語の出現する
文書数で、sは非適合文書集合の中で単語の出現する文
書数である。非適合文書からの情報を用いない場合は、
式(10)におけるSとsは0になる。単語ランキング
情報(図3E参照)の例えば「アマゾン」の重み6.8
は、このようにして計算する。なお、式(10)におい
て、線形結合の係数におけるR及びSの平方根の部分を
単にR及びSとした下式(11)を用いてもよいし、
R,Sの他の関数を用いてもよい。
書中の各単語について、文書データベース25の単語統
計情報25′をもとに、さらに適合文書及び非適合文書
からのフィードバック情報である適合文書及び非適合文
書中での出現頻度とを組み合わせて、下式(12)を用
いて、キーワードとの関連度TSVを求める(βを調整
パラメータとする)。非適合文書からの情報を用いない
場合は、下式(12)のβは0になる。
ば「アマゾン」のTSV18.4は、このようにして計
算する。この式(12)では、従来方式と異なり、適合
文書及び非適合文書からのフィードバック情報が重みに
反映されるのに加えて、さらに適合文書及び非適合文書
における各単語の文書内での頻度がキーワード関連度に
反映される。これにより、適合文書に多く出現する単語
の重みが重くなると同時に電話番号のような汎用性の低
い単語が選ばれにくくなる。
は、上記関連度の高いものから順にキーワード関連語を
選出し、上記重みを反映させて元のキーワード10に追
加する。元のキーワード中の単語も、式(10)の重み
を反映させて、重みを変更する。このようにして新しい
キーワードが作成される(図3中F参照)。
ワードは、再び、文書ランキング部22にわたされ、再
度、適合文書が選出される。このとき、文書適合度の算
出には、式(10)で求めた重みが使われる。このよう
にして、選出された適合文書30は、文書出力部24か
らユーザに返される。
文書検索装置の動作について説明する。本実施形態にか
かわる文書検索装置の構成は、実施形態1の構成とおな
じであり、図1で示される。この実施形態2と実施形態
1との違いは、文書ランキング部22において適合文書
が選出された後、単語ランキング部23が単語の重みを
付与するのに、線形結合の係数に単語の適合文書及び非
適合文書での頻度RやSに検索対象文書全体での頻度n
も反映させるところにある。
は、下式(13)を用いて求める。非適合文書からの情
報を用いない場合は、下式(13)のSとsは0にな
る。
パラメータである。この重み計算式にすると、たとえば
「する」などの検索対象文書全体に頻出する単語は、た
とえ適合文書に多く出現していても、重みが相対的に小
さくなる。なお、式(13)において、線形結合の係数
におけるR/(R+n−r)及びS/(S+n−s)の
平方根の部分を単にR/(R+n−r)及びS/(S+
n−s)とした下式(14)を用いてもよいし、R,
r,nの他の関数及びそれに対応するS,s,nの他の
関数を用いてもよい。
によって重みが負になることがなくなり、その結果、検
索精度が安定する。
際、文書あたりの出現頻度が低い単語はキーワードとの
関連度が小さくなり、検索対象文書全体に頻出する単語
は重みが相対的に小さくなるために、こういった単語が
選ばれにくくなり、かわりに、適合文書だけに頻繁に現
れる単語が選ばれやすくなり、再検索での検索精度が向
上する。
装置の構成を示すブロック図である。
装置の動作の1実施例を説明するための図である。
装置の動作の1実施例を説明するための図である。
作の詳細を説明するためのフロー図である。
ード入力部、22…文書ランキング部、23…単語ラン
キング部、24…文書入力部、25…文書データベー
ス、25′…単語統計情報、30…適合文書。
Claims (9)
- 【請求項1】 ユーザから入力された1以上の単語を含
むキーワードから、検索対象文書集合の中の各文書の中
に出現する各々の前記単語の出現状況などの統計情報を
利用して、各単語に対して、その単語の出現する確率を
推定し、かつ、正の値となる重みを算出し、該重みを付
与された前記各単語に基づいて前記キーワードに適合す
る文書を適合の度合の順に検索する手段を有することを
特徴とする文書検索装置。 - 【請求項2】 請求項1に記載の文書検索装置におい
て、前記正の値となる重みは、前記各単語に対して、N
を検索対象文書数、nを前記各単語の出現する文書数、
k4′を調整パラメータとして、式 【式1】 を用いて算出することを特徴とする文書検索装置。 - 【請求項3】 請求項1又は2に記載の文書検索装置に
おいて、前記正の値となる重みを基にして、適合文書及
び非適合文書集合の中での出現頻度などのフィードバッ
ク情報を線形結合した重みを与えて、前記検索された文
書の集合から、その中に出現する各単語について、適合
文書及び非適合文書の中での出現状況などのフィードバ
ック情報を利用して前記キーワードとの関連度を算出し
て関連度の高い単語を選出することを特徴とする文書検
索装置。 - 【請求項4】 請求項3に記載の文書検索装置におい
て、前記選出した関連単語を元の前記キーワードに追加
して、さらに前記適合文書及び非適合文書集合の中での
出現頻度などのフィードバック情報を反映した単語の重
みを付与して新しいキーワードとして作成し直し、該新
しいキーワードの各単語に対して、前記重みを基にし
て、前記新しいキーワードに適合する文書を適合の度合
の順に再度検索する手段を有することを特徴とする文書
検索装置。 - 【請求項5】 請求項3又は4に記載の文書検索装置に
おいて、前記正の値となる重みを基にした、前記適合文
書及び非適合文書集合の中での出現頻度などのフィード
バック情報を線形結合した前記重みは、Nを検索対象文
書数、nを前記単語の出現する文書数、Rを適合文書
数、Sを非適合文書数、rを適合文書集合の中での前記
単語の出現する文書数、sを非適合文書集合の中での前
記単語の出現する文書数、k4′,k5,k6を調整パラ
メータとして、式 【式2】 を用いて算出することを特徴とする文書検索装置。 - 【請求項6】 請求項3乃至5のいずれかに記載の文書
検索装置において、前記キーワードとの前記関連度は、
前記検索対象文書集合での頻度と各適合文書及び非適合
文書の中での頻度とを反映させて算出することを特徴と
する文書検索装置。 - 【請求項7】 請求項6に記載の文書検索装置におい
て、前記キーワードとの前記関連度は、Rを適合文書
数、Sを非適合文書数、tfを各文書における単語の出
現頻度数、k1,βを調整パラメータとして、式 【式3】 を用いて算出することを特徴とする文書検索装置。 - 【請求項8】 請求項3乃至7のいずれかに記載の文書
検索装置において、前記線形結合の係数に前記検索対象
文書集合中での単語の頻度情報を反映させることを特徴
とする文書検索装置。 - 【請求項9】 請求項3乃至7のいずれかに記載の文書
検索装置において、前記正の値となる重みを基にした、
前記適合文書及び非適合文書集合の中での出現頻度など
のフィードバック情報を線形結合した前記重みは、Nを
検索対象文書数、nを単語の出現する文書数、Rを適合
文書数、Sを非適合文書数、rを適合文書集合の中での
前記単語の出現する文書数、sを非適合文書集合の中で
の前記単語の出現する文書数、k4′,k5′,k6′を
調整パラメータとして、式 【式4】 を用いて算出することを特徴とする文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31444299A JP2001134588A (ja) | 1999-11-04 | 1999-11-04 | 文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31444299A JP2001134588A (ja) | 1999-11-04 | 1999-11-04 | 文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001134588A true JP2001134588A (ja) | 2001-05-18 |
JP2001134588A5 JP2001134588A5 (ja) | 2005-04-07 |
Family
ID=18053416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31444299A Pending JP2001134588A (ja) | 1999-11-04 | 1999-11-04 | 文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001134588A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178421A (ja) * | 2002-11-28 | 2004-06-24 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2007004240A (ja) * | 2005-06-21 | 2007-01-11 | Hidetsugu Nanba | 情報処理装置、情報処理システム、およびプログラム |
JP2009223890A (ja) * | 2008-03-18 | 2009-10-01 | Korea Advanced Inst Of Science & Technology | 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 |
JP2010086210A (ja) * | 2008-09-30 | 2010-04-15 | Yahoo Japan Corp | 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ |
JP2011134355A (ja) * | 2007-07-12 | 2011-07-07 | Oki Data Corp | 文書検索装置 |
CN103164415A (zh) * | 2011-12-09 | 2013-06-19 | 富士通株式会社 | 基于微博平台的扩展关键词获取方法和设备 |
WO2013098886A1 (ja) * | 2011-12-27 | 2013-07-04 | 三菱電機株式会社 | 検索装置 |
JP2013536519A (ja) * | 2010-08-25 | 2013-09-19 | オミクロン データ クオリティ ゲーエムべーハー | 多数のデータレコードをサーチする方法及びサーチエンジン |
JP2014106665A (ja) * | 2012-11-27 | 2014-06-09 | Hitachi Ltd | 文書検索装置、文書検索方法 |
JP2014532928A (ja) * | 2011-10-31 | 2014-12-08 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 検索結果をランク付けする方法および装置ならびに検索方法および装置 |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
JP2020537268A (ja) * | 2017-10-10 | 2020-12-17 | ネイゲントロピクス ゾフトバー ゼットアールティー. | 大規模なデータベースにおけるセマンティック検索のための方法及びシステム |
-
1999
- 1999-11-04 JP JP31444299A patent/JP2001134588A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178421A (ja) * | 2002-11-28 | 2004-06-24 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2007004240A (ja) * | 2005-06-21 | 2007-01-11 | Hidetsugu Nanba | 情報処理装置、情報処理システム、およびプログラム |
JP2011134355A (ja) * | 2007-07-12 | 2011-07-07 | Oki Data Corp | 文書検索装置 |
JP2009223890A (ja) * | 2008-03-18 | 2009-10-01 | Korea Advanced Inst Of Science & Technology | 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 |
JP2010086210A (ja) * | 2008-09-30 | 2010-04-15 | Yahoo Japan Corp | 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ |
JP2013536519A (ja) * | 2010-08-25 | 2013-09-19 | オミクロン データ クオリティ ゲーエムべーハー | 多数のデータレコードをサーチする方法及びサーチエンジン |
JP2014532928A (ja) * | 2011-10-31 | 2014-12-08 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 検索結果をランク付けする方法および装置ならびに検索方法および装置 |
CN103164415A (zh) * | 2011-12-09 | 2013-06-19 | 富士通株式会社 | 基于微博平台的扩展关键词获取方法和设备 |
WO2013098886A1 (ja) * | 2011-12-27 | 2013-07-04 | 三菱電機株式会社 | 検索装置 |
JP5512055B2 (ja) * | 2011-12-27 | 2014-06-04 | 三菱電機株式会社 | 検索装置 |
US9507881B2 (en) | 2011-12-27 | 2016-11-29 | Mitsubishi Electric Corporation | Search device |
JP2014106665A (ja) * | 2012-11-27 | 2014-06-09 | Hitachi Ltd | 文書検索装置、文書検索方法 |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
JP2020537268A (ja) * | 2017-10-10 | 2020-12-17 | ネイゲントロピクス ゾフトバー ゼットアールティー. | 大規模なデータベースにおけるセマンティック検索のための方法及びシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7792833B2 (en) | Ranking search results using language types | |
EP1643385B1 (en) | System and method for ranking search results using click distance | |
RU2387005C2 (ru) | Способ и система ранжирования объектов на основе отношений внутри типа и между типами | |
US7260573B1 (en) | Personalizing anchor text scores in a search engine | |
RU2421802C2 (ru) | Функции ранжирования, использующие смещенное расстояние, измеряемое количеством последовательных переходов, до документа в сети | |
US20060200460A1 (en) | System and method for ranking search results using file types | |
KR101076894B1 (ko) | 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법 | |
EP1225517B1 (en) | System and methods for computer based searching for relevant texts | |
US6947920B2 (en) | Method and system for response time optimization of data query rankings and retrieval | |
JP5638031B2 (ja) | 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム | |
US7483885B2 (en) | System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries | |
US20030120654A1 (en) | Metadata search results ranking system | |
US7324988B2 (en) | Method of generating a distributed text index for parallel query processing | |
JP2009545809A (ja) | インクリメンタルに更新可能な変形ナイーブベイズクエリ分類器を使用したランク付け関数 | |
WO1992004681A1 (en) | Adaptive ranking system for information retrieval | |
RU2007114029A (ru) | Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети | |
JP2001134588A (ja) | 文書検索装置 | |
JP2001134588A5 (ja) | ||
JP3505100B2 (ja) | 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体 | |
JP4671212B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JPH08320879A (ja) | 適合フィードバック装置 | |
JP2000348039A (ja) | 情報提供方式及びその方式を用いた情報提供装置 | |
JP2002140355A (ja) | 文書検索装置、文書検索方法および記録媒体 | |
JP2003216646A (ja) | 文書検索装置、文書検索方法、文書検索プログラム及びこのプログラムを記録した記録媒体 | |
JP2003058566A (ja) | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040426 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071029 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071127 |