JP5384884B2 - 情報検索装置および情報検索プログラム - Google Patents

情報検索装置および情報検索プログラム Download PDF

Info

Publication number
JP5384884B2
JP5384884B2 JP2008225424A JP2008225424A JP5384884B2 JP 5384884 B2 JP5384884 B2 JP 5384884B2 JP 2008225424 A JP2008225424 A JP 2008225424A JP 2008225424 A JP2008225424 A JP 2008225424A JP 5384884 B2 JP5384884 B2 JP 5384884B2
Authority
JP
Japan
Prior art keywords
document
importance
search
electronic document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008225424A
Other languages
English (en)
Other versions
JP2010061322A (ja
Inventor
俊介 小長井
光俊 長浜
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008225424A priority Critical patent/JP5384884B2/ja
Publication of JP2010061322A publication Critical patent/JP2010061322A/ja
Application granted granted Critical
Publication of JP5384884B2 publication Critical patent/JP5384884B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書群中から任意の検索語に対応する電子文書を検索する技術に関する。
近年のインターネットの普及に伴い、インターネット上の膨大な電子文書群から利用者が必要とする情報を的確に検索するシステムおよびサービスの重要性が高まっている。一般に検索サービスにおいては、利用者が入力した検索キーワードが、検索対象の文書や、該文書にリンクしている別の文書のリンクアンカーテキスト(リンクが設定された文字列)に含まれる数に基づいた検索キーワードと文書との一致度と、該文書が別の文書からどれだけ参照されているかといった文書の重要度とを総合して、検索結果の出力順を決定している。
検索キーワードと文書との一致度としては、一般的には「tf・idf」(Term frequency・Inverse document frequency)や非特許文献1のBM25といった単語の統計量を用いた手法が利用されている。これらの手法は、文書中に出現する頻度が平均と比較して高い単語が該文書を特徴付けるものである、という推定に基づいて、利用者が入力した検索キーワードが文書の特徴と一致する度合いが高い文書を高い出力順位としている。
しかしながら、現在のインターネットの文書数は膨大であるため、検索キーワードが比較的珍しい単語であれば前述の手法で良い検索結果が得られるものの、検索キーワードがありふれた単語である場合には、検索キーワードと文書との一致度が同程度となる文書が過多となるおそれがある。
そこで、一般的な情報検索サービスでは、検索キーワードとの一致度が同程度となった文書の順位付けのために文書の重要度を算出し、検索キーワードと文書との一致度および文書の重要度とを合わせて検索結果の出力順を決定している。文書の重要度としては、一般的には非特許文献2のPageRankや非特許文献3のHITSといった手法が利用されている。
S Robertson,H Zaragoza,M Taylor,"Simple BM25 Extension to Multiple Weighted Fields",Proceedings of the thirteenth ACM international conference on Information and knowledge management,2004. Lawrencd Page,Sergey Brin,Rajeev Motwai,Terry Winograd,"The PageRank Citation Ranking:Bringing Order to the Web",7th International World Wide Web conference(WWW98). Jon M Kleinberg,"Authoritative Sources in a Hyperlinked Environment",Journal of the ACM(JACM),v.46 n.5,p.604−632,Sept.1999.
文書の重要度の算出に用いられる非特許文献2.3の手法は、WEBページのリンク情報を用いて、ある文書が他の多くの文書からリンクされている場合にはその文書が重要であろうという推定に基づいている。
しかしながら、現在のインターネットには日々新しい文書が大量に追加されており、新しく追加された文書は他の文書からリンクされていないため、従来のPageRankやHITSといったリンク構造に基づく手法では古くから存在する文書が有利になり、新しい文書が上位の検索結果に含まれにくくなっている。
そこで本発明は、このような問題に鑑み、文書の内容による重要度を反映した情報検索を実現することを解決課題としている。
本発明は、前記課題を解決するために創作された技術的思想であって、検索語の受信前に、電子文書に含まれる単語の重要度に基づいて算出した文書の重要度を算出しておきこの文書の重要度検索結果である電子文書の出力順に反映させている
具体的には、請求項1の発明は、電子文書群中から任意の検索語に対応する電子文書を検索し、該電子文書の重要度をパラメータとして検索結果の出力順を決定する情報検索装置であって、電子文書群中の各文書に含まれる単語の重要度が格納された記憶手段と、検索語の受信前に前記電子文書に含まれる単語の重要度を用いて前記各電子文書の文書重要度を算出する文書重要度算出手段と、前記算出された文書重要度を格納する文書重要度テーブルと、利用者から入力された検索語と検索対象の電子文書とのキーワード一致度を計算するキーワード一致度計算手段と、前記キーワード一致度と前記文書重要度とから文書の総合ランキングを算出する総合ランキング計算手段とを備えたことを特徴とする。
請求項2の情報検索装置は、請求項1の情報検索装置において、前記単語の重要度はカテゴリ毎に前記記憶手段に格納され、前記文書重要度算出手段は、前記各電子文書の文書重要度をカテゴリ毎に算出し、前記キーワード一致度計算手段は、特定のカテゴリの電子文書を検索する利用者から入力された検索語と検索対象の電子文書とのキーワード一致度を計算し、前記総合ランキング計算手段は、前記キーワード一致度と前記算出されたカテゴリ毎の文書重要度とから文書の総合ランキングを算出することを特徴とする。
請求項3の発明は、請求項1または2の情報検索装置において、あらかじめ登録した条件に該当する電子文書についてのみ、該文書の文書重要度をパラメータとして検索結果の出力順を決定する手段をさらに備えたことを特徴とする。
請求項4の発明は、請求項1から3のいずれかの情報検索装置において、前記単語の重要度を用いて算出した各文書の文書重要度と、各文書が電子文書群に登録された時点から検索実行時点または各文書の重要度算出時点までの経過時間と、をパラメータとして検索結果の出力順を決定する手段をさらに備えたことを特徴とする
請求項の発明は、情報検索プログラムであり、請求項1から4のいずれかの情報検索装置を構成する各手段としてコンピュータを機能させることを特徴とする。
請求項1〜5の発明によれば、検索語の受信前に電子文書に含まれる単語の重要度に基づき文書の重要度を算出し、この文書の重要度をパラメータとして検索結果の出力順を決定していることから、文書の内容自体による重要度を反映した文書検索が可能になる。
特に、請求項2の発明によれば、検索語の受信前に文書の重要度がカテゴリ毎に算出されるため、利用者はカテゴリ単位での文書検索を効率良く行うことができる。
図1は、本発明の実施形態に係る情報検索装置1を示している。この情報検索装置1は、ネットワークを介して検索要求が実行される情報検索端末2と通信可能に接続されている。ここでは、前記情報検索装置1がインターネット上に存在するコンテンツなどを検索するサーバ(検索エンジン)として構成されたものとする。なお、情報検索装置1は、例えばネットワークに接続可能で情報検索の処理ロジックを実行可能な計算機などでもよく、また前記情報検索装置1を社内LAN(Local Area Network)などのインターネット以外のネットワークに接続してもよい。
(1)構成例
前記情報検索装置1は、図1に示すように、電子文書に使用される単語の重要度から該文書の重要度を計算する文書重要度計算手段(機能)3と、全電子文書に含まれる単語の重要度を格納する単語重要度テーブル5と、全電子文書中での単語の使用頻度を格納する単語頻度テーブル6と、利用者からの検索要求に対して前記文書重要度計算手段(機能)3が算出した文書の重要度をパラメータとして検索結果を出力する情報検索機能7とを備えている。
前記各機能ブロック3.5.6.7は、前記情報検索装置1の制御部(CPU:Central Processor Unit)が情報検索プログラムを読み込んで機能している。また、前記情報検索装置1は、コンピュータの通常の構成要素、例えば図示省略のキーボードやマウスなどの入力部と、処理データなどを一時記憶する書き換え可能なメモリ(RAM)と、前記情報検索端末2とのネットワーク接続に使用する通信デバイスと、ハードディスクドライブ装置などの記憶部と、ディスプレイなどの表示部とを備え、前記記憶部にはネットワーク上に公開されるWEB文書(WEBページ)が保存されている。
前記情報検索機能7は、利用者から入力された検索キーワードと検索対象の電子文書との一致度を計算するキーワード一致度計算部71と、単語と該単語を使用している電子文書の情報などを格納する文書インデックステーブル72と、前記文書重要度計算手段(機能)3が求めた文書重要度を格納する文書重要度テーブル73と、キーワード一致度と文書重要度とから文書の総合ランキングを算出する総合ランキング計算部74と、あらかじめ登録済みの信頼できるWEBサイトの情報を格納する登録済みサイトテーブル75とで実現されている。
また、前記各テーブル5.6.72.73.75は、前記ハードディスクドライブ装置上にデータベースとして構築されている。以下、前記各テーブル5.6.72.73.75について、図1に基づき詳細に説明する。
前記単語重要度テーブル5には、全電子文書に含まれる単語の重要度のデータがあらかじめ格納される。単語の重要度としては、例えば、利用者によって検索キーワードとして使用された頻度に基づいて算出可能な数値や、利用者が検索結果から閲覧することを選択した(クリックした)文書の概要文に使用された頻度に基づいて算出可能な数値、人によって採点された数値などを用いることができるが、必ずしもこれに限定されないものとする。この単語重要度を用いて、前記文書重要度計算手段(機能)3にて文書重要度が算出される。
前記単語頻度テーブル6には、全電子文書中における単語の使用頻度のデータがあらかじめ格納される。この単語頻度テーブル6は必ず設けられる必要はなく、単語頻度を用いて文書重要度を算出したい場合などに適宜設けられればよい。
前記文書インデックステーブル72には、全電子文書中に含まれる単語と該単語を使用している電子文書のデータなどがインデックス情報としてあらかじめ格納される。このインデックス情報は、前記キーワード一致度計算部71にて検索キーワードと文書との一致度を算出する際に用いられる。
前記文書重要度テーブル73には、前記文書重要度計算手段(機能)3で算出された文書重要度のデータが文書ごとに格納される。図1中では、該文書重要度テーブル73には、WEB文書411.412...Nの文書重要度が格納されている。この文書重要度は、前記総合ランキング計算部74にて文書の総合ランキングを算出する際に用いられる。
前記登録済みサイトテーブル75には、信頼できるWEBサイトの情報(URLなど)が登録済みサイトとしてあらかじめ格納される。この登録済みサイトの情報は、前記総合ランキング計算部74にて文書の総合ランキングを算出する際に参照され、検索された電子文書が登録済みサイトの文書である場合に限り、該文書の文書重要度を利用して総合ランキングが算出される。この登録済みサイトテーブル75は必ず設けられる必要はなく、文書重要度を用いて総合ランキングを算出する文書を限定したい場合などに適宜設けられればよい。
(2)動作例
以下、前記各機能ブロック3.5.6.71〜75の実行する処理ステップを、図2のフローチャートに基づき説明する。
S01:まず、前記文書重要度計算手段(機能)3は前記単語重要度テーブル5を参照し、各単語の重要度から検索対象となる電子文書の文書重要度を算出して、算出結果を前記文書重要度テーブル73に格納する。
例えば図1の例で、WEB文書411とWEB文書412とは、WEB文書411で「シンガプーラ」という単語が使われている場所に、WEB文書412では「動物」という単語が使われている点を除いて全て同一だったとする。
このとき、前記文書重要度計算手段(機能)3では前記単語重要度テーブル5を参照して、それぞれ「シンガプーラ」の単語重要度1.40と「動物」の単語重要度0.82を反映した文書重要度を算出するが、他の条件が全く同一なので、より重要度の高い単語「シンガプーラ」を含むWEB文書411の文書重要度はWEB文書412の文書重要度より大きな値となる。ここでは、WEB文書411の文書重要度は50.00、WEB文書412の文書重要度は39.15と算出されている。
なお、文書重要度の算出方法としては、文書に含まれる全ての単語の単語重要度の和を該文書の文書重要度としてもよいし、それを該文書の全単語数で割った平均を文書重要度としてもよい。
また、文書重要度に反映する単語は、該文書中の全単語であってもよいし、該文書中の名詞のみ、あるいは名詞と形容詞のみといったように品詞を限定してもよい。さらには、該文書のタイトルや章題、リンクアンカーテキストに含まれる単語といったように文書の構造により限定してもよい。
また、前記単語頻度テーブル6に格納されている単語頻度を用いて文書重要度を求めてもよい。例えば、「単語重要度÷単語頻度」の和やその平均を用いて文書重要度を求めることができる。この場合には、単語重要度が同じであれば、単語頻度が低い、即ち出現回数が少ない単語を多く含む文書の文書重要度がより高くなる。
さらに、文書重要度を複数のカテゴリ毎に算出してもよい。この場合には、単語重要度をあらかじめ登録されたカテゴリ毎に求め、これを前記単語重要度テーブル5に格納する。そして、前記文書重要度計算手段(機能)3ではこのカテゴリ毎の単語重要度を用いて、文書重要度をカテゴリ毎に算出する。
これにより、利用者が特定のカテゴリの電子文書を検索するにあたって、該カテゴリとは関係が低いものの重要度が高い単語を含む文書に過剰な文書重要度が付与されるのを防ぐことができ、利用者は所望のカテゴリに適合する電子文書を効率良く検索することができる。
カテゴリ毎の単語重要度としては、例えば、あらかじめ登録されたカテゴリ情報に基づき電子文書をカテゴリに分類し、該カテゴリの文書中での単語の出現頻度と全文書中での単語の出現頻度とに基づいて算出可能な数値や、この数値に、非特許文献2のPageRankや非特許文献3のHITSなどの従来手法による文書重要度やカテゴリ単位での文書重要度を加味して算出可能な数値などを用いてもよいが、ここではこれらに限定しない。
また、カテゴリ毎の文書重要度とカテゴリに関わらない文書重要度とを併せて算出してもよい。この場合には、これらの文書重要度を適宜選択して検索結果に反映させることができる。
このように単語重要度を用いて算出した文書重要度は、従来手法によるWEBページのリンク構造に基づく文書重要度と対立するものではなく、それらを併用することも可能である。この場合には、電子文書がネットワーク上に公開された時期によって、どちらの文書重要度を重視するかを決定するのが好ましい。
即ち、ネットワーク上に公開された時期が古い電子文書には別の文書からのリンクが多いと想定されるため、従来手法のリンク構造に基づく文書重要度を重視する一方、公開された時期が新しい文書にはリンクが少ないと想定されるため、単語重要度に基づく文書重要度を重視する。
具体的には、電子文書が図外のWEBサーバに登録された時点、または前記情報検索装置1が前記WEBサーバからWEB文書を回収するプログラム(クローラなど)により該文書の存在を始めて認知した時点と、前記情報検索装置1が前記情報検索端末2から任意の検索要求を受け付けた時点または該文書の文書重要度を算出する時点との時間差を利用する。
この時間差が大きい文書、即ちネットワーク上への公開時期が古い文書の文書重要度を算出する場合には、リンク構造に基づいて算出した文書重要度により大きい重みを付与して該文書の文書重要度を算出する。一方、この時間差が小さい文書、即ちネットワーク上への公開時期が新しい文書の場合には、単語重要度に基づいて算出した文書重要度により大きい重みを付与して文書重要度を算出すればよい。
このように文書重要度を算出するタイミングは、前記情報検索装置1のタイマなどにあらかじめ設定されていてもよく、また前記クローラなどが前記WEBサーバからWEB文書を回収し終わった時点などでもよい。
S02:利用者が前記情報検索端末2をもって入力した検索キーワードをネットワークおよび前記通信デバイスを介して受信する。
S03〜S04:前記キーワード一致度計算部71が、S02で受信した前記検索キーワードを用いて前記文書インデックステーブル72を参照し、該検索キーワードを含む電子文書を抽出する(S03)。そして、抽出した電子文書と該検索キーワードとの一致の程度をキーワード一致度として文書毎に算出する(S04)。このキーワード一致度の算出手法としては前述の「tf・idf」や非特許文献1のBM25などが利用可能であるが、ここではこれらに限定しない。なお、算出したキーワード一致度のデータは前記メモリ(RAM)や前記記憶部に記憶してもよい。
S05:前記総合ランキング計算部74は、前記キーワード一致度計算部71から検索キーワードを含む電子文書および各文書のキーワード一致度を受信すると、前記文書重要度テーブル73を参照して、前記検索キーワードを含む電子文書の文書重要度を読み出す。そして、前記キーワード一致度と前記文書重要度とから、各文書の総合ランキングを算出する。算出した総合ランキングのデータは前記メモリ(RAM)や前記記憶部に記憶してもよい。
このとき、前記登録済みサイトテーブル75にあらかじめ登録した信頼できるWEBサイトに含まれる電子文書についてのみ、文書重要度を加算して総合ランキングを算出するようにしてもよい。
即ち、S01のような単語重要度に基づく文書重要度の算出方法は、文書中に過剰に重要度の高い単語を列挙したり、文書の内容と関係の低い重要単語を追加したりする、いわゆる「検索エンジンスパム」に影響されやすくなる。したがって、あらかじめ登録した優良なWEBサイトに含まれる電子文書に限り、単語重要度に基づく文書重要度を加算するようにすることも好ましい。
この場合には、S01で文書重要度を算出する時点で、前記文書重要度計算手段(機能)3が前記登録済みサイトテーブル75を参照し、該テーブル55に登録済みのWEBサイトに含まれる電子文書についてのみ文書重要度を算出して、前記文書重要度テーブル73に格納するようにしてもよい。また、登録済みのWEBサイトに含まれない電子文書の文書重要度を0など特定の値とするようにしてもよい。
S06:前記総合ランキング計算部74は、S05で算出した総合ランキングをパラメータとして電子文書の出力順を決定し、この出力順に基づく電子文書のランキングを検索結果として前記情報検索端末2へ返信する。
以上のように、本実施形態に係る情報検索装置1によれば、単語重要度に基づく文書重要度を用いて検索結果の出力順を決定していることから、電子文書の内容自体による重要度を反映した検索結果の生成が可能になる。これにより、ネットワーク上に公開されたばかりで他の文書からのリンクが少ない電子文書であっても、検索結果の上位に表示させることが可能となる。
また、文書重要度をカテゴリ毎に算出して利用すれば、カテゴリとは関係の低い重要単語を含む文書への過剰な文書重要度の付与を抑制できるばかりか、利用者はカテゴリ単位での文書検索を効率良く行うことができる。
また、従来のリンク構造に基づく文書重要度と、単語重要度に基づく文書重要度とを併用すれば、評価対象の文書の構造に合わせた最適な文書重要度を付与することができる。
さらに、あらかじめ登録した信頼できるWEBサイトに含まれる電子文書に限定して文書重要度を用いれば、検索エンジンスパムなどの悪意のある電子文書の影響を受けることなく、信頼性の高い検索結果を出力することができる。
なお、本発明は、コンピュータを前記情報検索装置1の各機能ブロック3.5.6.71〜75として機能させる情報検索プログラムとしても提供することができる。このプログラムは、本実施形態の全ての処理ステップをコンピュータに実行させるものでもよく、あるいはその一部の処理ステップを実行させるものであってもよい。
このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。
本発明の実施形態に係る情報検索装置の構成図。 同 情報検索処理の処理フロー図。
符号の説明
1…情報検索装置
2…情報検索端末
3…文書重要度計算手段(機能)
411.412…WEB文書
5…単語重要度テーブル
6…単語頻度テーブル
7…情報検索機能
71…キーワード一致度計算部
72…文書インデックステーブル
73…文書重要度テーブル
74…総合ランキング計算部
75…登録済みサイトテーブル

Claims (5)

  1. 電子文書群中から任意の検索語に対応する電子文書を検索し、該電子文書の重要度をパラメータとして検索結果の出力順を決定する情報検索装置であって、
    電子文書群中の各文書に含まれる単語の重要度が格納された記憶手段と、
    検索語の受信前に、前記電子文書に含まれる単語の重要度を用いて前記各電子文書の文書重要度を算出する文書重要度算出手段と、
    前記算出された文書重要度を格納する文書重要度テーブルと、
    利用者から入力された検索語と検索対象の電子文書とのキーワード一致度を計算するキーワード一致度計算手段と、
    前記キーワード一致度と前記文書重要度とから文書の総合ランキングを算出する総合ランキング計算手段と
    を備えたことを特徴とする情報検索装置。
  2. 前記単語の重要度はカテゴリ毎に前記記憶手段に格納され、
    前記文書重要度算出手段は、前記各電子文書の文書重要度をカテゴリ毎に算出し、
    前記キーワード一致度計算手段は、特定のカテゴリの電子文書を検索する利用者から入力された検索語と検索対象の電子文書とのキーワード一致度を計算し、
    前記総合ランキング計算手段は、前記キーワード一致度と前記算出されたカテゴリ毎の文書重要度とから文書の総合ランキングを算出する
    ことを特徴とする請求項1に記載の情報検索装置。
  3. あらかじめ登録した条件に該当する電子文書についてのみ、該文書の文書重要度をパラメータとして検索結果の出力順を決定する手段をさらに備えたこと
    を特徴とする請求項1または2に記載の情報検索装置。
  4. 前記単語の重要度を用いて算出した各文書の文書重要度と、
    各文書が電子文書群に登録された時点から検索実行時点または各文書の重要度算出時点までの経過時間と、
    をパラメータとして検索結果の出力順を決定する手段をさらに備えたこと
    を特徴とする請求項1から3のいずれか1項に記載の情報検索装置。
  5. 請求項1から4のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させることを特徴とする情報検索プログラム。
JP2008225424A 2008-09-03 2008-09-03 情報検索装置および情報検索プログラム Expired - Fee Related JP5384884B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008225424A JP5384884B2 (ja) 2008-09-03 2008-09-03 情報検索装置および情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008225424A JP5384884B2 (ja) 2008-09-03 2008-09-03 情報検索装置および情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2010061322A JP2010061322A (ja) 2010-03-18
JP5384884B2 true JP5384884B2 (ja) 2014-01-08

Family

ID=42188065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008225424A Expired - Fee Related JP5384884B2 (ja) 2008-09-03 2008-09-03 情報検索装置および情報検索プログラム

Country Status (1)

Country Link
JP (1) JP5384884B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5524160B2 (ja) * 2011-10-14 2014-06-18 ヤフー株式会社 重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラム
JP7100797B2 (ja) * 2017-12-28 2022-07-14 コニカミノルタ株式会社 文書スコアリング装置、プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148765A (ja) * 1998-11-05 2000-05-30 Nec Corp 検索システムおよび検索方法
JP3578651B2 (ja) * 1998-12-04 2004-10-20 株式会社リコー 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3678615B2 (ja) * 1999-10-08 2005-08-03 松下電器産業株式会社 文書検索装置及び文書検索方法
JP2004206654A (ja) * 2002-10-29 2004-07-22 Fuji Xerox Co Ltd 情報検索方法、情報検索処理システム、プログラム
JP2005018530A (ja) * 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
JP2005122296A (ja) * 2003-10-14 2005-05-12 Net Agent Kk 文書カテゴリ判定方法及び文書カテゴリ抽出システム
JP4510483B2 (ja) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ 情報検索装置
JP2006031209A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd 全文検索システム、全文検索方法、プログラムおよび記録媒体
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7499919B2 (en) * 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
JP4931114B2 (ja) * 2006-06-29 2012-05-16 独立行政法人情報通信研究機構 データ表示装置、データ表示方法及びデータ表示プログラム

Also Published As

Publication number Publication date
JP2010061322A (ja) 2010-03-18

Similar Documents

Publication Publication Date Title
US7480667B2 (en) System and method for using anchor text as training data for classifier-based search systems
US7779001B2 (en) Web page ranking with hierarchical considerations
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
JP4763354B2 (ja) 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
KR20080086868A (ko) 컴퓨터, 하나 이상의 컴퓨터 판독가능 매체, 및 컴퓨터기반 방법
US8977625B2 (en) Inference indexing
WO2011152925A2 (en) Detection of junk in search result ranking
JP5491372B2 (ja) 情報検索システム、情報検索方法、情報検索プログラム
JP2009122807A (ja) 連想検索システム
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP5384884B2 (ja) 情報検索装置および情報検索プログラム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
Choudhary et al. Role of ranking algorithms for information retrieval
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP5358481B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム
JP2011192029A (ja) 情報検索装置及び方法及びプログラム
JP5261326B2 (ja) 情報検索装置、情報検索プログラム
JP2011128669A (ja) 情報検索装置および情報検索プログラム
Goutam et al. Search Engines Evaluation using users efforts
JP5292322B2 (ja) 文書検索方法、文書検索装置、文書検索プログラム
KR101203165B1 (ko) 태그 검출 장치 및 방법

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100609

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131003

R150 Certificate of patent or registration of utility model

Ref document number: 5384884

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees