JP5286162B2 - 情報検索サーバ、情報検索方法及び情報検索プログラム - Google Patents

情報検索サーバ、情報検索方法及び情報検索プログラム Download PDF

Info

Publication number
JP5286162B2
JP5286162B2 JP2009136429A JP2009136429A JP5286162B2 JP 5286162 B2 JP5286162 B2 JP 5286162B2 JP 2009136429 A JP2009136429 A JP 2009136429A JP 2009136429 A JP2009136429 A JP 2009136429A JP 5286162 B2 JP5286162 B2 JP 5286162B2
Authority
JP
Japan
Prior art keywords
document
score
search
document data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009136429A
Other languages
English (en)
Other versions
JP2010282495A (ja
Inventor
健 吉村
大祐 鳥居
稔 栄藤
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009136429A priority Critical patent/JP5286162B2/ja
Publication of JP2010282495A publication Critical patent/JP2010282495A/ja
Application granted granted Critical
Publication of JP5286162B2 publication Critical patent/JP5286162B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索条件とドキュメントとの適合度を示すスコアを用いてドキュメントを検索する情報検索サーバ、情報検索方法及び情報検索プログラムに関する。
ウェブサイトから情報を得るために検索サービスを利用することが当たり前になっている。このサービスを実行する検索サーバの中には、検索語に依存するスコア(検索語依存スコア)と検索語に依存しないスコア(検索語非依存スコア)とを予め記憶しておき、検索語が入力されると、それら二種類の検索スコアに基づくランキングスコアを算出し、高いランキングのドキュメントから優先して表示するものがある。
上記各検索スコアは、ドキュメントの内容に関するドキュメントパラメータ(ドキュメント由来素性)と、ドキュメントへのアクセスに関するログパラメータ(ログ由来素性)とに基づいて算出される。ドキュメントパラメータはドキュメントが更新されない限り同じ値を持ち続ける。このパラメータの例としては、ドキュメント長や出現リンク数などが挙げられる。これに対して、ログパラメータの値はアクセスログや検索ログの蓄積に応じて変動する。このパラメータの例としては、ページビュー数や平均閲覧時間などが上げられる。
上記のようにログパラメータの値は刻々と変わるので、検索スコアもそれに応じて随時更新する必要がある。しかし、検索サーバが扱うドキュメントは数千万から数百億もあるので、全ドキュメントに対して検索スコアを更新するとなると処理量が膨大になってしまい、検索処理に影響を及ぼす可能性がある。
このような問題を解決するためにいくつかの手法が提案されている。例えば下記特許文献1,2には、検索処理を停止させることなくデータベースを更新する手法が記載されている。具体的には、下記特許文献1に記載の検索装置は、データベース更新時のみ論理的な冗長回路構成を構築することで検索機能を継続的に実行する。一方、下記特許文献2に記載の検索装置は、データベース更新時には待機側のRAM(ランダムアクセスメモリ)に更新データを書き込み、待機側と運用側とを切り替える。この装置では、後段の検索処理回路の処理能力を前段の検索処理回路よりも上回るように設定することで、検索途中のデータが後段の検索処理回路に入力されない時間を作り、その間に上記切替処理を実行するようにしている。また、下記特許文献3には、検索処理に用いる索引情報をサーバで生成するクライアント・サーバ型の検索システムが記載されている。
特開2008−117300 特開2008−165616 特開2008−243147
しかしながら、上記特許文献1,2のような手法を採用した場合には、システム構成が複雑になる一方で、更新処理量は減るわけではない。また、上記特許文献3の手法は、処理能力の高いサーバで更新処理を委ねるというものであり、この場合も、更新処理量が減るわけではない。
本発明は上記課題を解決するためになされたものであり、ドキュメント検索に用いられる検索スコアの更新量を低減することが可能な情報検索サーバ、情報検索方法及び情報検索プログラムを提供することを目的とする。
本発明の情報検索サーバは、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、ドキュメントデータに対応する検索スコアを算出し、該検索スコアをスコアデータベースに記憶するスコア算出手段と、検索スコアの再計算をスコア算出手段に指示する指示手段と、を備え、スコア算出手段が、ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、ドキュメントデータに関する非ドキュメント情報を非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、ドキュメントパラメータ及び非ドキュメントパラメータに基づいて検索スコアを算出する第3算出手段と、を備え、指示手段が、各ドキュメントデータについて非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて検索スコアの再計算を指示する、ことを特徴とする。
また、本発明の情報検索方法は、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて該検索語に関連するドキュメントを検索する検索手段と、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースとを備える情報検索サーバ、により実行される情報検索方法であって、スコア算出手段が、ドキュメントデータに対応する検索スコアを算出し、該検索スコアをスコアデータベースに記憶するスコア算出ステップと、検索スコアの再計算をスコア算出手段に指示する指示ステップと、を含み、スコア算出ステップが、ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出ステップと、ドキュメントデータに関する非ドキュメント情報を非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出ステップと、ドキュメントパラメータ及び非ドキュメントパラメータに基づいて検索スコアを算出する第3算出ステップと、を含み、指示ステップでは、各ドキュメントデータについて非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて検索スコアの再計算を指示する、ことを特徴とする。
また、本発明の情報検索プログラムは、コンピュータを、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて該検索語に関連するドキュメントを検索する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、ドキュメントデータに対応する検索スコアを算出し、該検索スコアをスコアデータベースに記憶するスコア算出手段と、検索スコアの再計算をスコア算出手段に指示する指示手段と、して機能させ、スコア算出手段が、ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、ドキュメントデータに関する非ドキュメント情報を非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、ドキュメントパラメータ及び非ドキュメントパラメータに基づいて検索スコアを算出する第3算出手段と、を備え、指示手段が、各ドキュメントデータについて非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて検索スコアの再計算を指示する、ことを特徴とする。
このような情報検索サーバ、情報検索方法及び情報検索プログラムによれば、非ドキュメントパラメータの変動率が一定の水準以上のドキュメントデータについてのみ検索スコアが再計算されてスコアデータベースに記憶される。このように、非ドキュメントパラメータの変動が大きいドキュメントに限って更新処理を実行することで、検索スコアの更新量を低減することができる。
本発明の情報検索サーバでは、指示手段が、各ドキュメントデータについて算出した変動率をソートし、上位の所定の件数又は下位の所定の件数のドキュメントデータについて検索スコアの再計算を指示することが好ましい。
この場合、ドキュメント間の変動率の相対的な大小関係に基づいて一定数のドキュメントデータが選択されるので、抽出件数を一定にして検索スコアの再計算量を安定させることが可能になる。言い換えれば、非常に多くのドキュメントについて再計算が実行される状況を回避できる。
本発明の情報検索サーバでは、指示手段が、各ドキュメントデータについて、検索スコアを前回算出した時からの経過時間を算出し、該経過時間が所定の時間以上であるドキュメントデータについて検索スコアの再計算を指示することが好ましい。
この場合、前回スコアを算出した時からの経過時間も考慮されるので、非ドキュメントパラメータの変動がそれほど大きくなく一定期間スコアが更新されなかったドキュメントについても再計算処理が実行される。これにより、検索スコアの全体的な精度を高めることができる。
本発明の情報検索サーバは、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、ドキュメントデータに対応する検索スコアを算出し、該検索スコアをスコアデータベースに記憶するスコア算出手段と、検索スコアの再計算をスコア算出手段に指示する指示手段と、を備え、スコア算出手段が、ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、ドキュメントデータに関する非ドキュメント情報を非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、ドキュメントパラメータ及び非ドキュメントパラメータに基づいて検索スコアを算出する第3算出手段と、を備え、指示手段が、複数のドキュメントデータをドメイン又はディレクトリ毎に集約し、該ドメイン又はディレクトリ毎に非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドメイン又はディレクトリ内のドキュメントデータについて検索スコアの再計算を指示する、ことを特徴とする。
このような情報検索サーバによれば、非ドキュメントパラメータの変動率が一定の水準以上のドキュメントデータについてのみ検索スコアが再計算されてスコアデータベースに記憶される。このように、非ドキュメントパラメータの変動が大きいドキュメントに限って更新処理を実行することで、検索スコアの更新量を低減することができる。また、変動率はドメイン又はディレクトリ単位に算出されるので、再計算するドキュメントを抽出するために必要な計算量が低減される。その結果、処理時間を短縮することができる。
本発明の情報検索サーバでは、指示手段が、各ドメイン又は各ディレクトリから一つずつ選択したドキュメントデータ毎に変動率を算出し、該変動率が所定の水準以上であるドキュメントデータが所属するドメイン又はディレクトリ内のドキュメントデータについて検索スコアの再計算を指示することが好ましい。
この場合、変動率を算出するための処理量が更に低減されるので、処理時間をより短縮できる。
本発明の情報検索サーバは、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、ドキュメントデータに対応する検索スコアを算出し、該検索スコアをスコアデータベースに記憶するスコア算出手段と、検索スコアの再計算をスコア算出手段に指示する指示手段と、を備え、スコア算出手段が、ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、ドキュメントデータに関する非ドキュメント情報を非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、ドキュメントパラメータ及び非ドキュメントパラメータに基づいて検索スコアを算出する第3算出手段と、を備え、非ドキュメント情報が、ドキュメントデータと検索語とが関連付けられた情報であり、指示手段が、各検索語について非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上である検索語に関連付けられたドキュメントデータについて検索スコアの再計算を指示する、ことを特徴とする。
このような情報検索サーバによれば、非ドキュメントパラメータの変動率が一定の水準以上の検索語に関連するドキュメントデータについてのみ検索スコアが再計算されてスコアデータベースに記憶される。このように、非ドキュメントパラメータの変動が大きい検索語に関係するドキュメントに限って更新処理を実行することで、検索スコアの更新量を低減することができる。
本発明の情報検索サーバでは、検索スコアが、検索語に依存する依存スコアと検索語に依存しない非依存スコアとを含み、非ドキュメントパラメータが、検索語に依存する依存非ドキュメントパラメータと検索語に依存しない非依存非ドキュメントパラメータとを含み、指示手段が、依存非ドキュメントパラメータに関する変動率が所定の水準以上であるドキュメントデータについて依存スコアの再計算を指示し、非依存非ドキュメントパラメータに関する変動率が所定の水準以上であるドキュメントデータについて非依存スコアの再計算を指示することが好ましい。
この場合、検索語依存の非ドキュメントパラメータの変動が大きい場合には依存スコアのみが再計算され、検索語非依存の非ドキュメントパラメータの変動が大きい場合には非依存スコアのみが再計算されるので、検索スコアの再計算量を低減することができる。
本発明の情報検索サーバは、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、ドキュメントデータに対応する検索スコアを算出し、該検索スコアをスコアデータベースに記憶するスコア算出手段と、検索スコアの再計算をスコア算出手段に指示する指示手段と、を備え、スコア算出手段が、ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、ドキュメントデータに関する非ドキュメント情報を非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、ドキュメントパラメータに基づいてドキュメント由来の検索スコアを算出する第3算出手段と、非ドキュメントパラメータに基づいてログ由来の検索スコアを算出する第4算出手段と、を備え、指示手段が、各ドキュメントデータについて非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて、ドキュメント由来の検索スコアの再計算を指示することなく、ログ由来の検索スコアの再計算を指示する、ことを特徴とする。
このような情報検索サーバによれば、非ドキュメントパラメータの変動率が一定の水準以上のドキュメントデータについてのみ検索スコアが再計算されてスコアデータベースに記憶される。このように、非ドキュメントパラメータの変動が大きいドキュメントに限って更新処理を実行することで、検索スコアの更新量を低減することができる。また、非ドキュメントパラメータに基づく検索スコアのみを再計算すれば足り、ドキュメントパラメータに基づく再計算は行われないので、計算量を低減することができる。
本発明の情報検索サーバでは、ドキュメントデータをネットワークから収集してドキュメントデータベースに記憶する収集手段を更に備え、指示手段が、更に、変動率が所定の水準以上であるドキュメントデータの再収集を収集手段に指示することが好ましい。
この場合、非ドキュメントパラメータの変動率が一定の水準以上のドキュメントデータが再度ネットワークから収集されて記憶される。これにより、アクセス状況に一定以上の変化があったドキュメントデータを最新の状態に維持することができる。
このような情報検索サーバ、情報検索方法及び情報検索プログラムによれば、ドキュメントデータへのアクセスに関する非ドキュメントパラメータの変動が大きいドキュメントに限って検索スコアが更新されるので、検索スコアの更新量を低減することができる。
第1実施形態に係る情報検索サーバの機能構成を示す図である。 図1に示す情報検索サーバのハードウェア構成を示す図である。 図1に示すドキュメントデータベースに記憶されるウェブドキュメントデータの例を示す図である。 非ドキュメントデータベースに記憶される検索ログの例を示す図である。 非ドキュメントデータベースに記憶されるアクセスログの例を示す図である。 図1に示す依存スコアテーブルの構成例を示す図である。 図1に示す非依存スコアテーブルの構成例を示す図である。 図1に示す情報検索サーバの検索スコア算出処理を示すフローチャートである。 図1に示す情報検索サーバの再計算指示処理を示すフローチャートである。 第1実施形態に係る情報検索プログラムの構成を示す図である。 変形例1に係る再計算指示処理を示すフローチャートである。 変形例2に係る再計算指示処理を示すフローチャートである。 変形例3に係る再計算指示処理を示すフローチャートである。 変形例4に係る再計算指示処理を示すフローチャートである。 変形例5に係る再計算指示処理を示すフローチャートである。 変形例5に係る関連語データベースの構成例を示す図である。 第2実施形態に係る情報検索サーバの機能構成を示す図である。 第3実施形態に係る情報検索サーバの機能構成を示す図である。 図18に示す情報検索サーバの再実行指示処理を示すフローチャートである。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
(第1実施形態)
まず、図1〜7を用いて、第1実施形態に係る情報検索サーバ1の機能及び構成を説明する。
情報検索サーバ1は、ネットワーク(図示せず)を介してクライアント端末9から受信した検索語に関連するウェブドキュメントを抽出し、抽出されたドキュメントの情報を検索結果としてその端末9に返すコンピュータである。情報検索サーバ1は機能的構成要素としてドキュメントデータベース11、非ドキュメントデータベース12、スコア計算部13、スコアデータベース14、検索部15、及び指示部16を備えている。
この情報検索サーバ1は、図2に示すように、オペレーティングシステムやアプリケーションプログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、ハードディスクなどで構成される補助記憶部103と、ネットワークカードなどで構成される通信制御部104と、キーボードやマウスなどの入力部105と、モニタなどの出力部106とで構成される。情報検索サーバ1の各機能は、CPU101や主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104を動作させ、主記憶部102や補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻って、ドキュメントデータベース11は、ウェブドキュメントデータを記憶する部分である。ウェブドキュメントデータは、クローリングによりインターネットから収集されたデータであり、ドキュメントを識別するドキュメントIDと、ドキュメントのURL(Uniform Resource Locator)と、ドキュメント本文とを含んで構成されている。ウェブドキュメントデータの例を図3に示すが、データの構成はこれに限定されない。
非ドキュメントデータベース12は、ウェブドキュメントデータに関するログ情報等のドキュメント以外の情報(非ドキュメント情報)を記憶する部分である。具体的には、検索ログやアクセスログ、ユーザによる投票数などが非ドキュメントデータベース12に記憶される。本実施形態においては、非ドキュメントデータベース12は検索ログとアクセスログという二種類のログ情報を記憶する。
検索ログは、クライアント端末9から受信した検索要求や、検索結果に対するユーザのクリック操作などの記録であり、このような操作が実行される度に新しいレコードが追加される。検索ログのレコードは、日付、時刻、ユーザID、検索語、閲覧したウェブサイトのURLなどを含んで構成される。検索ログの例を図4に示すが、レコードの構成はこれに限定されない。
一方、アクセスログは、ウェブドキュメントへのアクセスの記録であり、アクセスが発生する度に新しいレコードが追加される。アクセスログのレコードは、日付、時刻、ユーザID、閲覧したウェブサイトのURLなどを含んで構成される。アクセスログの例を図5に示すが、レコードの構成はこれに限定されない。
スコア計算部13は、ウェブドキュメントデータに対応する検索スコアを算出する部分である。スコア計算部13は、検索語に依存するスコア(依存スコア)を算出する依存スコア計算部13aと、検索語に依存しないスコア(非依存スコア)を算出する非依存スコア計算部13bとを備えている。
依存スコア計算部13aは、ウェブドキュメントデータ及びログ情報に基づいて依存スコアを算出する部分である。
まず、依存スコア計算部13aは、ドキュメントデータベース11に記憶されている各ウェブドキュメントデータについて、そのデータで示されるドキュメントの内容に関するドキュメントパラメータ(ドキュメント由来素性)を算出する。具体的には、依存スコア計算部13aは、ドキュメントdにおける検索語qの出現回数TF(q,d)と、ドキュメントdにおける検索語qの出現位置POS(q,d)とを算出する。すなわち、依存スコア計算部13aは第1算出手段として機能する。なお、TF(q,d),POS(q,d)は、いずれも検索語に依存するパラメータである。
続いて、依存スコア計算部13aは、ドキュメントデータベース11に記憶されている各ウェブドキュメントデータについて、そのデータに対応するログ情報を非ドキュメントデータベース12から読み出し、そのログ情報に基づいて、ドキュメントへのアクセスに関するログパラメータ(ログ由来素性)を算出する。具体的には、依存スコア計算部13aは、検索語qに対する検索結果からドキュメントdが選択された回数CPV(q,d)と、検索語qに対する検索結果からドキュメントdを選択したユーザの数CUU(q,d)とを算出する。すなわち、依存スコア計算部13aは第2算出手段として機能する。なお、CPV(q,d),CUU(q,d)は、いずれも検索語に依存するパラメータである。
続いて、依存スコア計算部13aは、各ウェブドキュメントデータについて、下記式により依存スコアf(q,d)を算出する。
f(q,d)=
TF×TF(q,d)+wPOS×POS(q,d)
+wCPV×CPV(q,d)+wCUU×CUU(q,d)
ここで、wTF,wPOS,wCPV,wCUUは、それぞれTF(q,d),POS(q,d),CPV(q,d),CUU(q,d)の重み係数である。
依存スコア計算部13aは、上記のように算出した依存スコアf(q,d)をスコアデータベース14内の依存スコアテーブル14aに格納する。すなわち、依存スコア計算部13aは第3算出手段として機能する。
非依存スコア計算部13bは、ウェブドキュメントデータ及びログ情報に基づいて非依存スコアを算出する部分である。
まず、非依存スコア計算部13bは、ドキュメントデータベース11に記憶されている各ウェブドキュメントデータについてドキュメントパラメータを算出する。具体的には、非依存スコア計算部13bは、ドキュメントdのドキュメント長DL(d)、URL長UL(d)、及び出現リンク数NL(d)を算出する。すなわち、非依存スコア計算部13bは第1算出手段として機能する。なお、DL(d),UL(d),NL(d)は、いずれも検索語に依存しないパラメータである。
続いて、非依存スコア計算部13bは、ドキュメントデータベース11に記憶されている各ウェブドキュメントデータについて、そのデータに対応するログ情報を非ドキュメントデータベース12から読み出し、そのログ情報に基づいてログパラメータ(非ドキュメントパラメータ)を算出する。具体的には、非依存スコア計算部13bは、ドキュメントdの総ページビュー数PV(d)、閲覧者数UU(d)、及び平均閲覧時間DT(d)を算出する。すなわち、非依存スコア計算部13bは第2算出手段として機能する。ここで、PV(d),UU(d),DT(d)は、いずれも検索語に依存しないパラメータである。
続いて、非依存スコア計算部13bは、各ウェブドキュメントデータについて、下記式により非依存スコアg(d)を算出する。
g(d)=
DL×DL(d)+wUL×UL(d)+wNL×NL(d)
+wPV×PV(d)+wUU×UU(d)+wDT×DT(d)
ここで、wDL,wUL,wNL,wPV,wUU,wDTは、それぞれDL(d),UL(d),NL(d),PV(d),UU(d),DT(d)の重み係数である。
非依存スコア計算部13bは、上記のように算出した非依存スコアg(d)をスコアデータベース14内の非依存スコアテーブル14bに格納する。すなわち、非依存スコア計算部13bは第3算出手段として機能する。
後述する指示部16から再計算リストが入力された場合には、依存スコア計算部13a及び非依存スコア計算部13bは、そのリストに含まれているドキュメントに限って、上記と同様に依存スコア及び非依存スコアを算出し、スコアデータベース14を更新する。
スコアデータベース14は、スコア計算部13により算出された検索スコアを記憶する部分である。スコアデータベース14は、依存スコアを記憶する依存スコアテーブル14aと、非依存スコアを記憶する非依存スコアテーブル14bとを備えている。
図6に示すように、依存スコアテーブル14aは、一つの検索語qに対して、ドキュメントID及び依存スコアf(q,d)から成る組が1個以上関連付けられたレコードを保持する。図6では、例えば検索語「ニュース」に対して、ドキュメントID「DOC01235」及び依存スコア「0.3」の組と、ドキュメントID「DOC01237」及び依存スコア「0.1」の組とが関連付けられている。
これに対して非依存スコアテーブル14bは、図7に示すように、ドキュメントIDと非依存スコアg(d)とが関連付けられたレコードを保持する。
検索部15は、クライアント端末9から受信した検索語とスコアデータベース14内の検索スコアとに基づいて、その検索語に関連するドキュメントを検索する部分である。
具体的には、検索部15は入力された検索語qに関連する各ドキュメントdの依存スコアf(q,d)を依存スコアテーブル14aから読み出す。続いて、検索部15はその各ドキュメントdの非依存スコアg(d)を非依存スコアテーブル14bから読み出す。続いて、検索部15は各ドキュメントdについてランキングスコアR(q,d)を下記式により算出する。
R(q,d)=w×f(q,d)+w×g(d)
ここで、w,wは、それぞれf(q,d),g(d)の重み係数である。
続いて、検索部15はランキングスコアの高い順にドキュメントをソートし、上位N件(例えば10件)のドキュメントに関する情報を検索結果としてクライアント端末9に送信する。これにより、クライアント端末9のユーザは検索語と関連の強いドキュメントにアクセスすることができる。
指示部16は、ログパラメータの変動が大きいドキュメントについて、その検索スコアの再計算をスコア計算部13に指示する部分である。
本実施形態では、ドキュメントdの総ページビュー数PV(d)と、検索語qの検索結果からドキュメントdが選択された回数CPV(q,d)の変動率とに基づいて再計算を指示する場合を説明する。もっとも、変動率を求めるログパラメータはこれに限定されない。
まず、指示部16は、所定のタイミング(例えば所定の時刻、所定の時間間隔など)で非ドキュメントデータベース12からログ情報を読み出し、その情報に基づいて各ドキュメントdのPV(d)及びCPV(q,d)を算出し保持する。
続いて、指示部16は、ドキュメント毎に、以前に算出し保持しているログパラメータPVprev(d),CPVprev(q,d)に対するPV(d),CPV(q,d)の変動率VPV(d),VCPV(q,d)を下記二つの式により算出する。なお、PVprev(d),CPVprev(q,d)は第1のタイミング(該ドキュメントについて前回再計算を指示した時)で算出されたパラメータであり、PV(d),CPV(q,d)は第2のタイミング(今回)で算出されたパラメータであるといえる。
PV(d)=PV(d)/PVprev(d)
CPV(q,d)=CPV(q,d)/CPVprev(q,d)
なお、変動率VPV(d),VCPV(q,d)の算出方法はこれに限定されない。例えば過去のある一定期間のPV(d),CPV(q,d)の平均値や、過去のある一定期間の加重平均した平均値からの変動率などを算出してもよい。
続いて、指示部16は、変動率VPV(d),VCPV(q,d)のいずれかが閾値Vmax(例えばVmax=2)よりも大きい、又は閾値Vmin(たとえばVmin=1/2)よりも小さいか否かを判定する。そして、少なくとも一つの変動率がその条件を満たせば、指示部16は変動率が所定の水準以上であると判定し、そのドキュメントdの検索スコアを再計算すると決定する。このとき、指示部16はそのドキュメントdを再計算リストに保存するとともに、そのドキュメントdのログパラメータPV(d),CPV(q,d)をPVprev(d),CPVprev(q,d)として保持する。一方、どの変動率も閾値Vmax,Vminの条件を満たさなければ、指示部16は変動率が所定の水準未満であると判定し、再計算は不要であると決定する。
指示部16は各ドキュメントについて上記のような変動率の判定を行う。そして、一以上のドキュメントdを含む再計算リストが生成された場合には、指示部16はそのリストをスコア計算部13に出力する。上述したように、スコア計算部13はそのリストに基づいて一部のドキュメントの検索スコアを再計算し更新する。
次に、図8,9を用いて、図1に示す情報検索サーバ1の動作を説明するとともに本実施形態に係る情報検索方法について説明する。
図8を用いて、検索スコアを算出する処理(スコア算出ステップ)を説明する。この処理はスコア計算部13により実行される。
依存スコア計算部13aは、まず、ドキュメントデータベース11から処理対象のウェブドキュメントデータを読み出し、各データについてドキュメントパラメータTF(q,d),POS(q,d)を算出する(ステップS11、第1算出ステップ)。続いて、依存スコア計算部13aは、処理対象の各ウェブドキュメントデータについて、対応するログ情報を非ドキュメントデータベース12から読み出し、そのログ情報に基づいてログパラメータCPV(q,d),CUU(q,d)を算出する(ステップS12、第2算出ステップ)。続いて、依存スコア計算部13aはそれらドキュメントパラメータ及びログパラメータに基づいて依存スコアf(q,d)を算出し(ステップS13、第3算出ステップ)、算出結果を依存スコアテーブル14aに格納する(ステップS14)。
一方、非依存スコア計算部13bは、まず、ドキュメントデータベース11から処理対象のウェブドキュメントデータを読み出し、各データについてドキュメントパラメータDL(d),UL(d),NL(d)を算出する(ステップS15、第1算出ステップ)。続いて、非依存スコア計算部13bは、処理対象の各ウェブドキュメントデータについて、対応するログ情報を非ドキュメントデータベース12から読み出し、そのログ情報に基づいてログパラメータPV(d),UU(d),DT(d)を算出する(ステップS16、第2算出ステップ)。続いて、非依存スコア計算部13bはそれらドキュメントパラメータ及びログパラメータに基づいて非依存スコアg(q,d)を算出し(ステップS17、第3算出ステップ)、算出結果を非依存スコアテーブル14bに格納する(ステップS18)。
以上の処理により、検索部15がドキュメント検索の際に用いる二種類の検索スコアがスコアデータベース14に記憶される。
次に、図9を用いて検索スコアの再計算を指示する処理(指示ステップ)を説明する。
指示部16は、まずドキュメントdのログパラメータPV(d),CPV(q,d)を算出する(ステップS21)。続いて、指示部16は前回算出したログパラメータPVprev(d),CPVprev(q,d)に対するPV(d),CPV(q,d)の変動率VPV(d),VCPV(q,d)を算出する(ステップS22)。続いて、指示部16は、算出した変動率のいずれかが所定の水準以上であるか否かを判定し(ステップS23)、もし水準を満たしていれば(ステップS23;YES)そのドキュメントdを再計算リストに保存する(ステップS24)。
指示部16は、非ドキュメントデータベースに記録されているログ情報に対応するすべてのドキュメントについてステップS21〜S24の処理を行う。そして、すべての処理が終了したら(ステップS25;YES)、指示部16は再計算リストをスコア計算部13に出力する(ステップS26)。これにより、リスト内の各ドキュメントについて、図8に示す算出処理が実行される。
次に、図10を用いて、コンピュータを上記情報検索サーバ1として機能させるための情報検索プログラムを説明する。
情報検索プログラムP1は、メインモジュールP10、ドキュメント記憶モジュールP11、非ドキュメント記憶モジュールP12、スコア計算モジュールP13、スコア記憶モジュールP14、検索モジュールP15、及び指示モジュールP16を備えている。メインモジュールP10は、情報検索処理を統括的に制御する部分である。スコア計算モジュールP13は、依存スコア計算モジュールP13a及び非依存スコア計算モジュールP13bを備えている。また、スコア記憶モジュールP14は、依存スコア記憶モジュールP14a及び非依存スコア記憶モジュールP14bを備えている。
ドキュメント記憶モジュールP11、非ドキュメント記憶モジュールP12、スコア計算モジュールP13(依存スコア計算モジュールP13a,非依存スコア計算モジュールP13b)、スコア記憶モジュールP14(依存スコア記憶モジュールP14a,非依存スコア記憶モジュールP14b)、検索モジュールP15、及び指示モジュールP16を実行させることにより実現される機能は、情報検索サーバ1のドキュメントデータベース11、非ドキュメントデータベース12、スコア計算部13(依存スコア計算部13a,非依存スコア計算部13b)、スコアデータベース14(依存スコアテーブル14a,非依存スコアテーブル14b)、検索部15、及び指示部16の機能とそれぞれ同様である。
情報検索プログラムP1は、例えば、CD−ROM、DVDもしくはROM等の記憶媒体または半導体メモリによって提供される。また、情報検索プログラムP1は、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。
以上説明したように、本実施形態によれば、ログパラメータの変動率が一定の水準以上のドキュメントデータについてのみ検索スコアが算出されてスコアデータベース14に記憶される。このように、ログパラメータの変動が大きいドキュメントに限って更新処理を実行することで、検索スコアの更新量を低減することができる。
上記第1実施形態に対しては以下のような様々な変形が可能である。
(変形例1)
上記第1実施形態では2個の閾値Vmax,Vminを用いて再計算の要否を判定したが、ドキュメント間の変動率の大小関係に基づいて再計算するドキュメントを決定してもよい。このような処理を図11を用いて説明する。
指示部16は、まず第1実施形態と同様に各ドキュメントについて変動率VPV(d)およびVCPV(q,d)を算出する(ステップS31)。
続いて、指示部16は変動率VPV(d)を大きい順に並び替え、上位NPV件のドキュメント(VPV(d)が相対的に大きいドキュメント)と、下位NPV件のドキュメント(VPV(d)が相対的に小さいドキュメント)とを再計算リストに入れる(ステップS32)。続いて、指示部16は変動率VCPV(q,d)についても同様の並べ替えを行い、上位NCPV件および下位NCPV件のドキュメントを再計算リストに保存する(ステップS33)。すなわち、この変形例では値NPV,NCPVが「所定の水準」を示す値となる。
続いて、指示部16は保存したドキュメントのログパラメータPV(d),CPV(q,d)をPVprev(d),CPVprev(q,d)として保持する。そして最後に、指示部16は再計算リストをスコア計算部13に出力する(ステップS34)。
この場合、変動率が一定水準以上のドキュメントの抽出件数が一定になるので、検索スコアの再計算量を安定させることが可能になる。言い換えれば、非常に多くのドキュメントについて再計算が実行される状況を回避できる。
(変形例2)
上記第1実施形態では、依存スコアf(q,d)及び非依存スコアg(d)を再計算したが、検索語依存のログパラメータの変動が大きい場合には依存スコアf(q,d)のみを再計算し、検索語非依存のログパラメータの変動が大きい場合には非依存スコアg(d)のみを再計算してもよい。このような処理を図12を用いて説明する。
指示部16は、まず第1実施形態と同様に各ドキュメントについて変動率VPV(d)およびVCPV(q,d)を算出する(ステップS41)。
続いて、指示部16は変動率VPV(d)を大きい順に並び替え、上位NPV件及び下位NPV件のドキュメントを、依存スコア再計算リストに入れる(ステップS42)。続いて、指示部16は変動率VCPV(q,d)についても同様の並べ替えを行い、上位NCPV件および下位NCPV件のドキュメントを非依存スコア再計算リストに保存する(ステップS43)。依存スコア再計算リストは、依存スコア計算部13aのみに再計算を指示するための情報であり、非依存スコア再計算リストは、非依存スコア計算部13bのみに再計算を指示するための情報である。
続いて、指示部16は少なくとも一つのリストに保存したドキュメントのログパラメータPV(d),CPV(q,d)をPVprev(d),CPVprev(q,d)として保持する。そして最後に、指示部16は二種類のリストをスコア計算部13に出力する(ステップS44)。
スコア計算部13では、依存スコア計算部13aが依存スコア再計算リスト内のドキュメントに対して依存スコアf(q,d)を算出し、非依存スコア計算部13bが非依存スコア再計算リスト内のドキュメントに対して非依存スコアg(d)を算出する。
この場合、検索語依存のログパラメータの変動が大きい場合には依存スコアのみが再計算され、検索語非依存のログパラメータの変動が大きい場合には非依存スコアのみが再計算されるので、再計算量を低減することができる。
(変形例3)
指示部16は、変動率だけでなく、前回検索スコアを算出した時からの経過時間も考慮して、再計算するドキュメントを決定してもよい。このような処理を図13を用いて説明する。
指示部16は、まず第1実施形態と同様に変動率VPV(d)およびVCPV(q,d)を算出する(ステップS51)。加えて、指示部16は前回検索スコアを算出した時からの経過時間T(d)を下記式により算出する(ステップS52)。
T(d)=CTIME−TPREV(d)
ここで、CTIMEは現在時刻、TPREV(d)は前回の算出時刻である。
続いて、指示部16は、変動率VPV(d)又はVCPV(q,d)が所定の水準(例えば、閾値Vmin,Vmaxに基づく条件や、順位NCPV,NCPVに基づく条件)を満たすか、またはT(d)が所定の閾値Tmax(例えばTmax=1週間)以上である場合に(ステップS53;YES)、当該ドキュメントdを再計算リストに保存する(ステップS54)。また、指示部16はそのリストに保存したドキュメントに関する値CTIMEをTPREV(d)として保持する。全ドキュメントについて上記処理を行った後に(ステップS55;YES)、指示部16は再計算リストをスコア計算部13に出力する(ステップS56)。
この場合、前回スコアを算出した時からの経過時間も考慮されるので、ログパラメータの変動がそれほど大きくなく一定期間スコアが更新されなかったドキュメントについても再計算処理が実行される。これにより、検索スコアの全体的な精度を高めることができる。
なお、経過時間を用いる場合には、ログパラメータ及び経過時間を総合的に考慮して再計算の緊急度EM(d)を下記式により算出し、緊急度の高い上位一定数のドキュメントを再計算するようにしてもよい。
EM(d)=wVpv×VPV(d)+wVcpv×max(VCPV(q,d))
+w*T(d)
ここでmax(VCPV(q,d))は、全検索語qに対して最大値となるVCPV(q,d)である。また、wVpv、wVcpv、wは、それぞれVPV(d),max(VCPV(q,d)),T(d)に対する重み係数である。
(変形例4)
上記第1実施形態では各ドキュメントについて再計算の要否を判定したが、ドキュメントの所定の集約単位(例えばドメイン単位)でログパラメータを算出し、そのパラメータの変動が大きい場合にそのドメイン下の各ドキュメントの検索スコアを再計算してもよい。このような処理を図14を用いて説明する。
指示部16は、まず非ドキュメントデータベース12内のログ情報に基づいて一以上のドメインDを抽出する(ステップS61)。ドメインDはURLの完全修飾ドメイン名の部分で表される。例えばURL「http://www.A-company.co.jp/abc/xyz/index.html」のドメインは「www.A-company.co.jp」である。
続いて、指示部16は各ドメインDのページビュー数PV(D)を算出し、前回算出したページビュー数PVPREV(D)に対する今回のPV(D)の変動率VPV(D)を下記式により算出する(ステップS62)。
PV(D)=PV(D)/PVprev(D)
続いて、指示部16は変動率VPV(D)の大きい順にドメインDを並べ替え、上位NPV件のドメインDを抽出し(ステップS63)、抽出したドメインD下の全ドキュメントに関する情報を再計算リストに保存する(ステップS64)。また、指示部16は抽出したドメインDのパラメータPV(D)をPVprev(D)に格納する。最後に、指示部16は再計算リストをスコア計算部13に出力する(ステップS65)。
この場合には、ドキュメント単位ではなく、一又は複数のドキュメントが属するドメイン単位にログパラメータ及び変動率が算出されるので、再計算するドキュメントを抽出するために必要な計算量が低減される。その結果、処理時間を短縮することができる。
なお、ドキュメントを集約する単位はドメインに限定されない。例えば、ディレクトリ単位にページビュー数を集計してもよい。URLが「http://www.A-company.co.jp/abc/xyz/index.html」であれば、ディレクトリは、「http://www.A-company.co.jp/」、「http://www.A-company.co.jp/abc/」、又は「http://www.A-company.co.jp/abc/xyz/」のいずれかである。ディレクトリ毎に処理することで、ドメイン単位で処理する場合よりも変動率を細かく監視できる。処理単位であるディレクトリの階層は任意に決定してよい。
また、指示部16は、ドメインD毎に1個の代表ドキュメントdrを予め決めておき、代表ドキュメントdrの変動率VPV(dr)が所定の水準以上である場合に、ドメインD下の全ドキュメントについての再計算を指示してもよい。例えば、ドメインD内で最も閲覧数が多いドキュメントやURL長が最も短いドキュメントを代表ドキュメントdrとすることが考えられるが、代表ドキュメントの決定方法はこれに限定されない。この場合には、変動率を算出するための処理量が更に低減されるので、処理時間をより短縮できる。
また、指示部16は、まず変動が大きいドメインDを抽出し、その後、抽出された各ドメインについてドキュメントd毎の変動率を算出し、変動が大きいドキュメントに限って再計算を指示してもよい。
(変形例5)
指示部16は、検索語qに関する変動率を算出し、変動の大きい検索語に関連するドキュメントdについてスコアの再計算を指示してもよい。このような処理を図15を用いて説明する。
まず、指示部16は非ドキュメントデータベース12内のログ情報に基づいて各検索語qの検索数PV(q)を算出する(ステップS71)。続いて、指示部16は各検索語qについて検索数の変動率VPV(q)を下記式により算出する。
PV(q)=PV(q)/PVprev(q)
ここで、PVprev(q)は前回算出し保持している検索語qの検索数である。
続いて、指示部16は変動率VPV(q)が閾値Vmax以上である検索語qを保持し(ステップS73)、その検索語qの検索数PV(q)をPVprev(q)に格納する。
続いて、指示部16は保持している検索語qに関連するドキュメントdを依存スコアテーブル14aから読み出し、そのドキュメントdを再計算リストに入れる(ステップS74)。そして最後に、指示部16は再計算リストをスコア計算部13に出力する(ステップS75)。
この場合には、検索数が急上昇した検索語に関連するドキュメントの検索スコアが更新されるので、ユーザの注目度が高いドキュメントの検索スコアの精度を高めることができる。
なお、検索数の変動率を用いる処理はこれに限定されない。例えば指示部16は、変動率の高い検索語qを抽出した後に、その検索語の検索結果から選択及び閲覧されたドキュメントdを非ドキュメントデータベース12から抽出し、そのドキュメントについて再計算を指示してもよい。また、指示部16は検索語qに関連するドキュメントdを依存スコアテーブル14a及び非ドキュメントデータベース12から抽出し、そのドキュメントについて再計算を指示してもよい。
また、指示部16は、図16に示すような関連語テーブルを用いて再計算対象のドキュメントを決定してもよい。関連語テーブルは、情報検索サーバ1の所定の記憶手段に設けられており、検索語qと、その語qについての一以上の関連語rqとが関連付けられたレコードを記憶している。指示部16は上記のように変動率の高い検索語qを抽出した後に、その検索語に対応する関連語rqを関連語テーブルから読み出す。続いて、指示部16は抽出した検索語q及び関連語rqに関連するドキュメントdを依存スコアテーブル14a又は非ドキュメントデータベース12から抽出し、そのドキュメントについて再計算を指示する。例えば、検索語「単語A」が抽出された場合には、指示部16は「単語A」を含むドキュメントだけでなく、関連語「単語A1」、「単語A2」、「単語A3」のいずれかを含むドキュメントについても再計算リストに入れる(図16参照)。
(第2実施形態)
次に、図17を用いて、第2実施形態に係る情報検索サーバ2を説明する。情報検索サーバ2は機能的構成要素としてドキュメントデータベース11、非ドキュメントデータベース12、スコア計算部21、スコアデータベース22、検索部23及び指示部16を備えている。情報検索サーバ2は、第1実施形態における情報検索サーバ1と比較して、主に検索スコアの算出及びドキュメント検索に関する処理手順が異なる。以下では第1実施形態と異なる点について説明する。
スコア計算部21は、ドキュメント由来依存スコア計算部21a、ドキュメント由来非依存スコア計算部21b、ログ由来依存スコア計算部21c、ログ由来非依存スコア計算部21dを備えている。
ドキュメント由来依存スコア計算部21aは、ドキュメントデータベース11内のウェブドキュメントデータに基づいて依存スコアを算出する部分である。具体的には、ドキュメント由来依存スコア計算部21aはドキュメントdにおける検索語qの出現回数TF(q,d)と、ドキュメントdにおける検索語qの出現位置POS(q,d)とを算出する。続いて、ドキュメント由来依存スコア計算部21aはこれらのドキュメントパラメータに基づいて下記式により依存スコアf(q,d)を算出する。
(q,d)=wTF×TF(q,d)+wPOS×POS(q,d)
ここで、wTF,wPOSは、それぞれTF(q,d),POS(q,d)の重み係数である。
そして、ドキュメント由来依存スコア計算部21aは算出した依存スコアf(q,d)をドキュメント由来依存スコアテーブル22aに格納する。
ドキュメント由来非依存スコア計算部21bは、ドキュメントデータベース11内のウェブドキュメントデータに基づいて非依存スコアを算出する部分である。具体的には、ドキュメント由来非依存スコア計算部21bはドキュメントdのドキュメント長DL(d)、URL長UL(d)、及び出現リンク数NL(d)を算出する。続いて、ドキュメント由来非依存スコア計算部21bはこれらのドキュメントパラメータに基づいて下記式により非依存スコアg(d)を算出する。
(d)=wDL×DL(d)+wUL×UL(d)+wNL×NL(d)
ここでwDL,wUL,wNLは、それぞれDL(d),UL(d),NL(d)の重み係数である。
そして、ドキュメント由来非依存スコア計算部21bは算出した非依存スコア値g(d)をドキュメント由来非依存スコアテーブル22bに格納する。
ログ由来依存スコア計算部21cは、非ドキュメントデータベース12内のログ情報に基づいて依存スコアを算出する部分である。具体的には、ログ由来依存スコア計算部21cは、検索語qの検索結果からドキュメントdが選択された回数CPV(q,d)と、検索語qの検索結果からドキュメントdを選択したユーザ数CUU(q,d)とを算出する。続いて、ログ由来依存スコア計算部21cはこれらのログパラメータに基づいて下記式により依存スコアf(q,d)を算出する。
(q,d)=wCPV×CPV(q,d)+wCUU×CUU(q,d)
ここでwCPV、wCUUは、それぞれCPV(q,d),CUU(q,d)の重み係数である。
そして、ログ由来依存スコア計算部21cは算出した依存スコアf(q,d)をログ由来依存スコアテーブル22cに格納する。
ログ由来非依存スコア計算部21dは、非ドキュメントデータベース12内のログ情報に基づいて非依存スコアを算出する部分である。具体的には、ログ由来非依存スコア計算部21dは、ドキュメントdの総ページビュー数PV(d)、閲覧者数UU(d)、及び平均閲覧時間DT(d)を算出する。続いて、ログ由来非依存スコア計算部21dはこれらのログパラメータに基づいて下記式により非依存スコアg(d)を算出する。
(d)=wPV×PV(d)+wUU×UU(d)+wDT×DT(d)
ここでwPV、wUU、wDTは、それぞれPV(d),UU(d),DT(d)の重み係数である。
そして、ログ由来非依存スコア計算部21dは算出した非依存スコア値g(d)をログ由来非依存スコアテーブル22dに格納する。
スコアデータベース22は、スコア計算部21により算出された検索スコアを記憶する部分である。スコアデータベース22は、ドキュメント由来依存スコアテーブル22a、ドキュメント由来非依存スコアテーブル22b、ログ由来依存スコアテーブル22c、及びログ由来非依存スコアテーブル22dを備えている。ドキュメント由来依存スコアテーブル22a及びログ由来依存スコアテーブル22cの構成は図6に示すものと同様であり、ドキュメント由来非依存スコアテーブル22b及びログ由来非依存スコアテーブル22dの構成は図7に示すものと同様である。
検索部23は、受信した検索語に対して下記処理を実行することで検索結果をクライアント端末9に送信する。すなわち、検索部23は入力された検索語qに関連する依存スコアf(q,d)及びf(q,d)をドキュメント由来依存スコアテーブル22a及びログ由来依存スコアテーブル22cからそれぞれ読み出す。続いて、検索部23は読み出したf(q,d),f(q,d)に対応するドキュメントdの非依存スコアg(d)及びg(d)をドキュメント由来非依存スコアテーブル22b及びログ由来非依存スコアテーブル22dからそれぞれ読み出す。
続いて、検索部23はこれらの検索スコアに基づいて下記式により各ドキュメントdのランキングスコアR’(q,d)を算出する。
R’(q,d)=wfd×f(q,d)+wgd×g(d)
+wfl×f(q,d)+wgl×g(d)
ここで、wfd,wgd,wfl,wglは、それぞれf(q,d),g(d),f(q,d),g(d)の重み付け係数である。
続いて、検索部23はランキングスコアの高い順にドキュメントdを並べ替え、上位N件(例えばN=10)を検索結果としてクライアント端末9に送信する。
指示部16の機能は上記第1実施形態又は上記各変形例と同様である。ただし、指示部16はログパラメータに基づいて検索スコアを算出するログ由来依存スコア計算部21c及びログ由来非依存スコア計算部21dに対してのみ再計算を要求することに注意されたい。
以上説明したように、本実施形態によれば、ログパラメータに基づく検索スコアのみを再計算すれば足り、ドキュメントパラメータに基づく再計算は行われない。これにより、計算量を低減することができる。
(第3実施形態)
次に、図18を用いて、第3実施形態に係る情報検索サーバ3を説明する。情報検索サーバ3は機能的構成要素としてドキュメントデータベース11、非ドキュメントデータベース12、スコア計算部13、スコアデータベース14、検索部15、クローラ31、及び指示部32を備えている。情報検索サーバ3は、第1実施形態における情報検索サーバ1と比較して、スコア計算部13だけでなくクローラ31にも再実行を指示する点が異なる。以下では第1実施形態と異なる点について説明する。
クローラ31は、インターネット上からドキュメントデータを収集(クローリング)する部分である。クローラ31は収集したドキュメントデータをドキュメントデータベース11に格納する。
指示部32は、ログパラメータの変動が大きいドキュメントについて、その検索スコアの再計算をスコア計算部13に指示するとともにクローリングの再実行をクローラ31に指示する部分である。この処理について、図19を参照しながら具体的に説明する。
まず、指示部32は非ドキュメントデータベース12内のログ情報に基づいて各ドキュメントの総ページビュー数PV(d)を算出し、その変動率VPV(d)を下記式により算出する(ステップS81)。
PV(d)=PV(d)/PVprev(d)
ここで、PVprev(d)は前回算出し保持している総ページビュー数である。
続いて、指示部32は変動率VPV(d)の大きい順にドキュメントdを並べ替え(ステップS82)、上位Ncr件(例えばNcr=10万)のドキュメントに関する情報をクロールリストに保存する(ステップS83)。また、指示部32は上位Npv件及び下位Npv件(例えばNpv=100万)のドキュメントに関する情報を再計算リストに保存する(ステップS84)。また、指示部32は、再計算リスト内のドキュメントについて、今回算出したPV(d)をPVprev(d)に格納する。最後に、指示部32はクロールリストをクローラ31に出力すると共に、再計算リストをスコア計算部13に出力することで、再計算及びクローリングを指示する(ステップS85)。
以上説明したように、本実施形態によれば、上記第1実施形態で説明した効果を得ることができると共に、ドキュメントの内容が変更されて閲覧数が急上昇したドキュメントについてそのデータが収集される。これにより、アクセス状況に一定以上の変化があったドキュメントを最新の状態に維持することができる。
なお、本実施形態では、ログパラメータとして総ページビュー数PV(d)のみを算出したが、用いるパラメータはこれに限定されない。例えば、指示部32は、検索結果に対する閲覧数CPV(d)、ドメインD単位でのページビュー数PV(D)、検索語qの検索数PV(q)などの他のパラメータに基づいて、クロールすべきドキュメントを選択してもよい。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記各実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で以下のような様々な変形が可能である。
上記検索スコア及びランキングスコアの算出方法は一例に過ぎず、様々な変形が可能である。例えば、上記とは異なるドキュメントパラメータ又はログパラメータを組み合わせて検索スコアを算出したり、上記とは異なる方法で算出された検索スコアに基づいてランキングスコアを算出したりしてもよい。
1,2,3…情報検索サーバ、11…ドキュメントデータベース、12…非ドキュメントデータベース、13,21…スコア計算部(スコア算出手段)、14,22…スコアデータベース、15,23…検索部(検索手段)、16,32…指示部(指示手段)、31…クローラ(収集手段)、P1…情報検索プログラム、P10…メインモジュール、P11…ドキュメント記憶モジュール、P12…非ドキュメント記憶モジュール、P13…スコア計算モジュール、P14…スコア記憶モジュール、P15…検索モジュール、P16…指示モジュール。

Claims (11)

  1. 入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、
    複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、
    前記ドキュメントデータに対応する前記検索スコアを算出し、該検索スコアを前記スコアデータベースに記憶するスコア算出手段と、
    前記検索スコアの再計算を前記スコア算出手段に指示する指示手段と、
    を備え、
    前記スコア算出手段が、
    前記ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、
    前記ドキュメントデータに関する非ドキュメント情報を前記非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、
    前記ドキュメントパラメータ及び前記非ドキュメントパラメータに基づいて前記検索スコアを算出する第3算出手段と、
    を備え、
    前記指示手段が、前記各ドキュメントデータについて前記非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする情報検索サーバ。
  2. 前記指示手段が、前記各ドキュメントデータについて算出した前記変動率をソートし、上位の所定の件数又は下位の所定の件数のドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする請求項1に記載の情報検索サーバ。
  3. 前記指示手段が、前記各ドキュメントデータについて、前記検索スコアを前回算出した時からの経過時間を算出し、該経過時間が所定の時間以上であるドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする請求項1又は2に記載の情報検索サーバ。
  4. 入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、
    複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、
    前記ドキュメントデータに対応する前記検索スコアを算出し、該検索スコアを前記スコアデータベースに記憶するスコア算出手段と、
    前記検索スコアの再計算を前記スコア算出手段に指示する指示手段と、
    を備え、
    前記スコア算出手段が、
    前記ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、
    前記ドキュメントデータに関する非ドキュメント情報を前記非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、
    前記ドキュメントパラメータ及び前記非ドキュメントパラメータに基づいて前記検索スコアを算出する第3算出手段と、
    を備え、
    前記指示手段が、前記複数のドキュメントデータをドメイン又はディレクトリ毎に集約し、該ドメイン又はディレクトリ毎に前記非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドメイン又はディレクトリ内のドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする情報検索サーバ。
  5. 前記指示手段が、前記各ドメイン又は前記各ディレクトリから一つずつ選択したドキュメントデータ毎に前記変動率を算出し、該変動率が所定の水準以上であるドキュメントデータが所属する前記ドメイン又は前記ディレクトリ内のドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする請求項4に記載の情報検索サーバ。
  6. 入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、
    複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、
    前記ドキュメントデータに対応する前記検索スコアを算出し、該検索スコアを前記スコアデータベースに記憶するスコア算出手段と、
    前記検索スコアの再計算を前記スコア算出手段に指示する指示手段と、
    を備え、
    前記スコア算出手段が、
    前記ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、
    前記ドキュメントデータに関する非ドキュメント情報を前記非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、
    前記ドキュメントパラメータ及び前記非ドキュメントパラメータに基づいて前記検索スコアを算出する第3算出手段と、
    を備え、
    前記非ドキュメント情報が、前記ドキュメントデータと前記検索語とが関連付けられた情報であり、
    前記指示手段が、前記各検索語について前記非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上である検索語に関連付けられたドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする情報検索サーバ。
  7. 前記検索スコアが、検索語に依存する依存スコアと検索語に依存しない非依存スコアとを含み、
    前記非ドキュメントパラメータが、検索語に依存する依存非ドキュメントパラメータと検索語に依存しない非依存非ドキュメントパラメータとを含み、
    前記指示手段が、前記依存非ドキュメントパラメータに関する前記変動率が所定の水準以上であるドキュメントデータについて前記依存スコアの再計算を指示し、前記非依存非ドキュメントパラメータに関する前記変動率が所定の水準以上であるドキュメントデータについて前記非依存スコアの再計算を指示する、
    ことを特徴とする請求項1又は2に記載の情報検索サーバ。
  8. 入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて、該検索語に関連するドキュメントを検索する情報検索サーバであって、
    複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、
    前記ドキュメントデータに対応する前記検索スコアを算出し、該検索スコアを前記スコアデータベースに記憶するスコア算出手段と、
    前記検索スコアの再計算を前記スコア算出手段に指示する指示手段と、
    を備え、
    前記スコア算出手段が、
    前記ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、
    前記ドキュメントデータに関する非ドキュメント情報を前記非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、
    前記ドキュメントパラメータに基づいてドキュメント由来の検索スコアを算出する第3算出手段と、
    前記非ドキュメントパラメータに基づいてログ由来の検索スコアを算出する第4算出手段と、
    を備え、
    前記指示手段が、前記各ドキュメントデータについて前記非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて、前記ドキュメント由来の検索スコアの再計算を指示することなく、前記ログ由来の検索スコアの再計算を指示する、
    ことを特徴とする情報検索サーバ。
  9. 前記ドキュメントデータをネットワークから収集してドキュメントデータベースに記憶する収集手段を更に備え、
    前記指示手段が、更に、前記変動率が所定の水準以上であるドキュメントデータの再収集を前記収集手段に指示する、
    ことを特徴とする請求項1又は2に記載の情報検索サーバ。
  10. 入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて該検索語に関連するドキュメントを検索する検索手段と、複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースとを備える情報検索サーバ、により実行される情報検索方法であって、
    スコア算出手段が、前記ドキュメントデータに対応する前記検索スコアを算出し、該検索スコアを前記スコアデータベースに記憶するスコア算出ステップと、
    前記検索スコアの再計算を前記スコア算出手段に指示する指示ステップと、
    を含み、
    前記スコア算出ステップが、
    前記ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出ステップと、
    前記ドキュメントデータに関する非ドキュメント情報を前記非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出ステップと、
    前記ドキュメントパラメータ及び前記非ドキュメントパラメータに基づいて前記検索スコアを算出する第3算出ステップと、
    を含み、
    前記指示ステップでは、前記各ドキュメントデータについて前記非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする情報検索方法。
  11. コンピュータを、入力された検索語とスコアデータベースに記憶されている検索スコアとに基づいて該検索語に関連するドキュメントを検索する情報検索サーバとして機能させるための情報検索プログラムであって、
    前記コンピュータを、
    複数のドキュメントデータに関する複数の非ドキュメント情報を記憶する非ドキュメントデータベースと、
    前記ドキュメントデータに対応する前記検索スコアを算出し、該検索スコアを前記スコアデータベースに記憶するスコア算出手段と、
    前記検索スコアの再計算を前記スコア算出手段に指示する指示手段と、
    して機能させ、
    前記スコア算出手段が、
    前記ドキュメントデータで示されるドキュメントの内容に関する所定のドキュメントパラメータを算出する第1算出手段と、
    前記ドキュメントデータに関する非ドキュメント情報を前記非ドキュメントデータベースから読み出し、該非ドキュメント情報に基づいて該ドキュメントデータへのアクセスに関する所定の非ドキュメントパラメータを算出する第2算出手段と、
    前記ドキュメントパラメータ及び前記非ドキュメントパラメータに基づいて前記検索スコアを算出する第3算出手段と、
    を備え、
    前記指示手段が、前記各ドキュメントデータについて前記非ドキュメントパラメータの変動率を算出し、該変動率が所定の水準以上であるドキュメントデータについて前記検索スコアの再計算を指示する、
    ことを特徴とする情報検索プログラム。
JP2009136429A 2009-06-05 2009-06-05 情報検索サーバ、情報検索方法及び情報検索プログラム Expired - Fee Related JP5286162B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009136429A JP5286162B2 (ja) 2009-06-05 2009-06-05 情報検索サーバ、情報検索方法及び情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009136429A JP5286162B2 (ja) 2009-06-05 2009-06-05 情報検索サーバ、情報検索方法及び情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2010282495A JP2010282495A (ja) 2010-12-16
JP5286162B2 true JP5286162B2 (ja) 2013-09-11

Family

ID=43539157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009136429A Expired - Fee Related JP5286162B2 (ja) 2009-06-05 2009-06-05 情報検索サーバ、情報検索方法及び情報検索プログラム

Country Status (1)

Country Link
JP (1) JP5286162B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5535385A (en) * 1995-05-19 1996-07-09 At&T Corp. Dealing with side effects of transactions in data base systems using a multi-set algebra
JP4211627B2 (ja) * 2004-02-12 2009-01-21 日本電気株式会社 ファイル記録方法およびファイルシステム
US7688228B2 (en) * 2004-07-29 2010-03-30 Hitachi, Ltd. Map data delivering device, communication terminal, and map delivering method
JP2006072626A (ja) * 2004-09-01 2006-03-16 Fuji Xerox Co Ltd 文書管理装置および方法およびプログラム
JP2007140973A (ja) * 2005-11-18 2007-06-07 National Institute Of Information & Communication Technology ページリランキング装置、ページリランキングプログラム
JP5235730B2 (ja) * 2009-03-10 2013-07-10 日本電信電話株式会社 文書検索装置、文書検索方法および文書検索プログラム

Also Published As

Publication number Publication date
JP2010282495A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
JP5047959B2 (ja) ユーザインタラクションについての離れに基づく相対的検索結果
US8521717B2 (en) Propagating information among web pages
US8335785B2 (en) Ranking results for network search query
US20080140641A1 (en) Knowledge and interests based search term ranking for search results validation
US20100082637A1 (en) Web Page and Web Site Importance Estimation Using Aggregate Browsing History
JP5379978B2 (ja) 検索システム及び検索方法
WO2008133368A1 (en) Information search ranking system and method based on users' attention levels
CN102622238A (zh) 移动设备的界面布局方法及装置
US11392589B2 (en) Multi-vertical entity-based search system
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
US20060149606A1 (en) System and method for agent assisted information retrieval
JP5286162B2 (ja) 情報検索サーバ、情報検索方法及び情報検索プログラム
JP2011154466A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JPWO2016075832A1 (ja) ページ自動編集方法、ページ自動編集プログラムおよびページ自動編集装置
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP4477931B2 (ja) 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5386548B2 (ja) 急上昇ワード抽出装置及び方法
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP5519406B2 (ja) サーバ装置、ジャンルスコア算出方法およびプログラム
JP5147790B2 (ja) クローラ調整装置及びクローラ調整方法
JP6991265B2 (ja) コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
RU2775824C2 (ru) Способ и система для определения аномальных посещений веб-сайтов
JP2017146924A (ja) コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
JP6696018B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Ref document number: 5286162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees