JP4868245B2

JP4868245B2 - 検索システム、検索装置、および検索方法

Info

Publication number: JP4868245B2
Application number: JP2007213169A
Authority: JP
Inventors: 英之前川
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-08-17
Filing date: 2007-08-17
Publication date: 2012-02-01
Anticipated expiration: 2027-08-17
Also published as: JP2009048380A

Description

本発明は、ＷＷＷ（World Wide Web）の検索システムにおいて、Ｗｅｂページなどのリソースの検索を効率的に行うための技術に関する。

インターネットユーザーがWWW上のＷｅｂページやドキュメント、画像データなどのリソースを検索しようとする場合、通常Ｗｅｂ検索システムを利用する。そして当該検索システムは、そのユーザーからの検索キーワードなどに応じた検索処理を実行するために、以下のようにしてWWW上のリソースに関するインデクサを生成する。すなわち検索システムは、リソース間のハイパーリンクを辿りＷＷＷ上を巡回する「クローラ」と呼ばれるプログラムを実行し、そのクローラがＷＷＷ上を巡回して収集したリソースのURL（Uniform Resource Locator）やコンテンツ内容に関する情報を取得する。そしてそれら収集情報から、ＷＷＷ上のリソースに関するインデックス情報を構築、蓄積する、という具合である。そしてユーザーからの検索キーワードなどを取得した場合には、検索システムは検索対象としてそのインデックス情報を参照し、検索結果をユーザー端末に返信する。

ところで、これらＷＷＷ上のリソースは更新などされることが常である。また、インターネットは情報（リソース）の即時提供性が特徴の一つになっている。そのためユーザーは更新された最新の提供情報を入手するために、時事関連ニュースページなど更新頻度が高いＷｅｂページなどを特に中心的に検索する傾向がある。

したがってユーザーのこのようなニーズに応えるため、検索システムでは「クローラ」によるリソース情報の収集処理ならびにインデックス情報の生成蓄積処理を、リソースの更新頻度などに応じて定期的に行い、その情報鮮度を保つよう構成されていることが望ましい。

しかしインデックス情報の鮮度を保つために、例えば単にクローラの巡回頻度を上げてインデックス情報の鮮度を保つような構成とすると、WWW上のトラフィックを圧迫することになってしまう。そこで頻繁にインデックス情報を更新すべきリソースを特定し当該リソースに対する巡回優先度を上げることで、WWW上のトラフィックをあまり圧迫することなくインデックス情報の情報鮮度を保つよう構成する技術も提供されている。

具体的には、前述のようにインターネットユーザーは更新頻度が高いＷｅｂページを中心的に検索しアクセスする傾向がある。つまり逆に言えば、アクセス頻度の高いリソースは頻繁に更新などされている可能性が高い。したがって、例えばユーザーのアクセス数を集計することで「クローラ」のリソースに対する巡回優先度を決定し、優先度の高いリソースの巡回回数を上げることで、WWW上のトラフィック負荷をあまり増大させることなくインデックス情報の情報鮮度を保つことができる、といった技術である。
特開２００６−２７７７３２号公報

しかし従来の検索システムには、次のような課題が普遍的に存在する。先ず、インデックス情報の鮮度を保つためには、前述のように「クローラ」はリソース間のハイパーリンクを辿りＷＷＷ上を巡回するため、インデックス化の対象となるリソースは別のリソースにハイパーリンクされている必要がある。ところが、新規に開設されたばかりのＷｅｂページなどはいずれのリソースにもハイパーリンクされていないことがある。すると、そのようなリソースにはクローラが辿り着けないためインデックス化の対象から外れてしまう。つまり極めて高い情報鮮度を有するはずの新規開設Ｗｅｂページなどが検索の際に参照されるインデックスファイルに含まれていない可能性があり、そのために検索結果に反映することが出来ないことがあった。

次に、従来の検索システムでは、上記ユーザーのアクセス数を集計して「クローラ」の巡回優先度を決定し、ネットワーク負荷をあまりかけずに情報鮮度を保つが、その集計されたアクセスは、ユーザーの意思による積極的なアクセスには限られない。例えば、操作ミスなどによってリンクがクリックされたことによるアクセスや、リンクを辿って目的のウェッブページに辿り着くための経由点としてなされたアクセスなどが含まれている場合がある。そのため集計されたリソースアクセス数は、実効的なアクセス実体（ユーザーの閲覧意思等による積極的なアクセスの数）を示していない可能性がある。そのため、その誤った集計結果から立てられたクローラの巡回スケジュールでは、正確な巡回優先順位を算出できていない可能性があった。

更に、検索結果の一覧を表示させる際の各検索結果の表示ランキング（順序）は、ページ間のリンク数に応じて行うページランクによるものの他、ユーザーによるクリックされたページを上位にランキングする方法も知られている。しかし、この場合、上述と同様に、ユーザーのクリックに実効的なアクセス実体を示していない可能性があるため、その誤った集計結果から立てられた検索結果の表示の方法では、実用に沿った正確なランキングを算出できていない可能性があった。

以上の課題を主に解決するために、本発明は以下のような検索システムを提供する。すなわちユーザーの端末などにおいて、ブラウザからツールバー装置を介して、利用者が閲覧したリソースのURLをはじめとする閲覧情報を取得し、閲覧管理サーバ装置に送信する。そして閲覧管理サーバ装置にて管理されている各端末の閲覧情報を、WWW上のリソースを検索するためのインデクシング（インデックス化）機能を備える検索装置等にて収集し、検索装置にて利用することができるよう構成された検索システムを提供する。特に上記構成においては、ツールバー装置において利用者が閲覧したリソースのURLをはじめとする閲覧情報を取得することを特徴とする。

そしてこの検索システムではツールバー装置を介して取得した閲覧情報を利用して、例えば第一に、他のページにハイパーリンクされていないリソースのコンテンツをインデックス化のために取得したり、さらに「クローラ」の巡回先として指定したりすることができるよう構成されていることをさらなる特徴とする。また第二に、前記のような誤アクセスなどを排除して集計したリソースの実効的なアクセス指標（視聴度指数）であるトラフィックランクを算出し、「クローラ」の巡回スケジュールに利用することができるようにも構成されていることをさらなる特徴とする。

具体的には、ブラウザから少なくとも閲覧ＵＲＬを含む閲覧情報を取得する閲覧情報取得部と、取得した閲覧情報を所定の閲覧管理サーバ装置に送信する閲覧情報送信部と、を有するツールバー装置と、前記閲覧情報送信部から送信される閲覧情報を収集する検索装置と、からなる検索システムである。

そして上記第一又は第二のさらなる特徴点を実現するため、本発明の検索システムは上記構成に加えて、第一には、前記検索装置において、収集した閲覧情報に基づいて検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬを抽出するとともに、抽出したＵＲＬのコンテンツをインデクシングする第一インデクサ部を有する第一閲覧管理サーバ装置を含むよう構成しても良い。

また、第二には、前記検索装置において、収集した閲覧情報を蓄積する閲覧情報蓄積部と、閲覧情報蓄積部に蓄積されている閲覧情報に基づいてＵＲＬ毎に視聴度指数であるトラフィックランクを算出するトラフィックランクスコアリング部を有する第二閲覧管理サーバ装置を含むよう構成し、さらに、クローラ部と、トラフィックランクスコアリング部で算出されたトラフィックランクに基づいてクローラ部のクローリングスケジュールを決定するスケジュール決定部と、を有するよう構成しても良い。

以上のような構成をとる第一の本発明によって、ブラウザからツールバー装置を介して送信された、利用者が閲覧したリソースのURLをはじめとする閲覧情報を、閲覧管理サーバ装置を介して検索装置にて収集し、様々に利用することができる。具体的には、第一に他のページにハイパーリンクされていないリソースのコンテンツを取得し検索用のインデックスファイル化処理を行うことができる。また「クローラ」の巡回先として指定することができる。そしてそれによって、極めて高い情報鮮度を有すると思われる新規開設Ｗｅｂページ等のリソースを「クローラ」にて巡回取得して検索対象としてインデックス化することができる。

また、第二に誤アクセスなどを排除して集計したリソースのアクセス指標（視聴度指数）であるトラフィックランクを算出し、「クローラ」の巡回スケジュールに利用することができる。したがって、ユーザーのリソースの実効的なアクセス実体に応じて、クローラの巡回スケジューリングを立てることができる。

以下に、図を用いて本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。

なお実施例１および実施例２は、主に請求項１、６、１１などについて説明する。また実施例３は、主に請求項２、７、１２などについて説明する。また実施例４は、主に請求項３、８、１３などについて説明する。また実施例５は、主に請求項４、９、１４などについて説明する。また実施例６は、主に請求項５、１０、１５などについて説明する。

≪実施例１≫

<概要>

図１は、本実施例の検索システムにおける閲覧情報収集の一例を説明するための概念図である。この図にあるように、クライアント端末１にてブラウザが起動されている。また、このブラウザにはツールバーが組み込まれており、ブラウザの起動に合わせてツールバーもブラウザ上の所定領域（０１０１）に表示されている。

ここで、本実施例では、ユーザーがブラウザやツールバーに入力した検索キーやＵＲＬを、ツールバーのプログラムによって収集する。またブラウザでのＷｅｂページの表示時間や、移動先や移動元などＷｅｂページの遷移経路を示す情報も、ツールバーによって取得される。そして、このようにしてネットワーク上の各クライアント端末１，２，３、・・・にて取得された情報が、閲覧管理サーバ装置を含む検索装置（０１０２）に送信される。

図２は、このようにクライアント端末のツールバーにて取得され、閲覧管理サーバ装置を介して検索装置に収集される閲覧情報の一例を表す図である。この図にあるように、ツールバーは閲覧情報として、ユーザーIDやブラウザにてアクセスしたＷｅｂページのＵＲＬ、そのＷｅｂページの閲覧開始時刻（アクセス時刻）、閲覧時間（Ｗｅｂページなどの表示時間）、あるいは図示しない移動先や移動元で示されるＷｅｂページの遷移経路を示す情報などを取得する、という具合である。

そして検索装置では、各クライアント端末から閲覧管理サーバ装置を介して収集した上記のような閲覧情報を利用して、例えばユーザーのＷｅｂブラウジング行動を解析したり、その解析結果からユーザーにとって人気の高いサイトなどを迅速に把握したりすることができる。そして、例えばいわゆる「クローラ」によって検索用インデックス情報を収集する際には、その人気サイトをクロールする頻度を上げて当該人気サイトの最新の情報が検索によって提供されるよう構成する、など様々に活用することができる、という具合である。

<機能的構成>

図３は、本実施例の検索システムにおける機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索システム」（０３００）は、「ツールバー装置」（０３１０）と、「検索装置」（０３２０）と、からなる。

なお、「ツールバー装置」（０３１０）とは、クライアント端末上のブラウザの機能を補助、拡張、代替などするため、ブラウザとともに動作するよう構成されたアプリケーションが組み込まれた装置をいう。またツールバー装置の一般的な機能としては、例えば、検索窓に入力されたキーワードによるＷｅｂ上のリソースの検索機能、ＲＳＳ文書データの収集や表示機能、ショートカットアイコンによるランチャー機能などが挙げられる。そして、本実施例の検索システムにおいては、後述する構成によってブラウザにて閲覧されたＵＲＬを含む閲覧情報を取得し、閲覧管理サーバ装置に送信するというさらなる機能を有していることを特徴とする。

また、「検索装置」（０３２０）とは、前述のように「クローラ」が収集したＷｅｂ上のリソースの情報を利用して所定の検索エンジンの処理によってインデックス情報を生成し、ユーザーからの検索キーワードなどに応じてインデックス情報の検索処理を実行するサーバ装置をいう。そして本実施例の検索システムにおいては、クライアント端末のツールバー装置にて取得され閲覧管理サーバ装置に送信された閲覧情報を収集し、その検索処理やインデックス情報の生成処理などに活用することを特徴とする。

なお本実施例では、図３（ａ）に示すように閲覧管理サーバ装置がこの検索装置に含まれる構成を例に挙げ説明するが、もちろん本実施例の検索システムの構成はそれに限定されるものではない。例えば図３（ｂ）に示すように閲覧管理サーバ装置が検索装置とは別個のサーバ装置としてネットワーク上に設けられ、検索装置は当該閲覧管理サーバ装置にて管理されている閲覧情報を取得する、といった構成であっても良い。

ここで、まず検索装置とともに本実施例の検索システムを構成する「ツールバー装置」（０３０１）の機能的構成について以下に説明する。図３にあるように「ツールバー装置」は、「閲覧情報送信部」（０３０３）と、「閲覧情報取得部」（０３０４）とを有する。

なお、以下に記載する本システムのツールバー装置や検索装置の各機能ブロックは、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの両方として実現され得る。具体的には、コンピュータを利用するものであれば、ＣＰＵや主メモリ、バス、あるいは二次記憶装置（ハードディスクや不揮発性メモリ、ＣＤやＤＶＤどの記憶メディアとそれらメディアの読取ドライブなど）、印刷機器や表示装置、その他の外部周辺装置などのハードウェア構成部、またその外部周辺装置用のＩ／Ｏポート、それらハードウェアを制御するためのドライバプログラムやその他アプリケーションプログラム、情報入力に利用されるユーザーインターフェースなどが挙げられる。

そして主メモリ上に展開したプログラムに従ったＣＰＵの演算処理によって、インターフェースを介して入力されメモリやハードディスク上に保持されているデータなどが加工、蓄積されたり、上記各ハードウェアやソフトウェアを制御するための命令が生成されたりする。また、この発明はシステムとして実現できるのみでなく、方法としても実現可能である。また、このような発明の一部をソフトウェアとして構成することができる。さらに、そのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品、及び同製品を記録媒体に固定した記録媒体も、当然にこの発明の技術的な範囲に含まれる（本明細書の全体を通じて同様である）。

「閲覧情報取得部」（０３１１）は、ブラウザから少なくとも閲覧ＵＲＬ含む閲覧情報を取得する機能を有する。「閲覧ＵＲＬ」とは、このツールバー装置が組み込まれたクライアント端末のブラウザにて表示されているリソースのＷｅｂ上での所在を示す情報をいい、例えば「http://・・・/001.bmp」等の情報が挙げられる。

そして本実施例の検索システムでは、ネットワーク上の各クライアント端末のツールバーにて取得され、閲覧管理サーバ装置を介して検索装置にて収集されるこの閲覧ＵＲＬを利用した各種処理、例えば「クローラ」の巡回対象を決定するなどの処理を行うことを特徴とする。

また閲覧情報には、上記閲覧ＵＲＬ以外にもブラウザでの閲覧に係る各種情報が含まれていて良い。例えば、ユーザーＩＤ、ブラウザＩＤやツールバーＩＤ、閲覧開始時刻情報、閲覧時間情報、あるいはＷｅｂ上の２以上のリソースを連続で閲覧した際の「移動元リソース」や「移動先リソース」などの遷移情報などが挙げられる。

ここでユーザーＩＤとはユーザーを識別するための情報をいい、例えばクライアント端末へのログイン時のＩＤやサービス単位で割当てられるＩＤなどが挙げられる。また、ブラウザＩＤやツールバーＩＤも同様に当該ブラウザやツールバーを識別するための情報をいい、例えば予めブラウザプログラムやツールバープログラムに記録されている製品ＩＤなどを利用すると良い。そして、これら識別情報を利用することでクライアント端末を識別することができるので、クライアント端末（ユーザー）単位での閲覧情報の管理、分析を行うことができる。なお、これらＩＤ情報の保持は、例えばツールバー装置自身が保持する方法や、ブラウザ装置が有するcookie機能を利用する方法などが挙げられる。

また、閲覧開始時刻情報とは、ブラウザにてＷｅｂ上のリソースにアクセスされた時刻、あるいはそのアクセスによってブラウザにリソースが取得された時刻や表示された時刻などをいう。具体的に当該時刻は、例えばブラウザにてアクセスリクエストしたリソースのロード完了を検出した時刻や、Ｗｅｂサーバが「２００：ＯＫ」などのＨＴＴＰステータスコードを応答した時刻等が挙げられる。

また閲覧時間情報とは、ブラウザにてＷｅｂ上のリソースが表示されている時間をいい、例えば、ブラウザのＵＩウィンドウが、オープンしていた時間や、当該ウィンドウがアクティブとなっている時間、またウィンドウ領域にマウスポインタが存在する時間などが挙げられる。またさらに、一定時間の操作がないためクライアント端末のＯＳが自動的にログオフ処理を行ったり、スクリーンセーバ等が起動したりした場合には、ログオフされている時間やスクリーンセーバが起動している時間を除いた後の時間としてもよい。また閲覧時間情報は、前記閲覧開始時刻と閲覧終了時刻との差分を算出することで取得されても良い。

また遷移情報とは、Ｗｅｂ上の２以上のリソースを連続で閲覧した際の「移動元リソース」と「移動先リソース」とを示す情報をいい、例えばハイパーリンクのクリックによる遷移のほか、ブラウザやツールバーのＵＲＬ入力欄に連続で入力された２以上のＵＲＬを「移動先」「移動元」とする遷移情報などが挙げられる。

そしてツールバー装置は上記閲覧情報を、例えばＡＰＩ（Application Program Interface）やＤＤＥ（Dynamic Data Exchange）やファイルシステム等を用いてクライアント端末のブラウザから取得する、という具合である。

「閲覧情報送信部」（０３１２）は、取得した閲覧情報を所定の閲覧管理サーバ装置に送信する機能を有する。具体的には、上記のように取得した閲覧情報を、クライアント端末の通信Ｉ／Ｆを使用し通信回線等を介して、所定の閲覧管理サーバ装置に送信する機能を有する。なお、閲覧情報の送信先となる所定の閲覧管理サーバ装置の送信先アドレスは、例えばツールバー装置のプログラム内に予め記述されることで特定する方法などが挙げられる。また、この閲覧情報送信部から閲覧情報が送信されるタイミングはブラウザにて表示されているリソースが切換わるごとに送信するといったタイミングや、一定の時間、又は時刻が到来した際にバッチ処理で送信するタイミング、あるいはツールバー起動時または終了時に送信するタイミングなどが挙げられる。

そして、このように各クライアント端末上ブラウザでの閲覧に応じてツールバー装置にて取得された閲覧情報が閲覧管理サーバ装置に送信される。そして後述するように閲覧管理サーバ装置を介して検索装置にて当該閲覧情報が収集されることで、検索装置ではクライアント端末の閲覧リソースの特定などブラウジング（閲覧）履歴を容易に把握することができる、という具合である。

続いて、上記ツールバー装置とともに本実施例の検索システムを構成する「検索装置」（０３２０）の機能的構成について、同様に図３を用いて以下に説明する。図３にあるように「検索装置」は、「閲覧管理サーバ装置」（０３３０）を備える。

「閲覧管理サーバ装置」（０３３０）は、閲覧情報送信部（０３１２）から送信される閲覧情報を受信、管理する機能を有する。そして、閲覧管理サーバ装置では閲覧情報を利用して、例えばユーザーのＷｅｂブラウジング行動を解析したり、その解析結果からユーザーにとって人気の高いサイトなどを迅速に把握したりすることができる。そして、検索装置での「クローラ」による検索用インデックス情報収集の際には、その人気サイトについてクロールする頻度を上げて当該人気サイトの最新の情報が検索によって提供されるようにする、など様々な処理を行うことができる。

またその他にも、詳細は実施例２にて後述するように、例えば、閲覧情報に含まれる閲覧ＵＲＬのうち自身が管理していないＵＲＬを他のページにハイパーリンクされていないリソースのＵＲＬとして「クローラ」の巡回先として新規に指定する処理を行っても良い。あるいは詳細は実施例３にて後述するように、閲覧情報に含まれる閲覧時間などの情報から、誤アクセスなどを排除して集計したリソースの実効的なアクセス指標（視聴度指数）であるトラフィックランクを算出し、「クローラ」の巡回スケジュールに利用する処理を行っても良い。

なお閲覧管理サーバ装置は前述のように、ネットワーク上にて検索装置とは別個のサーバ装置として存在しても良い。その場合、図３（ｂ）に示すように閲覧管理サーバ装置にて管理されている閲覧情報を、「検索装置」が収集し、上記のような各種処理を行うよう構成されていても良い。

<ハードウェア的構成>

図４は、上記機能的な各構成要件をハードウェアとして実現した際の、検索システムにおける構成の一例を表す概略図である。この図を利用して本実施例の検索システムにおけるそれぞれのハードウェア構成部の働きについて説明する。この図にあるように、本実施例の検索システムのハードウェア構成は、クライアント端末に組み込まれた「ツールバー装置」（０４１０）と、サーバ装置としてネットワーク上に配置されている「検索装置」（０４２０）と、により構成される。なお本例では、閲覧管理サーバ装置を実現するための「閲覧管理サーバプログラム」が検索装置において実行される構成、すなわち検索装置が閲覧管理サーバ装置を含む構成を例に挙げて説明する。

そしてツールバー装置と検索装置は電気通信回線を介して相互に接続され、情報の送受信を行う。なお、電気通信回線はインターネットを含む。

また「ツールバー装置」においては、閲覧情報取得部を実現し、またその他各種演算処理を行う「ＣＰＵ（中央演算装置）」（０４１１）と、「ＲＡＭ」（０４１２）や、閲覧情報送信部である「通信Ｉ／Ｆ」（０４１３）を備える。またキーボード、マウス等の入力装置である「ＵＩ」（ユーザーインターフェース）（０４１４）や、ブラウザプログラムにて処理されたリソースを表示するための「ＶＲＡＭ」（０４１５）や、ディスプレイなどの「表示装置」（０４１６）も備える。そしてそれらが「システムバス」などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。

またツールバー装置の「ＲＡＭ」上には、ブラウザプログラムと、ツールバープログラムとが格納されており、これらプログラムに従い閲覧情報の取得や送信処理やその他処理に係る「ＣＰＵ」の各種演算処理が実行される。また上記ツールバープログラムによって、ＲＡＭ上の所定のアドレスには閲覧ＵＲＬを格納する領域が確保されている。

一方「検索装置」においては、各種演算処理を行う「ＣＰＵ」（０４２１）と、「ＲＡＭ」（０４２２）と、「通信Ｉ／Ｆ」（０４２３）と、大量の閲覧情報などを蓄積するためのハードディスクなどの「二次記憶装置」（０４２４）とを有している。そしてそれらが「システムバス」などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。

また検索装置の「ＲＡＭ」上には、閲覧管理サーバプログラムが格納されており、当該プログラムに従い閲覧情報の管理処理やその他処理に係る「ＣＰＵ」の各種演算処理が実行される。

ここで、「ツールバー装置」においてユーザーの「ＵＩ」を介した操作入力を受付け、「ＲＡＭ」上のブラウザプログラムおよびツールバープログラムに従い以下のような処理が実行される。すなわち「ＵＩ」を介したブラウザ操作によってＷｅｂ上のリソースへのアクセス指示が入力されると、そのアクセス指示で指定されたリソースのＵＲＬが「ＲＡＭ」の所定アドレスに格納される。するとブラウザプログラムに従い指定されたＵＲＬに対してＨＴＴＰリクエストが送信される。そしてそのＨＴＴＰリクエストに対するレスポンスをアクセスリソースのコンテンツとして「通信Ｉ／Ｆ」にて受信する。つづいて受信したコンテンツに含まれるＨＴＭＬファイル、イメージファイルなどを、ブラウザプログラムが有するＨＴＭＬレンダリングエンジンなどに従った「ＣＰＵ」の演算処理よってレンダリング処理する。そしてその処理結果が「ＶＲＡＭ」に転送され「表示装置」上にＷｅｂコンテンツが表示される。そしてユーザーは表示された当該ＷＷＷ上のＷｅｂページなどのリソースを閲覧する。

また、それとともに前記ブラウザでのアクセス指示入力に応じてツールバープログラムは以下の処理を実行する。すなわち「ＲＡＭ」の所定アドレスに格納されたＵＲＬを閲覧情報として、前述のような所定の各タイミングで「通信Ｉ／Ｆ」から「検索装置」に送信する、という具合である。

また、ツールバープログラムは、その他に以下のようにしてユーザーＩＤや閲覧時間情報などを取得して、上記ＵＲＬと同様に閲覧情報として送信しても良い。まず、ツールバープログラムが起動すると、インターネットキャッシュなどからユーザーＩＤを取得し、「ＲＡＭ」上の所定のアドレスに格納する。また、ブラウザプログラムによりＨＴＴＰレスポンスの取得が完了するとＯＳのタイマ関数などより現在時刻を取得し「ＲＡＭ」上の所定のアドレスに格納する。あるいは、ブラウザにおいて一のＵＲＬに関してウィンドウがアクティブ状態である時間を監視し、その時間を閲覧時間として「ＲＡＭ」上の所定のアドレスに格納する。そして、上記「ＲＡＭ」に格納した各情報を前述のような所定の各タイミングで「通信Ｉ／Ｆ」から「検索装置」に送信する、という具合である。

そして、「検索装置」では、「通信Ｉ／Ｆ」にて各ツールバー装置から送信されてきた閲覧情報を受信し「ＲＡＭ」の所定アドレスに格納する。そして、閲覧管理サーバプログラムにしたがって、例えば閲覧情報に含まれるＵＲＬやユーザーＩＤなどパラメータとする閲覧履歴データベースなどを「ＣＰＵ」の演算処理によって生成し、ＨＤＤなどの「二次記憶装置」に格納する、という具合である。

そして、そのデータベースを利用して、例えば閲覧ＵＲＬごとのアクセス数を「ＣＰＵ」の演算処理によって集計する。そして「アクセス数−巡回頻度テーブル」などを参照し、集計結果の高い順にクローラの巡回頻度を決定する処理を行う、という具合である。

<処理の流れ>

図５は、本実施例の検索システムにおける処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。

この図にあるように、ツールバー装置にてツールバーが起動されると、まずＵＲＬを含む閲覧情報を取得する（ステップＳ０５０１）。次にユーザーのブラウザの操作により閲覧ＵＲＬが更新（変更）されたか否かを判断する（ステップＳ０５０２）。更新されたと判断された場合には、閲覧ＵＲＬを含む情報を閲覧情報として閲覧管理サーバ装置を含む検索装置に送信する（ステップＳ０５０３）。

またツールバー装置では、閲覧情報の送信（ステップＳ０５０３）後、閲覧が終了したか否かの判断がなされる（ステップＳ０５０４）。ブラウザが終了されるなど、閲覧が終了したと判断されると処理は終了する。終了していないと判断された場合には、URLを含む閲覧情報を取得する（ステップＳ０５０１）処理に戻る。

検索装置では、ステップＳ０５０３にてツールバー装置により送信されたURLを含む閲覧情報を受信し（ステップS０５１１）、記録媒体等に格納する（ステップＳ０５１２）。そして各ツールバー装置から取得した閲覧情報を利用してデータベースを生成、蓄積し、各種処理に利用する。

もちろん、前述のようにステップＳ０５０３では、検索装置とは別個の閲覧管理サーバ装置に閲覧情報を送信しても良い。そして、その場合には、検索措置にて閲覧管理サーバ装置で受信した閲覧情報を収集するステップが追加されると良い。

<効果の簡単な説明>

以上のように本実施例の検索システムによってクライアント端末のツールバー装置を利用してユーザーの閲覧情報を取得し、その閲覧情報を閲覧管理サーバ装置を介して検索装置に送信することが可能となる。そして検索装置では、ネットワーク上の複数のツールバー装置から送信される閲覧情報を幅広く収集しデータベースなどを構築することが容易に可能である。

そしてその構築したデータベースを利用して、例えば閲覧ＵＲＬごとのアクセス数を集計し、集計結果の高い順にクローラの巡回頻度を決定する処理を行ったりすることができる。

≪実施例２≫

<概要>

図６は、本実施例の検索システムにおける処理の一例を説明するための概念図である。この図にあるように、あるユーザーＡが、ツールバー装置を備えたクライアント端末（０６０１）を利用して、友人が新規に開設したＷｅｂサイトＡ（０６０２）にアクセスしている。ここで、新規ＷｅｂサイトＡは新規開設されたばかりであるため、他のＷｅｂ上のリソースからのハイパーリンクなどが無い状態である。そのため「クローラ」の巡回対象にはなっておらず、未だ検索装置（０６０３）の検索サービス用インデックスファイル（０６０４）には存在していない。

しかし、本実施例の検索システムにおいては、上記クライアント端末によるＷｅｂサイトＡへのアクセスによって、検索装置に対して当該ＵＲＬを含む閲覧情報が送信される構成となっている。そこで、検索装置では送信されてきた当該ＵＲＬと、検索サービス用インデックスファイルに含まれるＵＲＬとの比較処理を行う。そしてインデックスファイルに含まれていなければコンテンツを取得しインデックスファイルに追加格納する。またそれに加えて「クローラ」によるハイパーリンク以外の直接巡回対象ＵＲＬとして設定する、という具合である。

<機能的構成>

図７は、本実施例の閲覧管理サーバ装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索システム」（０７００）は、実施例１の構成を基本として、「ツールバー装置」（０７１０）と、「検索装置」（０７２０）とを有する。そして「ツールバー装置」は、実施例１同様に「閲覧情報取得部」（０７１１）と、「閲覧情報送信部」（０７１２）とを有する。なお、上記ツールバー装置と検索装置の機能的構成を含む詳細な説明は、実施例1にて記載済みであるので省略する。

そして本実施例の特徴点は、「検索装置」が「第一閲覧管理サーバ装置」（０７３０）を有し、その第一閲覧管理サーバ装置がさらに「第一インデクサ部」（０７３１）を有する点である。

「第一インデクサ部」（０７３１）は、収集した閲覧情報に基づいて新規検索対象ＵＲＬを抽出するとともに、抽出したＵＲＬのコンテンツをインデクシングする機能を有する。

「新規検索対象ＵＲＬ」とは、検索エンジンにて新規に検索対象として利用するＵＲＬをいう。具体的には、検索装置は「クローラ」が巡回して収集したＷＷＷ上のリソースに関する情報をまとめてインデックスファイルを生成、保持している。そして検索エンジンによる検索の際には、その保持しているインデックスファイルを参照し検索を行うよう構成されている。つまりインデックスファイルに含まれていないＵＲＬは検索対象とならない構成となっている。そこで、閲覧情報に含まれるＵＲＬとインデックスファイルに格納されているＵＲＬと差分情報を取得し、その差分であるＵＲＬを新規検索対象ＵＲＬとして抽出する、という具合である。

そして、このように抽出された新規検索対象のＵＲＬ、および当該ＵＲＬにあるリソースのコンテンツなどが検索装置にてインデクシング（インデックスファイルへの追加処理）されることで、本実施例の検索システムでは新規開設Ｗｅｂページなど本来検索対象となっていなかったようなＷＷＷ上のリソースについても検索対象とすることができる、という具合である。また、ここで「インデクシング」処理とは、詳細には検索エンジンがターゲットとなるキーワードを高速に検索しやすいようなデータ構造や、ファイル構造に再構成することである。例えば、抽出したキーワードをキーとし、これをハッシュテーブル化したインデックスを新たに付与するといった方法などが挙げられる。

また、本実施例の検索装置は上記インデクシング処理に加え、さらに抽出した新規検索対象ＵＲＬを「クローラ」がハイパーリンクを辿らずに直接巡回する対象として追加する処理を行い、更新情報を取得するよう構成しても良い。

<ハードウェア的構成>

図８は、上記機能的な各構成要件をハードウェアとして実現した際の、検索システムにおける構成の一例を表す概略図である。この図を利用して本実施例の検索システムにおけるそれぞれのハードウェア構成部の働きについて説明する。この図にあるように、本実施例の検索システムのハードウェア構成は、ツールバー装置（０８１０）と検索装置（０８２０）より構成される。そして両者はインターネットを含む電気通信回線を介して、相互に接続可能となっている。

また、「ツールバー装置」（０８１０）は、実施例１と同様に「ＣＰＵ」（０８１１）と「ＲＡＭ」（０８１２）、「通信Ｉ／Ｆ」（０８１３）、「ＵＩ」（０８１４）、「ＶＲＡＭ」（０８１５）と「表示装置（ディスプレイなど）」（０８１６）と、を備える。

そして「検索装置」（０８２０）も実施例１と同様に、「ＣＰＵ」（０８２１）と「ＲＡＭ」（０８２２）、「通信Ｉ／Ｆ」（０８２３）と、「二次記憶装置」（０８２４）と、を有する。

ここで実施例１にて説明したように、ネットワーク上の複数のツールバー装置のツールバープログラムの処理によって、閲覧ＵＲＬを含む閲覧情報が検索装置に送信され、「ＲＡＭ」の所定アドレスに格納される。

検索装置では、第一閲覧管理サーバプログラムに含まれる第一インデクサプログラムに従い、以下のような処理を実行する。まず、予め「二次記憶装置」にて格納されている検索サービス用のインデックスファイルを参照し、「ＲＡＭ」の所定アドレスに格納された閲覧ＵＲＬをキーとした検索処理が「ＣＰＵ」の演算によって実行される。そして、その検索処理の結果、インデックスファイルに当該ＵＲＬが含まれていないとの判断結果が出力されれば、そのＵＲＬは新規検索対象のＵＲＬである判断する。すると第一インデクサプログラムに従い、「ＣＰＵ」は「ＲＡＭ」に格納されたそのＵＲＬに対して通信Ｉ／Ｆ（０９１３）を介してアクセスし、リソースコンテンツを取得する命令を出力する。そして取得したコンテンツに関し、「ＣＰＵ」の処理によってインデクシング処理が実行され、新規のインデックス情報として「二次記憶装置」に保持されているインデックスファイルに記録される、という具合である。

また、第一インデクサプログラムに従って、「ＲＡＭ」に格納された当該ＵＲＬを、次回以降のクローラの巡回対象としてスケジュールに組み込む処理を実行しても良い。またさらに、当該ＵＲＬに関しては情報鮮度の高いリソースであると仮定して、クローラの巡回頻度を上げたスケジュールを生成するよう処理しても良い。

<処理の流れ>

図９は、本実施例の検索システムにおける処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。

ここで、ツールバー装置にてツールバーが起動されると、まずＵＲＬを含む閲覧情報を取得する（ステップＳ０９０１）。次にユーザーのブラウザの操作により閲覧ＵＲＬが更新（変更）されたか否かを判断する（ステップＳ０９０２）。そして更新されたと判断された場合には、閲覧ＵＲＬを含む情報を閲覧情報として第一閲覧管理サーバ装置を含む検索装置に送信する（ステップＳ０９０３）。

つづいて検索装置において、ネットワーク上の各クライアント端末から送信されてきたｎ個のＵＲＬを含む閲覧情報を受信、収集する（ステップＳ０９１１）。次に、閲覧情報を記録媒体等に格納する（ステップＳ０９１２）。次にループ１に入り、格納されているｎ個のＵＲＬのそれぞれについて検索装置のインデックスファイル（データベース）を参照し、同一のＵＲＬが存在するか否かの判定を行う（ステップＳ０９１４）。

そしてその判定処理の結果、インデックスファイルに存在しないと判定されたＵＲＬについては、新規検索対象ＵＲＬとしてリソースコンテンツを取得しインデクシングする（ステップＳ０９１５）。一方、同一のＵＲＬが存在すると判定されたＵＲＬについては、インデクシングの処理はスキップする。そして、閲覧情報で示される全てのＵＲＬに対して上記判定処理が完了すると、処理を終了する。

<効果の簡単な説明>

以上のように本実施例の検索システムでは、新規開設Ｗｅｂページなどハイパーリンクが張られていないため従来のクローラでは検索対象となっていなかったようなＷＷＷ上のリソースについても検索用のインデックスファイルとしてインデックス化することができる。

≪実施例３≫

<概要>

本実施例は、上記実施例１の検索システムを基本として、ネットワーク上の各クライアント端末のツールバー装置から閲覧情報を収集する。そしてＷＷＷ上のリソースの視聴度合いに関して、その閲覧情報を利用して従来よりも精度の高い視聴度指数である「トラフィックランク」を算出することを特徴とする検索システムである。

図１０は、本実施例の検索装置における処理の一例を説明するための図である。この図にあるように、ツールバー装置を備えるクライアント端末にて、サイトＢを経由したサイトＡへのアクセスが実行された。ここで、サイトＢへのアクセス時間は単なるリンクの経由であったため短い。一方、閲覧を目的としたサイトＡへのアクセス時間は長いものとなっている。

そして、そのようなアクセス（閲覧）時間を含む閲覧情報が検索装置に送信されると、検索装置ではそのアクセス時間や閲覧情報に含まれるその他情報を利用して「トラフィックランク」を算出する。そして、このトラフィックランクは、後述するように上記リンク経由によるアクセスや誤アクセスを排除した閲覧実体に即した指数となっているため、従来のサイト（ＷＷＷ上のリソース）視聴度指数よりも精度の高い指数を算出することができる、という具合である。

<機能的構成>

図１１は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索システム」（１１００）は、実施例１の構成を基本として、「ツールバー装置」（１１１０）と、「検索装置」（１１２０）とを有する。また「ツールバー装置」（１１１０）は、実施例１と同様に「閲覧情報送信部」（１１１１）と、「閲覧情報取得部」（１１１２）とを有する。なお、上記各構成は、実施例１にて既に記載済みであるのでその説明は省略する。

そして本実施例の特徴は、「検索装置」（１１２０）が、「第二閲覧管理サーバ装置」（１１３０）を有し、その第二閲覧管理サーバ装置がさらに「閲覧情報蓄積部」（１１３１）と、「トラフィックランクスコアリング部」（１１３２）とを有する点である。

「閲覧情報蓄積部」（１１３１）は、収集した閲覧情報を蓄積する機能を有する。具体的にはツールバー装置において取得され、閲覧管理サーバ装置を介するなどして検索装置にて収集された閲覧情報を入力として受け取り、ＨＤＤや不揮発性メモリなどの記憶媒体に格納する機能を有する。なお、ここで蓄積される閲覧情報は、後述するトラフィックランクスコアリング部におけるトラフィックランクの算出のため、例えばリソースごとの閲覧（アクセス）時間やユーザーＩＤ（クライアント端末ＩＤ、ツールバー装置ＩＤ）、リソースの遷移情報などが含まれていることが望ましい。

「トラフィックランクスコアリング部」（１１３２）は、閲覧情報蓄積部（１１３１）に蓄積されている閲覧情報に基づいてＵＲＬ毎にトラフィックランクを算出する機能を有する。「トラフィックランク」とは、ＷＷＷ上のリソースの視聴度指数をいい、例えば以下のようにして算出する方法が挙げられる。

すなわち、トラフィックランクの算出方法の一例としては、例えば１日における全ウェッブページの合計表示時間に対するウェッブページＡの合計表示時間のパーセンテージをウェッブページのランクとして算出する方法などが挙げられる。このようにウェッブページのランクを算出することで、クリックミスなどの表示時間が短いアクセスに関しては、そのランクを低いものとして算出することができる。したがって単純なアクセス数などでは推定することが困難な、クリックミスなどを排除して実体に即した広告効果などを示す指標としてウェッブページのトラフィックランクを算出することができる。

なお、上記ウェッブページのランクの算出処理として、主に以下のような３つのパターンによる算出処理が考えられる。第一に、例えば一日を単位とし、集計された全端末あるいは一部端末からのブラウジング情報に含まれる表示時間を利用して、いわゆるウェッブページごとの「全国ランク」を算出する処理が挙げられる。

また第二に、閲覧情報に含まれるユーザーＩＤなどから「ユーザーＩＤ−属性情報テーブル」などを参照して特定されるユーザーの属性情報を利用して、年齢別、男女別、居住地別、職業別などの各種セグメントごとにウェッブページの「属性別ランク」を算出するように構成しても良い。

なお上記「ユーザーＩＤ−属性情報テーブル」は、一例として以下のようにして構築することができる。例えば、クライアント端末にツールバー装置をインストールする際には、上記ユーザーの属性情報の登録を必須とする。そして、登録された属性情報をＣｏｏｋｉｅなどのユーザーＩＤと紐付けて検索装置にて管理することで、クライアント端末のツールバー装置から送信されたユーザー（属性情報）の特定を実行する、という具合である。

また第三に、ユーザーＩＤなどを利用して閲覧情報をユーザー単位で分類し、「ユーザーαにおけるサイトＡのランク」、「ユーザーαにおけるサイトＢのランク」といった具合に、いわゆる「ユーザー別ランク」を算出するよう構成しても良い。

具体的に、この第三の算出処理を行うための構成としては、本実施例の検索システムのツールバー装置と検索装置が以下のような構成を備えていると良い。例えば、このツールバー装置は、その閲覧情報送信部にて送信する閲覧情報に、例えばＣｏｏｋｉｅやその他ユーザーを識別するための情報であるユーザー識別情報を含み検索装置に送信するよう構成されている。

そして、ここで送信されたユーザー識別情報を利用して、検索装置の以下の構成によって「ユーザー別ランク」が算出されることになる。すなわち検索装置は、そのトラフィックランクスコアリング部がさらに「ユーザー別トラフィックランク算出手段」をさらに含むことを特徴とする。

「ユーザー別トラフィックランク算出手段」は、ユーザー別にトラフィックランクを算出する機能を有する。このユーザー別のトラフィックランクは、例えば前述の表示時間に応じたウェッブページのトラフィックランク算出時に、ユーザー識別情報を利用してユーザー単位で算出される、という具合である。

また、上記ウェッブページのランクの算出に際しては、同一ユーザーによる不正なども含めた同一リソースへの重複アクセスを排除してトラフィックランクを算出するよう構成しても良い。具体的には、閲覧情報に含まれるＣｏｏｋｉｅなどを利用して、同一ユーザーが同一ページへアクセスしたことを判断する。そして、そのように判断された表示時間に関しては、合計値ではなくその平均値などを利用してトラフィックランクを算出する、という具合である。

また、上記のように集計されたトラフィックランクについて、前日のアクセス数からの増減率（バースト度）を算出し、その増減率をウェッブページのランクに反映するような計算式を用いるよう構成しても良い。このような増減率を反映させることで、ウェッブページの一日ごとの盛り上がりを反映させることもできる。

図１２は、上記のようにして算出されたＷｅｂページ（リソース）ごとのトラフィックランクの一例を表す図である。この図にあるように、例えばその視聴回数やバースト度（前日のアクセス数からの増減率）を用いて、所定の関数によりリソースごとにトラフィックランクが「１４０」、「１２０」、「６０」、「８９」といった具合に算出される。そして、このようにして算出されたトラフィックランクに関して、本実施例の検索装置は当該リソースのＵＲＬと関連付けて図に示すようにテーブルデータなどとして保持する、という具合である。そしてそのトラフィックランクを利用して実施例４や５にて後述するよう「クローラ」の巡回頻度のスケジュール調整や検索結果の順位ソートなど様々な処理を実行することができる。

なお、例えばあるＷｅｂサイトの「トップページ」と「ページ１」「ページ２」、という具合に、通常は複数のリソースで一のＷｅｂコンテンツが構成されることが多い。したがってトラフィックランクスコアリング部で算出されるトラフィックランクは、ＵＲＬごとでなくても構わない。例えば、同一Ｗｅｂサイトを構成するＷｅｂページであれば、ＩＰアドレスやＵＲＬのドメインなどを比較することでそのことを判断し、ＵＲＬは異なっていても一のトラフィックランクが算出されるよう構成しても良い。

<ハードウェア的構成>

図１３は、上記機能的な各構成要件をハードウェアとして実現した際の、検索システムにおける構成の一例を表す概略図である。この図を利用して本実施例の検索システムにおけるそれぞれのハードウェア構成部の働きについて説明する。

この図にあるように、本実施例の検索システムのハードウェア構成は、ツールバー装置（１３１０）と検索装置（１３２０）とにより構成され、両者はインターネットを含む電気通信回線を介して、相互に接続可能となっている。

また、「ツールバー装置」（１３１０）は、実施例１と同様に「ＣＰＵ」（１３１１）と「ＲＡＭ」（１３１２）、「通信Ｉ／Ｆ」（１３１３）、「ＵＩ」（１３１４）、「ＶＲＡＭ」（１３１５）と「表示装置（ディスプレイなど）」（１３１６）と、を備える。

そして「検索装置」（１３２０）も実施例１と同様に、「ＣＰＵ」（１３２１）と「ＲＡＭ」（１３２２）、「通信Ｉ／Ｆ」（１３２３）と、「二次記憶装置」（１３２４）と、を有する。

ここで実施例１にて説明したように、ツールバー装置のツールバープログラムの処理によって、閲覧ＵＲＬがツールバー装置の「ＲＡＭ」の所定アドレスに格納される。また、本実施例では、さらに以下のようにして取得された閲覧ＵＲＬごとのアクセス時刻や閲覧（アクセス）時間などの情報が同様に「ＲＡＭ」の所定アドレスに格納される。

具体的に、例えば「ＵＩ」の操作入力に応じてブラウザプログラムが当該ＵＲＬのリソース（ここではＷｅｂページ）のコンテンツを「通信Ｉ／Ｆ」にて受信した時刻を内蔵時計などで取得し、アクセス時刻として「ＲＡＭ」に格納する。またブラウザプログラムによる処理を監視することで、当該ＵＲＬで示されるウェッブページが例えばディスプレイ上の最前面に表示されるよう制御されている時間や、ポインティングデバイスが当該ウェッブページのウィンドウ上にあるよう制御されている時間を図示しないカウンタや内蔵時計などで計測し、閲覧時間として「ＲＡＭ」に格納する、という具合である。

そしてツールバー装置ではツールバープログラムに従って、このように取得された閲覧ＵＲＬや、当該ＵＲＬで示されるリソースへのアクセス時刻や閲覧時間に、例えばCookieなどで示されるユーザーIDを加えて図２に示すようにテーブル化する。そしてそれら情報を閲覧情報として「通信I／F」から検索装置に対して送信する。

検索装置では、ツールバー装置のツールバープログラムにしたがった処理により送信されてきた閲覧情報を「通信Ｉ／Ｆ」にて受信し「ＲＡＭ」の所定アドレスに格納する。また閲覧情報は必要に応じて「二次記憶装置」に記録、蓄積されてもよい。

そして検索装置にて閲覧情報が格納されると、トラフィックランク算出プログラムに従い、以下のような処理が実行される。すなわち「ＲＡＭ」上などに格納されている上記閲覧情報を参照し、例えば以下のような関数を利用した演算処理を「ＣＰＵ」において実行しトラフィックランクを算出する。

ここで、例えばウェッブページaのトラフィックランクR_aは数１のような関数を用いて算出される。t_aは全ユーザーIDによるページaの視聴時間の合算値である。Tは、全ユーザーIDによる全URLの視聴時間合算値である。B_aは次の数２で示された、バースト値である。なおバースト値については後述する。Ｎ_Iは、総閲覧ID数である。また、ｎ_aは全ユーザーIDによるページａの閲覧回数の合算値である。Ｎは全ユーザーによる全ウェッブページの閲覧回数合算値である。そして、ｒ_xはページaの関連ページxのトラフィックランクである。

このように数１では、全ページの視聴時間（Ｔ）のうちのページａの視聴時間（ｔ_ａ）の割合（ｔ_ａ／Ｔ）を算出する。この数値によってクリックミスなどの表示時間が短いアクセスに関しては、そのトラフィックランクを低いものとして算出することができる。したがって前述のように、単純なアクセス数などでは推定することが困難なクリックミスなどを排除して、実体に即した指標としてリソースの視聴度指数を算出することができる。

また、ＷｅｂページａのＵＲＬのバースト度B_aは、例えば数２で示す関数式で求めると良い。ｒ_atは、Ｗｅｂページａの本日の閲覧数である。またｒ_ayは、Ｗｅｂページａの昨日の閲覧数である。つまり数１で算出されるバースト度は、昨日の閲覧数を基準とした本日の閲覧数の増減率となる。したがって、通常時のアクセス数に比べて急激な伸びが認められる場合にはこの値が高くなる。つまり、そのページの注目度の高まりをバースト度によって表し、当該Ｗｅｂページ（リソース）のトラフィックランクに反映させることができる。

また、その他にも総閲覧ＩＤ数（ＮＩ）を関数の変数として利用することで以下のような効果が期待できる。すなわち、例えばあるサイトのトラフィックランクを不正に上げようとして、一ユーザーがあるサイトへ複数アクセスを実行した。しかし、そのような場合でも変数ＮＩを利用することで、一ユーザーによる複数アクセスよりも複数ユーザーによる複数アクセスの方がトラフィックランクを高く算出することができる、という具合である。

また、トラフィックランクの算出対象であるＷｅｂページａのリンク先などの関連ページｘ１、ｘ２、・・・のトラフィックランク（ｒ_ｘ）を、上記関数の変数として利用しても良い。

また、ここで利用される関連ページのトラフィックランクｒ_ｘは、例えば算出の対象となっているＵＲＬからハイパーリンクが設けられているページについてのみ、加重平均等でトラフィックランクを算出するものでもよい。また、あるURLから遷移する確率が一定値以上であるURLを取り出し、各ＵＲＬが有するトラフィックランクを加重平均により算出したものを関連ＵＲＬのトラフィックランクとしてもよい。

また上記算出されるランクは、いわゆる「全国ランク」以外にも、前述のように「属性別ランク」や「個人ランク」であっても良い。具体的には、受信した閲覧情報に含まれるＣｏｏｋｉｅなどを「ＲＡＭ」に格納する。そしてそのＣｏｏｋｉｅをキーとして、予め保持しているユーザー登録情報などからその閲覧情報で示される表示時間に関してセグメントや個人を特定する処理を「ＣＰＵ」の演算処理によって実行する。そして、上記例えばＵＲＬａおよび全ＵＲＬの表示時間の合算処理において、特定された個人やセグメント別にその合算値を算出し、その表示時間の割合を「ＣＰＵ」の演算処理によって算出する、という具合である。

そして、このようにして閲覧ＵＲＬごとに算出したトラフィックランクを、「二次記憶装置」にトラフィックランクデータベースとして記録、保持する。そして実施例４や５で後述するように、「クローラ」の巡回頻度のスケジュール調整や検索結果の順位ソートなど際に当該トラフィックランクデータベースを参照する、という具合である。

<処理の流れ>

図１４は、本実施例の検索システムにおける処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。

この図にあるように、ツールバー装置にてツールバーが起動されると、まず閲覧ＵＲＬなどを取得する（ステップＳ１４０１）。次にユーザーのブラウザの操作により閲覧ＵＲＬが更新（変更）されたか否かを判断する（ステップＳ１４０２）。更新されたと判断された場合には当該ＵＲＬのアクセス時間を取得する（ステップＳ１４０３）。そして取得した閲覧ＵＲＬやアクセス時間を含む情報を閲覧情報として閲覧管理サーバ装置を含む検索装置に送信する（ステップＳ１４０４）。

次に検索装置において、この図にあるように、ｎ個のＵＲＬと、当該ＵＲＬに関連付けたユーザーＩＤや閲覧時間などの情報を含む閲覧情報をツールバー装置より受信する（ステップＳ１４１１）。次に受信した閲覧情報を主メモリなどに格納する（ステップＳ１４１２）。その後、ループ１（ステップＳ１４１３）を開始とする以下の処理を実行する。まず蓄積されたｎ個の閲覧情報を関数の変数として利用し、トラフィックランクを算出する（ステップＳ１４１４）。そして、ｎ個のＵＲＬごとに算出したトラフィックランクを、例えばＨＤＤなどにデータベースとして記録する。そして例えば当該データベースを参照し「クローラ」の巡回頻度のスケジュール調整を実行したり、検索結果の順位ソートを実行したりする。

<効果の簡単な説明>

このように本実施例の検索システムによって、誤アクセスなどを排除して集計した実効的なリソースのアクセス指標（視聴度指数）であるトラフィックランクを算出することができる。また、上記のような関数を利用すれば、さらに単にＷｅｂページのＵＲＬ毎のアクセス数や、ユニークユーザー数などだけではなく、注目度の高まりなどを含めた総合的な評価指標によりＷｅｂページを評価することができるトラフィックランクを算出することができる。

≪実施例４≫

<概要>

本実施例は、上記実施例３を基本として、算出したトラフィックランクをリソースの人気度の指標として利用し、クローラの巡回優先度の決定に利用することを特徴とする検索システムである。

図１５は、本実施例の検索システムにおける処理の一例を説明するための概念図である。この図にあるように、検索装置は上記実施例３で記載した構成、処理によって、トラフィックランクを算出し、データベースとして保持している。そしてさらに、本実施例の検索装置では、例えば「ＴＲ（トラフィックランク）：６０」のサイトＣに対しては「巡回優先度：１２」、一方「ＴＲ：２０」のサイトＤであれば「巡回優先度：４」という具合に、トラフィックランクに応じて巡回優先度を算出していることを特徴とする。

そして、このトラフィックランクに応じた優先度を利用して、本実施例の検索装置では、クローラの巡回スケジュールを、例えばサイトＣであれば「３回／週」としてスケジューリングし、一方優先度（トラフィックランク）の低いサイトＤは「1回／週」としてスケジューリングする、という具合である。

つまり、前述のようにインターネットユーザーは更新頻度が高いＷｅｂページを中心的に検索しアクセスする傾向がある。これは逆に言えば、アクセス頻度の高いリソースは頻繁に更新などされている可能性が高い、ということである。そして、上記実施例３で説明したように「トラフィックランク」は、ユーザーの実効的なアクセス数を示す指標である。したがって、このトラフィックランクによってユーザーの実効的なアクセス数に応じてクローラの巡回優先度の決定することができる、ということである。

<機能的構成>

図１６は、本実施例の検索システムにおける機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索システム」（１６００）は、実施例３を基本として「ツールバー装置」（１６１０）と、「検索装置」（１６２０）とを有する。また「ツールバー装置」（１６１０）は、実施例３と同様に「閲覧情報送信部」（１６１１）と、「閲覧情報取得部」（１６１２）とを有する。

また「検索装置」（１６２０）も、実施例３を基本として「第二閲覧管理サーバ装置」（１６３０）を有し、その第二閲覧管理サーバ装置が「閲覧情報蓄積部」（１６３１）と、「トラフィックランクスコアリング部」（１６３２）とを有する。なお、上記ツールバー装置及び検索装置の各構成は、実施例１や３にて既に記載済みであるのでその説明は省略する。

そして、本実施例の特徴点は、検索装置が、さらに「クローラ部」（１６２１）と、「スケジュール決定部」（１６２２）と、を有する点である。

「クローラ部」（１６２１）は、インターネット上のリソース間に張られたハイパーリンクをたどりＷＷＷ上を巡回することで各リソースにアクセスしコンテンツを収集するいわゆる「クローラ」プログラムによって実現することができる。

また、このクローラプログラムは、通常その巡回対象となるリソースのＵＲＬやその巡回開始時刻などを予め定めたスケジュールに従ってコンテンツを収集する機能を有する。そして、本実施例では、下記の構成によってそのスケジューリングにおける巡回頻度を、トラフィックランクに応じて立案することを特徴とする。

「スケジュール決定部」（１６２２）は、トラフィックランクスコアリング部（１６３２）で算出されたトラフィックランクに基づいてクローラ部（１６２１）のクローリングスケジュールを決定する機能を有する。

具体的には、例えばトラフィックランクを変数とする比例関数ｙ＝ｆ（ＴＲ）を利用したＣＰＵの演算処理によって当該ＵＲＬに対するクローラプログラム実行の巡回優先度ｙを算出する。そして算出した巡回優先度に基づいて、例えば「３回／週（巡回優先度１２）」、「１回／週（巡回優先度４）」といった具合にクローラプログラムの巡回頻度を含むスケジュールを決定する、という具合である。

このようにして、ユーザーの実効的なアクセス数を示すトラフィックランクによってクローラの巡回優先度の決定し、更新頻度が高く情報鮮度が高いと思われるＷＷＷ上のリソースの情報を検索装置にて好適なタイミングで更新取得することができる。

<ハードウェア的構成>

図１７は、上記機能的な各構成要件をハードウェアとして実現した際の、検索システムにおける構成の一例を表す概略図である。この図を利用して本実施例の検索システムにおけるそれぞれのハードウェア構成部の働きについて説明する。

この図にあるように、本実施例の検索システムのハードウェア構成は、ツールバー装置（１７１０）と検索装置（１７２０）より構成され、両者はインターネットを含む電気通信回線を介して、相互に接続可能となっている。

なお「ツールバー装置」（１７１０）は、実施例３のツールバー装置と同様の構成、及び処理を行うため、ここでの説明は省略する。そして「検索装置」（１７２０）の構成は、上記実施例と同様に、「ＣＰＵ」（１７２１）と「ＲＡＭ」（１７２２）、「通信Ｉ／Ｆ」（１７２３）と、「二次記憶装置」（１７２４）と、を有し、以下のような処理を実行する。

すなわちツールバー装置から上記実施例３にて説明したような処理によって送信されてきた、閲覧ＵＲＬ、及びその閲覧ＵＲＬごとのアクセス時刻や閲覧（アクセス）時間などの情報を含む閲覧情報を、検索装置は「通信Ｉ／Ｆ」にて受信し、「ＲＡＭ」の所定アドレスに格納する。

そして、同じく上記実施例３にて記載したような処理を実行し、「ＲＡＭ」上に格納されている上記閲覧情報を利用してＵＲＬごとのトラフィックランクを算出し、トラフィックランクデータベースとして「二次記憶装置」に記録、保持する。

つづいてスケジュール決定プログラムに従い以下のような処理が実行される。すなわちクローラの巡回スケジュールを立てるべきＵＲＬをキーとして「二次記憶装置」に保持されているトラフィックランクデータベースを参照し、当該ＵＲＬのトラフィックランクの値ＴＲを取得する。そして例えばｙ＝ｆ（ＴＲ）といった関数を利用した演算処理を「ＣＰＵ」において実行し、当該トラフィックランクに係るＵＲＬを対象としたクローラプログラムの巡回優先度ｙを算出する。そして、「二次記憶装置」に保持されている「巡回優先度−巡回頻度テーブル」を参照し、算出された巡回優先度ｙと対応付けられた、例えば「３回／週」といった巡回頻度を決定する。

そして決定された「３回／週」といった巡回頻度に応じてタスクスケジューラなどでクローラプログラムの実効日時を予約し、決定された頻度でのクローラプログラムによるリソース巡回、コンテンツ取得処理が実行される、という具合である。

<処理の流れ>

図１８は、本実施例の検索システムにおける処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。

まず、ツールバー装置における処理の流れについては、図１４を用い実施例３で述べた処理（Ｓ１４０１〜Ｓ１４０４）と同様であるためその説明は省略する。

次に検索装置において、この図にあるように、ｎ個のＵＲＬと、当該ＵＲＬに関連付けたユーザーＩＤや閲覧時間などの情報を含む閲覧情報をツールバー装置より受信する（ステップＳ１８１１）。次に受信した閲覧情報を主メモリなどに格納する（ステップＳ１８１２）。その後、ループ１（ステップＳ１８１３）を開始とする以下の処理を実行する。まず蓄積されたｎ個の閲覧情報を、例えば前述の関数の変数として利用しトラフィックランクを算出する（ステップＳ１８１４）。そして、算出したトラフィックランクに基づいて当該ＵＲＬに対するクローラ部のクローリングスケジュールを決定する（ステップＳ１８１５）。そして上記処理をｎ個のＵＲＬに関して繰り返して実行する（ステップＳ１８１６）。

<効果の簡単な説明>

このように本実施例の検索システムによって、ユーザーの実効的なアクセス数を示すトラフィックランクによってクローラの巡回優先度の決定することができる。したがって、更新頻度が高く情報鮮度が高いと思われるＷＷＷ上のリソースの情報を検索装置にて好適なタイミングで更新取得することができる。

≪実施例５≫

<概要>

本実施例は、上記実施例３や４を基本として、算出したトラフィックランクを利用して、ツールバー装置からの検索リクエストに対する検索結果をソートすることを特徴とする検索システムである。

図１９は、本実施例の検索システムにおける検索処理の一例を説明するための概念図である。この図にあるように、クライアント端末が当該検索システムにおける検索用Ｗｅｂページにアクセスし、検索クエリの入力、送信を行う。すると検索装置は従来の検索システム同様に検索クエリを含むリソースを検索用のインデックスファイルから抽出する。そして、抽出されたリソースをリスト化などし、検索結果用画面を生成する。

ここで、本実施例の検索装置は従来と異なる以下のような処理をさらに実行する。すなわち、検索結果で示されるＵＲＬ（のリスト）に係るトラフィックランク値の大小に応じて、例えばサイトＢを検索結果（リスト）の1番上位にソートし、サイトＡを２番目にソートする、といった検索結果の並び替えを実行する、という具合である。

このようにして、本実施例の検索システムではユーザーの実効的なアクセス数を示すトラフィックランクに応じた検索結果をクライアント端末に返信することができる。

<機能的構成>

図２０は、本実施例の検索システムにおける機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索システム」（２０００）は、実施例３を基本として「ツールバー装置」（２０１０）と、「検索装置」（２０２０）とを有する。また「ツールバー装置」（２０１０）は、実施例３と同様に「閲覧情報送信部」（２０１１）と、「閲覧情報取得部」（２０１２）とを有する。

また「検索装置」（２０２０）も、実施例３を基本として「第二閲覧管理サーバ装置」（２０３０）を有し、その第二閲覧管理サーバ装置が「閲覧情報蓄積部」（２０３１）と、「トラフィックランクスコアリング部」（２０３２）とを有する。また、上記実施例４を基本として、検索装置が図示しない「クローラ部」や「スケジュール決定部」を有していても良い。なお、上記ツールバー装置及び検索装置の各構成は、上記各実施例にて既に記載済みであるのでその説明は省略する。

そして、本実施例の特徴点は、検索装置が、「ランクソート出力部」（２０２１）をさらに有する点である。

「ランクソート出力部」（２０２１）は、トラフィックランクスコアリング部（２０３２）で算出されたトラフィックランクに基づいて検索結果をソートしてクライアントに対して出力する機能を有する。

具体的に「ランクソート出力部」による前記ソートの前に、本実施例の検索システムでは従来の検索システム同様の検索処理が実行される。すなわち、クライアント端末にて送信された検索クエリをキーとして、検索用インデックスファイルを検索する。そして検索クエリを含むリソースをインデックスファイルから抽出する。

続いて、その抽出したリソースを並び替えて例えば箇条形式（リスト形式）などの検索結果としてクライアントに返信することになる。ここで通常の検索システムでは、検索結果の並び替えを、例えばデータ生成や取得の古い順／新しい順、アクセス数順、あいうえお順、あるいはリンクを利用して付されるリソースの再帰的な格付け、などに応じて実行する。しかし、本実施例の検索システムでは、実施例３で算出したユーザーの実体的なアクセス数を示すトラフィックランクを利用する事を特徴とする。すなわち、検索によって抽出されたリソースのトラフィックランクを、上記実施例３にて記載したトラフィックランクデータベースなどから取得する。そしてトラフィックランクの大小比較をＣＰＵの演算処理によって実行し、例えばトラフィックランクの大きい順にリソースを並び替え（ソートして）検索結果とする、という具合である。

このようにして、ユーザーの実効的なアクセス数、すなわち実体的なアクセス人気度を示すトラフィックランクに応じた検索結果をクライアント端末に返信することができる。

<ハードウェア的構成>

図２１は、上記機能的な各構成要件をハードウェアとして実現した際の、検索システムにおける構成の一例を表す概略図である。この図を利用して本実施例の検索システムにおけるそれぞれのハードウェア構成部の働きについて説明する。

この図にあるように、本実施例の検索システムのハードウェア構成は、ツールバー装置（２１１０）と検索装置（２１２０）より構成され、両者はインターネットを含む電気通信回線を介して、相互に接続可能となっている。

なお「ツールバー装置」（２１１０）は、実施例３や４のツールバー装置と同様の構成、及び処理を行うため、ここでの説明は省略する。そして「検索装置」（２１２０）の構成は、上記実施例と同様に、「ＣＰＵ」（２１２１）と「ＲＡＭ」（２１２２）、「通信Ｉ／Ｆ」（２１２３）と、「二次記憶装置」（２１２４）と、を有し、以下のような処理を実行する。

すなわちツールバー装置から送信された閲覧ＵＲＬ、及びその閲覧ＵＲＬごとのアクセス時刻や閲覧（アクセス）時間などの情報を含む閲覧情報を利用して、検索装置にてトラフィックランクが算出され「二次記憶装置」に記録、保持される。

その後、ネットワーク上のツールバー装置が検索用Ｗｅｂページにアクセスし、検索クエリの入力、送信を行うと、検索装置は「通信Ｉ／Ｆ」にてその検索クエリを含むＨＴＴＰリクエストを受信し、「ＲＡＭ」の所定アドレスに格納する。すると、検索装置では検索サーバプログラムに従い以下の処理を実行する。すなわち「ＲＡＭ」に格納されている検索クエリをキーとして、「二次記憶装置」に保持されている検索用のインデックスファイルを参照し、検索クエリを含むリソースを抽出する。

つづいて、同じく「二次記憶装置」に保持されているトラフィックランクデータベースを参照し、抽出したリソースのトラフィックランクを取得する。そして、「ＣＰＵ」の比較演算処理によってトラフィックランクの大小比較を実行し、例えばトラフィックランクの大きい（ランクが高い）順に検索結果の並び順を決定する。そして決定された並び順に従って抽出したリソースを並べて箇条形式とした検索結果を「ＣＰＵ」の演算処理によって生成し、「通信Ｉ／Ｆ」より検索クエリの送信元のツールバー装置に対して返信する、という具合である。

<処理の流れ>

図２２は、本実施例の検索システムにおける処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。

まず、ツールバー装置が組み込まれるなどしたクライアント端末における処理の流れについては、図１４を用い実施例３で述べた処理（Ｓ１４０１〜Ｓ１４０４）と同様であるためその説明は省略する。また検索装置におけるトラフィックランクの算出（ステップＳ２２１１）までの処理も実施例３で述べた処理（Ｓ１４１１〜Ｓ１４１４）までと同様であるのでその説明は省略する。

そして、この図にあるように、検索装置ではネットワーク上のクライアント端末（ツールバー装置が組み込まれていなくとも構わない）から送信された検索クエリを受信する（ステップＳ２２１２）と、検索クエリをキーとして検索用インデックスファイルの検索処理を実行する（ステップＳ２２１３）。そして検索クエリをコンテンツに含むリソースを抽出し検索結果として取得する（ステップＳ２２１４）。

つづいて、抽出したリソースのトラフィックランクを取得し（ステップＳ２２１５）、そのトラフィックランクの例えば大小順に応じて検索結果のリソースを並び替える（ステップＳ２２１６）。そして並び替えた検索結果を、検索クエリの送信元のクライアント端末に対して返信する（ステップＳ２２１７）。

<効果の簡単な説明>

このように本実施例の検索システムによって、ユーザーの実効的なアクセス数、すなわち実体的なアクセス人気度を示すトラフィックランクに応じた検索結果をクライアント端末に返信することができる。

≪実施例６≫

<概要>

本実施例は、実施例２と同様に新規の検索対象を抽出し、抽出した新規検索対象ＵＲＬを利用して検索用のインデックスファイルを追加更新する機能を備える。そして、実施例２との相違点は、その新規検索対象ＵＲＬの抽出において、実施例３などにて説明したトラフィックランクを利用する点である。

具体的には、検索装置において、クライアント端末のツールバー装置にて閲覧情報を取得し、上記実施例で記載したようにＵＲＬごとにトラフィックランクを算出する。ここで、実施例２と同じようにそのＵＲＬが検索用のインデックスファイルに含まれるかを判断する。そして、インデックスファイルに含まれておらず、かつ例えばトラフィックランクが所定値以上であれば、新規にインデックスファイルに追加するに相応しいリソースであるとして、クローラの新規巡回検索対象として、実施例２同様にインデクシング処理を実行する、という具合である。

<機能的構成>

図２３は、本実施例の検索システムにおける機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索システム」（２３００）は、実施例３を基本として「ツールバー装置」（２３１０）と、「検索装置」（２３２０）とを有する。また「ツールバー装置」（２３１０）は、実施例３と同様に「閲覧情報送信部」（２３１１）と、「閲覧情報取得部」（２３１２）とを有する。

また「検索装置」（２３２０）も、実施例３を基本として「第二閲覧管理サーバ装置」（２３３０）を有し、その第二閲覧管理サーバ装置が「閲覧情報蓄積部」（２３３１）と、「トラフィックランクスコアリング部」（２３３２）とを有する。また、上記実施例４や５を基本として、検索装置が図示しない「クローラ部」や「スケジュール決定部」、「ランクソート出力部」を有していても良い。なお、上記ツールバー装置及び検索装置の各構成は、上記各実施例にて既に記載済みであるのでその説明は省略する。

そして、本実施例の特徴点は、検索装置が、「第二インデクサ部」（２３２１）をさらに有する点である。

「第二インデクサ部」（２３２１）は、トラフィックランクスコアリング部で算出されたトラフィックランクに基づいて検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬを抽出するとともに、抽出したＵＲＬのコンテンツをインデクシングする機能を有する。

なお、算出されたトラフィックランクに係るＵＲＬを、クローラの新規巡回検索の対象とするための処理については、実施例２にて記載したものと同様であるのでその説明は省略する。また、本実施例においては、インデックスファイル中のＵＲＬとトラフィックランクに係るＵＲＬの差分のみならず、そのＵＲＬで示されるリソースの視聴度指数であるトラフィックランクを利用するため、実施例２で記載した処理に加えさらに以下のような処理を実行しても良い。

すなわち、トラフィックランクが所定値以上であるか否かの比較判断処理を実行し、所定値以上であればクローラの新規巡回検索対象として相応しいリソースである、と判断する。一方、トラフィックランクが所定値以下であると判断された場合には、クローラの新規巡回検索対象としてインデックスファイルには追加しない、という具合である。

<ハードウェア的構成>

図２４は、上記機能的な各構成要件をハードウェアとして実現した際の、検索システムにおける構成の一例を表す概略図である。この図を利用して本実施例の検索システムにおけるそれぞれのハードウェア構成部の働きについて説明する。

この図にあるように、本実施例の検索システムのハードウェア構成は、ツールバー装置（２４１０）と検索装置（２４２０）より構成され、両者はインターネットを含む電気通信回線を介して、相互に接続可能となっている。

なお「ツールバー装置」（２４１０）は、実施例３や４、５のツールバー装置と同様の構成、及び処理を行うため、ここでの説明は省略する。そして「検索装置」（２４２０）の構成は、上記実施例と同様に、「ＣＰＵ」（２４２１）と「ＲＡＭ」（２４２２）、「通信Ｉ／Ｆ」（２４２３）と、「二次記憶装置」（２４２４）と、を有し、以下のような処理を実行する。

まず、上記実施例と同様の処理により、ツールバー装置から送信された閲覧ＵＲＬ、及びその閲覧ＵＲＬごとのアクセス時刻や閲覧（アクセス）時間などの情報を含む閲覧情報を利用して、検索装置にてトラフィックランクが算出され「二次記憶装置」に記録、保持される。

つづいて、予め「二次記憶装置」にて格納されている検索サービス用のインデックスファイルを参照し、「二次記憶装置」の保持されたトラフィックランクに係るＵＲＬをキーとした検索処理を実行する。そして、その検索処理の結果、インデックスファイルに当該ＵＲＬが含まれていないとの判断結果が出力されれば、そのＵＲＬは新規検索対象のＵＲＬ候補であると判断する。

つづいて、第二インデクサプログラムに従い、「ＣＰＵ」は前記候補ＵＲＬに係るトラフィックランクを「ＲＡＭ」に格納し、予め「二次記憶装置」に保持されている所定値との大小比較処理を実行する。そしてその大小比較処理の結果トラフィックランクが所定値以上であると判断されれば、当該ＵＲＬは新規検索対象のＵＲＬとしてインデクシング処理（二次記憶装置に保持されているインデックスファイルへの追加更新処理）が実行される、という具合である。

<処理の流れ>

図２５は、本実施例の検索システムにおける処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。

次に検索装置において、この図にあるように、ｎ個のＵＲＬと、当該ＵＲＬに関連付けたユーザーＩＤや閲覧時間などの情報を含む閲覧情報をツールバー装置より受信する（ステップＳ２５１１）。次に受信した閲覧情報を主メモリなどに格納する（ステップＳ２５１２）。その後、ループ１（ステップＳ２５１３）を開始とする以下の処理を実行する。まず蓄積されたｎ個の閲覧情報を関数の変数として利用し、トラフィックランクを算出する（ステップＳ２５１４）。

つづいて検索装置のインデックスファイルに当該ＵＲＬが存在するか否かの第一の判断処理を行う（ステップＳ２５１５）。そして第一の判断処理の結果、インデックスファイルに当該ＵＲＬが存在しないとの判断結果が出力された場合、当該ＵＲＬに係るトラフィックランクが所定値以上であるか否かの判断処理を実行する（ステップＳ２５１６）。

そして第二の判断処理の結果、トラフィックランクが所定値以上であるとの判断結果が出力されれば、クローラの新規巡回検索対象として相応しいリソースである、として抽出したＵＲＬを、クローラの新規検索対象ＵＲＬとしてインデクシング処理を実行する（ステップＳ２５１７）。

<効果の簡単な説明>

このように本実施例の検索システムによって、インデックスファイルへの追加（インデクサ）を行うに相応しいリソースであるかを判断した上で、新規開設Ｗｅｂページなどハイパーリンクが張られていないため従来のクローラでは検索対象となっていなかったようなＷＷＷ上のリソースについてもインデクサを実行することができる。

実施例１の検索システムにおける閲覧情報収集の一例を説明するための概念図実施例１の検索システムの検索装置に収集される閲覧情報の一例を表す図実施例１の検索システムにおける機能ブロックの一例を表す図実施例１の検索システムにおけるハードウェア構成の一例を表す図実施例１の検索システムにおける処理の流れの一例を表すフローチャート実施例２の検索システムにおける処理の一例を説明するための概念図実施例２の検索システムにおける機能ブロックの一例を表す図実施例２の検索システムにおけるハードウェア構成の一例を表す図実施例２の検索システムにおける処理の流れの一例を表すフローチャート実施例３の検索システムにおける処理の一例を説明するための概念図実施例３の検索システムにおける機能ブロックの一例を表す図実施例３の検索システムのトラフィックランクスコアリング部にて算出されたＷｅｂページごとのトラフィックランクの一例を表す図実施例３の検索システムにおけるハードウェア構成の一例を表す図実施例３の検索システムにおける処理の流れの一例を表すフローチャート実施例４の検索システムにおける処理の一例を説明するための概念図実施例４の検索システムにおける機能ブロックの一例を表す図実施例４の検索システムにおけるハードウェア構成の一例を表す図実施例４の検索システムにおける処理の流れの一例を表すフローチャート実施例５の検索システムにおける処理の一例を説明するための概念図実施例５の検索システムにおける機能ブロックの一例を表す図実施例５の検索システムにおけるハードウェア構成の一例を表す図実施例５の検索システムにおける処理の流れの一例を表すフローチャート実施例６の検索システムにおける機能ブロックの一例を表す図実施例６の検索システムにおけるハードウェア構成の一例を表す図実施例６の検索システムにおける処理の流れの一例を表すフローチャート

符号の説明

０３００検索システム
０３１０ツールバー装置
０３１１閲覧情報取得部
０３１２閲覧情報送信部
０３２０検索装置
０７３０第一閲覧管理サーバ装置
０７３１第一インデクサ部
１１３０第二閲覧管理サーバ装置
１１３１閲覧情報蓄積部
１１３２トラフィックランクスコアリング部

Claims

クライアント端末に設けられ、ブラウザとともに動作するよう構成されたツールバー装置と、検索装置と、からなる検索システムであって、
前記ツールバー装置は、
ブラウザから少なくとも利用者が閲覧したリソースのＵＲＬである閲覧ＵＲＬとリソースごとの閲覧時間とを含む閲覧情報を取得する閲覧情報取得部と、
取得した閲覧情報を所定の閲覧管理サーバ装置に電気通信回線を介して送信する閲覧情報送信部と、を有し、
前記検索装置は、
前記閲覧情報送信部から送信される閲覧情報を収集し、収集した閲覧情報に基づいて、クローラの収集により生成したインデックスファイルに含まれていないＵＲＬであって、検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬを抽出するとともに、抽出したＵＲＬのコンテンツをインデックスファイルにインデクシングする第一インデクサ部を有する第一閲覧管理サーバ装置と、
収集した閲覧情報を蓄積する閲覧情報蓄積部と、
閲覧情報蓄積部に蓄積されている閲覧情報に含まれるリソースごとの閲覧時間に基づいてＵＲＬ毎にその閲覧時間の長短を示す視聴度指数であるトラフィックランクを算出するトラフィックランクスコアリング部を有する第二閲覧管理サーバ装置と、を含むとともに、
トラフィックランクスコアリング部で算出されたトラフィックランクが所定値以上のＵＲＬを、検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬとして抽出するとともに、抽出したＵＲＬのコンテンツをインデックスファイルにインデクシングする第二インデクサ部を有する検索システム。
前記検索装置は、
クローラ部と、
トラフィックランクスコアリング部で算出されたトラフィックランクに基づいてクローラ部のクローリングスケジュールを決定するスケジュール決定部と、
を有する請求項１に記載の検索システム。
前記検索装置は、トラフィックランクスコアリング部で算出されたトラフィックランクに基づいて検索結果をソートしてクライアントに対して出力するランクソート出力部を有する請求項１または２に記載の検索システム。
複数の請求項１に記載のツールバー装置から閲覧情報を収集する検索装置であって、
収集した閲覧情報に基づいて検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬを抽出するとともに、抽出したＵＲＬのコンテンツをインデクシングする第一インデクサ部を有する第一閲覧管理サーバ装置と、
収集した閲覧情報を蓄積する閲覧情報蓄積部と、
閲覧情報蓄積部に蓄積されている閲覧情報に含まれるリソースごとの閲覧時間に基づいてＵＲＬ毎にその閲覧時間の長短を示す視聴度指数であるトラフィックランクを算出するトラフィックランクスコアリング部を有する第二閲覧管理サーバ装置と、含む検索装置。
トラフィックランクスコアリング部で算出されたトラフィックランクに基づいて検索結果をソートしてクライアントに対して出力するランクソート出力部を有する請求項４に記載の検索装置。
クローラ部と、
トラフィックランクスコアリング部で算出されたトラフィックランクに基づいてクローラ部のクローリングスケジュールを決定するスケジュール決定部と、
を有する請求項４または５に記載の検索装置。
トラフィックランクスコアリング部で算出されたトラフィックランクに基づいて検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬを抽出するとともに、抽出したＵＲＬのコンテンツをインデクシングする第二インデクサ部を有する請求項４から６のいずれか一に記載の検索装置。
検索装置において、
閲覧ＵＲＬとリソースごとの閲覧時間とを含む閲覧情報を収集する閲覧情報収集ステップと、
収集した閲覧情報に基づいて、クローラの収集により生成したインデックスファイルに含まれていないＵＲＬであって、検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬを、ＣＰＵの演算処理によって抽出するステップと、
抽出したＵＲＬのコンテンツを、ＣＰＵの演算処理によってインデクシングする第一インデクシングステップと、
収集した閲覧情報を保持するため閲覧情報保持部に格納する閲覧情報格納ステップと、
閲覧情報に含まれるリソースごとの閲覧時間に基づいて、ＣＰＵの演算処理によってＵＲＬ毎にその閲覧時間の長短を示す視聴度指数であるトラフィックランクを算出するトラフィックランクスコアリングステップと、
トラフィックランクスコアリングステップで算出されたトラフィックランクが所定値以上のＵＲＬを、検索エンジンにて新規に検索対象として利用するＵＲＬである新規検索対象ＵＲＬとして、ＣＰＵの演算処理によって抽出するステップと、
抽出したＵＲＬのコンテンツを、ＣＰＵの演算処理によってインデクシングする第二インデクシングステップと、
を計算機に実行させる検索方法。
トラフィックランクスコアリングステップで算出されたトラフィックランクに基づいて検索結果をＣＰＵの演算処理によってソートしてクライアントに対して出力するランクソート出力ステップをさらに計算機に実行させる請求項８に記載の検索方法。
クローラステップと、
トラフィックランクスコアリングステップで算出されたトラフィックランクに基づいて、ＣＰＵの演算処理によってクローラステップのクローリングスケジュールを決定するスケジュール決定ステップと、
を計算機に実行させる請求項８または９に記載の検索方法。