JP3664906B2

JP3664906B2 - 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Info

Publication number: JP3664906B2
Application number: JP02864799A
Authority: JP
Inventors: 克良土居
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-02-05
Filing date: 1999-02-05
Publication date: 2005-06-29
Anticipated expiration: 2019-02-05
Also published as: JP2000227886A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えばサーバコンピュータとクライアントコンピュータとがネットワークで結ばれたシステムにおいて、サーバコンピュータ上にあるハイパーリンク構造をもったデータファイルをクライアントコンピュータ上において閲覧する際に利用される情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体に関するものである。
【０００２】
【従来の技術】
昨今、複数のサーバコンピュータおよび複数のクライアントコンピュータがネットワークで結ばれ、各サーバコンピュータにハイパーテキスト構造のマルチメディアデータが記憶されており、各クライアントコンピュータにおいて、ブラウザと呼ばれるソフトウェアによって、このようなマルチメディアデータを閲覧することが可能なシステムが広く普及している。このようなシステムの例としては、例えば、インターネットにおけるWorld Wide Web（ＷＷＷ）と呼ばれるシステムなどが挙げられる。
【０００３】
マルチメディアデータを含む文書は、例えばHyper Text Markup Language（ＨＴＭＬ）と呼ばれる記述言語によって記述されており、テキスト文書、静止画、動画、音楽データ、およびJava（登録商標）アプレットなどのアプリケーションプログラムなどを含むことが可能になっている。このような文書（以下、ＨＴＭＬページと称する）およびマルチメディアデータには、それぞれＵＲＬ(Uniform Resource Locator)と呼ばれる固有のアドレスが割り当てられている。ユーザは、ブラウザ上においてＵＲＬを指定することによって、所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることができる。また、ＨＴＭＬページには、他のページやマルチメディアデータへアクセスするためのリンクなども埋め込まれており、ユーザは、このリンクをブラウザ上でポイントすることによって、リンク先のページやマルチメディアデータに移動することも可能となっている。
【０００４】
クライアントコンピュータにおけるＨＴＭＬ表示ソフトウェアであるブラウザとしては、例えば、Netscape Communications 社のNetscape Communicator （登録商標）や、Microsoft 社のInternet Explorer （登録商標）などの製品が広く普及している。これらのブラウザでは、アクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬ、アクセス日時、およびタイトルなどが、履歴データとしてクライアントコンピュータ内のハードディスクに記憶することが可能になっている。そして、ユーザは、過去にアクセスしたＨＴＭＬページあるいはマルチメディアデータに再びアクセスしたい時に、この履歴データを参照することによって、容易に所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることが可能となる。
【０００５】
また、例えばNetscape Communicator では、履歴データに基づいて、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬを、頻度順、あるいは日時順などに並べ変えて表示することが可能となっている。
【０００６】
さらに、例えば特開平10-143519号公報には、ユーザが過去にアクセスしたＵＲＬに対して、頻度や視聴時間をもとに順序づけを行い、その結果を表示する方法および装置が開示されている。
【０００７】
また、例えば特開平9-204347号公報、特開平10-21134号公報には、サーバコンピュータとクライアントコンピュータとの間でＵＲＬの中継を行うゲートウェイコンピュータにおいて、ゲートウェイコンピュータに中継キャッシュが内蔵されている場合、過去に中継したＵＲＬに対して、その頻度の算出を行ってリストを作成するとともに、頻度順にゲートウェイコンピュータが自発的にキャッシュの更新を行う方法が開示されている。
【０００８】
これらの方式に共通する点としては、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬに関して、その頻度に注目し、それらを統計処理することによって頻度を算出し、頻度の高いＨＴＭＬページおよびマルチメディアデータは、ユーザの要求度が高いと判断している点である。
【０００９】
【発明が解決しようとする課題】
ここで、情報を提供する複数のサーバコンピュータと、ゲートウェイコンピュータと、
クライアントコンピュータとからなるシステムを想定する。なお、ゲートウェイコンピュータとは、異なるネットワーク／システムを相互接続するためのコンピュータを示すものである。
【００１０】
そして、例えば、図８に示すように、あるサーバコンピュータ上に、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが存在し、別のサーバコンピュータ上に、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページが存在するとする。
【００１１】
ＵＲＬが“http://www.news/”で示されるＨＴＭＬページは、あるニュース情報（「日々新聞」）を提供するページであり、「新刊情報（“http://www.news/1.html”）」、「天気予報（“http://www.news/2.html”）」、「Ａ社新製品（“http://www.news/3.html”）」、「Ｂ社新製品（“http://www.news/4.html”）」、および「Ｃ社新製品（“http://www.news/5.html”）」の５つのＨＴＭＬページへのリンクがはられてある。
【００１２】
また、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページは、奈良県地域情報を提供するページであり、「株式情報（“http://www/a.mov”）」および「道路情報（“http://www/b.mov”）」の２つの動画データ、および「お知らせ（“http://www/index.html ”）」のＨＴＭＬページにリンクがはられてある。
【００１３】
ここで、あるユーザが、クライアントコンピュータにおいて、まず、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている５つのＨＴＭＬページ（テキストデータ）を閲覧し、その後、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている２つの動画データ、および１つのＨＴＭＬページ（テキストデータ）を閲覧したとする。
【００１４】
このとき、以下に示す表１のようなアクセスログが、ゲートウェイコンピュータに記録される。
【００１５】
【表１】

【００１６】
なお、表１において、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが一回しかカウントされていないのは、次のような理由によるものである。例えば、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページから、リンク先である「新刊情報（“http://www.news/1.html”）」のページへ移動し、閲覧後、ブラウザのバックボタン（戻るボタン）を押すことによって再び“http://www.news/”のページに戻り、同様にして他の４つのリンク先に移動したとする。この際に、ブラウザには、通常、キャッシュが一定量蓄積されており、「新刊情報（“http://www.news/1.html”）」のページから、“http://www.news/”のページに戻る際には、このキャッシュから“http://www.news/”のページのデータが取り出されることになる。この場合、ゲートウェイコンピュータには、ＵＲＬの取得要求が伝達されないので、ゲートウェイコンピュータのアクセスログには、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが、一回しか現れてこないことになる。
【００１７】
表１に示す集計結果によれば、どのＵＲＬも１回の出現頻度であるから、上記のように、出現頻度に基づいてユーザの要求度を判断する方式によれば、どのＵＲＬもユーザの要求度は同等とみなされることになる。しかしながら、実際には、ユーザは、後日、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページや、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページに再びアクセスし、新しいリンクが作られていれば、その新しいリンクにアクセスする、というアクセス動作を行う可能性が高いと予想される。この際に、すでにアクセス済みのＵＲＬである“http://www.news/1.html”や、“http://www.news/2.html”などへ再びアクセスすることはほとんどないものと予想される。
【００１８】
すなわち、上記のように、出現頻度に基づいてユーザの要求度を判断する方式の場合には、実際のユーザの要求度を反映した判定を行っていないことになる。よって、このような方式によって示された結果には、無駄なデータが多く含まれることになり、ユーザにとって有用な情報が示されているとは言いがたい場合がありうる。
【００１９】
本発明は上記の問題点を解決するためになされたもので、その目的は、ＷＷＷなどのハイパーテキストシステムにおいて、ユーザがどのようなページを参照元としてＵＲＬページを参照しているかを集計し、その参照元のリストをユーザに提示することにある。
【００２０】
【課題を解決するための手段】
上記の課題を解決するために、本発明の情報源観測装置は、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを備えていることを特徴としている。
【００２１】
上記の構成によれば、参照情報保存手段によって、クライアントコンピュータからアクセスがあったデータファイルの参照元のＵＲＬを参照情報として保存し、カウント手段によって、上記参照情報を、参照元となる各ＵＲＬ毎に集計するので、参照元として頻繁に利用されるＵＲＬを把握することが可能となる。すなわち、ユーザにとって有用なＵＲＬを的確に提示することが可能となる。
【００２２】
さらに、上記の構成によれば、抽出手段によって、クライアントコンピュータから発行される要求ヘッダから参照元となるＵＲＬの情報を抽出しており、このような要求ヘッダは、ＨＴＴＰ１．０の仕様に基づいているものであるので、特別にクライアントコンピュータにデータを要求することなく、参照元となるＵＲＬの情報を取得することができる。
【００２３】
さらに、本発明の情報源観測装置は、上記構成において、上記抽出手段が、上記特定クライアントコンピュータにおいて、上記不特定多数のサーバコンピュータ上のデータファイルにアクセスが行われた際に、サーバコンピュータから発行される応答ヘッダから、上記データファイルのデータタイプを抽出するものであり、上記参照情報を、上記データタイプ別に、参照元となる各ＵＲＬ毎に集計するソート手段をさらに備えていることを特徴としている。
【００２４】
上記の構成によれば、抽出手段が、クライアントコンピュータにおいて、サーバコンピュータ上のデータファイルにアクセスが行われた際に、サーバコンピュータから発行される応答ヘッダから、上記データファイルのデータタイプを抽出しており、このような応答ヘッダは、ＨＴＴＰ１．０の仕様に基づいているものであるので、特別にサーバコンピュータにデータを要求することなく、データファイルのデータタイプを取得することができる。
【００２５】
さらに、上記の構成によれば、ソート手段によって、参照情報を、データタイプ別に、
参照元となる各ＵＲＬ毎に集計するので、データタイプ毎に、参照元として頻繁に利用されるＵＲＬを把握することが可能となる。すなわち、データタイプに応じて、ユーザにとって有用なＵＲＬを的確に提示することが可能となる。
【００２６】
さらに、本発明の情報源観測装置は、上記構成において、参照情報保存手段が、さらに、上記参照元のＵＲＬのタイトルを示す情報を保存するものであり、上記出力手段は、当該保存された参照元のＵＲＬのタイトルを示す情報を、上記特定クライアントコンピュータに出力することを特徴としている。
【００２７】
上記の構成によれば、参照情報保存手段によって、クライアントコンピュータからアクセスがあったデータファイルに付随するテキストが参照情報としてさらに保存されるので、ユーザにとって有用なＵＲＬを提示する際に、ユーザの嗜好する内容をも提示することができる。
【００２８】
さらに、本発明の情報源観測装置は、上記構成において、クライアントコンピュータからアクセスがあったデータファイルをキャッシュとして所定量蓄積する情報蓄積手段と、
上記参照情報の集計結果に基づいて、上記キャッシュのうち、参照元となるＵＲＬのデータファイル、および、参照元となるＵＲＬのデータファイルに所定のリンクレベルでリンクされているデータファイルを、所定の時間毎に、該当するサーバコンピュータにアクセスすることによって更新する情報更新手段とをさらに備えていることを特徴としている。
【００２９】
上記の構成によれば、情報蓄積手段によって、クライアントコンピュータからアクセスがあったデータファイルをキャッシュとして所定量蓄積し、情報更新手段によって、参照情報の集計結果に基づいて、上記キャッシュのうち、参照元となるＵＲＬのデータファイル、および、参照元となるＵＲＬのデータファイルに所定のリンクレベルでリンクされているデータファイルを、所定の時間毎に、該当するサーバコンピュータにアクセスすることによって更新するので、ユーザが参照元として数多く利用するＵＲＬを起点にした情報収集となり、ユーザが利用する可能性の高い、的確な情報収集が可能となる。これにより、参照元のＵＲＬからリンクされているデータに対してユーザがアクセスした場合にも、
キャッシュデータの中からデータを取り出すことが可能となり、アクセススピードの向上およびネットワークトラフィックの低減を図ることができる。
【００３０】
さらに、本発明の情報源観測装置は、上記構成において、上記キャッシュ内のデータファイルに対して、検索処理を行う検索手段をさらに備えていることを特徴としている。
【００３１】
上記の構成によれば、検索手段によって、上記キャッシュ内のデータファイルに対して、検索処理を行うので、ユーザの情報源をもとに情報収集されたファイルオブジェクトに対して検索が行われることになり、一般のインターネット検索エンジンなどに比べて、情報の鮮度が高く、かつ、ユーザのニーズに適した検索結果を提供することができる。
【００３２】
本発明の情報源観測方法は、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを備えていることを特徴としている。
【００３３】
上記の方法によれば、クライアントコンピュータからアクセスがあったデータファイルの参照元のＵＲＬを参照情報として保存し、上記参照情報を、参照元となる各ＵＲＬ毎に集計するので、参照元として頻繁に利用されるＵＲＬを把握することが可能となる。すなわち、ユーザにとって有用なＵＲＬを的確に提示することが可能となる。
【００３４】
本発明のコンピュータ読み取り可能な記録媒体は、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測処理を実行させるプログラムを記録した記録媒体であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを、
コンピュータに実行させるためのプログラムを記録したことを特徴としている。
【００３５】
上記の構成によれば、クライアントコンピュータからアクセスがあったデータファイルの参照元のＵＲＬを参照情報として保存し、上記参照情報を、参照元となる各ＵＲＬ毎に集計するプログラムが記録されているので、参照元として頻繁に利用されるＵＲＬを把握することが可能なプログラムを提供することができる。すなわち、ユーザにとって有用なＵＲＬを的確に提示することが可能なプログラムを提供することができる。
【００３６】
【発明の実施の形態】
本発明の実施の一形態について図１ないし図７に基づいて説明すれば、以下のとおりである。
【００３７】
図１は、本実施形態に係るコンピュータネットワークシステムの概略構成を示すブロック図である。該コンピュータネットワークシステムは、サーバコンピュータ１、情報源観測手段（情報源観測装置）２、およびクライアントコンピュータ３とを備えている。なお、図中において、サーバコンピュータ１は１つしか記載されていないが、サーバコンピュータ１としては、インターネット上に存在する無数のサーバコンピュータが該当することになる。
【００３８】
サーバコンピュータ１は、ＨＴＭＬページや各種マルチメディアデータを保持しており、例えばＨＴＴＰ(Hyper Text Transfer Protocol)デーモンと呼ばれるサーバソフトウェアによって、これらのデータの管理、および外部コンピュータからのアクセスの管理を行っている。
【００３９】
クライアントコンピュータ３は、ＨＴＭＬページや各種マルチメディアデータを表示可能なブラウザとよばれるソフトウェアを備えており、ユーザはこのクライアントコンピュータ３上においてブラウザを操作することによって、所望のＨＴＭＬページや各種マルチメディアデータを閲覧することができる。
【００４０】
情報源観測手段２としては、例えばファイアーウォール上に設けられるゲートウェイコンピュータや、インターネット上に設けられるＨＴＴＰプロキシサーバコンピュータなどが該当し、ＨＴＴＰリクエストと応答の中継を行うことを基本としている。この情報源観測手段２は、参照情報抽出手段４、参照情報保存手段５、カウント手段６、ソート手段７、データ変換手段８、情報更新手段９、情報蓄積手段１０、および検索手段１１を備えている。これらの各手段についての説明は後述する。
【００４１】
また、図２に示すように、情報源観測手段２を、クライアントコンピュータ３に内蔵させた構成とすることも可能である。このように、クライアントコンピュータ３に内蔵可能なＨＴＴＰプロキシサーバとしては、シャープ株式会社製のシャープモバイルプロキシ（商品名）などがある。
【００４２】
さらに、情報源観測手段２を、クライアントコンピュータ３におけるブラウザの一部として、ソフトウェア的に構成することも可能である。
【００４３】
図３は、クライアントコンピュータ３の概略構成を示すブロック図である。図３に示すように、クライアントコンピュータ３は、ＣＰＵ(Central Processing Unit) １２、ＲＡＭ(Random Access Memory)などで構成されるメモリ１３、ハードディスクやフラッシュメモリなどで構成される不揮発性メモリ１４、外部ネットワークとのインターフェースとなるネットワークＩ／Ｏ(Input/Output)１５、キーボードやマウスなどで構成される入力装置１６、および表示装置１７を備えており、これらがバス１８によって接続されている。
このような構成のクライアントコンピュータ３は、一般的にパーソナルコンピュータと呼ばれるコンピュータによって構成されることになる。
【００４４】
ここで、クライアントコンピュータ３におけるブラウザによってＷＷＷ上のＨＴＭＬページを閲覧する際の、情報源観測手段２の動作について説明する。
【００４５】
まず、あるＨＴＭＬページをブラウザ上に表示させている状態から、そのＨＴＭＬページに埋め込まれているリンクをマウスカーソルでポイントし、クリックすることによって、リンク先のＵＲＬにアクセスした場合を想定する。例えば、図８に示す例において、ＵＲＬが“http://www.news/" で示されるＨＴＭＬページを表示させている状態から、「新刊情報」のＨＴＭＬページを示すリンクをクリックしたとする。この時、クライアントコンピュータ３において、ネットワークＩ／Ｏ１５を介して、情報源観測手段２に対してＴＣＰ／ＩＰ(Transmission Control Protocol/Internet Protocol) のコネクションがオープンされ、図４に示すような要求ヘッダが発行される。
【００４６】
この要求ヘッダに含まれるReferer ヘッダは、ブラウザによって発行されているものであり、要求されているＵＲＬの参照元情報が示されている。図４に示す例では、現在要求しているＵＲＬ“http:// www.news/1.html"が、ＵＲＬが“http://www.news/" のＨＴＭＬページからのリンクによって要求されていることを示している。このような要求ヘッダは、ＨＴＴＰ１．０の仕様で規定されている標準ヘッダである。このような要求ヘッダの情報は、通常サーバコンピュータにて記録されることを想定して定義されているものである。
【００４７】
情報源観測手段２は、上記のような要求ヘッダを受けて、ＵＲＬが“www.news" で示されるサーバコンピュータ１にコネクションを張り、該当するファイル（1.html）を受信し、クライアントコンピュータ３のブラウザに転送する。この際に、情報源観測手段２がサーバコンピュータ１から受信する応答データは、図５に示すように、応答ヘッダとテキストデータ（ＨＴＭＬデータ）とからなっている。
【００４８】
図５において、応答ヘッダにあるContent-Typeヘッダは、後に続くデータのマルチメディアタイプを示しており、図５に示す例では、後に続くデータがテキストデータ（ＨＴＭＬデータ）であることを示している。
【００４９】
本実施形態における情報源観測手段２は、上記のような要求ヘッダおよび応答ヘッダに含まれる情報を利用して、アクセスしたＵＲＬのうちで正常応答を示したＵＲＬの参照元情報およびマルチメディアタイプを取得し、アクセスログの項目として記録している。これにより、例えば、アクセスログにおいて参照元情報に注目して集計を行えば、アクセスしたＵＲＬの参照元となったＵＲＬを頻度順に並びかえて、情報源リストとしてユーザに提示することが可能となる。
【００５０】
また、参照元情報は、マルチメディアデータタイプ毎に集計することも可能となる。例えば、テキストデータ、動画データ、音楽データなどのデータタイプ毎に分別して、情報源リストとしてユーザに提示することも可能となる。
【００５１】
また、情報源観測手段２として、ＨＴＴＰプロキシサーバコンピュータやゲートウェイコンピュータなどのような、キャッシュを蓄積するタイプのコンピュータの場合、情報源リストに基づいて、参照元として頻度の高いＵＲＬに対して、キャッシュを自発的に更新する構成とすることも可能である。
【００５２】
次に、情報源観測手段２における処理の流れを、図２を参照しながら、図６に示すフローチャートに基づいて説明する。なお、以下の説明において、情報源観測手段２は、クライアントコンピュータ３に内蔵されているものとしているが、クライアントコンピュータ３の外部に設けられた構成においても、ほぼ同様の処理が行われる。
【００５３】
まず、情報源観測手段２は、ネットワークＩ／Ｏ１５を用いてサーバソケットをオープンし、中継要求を受け付ける待機状態に入る（ステップ１、以降、Ｓ１のように表記する）。中継要求を受信した場合には、Ｓ２に進む。なお、上記のように、情報源観測手段２がクライアントコンピュータ３に内蔵されている場合には、情報源観測手段２は、メモリ１３を経由してブラウザ３Ａと通信する。
【００５４】
次に、情報源観測手段２は、中継要求を受け付けると、参照情報抽出手段４によって、
要求ヘッダから、参照元情報であるReferer ヘッダを抽出し、この内容をメモリ１３に一時記憶させる（Ｓ２）。
【００５５】
次に、情報源観測手段２は、サーバコンピュータ１に対してコネクションを開いて要求ヘッダを中継する（Ｓ３）。この際に、要求したＵＲＬが存在しない場合には、エラーメッセージがクライアントコンピュータ３の表示装置１７によってユーザに提示され、メモリ１３に一次記憶させたReferer ヘッダの情報が破棄される（Ｓ４）。
【００５６】
要求したＵＲＬが存在する場合（応答コードが正常である場合）には、そのＵＲＬに該当するサーバコンピュータ１からの応答データを受け取り、クライアントコンピュータ３におけるブラウザ３Ａに該応答データを送信する。また、これと同時に、参照情報保存手段５によって、要求したＵＲＬが、応答ヘッダに含まれるContent-typeヘッダに基づいて検出されるデータタイプ、Referer ヘッダに基づいて検出される参照元情報、および参照元のタイトルとともに、参照情報として不揮発性メモリ１４に記録され、保存される（Ｓ５）。この保存された参照情報の保存データの例を表２に示す。
【００５７】
【表２】

【００５８】
ここで、保存されるデータのデータタイプとしてはtext/htmlなどがあるが、これ以外にあらかじめ指定されたデータタイプだけを保存してもよい。なお、Content-typeヘッダがtext/htmlであるときにおいて、応答データのＨＴＭＬデータを構文解析し、<title> タグで囲まれた部分を抽出することによって、該当ページのタイトルとして同時に保存してもよい。
【００５９】
上記のような参照情報の保存処理は、保存データが一定数になるまで繰り返して行われる（Ｓ６）。そして、保存データが一定数に達したら、次のステップ（Ｓ７）に進む。
【００６０】
一定数に達した保存データに対して、カウント手段６によって、参照元情報毎に参照に用いられた回数を集計し、集計データを作成する（Ｓ７）。そして、ソート手段７によって上記集計データをデータタイプ別にソートする（Ｓ８）。このソート結果の例を表３および表４に示す。なお、表３は、表２に示す参照情報の保存データの例において、データタイプとしてtext/htmlまたはmovie を集計した結果を示し、表４は、データタイプとしてtext/htmlのみを集計した結果を示している。
【００６１】
【表３】

【００６２】
【表４】

【００６３】
このようにソートされた参照情報のデータを、データ変換手段によって、例えばＨＴＭＬデータなどの、ユーザがブラウザで表示することが可能なデータ形式に変換し、情報源リストとして表示装置１７に表示することによって、ユーザに提示する（Ｓ９）。このような情報源リストの例を図７に示す。
【００６４】
情報源リストには、参照元情報のページのタイトルを示す情報が付随しているので、クライアントコンピュータ３を使用するユーザが、どのような情報を求めることを習慣としているかを把握することができる。すなわち、この情報源リストは、嗜好データベースとして利用できる。例えば、図７に示す例では、ユーザが日々新聞、奈良県の地域情報などを情報ソースとして重要と考えていることがわかる。また、各データタイプ毎に参照元情報の集計が提示されているので、データタイプ毎に、重要となる参照元情報を把握することができる。
【００６５】
ここで、情報源観測手段２が、アクセスしたＵＲＬのデータをキャッシュとして情報貯蓄手段１０に一定量蓄積するものである場合を考える。この場合、情報更新手段９が、所定の時間毎に、上記のソートされた参照情報のデータに基づいて、サーバコンピュータ１から情報を自発的に取得し、情報蓄積手段１０に蓄積されたデータの更新が行われる（Ｓ１０）。このような情報更新処理は、ソートされた参照情報のデータにおいて、例えば全てのデータタイプにおける参照元として頻度の高い順、あるいは、ユーザが指定したデータタイプにおける参照元として頻度の高い順などに基づいて行われる。
【００６６】
この情報更新手段９による情報更新処理において、情報源リストに掲載されたＵＲＬ群を対象にリンクレベル２以上でファイルオブジェクトの自動収集する処理を行えば、参照元としてのＵＲＬからリンクされているデータ、すなわち、ユーザがアクセスする可能性の高いデータをも自動的に情報蓄積手段１０に蓄積されることになる。すなわち、リンクレベルを深くすれば、参照元としてのＵＲＬからリンクされている広い範囲の関連情報まで自動収集することになるが、ユーザが参照元として数多く利用するＵＲＬを起点にした情報収集となるので、ユーザが利用する可能性の高い、的確な情報収集が可能となる。これにより、参照元のＵＲＬからリンクされているデータに対してユーザがアクセスした場合にも、キャッシュデータの中からデータを取り出すことが可能となり、アクセススピードの向上およびネットワークトラフィックの低減を図ることができる。
【００６７】
さらに、上記のように、情報源リストに掲載されたＵＲＬ群を対象に所定のリンクレベル以上で自動収集したファイルオブジェクトに対して、検索手段１１により検索をかけ、
ユーザに結果を提示することも可能である。この場合、ユーザの情報源をもとに情報収集されたファイルオブジェクトに対して検索が行われるので、一般のインターネット検索エンジンなどに比べて、情報の鮮度が高く、かつ、ユーザのニーズに適した検索結果を提供することができる。
【００６８】
以上のようなＳ１からＳ１０のステップを、情報源観測手段２は繰り返し行うことになる。
【００６９】
このように、参照情報を集計し、出現頻度順にソートした結果において、ユーザが参照元として頻繁に利用したＵＲＬは上位にランクされることになる。したがって、このようなソート結果をユーザに提示すれば、ユーザは、所望の情報をどこから得ることが出来るかを、自分の情報源リストから発見することが可能となり、この情報源リストからリンクをたどることによって、容易に情報を得ることが可能となる。
【００７０】
ここで、情報源観測手段２がクライアントコンピュータ３に内蔵されている構成の場合において、情報源観測手段２が備える各手段が、クライアントコンピュータ２内でどのように構成されるかについて、その一例を説明する。まず、上記のＳ１からＳ１０までの処理を行うプログラムコード、およびこのプログラムコードを実行可能なＯＳ(Operating System)コードが、ファイル形態で不揮発性メモリ１４に格納されている。また、ＣＰＵアドレス空間にマッピング可能な、ＲＯＭ(Read Only Memory)などの不揮発性メモリ１４に、電源がＯＮされた時に、上記のＯＳコードをメモリ１３にロードさせる処理などを行うコードが格納されている。すなわち、情報源観測手段２が備える各手段は、不揮発性メモリに格納されたプログラムコードおよびＯＳコードが、メモリ１２にロードされて、ＣＰＵ１２によって実行されることによって実現される。また、情報源観測手段２が、クライアントコンピュータ３とは別の、外部のコンピュータに設けられている場合にも、上記とほぼ同様の構成によって実現されることになる。
【００７１】
また、情報源観測手段２が、例えばインターネット対応テレビやインターネット対応電話などの情報家電機器に内蔵されている場合には、例えば、上記のような処理を行うプログラムコードが直接ＲＯＭなどの不揮発性メモリに記憶され、ＣＰＵがこのプログラムコードをＲＯＭから読み出すことによって実行されることになる。また、このような情報家電機器においても、ＯＳを備えた構成とし、ＯＳ上でプログラムを実行する構成とすることも可能である。
【００７２】
なお、本発明の情報源観測装置は、ライアントコンピュータにおいて、サーバコンピュータ上のデータファイルにアクセスが行われる際に、クライアントコンピュータから発行される要求ヘッダから参照元となるＵＲＬの情報を抽出する参照情報抽出手段をさらに備えている構成であってもよい。
【００７３】
上記の構成によれば、参照情報抽出手段によって、クライアントコンピュータから発行される要求ヘッダから参照元となるＵＲＬの情報を抽出しており、このような要求ヘッダは、ＨＴＴＰ１．０の仕様に基づいているものであるので、特別にクライアントコンピュータにデータを要求することなく、参照元となるＵＲＬの情報を取得することができる。
【００７４】
【発明の効果】
以上のように、本発明に係る情報源観測装置は、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを備えている構成である。
【００７５】
これにより、参照元として頻繁に利用されるＵＲＬを把握することが可能となるという効果を奏する。すなわち、ユーザにとって有用なＵＲＬを的確に提示することが可能となるという効果を奏する。
【００７６】
さらに、抽出手段により、特別にクライアントコンピュータにデータを要求することなく、参照元となるＵＲＬの情報を取得することができるという効果を奏する。
【００７７】
さらに、本発明に係る情報源観測装置は、上記抽出手段が、上記特定クライアントコンピュータにおいて、上記不特定多数のサーバコンピュータ上のデータファイルにアクセスが行われた際に、サーバコンピュータから発行される応答ヘッダから、上記データファイルのデータタイプを抽出するものであり、上記参照情報を、上記データタイプ別に、参照元となる各ＵＲＬ毎に集計するソート手段をさらに備えている構成である。
【００７８】
これにより、特別にサーバコンピュータにデータを要求することなく、データファイルのデータタイプを取得することができるという効果を奏する。
【００７９】
さらに、ソート手段を備えていることにより、データタイプ毎に、参照元として頻繁に利用されるＵＲＬを把握することが可能となるという効果を奏する。すなわち、データタイプに応じて、ユーザにとって有用なＵＲＬを的確に提示することが可能となるという効果を奏する。
【００８０】
さらに、本発明に係る情報源観測装置は、上記参照情報保存手段が、さらに、上記参照元のＵＲＬのタイトルを示す情報を保存するものであり、上記出力手段は、当該保存された参照元のＵＲＬのタイトルを示す情報を、上記特定クライアントコンピュータに出力する構成である。
【００８１】
これにより、ユーザにとって有用なＵＲＬを提示する際に、ユーザの嗜好する内容をも提示することができるという効果を奏する。
【００８２】
さらに、本発明に係る情報源観測装置は、クライアントコンピュータからアクセスがあったデータファイルをキャッシュとして所定量蓄積する情報蓄積手段と、上記参照情報の集計結果に基づいて、上記キャッシュのうち、参照元となるＵＲＬのデータファイル、および、参照元となるＵＲＬのデータファイルに所定のリンクレベルでリンクされているデータファイルを、所定の時間毎に、該当するサーバコンピュータにアクセスすることによって更新する情報更新手段とをさらに備えている構成である。
【００８３】
これにより、ユーザが参照元として数多く利用するＵＲＬを起点にした情報収集となり、ユーザが利用する可能性の高い、的確な情報収集が可能となる。これにより、参照元のＵＲＬからリンクされているデータに対してユーザがアクセスした場合にも、キャッシュデータの中からデータを取り出すことが可能となり、アクセススピードの向上およびネットワークトラフィックの低減を図ることができるという効果を奏する。
【００８４】
さらに、本発明に係る情報源観測装置は、上記キャッシュ内のデータファイルに対して、検索処理を行う検索手段をさらに備えている構成である。
【００８５】
これにより、ユーザの情報源をもとに情報収集されたファイルオブジェクトに対して検索が行われることになり、一般のインターネット検索エンジンなどに比べて、情報の鮮度が高く、かつ、ユーザのニーズに適した検索結果を提供することができるという効果を奏する。
【００８６】
本発明に係る情報源観測方法は、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを有している。
【００８７】
これにより、参照元として頻繁に利用されるＵＲＬを把握することが可能となるという効果を奏する。すなわち、ユーザにとって有用なＵＲＬを的確に提示することが可能となるという効果を奏する。
【００８８】
本発明に係るコンピュータ読み取り可能な記録媒体は、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測処理を実行させるプログラムを記録した記録媒体であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを、コンピュータに実行させるためのプログラムを記録した構成である。
【００８９】
これにより、参照元として頻繁に利用されるＵＲＬを把握することが可能なプログラムを提供することができるという効果を奏する。すなわち、ユーザにとって有用なＵＲＬを的確に提示することが可能なプログラムを提供することができるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の実施の一形態に係る情報源観測手段の概略構成、および、該情報源観測手段と、それに接続されるサーバコンピュータおよびクライアントコンピュータとの関係を示すブロック図である。
【図２】上記情報源観測手段がクライアントコンピュータに内蔵された場合の概略構成を示すブロック図である。
【図３】上記情報源観測手段の構成要素の概略を示すブロック図である。
【図４】クライアントコンピュータから発行される要求ヘッダの一例を示す説明図である。
【図５】サーバコンピュータから発行される応答ヘッダの一例を示す説明図である。
【図６】情報源観測手段における処理の流れを示すフローチャートである。
【図７】情報源観測手段が備えるデータ変換手段によって生成されたデータを表示させたときの一例を示す説明図である。
【図８】ＷＷＷ上におけるＨＴＭＬページおよびデータファイルのリンクの様子の一例を示す概念図である。
【符号の説明】
１サーバコンピュータ
２情報源観測手段（情報源観測装置）
３クライアントコンピュータ
４参照情報抽出手段
５参照情報保存手段
６カウント手段
７ソート手段
８データ変換手段
９情報更新手段
１０情報蓄積手段
１１検索手段

Claims

ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、
上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、
上記参照情報を各ＵＲＬ毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを備えていることを特徴とする情報源観測装置。
上記出力手段は、上記カウント手段による集計結果を、上記特定クライアントコンピュータにて表示可能なデータ形式に変換して出力することを特徴とする請求項１記載の情報源観測装置。
上記抽出手段が、上記特定クライアントコンピュータにおいて、上記不特定多数のサーバコンピュータ上のデータファイルにアクセスが行われた際に、サーバコンピュータから発行される応答ヘッダから、上記データファイルのデータタイプを抽出するものであり、
上記参照情報を、上記データタイプ別に、参照元となる各ＵＲＬ毎に集計するソート手段をさらに備えていることを特徴とする請求項１記載の情報源観測装置。
上記参照情報保存手段は、さらに、上記参照元のＵＲＬのタイトルを示す情報を保存するものであり、
上記出力手段は、当該保存された参照元のＵＲＬのタイトルを示す情報を、上記特定クライアントコンピュータに出力することを特徴とする請求項１記載の情報源観測装置。
クライアントコンピュータからアクセスがあったデータファイルをキャッシュとして所定量蓄積する情報蓄積手段と、
上記参照情報の集計結果に基づいて、上記キャッシュのうち、参照元となるＵＲＬのデータファイル、および、参照元となるＵＲＬのデータファイルに所定のリンクレベルでリンクされているデータファイルを、所定の時間毎に、該当するサーバコンピュータにアクセスすることによって更新する情報更新手段とをさらに備えていることを特徴とする請求項１記載の情報源観測装置。
上記キャッシュ内のデータファイルに対して、検索処理を行う検索手段をさらに備えていることを特徴とする請求項５記載の情報源観測装置。
ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、
上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、
上記参照情報を各ＵＲＬ毎に集計する第３ステップと、
上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを備えていることを特徴とする情報源観測方法。
ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測処理を実行させるプログラムを記録した記録媒体であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、
上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、
上記参照情報を各ＵＲＬ毎に集計する第３ステップと、
上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを、コンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能であることを特徴とする記録媒体。