JP3666638B2

JP3666638B2 - 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3666638B2
Application number: JP30565799A
Authority: JP
Inventors: 克良土居
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-10-27
Filing date: 1999-10-27
Publication date: 2005-06-29
Anticipated expiration: 2019-10-27
Also published as: JP2001125822A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えばサーバコンピュータとクライアントコンピュータとがネットワークで結ばれたシステムにおいて、サーバコンピュータ上にあるハイパーリンク構造をもったデータファイルをクライアントコンピュータ上において閲覧する際に利用される情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【０００２】
【従来の技術】
昨今、複数のサーバコンピュータおよび複数のクライアントコンピュータがネットワークで結ばれ、各サーバコンピュータにハイパーテキスト構造のマルチメディアデータが記憶されており、各クライアントコンピュータにおいて、ブラウザソフトウェアによって、このようなマルチメディアデータを閲覧することが可能なシステムが広く普及している。このようなシステムの例としては、例えば、インターネットにおけるＷＷＷ（world wide web）と呼ばれるシステムなどが挙げられる。
【０００３】
マルチメディアデータを含む文書は、例えばＨＴＭＬ（hyper text markup language）と呼ばれる記述言語によって記述されており、テキスト文書、静止画、動画、音楽データ、およびJava（登録商標）アプレットなどのアプリケーションプログラムなどを含むことが可能になっている。このような文書（以下、ＨＴＭＬページと称する）およびマルチメディアデータには、それぞれＵＲＬ（uniform resource locator）と呼ばれる固有のアドレスが割り当てられている。ユーザは、ブラウザ上においてＵＲＬを指定することによって、所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることができる。また、ＨＴＭＬページには、他のページやマルチメディアデータへアクセスするためのリンクなども埋め込まれており、ユーザは、このリンクをブラウザ上でポイントすることによって、リンク先のページやマルチメディアデータに移動することも可能となっている。
【０００４】
そして、クライアントコンピュータにおけるＨＴＭＬ文書表示ソフトウェアであるブラウザとしては、例えば、Netscape Communications 社のNetscape Communicator （登録商標）や、Microsoft 社のInternet Explorer （登録商標）などの製品が広く普及している。
【０００５】
これらのブラウザでは、アクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬ、アクセス日時、およびタイトルなどが、履歴データとしてクライアントコンピュータ内のハードディスクに記憶することが可能になっている。そして、ユーザは、過去にアクセスしたＨＴＭＬページあるいはマルチメディアデータに再びアクセスしたい時に、この履歴データを参照することによって、容易に所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることが可能である。
【０００６】
また、例えばNetscape Communicator では、履歴データに基づいて、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬを、頻度順、あるいは日時順などに並べ替えて表示することが可能となっている。
【０００７】
さらに、例えば、公開特許公報「特開平１０−１４３５１９号公報（公開日：平成１０年（１９９８）５月２９日）」には、ユーザが過去にアクセスしたＵＲＬに対して、頻度や視聴時間をもとに順序づけを行い、その結果を表示する方法および装置が開示されている。
【０００８】
また、例えば、公開特許公報「特開平９−２０４３４７号公報（公開日：平成９年（１９９７）８月５日）」、公開特許公報「特開平１０−２１１３４号公報（公開日：平成１０年（１９９８）１月２３日）」には、サーバコンピュータとクライアントコンピュータとの間でＵＲＬの中継を行うゲートウェイコンピュータにおいて、ゲートウェイコンピュータに中継キャッシュが内蔵されている場合、過去に中継したＵＲＬに対して、その頻度の算出を行ってリストを作成するとともに、頻度順にゲートウェイコンピュータが自発的にキャッシュの更新を行う方法が開示されている。
【０００９】
これらの方式に共通する点としては、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬに関して、その頻度に注目し、それらを統計処理することによって頻度を算出し、頻度の高いＨＴＭＬページおよびマルチメディアデータは、ユーザの要求度が高いと判断している点である。
【００１０】
【発明が解決しようとする課題】
ここで、情報を提供する複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを想定する。なお、ゲートウェイコンピュータとは、異なるネットワーク／システムを相互接続するためのコンピュータである。
【００１１】
そして、例えば、図１４に示すように、あるサーバコンピュータ上に、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが存在し、別のサーバコンピュータ上に、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページが存在するとする。
【００１２】
ＵＲＬが“http://www.news/”で示されるＨＴＭＬページは、あるニュース情報（「日々新聞」）を提供するページであり、「新刊情報（“http://www.news/1.html”）」、「天気予報（“http://www.news/2.html”）」、「Ａ社新製品（“http://www.news/3.html”）」、「Ｂ社新製品（“http://www.news/4.html”）」、および「Ｃ社新製品（“http://www.news/5.html”）」の５つのＨＴＭＬページへのリンクがはられている。
【００１３】
また、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページは、奈良県地域情報を提供するページであり、「株式情報（“http://www/a.mov”）」および「道路情報（“http://www/b.mov”）」の２つの動画データ、および「お知らせ（“http://www/index.html”）」のＨＴＭＬページにリンクがはられている。
【００１４】
ここで、あるユーザが、クライアントコンピュータにおいて、まず、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている５つのＨＴＭＬページ（テキストデータ）を閲覧し、その後、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている２つの動画データ、および１つのＨＴＭＬページ（テキストデータ）を閲覧したとする。このとき、図１５に示すようなアクセスログが、ゲートウェイコンピュータに記録される。
【００１５】
なお、図１５において、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが１回しかカウントされていないのは、次のような理由によるものである。例えば、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページから、リンク先である「新刊情報（“http://www.news/1.html”）」のページへ移動し、閲覧後、ブラウザのバックボタン（戻るボタン）を押すことによって再び“http://www.news/”のページに戻り、同様にして他の４つのリンク先に移動したとする。この際に、ブラウザには、通常、キャッシュが一定量蓄積されており、「新刊情報（“http://www.news/1.html”）」のページから、“http://www.news/”のページに戻る際には、このキャッシュから“http://www.news/”のページのデータが取り出されることになる。この場合、ゲートウェイコンピュータには、ＵＲＬの取得要求が伝達されないので、ゲートウェイコンピュータのアクセスログには、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが、１回しか現れてこないことになる。
【００１６】
図１５に示す集計結果によれば、どのＵＲＬも１回の出現頻度であるから、上記のように、出現頻度に基づいてユーザの要求度を判断する方式によれば、どのＵＲＬもユーザの要求度は同等とみなされることになる。しかしながら、実際には、ユーザは、後日、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページや、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページに再びアクセスし、新しいリンクが作られていれば、その新しいリンクにアクセスする、というアクセス動作を行う可能性が高いと予想される。この際に、すでにアクセス済みのＵＲＬである“http://www.news/1.html”や、“http://www.news/2.html”などへ再びアクセスすることはほとんどないものと予想される。
【００１７】
すなわち、上記のように、出現頻度に基づいてユーザの要求度を判断する方式では、ハイパーテキストが多階層のツリー構造をなす場合、下位階層のファイルオブジェクトに対してもそのＵＲＬ単独でアクセス頻度が算出されて、ＵＲＬの重要度が決定されるため、実際のユーザの要求度を反映した判定を行っていないことになる。したがって、このような方式によって示された結果には、無駄なデータが多く含まれることになり、ユーザにとって有用な情報が示されない場合がある。
【００１８】
本発明は上記の問題点を解決するためになされたもので、その目的は、ＷＷＷなどのハイパーテキストシステムにおいて、ユーザがどのようなページを参照元としてＵＲＬページを参照しているかを集計し、その参照元のリストをユーザに提示することができる情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。
【００１９】
【課題を解決するための手段】
本発明の情報源観測装置は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する重複アクセス排除手段を有することを特徴としている。
【００２０】
また、本発明の情報源観測方法は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを含むとともに、１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する第５ステップを含んでいることを特徴としている。
【００２１】
また、本発明の情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する重複アクセス排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録したことを特徴としている。
【００２２】
上記の構成および方法により、参照情報保存手段（ステップ）によって、クライアントコンピュータからアクセスされたデータファイルの参照元データファイルのアドレス情報を参照情報として保存し、カウント手段（ステップ）によって、上記参照情報を、参照元データファイルのアドレス情報ごとに集計するので、参照元として頻繁に利用されるデータファイルを把握することが可能となる。
【００２３】
加えて、重複アクセス排除手段（ステップ）によって、データファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算して修正するので、参照頻度の統計から重複したアクセスを削減除去して、より有用な情報を多く含んでいるデータファイルをユーザに提示することが可能となる。
【００２４】
これにより、新規に多数出現するマルチメディアデータ等のデータファイルの参照起点となる情報源を参照頻度の統計に基づいて自動的に発見し、これをユーザに提示することができる優れたユーザインタフェースを提供することが可能となる。また、処理を高速化して、ユーザの情報アクセス時間を短縮することができる。
【００２５】
したがって、上記の構成および方法によれば、サーバコンピュータとクライアントコンピュータとがネットワークで結ばれたコンピュータシステムにおいて、サーバコンピュータの上にあるハイパーテキスト構造を持ったマルチメディア文書の参照をクライアントコンピュータから容易に行うことが可能となる。
【００２６】
さらに、本発明の情報源観測装置は、上記の課題を解決するために、上記サーバコンピュータが、上記クライアントコンピュータから要求されたデータファイルの更新日時と、該クライアントコンピュータが前回アクセスした該データファイルの更新日時とを比較して、これら更新日時が一致しない場合には、要求されたデータファイルが更新されている旨の応答コードを該データファイルとともに送信し、一致する場合には、要求されたデータファイルが更新されていない旨の応答コードを送信するものであって、上記重複アクセス排除手段が、クライアントコンピュータが要求したデータファイルが更新されているか否かを、上記応答コードに基づいて判定するものであることを特徴としている。
【００２７】
上記の構成により、さらに、上記重複アクセス排除手段は、サーバコンピュータがクライアントコンピュータによりアクセス要求されたデータファイルが前回のアクセス以降に更新されたか否かを示すために送信した応答コードを検出することによって、同一データファイルの転送を検知することができる。したがって、このような応答コードを送信するプロトコル（例えば、ＨＴＴＰ）を用いるネットワークでは、容易な処理によって、上記重複アクセス排除手段を実現することができる。
【００２８】
さらに、本発明の情報源観測装置は、上記の課題を解決するために、上記重複アクセス排除手段が、上記クライアントコンピュータから要求されたデータファイルのサイズと、該クライアントコンピュータが前回アクセスした該データファイルのサイズとを比較して所定の閾値以上の差がない場合、要求されたデータファイルは更新されていないと判定するものであることを特徴としている。
【００２９】
上記の構成により、さらに、上記重複アクセス排除手段は、上記クライアントコンピュータから要求されたデータファイルのサイズと、該クライアントコンピュータが前回アクセスした該データファイルのサイズとを比較して、サイズが閾値以上に変化していなければ、そのデータファイルは更新されていないとみなして、参照頻度を修正することができる。
【００３０】
したがって、ユーザにとっては表示ページの意味内容に変化がないにもかかわらず、ファイルサイズがわずかに異なるためにファイルが転送されたアクセスを統計の対象から排除することができ、より精度の高い参照頻度を算出することが可能となる。
【００３１】
【発明の実施の形態】
〔前提となる技術〕
本発明の前提となる技術として、ユーザが実際にアクセスしたＵＲＬのハイパーリンクの関係から、ユーザの情報源ＵＲＬとなるものを統計的に推定する方法がある（特願平１１−２８６４７号）。以下では、この技術について、図１，８，９，１６を用いて説明する。
【００３２】
まず、情報提供のための複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを考える。なお、このシステムの構成は、図１に示すシステムから、同一ＵＲＬ排除手段（重複アクセス排除手段）７Ａを除いた構成と考えてよい。よって、上記ゲートウェイコンピュータは、後述する情報源観測手段２（図１）に相当する。そこで、以下では、上記ゲートウェイコンピュータを情報源観測手段と記す。
【００３３】
例えば、図１６のように、“http://diary/”から“http://books/”、さらに“http://news/”にアクセスし、“http://news/”からリンクがはられている各ニュース記事にアクセスした場合を考える。
【００３４】
具体的な履歴情報（ＵＲＬアクセスログ）は、図８に示すとおりである。まず、９９年１月１日には、“http://news/”に３つの新規ニュース“http://news/1.html”，“http://news/2.html”，“http://news/3.html”が現れ、いずれもユーザによってアクセスされている。さらに、９９年１月２日には、“http://news/4.html”という新しい記事がユーザによってアクセスされている。ここで、両日の履歴とも、“http://diary/”からスタートし、順次リンクをたどってアクセスされている。
【００３５】
なお、図８のアクセスログのReferer ＵＲＬ（参照元アドレス情報）は、クライアントコンピュータが発行するＨＴＴＰの標準ヘッダのReferer ヘッダを観測したものであり、アクセスされたＵＲＬ（ＨＴＭＬページ）がどのＵＲＬにリンクされていたかを示すものである。
【００３６】
ここで、上記情報源観測手段は、アクセスログのRefererヘッダに現れるＵＲＬをデータタイプ別に集計する。すなわち、上記情報源観測手段は、ユーザがＵＲＬをアクセスする際の要求ヘッダに含まれるRefererヘッダを観測し、アクセスしたＵＲＬがどのＵＲＬにリンクされていたかをゲートウェイ部（参照情報保存手段）にて記憶し、参照統計を作成する。
【００３７】
これにより、ユーザが実際にアクセスしたＵＲＬのハイパーリンクのReferer関係から、統計的にユーザの情報源ＵＲＬとなるものを推定できる。すなわち、ユーザが手繰ったリンクが数多く集中しているＵＲＬを、情報源として検出することができる。例えば、図８のアクセスログからは、図９のようにRefererＵＲＬが集計され、“http://news/”，“http://books/”，“http://diary/”などがユーザの情報源ＵＲＬであると推定できる。
【００３８】
さらに、本発明の他の前提となる技術として、上記情報源観測手段で推定された情報源ＵＲＬに対して、新着リンクが出現していないかどうかを定期的に観測するエージェントシステムがある（特願平１１−２２４６２０号）。
【００３９】
このエージェントシステムは、上記情報源観測手段によって情報源として推定されたＵＲＬをアクセスし、ＨＴＭＬのタグを解析してハイパーリンクＵＲＬ情報をデータベースに記憶し、前回のアクセス時に解析されたハイパーリンクＵＲＬと比較して、新しく出現したリンクのＵＲＬを検出し、ユーザに新着情報として提示する。
【００４０】
ここで、図１６の例では、“http://news/”は新着情報が検出できる可能性が高いページであるが、“http://diary/”や“http://books/”はハイパーリンクの通り道にすぎず、新着情報が得られる可能性が低いページである。しかし、上記情報源観測手段による推定では、ユーザが定期的に“http://diary/”から始めて“http://books/”を経て“http://news/”にアクセスした場合、Refererヘッダに基づいて統計を作成するため、図９に示すように、出現頻度値が高く出てしまう。
【００４１】
このため、上記エージェントシステムが自動巡回する際、新着情報が得られる可能性が低いＵＲＬにもアクセスして、処理時間が増大する。したがって、上記エージェントシステムが、新着情報が出現する確率の高いＵＲＬに絞って定期的に観測して、効率的により多くの新着情報を得る必要があるため、単なる通り道となるＵＲＬの重要度を落とした統計を作成することが望ましい。例えば、統計的に基づいて推定されたユーザの情報源ＵＲＬから、単なる通り道に過ぎないリンクを取り除くことが望ましい。
【００４２】
〔実施の形態〕
本発明の一実施の形態について図１から図１３に基づいて説明すれば、以下のとおりである。
【００４３】
図１は、本実施の形態に係るコンピュータネットワークシステムの構成の概略を示すブロック図である。上記コンピュータネットワークシステムは、サーバコンピュータ１、情報源観測手段（情報源観測装置）２、およびクライアントコンピュータ３を備えて構成されている。なお、図１中において、サーバコンピュータ１は１つしか記載されていないが、サーバコンピュータ１としては、インターネット等のネットワークに接続された複数のサーバコンピュータが該当することになる。
【００４４】
上記サーバコンピュータ１は、データファイル記憶装置１ＡにＨＴＭＬページや各種マルチメディアデータ等のデータファイルを保持している。そして、例えばＨＴＴＰ（hypertext transfer protocol ）デーモンと呼ばれるサーバソフトウェアによって、これらのデータの管理、および外部コンピュータからのアクセスの管理を行っている。
【００４５】
上記クライアントコンピュータ３は、ＨＴＭＬページや各種マルチメディアデータを表示可能なソフトウェアであるブラウザ（情報ブラウザ）３Ａを備えている。そして、ユーザはこのクライアントコンピュータ３上においてブラウザ３Ａを操作することによって、所望のＨＴＭＬページや各種マルチメディアデータを閲覧することができる。
【００４６】
また、クライアントコンピュータ３は、ブラウザ３Ａで閲覧したＨＴＭＬページや各種マルチメディアデータを、所定期間あるいは所定容量まで記憶するキャッシュメモリ３Ｂを備えている。そして、過去にアクセスされキャッシュメモリ３Ｂに記憶されているデータファイル（ファイルオブジェクト）が再度要求された場合、ブラウザ３Ａは所望のデータファイルをキャッシュメモリ３Ｂから読み出して表示する。また、一定期間以上書き込みから時間が経過していれば、サーバコンピュータ１に最新かどうかを問い合わせ、最新のファイルオブジェクトを表示しようとする。
【００４７】
上記情報源観測手段２としては、例えばファイアウォール上に設けられるゲートウェイコンピュータや、インターネット上に設けられるＨＴＴＰプロキシサーバコンピュータなどが該当し、ＨＴＴＰのリクエスト（要求）およびレスポンス（応答）の中継を行うことを基本としている。この情報源観測手段２は、参照情報抽出手段４、参照情報保存手段５、カウント手段６、ソート手段７、データ変換手段８、情報更新手段９、情報蓄積手段１０、検索手段１１を備えて構成されている。さらに、ソート手段７には同一ＵＲＬ排除手段（重複アクセス排除手段）７Ａが設けられている。なお、これらの各手段についての説明は後述する。
【００４８】
また、図２に示すように、情報源観測手段２を、クライアントコンピュータ３に内蔵させた構成とすることも可能である。このように、クライアントコンピュータ３に内蔵可能なＨＴＴＰプロキシサーバとしては、シャープ株式会社製のシャープモバイルプロキシ（商品名）やインターネット快速便（商品名）などがある。
【００４９】
さらに、情報源観測手段２を、クライアントコンピュータ３におけるブラウザ３Ａの一部として構成することも可能である。
【００５０】
図３は、クライアントコンピュータ３（図２）の構成の概略を示すブロック図である。図３に示すように、クライアントコンピュータ３は、ＣＰＵ（central processing unit ）１２、ＲＡＭ（random access memory）などで構成されるメモリ１３、ハードディスクやフラッシュメモリなどで構成される不揮発性メモリ１４、外部ネットワークとのインタフェースとなるネットワークＩ／Ｏ（input/output）１５、キーボードやマウスなどで構成される入力装置１６、および表示装置１７を備えており、これらがバス１８によって接続されている。また、アクセスしたデータを一定量あるいは一定期間保存し、必要に応じて読み出すためのキャッシュメモリ３Ｂは、不揮発性メモリ１４に割り当てられている。このような構成のクライアントコンピュータ３は、一般的にパーソナルコンピュータと呼ばれるコンピュータによって構成することができる。
【００５１】
ここで、クライアントコンピュータ３において、ブラウザ３ＡによってＷＷＷ上のＨＴＭＬページを閲覧する際の、情報源観測手段２の動作について説明する。
【００５２】
まず、あるＨＴＭＬページをブラウザ３Ａ上に表示させている状態から、そのＨＴＭＬページに埋め込まれているリンクをマウスカーソルでポイントし、クリックすることによって、リンク先のＵＲＬ（アドレス情報）にアクセスした場合を想定する。例えば、図１６に示す例において、ＵＲＬが“http://news/”で示されるＨＴＭＬページを表示させている状態から、「９９／１／１／Ａ」のＨＴＭＬページを示すリンクをクリックしたとする。この時、クライアントコンピュータ３において、ネットワークＩ／Ｏ１５を介して、情報源観測手段２に対してＴＣＰ／ＩＰ（transmission control protocol/internet porotocol）のコネクションがオープンされ、図５に示すような要求ヘッダが発行される。
【００５３】
この要求ヘッダに含まれるRefererヘッダは、ブラウザによって発行されているものであり、要求されているＵＲＬの参照元情報が示されている。図５に示す例では、現在要求しているＵＲＬ“http://news/1.html”が、ＵＲＬが“http://news/”のＨＴＭＬページ（参照元データファイル）からのリンクによって要求されていることを示している。なお、このような要求ヘッダは、ＨＴＴＰ／１．０の仕様で規定されている標準ヘッダである。また、このような要求ヘッダの情報は、通常サーバコンピュータにて記録されることを想定して定義されているものである。
【００５４】
また、クライアントコンピュータ３がすでに該当ＵＲＬのデータファイルへ過去にアクセスしたことがある場合、要求ヘッダに過去アクセスした時にＵＲＬの応答データに含まれていたLast-Modifiedヘッダの日付をIf-Modified-Sinceヘッダに付けたGET要求が行われる。例えば、図５は、クライアントコンピュータ３がFri,23 Oct 1998 04:23:34 GMTの日付のファイルオブジェクトＵＲＬを保持している。これは、サーバコンピュータ１のファイルオブジェクトＵＲＬが、前回のアクセス以後に変化しているか否かを問い合わせるものである。
【００５５】
情報源観測手段２は、上記のような要求ヘッダを受けて、ＵＲＬが“news”で示されるサーバコンピュータ１にコネクションを張り、該当するファイル（“1.html”）を受信し、クライアントコンピュータ３のブラウザ３Ａに転送する。この際、情報源観測手段２がサーバコンピュータ１から受信する応答データは、図６に示すように、応答ヘッダとテキストデータ（ＨＴＭＬデータ）とからなっている。
【００５６】
図６において、応答ヘッダにあるContent-Typeヘッダは、後に続くデータのマルチメディアタイプを示しており、図６に示す例では、後に続くデータがテキストデータ（ＨＴＭＬデータ）であることを示している。また、応答ヘッダにあるContent-lengthヘッダは、後続のテキストデータ（ＨＴＭＬデータ）本体のデータサイズである。
【００５７】
したがって、上記情報源観測手段２の参照情報抽出手段４は、応答ヘッダに含まれるRefererヘッダを取得し、応答ヘッダが正常応答を示す場合（ＨＴＴＰ応答コード２００番）で、かつ、Content-typeヘッダがテキストであるものを集計して、取得情報源を集計することができる。
【００５８】
これに対して、サーバコンピュータ１は、If-Modified-Sinceヘッダの時刻と要求されたファイルオブジェクトの最終変更時刻とを比較して変化がなければ、ＨＴＴＰ応答コードとして３０４番を付した、データ部分のないヘッダデータのみの応答を、情報源観測手段２を介して、クライアントコンピュータ３へ送信する。なお、図７は、クライアントコンピュータ３のキャッシュメモリ３Ｂ中のキャッシュデータが有効な場合に、サーバコンピュータ１が送信する応答ヘッダおよび応答ボディデータの例である。
【００５９】
本実施の形態では、クライアントコンピュータ３がキャッシュメモリ３Ｂを備えているため、応答コードが３０４番であるときは、そのファイルオブジェクトがすでにクライアントコンピュータ３にて過去アクセスされ、キャッシュされているデータであることを意味する。したがって、この場合、要求ヘッダに含まれるRefererヘッダのＵＲＬ、すなわち参照元ＵＲＬを情報源観測統計から排除する処理を行う。すなわち、同一情報へのリンクを複数回アクセスしても、その参照元ＵＲＬは情報源とみなさないという処理を行う。
【００６０】
ここで、上記の処理について、さらに詳細に説明する。図１６のようなハイパーリンク構造のＨＴＭＬページを、図８のような順序でアクセスした場合を考える。図８は、参照情報抽出手段４で抽出し、参照情報保存手段５で記録した中継ログであり、中継ＵＲＬ、Referer ＵＲＬ、ＨＴＴＰ応答コード，ボディ部分の転送バイト数が記録されている。
【００６１】
図１６では、第１日目（９９／１／１）は、“http://diary/”から始まり、“http://books/”を経て、そこから“http://news/”をアクセスし、さらに“http://news/”の３つのＵＲＬ（“http://news/1.html”，“http://news/2.html”，“http://news/3.html”）へアクセスを行っている。また、第２日目（９９／１／２）は、“http://diary/”から始まり、“http://books/”を経て、“http://news/”をアクセスし、１つの新しいＵＲＬ（“http://news/4.html”）をアクセスしている。また、第３日目（９９／１／３）は、“http://diary/ ”から始まり、“http://books/”を経て、“http://news/”をアクセスするが、新しいリンクはない。また、第４日目（９９／１／４）は、第３日目（９９／１／３）と同じアクセスを繰り返している。
【００６２】
ここで、“ http://diary/”は“ http://books/”の参照元であるが、“http://books/”は変化がないページであるため、“http://diary/”をRefererＵＲＬとする応答コードは２回目以後３０４番となっている。これは、１回目でアクセスしたページが、キャッシュメモリ３Ｂにキャッシュされていたからである。
【００６３】
また、“http://books/”は“http://news/”の参照元であるが、第１日目および第２日目の“http://news/”が変化しているため、“http://books/”をRefererＵＲＬとする応答コードは２００番（３０４番でない）である。そして、第３日目および第４日目の“http://news/”は変化がないため、“http://books/”をRefererＵＲＬとする応答コードは３０４番となっている。
【００６４】
ここで、図９に示すように、カウント手段６によって、単純にRefererヘッダのＵＲＬを集計すると、“http://diary/”，“http://books/”，“http://news/”は、いずれも出現頻度（参照頻度）が４回となり、“http://news/”にのみが新しい情報が現れるという状態を反映していない。
【００６５】
そこで、同一ＵＲＬ排除手段７Ａによって、応答コードが３０４番の場合は、クライアントコンピュータ３が過去に同一ファイルオブジェクトをアクセスしたことがあるとみなして、Referer統計から削除する。図１０は、応答コードが３０４番の場合を排除して出現頻度情報を付加して作成された履歴情報であり、“http://diary/”（１回）および“http://books/”（２回）の出現頻度がアクセス履歴の実態に沿って修正されている。よって、図１０は、単純にRefererヘッダのＵＲＬを集計した結果（図９）とは異なっている。
【００６６】
なお、図１０では、“http://books/”の出現頻度（参照頻度）が２回として算出されているが、これは参照先である“http://news/”が２度のアクセスにおいて内容が変わっていたからである。このように、“http://books/”は変化する情報へのリンクを有するページであり、“http://diary/”に比べて重要度が高い情報源であることが検出できている。
【００６７】
以上のように、同一ＵＲＬ排除手段７Ａによって、３つのＵＲＬに関して、変化する情報へのリンクをユーザがたどった割合の高いものほど出現頻度が高い、すなわち情報源として重要とみなす統計が得られている。
【００６８】
図１０のReferer ＵＲＬリストをもとに、ゲートウェイコンピュータのキャッシュを自発的に更新したり、あるいは、新しいリンクを探すエージェントソフトウェアにより、出現頻度順に一定数のＵＲＬに対して観測を行うことも可能となる。よって、ＨＴＴＰプロキシサーバコンピュータやゲートウェイコンピュータなどのような、キャッシュを蓄積するタイプのコンピュータに情報源観測手段２を設けた場合、情報源リストに基づいて、参照元として頻度の高いＵＲＬに対して、キャッシュを自発的に更新する構成とすることが可能となる。
【００６９】
また、上記情報源観測手段２は、上記のような要求ヘッダおよび応答ヘッダに含まれる情報を利用して、アクセスしたＵＲＬのうちで正常応答を示したＵＲＬの参照元情報およびマルチメディアタイプを取得し、アクセスログの項目として記録している。これにより、例えば、アクセスログにおいて参照元情報に注目して集計を行えば、アクセスしたＵＲＬの参照元となったＵＲＬを頻度順に並べ替えて、情報源リストとしてユーザに提示することが可能となる。
【００７０】
また、参照元情報は、マルチメディアデータタイプごとに集計することもできる。例えば、テキストデータ、動画データ、音楽データなどのデータタイプごとに分別して、情報源リストとしてユーザに提示することも可能となる。
【００７１】
以上のように、上記情報源観測手段２は、ネットワークで繋がれたサーバコンピュータ１のデータファイル記憶装置１Ａのハイパーリンク構造を有するデータファイルを、クライアントコンピュータ３のブラウザ３Ａで閲覧する際に用いられる。
【００７２】
上記サーバコンピュータ１は、上記クライアントコンピュータ３から要求されたデータファイルの更新日時と、クライアントコンピュータ３が前回アクセスした該データファイルの更新日時とを比較して、これら更新日時が一致しない場合には、要求されたデータファイルが更新されている旨の応答コード（ＨＴＴＰでは２００番）を該データファイルとともに送信し、一致する場合には、要求されたデータファイルが更新されていない旨の応答コード（ＨＴＴＰでは３０４番）を送信する。
【００７３】
そして、上記情報源観測手段２の参照情報保存手段４は、クライアントコンピュータ３からアクセスされたデータファイルの参照元データファイルのアドレス情報を参照情報として保存する。また、上記カウント手段６は、上記参照情報をアドレス情報ごとに集計して参照元データファイルの参照頻度を算出する。さらに、上記同一ＵＲＬ排除手段７Ａは、１つの参照データファイルから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する。その際、同一ＵＲＬ排除手段７Ａは、クライアントコンピュータ３が要求したデータファイルが更新されているか否かを、上記応答コードに基づいて判定する。
【００７４】
つづいて、図４に示すフローチャートに基づいて、情報源観測手段２における処理の流れを図２を参照しながら説明する。なお、以下の説明において、情報源観測手段２は、クライアントコンピュータ３に内蔵されているものとするが、クライアントコンピュータ３の外部に設けられた構成においても、ほぼ同様の処理が行われる。
【００７５】
まず、情報源観測手段２は、ネットワークＩ／Ｏ１５を用いてサーバソケットをオープンし、中継要求を受け付ける待機状態に入る（Ｓ１）。そして、中継要求を受信した場合、ステップＳ２に進む。なお、上記のように、情報源観測手段２がクライアントコンピュータ３に内蔵されている場合には、情報源観測手段２は、メモリ１３を経由してブラウザ３Ａと通信する。
【００７６】
つぎに、情報源観測手段２は、ブラウザ３Ａから中継要求を受け付けると、参照情報抽出手段４によって、要求ヘッダから、参照元情報であるReferer ヘッダを抽出し、この内容をメモリ１３に一時記憶させる（Ｓ２）。
【００７７】
つぎに、情報源観測手段２は、サーバコンピュータ１に対してコネクションを開いて要求ヘッダを中継する（Ｓ３）。この際、要求したＵＲＬが存在しない場合には、エラーメッセージがクライアントコンピュータ３の表示装置１７によってユーザに提示され、メモリ１３に一次記憶させたReferer ヘッダの情報が破棄される（Ｓ４）。
【００７８】
また、情報源観測手段２は、要求したＵＲＬがサーバコンピュータ１に存在し、かつ、そのＵＲＬがクライアントコンピュータ３によるアクセス履歴がない新規なデータファイルである場合（応答コードが正常（２００番）である場合）には、そのＵＲＬに該当するサーバコンピュータ１からの応答データを受け取り、クライアントコンピュータ３のブラウザ３Ａに応答データを中継する。これと同時に、参照情報保存手段５によって、要求したＵＲＬが、Referer ヘッダに基づいて検出される参照元情報、応答コードおよび応答ヘッダに含まれるContent-lengthヘッダに基づいて検出される応答ボディ部の転送バイト数とともに、参照情報として不揮発性メモリ１４に記録され、保存される（Ｓ５）。この保存された参照情報の保存データの例を図８に示す。
【００７９】
また、情報源観測手段２は、要求したＵＲＬがサーバコンピュータ１に存在するが、そのＵＲＬがクライアントコンピュータ３によるアクセス履歴を有する場合（応答コードが正常（３０４番）である場合）、すなわち、クライアントコンピュータ３による前回アクセス以降更新されていないデータファイルである場合には、応答ボディ部のない応答データをブラウザ３Ａに中継する。これと同時に、参照情報保存手段５によって、要求したＵＲＬが、Referer ヘッダに基づいて検出される参照元情報、応答コードとともに、参照情報として不揮発性メモリ１４に記録され、保存される（Ｓ５）。
【００８０】
ここで、応答ヘッダに含まれるContent-typeヘッダに基づいて検出されるデータタイプ（text/html 等）に基づいて、指定されたデータタイプだけを保存してもよい。また、参照元のタイトルを保存してもよい。なお、Content-typeヘッダがtext/html であれば、応答データのＨＴＭＬデータを構文解析し、<title> タグで囲まれた部分を抽出することによって、該当ページのタイトルを抽出できる。
【００８１】
上記のような参照情報の保存処理は、保存データが一定数になるまで繰り返して行われる（Ｓ６）。すなわち、保存データが一定数になるまでは（ＮＯ）、ステップＳ１に戻り、保存データが一定数に達したら（ＹＥＳ）、次のステップ（Ｓ７）に進む。
【００８２】
一定数に達した保存データに対して、カウント手段６によって、参照元情報ごとに参照に用いられた回数を集計し、集計データを作成する（Ｓ７）。図９は、図８のアクセスログを集計した結果である。
【００８３】
つづいて、ソート手段７によって、上記集計データを参照頻度に関してソートする（Ｓ８）。なお、データタイプについてのソートを同時に行うこともできる。
【００８４】
このとき、同一ファイルオブジェクトの中継を除いて集計する。すなわち、同一ＵＲＬ排除手段７Ａにより、サーバコンピュータ１からのＨＴＴＰ応答コード３０４番を検出し、同一ファイルオブジェクトの中継か否かを判定して、そうであれば出現頻度のカウントから取り除く。図１０は、図９の履歴情報から応答コードが３０４番の参照元ＵＲＬを排除した結果である。
【００８５】
そして、ソートされた参照情報のデータを、データ変換手段８によって、例えばＨＴＭＬデータなどの、ブラウザ３Ａで表示することが可能なデータ形式に変換し、情報源リストとして表示装置１７に表示することによって、ユーザに提示する（Ｓ９）。このような情報源リストの例を図１１に示す。
【００８６】
情報源リストから、クライアントコンピュータ３を使用するユーザが、どのような情報を求めることを習慣としているかを把握できる。すなわち、この情報源リストは、嗜好データベースとして利用できる。例えば、図１１に示す例では、ユーザが“http://news/”を情報ソースとして最も重要と考えていることがわかる。また、各データタイプごとに参照元情報を集計して提示できるので、データタイプごとに、重要となる参照元情報を把握することも可能である。
【００８７】
ここで、情報源観測手段２が、アクセスしたＵＲＬのデータをキャッシュとして情報貯蓄手段１０に一定量蓄積するものである場合を考える。なお、情報源観測手段２がクライアントコンピュータ３に内蔵されている場合には、情報貯蓄手段１０とキャッシュメモリ３Ｂとを一つにすることができる。この場合、情報更新手段９が、所定の時間ごとに、上記のソートされた参照情報のデータに基づいて、サーバコンピュータ１から情報を自発的に取得し、情報蓄積手段１０に蓄積されたデータの更新が行われる（Ｓ１０）。このような情報更新処理は、ソートされた参照情報のデータにおいて、例えば全てのデータタイプにおける参照元として頻度の高い順、あるいは、ユーザが指定したデータタイプにおける参照元として頻度の高い順などに基づいて行われる。
【００８８】
この情報更新手段９による情報更新処理において、情報源リストに掲載されたＵＲＬ群を対象にリンクレベル２以上でファイルオブジェクトの自動収集する処理を行えば、参照元としてのＵＲＬからリンクされているデータ、すなわち、ユーザがアクセスする可能性の高いデータをも自動的に情報蓄積手段１０に蓄積されることになる。すなわち、リンクレベルを深くすれば、参照元としてのＵＲＬからリンクされている広い範囲の関連情報まで自動収集することになるが、ユーザが参照元として数多く利用するＵＲＬを起点にした情報収集となるので、ユーザが利用する可能性の高い、的確な情報収集が可能となる。これにより、参照元のＵＲＬからリンクされているデータに対してユーザがアクセスした場合にも、キャッシュデータの中からデータを取り出すことが可能となり、アクセススピードの向上およびネットワークトラフィックの低減を図ることができる。なお、情報更新手段９としては、Microsoft社のＷＷＷブラウザであるInternet Explorer の定期購読機能を利用することもできる。
【００８９】
さらに、上記のように、情報源リストに掲載されたＵＲＬ群を対象に所定のリンクレベル以上で自動収集したファイルオブジェクトに対して、検索手段１１により検索をかけ、ユーザに結果を提示することも可能である。この場合、ユーザの情報源をもとに情報収集されたファイルオブジェクトに対して検索が行われるので、一般のインターネット検索エンジンなどに比べて、情報の鮮度が高く、かつ、ユーザのニーズに適した検索結果を提供することができる。
【００９０】
以上のようなステップＳ１からステップＳ１０の処理を、情報源観測手段２は繰り返し行うことになる。
【００９１】
このように、参照情報を集計し、出現頻度順にソートした結果において、ユーザが参照元として頻繁に利用したＵＲＬは上位にランクされることになる。したがって、このようなソート結果をユーザに提示すれば、ユーザは、所望の情報をどこから得ることができるかを、自分の情報源リストから発見することが可能となり、この情報源リストからリンクをたどることによって、容易に情報を得ることが可能となる。
【００９２】
加えて、同一ＵＲＬ排除手段７Ａにより、同一ファイルオブジェクトを参照するＵＲＬを排除できる。これにより、参照統計から単なる通り道のＵＲＬを削除することにより、真のユーザ情報源統計として参照統計情報の精度を向上させることができる。すなわち、参照統計情報は新着リンク情報の予測や、それらの事前ダウンロードに使用されるので、より精度の高い新着リンク情報検出が可能になり、また無駄なＵＲＬへのアクセスがなくなるため、新着情報のための調査時間の短縮が可能になる。
【００９３】
上記の説明では、同一ＵＲＬ排除手段７Ａにより、サーバコンピュータ１からのＨＴＴＰ応答コード３０４番を検出して、同一ファイルオブジェクトの中継か否かを判定し、そうであれば出現頻度のカウントから取り除いた。しかし、同一ＵＲＬ排除手段７Ａによる同一ファイルオブジェクトの検出は、ファイルサイズが設定値以上に変化していなければ、更新されていないとみなすことによっても可能である。
【００９４】
ここで、ＷＷＷの世界では、広告の画像がリンクされてＨＴＭＬファイルに埋め込まれている場合がある。さらに、このような広告にはアクセスするごとに異なる画像を表示するものが多い。そのため、広告の画像ＵＲＬの長さが変化しただけのページにアクセスした場合、ユーザにとっては表示ページの意味内容に変化がないにもかかわらず、ファイルサイズ（転送バイト数）が異なるため、サーバコンピュータ１からは応答コード３０４番ではなく、応答コード２００番とＨＴＭＬファイルが転送される。
【００９５】
そこで、上記同一ＵＲＬ排除手段７Ａでは、ファイルサイズが閾値Ｗバイト（例えば１０バイト）以上変化したときだけ、ファイルが更新されて同一性がなくなったと判断して、統計に加える処理を行う。つまり、ファイルサイズの差が閾値Ｗバイト以下のファイルを同一ファイルとみなし、応答コード３０４番と同じく重複があるとして排除する。もちろん、閾値Ｗバイトは、コンピュータシステムの状態に応じて適宜設定することができる。
【００９６】
具体的には、ステップＳ８（図４）において、同一参照ページへの複数回アクセスを排除して統計を作る際に、（１）アクセスログの一番下（最新）のＵＲＬについてデータファイルの転送バイト数を変数Ｍｊに格納し、（２）同一ＵＲＬがないかどうかをアクセスログの上に向かって遡って調べる。そして、（３）同一ＵＲＬがｉ行目にあれば、転送バイト数である変数Ｍｉ，Ｍｊの差を計算し、
Ｍｉ−Ｍｊの絶対値＜Ｗ
という条件式で判別する。（４）この条件式を満たしているものは、ファイルサイズの変化が閾値以下であるので、ｊ行目の応答コードを３０４番に置き換える。（５）以上の処理を、ｊを１つ減算しながら繰り返し行う。
【００９７】
一例として、図１２のアクセスログを図１３に補正する場合について説明する。なお、以下では“http://books/”からのアクセスについてのみ説明する。また、アクセスログの「Referer 採用」欄には、統計に採用する場合には「○」、採用しない場合には「×」が記されている。
【００９８】
まず、９９／１／４の“http://books/”のアクセスを処理する。ここから遡ると、同じＵＲＬである“http://books/”が９９／１／３にある。しかし、９９／１／４のアクセスは、９９／１／３のアクセスと最終変更時刻が一致して、応答コード（３０４番）のみが転送されているため、ファイルサイズによる同一性判定の対象とならない。
【００９９】
つぎに、９９／１／３の“http://books/”のアクセスを処理する。ここから遡ると、同じＵＲＬである“http://books/”が９９／１／２にある。これらのアクセスの転送バイト数の差は３バイトであり、閾値（１０バイト）以下である。よって、９９／１／３のアクセスではデータファイルが実質的に更新されていなかったと判断して、応答コードを３０４番に書き換える。
【０１００】
つぎに、９９／１／２の“http://books/”のアクセスを処理する。ここから遡ると、同じＵＲＬである“http://books/”が９９／１／１にある。これらのアクセスの転送バイト数の差は１１バイトであり、閾値（１０バイト）より大きい。よって、９９／１／２のアクセスではデータファイルが実質的に更新されていたと判断して、応答コードを２００番のままとする。
【０１０１】
以上のように、同一ＵＲＬ排除手段７Ａにおいて、ファイルサイズによる同一性判定を行い、転送バイト数は異なるが更新されていないとみなせるアクセスの応答コードを３０４番に書き換えて、アクセスログを補正する。これにより、この補正の後、上述した応答コード３０４番の検出の処理にそのまま移行して、同一と思われるファイルオブジェクトへの重複アクセスを統計からまとめて排除することができる。
【０１０２】
以上のように、本発明に係る情報源観測装置は、ハイパーリンクを有するページの参照頻度統計を作成する際に、同一ファイルオブジェクトのアクセスを統計から取り除いて、変化の多い参照元ＵＲＬを推定する。
【０１０３】
具体的には、上記情報源観測装置は、ブラウザからの要求をサーバコンピュータに中継し、応答をブラウザに中継する情報源観測手段において実現される。そして、この情報源観測手段は、サーバコンピュータ上のハイパーリンク構造を持ったファイルオブジェクトをクライアントコンピュータで閲覧するシステムにおいて、参照情報抽出手段（参照元情報抽出手段）と、参照情報保存手段と、カウント手段と、同一ファイルオブジェクトの転送検知手段（同一ＵＲＬ排除手段）と、ソート手段と、データ変換手段（表示手段）とを備えて構成されてもよい。さらに、同一ファイルオブジェクトの転送検知手段に、サーバコンピュータからの応答コードを利用するように構成されてもよい。
【０１０４】
詳細には、上記情報源観測手段は、ＵＲＬ要求プロトコルの要求ヘッダに含まれる参照情報を抽出する参照情報抽出手段と、ファイルオブジェクト中継応答ヘッダの応答コードを記録して、同一ファイルオブジェクトへのアクセスを排除する手段（または、中継ファイルサイズを比較することにより、同一ファイル名へのアクセスにおいて、一定数以上のファイルサイズの変化がない場合は、同一情報へのアクセスであると判断して統計から排除する手段）と、参照情報別に統計を行うカウント手段と、これらの参照情報の統計をソートし並べ替えるソート手段と、統計結果を記憶装置に記憶し、ユーザに提示する形式にデータを変換するデータ変換手段とを備えて構成されてもよい。加えて、情報更新手段を備え、統計結果をもとに、情報源観測手段が保持する情報蓄積手段を使って情報更新を行う構成であってもよい。
【０１０５】
また、上記情報源観測手段は、ＵＲＬ要求プロトコルの要求ヘッダに含まれるReferer ヘッダから参照ＵＲＬ元情報を抽出して記憶する手段と、ＵＲＬ応答ヘッダのデータタイプからテキストなど特定のメディアタイプを示す情報を抽出する手段と、目的メディアタイプに合致しているか判断する手段を使ってメディアタイプ別に参照ＵＲＬ元情報を選別して記憶する手段と、これらの参照ＵＲＬ元情報の統計を計算する手段と、参照ＵＲＬの重複を取り除く手段と、統計結果を記憶装置に記憶し、ユーザに提示する手段とを備えて構成されてもよい。加えて、統計結果を元に情報を自動収集する手段を起動する構成であってもよい。
【０１０６】
これにより、上記情報源観測手段は、ファイルオブジェクトの参照元情報の統計情報を集計して、クライアントコンピュータに提示することができる。そして、ハイパーリンクを有するページの参照頻度統計を作成する時に、単なる通り道のページを検出して、統計から除去することによって、精度の高いユーザアクセス参照頻度統計を作成することができる。
【０１０７】
このように、本発明に係る情報源観測装置は、図８のようにアクセスログを作成する際、要求ヘッダに含まれる参照元ＵＲＬ情報と、正常なファイルオブジェクト転送であり、サーバコンピュータからの応答コードが３０４番でないものを抽出し、ファイル転送サイズを記録し、統計を取ることにより、どのＵＲＬにリンクされていた情報へのアクセスかを示す参照頻度を記録する。これにより、同一ファイルオブジェクト参照による参照統計を排除できる。すなわち、統計上、異なるファイルオブジェクトへアクセスした場合の参照元ＵＲＬを重要視して、新着情報が得られる確率の高い情報を多く含んでいるＵＲＬをユーザに示すことができる。
【０１０８】
ここで、本発明に係る情報源観測装置は、同一ファイルオブジェクトへのアクセス（参照行動）を取り除いて、参照情報（参照ＵＲＬ元情報、情報源情報）を集計し、出現頻度順にソートし、ユーザに提示することによって、異なる情報をより多く引き出したＵＲＬを重要度の上位にランク付けすることができる。
【０１０９】
これにより、ランク付けした参照ＵＲＬ元情報を情報源リスト（図１１）としてユーザに提示すれば、ユーザは自分にとって新規情報が得やすい情報源を的確に把握することができ、必要な情報を即座に得ることができる。また、例えば、多数のニュース記事にリンクが張られ、毎日異なる記事のＵＲＬへのリンクが出現するページをユーザがアクセスすれば、自動的に将来の新着情報を予測して効果的に自動巡回を行うことが可能となる。
【０１１０】
また、参照元ＵＲＬの統計から得られたリストをもとに、ゲートウェイコンピュータが内蔵キャッシュに情報を自動更新するようにすることができる。また、ゲートウェイコンピュータが自発的にこれら有用な情報源ＵＲＬをアクセスして、新しいハイパーリンクを検出して、ユーザに提示する場合に、効率的な調査が可能になる。
【０１１１】
そして、前記の手段がブラウザソフトウェアに内蔵されていれば、無駄な情報源を排除して、ユーザにとってより有用な情報を数多く提示できる。また、ブラウザが自発的にこれら有用な情報源ＵＲＬにアクセスして、新しいハイパーリンクを検出して、ユーザに提示する場合に効率的な調査が可能になる。
【０１１２】
したがって、本発明に係る情報源観測装置によれば、ＷＷＷなどのハイパーテキストシステムにおいて、ユーザがどのページを起点としてＵＲＬページを参照しているかという情報源ＵＲＬ（参照元ＵＲＬ・情報源アドレス）を抽出して統計を作成し、ユーザの情報源を予測する処理において、情報源ＵＲＬからの同一参照ページへの複数回のアクセスを排除することができる。これにより、新規情報の出現可能性が高い情報源ＵＲＬの予測精度を高めることが可能となる。
【０１１３】
上記の実施の形態は本発明の範囲を限定するものではなく、本発明の範囲内で種々の変更が可能である。特に、本実施の形態では、インターネット上のＨＴＭＬを例として説明したが、ネットワークの構成（ＨＴＴＰ等のプロトコルを含む）およびファイルオブジェクトの形式はこれに限定されない。
【０１１４】
最後に、本発明は、複数の機器（例えば、ホストコンピュータ、端末コンピュータ、インタフェース機器、ネットワーク機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、携帯型コンピュータ、ワープロ装置など）に適用してもよい。
【０１１５】
また、本発明の目的は、上述した機能を実現するソフトウエアである情報源観測プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。この場合、記録媒体から読み出されたプログラムコード自体が上述した機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【０１１６】
上記プログラムコードを供給するための記録媒体は、システムあるいは装置と分離可能に構成することができる。また、上記記録媒体は、プログラムコードを供給可能であるように固定的に担持する媒体であってもよい。そして、上記記録媒体は、記録したプログラムコードをコンピュータが直接読み取ることができるようにシステムあるいは装置に装着されるものであっても、外部記憶装置としてシステムあるいは装置に接続されたプログラム読み取り装置を介して読み取ることができるように装着されるものであってもよい。
【０１１７】
例えば、上記記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピーディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。
【０１１８】
また、上記プログラムコードは、コンピュータが記録媒体から読み出して直接実行できるように記録されていてもよいし、記録媒体から主記憶のプログラム記憶領域へ転送された後コンピュータが主記憶から読み出して実行できるように記録されていてもよい。
【０１１９】
なお、プログラムコードを記録媒体から読み出して主記憶に格納するためのプログラム、および、通信ネットワークからプログラムコードをダウンロードするためのプログラムは、コンピュータによって実行可能にあらかじめシステムあるいは装置に格納されているものとする。
【０１２０】
上述した機能は、コンピュータが読み出した上記プログラムコードを実行することによって実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳなどが実際の処理の一部または全部を行うことによっても実現される。
【０１２１】
さらに、上述した機能は、上記記録媒体から読み出された上記プログラムコードが、コンピュータに装着された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行うことによっても実現される。
【０１２２】
【発明の効果】
本発明の情報源観測装置は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する重複アクセス排除手段を有する構成である。
【０１２３】
また、本発明の情報源観測方法は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを含むとともに、１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する第５ステップを含んでいる方法である。
【０１２４】
また、本発明の情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する重複アクセス排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録した構成である。
【０１２５】
それゆえ、重複アクセス排除手段（ステップ）によって、データファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算して修正するので、参照頻度の統計から重複したアクセスを削減除去して、より有用な情報を多く含んでいるデータファイルをユーザに提示することが可能となる。
【０１２６】
よって、新規に多数出現するマルチメディアデータ等のデータファイルの参照起点となる情報源を参照頻度の統計に基づいて自動的に発見し、これをユーザに提示することができる優れたユーザインタフェースを提供することが可能となるという効果を奏する。また、処理を高速化して、ユーザの情報アクセス時間を短縮することができるという効果を奏する。
【０１２７】
したがって、上記の構成および方法によれば、サーバコンピュータとクライアントコンピュータとがネットワークで結ばれたコンピュータシステムにおいて、サーバコンピュータの上にあるハイパーテキスト構造を持ったマルチメディア文書の参照をクライアントコンピュータから容易に行うことが可能となるという効果を奏する。
【０１２８】
本発明の情報源観測装置は、以上のように、さらに、上記サーバコンピュータが、上記クライアントコンピュータから要求されたデータファイルの更新日時と、該クライアントコンピュータが前回アクセスした該データファイルの更新日時とを比較して、これら更新日時が一致しない場合には、要求されたデータファイルが更新されている旨の応答コードを該データファイルとともに送信し、一致する場合には、要求されたデータファイルが更新されていない旨の応答コードを送信するものであって、上記重複アクセス排除手段が、クライアントコンピュータが要求したデータファイルが更新されているか否かを、上記応答コードに基づいて判定する構成である。
【０１２９】
それゆえ、さらに、上記重複アクセス排除手段は、サーバコンピュータがクライアントコンピュータによりアクセス要求されたデータファイルが前回のアクセス以降に更新されたか否かを示すために送信した応答コードを検出することによって、同一データファイルの転送を検知することができる。したがって、このような応答コードを送信するプロトコル（例えば、ＨＴＴＰ）を用いるネットワークでは、容易な処理によって、上記重複アクセス排除手段を実現することができるという効果を奏する。
【０１３０】
本発明の情報源観測装置は、以上のように、さらに、上記重複アクセス排除手段が、上記クライアントコンピュータから要求されたデータファイルのサイズと、該クライアントコンピュータが前回アクセスした該データファイルのサイズとを比較して所定の閾値以上の差がない場合、要求されたデータファイルは更新されていないと判定する構成である。
【０１３１】
それゆえ、さらに、上記重複アクセス排除手段は、上記クライアントコンピュータから要求されたデータファイルのサイズと、該クライアントコンピュータが前回アクセスした該データファイルのサイズとを比較して、サイズが閾値以上に変化していなければ、そのデータファイルは更新されていないとみなして、参照頻度を修正することができる。
【０１３２】
したがって、ユーザにとっては表示ページの意味内容に変化がないにもかかわらず、ファイルサイズがわずかに異なるためにファイルが転送されたアクセスを統計の対象から排除することができ、より精度の高い参照頻度を算出することが可能となるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施の形態に係る情報源観測装置の構成の概略を示す機能ブロック図であり、情報源観測装置がクライアントコンピュータとは別に設けられている場合を示す。
【図２】本発明の一実施の形態に係る情報源観測装置の他の構成の概略を示す機能ブロック図であり、情報源観測装置がクライアントコンピュータ内に設けられている場合を示す。
【図３】図２に示す情報源観測装置を含むクライアントコンピュータの物理的構成の概略を示すブロック図である。
【図４】図１および図２に示す情報源観測装置の動作の概略を示すフローチャートである。
【図５】クライアントコンピュータから発行される要求ヘッダの一例を示す説明図である。
【図６】サーバコンピュータから発行される応答ヘッダの一例であり、通常の場合の応答ヘッダを示す説明図である。
【図７】サーバコンピュータから発行される応答ヘッダの一例であり、ファイルが更新されていない場合の応答ヘッダを示す説明図である。
【図８】図１および図２に示す情報源観測装置で作成されるＵＲＬアクセスログの一例を示す説明図である。
【図９】図１および図２に示す情報源観測装置で作成される参照元ＵＲＬ情報としての頻度統計情報を示す説明図であり、ＵＲＬの参照元ＵＲＬを集計した一例を示す。
【図１０】図１および図２に示す情報源観測装置で作成される参照元ＵＲＬ情報としての頻度統計情報を示す説明図であり、応答コード３０４の参照元ＵＲＬを除いて集計した一例を示す。
【図１１】図１および図２に示す情報源観測装置が備えるデータ変換手段によって生成されたデータの一表示例を示す説明図である。
【図１２】図１および図２に示す情報源観測装置で作成されるＵＲＬアクセスログのファイルサイズによる同一性判定の説明図であり、補正前のアクセスログの一例を示す。
【図１３】図１および図２に示す情報源観測装置で作成されるＵＲＬアクセスログのファイルサイズによる同一性判定の説明図であり、図１２に示すアクセスログを補正したアクセスログを示す。
【図１４】ＷＷＷ上におけるＨＴＭＬページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図１５】ＵＲＬアクセスログの一例を示す説明図である。
【図１６】ＷＷＷ上におけるＨＴＭＬページおよびデータファイルのリンクの様子の他の例を示す概念図である。
【符号の説明】
１サーバコンピュータ
２情報観測手段（情報源観測装置）
３クライアントコンピュータ
５参照情報保存手段
６カウント手段
７Ａ同一ＵＲＬ排除手段（重複アクセス排除手段）

Claims

ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、
上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、
上記参照情報を各ＵＲＬ毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、
１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する重複アクセス排除手段を有することを特徴とする情報源観測装置。
上記サーバコンピュータが、上記クライアントコンピュータから要求されたデータファイルの更新日時と、該クライアントコンピュータが前回アクセスした該データファイルの更新日時とを比較して、これら更新日時が一致しない場合には、要求されたデータファイルが更新されている旨の応答コードを該データファイルとともに送信し、一致する場合には、要求されたデータファイルが更新されていない旨の応答コードを送信するものであって、
上記重複アクセス排除手段が、クライアントコンピュータが要求したデータファイルが更新されているか否かを、上記応答コードに基づいて判定するものであることを特徴とする請求項１に記載の情報源観測装置。
上記重複アクセス排除手段が、上記クライアントコンピュータから要求されたデータファイルのサイズと、該クライアントコンピュータが前回アクセスした該データファイルのサイズとを比較して所定の閾値以上の差がない場合、要求されたデータファイルは更新されていないと判定するものであることを特徴とする請求項１または２に記載の情報源観測装置。
ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、
上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、
上記参照情報を各ＵＲＬ毎に集計する第３ステップと、
上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを含むとともに、
１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する第５ステップを含んでいることを特徴とする情報源観測方法。
ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、
上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、
上記参照情報を各ＵＲＬ毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、
１つの参照元のＵＲＬから行われた１つのデータファイルへのアクセスのうち、そのデータファイルが更新されてから次に更新されるまでの間に行われた複数回のアクセスを参照頻度１回に換算する重複アクセス排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体。