JP3664923B2

JP3664923B2 - 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3664923B2
Application number: JP30564899A
Authority: JP
Inventors: 克良土居
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-10-27
Filing date: 1999-10-27
Publication date: 2005-06-29
Anticipated expiration: 2019-10-27
Also published as: JP2001125910A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えばサーバコンピュータとクライアントコンピュータとがネットワークで結ばれたシステムにおいて、サーバコンピュータ上にあるハイパーリンク構造をもったデータファイルをクライアントコンピュータ上において閲覧する際に利用される情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【０００２】
【従来の技術】
昨今、複数のサーバコンピュータおよび複数のクライアントコンピュータがネットワークで結ばれ、各サーバコンピュータにハイパーテキスト構造のマルチメディアデータが記憶されており、各クライアントコンピュータにおいて、ブラウザソフトウェアによって、このようなマルチメディアデータを閲覧することが可能なシステムが広く普及している。このようなシステムの例としては、例えば、インターネットにおけるＷＷＷ（world wide web）と呼ばれるシステムなどが挙げられる。
【０００３】
マルチメディアデータを含む文書は、例えばＨＴＭＬ（hyper text markup language）と呼ばれる記述言語によって記述されており、テキスト文書、静止画、動画、音楽データ、およびJava（登録商標）アプレットなどのアプリケーションプログラムなどを含むことが可能になっている。このような文書（以下、ＨＴＭＬページと称する）およびマルチメディアデータには、それぞれＵＲＬ（uniform resource locator）と呼ばれる固有のアドレスが割り当てられている。ユーザは、ブラウザ上においてＵＲＬを指定することによって、所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることができる。また、ＨＴＭＬページには、他のページやマルチメディアデータへアクセスするためのリンクなども埋め込まれており、ユーザは、このリンクをブラウザ上でポイントすることによって、リンク先のページやマルチメディアデータに移動することも可能となっている。
【０００４】
そして、クライアントコンピュータにおけるＨＴＭＬ文書表示ソフトウェアであるブラウザとしては、例えば、Netscape Communications 社のNetscape Communicator （登録商標）や、Microsoft 社のInternet Explorer （登録商標）などの製品が広く普及している。
【０００５】
これらのブラウザでは、アクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬ、アクセス日時、およびタイトルなどが、履歴データとしてクライアントコンピュータ内のハードディスクに記憶することが可能になっている。そして、ユーザは、過去にアクセスしたＨＴＭＬページあるいはマルチメディアデータに再びアクセスしたい時に、この履歴データを参照することによって、容易に所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることが可能である。
【０００６】
また、例えばNetscape Communicator では、履歴データに基づいて、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬを、頻度順、あるいは日時順などに並べ替えて表示することが可能となっている。
【０００７】
さらに、例えば、公開特許公報「特開平１０−１４３５１９号公報（公開日：平成１０年（１９９８）５月２９日）」には、ユーザが過去にアクセスしたＵＲＬに対して、頻度や視聴時間をもとに順序づけを行い、その結果を表示する方法および装置が開示されている。
【０００８】
また、例えば、公開特許公報「特開平９−２０４３４７号公報（公開日：平成９年（１９９７）８月５日）」、公開特許公報「特開平１０−２１１３４号公報（公開日：平成１０年（１９９８）１月２３日）」には、サーバコンピュータとクライアントコンピュータとの間でＵＲＬの中継を行うゲートウェイコンピュータにおいて、ゲートウェイコンピュータに中継キャッシュが内蔵されている場合、過去に中継したＵＲＬに対して、その頻度の算出を行ってリストを作成するとともに、頻度順にゲートウェイコンピュータが自発的にキャッシュの更新を行う方法が開示されている。
【０００９】
これらの方式に共通する点としては、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬに関して、その頻度に注目し、それらを統計処理することによって頻度を算出し、頻度の高いＨＴＭＬページおよびマルチメディアデータは、ユーザの要求度が高いと判断している点である。
【００１０】
【発明が解決しようとする課題】
ここで、情報を提供する複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを想定する。なお、ゲートウェイコンピュータとは、異なるネットワーク／システムを相互接続するためのコンピュータである。
【００１１】
そして、例えば、図１０に示すように、あるサーバコンピュータ上に、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが存在し、別のサーバコンピュータ上に、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページが存在するとする。
【００１２】
ＵＲＬが“http://www.news/”で示されるＨＴＭＬページは、あるニュース情報（「日々新聞」）を提供するページであり、「新刊情報（“http://www.news/1.html”）」、「天気予報（“http://www.news/2.html”）」、「Ａ社新製品（“http://www.news/3.html”）」、「Ｂ社新製品（“http://www.news/4.html”）」、および「Ｃ社新製品（“http://www.news/5.html”）」の５つのＨＴＭＬページへのリンクがはられている。
【００１３】
また、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページは、奈良県地域情報を提供するページであり、「株式情報（“http://www/a.mov”）」および「道路情報（“http://www/b.mov”）」の２つの動画データ、および「お知らせ（“http://www/index.html”）」のＨＴＭＬページにリンクがはられている。
【００１４】
ここで、あるユーザが、クライアントコンピュータにおいて、まず、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている５つのＨＴＭＬページ（テキストデータ）を閲覧し、その後、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている２つの動画データ、および１つのＨＴＭＬページ（テキストデータ）を閲覧したとする。このとき、図１１に示すようなアクセスログが、ゲートウェイコンピュータに記録される。
【００１５】
なお、図１１において、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが一回しかカウントされていないのは、次のような理由によるものである。例えば、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページから、リンク先である「新刊情報（“http://www.news/1.html”）」のページへ移動し、閲覧後、ブラウザのバックボタン（戻るボタン）を押すことによって再び“http://www.news/”のページに戻り、同様にして他の４つのリンク先に移動したとする。この際に、ブラウザには、通常、キャッシュが一定量蓄積されており、「新刊情報（“http://www.news/1.html”）」のページから、“http://www.news/”のページに戻る際には、このキャッシュから“http://www.news/”のページのデータが取り出されることになる。この場合、ゲートウェイコンピュータには、ＵＲＬの取得要求が伝達されないので、ゲートウェイコンピュータのアクセスログには、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが、一回しか現れてこないことになる。
【００１６】
図１１に示す集計結果によれば、どのＵＲＬも１回の出現頻度であるから、上記のように、出現頻度に基づいてユーザの要求度を判断する方式によれば、どのＵＲＬもユーザの要求度は同等とみなされることになる。しかしながら、実際には、ユーザは、後日、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページや、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページに再びアクセスし、新しいリンクが作られていれば、その新しいリンクにアクセスする、というアクセス動作を行う可能性が高いと予想される。この際に、すでにアクセス済みのＵＲＬである“http://www.news/1.html”や、“http://www.news/2.html”などへ再びアクセスすることはほとんどないものと予想される。
【００１７】
すなわち、上記のように、出現頻度に基づいてユーザの要求度を判断する方式では、ハイパーテキストが多階層のツリー構造をなす場合、下位階層のファイルオブジェクトに対してもそのＵＲＬ単独でアクセス頻度が算出されて、ＵＲＬの重要度が決定されるため、実際のユーザの要求度を反映した判定を行っていないことになる。したがって、このような方式によって示された結果には、無駄なデータが多く含まれることになり、ユーザにとって有用な情報が示されない場合がある。
【００１８】
本発明は上記の問題点を解決するためになされたもので、その目的は、ＷＷＷなどのハイパーテキストシステムにおいて、ユーザがどのようなページを参照元としてＵＲＬページを参照しているかを集計し、その参照元のリストをユーザに提示することができる情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。
【００１９】
【課題を解決するための手段】
本発明の情報源観測装置は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正するフレーム定義ページ排除手段を有していることを特徴としている。
【００２０】
また、本発明の情報源観測方法は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを含むとともに、フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正する第５ステップを含んでいることを特徴としている。
【００２１】
また、本発明の情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正するフレーム定義ページ排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録したことを特徴としている。
【００２２】
上記の構成および方法により、参照情報保存手段（ステップ）によって、クライアントコンピュータからアクセスされたデータファイルの参照元データファイルのアドレス情報を参照情報として保存し、カウント手段（ステップ）によって、上記参照情報を、参照元データファイルのアドレス情報ごとに集計するので、参照元として頻繁に利用されるデータファイルを把握することが可能となる。
【００２３】
加えて、フレーム定義ページ排除手段（ステップ）によって、参照元データファイルのうちフレームが定義されているものの参照頻度を削減するように修正するので、参照頻度の統計からユーザの情報源として価値のないデータファイルによるノイズを削減除去して、より有用な情報を多く含んでいるデータファイルをユーザに提示することが可能となる。例えば、フレームが定義された参照元データファイルの参照頻度を、０や１に修正することができる。
【００２４】
これにより、マルチメディアデータ等のデータファイルの参照起点となる情報源を参照頻度の統計に基づいて自動的に発見し、これをユーザに提示することができるため、ユーザインタフェースが向上する。また、処理を高速化して、ユーザの情報アクセス時間を短縮することができる。
【００２５】
したがって、上記の構成および方法によれば、サーバコンピュータとクライアントコンピュータとがネットワークで結ばれたコンピュータシステムにおいて、サーバコンピュータの上にあるハイパーテキスト構造を持ったマルチメディア文書の参照をクライアントコンピュータから容易に行うことが可能となる。
【００２６】
さらに、本発明の情報源観測装置は、上記の課題を解決するために、上記フレーム定義ページ排除手段は、フレームが定義された参照元データファイルの参照頻度を０に修正することを特徴としている。
【００２７】
上記の構成により、さらに、フレームが定義された参照元データファイルを、その参照頻度を０に修正して、参照頻度の統計から完全に取り除くことができる。よって、参照頻度の統計からユーザの情報源として価値のないページを取り除き、より有用な情報を多く含んでいるデータファイルのアドレス情報をユーザに提示することができる。
【００２８】
さらに、本発明の情報源観測装置は、上記の課題を解決するために、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定するフレーム検出手段を有していることを特徴としている。
【００２９】
上記の構成により、さらに、フレーム検出手段によって、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定することができる。例えば、データファイルに対して、フレーム定義文字列をパターンマッチングして検出することができる。よって、データファイル中にフレーム定義文字列が検出された場合、そのデータファイルにはフレームが定義されていると判定することができるため、そのデータファイルの参照頻度を修正することが可能となる。
【００３０】
【発明の実施の形態】
〔前提となる技術〕
本発明の前提となる技術として、ユーザが実際にアクセスしたＵＲＬのハイパーリンクの関係から、ユーザの情報源ＵＲＬとなるものを統計的に推定する方法がある（特願平１１−２８６４７号）。以下では、この技術について、図１，５，６，８（ａ），１４，１５（ａ）（ｂ）を用いて説明する。
【００３１】
まず、情報提供のための複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを考える。なお、このシステムの構成は、図１に示すシステムから、フレーム検出手段２１、フレームＵＲＬ記憶手段２２、フレームＵＲＬ排除手段２３を除いた構成と考えてよい。よって、上記ゲートウェイコンピュータは、後述する情報源観測手段２（図１）に相当する。そこで、以下では、上記ゲートウェイコンピュータを情報源観測手段と記す。
【００３２】
そして、例えば、図１４に示すように、あるニュース情報（「日々新聞」）を提供するＨＴＭＬページ“http://www.news/”に５個の記事テキストヘのハイパーリンクがあり、ユーザがそれらのうちの５個ともアクセスしたとする。その後、ユーザが別の情報を提供するＨＴＭＬページ“http://sharp/”（このページのタイトルは「シャープ情報」）にアクセスして、そこにリンクされていた３個のＨＴＭＬページと、１個の動画ファイル“a.mov”とにアクセスしたとする。なお、“a.mov”は“main.html”にハイパーリンクされている。このときの履歴情報（ＵＲＬアクセスログ）は、図６に示すとおりである。
【００３３】
このとき、上記情報源観測手段は、ユーザがＵＲＬをアクセスする際の要求ヘッダに含まれるReferer ヘッダを観測し、アクセスしたＵＲＬがどのＵＲＬにリンクされていたかをゲートウェイ部（参照情報保存手段）にて記憶し、参照統計を作成する。なお、Referer ヘッダは、ＨＴＴＰプロトコルに定義された標準的なヘッダであり、ＷｅｂサーバにアクセスされたＵＲＬがどのＵＲＬにリンクされていたかを記録するために導入されたものである。
【００３４】
そして、図５がReferer ヘッダを含めた履歴である。また、図８（ａ）は、Referer ヘッダの出現頻度を統計にとったもので、これが参照統計である。この参照統計は、ハイパーリンクが参照された頻度を表している。なお、図８（ａ）は、データタイプtext/html またはmovie を集計したものである。
【００３５】
この履歴に基づいて、上記情報源観測手段は、ユーザの情報源が、テキストデータでは“http://www.news/”、ビデオデータでは“http://sharp/main.html”、であると推定することができる。
【００３６】
ここで、“http://sharp/”（図１４）は、フレームの構成ページが定義されたフレーム定義ページである。すなわち、“http://sharp/”は、“title.html”, “menu.html”, “main.html”の３つのＨＴＭＬページを合成して、ひとつのページに見せるように定義されている。
【００３７】
フレーム定義ページは、ＨＴＭＬバージョン３．２で導入された<frameset>タグを使用してページを設定する。フレーム定義ページは、前記のNetscape Communicator やInternet Explorer などのＷＷＷブラウザで表示できる。なお、フレーム定義ページはＷＷＷの世界においてますます多用される傾向にある。
【００３８】
図１５は、フレーム定義ページである“http://sharp/”のＨＴＭＬの記述例（図１５（ａ））およびその表示例（図１５（ｂ））である。図１５（ａ）（ｂ）に示すように、“http://sharp/”は、“title.html”を上から３３ドット分表示し、下の残りの部分の左から１５０ドット分に“menu.html”を表示して、右に“main.html”を表示するように割り当てられている。
【００３９】
このような“http://sharp/”をアクセスしたブラウザは、<frameset>タグを検出して、フレーム定義ページであると解釈し、フレームの構成要素のＨＴＭＬを順次アクセスする。そして、“http://sharp/”は、自動的にアクセスされた３つのＨＴＭＬページが、<frameset>タグによって定義された配置に合成されて表示される。
【００４０】
上記のように、フレーム定義ページである“http://sharp/”は、３つの構成要素である“title.html”, “menu.html”, “main.html”から構成されているため、ブラウザはReferer ヘッダに“http://sharp/”を付して各構成ページにアクセスする。その結果、ユーザがフレーム定義ページ（“http://sharp/”）に１回アクセスしただけであるにもかかわらず、Referer ヘッダの統計では、“http://sharp/”が３回カウントされる（図８（ａ））。
【００４１】
このように、参照元ＵＲＬがフレーム定義ページの場合には、ユーザのアクセス数が統計に正確に反映されない。また、フレーム定義ページは、各構成ページの表示サイズを指定する固定的なものであり、ユーザの情報源としての価値がない。したがって、Referer ヘッダを使用した統計には、フレーム定義ページによるノイズが混入してしまう場合があり、フレーム構成ページの数が多ければ、それに比例してノイズが増大する。
【００４２】
〔実施の形態〕
本発明の一実施の形態について図１から図９に基づいて説明すれば、以下のとおりである。
【００４３】
図１は、本実施の形態に係るコンピュータネットワークシステムの構成の概略を示すブロック図である。上記コンピュータネットワークシステムは、サーバコンピュータ１、情報源観測手段（情報源観測装置）２、およびクライアントコンピュータ３を備えて構成されている。なお、図１中において、サーバコンピュータ１は１つしか記載されていないが、サーバコンピュータ１としては、インターネット等のネットワークに接続された複数のサーバコンピュータが該当することになる。
【００４４】
上記サーバコンピュータ１は、データファイル記憶装置１ＡにＨＴＭＬページや各種マルチメディアデータ等のデータファイルを保持している。そして、例えばＨＴＴＰ（hypertext transfer protocol ）デーモンと呼ばれるサーバソフトウェアによって、これらのデータの管理、および外部コンピュータからのアクセスの管理を行っている。
【００４５】
上記クライアントコンピュータ３は、ＨＴＭＬページや各種マルチメディアデータを表示可能なソフトウェアであるブラウザ（情報ブラウザ）３Ａを備えている。そして、ユーザはこのクライアントコンピュータ３上においてブラウザ３Ａを操作することによって、所望のＨＴＭＬページや各種マルチメディアデータを閲覧することができる。
【００４６】
上記情報源観測手段２としては、例えばファイアウォール上に設けられるゲートウェイコンピュータや、インターネット上に設けられるＨＴＴＰプロキシサーバコンピュータなどが該当し、ＨＴＴＰのリクエスト（要求）およびレスポンス（応答）の中継を行うことを基本としている。この情報源観測手段２は、参照情報抽出手段４、参照情報保存手段５、カウント手段６、ソート手段７、データ変換手段８、情報更新手段９、情報蓄積手段１０、検索手段１１を備えるととともに、さらにフレーム検出手段２１、フレームＵＲＬ記憶手段２２を備えて構成されている。また、カウント手段６にはフレームＵＲＬ排除手段（フレーム定義ファイル排除手段）２３が設けられている。なお、これらの各手段についての説明は後述する。
【００４７】
また、図２に示すように、情報源観測手段２を、クライアントコンピュータ３に内蔵させた構成とすることも可能である。このように、クライアントコンピュータ３に内蔵可能なＨＴＴＰプロキシサーバとしては、シャープ株式会社製のシャープモバイルプロキシ（商品名）やインターネット快速便（商品名）などがある。
【００４８】
さらに、情報源観測手段２を、クライアントコンピュータ３におけるブラウザの一部として構成することも可能である。
【００４９】
図３は、クライアントコンピュータ３（図２）の構成の概略を示すブロック図である。図３に示すように、クライアントコンピュータ３は、ＣＰＵ（central processing unit ）１２、ＲＡＭ（random access memory）などで構成されるメモリ１３、ハードディスクやフラッシュメモリなどで構成される不揮発性メモリ１４、外部ネットワークとのインタフェースとなるネットワークＩ／Ｏ（input/output）１５、キーボードやマウスなどで構成される入力装置１６、および表示装置１７を備えており、これらがバス１８によって接続されている。このような構成のクライアントコンピュータ３は、一般的にパーソナルコンピュータと呼ばれるコンピュータによって構成することができる。
【００５０】
ここで、クライアントコンピュータ３において、ブラウザ３ＡによってＷＷＷ上のＨＴＭＬページを閲覧する際の、情報源観測手段２の動作について説明する。
【００５１】
まず、あるＨＴＭＬページをブラウザ３Ａ上に表示させている状態から、そのＨＴＭＬページに埋め込まれているリンクをマウスカーソルでポイントし、クリックすることによって、リンク先のＵＲＬ（アドレス情報）にアクセスした場合を想定する。例えば、図１０に示す例において、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページを表示させている状態から、「新刊情報」のＨＴＭＬページを示すリンクをクリックしたとする。この時、クライアントコンピュータ３において、ネットワークＩ／Ｏ１５を介して、情報源観測手段２に対してＴＣＰ／ＩＰ（transmission control protocol/internet porotocol）のコネクションがオープンされ、図１２に示すような要求ヘッダが発行される。
【００５２】
この要求ヘッダに含まれるReferer ヘッダは、ブラウザによって発行されているものであり、要求されているＵＲＬの参照元情報が示されている。図１２に示す例では、現在要求しているＵＲＬ“http://www.news/1.html”が、ＵＲＬが“http://www.news/”のＨＴＭＬページ（参照元データファイル）からのリンクによって要求されていることを示している。なお、このような要求ヘッダは、ＨＴＴＰ１．０の仕様で規定されている標準ヘッダである。また、このような要求ヘッダの情報は、通常サーバコンピュータにて記録されることを想定して定義されているものである。
【００５３】
情報源観測手段２は、上記のような要求ヘッダを受けて、ＵＲＬが“www.news”で示されるサーバコンピュータ１にコネクションを張り、該当するファイル（“1.html”）を受信し、クライアントコンピュータ３のブラウザ３Ａに転送する。この際、情報源観測手段２がサーバコンピュータ１から受信する応答データは、図１３に示すように、応答ヘッダとテキストデータ（ＨＴＭＬデータ）とからなっている。
【００５４】
図１３において、応答ヘッダにあるContent-Typeヘッダは、後に続くデータのマルチメディアタイプを示しており、図１３に示す例では、後に続くデータがテキストデータ（ＨＴＭＬデータ）であることを示している。
【００５５】
上記情報源観測手段２は、上記のような要求ヘッダおよび応答ヘッダに含まれる情報を利用して、アクセスしたＵＲＬのうちで正常応答を示したＵＲＬの参照元情報およびマルチメディアタイプを取得し、アクセスログの項目として記録している。これにより、例えば、アクセスログにおいて参照元情報に注目して集計を行えば、アクセスしたＵＲＬの参照元となったＵＲＬを頻度順に並べ替えて、情報源リストとしてユーザに提示することが可能となる。
【００５６】
上記情報源観測手段２は、応答ボディのテキスト部を走査して<frameset>タグがあれば（図１５（ａ））、フレーム定義ページであるので、そのＵＲＬをフレーム定義ページとして記憶する。そして、参照統計を作成するときにフレーム定義ページのＵＲＬを、統計から削除する。これにより、フレーム定義ページによる参照統計にノイズが混入することを防止できる。なお、<frame> タグもフレーム定義に使用されるので、これも同様に検出してもよい。
【００５７】
また、参照元情報は、マルチメディアデータタイプごとに集計することもできる。例えば、テキストデータ、動画データ、音楽データなどのデータタイプごとに分別して、情報源リストとしてユーザに提示することも可能となる。
【００５８】
また、情報源観測手段２として、ＨＴＴＰプロキシサーバコンピュータやゲートウェイコンピュータなどのような、キャッシュを蓄積するタイプのコンピュータの場合、情報源リストに基づいて、参照元として頻度の高いＵＲＬに対して、キャッシュを自発的に更新する構成とすることも可能である。
【００５９】
つづいて、図４に示すフローチャートに基づいて、情報源観測手段２における処理の流れを図２を参照しながら説明する。なお、以下の説明において、情報源観測手段２は、クライアントコンピュータ３に内蔵されているものとするが、クライアントコンピュータ３の外部に設けられた構成においても、ほぼ同様の処理が行われる。
【００６０】
まず、情報源観測手段２は、ネットワークＩ／Ｏ１５を用いてサーバソケットをオープンし、中継要求を受け付ける待機状態に入る（Ｓ１）。そして、中継要求を受信した場合、ステップＳ２に進む。なお、上記のように、情報源観測手段２がクライアントコンピュータ３に内蔵されている場合には、情報源観測手段２は、メモリ１３を経由してブラウザ３Ａと通信する。
【００６１】
つぎに、情報源観測手段２は、ブラウザ３Ａから中継要求を受け付けると、参照情報抽出手段４によって、要求ヘッダから、参照元情報であるReferer ヘッダを抽出し、この内容をメモリ１３に一時記憶させる（Ｓ２）。
【００６２】
つぎに、情報源観測手段２は、サーバコンピュータ１に対してコネクションを開いて要求ヘッダを中継する（Ｓ３）。この際、要求したＵＲＬが存在しない場合には、エラーメッセージがクライアントコンピュータ３の表示装置１７によってユーザに提示され、メモリ１３に一次記憶させたReferer ヘッダの情報が破棄される（Ｓ４）。
【００６３】
また、情報源観測手段２は、要求したＵＲＬが存在する場合（応答コードが正常である場合）には、そのＵＲＬに該当するサーバコンピュータ１からの応答データを受け取り、クライアントコンピュータ３のブラウザ３Ａに応答データを中継する。これと同時に、参照情報保存手段５によって、要求したＵＲＬが、応答ヘッダに含まれるContent-typeヘッダに基づいて検出されるデータタイプ、Referer ヘッダに基づいて検出される参照元情報、および参照元のタイトルとともに、参照情報として不揮発性メモリ１４に記録され、保存される（Ｓ５）。この保存された参照情報の保存データの例を図５に示す。
【００６４】
ここで、保存されるデータのデータタイプとしてはtext/html などがあるが、これ以外にあらかじめ指定されたデータタイプだけを保存してもよい。なお、Content-typeヘッダがtext/html であるときにおいて、応答データのＨＴＭＬデータを構文解析し、<title> タグで囲まれた部分を抽出することによって、該当ページのタイトルとして同時に保存してもよい。
【００６５】
また、フレーム検出手段２１において、応答データのＨＴＭＬデータを構文解析し、<frameset>タグ等のフレームを設定するタグが含まれていれば、そのＵＲＬをフレーム定義ページと判定して、フレームＵＲＬ記憶手段２２に記憶する。なお、図６ではフレーム判定の結果をtrue/falseとして記載している。
【００６６】
ここで、<frameset>タグの検出は、応答ボディのContent-typeヘッダがtext/html のときにのみ行われる。具体的には、ＣＰＵ１２が、メモリ１３に一時記憶された応答ボディに対して文字列“<frameset”または文字列“<frame”をパターンマッチングすることにより検出できる。
【００６７】
フレームＵＲＬ記憶手段２２は、図７に示すような１行につき１つ時間順に記載された単純なリスト形式で、フレームが設定されたＵＲＬを不揮発性メモリ１４に記憶する。例えば、図１４の例では、“http://sharp/”はフレーム定義タグを含むので（図１５（ａ））、フレームＵＲＬ記憶手段２２に記録される。なお、フレームＵＲＬ記憶手段２２は、記憶件数があらかじめ定めた最大件数に達すれば古いものから１行づつ消去するＦＩＦＯ（first-in first-out）構造に構成してもよい。
【００６８】
上記のような参照情報の保存処理は、保存データが一定数になるまで繰り返して行われる（Ｓ６）。すなわち、保存データが一定数になるまでは（ＮＯ）、ステップＳ１に戻り、保存データが一定数に達したら（ＹＥＳ）、次のステップ（Ｓ７）に進む。
【００６９】
一定数に達した保存データに対して、カウント手段６によって、参照元情報ごとに参照に用いられた回数を集計し、集計データを作成する（Ｓ７）。このとき、フレーム定義ページを除いて集計することができる。すなわち、フレームＵＲＬ排除手段２３により、Referer ヘッダのに含まれるＵＲＬとフレームＵＲＬ記憶手段２２の記録とを比較し、一致するものはカウントしない。
【００７０】
このソート結果の例を、図８（ａ）および図８（ｂ）に示す。なお、図８（ａ）は、図５に示す参照情報の保存データの例において、データタイプとしてtext/html またはmovie を集計した結果を示している。また、図８（ｂ）は、フレーム定義ページを除いて集計した結果を示している。
【００７１】
また、フレームＵＲＬ排除手段２３によるフレームページの排除は、フレーム定義ページを統計上低いウェイトで勘定することによっても可能である。すなわち、フレーム定義ページは構成するＨＴＭＬページを<frame src=“./title.html”> などのように指定しているので（図１５（ａ））、構成するページの数をＮ個と数えた場合、フレーム定義ページには統計上例えば１／Ｎの重みをつけて集計することも可能である。これにより、フレーム定義ページが統計から完全に排除されず、低い重みづけで統計することができる。この場合、フレーム定義ページの１回のアクセスを、構成するページの数にかかわらず、参照頻度１回として計数できる。よって、この統計を基づいて、新着情報の検査を行うことも可能となるため、フレームの各構成ＨＴＭＬページに新着情報がないかどうかを調査できる。
【００７２】
つづいて、ソート手段７によって、上記集計データをデータタイプ別にソートする（Ｓ８）。なお、参照頻度についてのソートも同時に行うこともできる。
【００７３】
そして、ソートされた参照情報のデータを、データ変換手段８によって、例えばＨＴＭＬデータなどの、ブラウザ３Ａで表示することが可能なデータ形式に変換し、情報源リストとして表示装置１７に表示することによって、ユーザに提示する（Ｓ９）。このような情報源リストの例を図９に示す。
【００７４】
情報源リストには、参照元情報のページのタイトルを示す情報が付随しているので、クライアントコンピュータ３を使用するユーザが、どのような情報を求めることを習慣としているかを把握することができる。すなわち、この情報源リストは、嗜好データベースとして利用できる。例えば、図９に示す例では、ユーザが日々新聞、奈良県の地域情報などを情報ソースとして重要と考えていることがわかる。また、各データタイプごとに参照元情報の集計が提示されているので、データタイプごとに、重要となる参照元情報を把握することができる。
【００７５】
ここで、情報源観測手段２が、アクセスしたＵＲＬのデータをキャッシュとして情報貯蓄手段１０に一定量蓄積するものである場合を考える。この場合、情報更新手段９が、所定の時間ごとに、上記のソートされた参照情報のデータに基づいて、サーバコンピュータ１から情報を自発的に取得し、情報蓄積手段１０に蓄積されたデータの更新が行われる（Ｓ１０）。このような情報更新処理は、ソートされた参照情報のデータにおいて、例えば全てのデータタイプにおける参照元として頻度の高い順、あるいは、ユーザが指定したデータタイプにおける参照元として頻度の高い順などに基づいて行われる。
【００７６】
この情報更新手段９による情報更新処理において、情報源リストに掲載されたＵＲＬ群を対象にリンクレベル２以上でファイルオブジェクトの自動収集する処理を行えば、参照元としてのＵＲＬからリンクされているデータ、すなわち、ユーザがアクセスする可能性の高いデータをも自動的に情報蓄積手段１０に蓄積されることになる。すなわち、リンクレベルを深くすれば、参照元としてのＵＲＬからリンクされている広い範囲の関連情報まで自動収集することになるが、ユーザが参照元として数多く利用するＵＲＬを起点にした情報収集となるので、ユーザが利用する可能性の高い、的確な情報収集が可能となる。これにより、参照元のＵＲＬからリンクされているデータに対してユーザがアクセスした場合にも、キャッシュデータの中からデータを取り出すことが可能となり、アクセススピードの向上およびネットワークトラフィックの低減を図ることができる。
【００７７】
さらに、上記のように、情報源リストに掲載されたＵＲＬ群を対象に所定のリンクレベル以上で自動収集したファイルオブジェクトに対して、検索手段１１により検索をかけ、ユーザに結果を提示することも可能である。この場合、ユーザの情報源をもとに情報収集されたファイルオブジェクトに対して検索が行われるので、一般のインターネット検索エンジンなどに比べて、情報の鮮度が高く、かつ、ユーザのニーズに適した検索結果を提供することができる。
【００７８】
以上のようなステップＳ１からステップＳ１０の処理を、情報源観測手段２は繰り返し行うことになる。
【００７９】
このように、参照情報を集計し、出現頻度順にソートした結果において、ユーザが参照元として頻繁に利用したＵＲＬは上位にランクされることになる。したがって、このようなソート結果をユーザに提示すれば、ユーザは、所望の情報をどこから得ることができるかを、自分の情報源リストから発見することが可能となり、この情報源リストからリンクをたどることによって、容易に情報を得ることが可能となる。
【００８０】
加えて、ユーザの情報源としての意味のないフレーム定義ページのＵＲＬを排除できる。これにより、参照統計からフレーム定義ＵＲＬを削除することにより、参照統計情報の真のユーザ情報源統計として精度を向上させることができる。すなわち、参照統計情報は新着リンク情報の予測や、それらの事前ダウンロードに使用されるので、より精度の高い新着リンク情報検出が可能になり、また無駄なフレーム定義ＵＲＬのアクセスがなくなるため、新着情報のための調査時間の短縮が可能になる。
【００８１】
以上のように、本発明に係る情報源観測装置は、参照ＵＲＬ情報を記録、統計して、ユーザに提示したり、そのリストを基に情報の自動更新を行う場合に、中継ＵＲＬのＨＴＭＬページを解釈して、フレーム定義ページであれば、それを記憶し、参照統計から取り除く。
【００８２】
具体的には、上記情報源観測装置は、ブラウザからの要求をサーバコンピュータに中継し、応答をブラウザに中継する情報源観測手段において実現される。そして、この情報源観測手段は、サーバコンピュータ上のハイパーリンク構造を持ったファイルオブジェクトをクライアントコンピュータで閲覧するシステムにおいて、参照情報抽出手段（参照元情報抽出手段）と、参照情報保存手段と、フレーム検出手段（ＨＴＭＬフレーム検出手段）と、フレームＵＲＬ記憶手段（フレーム定義ファイル名記憶手段）と、フレームＵＲＬ排除手段（フレーム定義ファイル名排除手段）を備えたカウント手段と、ソート手段と、データ変換手段（表示手段）とを備えて構成されてもよい。
【００８３】
詳細には、上記情報源観測手段は、ＵＲＬ要求プロトコルの要求ヘッダに含まれる参照情報を抽出する参照情報抽出手段と、ＵＲＬ応答ヘッダのデータタイプからテキストなど特定のメディアタイプを示す情報を抽出する参照情報保存手段と、ファイルのＨＴＭＬ表現を解釈してフレーム定義を検出するフレーム検出手段と、フレーム定義が含まれている場合にはＵＲＬ名とともに記憶するフレームＵＲＬ記憶手段と、参照情報別に統計を行うカウント手段と、参照情報統計作成時にフレームＵＲＬ記憶手段に記憶されているフレームＵＲＬと比較してフレームＵＲＬを取り除く手段と、これらの参照情報の統計をソートし並べ替えるソート手段と、統計結果を記憶装置に記憶し、ユーザに提示する形式にデータを変換するデータ変換手段とを備えて構成されてもよい。加えて、情報更新手段を備え、統計結果をもとに、情報源観測手段が保持する情報蓄積手段を使って情報更新を行う構成であってもよい。
【００８４】
また、上記情報源観測手段は、ＵＲＬ要求プロトコルの要求ヘッダに含まれるReferer ヘッダから参照ＵＲＬ元情報を抽出して記憶する手段と、ＵＲＬ応答ヘッダのデータタイプからテキストなど特定のメディアタイプを示す情報を抽出する手段と、目的メディアタイプに合致しているか判断する手段を使ってメディアタイプ別に参照ＵＲＬ元情報を選別して記憶する手段と、これらの参照ＵＲＬ元情報の統計を計算する手段と、ＵＲＬページにフレーム定義タグが含まれるかどうかを検出する手段と、フレーム定義タグが検出されたＵＲＬを記憶して、統計結果から削除する手段と、統計結果を記憶装置に記憶し、ユーザに提示する手段とを備えて構成されてもよい。加えて、統計結果を元に情報を自動収集する手段を起動する構成であってもよい。
【００８５】
これにより、上記情報源観測手段は、ファイルオブジェクトの参照元情報の統計情報を集計して、クライアントコンピュータに提示することができる。そして、ハイパーリンクを有するページの参照頻度統計を作成する時に、フレーム定義ページを検出して、統計から除去することによって、精度の高いユーザアクセス参照頻度統計を作成することができる。
【００８６】
このように、本発明に係る情報源観測装置は、図５のようにアクセスログを作成する際、要求ヘッダに含まれる参照元ＵＲＬ情報を記録して統計を取ることによって、ＵＲＬにリンクされていた情報へのアクセス頻度を記録する場合に、フレーム定義ページを参照統計から取り除く。これにより、フレーム定義ページのように情報源としては価値のないページを取り除き、より有用な情報を多く含んでいるＵＲＬの一覧をユーザに示すことができる。また、参照元ＵＲＬの統計から得られたリストをもとに、ゲートウェイコンピュータが内蔵キャッシュに情報を自動更新するようにすることができる。これにより、より効率的に情報の自動更新ができる。
【００８７】
そして、前記の手段がブラウザソフトウェアに内蔵されていれば、無駄な情報源を排除して、ユーザにとってより有用な情報を数多く提示できる。また、ブラウザが自発的にこれら有用な情報源を自動取得することが可能になる。
【００８８】
したがって、本発明に係る情報源観測装置によれば、ＷＷＷなどのハイパーテキストシステムにおいて、ユーザがどのページを起点としてＵＲＬページを参照しているかという情報源ＵＲＬ（情報源アドレス）を抽出して統計を作成し、ユーザの情報源を予測する処理において、フレーム定義ＨＴＭＬページを統計から取り除くことができる。これにより、フレーム定義ページによるノイズを除去して、より高精度な情報源の観測を可能にすることができる。
【００８９】
上記の実施の形態は本発明の範囲を限定するものではなく、本発明の範囲内で種々の変更が可能である。特に、本実施の形態では、インターネット上のＨＴＭＬを例として説明したが、ネットワークの構成およびファイルオブジェクトの形式はこれに限定されない。
【００９０】
最後に、本発明は、複数の機器（例えば、ホストコンピュータ、端末コンピュータ、インタフェース機器、ネットワーク機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、携帯型コンピュータ、ワープロ装置など）に適用してもよい。
【００９１】
また、本発明の目的は、上述した機能を実現するソフトウエアである情報源観測プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。この場合、記録媒体から読み出されたプログラムコード自体が上述した機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【００９２】
上記プログラムコードを供給するための記録媒体は、システムあるいは装置と分離可能に構成することができる。また、上記記録媒体は、プログラムコードを供給可能であるように固定的に担持する媒体であってもよい。そして、上記記録媒体は、記録したプログラムコードをコンピュータが直接読み取ることができるようにシステムあるいは装置に装着されるものであっても、外部記憶装置としてシステムあるいは装置に接続されたプログラム読み取り装置を介して読み取ることができるように装着されるものであってもよい。
【００９３】
例えば、上記記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピーディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。
【００９４】
また、上記プログラムコードは、コンピュータが記録媒体から読み出して直接実行できるように記録されていてもよいし、記録媒体から主記憶のプログラム記憶領域へ転送された後コンピュータが主記憶から読み出して実行できるように記録されていてもよい。
【００９５】
なお、プログラムコードを記録媒体から読み出して主記憶に格納するためのプログラム、および、通信ネットワークからプログラムコードをダウンロードするためのプログラムは、コンピュータによって実行可能にあらかじめシステムあるいは装置に格納されているものとする。
【００９６】
上述した機能は、コンピュータが読み出した上記プログラムコードを実行することによって実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳなどが実際の処理の一部または全部を行うことによっても実現される。
【００９７】
さらに、上述した機能は、上記記録媒体から読み出された上記プログラムコードが、コンピュータに装着された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行うことによっても実現される。
【００９８】
【発明の効果】
本発明の情報源観測装置は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正するフレーム定義ページ排除手段を有している構成である。
【００９９】
また、本発明の情報源観測方法は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、上記参照情報を各ＵＲＬ毎に集計する第３ステップと、上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを含むとともに、フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正する第５ステップを含んでいる方法である。
【０１００】
また、本発明の情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、上記参照情報を各ＵＲＬ毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正するフレーム定義ページ排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録した構成である。
【０１０１】
それゆえ、フレーム定義ページ排除手段（ステップ）によって、参照元データファイルのうちフレームが定義されているものの参照頻度を削減するように修正するので、参照頻度の統計からユーザの情報源として価値のないデータファイルによるノイズを削減除去して、より有用な情報を多く含んでいるデータファイルをユーザに提示することが可能となる。
【０１０２】
よって、マルチメディアデータ等のデータファイルの参照起点となる情報源を参照頻度の統計に基づいて自動的に発見し、これをユーザに提示することができるため、ユーザインタフェースが向上するという効果を奏する。また、処理を高速化して、ユーザの情報アクセス時間を短縮することができるという効果を奏する。
【０１０３】
したがって、上記の構成および方法によれば、サーバコンピュータとクライアントコンピュータとがネットワークで結ばれたコンピュータシステムにおいて、サーバコンピュータの上にあるハイパーテキスト構造を持ったマルチメディア文書の参照をクライアントコンピュータから容易に行うことが可能となるという効果を奏する。
【０１０４】
本発明の情報源観測装置は、以上のように、さらに、上記フレーム定義ページ排除手段は、フレームが定義された参照元データファイルの参照頻度を０に修正する構成である。
【０１０５】
それゆえ、さらに、フレームが定義された参照元データファイルを、その参照頻度を０に修正して、参照頻度の統計から完全に取り除くことができる。よって、参照頻度の統計からユーザの情報源として価値のないページを取り除き、より有用な情報を多く含んでいるデータファイルのアドレス情報をユーザに提示することができるという効果を奏する。
【０１０６】
本発明の情報源観測装置は、以上のように、さらに、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定するフレーム検出手段を有している構成である。
【０１０７】
それゆえ、さらに、フレーム検出手段によって、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定することができる。よって、データファイル中にフレーム定義文字列が検出された場合、そのデータファイルにはフレームが定義されていると判定することができるため、そのデータファイルの参照頻度を修正することが可能となるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施の形態に係る情報源観測装置の構成の概略を示す機能ブロック図であり、情報源観測装置がクライアントコンピュータとは別に設けられている場合を示す。
【図２】本発明の一実施の形態に係る情報源観測装置の他の構成の概略を示す機能ブロック図であり、情報源観測装置がクライアントコンピュータ内に設けられている場合を示す。
【図３】図２に示す情報源観測装置を含むクライアントコンピュータの物理的構成の概略を示すブロック図である。
【図４】図１および図２に示す情報源観測装置の動作の概略を示すフローチャートである。
【図５】図１および図２に示す情報源観測装置で作成されるＵＲＬの出現頻度情報を付加した履歴情報の一例を示す説明図である。
【図６】図１および図２に示す情報源観測装置で作成されるＵＲＬアクセスログの一例を示す説明図である。
【図７】図１および図２に示す情報源観測装置が備えるフレームＵＲＬ記憶手段のデータ構造を示す説明図である。
【図８】図１および図２に示す情報源観測装置で作成される参照元ＵＲＬ情報としての頻度統計情報を示す説明図であり、（ａ）はデータタイプがtext/html およびmovie であるＵＲＬの参照元ＵＲＬを集計した一例、（ｂ）は（ａ）からフレーム定義ページを除いて集計した一例を示す。
【図９】図１および図２に示す情報源観測装置が備えるデータ変換手段によって生成されたデータの一表示例を示す説明図である。
【図１０】ＷＷＷ上におけるＨＴＭＬページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図１１】図１０に示すＨＴＭＬページおよびデータファイルをアクセスした時に記憶されるアクセスログの一例を示す説明図である。
【図１２】クライアントコンピュータから発行される要求ヘッダの一例を示す説明図である。
【図１３】サーバコンピュータから発行される応答ヘッダの一例を示す説明図である。
【図１４】ＷＷＷ上におけるＨＴＭＬページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図１５】フレーム定義ページの説明図であり、（ａ）はフレーム定義ページのＨＴＭＬの記述例、（ｂ）はブラウザでの（ａ）の表示状態を示す。
【符号の説明】
１サーバコンピュータ
２情報観測手段（情報源観測装置）
３クライアントコンピュータ
５参照情報保存手段
６カウント手段
２１フレーム検出手段
２３フレームＵＲＬ排除手段（フレーム定義ページ排除手段）

Claims

ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、
上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、
上記参照情報を各ＵＲＬ毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、
フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正するフレーム定義ページ排除手段を有していることを特徴とする情報源観測装置。
上記フレーム定義ページ排除手段は、フレームが定義された参照元データファイルの参照頻度を０に修正することを特徴とする請求項１に記載の情報源観測装置。
クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定するフレーム検出手段を有していることを特徴とする請求項１または２に記載の情報源観測装置。
ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する第１ステップと、
上記抽出された参照元のＵＲＬを参照情報として保存する第２ステップと、
上記参照情報を各ＵＲＬ毎に集計する第３ステップと、
上記第３ステップによる集計結果を、上記特定クライアントコンピュータに出力する第４ステップとを含むとともに、
フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正する第５ステップを含んでいることを特徴とする情報源観測方法。
ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるＵＲＬを抽出する抽出手段と、
上記抽出された参照元のＵＲＬを参照情報として保存する参照情報保存手段と、
上記参照情報を各ＵＲＬ毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、
フレームが定義された参照元のＵＲＬの参照頻度を削減するように修正するフレーム定義ページ排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体。