JP3664923B2 - 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP3664923B2 JP3664923B2 JP30564899A JP30564899A JP3664923B2 JP 3664923 B2 JP3664923 B2 JP 3664923B2 JP 30564899 A JP30564899 A JP 30564899A JP 30564899 A JP30564899 A JP 30564899A JP 3664923 B2 JP3664923 B2 JP 3664923B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- url
- client computer
- frame
- information source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、例えばサーバコンピュータとクライアントコンピュータとがネットワークで結ばれたシステムにおいて、サーバコンピュータ上にあるハイパーリンク構造をもったデータファイルをクライアントコンピュータ上において閲覧する際に利用される情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】
昨今、複数のサーバコンピュータおよび複数のクライアントコンピュータがネットワークで結ばれ、各サーバコンピュータにハイパーテキスト構造のマルチメディアデータが記憶されており、各クライアントコンピュータにおいて、ブラウザソフトウェアによって、このようなマルチメディアデータを閲覧することが可能なシステムが広く普及している。このようなシステムの例としては、例えば、インターネットにおけるWWW(world wide web)と呼ばれるシステムなどが挙げられる。
【0003】
マルチメディアデータを含む文書は、例えばHTML(hyper text markup language)と呼ばれる記述言語によって記述されており、テキスト文書、静止画、動画、音楽データ、およびJava(登録商標)アプレットなどのアプリケーションプログラムなどを含むことが可能になっている。このような文書(以下、HTMLページと称する)およびマルチメディアデータには、それぞれURL(uniform resource locator)と呼ばれる固有のアドレスが割り当てられている。ユーザは、ブラウザ上においてURLを指定することによって、所望のHTMLページあるいはマルチメディアデータにアクセスすることができる。また、HTMLページには、他のページやマルチメディアデータへアクセスするためのリンクなども埋め込まれており、ユーザは、このリンクをブラウザ上でポイントすることによって、リンク先のページやマルチメディアデータに移動することも可能となっている。
【0004】
そして、クライアントコンピュータにおけるHTML文書表示ソフトウェアであるブラウザとしては、例えば、Netscape Communications 社のNetscape Communicator (登録商標)や、Microsoft 社のInternet Explorer (登録商標)などの製品が広く普及している。
【0005】
これらのブラウザでは、アクセスしたHTMLページおよびマルチメディアデータのURL、アクセス日時、およびタイトルなどが、履歴データとしてクライアントコンピュータ内のハードディスクに記憶することが可能になっている。そして、ユーザは、過去にアクセスしたHTMLページあるいはマルチメディアデータに再びアクセスしたい時に、この履歴データを参照することによって、容易に所望のHTMLページあるいはマルチメディアデータにアクセスすることが可能である。
【0006】
また、例えばNetscape Communicator では、履歴データに基づいて、過去にアクセスしたHTMLページおよびマルチメディアデータのURLを、頻度順、あるいは日時順などに並べ替えて表示することが可能となっている。
【0007】
さらに、例えば、公開特許公報「特開平10−143519号公報(公開日:平成10年(1998)5月29日)」には、ユーザが過去にアクセスしたURLに対して、頻度や視聴時間をもとに順序づけを行い、その結果を表示する方法および装置が開示されている。
【0008】
また、例えば、公開特許公報「特開平9−204347号公報(公開日:平成9年(1997)8月5日)」、公開特許公報「特開平10−21134号公報(公開日:平成10年(1998)1月23日)」には、サーバコンピュータとクライアントコンピュータとの間でURLの中継を行うゲートウェイコンピュータにおいて、ゲートウェイコンピュータに中継キャッシュが内蔵されている場合、過去に中継したURLに対して、その頻度の算出を行ってリストを作成するとともに、頻度順にゲートウェイコンピュータが自発的にキャッシュの更新を行う方法が開示されている。
【0009】
これらの方式に共通する点としては、過去にアクセスしたHTMLページおよびマルチメディアデータのURLに関して、その頻度に注目し、それらを統計処理することによって頻度を算出し、頻度の高いHTMLページおよびマルチメディアデータは、ユーザの要求度が高いと判断している点である。
【0010】
【発明が解決しようとする課題】
ここで、情報を提供する複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを想定する。なお、ゲートウェイコンピュータとは、異なるネットワーク/システムを相互接続するためのコンピュータである。
【0011】
そして、例えば、図10に示すように、あるサーバコンピュータ上に、URLが“http://www.news/”で示されるHTMLページが存在し、別のサーバコンピュータ上に、URLが“http://www.hello.nara/”で示されるHTMLページが存在するとする。
【0012】
URLが“http://www.news/”で示されるHTMLページは、あるニュース情報(「日々新聞」)を提供するページであり、「新刊情報(“http://www.news/1.html”)」、「天気予報(“http://www.news/2.html”)」、「A社新製品(“http://www.news/3.html”)」、「B社新製品(“http://www.news/4.html”)」、および「C社新製品(“http://www.news/5.html”)」の5つのHTMLページへのリンクがはられている。
【0013】
また、URLが“http://www.hello.nara/”で示されるHTMLページは、奈良県地域情報を提供するページであり、「株式情報(“http://www/a.mov”)」および「道路情報(“http://www/b.mov”)」の2つの動画データ、および「お知らせ(“http://www/index.html”)」のHTMLページにリンクがはられている。
【0014】
ここで、あるユーザが、クライアントコンピュータにおいて、まず、URLが“http://www.news/”で示されるHTMLページにアクセスし、このページからリンクされている5つのHTMLページ(テキストデータ)を閲覧し、その後、URLが“http://www.hello.nara/”で示されるHTMLページにアクセスし、このページからリンクされている2つの動画データ、および1つのHTMLページ(テキストデータ)を閲覧したとする。このとき、図11に示すようなアクセスログが、ゲートウェイコンピュータに記録される。
【0015】
なお、図11において、URLが“http://www.news/”で示されるHTMLページが一回しかカウントされていないのは、次のような理由によるものである。例えば、URLが“http://www.news/”で示されるHTMLページから、リンク先である「新刊情報(“http://www.news/1.html”)」のページへ移動し、閲覧後、ブラウザのバックボタン(戻るボタン)を押すことによって再び“http://www.news/”のページに戻り、同様にして他の4つのリンク先に移動したとする。この際に、ブラウザには、通常、キャッシュが一定量蓄積されており、「新刊情報(“http://www.news/1.html”)」のページから、“http://www.news/”のページに戻る際には、このキャッシュから“http://www.news/”のページのデータが取り出されることになる。この場合、ゲートウェイコンピュータには、URLの取得要求が伝達されないので、ゲートウェイコンピュータのアクセスログには、URLが“http://www.news/”で示されるHTMLページが、一回しか現れてこないことになる。
【0016】
図11に示す集計結果によれば、どのURLも1回の出現頻度であるから、上記のように、出現頻度に基づいてユーザの要求度を判断する方式によれば、どのURLもユーザの要求度は同等とみなされることになる。しかしながら、実際には、ユーザは、後日、URLが“http://www.news/”で示されるHTMLページや、URLが“http://www.hello.nara/”で示されるHTMLページに再びアクセスし、新しいリンクが作られていれば、その新しいリンクにアクセスする、というアクセス動作を行う可能性が高いと予想される。この際に、すでにアクセス済みのURLである“http://www.news/1.html”や、“http://www.news/2.html”などへ再びアクセスすることはほとんどないものと予想される。
【0017】
すなわち、上記のように、出現頻度に基づいてユーザの要求度を判断する方式では、ハイパーテキストが多階層のツリー構造をなす場合、下位階層のファイルオブジェクトに対してもそのURL単独でアクセス頻度が算出されて、URLの重要度が決定されるため、実際のユーザの要求度を反映した判定を行っていないことになる。したがって、このような方式によって示された結果には、無駄なデータが多く含まれることになり、ユーザにとって有用な情報が示されない場合がある。
【0018】
本発明は上記の問題点を解決するためになされたもので、その目的は、WWWなどのハイパーテキストシステムにおいて、ユーザがどのようなページを参照元としてURLページを参照しているかを集計し、その参照元のリストをユーザに提示することができる情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。
【0019】
【課題を解決するための手段】
本発明の情報源観測装置は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する抽出手段と、上記抽出された参照元のURLを参照情報として保存する参照情報保存手段と、上記参照情報を各URL毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、フレームが定義された参照元のURLの参照頻度を削減するように修正するフレーム定義ページ排除手段を有していることを特徴としている。
【0020】
また、本発明の情報源観測方法は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する第1ステップと、上記抽出された参照元のURLを参照情報として保存する第2ステップと、上記参照情報を各URL毎に集計する第3ステップと、上記第3ステップによる集計結果を、上記特定クライアントコンピュータに出力する第4ステップとを含むとともに、フレームが定義された参照元のURLの参照頻度を削減するように修正する第5ステップを含んでいることを特徴としている。
【0021】
また、本発明の情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体は、上記の課題を解決するために、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する抽出手段と、上記抽出された参照元のURLを参照情報として保存する参照情報保存手段と、上記参照情報を各URL毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、フレームが定義された参照元のURLの参照頻度を削減するように修正するフレーム定義ページ排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録したことを特徴としている。
【0022】
上記の構成および方法により、参照情報保存手段(ステップ)によって、クライアントコンピュータからアクセスされたデータファイルの参照元データファイルのアドレス情報を参照情報として保存し、カウント手段(ステップ)によって、上記参照情報を、参照元データファイルのアドレス情報ごとに集計するので、参照元として頻繁に利用されるデータファイルを把握することが可能となる。
【0023】
加えて、フレーム定義ページ排除手段(ステップ)によって、参照元データファイルのうちフレームが定義されているものの参照頻度を削減するように修正するので、参照頻度の統計からユーザの情報源として価値のないデータファイルによるノイズを削減除去して、より有用な情報を多く含んでいるデータファイルをユーザに提示することが可能となる。例えば、フレームが定義された参照元データファイルの参照頻度を、0や1に修正することができる。
【0024】
これにより、マルチメディアデータ等のデータファイルの参照起点となる情報源を参照頻度の統計に基づいて自動的に発見し、これをユーザに提示することができるため、ユーザインタフェースが向上する。また、処理を高速化して、ユーザの情報アクセス時間を短縮することができる。
【0025】
したがって、上記の構成および方法によれば、サーバコンピュータとクライアントコンピュータとがネットワークで結ばれたコンピュータシステムにおいて、サーバコンピュータの上にあるハイパーテキスト構造を持ったマルチメディア文書の参照をクライアントコンピュータから容易に行うことが可能となる。
【0026】
さらに、本発明の情報源観測装置は、上記の課題を解決するために、上記フレーム定義ページ排除手段は、フレームが定義された参照元データファイルの参照頻度を0に修正することを特徴としている。
【0027】
上記の構成により、さらに、フレームが定義された参照元データファイルを、その参照頻度を0に修正して、参照頻度の統計から完全に取り除くことができる。よって、参照頻度の統計からユーザの情報源として価値のないページを取り除き、より有用な情報を多く含んでいるデータファイルのアドレス情報をユーザに提示することができる。
【0028】
さらに、本発明の情報源観測装置は、上記の課題を解決するために、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定するフレーム検出手段を有していることを特徴としている。
【0029】
上記の構成により、さらに、フレーム検出手段によって、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定することができる。例えば、データファイルに対して、フレーム定義文字列をパターンマッチングして検出することができる。よって、データファイル中にフレーム定義文字列が検出された場合、そのデータファイルにはフレームが定義されていると判定することができるため、そのデータファイルの参照頻度を修正することが可能となる。
【0030】
【発明の実施の形態】
〔前提となる技術〕
本発明の前提となる技術として、ユーザが実際にアクセスしたURLのハイパーリンクの関係から、ユーザの情報源URLとなるものを統計的に推定する方法がある(特願平11−28647号)。以下では、この技術について、図1,5,6,8(a),14,15(a)(b)を用いて説明する。
【0031】
まず、情報提供のための複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを考える。なお、このシステムの構成は、図1に示すシステムから、フレーム検出手段21、フレームURL記憶手段22、フレームURL排除手段23を除いた構成と考えてよい。よって、上記ゲートウェイコンピュータは、後述する情報源観測手段2(図1)に相当する。そこで、以下では、上記ゲートウェイコンピュータを情報源観測手段と記す。
【0032】
そして、例えば、図14に示すように、あるニュース情報(「日々新聞」)を提供するHTMLページ“http://www.news/”に5個の記事テキストヘのハイパーリンクがあり、ユーザがそれらのうちの5個ともアクセスしたとする。その後、ユーザが別の情報を提供するHTMLページ“http://sharp/”(このページのタイトルは「シャープ情報」)にアクセスして、そこにリンクされていた3個のHTMLページと、1個の動画ファイル“a.mov”とにアクセスしたとする。なお、“a.mov”は“main.html”にハイパーリンクされている。このときの履歴情報(URLアクセスログ)は、図6に示すとおりである。
【0033】
このとき、上記情報源観測手段は、ユーザがURLをアクセスする際の要求ヘッダに含まれるReferer ヘッダを観測し、アクセスしたURLがどのURLにリンクされていたかをゲートウェイ部(参照情報保存手段)にて記憶し、参照統計を作成する。なお、Referer ヘッダは、HTTPプロトコルに定義された標準的なヘッダであり、WebサーバにアクセスされたURLがどのURLにリンクされていたかを記録するために導入されたものである。
【0034】
そして、図5がReferer ヘッダを含めた履歴である。また、図8(a)は、Referer ヘッダの出現頻度を統計にとったもので、これが参照統計である。この参照統計は、ハイパーリンクが参照された頻度を表している。なお、図8(a)は、データタイプtext/html またはmovie を集計したものである。
【0035】
この履歴に基づいて、上記情報源観測手段は、ユーザの情報源が、テキストデータでは“http://www.news/”、ビデオデータでは“http://sharp/main.html”、であると推定することができる。
【0036】
ここで、“http://sharp/”(図14)は、フレームの構成ページが定義されたフレーム定義ページである。すなわち、“http://sharp/”は、“title.html”, “menu.html”, “main.html”の3つのHTMLページを合成して、ひとつのページに見せるように定義されている。
【0037】
フレーム定義ページは、HTMLバージョン3.2で導入された<frameset>タグを使用してページを設定する。フレーム定義ページは、前記のNetscape Communicator やInternet Explorer などのWWWブラウザで表示できる。なお、フレーム定義ページはWWWの世界においてますます多用される傾向にある。
【0038】
図15は、フレーム定義ページである“http://sharp/”のHTMLの記述例(図15(a))およびその表示例(図15(b))である。図15(a)(b)に示すように、“http://sharp/”は、“title.html”を上から33ドット分表示し、下の残りの部分の左から150ドット分に“menu.html”を表示して、右に“main.html”を表示するように割り当てられている。
【0039】
このような“http://sharp/”をアクセスしたブラウザは、<frameset>タグを検出して、フレーム定義ページであると解釈し、フレームの構成要素のHTMLを順次アクセスする。そして、“http://sharp/”は、自動的にアクセスされた3つのHTMLページが、<frameset>タグによって定義された配置に合成されて表示される。
【0040】
上記のように、フレーム定義ページである“http://sharp/”は、3つの構成要素である“title.html”, “menu.html”, “main.html”から構成されているため、ブラウザはReferer ヘッダに“http://sharp/”を付して各構成ページにアクセスする。その結果、ユーザがフレーム定義ページ(“http://sharp/”)に1回アクセスしただけであるにもかかわらず、Referer ヘッダの統計では、“http://sharp/”が3回カウントされる(図8(a))。
【0041】
このように、参照元URLがフレーム定義ページの場合には、ユーザのアクセス数が統計に正確に反映されない。また、フレーム定義ページは、各構成ページの表示サイズを指定する固定的なものであり、ユーザの情報源としての価値がない。したがって、Referer ヘッダを使用した統計には、フレーム定義ページによるノイズが混入してしまう場合があり、フレーム構成ページの数が多ければ、それに比例してノイズが増大する。
【0042】
〔実施の形態〕
本発明の一実施の形態について図1から図9に基づいて説明すれば、以下のとおりである。
【0043】
図1は、本実施の形態に係るコンピュータネットワークシステムの構成の概略を示すブロック図である。上記コンピュータネットワークシステムは、サーバコンピュータ1、情報源観測手段(情報源観測装置)2、およびクライアントコンピュータ3を備えて構成されている。なお、図1中において、サーバコンピュータ1は1つしか記載されていないが、サーバコンピュータ1としては、インターネット等のネットワークに接続された複数のサーバコンピュータが該当することになる。
【0044】
上記サーバコンピュータ1は、データファイル記憶装置1AにHTMLページや各種マルチメディアデータ等のデータファイルを保持している。そして、例えばHTTP(hypertext transfer protocol )デーモンと呼ばれるサーバソフトウェアによって、これらのデータの管理、および外部コンピュータからのアクセスの管理を行っている。
【0045】
上記クライアントコンピュータ3は、HTMLページや各種マルチメディアデータを表示可能なソフトウェアであるブラウザ(情報ブラウザ)3Aを備えている。そして、ユーザはこのクライアントコンピュータ3上においてブラウザ3Aを操作することによって、所望のHTMLページや各種マルチメディアデータを閲覧することができる。
【0046】
上記情報源観測手段2としては、例えばファイアウォール上に設けられるゲートウェイコンピュータや、インターネット上に設けられるHTTPプロキシサーバコンピュータなどが該当し、HTTPのリクエスト(要求)およびレスポンス(応答)の中継を行うことを基本としている。この情報源観測手段2は、参照情報抽出手段4、参照情報保存手段5、カウント手段6、ソート手段7、データ変換手段8、情報更新手段9、情報蓄積手段10、検索手段11を備えるととともに、さらにフレーム検出手段21、フレームURL記憶手段22を備えて構成されている。また、カウント手段6にはフレームURL排除手段(フレーム定義ファイル排除手段)23が設けられている。なお、これらの各手段についての説明は後述する。
【0047】
また、図2に示すように、情報源観測手段2を、クライアントコンピュータ3に内蔵させた構成とすることも可能である。このように、クライアントコンピュータ3に内蔵可能なHTTPプロキシサーバとしては、シャープ株式会社製のシャープモバイルプロキシ(商品名)やインターネット快速便(商品名)などがある。
【0048】
さらに、情報源観測手段2を、クライアントコンピュータ3におけるブラウザの一部として構成することも可能である。
【0049】
図3は、クライアントコンピュータ3(図2)の構成の概略を示すブロック図である。図3に示すように、クライアントコンピュータ3は、CPU(central processing unit )12、RAM(random access memory)などで構成されるメモリ13、ハードディスクやフラッシュメモリなどで構成される不揮発性メモリ14、外部ネットワークとのインタフェースとなるネットワークI/O(input/output)15、キーボードやマウスなどで構成される入力装置16、および表示装置17を備えており、これらがバス18によって接続されている。このような構成のクライアントコンピュータ3は、一般的にパーソナルコンピュータと呼ばれるコンピュータによって構成することができる。
【0050】
ここで、クライアントコンピュータ3において、ブラウザ3AによってWWW上のHTMLページを閲覧する際の、情報源観測手段2の動作について説明する。
【0051】
まず、あるHTMLページをブラウザ3A上に表示させている状態から、そのHTMLページに埋め込まれているリンクをマウスカーソルでポイントし、クリックすることによって、リンク先のURL(アドレス情報)にアクセスした場合を想定する。例えば、図10に示す例において、URLが“http://www.news/”で示されるHTMLページを表示させている状態から、「新刊情報」のHTMLページを示すリンクをクリックしたとする。この時、クライアントコンピュータ3において、ネットワークI/O15を介して、情報源観測手段2に対してTCP/IP(transmission control protocol/internet porotocol)のコネクションがオープンされ、図12に示すような要求ヘッダが発行される。
【0052】
この要求ヘッダに含まれるReferer ヘッダは、ブラウザによって発行されているものであり、要求されているURLの参照元情報が示されている。図12に示す例では、現在要求しているURL“http://www.news/1.html”が、URLが“http://www.news/”のHTMLページ(参照元データファイル)からのリンクによって要求されていることを示している。なお、このような要求ヘッダは、HTTP1.0の仕様で規定されている標準ヘッダである。また、このような要求ヘッダの情報は、通常サーバコンピュータにて記録されることを想定して定義されているものである。
【0053】
情報源観測手段2は、上記のような要求ヘッダを受けて、URLが“www.news”で示されるサーバコンピュータ1にコネクションを張り、該当するファイル(“1.html”)を受信し、クライアントコンピュータ3のブラウザ3Aに転送する。この際、情報源観測手段2がサーバコンピュータ1から受信する応答データは、図13に示すように、応答ヘッダとテキストデータ(HTMLデータ)とからなっている。
【0054】
図13において、応答ヘッダにあるContent-Typeヘッダは、後に続くデータのマルチメディアタイプを示しており、図13に示す例では、後に続くデータがテキストデータ(HTMLデータ)であることを示している。
【0055】
上記情報源観測手段2は、上記のような要求ヘッダおよび応答ヘッダに含まれる情報を利用して、アクセスしたURLのうちで正常応答を示したURLの参照元情報およびマルチメディアタイプを取得し、アクセスログの項目として記録している。これにより、例えば、アクセスログにおいて参照元情報に注目して集計を行えば、アクセスしたURLの参照元となったURLを頻度順に並べ替えて、情報源リストとしてユーザに提示することが可能となる。
【0056】
上記情報源観測手段2は、応答ボディのテキスト部を走査して<frameset>タグがあれば(図15(a))、フレーム定義ページであるので、そのURLをフレーム定義ページとして記憶する。そして、参照統計を作成するときにフレーム定義ページのURLを、統計から削除する。これにより、フレーム定義ページによる参照統計にノイズが混入することを防止できる。なお、<frame> タグもフレーム定義に使用されるので、これも同様に検出してもよい。
【0057】
また、参照元情報は、マルチメディアデータタイプごとに集計することもできる。例えば、テキストデータ、動画データ、音楽データなどのデータタイプごとに分別して、情報源リストとしてユーザに提示することも可能となる。
【0058】
また、情報源観測手段2として、HTTPプロキシサーバコンピュータやゲートウェイコンピュータなどのような、キャッシュを蓄積するタイプのコンピュータの場合、情報源リストに基づいて、参照元として頻度の高いURLに対して、キャッシュを自発的に更新する構成とすることも可能である。
【0059】
つづいて、図4に示すフローチャートに基づいて、情報源観測手段2における処理の流れを図2を参照しながら説明する。なお、以下の説明において、情報源観測手段2は、クライアントコンピュータ3に内蔵されているものとするが、クライアントコンピュータ3の外部に設けられた構成においても、ほぼ同様の処理が行われる。
【0060】
まず、情報源観測手段2は、ネットワークI/O15を用いてサーバソケットをオープンし、中継要求を受け付ける待機状態に入る(S1)。そして、中継要求を受信した場合、ステップS2に進む。なお、上記のように、情報源観測手段2がクライアントコンピュータ3に内蔵されている場合には、情報源観測手段2は、メモリ13を経由してブラウザ3Aと通信する。
【0061】
つぎに、情報源観測手段2は、ブラウザ3Aから中継要求を受け付けると、参照情報抽出手段4によって、要求ヘッダから、参照元情報であるReferer ヘッダを抽出し、この内容をメモリ13に一時記憶させる(S2)。
【0062】
つぎに、情報源観測手段2は、サーバコンピュータ1に対してコネクションを開いて要求ヘッダを中継する(S3)。この際、要求したURLが存在しない場合には、エラーメッセージがクライアントコンピュータ3の表示装置17によってユーザに提示され、メモリ13に一次記憶させたReferer ヘッダの情報が破棄される(S4)。
【0063】
また、情報源観測手段2は、要求したURLが存在する場合(応答コードが正常である場合)には、そのURLに該当するサーバコンピュータ1からの応答データを受け取り、クライアントコンピュータ3のブラウザ3Aに応答データを中継する。これと同時に、参照情報保存手段5によって、要求したURLが、応答ヘッダに含まれるContent-typeヘッダに基づいて検出されるデータタイプ、Referer ヘッダに基づいて検出される参照元情報、および参照元のタイトルとともに、参照情報として不揮発性メモリ14に記録され、保存される(S5)。この保存された参照情報の保存データの例を図5に示す。
【0064】
ここで、保存されるデータのデータタイプとしてはtext/html などがあるが、これ以外にあらかじめ指定されたデータタイプだけを保存してもよい。なお、Content-typeヘッダがtext/html であるときにおいて、応答データのHTMLデータを構文解析し、<title> タグで囲まれた部分を抽出することによって、該当ページのタイトルとして同時に保存してもよい。
【0065】
また、フレーム検出手段21において、応答データのHTMLデータを構文解析し、<frameset>タグ等のフレームを設定するタグが含まれていれば、そのURLをフレーム定義ページと判定して、フレームURL記憶手段22に記憶する。なお、図6ではフレーム判定の結果をtrue/falseとして記載している。
【0066】
ここで、<frameset>タグの検出は、応答ボディのContent-typeヘッダがtext/html のときにのみ行われる。具体的には、CPU12が、メモリ13に一時記憶された応答ボディに対して文字列“<frameset”または文字列“<frame”をパターンマッチングすることにより検出できる。
【0067】
フレームURL記憶手段22は、図7に示すような1行につき1つ時間順に記載された単純なリスト形式で、フレームが設定されたURLを不揮発性メモリ14に記憶する。例えば、図14の例では、“http://sharp/”はフレーム定義タグを含むので(図15(a))、フレームURL記憶手段22に記録される。なお、フレームURL記憶手段22は、記憶件数があらかじめ定めた最大件数に達すれば古いものから1行づつ消去するFIFO(first-in first-out)構造に構成してもよい。
【0068】
上記のような参照情報の保存処理は、保存データが一定数になるまで繰り返して行われる(S6)。すなわち、保存データが一定数になるまでは(NO)、ステップS1に戻り、保存データが一定数に達したら(YES)、次のステップ(S7)に進む。
【0069】
一定数に達した保存データに対して、カウント手段6によって、参照元情報ごとに参照に用いられた回数を集計し、集計データを作成する(S7)。このとき、フレーム定義ページを除いて集計することができる。すなわち、フレームURL排除手段23により、Referer ヘッダのに含まれるURLとフレームURL記憶手段22の記録とを比較し、一致するものはカウントしない。
【0070】
このソート結果の例を、図8(a)および図8(b)に示す。なお、図8(a)は、図5に示す参照情報の保存データの例において、データタイプとしてtext/html またはmovie を集計した結果を示している。また、図8(b)は、フレーム定義ページを除いて集計した結果を示している。
【0071】
また、フレームURL排除手段23によるフレームページの排除は、フレーム定義ページを統計上低いウェイトで勘定することによっても可能である。すなわち、フレーム定義ページは構成するHTMLページを<frame src=“./title.html”> などのように指定しているので(図15(a))、構成するページの数をN個と数えた場合、フレーム定義ページには統計上例えば1/Nの重みをつけて集計することも可能である。これにより、フレーム定義ページが統計から完全に排除されず、低い重みづけで統計することができる。この場合、フレーム定義ページの1回のアクセスを、構成するページの数にかかわらず、参照頻度1回として計数できる。よって、この統計を基づいて、新着情報の検査を行うことも可能となるため、フレームの各構成HTMLページに新着情報がないかどうかを調査できる。
【0072】
つづいて、ソート手段7によって、上記集計データをデータタイプ別にソートする(S8)。なお、参照頻度についてのソートも同時に行うこともできる。
【0073】
そして、ソートされた参照情報のデータを、データ変換手段8によって、例えばHTMLデータなどの、ブラウザ3Aで表示することが可能なデータ形式に変換し、情報源リストとして表示装置17に表示することによって、ユーザに提示する(S9)。このような情報源リストの例を図9に示す。
【0074】
情報源リストには、参照元情報のページのタイトルを示す情報が付随しているので、クライアントコンピュータ3を使用するユーザが、どのような情報を求めることを習慣としているかを把握することができる。すなわち、この情報源リストは、嗜好データベースとして利用できる。例えば、図9に示す例では、ユーザが日々新聞、奈良県の地域情報などを情報ソースとして重要と考えていることがわかる。また、各データタイプごとに参照元情報の集計が提示されているので、データタイプごとに、重要となる参照元情報を把握することができる。
【0075】
ここで、情報源観測手段2が、アクセスしたURLのデータをキャッシュとして情報貯蓄手段10に一定量蓄積するものである場合を考える。この場合、情報更新手段9が、所定の時間ごとに、上記のソートされた参照情報のデータに基づいて、サーバコンピュータ1から情報を自発的に取得し、情報蓄積手段10に蓄積されたデータの更新が行われる(S10)。このような情報更新処理は、ソートされた参照情報のデータにおいて、例えば全てのデータタイプにおける参照元として頻度の高い順、あるいは、ユーザが指定したデータタイプにおける参照元として頻度の高い順などに基づいて行われる。
【0076】
この情報更新手段9による情報更新処理において、情報源リストに掲載されたURL群を対象にリンクレベル2以上でファイルオブジェクトの自動収集する処理を行えば、参照元としてのURLからリンクされているデータ、すなわち、ユーザがアクセスする可能性の高いデータをも自動的に情報蓄積手段10に蓄積されることになる。すなわち、リンクレベルを深くすれば、参照元としてのURLからリンクされている広い範囲の関連情報まで自動収集することになるが、ユーザが参照元として数多く利用するURLを起点にした情報収集となるので、ユーザが利用する可能性の高い、的確な情報収集が可能となる。これにより、参照元のURLからリンクされているデータに対してユーザがアクセスした場合にも、キャッシュデータの中からデータを取り出すことが可能となり、アクセススピードの向上およびネットワークトラフィックの低減を図ることができる。
【0077】
さらに、上記のように、情報源リストに掲載されたURL群を対象に所定のリンクレベル以上で自動収集したファイルオブジェクトに対して、検索手段11により検索をかけ、ユーザに結果を提示することも可能である。この場合、ユーザの情報源をもとに情報収集されたファイルオブジェクトに対して検索が行われるので、一般のインターネット検索エンジンなどに比べて、情報の鮮度が高く、かつ、ユーザのニーズに適した検索結果を提供することができる。
【0078】
以上のようなステップS1からステップS10の処理を、情報源観測手段2は繰り返し行うことになる。
【0079】
このように、参照情報を集計し、出現頻度順にソートした結果において、ユーザが参照元として頻繁に利用したURLは上位にランクされることになる。したがって、このようなソート結果をユーザに提示すれば、ユーザは、所望の情報をどこから得ることができるかを、自分の情報源リストから発見することが可能となり、この情報源リストからリンクをたどることによって、容易に情報を得ることが可能となる。
【0080】
加えて、ユーザの情報源としての意味のないフレーム定義ページのURLを排除できる。これにより、参照統計からフレーム定義URLを削除することにより、参照統計情報の真のユーザ情報源統計として精度を向上させることができる。すなわち、参照統計情報は新着リンク情報の予測や、それらの事前ダウンロードに使用されるので、より精度の高い新着リンク情報検出が可能になり、また無駄なフレーム定義URLのアクセスがなくなるため、新着情報のための調査時間の短縮が可能になる。
【0081】
以上のように、本発明に係る情報源観測装置は、参照URL情報を記録、統計して、ユーザに提示したり、そのリストを基に情報の自動更新を行う場合に、中継URLのHTMLページを解釈して、フレーム定義ページであれば、それを記憶し、参照統計から取り除く。
【0082】
具体的には、上記情報源観測装置は、ブラウザからの要求をサーバコンピュータに中継し、応答をブラウザに中継する情報源観測手段において実現される。そして、この情報源観測手段は、サーバコンピュータ上のハイパーリンク構造を持ったファイルオブジェクトをクライアントコンピュータで閲覧するシステムにおいて、参照情報抽出手段(参照元情報抽出手段)と、参照情報保存手段と、フレーム検出手段(HTMLフレーム検出手段)と、フレームURL記憶手段(フレーム定義ファイル名記憶手段)と、フレームURL排除手段(フレーム定義ファイル名排除手段)を備えたカウント手段と、ソート手段と、データ変換手段(表示手段)とを備えて構成されてもよい。
【0083】
詳細には、上記情報源観測手段は、URL要求プロトコルの要求ヘッダに含まれる参照情報を抽出する参照情報抽出手段と、URL応答ヘッダのデータタイプからテキストなど特定のメディアタイプを示す情報を抽出する参照情報保存手段と、ファイルのHTML表現を解釈してフレーム定義を検出するフレーム検出手段と、フレーム定義が含まれている場合にはURL名とともに記憶するフレームURL記憶手段と、参照情報別に統計を行うカウント手段と、参照情報統計作成時にフレームURL記憶手段に記憶されているフレームURLと比較してフレームURLを取り除く手段と、これらの参照情報の統計をソートし並べ替えるソート手段と、統計結果を記憶装置に記憶し、ユーザに提示する形式にデータを変換するデータ変換手段とを備えて構成されてもよい。加えて、情報更新手段を備え、統計結果をもとに、情報源観測手段が保持する情報蓄積手段を使って情報更新を行う構成であってもよい。
【0084】
また、上記情報源観測手段は、URL要求プロトコルの要求ヘッダに含まれるReferer ヘッダから参照URL元情報を抽出して記憶する手段と、URL応答ヘッダのデータタイプからテキストなど特定のメディアタイプを示す情報を抽出する手段と、目的メディアタイプに合致しているか判断する手段を使ってメディアタイプ別に参照URL元情報を選別して記憶する手段と、これらの参照URL元情報の統計を計算する手段と、URLページにフレーム定義タグが含まれるかどうかを検出する手段と、フレーム定義タグが検出されたURLを記憶して、統計結果から削除する手段と、統計結果を記憶装置に記憶し、ユーザに提示する手段とを備えて構成されてもよい。加えて、統計結果を元に情報を自動収集する手段を起動する構成であってもよい。
【0085】
これにより、上記情報源観測手段は、ファイルオブジェクトの参照元情報の統計情報を集計して、クライアントコンピュータに提示することができる。そして、ハイパーリンクを有するページの参照頻度統計を作成する時に、フレーム定義ページを検出して、統計から除去することによって、精度の高いユーザアクセス参照頻度統計を作成することができる。
【0086】
このように、本発明に係る情報源観測装置は、図5のようにアクセスログを作成する際、要求ヘッダに含まれる参照元URL情報を記録して統計を取ることによって、URLにリンクされていた情報へのアクセス頻度を記録する場合に、フレーム定義ページを参照統計から取り除く。これにより、フレーム定義ページのように情報源としては価値のないページを取り除き、より有用な情報を多く含んでいるURLの一覧をユーザに示すことができる。また、参照元URLの統計から得られたリストをもとに、ゲートウェイコンピュータが内蔵キャッシュに情報を自動更新するようにすることができる。これにより、より効率的に情報の自動更新ができる。
【0087】
そして、前記の手段がブラウザソフトウェアに内蔵されていれば、無駄な情報源を排除して、ユーザにとってより有用な情報を数多く提示できる。また、ブラウザが自発的にこれら有用な情報源を自動取得することが可能になる。
【0088】
したがって、本発明に係る情報源観測装置によれば、WWWなどのハイパーテキストシステムにおいて、ユーザがどのページを起点としてURLページを参照しているかという情報源URL(情報源アドレス)を抽出して統計を作成し、ユーザの情報源を予測する処理において、フレーム定義HTMLページを統計から取り除くことができる。これにより、フレーム定義ページによるノイズを除去して、より高精度な情報源の観測を可能にすることができる。
【0089】
上記の実施の形態は本発明の範囲を限定するものではなく、本発明の範囲内で種々の変更が可能である。特に、本実施の形態では、インターネット上のHTMLを例として説明したが、ネットワークの構成およびファイルオブジェクトの形式はこれに限定されない。
【0090】
最後に、本発明は、複数の機器(例えば、ホストコンピュータ、端末コンピュータ、インタフェース機器、ネットワーク機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、携帯型コンピュータ、ワープロ装置など)に適用してもよい。
【0091】
また、本発明の目的は、上述した機能を実現するソフトウエアである情報源観測プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。この場合、記録媒体から読み出されたプログラムコード自体が上述した機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0092】
上記プログラムコードを供給するための記録媒体は、システムあるいは装置と分離可能に構成することができる。また、上記記録媒体は、プログラムコードを供給可能であるように固定的に担持する媒体であってもよい。そして、上記記録媒体は、記録したプログラムコードをコンピュータが直接読み取ることができるようにシステムあるいは装置に装着されるものであっても、外部記憶装置としてシステムあるいは装置に接続されたプログラム読み取り装置を介して読み取ることができるように装着されるものであってもよい。
【0093】
例えば、上記記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピーディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0094】
また、上記プログラムコードは、コンピュータが記録媒体から読み出して直接実行できるように記録されていてもよいし、記録媒体から主記憶のプログラム記憶領域へ転送された後コンピュータが主記憶から読み出して実行できるように記録されていてもよい。
【0095】
なお、プログラムコードを記録媒体から読み出して主記憶に格納するためのプログラム、および、通信ネットワークからプログラムコードをダウンロードするためのプログラムは、コンピュータによって実行可能にあらかじめシステムあるいは装置に格納されているものとする。
【0096】
上述した機能は、コンピュータが読み出した上記プログラムコードを実行することによって実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行うことによっても実現される。
【0097】
さらに、上述した機能は、上記記録媒体から読み出された上記プログラムコードが、コンピュータに装着された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことによっても実現される。
【0098】
【発明の効果】
本発明の情報源観測装置は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する抽出手段と、上記抽出された参照元のURLを参照情報として保存する参照情報保存手段と、上記参照情報を各URL毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、フレームが定義された参照元のURLの参照頻度を削減するように修正するフレーム定義ページ排除手段を有している構成である。
【0099】
また、本発明の情報源観測方法は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する第1ステップと、上記抽出された参照元のURLを参照情報として保存する第2ステップと、上記参照情報を各URL毎に集計する第3ステップと、上記第3ステップによる集計結果を、上記特定クライアントコンピュータに出力する第4ステップとを含むとともに、フレームが定義された参照元のURLの参照頻度を削減するように修正する第5ステップを含んでいる方法である。
【0100】
また、本発明の情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体は、以上のように、ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する抽出手段と、上記抽出された参照元のURLを参照情報として保存する参照情報保存手段と、上記参照情報を各URL毎に集計するカウント手段と、上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、フレームが定義された参照元のURLの参照頻度を削減するように修正するフレーム定義ページ排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録した構成である。
【0101】
それゆえ、フレーム定義ページ排除手段(ステップ)によって、参照元データファイルのうちフレームが定義されているものの参照頻度を削減するように修正するので、参照頻度の統計からユーザの情報源として価値のないデータファイルによるノイズを削減除去して、より有用な情報を多く含んでいるデータファイルをユーザに提示することが可能となる。
【0102】
よって、マルチメディアデータ等のデータファイルの参照起点となる情報源を参照頻度の統計に基づいて自動的に発見し、これをユーザに提示することができるため、ユーザインタフェースが向上するという効果を奏する。また、処理を高速化して、ユーザの情報アクセス時間を短縮することができるという効果を奏する。
【0103】
したがって、上記の構成および方法によれば、サーバコンピュータとクライアントコンピュータとがネットワークで結ばれたコンピュータシステムにおいて、サーバコンピュータの上にあるハイパーテキスト構造を持ったマルチメディア文書の参照をクライアントコンピュータから容易に行うことが可能となるという効果を奏する。
【0104】
本発明の情報源観測装置は、以上のように、さらに、上記フレーム定義ページ排除手段は、フレームが定義された参照元データファイルの参照頻度を0に修正する構成である。
【0105】
それゆえ、さらに、フレームが定義された参照元データファイルを、その参照頻度を0に修正して、参照頻度の統計から完全に取り除くことができる。よって、参照頻度の統計からユーザの情報源として価値のないページを取り除き、より有用な情報を多く含んでいるデータファイルのアドレス情報をユーザに提示することができるという効果を奏する。
【0106】
本発明の情報源観測装置は、以上のように、さらに、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定するフレーム検出手段を有している構成である。
【0107】
それゆえ、さらに、フレーム検出手段によって、クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定することができる。よって、データファイル中にフレーム定義文字列が検出された場合、そのデータファイルにはフレームが定義されていると判定することができるため、そのデータファイルの参照頻度を修正することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】 本発明の一実施の形態に係る情報源観測装置の構成の概略を示す機能ブロック図であり、情報源観測装置がクライアントコンピュータとは別に設けられている場合を示す。
【図2】 本発明の一実施の形態に係る情報源観測装置の他の構成の概略を示す機能ブロック図であり、情報源観測装置がクライアントコンピュータ内に設けられている場合を示す。
【図3】 図2に示す情報源観測装置を含むクライアントコンピュータの物理的構成の概略を示すブロック図である。
【図4】 図1および図2に示す情報源観測装置の動作の概略を示すフローチャートである。
【図5】 図1および図2に示す情報源観測装置で作成されるURLの出現頻度情報を付加した履歴情報の一例を示す説明図である。
【図6】 図1および図2に示す情報源観測装置で作成されるURLアクセスログの一例を示す説明図である。
【図7】 図1および図2に示す情報源観測装置が備えるフレームURL記憶手段のデータ構造を示す説明図である。
【図8】 図1および図2に示す情報源観測装置で作成される参照元URL情報としての頻度統計情報を示す説明図であり、(a)はデータタイプがtext/html およびmovie であるURLの参照元URLを集計した一例、(b)は(a)からフレーム定義ページを除いて集計した一例を示す。
【図9】 図1および図2に示す情報源観測装置が備えるデータ変換手段によって生成されたデータの一表示例を示す説明図である。
【図10】 WWW上におけるHTMLページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図11】 図10に示すHTMLページおよびデータファイルをアクセスした時に記憶されるアクセスログの一例を示す説明図である。
【図12】 クライアントコンピュータから発行される要求ヘッダの一例を示す説明図である。
【図13】 サーバコンピュータから発行される応答ヘッダの一例を示す説明図である。
【図14】 WWW上におけるHTMLページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図15】 フレーム定義ページの説明図であり、(a)はフレーム定義ページのHTMLの記述例、(b)はブラウザでの(a)の表示状態を示す。
【符号の説明】
1 サーバコンピュータ
2 情報観測手段(情報源観測装置)
3 クライアントコンピュータ
5 参照情報保存手段
6 カウント手段
21 フレーム検出手段
23 フレームURL排除手段(フレーム定義ページ排除手段)
Claims (5)
- ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測装置であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する抽出手段と、
上記抽出された参照元のURLを参照情報として保存する参照情報保存手段と、
上記参照情報を各URL毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段とを有するとともに、
フレームが定義された参照元のURLの参照頻度を削減するように修正するフレーム定義ページ排除手段を有していることを特徴とする情報源観測装置。 - 上記フレーム定義ページ排除手段は、フレームが定義された参照元データファイルの参照頻度を0に修正することを特徴とする請求項1に記載の情報源観測装置。
- クライアントコンピュータからアクセスされたデータファイルにフレーム定義文字列が含まれるか否かを判定するフレーム検出手段を有していることを特徴とする請求項1または2に記載の情報源観測装置。
- ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測方法であって、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する第1ステップと、
上記抽出された参照元のURLを参照情報として保存する第2ステップと、
上記参照情報を各URL毎に集計する第3ステップと、
上記第3ステップによる集計結果を、上記特定クライアントコンピュータに出力する第4ステップとを含むとともに、
フレームが定義された参照元のURLの参照頻度を削減するように修正する第5ステップを含んでいることを特徴とする情報源観測方法。 - ハイパーリンク構造を有するデータファイルを保持する不特定多数のサーバコンピュータと、上記データファイルを閲覧する特定クライアントコンピュータとがネットワーク接続された環境下で、特定クライアントコンピュータから不特定多数のサーバコンピュータへのアクセスを観測する情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体において、
上記特定クライアントコンピュータからネットワーク上に出力されるデータファイルの要求ヘッダから参照元となるURLを抽出する抽出手段と、
上記抽出された参照元のURLを参照情報として保存する参照情報保存手段と、
上記参照情報を各URL毎に集計するカウント手段と、
上記カウント手段による集計結果を、上記特定クライアントコンピュータに出力する出力手段と、
フレームが定義された参照元のURLの参照頻度を削減するように修正するフレーム定 義ページ排除手段と、をコンピュータに実現させるための情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30564899A JP3664923B2 (ja) | 1999-10-27 | 1999-10-27 | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30564899A JP3664923B2 (ja) | 1999-10-27 | 1999-10-27 | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001125910A JP2001125910A (ja) | 2001-05-11 |
JP3664923B2 true JP3664923B2 (ja) | 2005-06-29 |
Family
ID=17947673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30564899A Expired - Fee Related JP3664923B2 (ja) | 1999-10-27 | 1999-10-27 | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3664923B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004097654A1 (ja) * | 2003-04-28 | 2004-11-11 | Fujitsu Limited | Webコンテンツの有効性評価方法、これを用いたWebコンテンツ検索方法、Webコンテンツ課金方法及び検索サーバ、コンテンツ提供装置 |
JP4635757B2 (ja) * | 2005-07-14 | 2011-02-23 | 日本電気株式会社 | リンク先へのアクセス制限方法、装置及びプログラム |
JP5385726B2 (ja) * | 2009-08-25 | 2014-01-08 | 日本電信電話株式会社 | データ処理装置、そのプログラム、そのプログラムを記憶した記憶媒体及びデータ処理方法 |
JP5364012B2 (ja) * | 2010-02-18 | 2013-12-11 | 日本電信電話株式会社 | データ抽出装置、データ抽出方法、および、データ抽出プログラム |
JP5939579B2 (ja) | 2013-03-19 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | リストを作成する装置、方法およびプログラム |
JP2017509074A (ja) * | 2014-03-04 | 2017-03-30 | モボファイルズ インク. ディービーエー モボライズ | 動的キャッシュ割当およびネットワーク管理 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3550929B2 (ja) * | 1997-01-28 | 2004-08-04 | 富士通株式会社 | 対話型ハイパーテキスト情報参照システムにおける参照回数計数装置及び方法 |
JP3664906B2 (ja) * | 1999-02-05 | 2005-06-29 | シャープ株式会社 | 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体 |
-
1999
- 1999-10-27 JP JP30564899A patent/JP3664923B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001125910A (ja) | 2001-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7146415B1 (en) | Information source monitor device for network information, monitoring and display method for the same, storage medium storing the method as a program, and a computer for executing the program | |
KR100447526B1 (ko) | 인터넷 사용자의 접속 의도 판단 방법 및 이를 이용한인터넷 상의 광고 방법과 그 시스템 | |
US8893043B2 (en) | Method and system for predictive browsing | |
CN100399290C (zh) | 收集高速缓存Web内容的多样化Web服务器活动数据 | |
KR101304119B1 (ko) | 이전에 포착된 연관성 데이터에 기초한 광고 리타게팅을 위한 시스템 및 방법 | |
US9075778B1 (en) | Predicting user navigation events within a browser | |
US8972565B1 (en) | Detecting content and user response to content | |
JP3996673B2 (ja) | インターネット上の情報収集方法、および情報収集システム | |
US20030154442A1 (en) | Visualization tool for web analytics | |
US9141697B2 (en) | Method, system and computer-readable storage medium for detecting trap of web-based perpetual calendar and building retrieval database using the same | |
US7631263B2 (en) | Methods, systems, and computer program products for characterizing links to resources not activated | |
EP1193603A1 (en) | Information collection system and information collection method on network, each using technique of internet, and recording medium in which the information collection method is recorded | |
JP2006524371A (ja) | インターネットユーザのアクセス意図を用いたインターネット上での広告誘致および広告提供方法とそのシステム | |
US7069292B2 (en) | Automatic display method and apparatus for update information, and medium storing program for the method | |
US7114124B2 (en) | Method and system for information retrieval from query evaluations of very large full-text databases | |
JP3666638B2 (ja) | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3664923B2 (ja) | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3664906B2 (ja) | 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体 | |
JP2005018530A (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
JP2009075908A (ja) | ウェブ・ページ閲覧履歴管理システム及びウェブ・ページ閲覧履歴管理方法、並びにコンピュータ・プログラム | |
JP2004206492A (ja) | ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置 | |
JP2001209655A (ja) | 情報提供装置、情報更新方法、情報提供プログラムを記録した記録媒体、及び情報提供システム | |
US20090132493A1 (en) | Method for retrieving and editing HTML documents | |
JP2002189917A (ja) | 情報処理装置、ネットワークデータ評価方法、並びにその評価方法を実行させるためのプログラムを記録した記録媒体 | |
JP2023097646A (ja) | 不動産資料収集システム、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050217 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050330 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080408 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090408 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100408 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110408 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120408 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120408 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130408 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |