JP2001125822A - 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2001125822A
JP2001125822A JP30565799A JP30565799A JP2001125822A JP 2001125822 A JP2001125822 A JP 2001125822A JP 30565799 A JP30565799 A JP 30565799A JP 30565799 A JP30565799 A JP 30565799A JP 2001125822 A JP2001125822 A JP 2001125822A
Authority
JP
Japan
Prior art keywords
information
data file
url
client computer
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30565799A
Other languages
English (en)
Other versions
JP3666638B2 (ja
Inventor
Katsuyoshi Doi
克良 土居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP30565799A priority Critical patent/JP3666638B2/ja
Publication of JP2001125822A publication Critical patent/JP2001125822A/ja
Application granted granted Critical
Publication of JP3666638B2 publication Critical patent/JP3666638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 WWWなどのハイパーテキストシステムにお
いて、ユーザがどのようなページを参照元としてURL
ページを参照しているかを集計し、その参照元のリスト
をユーザに提示する。 【解決手段】 参照情報抽出手段4によって、クライア
ントコンピュータ3で発行される要求ヘッダから参照元
のURLを、サーバコンピュータ1で発行される応答ヘ
ッダから応答コードを抽出し、これらの参照情報を参照
情報保存手段5に保存する。参照情報が一定数以上とな
ると、カウント手段6およびソート手段7によって、デ
ータタイプごとに各参照元のURLを集計する。このと
き、同一URL排除手段7Aによって、参照元URLか
ら同一参照ページへの複数回のアクセスを応答コードに
基づき検出排除してカウントしない。そして、集計結果
を情報源リストとしてユーザに提示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばサーバコン
ピュータとクライアントコンピュータとがネットワーク
で結ばれたシステムにおいて、サーバコンピュータ上に
あるハイパーリンク構造をもったデータファイルをクラ
イアントコンピュータ上において閲覧する際に利用され
る情報源観測装置および情報源観測方法、ならびに情報
源観測プログラムを記録したコンピュータ読み取り可能
な記録媒体に関するものである。
【0002】
【従来の技術】昨今、複数のサーバコンピュータおよび
複数のクライアントコンピュータがネットワークで結ば
れ、各サーバコンピュータにハイパーテキスト構造のマ
ルチメディアデータが記憶されており、各クライアント
コンピュータにおいて、ブラウザソフトウェアによっ
て、このようなマルチメディアデータを閲覧することが
可能なシステムが広く普及している。このようなシステ
ムの例としては、例えば、インターネットにおけるWW
W(world wide web)と呼ばれるシステムなどが挙げら
れる。
【0003】マルチメディアデータを含む文書は、例え
ばHTML(hyper text markup language)と呼ばれる
記述言語によって記述されており、テキスト文書、静止
画、動画、音楽データ、およびJava(登録商標)アプレ
ットなどのアプリケーションプログラムなどを含むこと
が可能になっている。このような文書(以下、HTML
ページと称する)およびマルチメディアデータには、そ
れぞれURL(uniform resource locator)と呼ばれる
固有のアドレスが割り当てられている。ユーザは、ブラ
ウザ上においてURLを指定することによって、所望の
HTMLページあるいはマルチメディアデータにアクセ
スすることができる。また、HTMLページには、他の
ページやマルチメディアデータへアクセスするためのリ
ンクなども埋め込まれており、ユーザは、このリンクを
ブラウザ上でポイントすることによって、リンク先のペ
ージやマルチメディアデータに移動することも可能とな
っている。
【0004】そして、クライアントコンピュータにおけ
るHTML文書表示ソフトウェアであるブラウザとして
は、例えば、Netscape Communications 社のNetscape C
ommunicator (登録商標)や、Microsoft 社のInternet
Explorer (登録商標)などの製品が広く普及してい
る。
【0005】これらのブラウザでは、アクセスしたHT
MLページおよびマルチメディアデータのURL、アク
セス日時、およびタイトルなどが、履歴データとしてク
ライアントコンピュータ内のハードディスクに記憶する
ことが可能になっている。そして、ユーザは、過去にア
クセスしたHTMLページあるいはマルチメディアデー
タに再びアクセスしたい時に、この履歴データを参照す
ることによって、容易に所望のHTMLページあるいは
マルチメディアデータにアクセスすることが可能であ
る。
【0006】また、例えばNetscape Communicator で
は、履歴データに基づいて、過去にアクセスしたHTM
LページおよびマルチメディアデータのURLを、頻度
順、あるいは日時順などに並べ替えて表示することが可
能となっている。
【0007】さらに、例えば、公開特許公報「特開平1
0−143519号公報(公開日:平成10年(199
8)5月29日)」には、ユーザが過去にアクセスした
URLに対して、頻度や視聴時間をもとに順序づけを行
い、その結果を表示する方法および装置が開示されてい
る。
【0008】また、例えば、公開特許公報「特開平9−
204347号公報(公開日:平成9年(1997)8
月5日)」、公開特許公報「特開平10−21134号
公報(公開日:平成10年(1998)1月23日)」
には、サーバコンピュータとクライアントコンピュータ
との間でURLの中継を行うゲートウェイコンピュータ
において、ゲートウェイコンピュータに中継キャッシュ
が内蔵されている場合、過去に中継したURLに対し
て、その頻度の算出を行ってリストを作成するととも
に、頻度順にゲートウェイコンピュータが自発的にキャ
ッシュの更新を行う方法が開示されている。
【0009】これらの方式に共通する点としては、過去
にアクセスしたHTMLページおよびマルチメディアデ
ータのURLに関して、その頻度に注目し、それらを統
計処理することによって頻度を算出し、頻度の高いHT
MLページおよびマルチメディアデータは、ユーザの要
求度が高いと判断している点である。
【0010】
【発明が解決しようとする課題】ここで、情報を提供す
る複数のサーバコンピュータと、ゲートウェイコンピュ
ータと、クライアントコンピュータとからなるシステム
を想定する。なお、ゲートウェイコンピュータとは、異
なるネットワーク/システムを相互接続するためのコン
ピュータである。
【0011】そして、例えば、図14に示すように、あ
るサーバコンピュータ上に、URLが“http://www.new
s/”で示されるHTMLページが存在し、別のサーバコ
ンピュータ上に、URLが“http://www.hello.nara/”
で示されるHTMLページが存在するとする。
【0012】URLが“http://www.news/”で示される
HTMLページは、あるニュース情報(「日々新聞」)
を提供するページであり、「新刊情報(“http://www.n
ews/1.html”)」、「天気予報(“http://www.news/2.
html”)」、「A社新製品(“http://www.news/3.htm
l”)」、「B社新製品(“http://www.news/4.htm
l”)」、および「C社新製品(“http://www.news/5.h
tml”)」の5つのHTMLページへのリンクがはられ
ている。
【0013】また、URLが“http://www.hello.nara
/”で示されるHTMLページは、奈良県地域情報を提
供するページであり、「株式情報(“http://www/a.mo
v”)」および「道路情報(“http://www/b.mov”)」
の2つの動画データ、および「お知らせ(“http://www
/index.html”)」のHTMLページにリンクがはられ
ている。
【0014】ここで、あるユーザが、クライアントコン
ピュータにおいて、まず、URLが“http://www.news
/”で示されるHTMLページにアクセスし、このペー
ジからリンクされている5つのHTMLページ(テキス
トデータ)を閲覧し、その後、URLが“http://www.h
ello.nara/”で示されるHTMLページにアクセスし、
このページからリンクされている2つの動画データ、お
よび1つのHTMLページ(テキストデータ)を閲覧し
たとする。このとき、図15に示すようなアクセスログ
が、ゲートウェイコンピュータに記録される。
【0015】なお、図15において、URLが“http:/
/www.news/”で示されるHTMLページが1回しかカウ
ントされていないのは、次のような理由によるものであ
る。例えば、URLが“http://www.news/”で示される
HTMLページから、リンク先である「新刊情報(“ht
tp://www.news/1.html”)」のページへ移動し、閲覧
後、ブラウザのバックボタン(戻るボタン)を押すこと
によって再び“http://www.news/”のページに戻り、同
様にして他の4つのリンク先に移動したとする。この際
に、ブラウザには、通常、キャッシュが一定量蓄積され
ており、「新刊情報(“http://www.news/1.html”)」
のページから、“http://www.news/”のページに戻る際
には、このキャッシュから“http://www.news/”のペー
ジのデータが取り出されることになる。この場合、ゲー
トウェイコンピュータには、URLの取得要求が伝達さ
れないので、ゲートウェイコンピュータのアクセスログ
には、URLが“http://www.news/”で示されるHTM
Lページが、1回しか現れてこないことになる。
【0016】図15に示す集計結果によれば、どのUR
Lも1回の出現頻度であるから、上記のように、出現頻
度に基づいてユーザの要求度を判断する方式によれば、
どのURLもユーザの要求度は同等とみなされることに
なる。しかしながら、実際には、ユーザは、後日、UR
Lが“http://www.news/”で示されるHTMLページ
や、URLが“http://www.hello.nara/”で示されるH
TMLページに再びアクセスし、新しいリンクが作られ
ていれば、その新しいリンクにアクセスする、というア
クセス動作を行う可能性が高いと予想される。この際
に、すでにアクセス済みのURLである“http://www.n
ews/1.html”や、“http://www.news/2.html”などへ再
びアクセスすることはほとんどないものと予想される。
【0017】すなわち、上記のように、出現頻度に基づ
いてユーザの要求度を判断する方式では、ハイパーテキ
ストが多階層のツリー構造をなす場合、下位階層のファ
イルオブジェクトに対してもそのURL単独でアクセス
頻度が算出されて、URLの重要度が決定されるため、
実際のユーザの要求度を反映した判定を行っていないこ
とになる。したがって、このような方式によって示され
た結果には、無駄なデータが多く含まれることになり、
ユーザにとって有用な情報が示されない場合がある。
【0018】本発明は上記の問題点を解決するためにな
されたもので、その目的は、WWWなどのハイパーテキ
ストシステムにおいて、ユーザがどのようなページを参
照元としてURLページを参照しているかを集計し、そ
の参照元のリストをユーザに提示することができる情報
源観測装置および情報源観測方法、ならびに情報源観測
プログラムを記録したコンピュータ読み取り可能な記録
媒体を提供することにある。
【0019】
【課題を解決するための手段】本発明の情報源観測装置
は、上記の課題を解決するために、ネットワークで繋が
れたサーバコンピュータ上のハイパーリンク構造を有す
るデータファイルをクライアントコンピュータ上で閲覧
する際に用いられる情報源観測装置において、クライア
ントコンピュータからアクセスされたデータファイルの
参照元データファイルのアドレス情報を参照情報として
保存する参照情報保存手段と、上記参照情報をアドレス
情報ごとに集計して参照元データファイルの参照頻度を
算出するカウント手段とを有するとともに、1つの参照
データファイルから行われた1つのデータファイルへの
アクセスのうち、そのデータファイルが更新されてから
次に更新されるまでの間に行われた複数回のアクセスを
参照頻度1回に換算する重複アクセス排除手段を有する
ことを特徴としている。
【0020】また、本発明の情報源観測方法は、上記の
課題を解決するために、ネットワークで繋がれたサーバ
コンピュータ上のハイパーリンク構造を有するデータフ
ァイルをクライアントコンピュータ上で閲覧する際の情
報源観測方法において、クライアントコンピュータから
アクセスされたデータファイルの参照元データファイル
のアドレス情報を参照情報として保存するステップと、
上記参照情報をアドレス情報ごとに集計して参照元デー
タファイルの参照頻度を算出するステップとを含むとと
もに、1つの参照データファイルから行われた1つのデ
ータファイルへのアクセスのうち、そのデータファイル
が更新されてから次に更新されるまでの間に行われた複
数回のアクセスを参照頻度1回に換算するステップを含
んでいることを特徴としている。
【0021】また、本発明の情報源観測プログラムを記
録したコンピュータ読み取り可能な記録媒体は、上記の
課題を解決するために、ネットワークで繋がれたサーバ
コンピュータ上のハイパーリンク構造を有するデータフ
ァイルをクライアントコンピュータ上で閲覧する際に用
いられる情報源観測プログラムを記録したコンピュータ
読み取り可能な記録媒体において、クライアントコンピ
ュータからアクセスされたデータファイルの参照元デー
タファイルのアドレス情報を参照情報として保存する参
照情報保存手段と、上記参照情報をアドレス情報ごとに
集計して参照元データファイルの参照頻度を算出するカ
ウント手段と、1つの参照データファイルから行われた
1つのデータファイルへのアクセスのうち、そのデータ
ファイルが更新されてから次に更新されるまでの間に行
われた複数回のアクセスを参照頻度1回に換算する重複
アクセス排除手段と、をコンピュータに実現させるため
の情報源観測プログラムを記録したことを特徴としてい
る。
【0022】上記の構成および方法により、参照情報保
存手段(ステップ)によって、クライアントコンピュー
タからアクセスされたデータファイルの参照元データフ
ァイルのアドレス情報を参照情報として保存し、カウン
ト手段(ステップ)によって、上記参照情報を、参照元
データファイルのアドレス情報ごとに集計するので、参
照元として頻繁に利用されるデータファイルを把握する
ことが可能となる。
【0023】加えて、重複アクセス排除手段(ステッ
プ)によって、データファイルが更新されてから次に更
新されるまでの間に行われた複数回のアクセスを参照頻
度1回に換算して修正するので、参照頻度の統計から重
複したアクセスを削減除去して、より有用な情報を多く
含んでいるデータファイルをユーザに提示することが可
能となる。
【0024】これにより、新規に多数出現するマルチメ
ディアデータ等のデータファイルの参照起点となる情報
源を参照頻度の統計に基づいて自動的に発見し、これを
ユーザに提示することができる優れたユーザインタフェ
ースを提供することが可能となる。また、処理を高速化
して、ユーザの情報アクセス時間を短縮することができ
る。
【0025】したがって、上記の構成および方法によれ
ば、サーバコンピュータとクライアントコンピュータと
がネットワークで結ばれたコンピュータシステムにおい
て、サーバコンピュータの上にあるハイパーテキスト構
造を持ったマルチメディア文書の参照をクライアントコ
ンピュータから容易に行うことが可能となる。
【0026】さらに、本発明の情報源観測装置は、上記
の課題を解決するために、上記サーバコンピュータが、
上記クライアントコンピュータから要求されたデータフ
ァイルの更新日時と、該クライアントコンピュータが前
回アクセスした該データファイルの更新日時とを比較し
て、これら更新日時が一致しない場合には、要求された
データファイルが更新されている旨の応答コードを該デ
ータファイルとともに送信し、一致する場合には、要求
されたデータファイルが更新されていない旨の応答コー
ドを送信するものであって、上記重複アクセス排除手段
が、クライアントコンピュータが要求したデータファイ
ルが更新されているか否かを、上記応答コードに基づい
て判定するものであることを特徴としている。
【0027】上記の構成により、さらに、上記重複アク
セス排除手段は、サーバコンピュータがクライアントコ
ンピュータによりアクセス要求されたデータファイルが
前回のアクセス以降に更新されたか否かを示すために送
信した応答コードを検出することによって、同一データ
ファイルの転送を検知することができる。したがって、
このような応答コードを送信するプロトコル(例えば、
HTTP)を用いるネットワークでは、容易な処理によ
って、上記重複アクセス排除手段を実現することができ
る。
【0028】さらに、本発明の情報源観測装置は、上記
の課題を解決するために、上記重複アクセス排除手段
が、上記クライアントコンピュータから要求されたデー
タファイルのサイズと、該クライアントコンピュータが
前回アクセスした該データファイルのサイズとを比較し
て所定の閾値以上の差がない場合、要求されたデータフ
ァイルは更新されていないと判定するものであることを
特徴としている。
【0029】上記の構成により、さらに、上記重複アク
セス排除手段は、上記クライアントコンピュータから要
求されたデータファイルのサイズと、該クライアントコ
ンピュータが前回アクセスした該データファイルのサイ
ズとを比較して、サイズが閾値以上に変化していなけれ
ば、そのデータファイルは更新されていないとみなし
て、参照頻度を修正することができる。
【0030】したがって、ユーザにとっては表示ページ
の意味内容に変化がないにもかかわらず、ファイルサイ
ズがわずかに異なるためにファイルが転送されたアクセ
スを統計の対象から排除することができ、より精度の高
い参照頻度を算出することが可能となる。
【0031】
【発明の実施の形態】〔前提となる技術〕本発明の前提
となる技術として、ユーザが実際にアクセスしたURL
のハイパーリンクの関係から、ユーザの情報源URLと
なるものを統計的に推定する方法がある(特願平11−
28647号)。以下では、この技術について、図1,
8,9,16を用いて説明する。
【0032】まず、情報提供のための複数のサーバコン
ピュータと、ゲートウェイコンピュータと、クライアン
トコンピュータとからなるシステムを考える。なお、こ
のシステムの構成は、図1に示すシステムから、同一U
RL排除手段(重複アクセス排除手段)7Aを除いた構
成と考えてよい。よって、上記ゲートウェイコンピュー
タは、後述する情報源観測手段2(図1)に相当する。
そこで、以下では、上記ゲートウェイコンピュータを情
報源観測手段と記す。
【0033】例えば、図16のように、“http://diary
/”から“http://books/”、さらに“http://news/”に
アクセスし、“http://news/”からリンクがはられてい
る各ニュース記事にアクセスした場合を考える。
【0034】具体的な履歴情報(URLアクセスログ)
は、図8に示すとおりである。まず、99年1月1日に
は、“http://news/”に3つの新規ニュース“http://n
ews/1.html”,“http://news/2.html”,“http://new
s/3.html”が現れ、いずれもユーザによってアクセスさ
れている。さらに、99年1月2日には、“http://new
s/4.html”という新しい記事がユーザによってアクセス
されている。ここで、両日の履歴とも、“http://diary
/”からスタートし、順次リンクをたどってアクセスさ
れている。
【0035】なお、図8のアクセスログのReferer UR
L(参照元アドレス情報)は、クライアントコンピュー
タが発行するHTTPの標準ヘッダのReferer ヘッダを
観測したものであり、アクセスされたURL(HTML
ページ)がどのURLにリンクされていたかを示すもの
である。
【0036】ここで、上記情報源観測手段は、アクセス
ログのRefererヘッダに現れるURLをデータタイプ別
に集計する。すなわち、上記情報源観測手段は、ユーザ
がURLをアクセスする際の要求ヘッダに含まれるRefe
rerヘッダを観測し、アクセスしたURLがどのURL
にリンクされていたかをゲートウェイ部(参照情報保存
手段)にて記憶し、参照統計を作成する。
【0037】これにより、ユーザが実際にアクセスした
URLのハイパーリンクのReferer関係から、統計的に
ユーザの情報源URLとなるものを推定できる。すなわ
ち、ユーザが手繰ったリンクが数多く集中しているUR
Lを、情報源として検出することができる。例えば、図
8のアクセスログからは、図9のようにRefererURL
が集計され、“http://news/”,“http://books/”,
“http://diary/”などがユーザの情報源URLである
と推定できる。
【0038】さらに、本発明の他の前提となる技術とし
て、上記情報源観測手段で推定された情報源URLに対
して、新着リンクが出現していないかどうかを定期的に
観測するエージェントシステムがある(特願平11−2
24620号)。
【0039】このエージェントシステムは、上記情報源
観測手段によって情報源として推定されたURLをアク
セスし、HTMLのタグを解析してハイパーリンクUR
L情報をデータベースに記憶し、前回のアクセス時に解
析されたハイパーリンクURLと比較して、新しく出現
したリンクのURLを検出し、ユーザに新着情報として
提示する。
【0040】ここで、図16の例では、“http://news
/”は新着情報が検出できる可能性が高いページである
が、“http://diary/”や“http://books/”はハイパー
リンクの通り道にすぎず、新着情報が得られる可能性が
低いページである。しかし、上記情報源観測手段による
推定では、ユーザが定期的に“http://diary/”から始
めて“http://books/”を経て“http://news/”にアク
セスした場合、Refererヘッダに基づいて統計を作成す
るため、図9に示すように、出現頻度値が高く出てしま
う。
【0041】このため、上記エージェントシステムが自
動巡回する際、新着情報が得られる可能性が低いURL
にもアクセスして、処理時間が増大する。したがって、
上記エージェントシステムが、新着情報が出現する確率
の高いURLに絞って定期的に観測して、効率的により
多くの新着情報を得る必要があるため、単なる通り道と
なるURLの重要度を落とした統計を作成することが望
ましい。例えば、統計的に基づいて推定されたユーザの
情報源URLから、単なる通り道に過ぎないリンクを取
り除くことが望ましい。
【0042】〔実施の形態〕本発明の一実施の形態につ
いて図1から図13に基づいて説明すれば、以下のとお
りである。
【0043】図1は、本実施の形態に係るコンピュータ
ネットワークシステムの構成の概略を示すブロック図で
ある。上記コンピュータネットワークシステムは、サー
バコンピュータ1、情報源観測手段(情報源観測装置)
2、およびクライアントコンピュータ3を備えて構成さ
れている。なお、図1中において、サーバコンピュータ
1は1つしか記載されていないが、サーバコンピュータ
1としては、インターネット等のネットワークに接続さ
れた複数のサーバコンピュータが該当することになる。
【0044】上記サーバコンピュータ1は、データファ
イル記憶装置1AにHTMLページや各種マルチメディ
アデータ等のデータファイルを保持している。そして、
例えばHTTP(hypertext transfer protocol )デー
モンと呼ばれるサーバソフトウェアによって、これらの
データの管理、および外部コンピュータからのアクセス
の管理を行っている。
【0045】上記クライアントコンピュータ3は、HT
MLページや各種マルチメディアデータを表示可能なソ
フトウェアであるブラウザ(情報ブラウザ)3Aを備え
ている。そして、ユーザはこのクライアントコンピュー
タ3上においてブラウザ3Aを操作することによって、
所望のHTMLページや各種マルチメディアデータを閲
覧することができる。
【0046】また、クライアントコンピュータ3は、ブ
ラウザ3Aで閲覧したHTMLページや各種マルチメデ
ィアデータを、所定期間あるいは所定容量まで記憶する
キャッシュメモリ3Bを備えている。そして、過去にア
クセスされキャッシュメモリ3Bに記憶されているデー
タファイル(ファイルオブジェクト)が再度要求された
場合、ブラウザ3Aは所望のデータファイルをキャッシ
ュメモリ3Bから読み出して表示する。また、一定期間
以上書き込みから時間が経過していれば、サーバコンピ
ュータ1に最新かどうかを問い合わせ、最新のファイル
オブジェクトを表示しようとする。
【0047】上記情報源観測手段2としては、例えばフ
ァイアウォール上に設けられるゲートウェイコンピュー
タや、インターネット上に設けられるHTTPプロキシ
サーバコンピュータなどが該当し、HTTPのリクエス
ト(要求)およびレスポンス(応答)の中継を行うこと
を基本としている。この情報源観測手段2は、参照情報
抽出手段4、参照情報保存手段5、カウント手段6、ソ
ート手段7、データ変換手段8、情報更新手段9、情報
蓄積手段10、検索手段11を備えて構成されている。
さらに、ソート手段7には同一URL排除手段(重複ア
クセス排除手段)7Aが設けられている。なお、これら
の各手段についての説明は後述する。
【0048】また、図2に示すように、情報源観測手段
2を、クライアントコンピュータ3に内蔵させた構成と
することも可能である。このように、クライアントコン
ピュータ3に内蔵可能なHTTPプロキシサーバとして
は、シャープ株式会社製のシャープモバイルプロキシ
(商品名)やインターネット快速便(商品名)などがあ
る。
【0049】さらに、情報源観測手段2を、クライアン
トコンピュータ3におけるブラウザ3Aの一部として構
成することも可能である。
【0050】図3は、クライアントコンピュータ3(図
2)の構成の概略を示すブロック図である。図3に示す
ように、クライアントコンピュータ3は、CPU(cent
ralprocessing unit )12、RAM(random access m
emory)などで構成されるメモリ13、ハードディスク
やフラッシュメモリなどで構成される不揮発性メモリ1
4、外部ネットワークとのインタフェースとなるネット
ワークI/O(input/output)15、キーボードやマウ
スなどで構成される入力装置16、および表示装置17
を備えており、これらがバス18によって接続されてい
る。また、アクセスしたデータを一定量あるいは一定期
間保存し、必要に応じて読み出すためのキャッシュメモ
リ3Bは、不揮発性メモリ14に割り当てられている。
このような構成のクライアントコンピュータ3は、一般
的にパーソナルコンピュータと呼ばれるコンピュータに
よって構成することができる。
【0051】ここで、クライアントコンピュータ3にお
いて、ブラウザ3AによってWWW上のHTMLページ
を閲覧する際の、情報源観測手段2の動作について説明
する。
【0052】まず、あるHTMLページをブラウザ3A
上に表示させている状態から、そのHTMLページに埋
め込まれているリンクをマウスカーソルでポイントし、
クリックすることによって、リンク先のURL(アドレ
ス情報)にアクセスした場合を想定する。例えば、図1
6に示す例において、URLが“http://news/”で示さ
れるHTMLページを表示させている状態から、「99
/1/1/A」のHTMLページを示すリンクをクリッ
クしたとする。この時、クライアントコンピュータ3に
おいて、ネットワークI/O15を介して、情報源観測
手段2に対してTCP/IP(transmission control p
rotocol/internet porotocol)のコネクションがオープ
ンされ、図5に示すような要求ヘッダが発行される。
【0053】この要求ヘッダに含まれるRefererヘッダ
は、ブラウザによって発行されているものであり、要求
されているURLの参照元情報が示されている。図5に
示す例では、現在要求しているURL“http://news/1.
html”が、URLが“http://news/”のHTMLページ
(参照元データファイル)からのリンクによって要求さ
れていることを示している。なお、このような要求ヘッ
ダは、HTTP/1.0の仕様で規定されている標準ヘ
ッダである。また、このような要求ヘッダの情報は、通
常サーバコンピュータにて記録されることを想定して定
義されているものである。
【0054】また、クライアントコンピュータ3がすで
に該当URLのデータファイルへ過去にアクセスしたこ
とがある場合、要求ヘッダに過去アクセスした時にUR
Lの応答データに含まれていたLast-Modifiedヘッダの
日付をIf-Modified-Sinceヘッダに付けたGET要求が行わ
れる。例えば、表5は、クライアントコンピュータ3が
Fri,23 Oct 1998 04:23:34 GMTの日付のファイルオブジ
ェクトURLを保持している。これは、サーバコンピュ
ータ1のファイルオブジェクトURLが、前回のアクセ
ス以後に変化しているか否かを問い合わせるものであ
る。
【0055】情報源観測手段2は、上記のような要求ヘ
ッダを受けて、URLが“news”で示されるサーバコン
ピュータ1にコネクションを張り、該当するファイル
(“1.html”)を受信し、クライアントコンピュータ3
のブラウザ3Aに転送する。この際、情報源観測手段2
がサーバコンピュータ1から受信する応答データは、図
6に示すように、応答ヘッダとテキストデータ(HTM
Lデータ)とからなっている。
【0056】図6において、応答ヘッダにあるContent-
Typeヘッダは、後に続くデータのマルチメディアタイプ
を示しており、図6に示す例では、後に続くデータがテ
キストデータ(HTMLデータ)であることを示してい
る。また、応答ヘッダにあるContent-lengthヘッダは、
後続のテキストデータ(HTMLデータ)本体のデータ
サイズである。
【0057】したがって、上記情報源観測手段2の参照
情報抽出手段4は、応答ヘッダに含まれるRefererヘッ
ダを取得し、応答ヘッダが正常応答を示す場合(HTT
P応答コード200番)で、かつ、Content-typeヘッダ
がテキストであるものを集計して、取得情報源を集計す
ることができる。
【0058】これに対して、サーバコンピュータ1は、
If-Modified-Sinceヘッダの時刻と要求されたファイル
オブジェクトの最終変更時刻とを比較して変化がなけれ
ば、HTTP応答コードとして304番を付した、デー
タ部分のないヘッダデータのみの応答を、情報源観測手
段2を介して、クライアントコンピュータ3へ送信す
る。なお、図7は、クライアントコンピュータ3のキャ
ッシュメモリ3B中のキャッシュデータが有効な場合
に、サーバコンピュータ1が送信する応答ヘッダおよび
応答ボディデータの例である。
【0059】本実施の形態では、クライアントコンピュ
ータ3がキャッシュメモリ3Bを備えているため、応答
コードが304番であるときは、そのファイルオブジェ
クトがすでにクライアントコンピュータ3にて過去アク
セスされ、キャッシュされているデータであることを意
味する。したがって、この場合、要求ヘッダに含まれる
RefererヘッダのURL、すなわち参照元URLを情報
源観測統計から排除する処理を行う。すなわち、同一情
報へのリンクを複数回アクセスしても、その参照元UR
Lは情報源とみなさないという処理を行う。
【0060】ここで、上記の処理について、さらに詳細
に説明する。図16のようなハイパーリンク構造のHT
MLページを、図8のような順序でアクセスした場合を
考える。図8は、参照情報抽出手段4で抽出し、参照情
報保存手段5で記録した中継ログであり、中継URL、
Referer URL、HTTP応答コード,ボディ部分の転
送バイト数が記録されている。
【0061】図16では、第1日目(99/1/1)
は、“http://diary/”から始まり、“http://books/”
を経て、そこから“http://news/”をアクセスし、さら
に“http://news/”の3つのURL(“http://news/1.
html”,“http://news/2.html”,“http://news/3.ht
ml”)へアクセスを行っている。また、第2日目(99
/1/2)は、“http://diary/”から始まり、“http:
//books/”を経て、“http://news/”をアクセスし、1
つの新しいURL(“http://news/4.html”)をアクセ
スしている。また、第3日目(99/1/3)は、“ht
tp://diary/ ”から始まり、“http://books/”を経
て、“http://news/”をアクセスするが、新しいリンク
はない。また、第4日目(99/1/4)は、第3日目
(99/1/3)と同じアクセスを繰り返している。
【0062】ここで、“ http://diary/”は“ http://
books/”の参照元であるが、“http://books/”は変化
がないページであるため、“http://diary/”をReferer
URLとする応答コードは2回目以後304番となって
いる。これは、1回目でアクセスしたページが、キャッ
シュメモリ3Bにキャッシュされていたからである。
【0063】また、“http://books/”は“http://news
/”の参照元であるが、第1日目および第2日目の“htt
p://news/”が変化しているため、“http://books/”を
RefererURLとする応答コードは200番(304番
でない)である。そして、第3日目および第4日目の
“http://news/”は変化がないため、“http://books
/”をRefererURLとする応答コードは304番となっ
ている。
【0064】ここで、図9に示すように、カウント手段
6によって、単純にRefererヘッダのURLを集計する
と、“http://diary/”,“http://books/”,“http:/
/news/”は、いずれも出現頻度(参照頻度)が4回とな
り、“http://news/”にのみが新しい情報が現れるとい
う状態を反映していない。
【0065】そこで、同一URL排除手段7Aによっ
て、応答コードが304番の場合は、クライアントコン
ピュータ3が過去に同一ファイルオブジェクトをアクセ
スしたことがあるとみなして、Referer統計から削除す
る。図10は、応答コードが304番の場合を排除して
出現頻度情報を付加して作成された履歴情報であり、
“http://diary/”(1回)および“http://books/”
(2回)の出現頻度がアクセス履歴の実態に沿って修正
されている。よって、図10は、単純にRefererヘッダ
のURLを集計した結果(図9)とは異なっている。
【0066】なお、図10では、“http://books/”の
出現頻度(参照頻度)が2回として算出されているが、
これは参照先である“http://news/”が2度のアクセス
において内容が変わっていたからである。このように、
“http://books/”は変化する情報へのリンクを有する
ページであり、“http://diary/”に比べて重要度が高
い情報源であることが検出できている。
【0067】以上のように、同一URL排除手段7Aに
よって、3つのURLに関して、変化する情報へのリン
クをユーザがたどった割合の高いものほど出現頻度が高
い、すなわち情報源として重要とみなす統計が得られて
いる。
【0068】図10のReferer URLリストをもとに、
ゲートウェイコンピュータのキャッシュを自発的に更新
したり、あるいは、新しいリンクを探すエージェントソ
フトウェアにより、出現頻度順に一定数のURLに対し
て観測を行うことも可能となる。よって、HTTPプロ
キシサーバコンピュータやゲートウェイコンピュータな
どのような、キャッシュを蓄積するタイプのコンピュー
タに情報源観測手段2を設けた場合、情報源リストに基
づいて、参照元として頻度の高いURLに対して、キャ
ッシュを自発的に更新する構成とすることが可能とな
る。
【0069】また、上記情報源観測手段2は、上記のよ
うな要求ヘッダおよび応答ヘッダに含まれる情報を利用
して、アクセスしたURLのうちで正常応答を示したU
RLの参照元情報およびマルチメディアタイプを取得
し、アクセスログの項目として記録している。これによ
り、例えば、アクセスログにおいて参照元情報に注目し
て集計を行えば、アクセスしたURLの参照元となった
URLを頻度順に並べ替えて、情報源リストとしてユー
ザに提示することが可能となる。
【0070】また、参照元情報は、マルチメディアデー
タタイプごとに集計することもできる。例えば、テキス
トデータ、動画データ、音楽データなどのデータタイプ
ごとに分別して、情報源リストとしてユーザに提示する
ことも可能となる。
【0071】以上のように、上記情報源観測手段2は、
ネットワークで繋がれたサーバコンピュータ1のデータ
ファイル記憶装置1Aのハイパーリンク構造を有するデ
ータファイルを、クライアントコンピュータ3のブラウ
ザ3Aで閲覧する際に用いられる。
【0072】上記サーバコンピュータ1は、上記クライ
アントコンピュータ3から要求されたデータファイルの
更新日時と、クライアントコンピュータ3が前回アクセ
スした該データファイルの更新日時とを比較して、これ
ら更新日時が一致しない場合には、要求されたデータフ
ァイルが更新されている旨の応答コード(HTTPでは
200番)を該データファイルとともに送信し、一致す
る場合には、要求されたデータファイルが更新されてい
ない旨の応答コード(HTTPでは304番)を送信す
る。
【0073】そして、上記情報源観測手段2の参照情報
保存手段4は、クライアントコンピュータ3からアクセ
スされたデータファイルの参照元データファイルのアド
レス情報を参照情報として保存する。また、上記カウン
ト手段6は、上記参照情報をアドレス情報ごとに集計し
て参照元データファイルの参照頻度を算出する。さら
に、上記同一URL排除手段7Aは、1つの参照データ
ファイルから行われた1つのデータファイルへのアクセ
スのうち、そのデータファイルが更新されてから次に更
新されるまでの間に行われた複数回のアクセスを参照頻
度1回に換算する。その際、同一URL排除手段7A
は、クライアントコンピュータ3が要求したデータファ
イルが更新されているか否かを、上記応答コードに基づ
いて判定する。
【0074】つづいて、図4に示すフローチャートに基
づいて、情報源観測手段2における処理の流れを図2を
参照しながら説明する。なお、以下の説明において、情
報源観測手段2は、クライアントコンピュータ3に内蔵
されているものとするが、クライアントコンピュータ3
の外部に設けられた構成においても、ほぼ同様の処理が
行われる。
【0075】まず、情報源観測手段2は、ネットワーク
I/O15を用いてサーバソケットをオープンし、中継
要求を受け付ける待機状態に入る(S1)。そして、中
継要求を受信した場合、ステップS2に進む。なお、上
記のように、情報源観測手段2がクライアントコンピュ
ータ3に内蔵されている場合には、情報源観測手段2
は、メモリ13を経由してブラウザ3Aと通信する。
【0076】つぎに、情報源観測手段2は、ブラウザ3
Aから中継要求を受け付けると、参照情報抽出手段4に
よって、要求ヘッダから、参照元情報であるReferer ヘ
ッダを抽出し、この内容をメモリ13に一時記憶させる
(S2)。
【0077】つぎに、情報源観測手段2は、サーバコン
ピュータ1に対してコネクションを開いて要求ヘッダを
中継する(S3)。この際、要求したURLが存在しな
い場合には、エラーメッセージがクライアントコンピュ
ータ3の表示装置17によってユーザに提示され、メモ
リ13に一次記憶させたReferer ヘッダの情報が破棄さ
れる(S4)。
【0078】また、情報源観測手段2は、要求したUR
Lがサーバコンピュータ1に存在し、かつ、そのURL
がクライアントコンピュータ3によるアクセス履歴がな
い新規なデータファイルである場合(応答コードが正常
(200番)である場合)には、そのURLに該当する
サーバコンピュータ1からの応答データを受け取り、ク
ライアントコンピュータ3のブラウザ3Aに応答データ
を中継する。これと同時に、参照情報保存手段5によっ
て、要求したURLが、Referer ヘッダに基づいて検出
される参照元情報、応答コードおよび応答ヘッダに含ま
れるContent-lengthヘッダに基づいて検出される応答ボ
ディ部の転送バイト数とともに、参照情報として不揮発
性メモリ14に記録され、保存される(S5)。この保
存された参照情報の保存データの例を図8に示す。
【0079】また、情報源観測手段2は、要求したUR
Lがサーバコンピュータ1に存在するが、そのURLが
クライアントコンピュータ3によるアクセス履歴を有す
る場合(応答コードが正常(304番)である場合)、
すなわち、クライアントコンピュータ3による前回アク
セス以降更新されていないデータファイルである場合に
は、応答ボディ部のない応答データをブラウザ3Aに中
継する。これと同時に、参照情報保存手段5によって、
要求したURLが、Referer ヘッダに基づいて検出され
る参照元情報、応答コードとともに、参照情報として不
揮発性メモリ14に記録され、保存される(S5)。
【0080】ここで、応答ヘッダに含まれるContent-ty
peヘッダに基づいて検出されるデータタイプ(text/htm
l 等)に基づいて、指定されたデータタイプだけを保存
してもよい。また、参照元のタイトルを保存してもよ
い。なお、Content-typeヘッダがtext/html であれば、
応答データのHTMLデータを構文解析し、<title> タ
グで囲まれた部分を抽出することによって、該当ページ
のタイトルを抽出できる。
【0081】上記のような参照情報の保存処理は、保存
データが一定数になるまで繰り返して行われる(S
6)。すなわち、保存データが一定数になるまでは(N
O)、ステップS1に戻り、保存データが一定数に達し
たら(YES)、次のステップ(S7)に進む。
【0082】一定数に達した保存データに対して、カウ
ント手段6によって、参照元情報ごとに参照に用いられ
た回数を集計し、集計データを作成する(S7)。図9
は、図8のアクセスログを集計した結果である。
【0083】つづいて、ソート手段7によって、上記集
計データを参照頻度に関してソートする(S8)。な
お、データタイプについてのソートを同時に行うことも
できる。
【0084】このとき、同一ファイルオブジェクトの中
継を除いて集計する。すなわち、同一URL排除手段7
Aにより、サーバコンピュータ1からのHTTP応答コ
ード304番を検出し、同一ファイルオブジェクトの中
継か否かを判定して、そうであれば出現頻度のカウント
から取り除く。図10は、図9の履歴情報から応答コー
ドが304番の参照元URLを排除した結果である。
【0085】そして、ソートされた参照情報のデータ
を、データ変換手段8によって、例えばHTMLデータ
などの、ブラウザ3Aで表示することが可能なデータ形
式に変換し、情報源リストとして表示装置17に表示す
ることによって、ユーザに提示する(S9)。このよう
な情報源リストの例を図11に示す。
【0086】情報源リストから、クライアントコンピュ
ータ3を使用するユーザが、どのような情報を求めるこ
とを習慣としているかを把握できる。すなわち、この情
報源リストは、嗜好データベースとして利用できる。例
えば、図11に示す例では、ユーザが“http://news/”
を情報ソースとして最も重要と考えていることがわか
る。また、各データタイプごとに参照元情報を集計して
提示できるので、データタイプごとに、重要となる参照
元情報を把握することも可能である。
【0087】ここで、情報源観測手段2が、アクセスし
たURLのデータをキャッシュとして情報貯蓄手段10
に一定量蓄積するものである場合を考える。なお、情報
源観測手段2がクライアントコンピュータ3に内蔵され
ている場合には、情報貯蓄手段10とキャッシュメモリ
3Bとを一つにすることができる。この場合、情報更新
手段9が、所定の時間ごとに、上記のソートされた参照
情報のデータに基づいて、サーバコンピュータ1から情
報を自発的に取得し、情報蓄積手段10に蓄積されたデ
ータの更新が行われる(S10)。このような情報更新
処理は、ソートされた参照情報のデータにおいて、例え
ば全てのデータタイプにおける参照元として頻度の高い
順、あるいは、ユーザが指定したデータタイプにおける
参照元として頻度の高い順などに基づいて行われる。
【0088】この情報更新手段9による情報更新処理に
おいて、情報源リストに掲載されたURL群を対象にリ
ンクレベル2以上でファイルオブジェクトの自動収集す
る処理を行えば、参照元としてのURLからリンクされ
ているデータ、すなわち、ユーザがアクセスする可能性
の高いデータをも自動的に情報蓄積手段10に蓄積され
ることになる。すなわち、リンクレベルを深くすれば、
参照元としてのURLからリンクされている広い範囲の
関連情報まで自動収集することになるが、ユーザが参照
元として数多く利用するURLを起点にした情報収集と
なるので、ユーザが利用する可能性の高い、的確な情報
収集が可能となる。これにより、参照元のURLからリ
ンクされているデータに対してユーザがアクセスした場
合にも、キャッシュデータの中からデータを取り出すこ
とが可能となり、アクセススピードの向上およびネット
ワークトラフィックの低減を図ることができる。なお、
情報更新手段9としては、Microsoft社のWWWブラウ
ザであるInternet Explorerの定期購読機能を利用する
こともできる。
【0089】さらに、上記のように、情報源リストに掲
載されたURL群を対象に所定のリンクレベル以上で自
動収集したファイルオブジェクトに対して、検索手段1
1により検索をかけ、ユーザに結果を提示することも可
能である。この場合、ユーザの情報源をもとに情報収集
されたファイルオブジェクトに対して検索が行われるの
で、一般のインターネット検索エンジンなどに比べて、
情報の鮮度が高く、かつ、ユーザのニーズに適した検索
結果を提供することができる。
【0090】以上のようなステップS1からステップS
10の処理を、情報源観測手段2は繰り返し行うことに
なる。
【0091】このように、参照情報を集計し、出現頻度
順にソートした結果において、ユーザが参照元として頻
繁に利用したURLは上位にランクされることになる。
したがって、このようなソート結果をユーザに提示すれ
ば、ユーザは、所望の情報をどこから得ることができる
かを、自分の情報源リストから発見することが可能とな
り、この情報源リストからリンクをたどることによっ
て、容易に情報を得ることが可能となる。
【0092】加えて、同一URL排除手段7Aにより、
同一ファイルオブジェクトを参照するURLを排除でき
る。これにより、参照統計から単なる通り道のURLを
削除することにより、真のユーザ情報源統計として参照
統計情報の精度を向上させることができる。すなわち、
参照統計情報は新着リンク情報の予測や、それらの事前
ダウンロードに使用されるので、より精度の高い新着リ
ンク情報検出が可能になり、また無駄なURLへのアク
セスがなくなるため、新着情報のための調査時間の短縮
が可能になる。
【0093】上記の説明では、同一URL排除手段7A
により、サーバコンピュータ1からのHTTP応答コー
ド304番を検出して、同一ファイルオブジェクトの中
継か否かを判定し、そうであれば出現頻度のカウントか
ら取り除いた。しかし、同一URL排除手段7Aによる
同一ファイルオブジェクトの検出は、ファイルサイズが
設定値以上に変化していなければ、更新されていないと
みなすことによっても可能である。
【0094】ここで、WWWの世界では、広告の画像が
リンクされてHTMLファイルに埋め込まれている場合
がある。さらに、このような広告にはアクセスするごと
に異なる画像を表示するものが多い。そのため、広告の
画像URLの長さが変化しただけのページにアクセスし
た場合、ユーザにとっては表示ページの意味内容に変化
がないにもかかわらず、ファイルサイズ(転送バイト
数)が異なるため、サーバコンピュータ1からは応答コ
ード304番ではなく、応答コード200番とHTML
ファイルが転送される。
【0095】そこで、上記同一URL排除手段7Aで
は、ファイルサイズが閾値Wバイト(例えば10バイ
ト)以上変化したときだけ、ファイルが更新されて同一
性がなくなったと判断して、統計に加える処理を行う。
つまり、ファイルサイズの差が閾値Wバイト以下のファ
イルを同一ファイルとみなし、応答コード304番と同
じく重複があるとして排除する。もちろん、閾値Wバイ
トは、コンピュータシステムの状態に応じて適宜設定す
ることができる。
【0096】具体的には、ステップS8(図4)におい
て、同一参照ページへの複数回アクセスを排除して統計
を作る際に、アクセスログの一番下(最新)のURL
についてデータファイルの転送バイト数を変数Mjに格
納し、同一URLがないかどうかをアクセスログの上
に向かって遡って調べる。そして、同一URLがi行
目にあれば、転送バイト数である変数Mi,Mjの差を
計算し、Mi−Mjの絶対値<Wという条件式で判別す
る。この条件式を満たしているものは、ファイルサイ
ズの変化が閾値以下であるので、j行目の応答コードを
304番に置き換える。以上の処理を、jを1つ減算
しながら繰り返し行う。
【0097】一例として、図12のアクセスログを図1
3に補正する場合について説明する。なお、以下では
“http://books/”からのアクセスについてのみ説明す
る。また、アクセスログの「Referer 採用」欄には、統
計に採用する場合には「○」、採用しない場合には
「×」が記されている。
【0098】まず、99/1/4の“http://books/”
のアクセスを処理する。ここから遡ると、同じURLで
ある“http://books/”が99/1/3にある。しか
し、99/1/4のアクセスは、99/1/3のアクセ
スと最終変更時刻が一致して、応答コード(304番)
のみが転送されているため、ファイルサイズによる同一
性判定の対象とならない。
【0099】つぎに、99/1/3の“http://books
/”のアクセスを処理する。ここから遡ると、同じUR
Lである“http://books/”が99/1/2にある。こ
れらのアクセスの転送バイト数の差は3バイトであり、
閾値(10バイト)以下である。よって、99/1/3
のアクセスではデータファイルが実質的に更新されてい
なかったと判断して、応答コードを304番に書き換え
る。
【0100】つぎに、99/1/2の“http://books
/”のアクセスを処理する。ここから遡ると、同じUR
Lである“http://books/”が99/1/1にある。こ
れらのアクセスの転送バイト数の差は11バイトであ
り、閾値(10バイト)より大きい。よって、99/1
/2のアクセスではデータファイルが実質的に更新され
ていたと判断して、応答コードを200番のままとす
る。
【0101】以上のように、同一URL排除手段7Aに
おいて、ファイルサイズによる同一性判定を行い、転送
バイト数は異なるが更新されていないとみなせるアクセ
スの応答コードを304番に書き換えて、アクセスログ
を補正する。これにより、この補正の後、上述した応答
コード304番の検出の処理にそのまま移行して、同一
と思われるファイルオブジェクトへの重複アクセスを統
計からまとめて排除することができる。
【0102】以上のように、本発明に係る情報源観測装
置は、ハイパーリンクを有するページの参照頻度統計を
作成する際に、同一ファイルオブジェクトのアクセスを
統計から取り除いて、変化の多い参照元URLを推定す
る。
【0103】具体的には、上記情報源観測装置は、ブラ
ウザからの要求をサーバコンピュータに中継し、応答を
ブラウザに中継する情報源観測手段において実現され
る。そして、この情報源観測手段は、サーバコンピュー
タ上のハイパーリンク構造を持ったファイルオブジェク
トをクライアントコンピュータで閲覧するシステムにお
いて、参照情報抽出手段(参照元情報抽出手段)と、参
照情報保存手段と、カウント手段と、同一ファイルオブ
ジェクトの転送検知手段(同一URL排除手段)と、ソ
ート手段と、データ変換手段(表示手段)とを備えて構
成されてもよい。さらに、同一ファイルオブジェクトの
転送検知手段に、サーバコンピュータからの応答コード
を利用するように構成されてもよい。
【0104】詳細には、上記情報源観測手段は、URL
要求プロトコルの要求ヘッダに含まれる参照情報を抽出
する参照情報抽出手段と、ファイルオブジェクト中継応
答ヘッダの応答コードを記録して、同一ファイルオブジ
ェクトへのアクセスを排除する手段(または、中継ファ
イルサイズを比較することにより、同一ファイル名への
アクセスにおいて、一定数以上のファイルサイズの変化
がない場合は、同一情報へのアクセスであると判断して
統計から排除する手段)と、参照情報別に統計を行うカ
ウント手段と、これらの参照情報の統計をソートし並べ
替えるソート手段と、統計結果を記憶装置に記憶し、ユ
ーザに提示する形式にデータを変換するデータ変換手段
とを備えて構成されてもよい。加えて、情報更新手段を
備え、統計結果をもとに、情報源観測手段が保持する情
報蓄積手段を使って情報更新を行う構成であってもよ
い。
【0105】また、上記情報源観測手段は、URL要求
プロトコルの要求ヘッダに含まれるReferer ヘッダから
参照URL元情報を抽出して記憶する手段と、URL応
答ヘッダのデータタイプからテキストなど特定のメディ
アタイプを示す情報を抽出する手段と、目的メディアタ
イプに合致しているか判断する手段を使ってメディアタ
イプ別に参照URL元情報を選別して記憶する手段と、
これらの参照URL元情報の統計を計算する手段と、参
照URLの重複を取り除く手段と、統計結果を記憶装置
に記憶し、ユーザに提示する手段とを備えて構成されて
もよい。加えて、統計結果を元に情報を自動収集する手
段を起動する構成であってもよい。
【0106】これにより、上記情報源観測手段は、ファ
イルオブジェクトの参照元情報の統計情報を集計して、
クライアントコンピュータに提示することができる。そ
して、ハイパーリンクを有するページの参照頻度統計を
作成する時に、単なる通り道のページを検出して、統計
から除去することによって、精度の高いユーザアクセス
参照頻度統計を作成することができる。
【0107】このように、本発明に係る情報源観測装置
は、図8のようにアクセスログを作成する際、要求ヘッ
ダに含まれる参照元URL情報と、正常なファイルオブ
ジェクト転送であり、サーバコンピュータからの応答コ
ードが304番でないものを抽出し、ファイル転送サイ
ズを記録し、統計を取ることにより、どのURLにリン
クされていた情報へのアクセスかを示す参照頻度を記録
する。これにより、同一ファイルオブジェクト参照によ
る参照統計を排除できる。すなわち、統計上、異なるフ
ァイルオブジェクトへアクセスした場合の参照元URL
を重要視して、新着情報が得られる確率の高い情報を多
く含んでいるURLをユーザに示すことができる。
【0108】ここで、本発明に係る情報源観測装置は、
同一ファイルオブジェクトへのアクセス(参照行動)を
取り除いて、参照情報(参照URL元情報、情報源情
報)を集計し、出現頻度順にソートし、ユーザに提示す
ることによって、異なる情報をより多く引き出したUR
Lを重要度の上位にランク付けすることができる。
【0109】これにより、ランク付けした参照URL元
情報を情報源リスト(図11)としてユーザに提示すれ
ば、ユーザは自分にとって新規情報が得やすい情報源を
的確に把握することができ、必要な情報を即座に得るこ
とができる。また、例えば、多数のニュース記事にリン
クが張られ、毎日異なる記事のURLへのリンクが出現
するページをユーザがアクセスすれば、自動的に将来の
新着情報を予測して効果的に自動巡回を行うことが可能
となる。
【0110】また、参照元URLの統計から得られたリ
ストをもとに、ゲートウェイコンピュータが内蔵キャッ
シュに情報を自動更新するようにすることができる。ま
た、ゲートウェイコンピュータが自発的にこれら有用な
情報源URLをアクセスして、新しいハイパーリンクを
検出して、ユーザに提示する場合に、効率的な調査が可
能になる。
【0111】そして、前記の手段がブラウザソフトウェ
アに内蔵されていれば、無駄な情報源を排除して、ユー
ザにとってより有用な情報を数多く提示できる。また、
ブラウザが自発的にこれら有用な情報源URLにアクセ
スして、新しいハイパーリンクを検出して、ユーザに提
示する場合に効率的な調査が可能になる。
【0112】したがって、本発明に係る情報源観測装置
によれば、WWWなどのハイパーテキストシステムにお
いて、ユーザがどのページを起点としてURLページを
参照しているかという情報源URL(参照元URL・情
報源アドレス)を抽出して統計を作成し、ユーザの情報
源を予測する処理において、情報源URLからの同一参
照ページへの複数回のアクセスを排除することができ
る。これにより、新規情報の出現可能性が高い情報源U
RLの予測精度を高めることが可能となる。
【0113】上記の実施の形態は本発明の範囲を限定す
るものではなく、本発明の範囲内で種々の変更が可能で
ある。特に、本実施の形態では、インターネット上のH
TMLを例として説明したが、ネットワークの構成(H
TTP等のプロトコルを含む)およびファイルオブジェ
クトの形式はこれに限定されない。
【0114】最後に、本発明は、複数の機器(例えば、
ホストコンピュータ、端末コンピュータ、インタフェー
ス機器、ネットワーク機器、リーダ、プリンタなど)か
ら構成されるシステムに適用しても、一つの機器からな
る装置(例えば、携帯型コンピュータ、ワープロ装置な
ど)に適用してもよい。
【0115】また、本発明の目的は、上述した機能を実
現するソフトウエアである情報源観測プログラムのプロ
グラムコード(実行形式プログラム、中間コードプログ
ラム、ソースプログラム)をコンピュータで読み取り可
能に記録した記録媒体を、システムあるいは装置に供給
し、そのシステムあるいは装置のコンピュータ(または
CPUやMPU)が記録媒体に記録されているプログラ
ムコードを読み出し実行することによっても、達成可能
である。この場合、記録媒体から読み出されたプログラ
ムコード自体が上述した機能を実現することになり、そ
のプログラムコードを記録した記録媒体は本発明を構成
することになる。
【0116】上記プログラムコードを供給するための記
録媒体は、システムあるいは装置と分離可能に構成する
ことができる。また、上記記録媒体は、プログラムコー
ドを供給可能であるように固定的に担持する媒体であっ
てもよい。そして、上記記録媒体は、記録したプログラ
ムコードをコンピュータが直接読み取ることができるよ
うにシステムあるいは装置に装着されるものであって
も、外部記憶装置としてシステムあるいは装置に接続さ
れたプログラム読み取り装置を介して読み取ることがで
きるように装着されるものであってもよい。
【0117】例えば、上記記録媒体としては、磁気テー
プやカセットテープ等のテープ系、フロッピーディスク
/ハードディスク等の磁気ディスクやCD−ROM/M
O/MD/DVD/CD−R等の光ディスクを含むディ
スク系、ICカード(メモリカードを含む)/光カード
等のカード系、あるいはマスクROM/EPROM/E
EPROM/フラッシュROM等の半導体メモリ系など
を用いることができる。
【0118】また、上記プログラムコードは、コンピュ
ータが記録媒体から読み出して直接実行できるように記
録されていてもよいし、記録媒体から主記憶のプログラ
ム記憶領域へ転送された後コンピュータが主記憶から読
み出して実行できるように記録されていてもよい。
【0119】さらに、上記記録媒体は、通信ネットワー
ク等を介してプログラムコードを供給可能であるように
流動的に担持する媒体であってもよい。この場合、シス
テムあるいは装置を通信ネットワーク(インターネット
等を含む)と接続可能に構成し、上記プログラムコード
を通信ネットワークからダウンロードすることにより供
給することができる。
【0120】なお、プログラムコードを記録媒体から読
み出して主記憶に格納するためのプログラム、および、
通信ネットワークからプログラムコードをダウンロード
するためのプログラムは、コンピュータによって実行可
能にあらかじめシステムあるいは装置に格納されている
ものとする。
【0121】上述した機能は、コンピュータが読み出し
た上記プログラムコードを実行することによって実現さ
れるだけでなく、そのプログラムコードの指示に基づ
き、コンピュータ上で稼働しているOSなどが実際の処
理の一部または全部を行うことによっても実現される。
【0122】さらに、上述した機能は、上記記録媒体か
ら読み出された上記プログラムコードが、コンピュータ
に装着された機能拡張ボードやコンピュータに接続され
た機能拡張ユニットに備わるメモリに書込まれた後、そ
のプログラムコードの指示に基づき、その機能拡張ボー
ドや機能拡張ユニットに備わるCPUなどが実際の処理
の一部または全部を行うことによっても実現される。
【0123】
【発明の効果】本発明の情報源観測装置は、以上のよう
に、ネットワークで繋がれたサーバコンピュータ上のハ
イパーリンク構造を有するデータファイルをクライアン
トコンピュータ上で閲覧する際に用いられる情報源観測
装置において、クライアントコンピュータからアクセス
されたデータファイルの参照元データファイルのアドレ
ス情報を参照情報として保存する参照情報保存手段と、
上記参照情報をアドレス情報ごとに集計して参照元デー
タファイルの参照頻度を算出するカウント手段とを有す
るとともに、1つの参照データファイルから行われた1
つのデータファイルへのアクセスのうち、そのデータフ
ァイルが更新されてから次に更新されるまでの間に行わ
れた複数回のアクセスを参照頻度1回に換算する重複ア
クセス排除手段を有する構成である。
【0124】また、本発明の情報源観測方法は、以上の
ように、ネットワークで繋がれたサーバコンピュータ上
のハイパーリンク構造を有するデータファイルをクライ
アントコンピュータ上で閲覧する際の情報源観測方法に
おいて、クライアントコンピュータからアクセスされた
データファイルの参照元データファイルのアドレス情報
を参照情報として保存するステップと、上記参照情報を
アドレス情報ごとに集計して参照元データファイルの参
照頻度を算出するステップとを含むとともに、1つの参
照データファイルから行われた1つのデータファイルへ
のアクセスのうち、そのデータファイルが更新されてか
ら次に更新されるまでの間に行われた複数回のアクセス
を参照頻度1回に換算するステップを含んでいる方法で
ある。
【0125】また、本発明の情報源観測プログラムを記
録したコンピュータ読み取り可能な記録媒体は、以上の
ように、ネットワークで繋がれたサーバコンピュータ上
のハイパーリンク構造を有するデータファイルをクライ
アントコンピュータ上で閲覧する際に用いられる情報源
観測プログラムを記録したコンピュータ読み取り可能な
記録媒体において、クライアントコンピュータからアク
セスされたデータファイルの参照元データファイルのア
ドレス情報を参照情報として保存する参照情報保存手段
と、上記参照情報をアドレス情報ごとに集計して参照元
データファイルの参照頻度を算出するカウント手段と、
1つの参照データファイルから行われた1つのデータフ
ァイルへのアクセスのうち、そのデータファイルが更新
されてから次に更新されるまでの間に行われた複数回の
アクセスを参照頻度1回に換算する重複アクセス排除手
段と、をコンピュータに実現させるための情報源観測プ
ログラムを記録した構成である。
【0126】それゆえ、重複アクセス排除手段(ステッ
プ)によって、データファイルが更新されてから次に更
新されるまでの間に行われた複数回のアクセスを参照頻
度1回に換算して修正するので、参照頻度の統計から重
複したアクセスを削減除去して、より有用な情報を多く
含んでいるデータファイルをユーザに提示することが可
能となる。
【0127】よって、新規に多数出現するマルチメディ
アデータ等のデータファイルの参照起点となる情報源を
参照頻度の統計に基づいて自動的に発見し、これをユー
ザに提示することができる優れたユーザインタフェース
を提供することが可能となるという効果を奏する。ま
た、処理を高速化して、ユーザの情報アクセス時間を短
縮することができるという効果を奏する。
【0128】したがって、上記の構成および方法によれ
ば、サーバコンピュータとクライアントコンピュータと
がネットワークで結ばれたコンピュータシステムにおい
て、サーバコンピュータの上にあるハイパーテキスト構
造を持ったマルチメディア文書の参照をクライアントコ
ンピュータから容易に行うことが可能となるという効果
を奏する。
【0129】本発明の情報源観測装置は、以上のよう
に、さらに、上記サーバコンピュータが、上記クライア
ントコンピュータから要求されたデータファイルの更新
日時と、該クライアントコンピュータが前回アクセスし
た該データファイルの更新日時とを比較して、これら更
新日時が一致しない場合には、要求されたデータファイ
ルが更新されている旨の応答コードを該データファイル
とともに送信し、一致する場合には、要求されたデータ
ファイルが更新されていない旨の応答コードを送信する
ものであって、上記重複アクセス排除手段が、クライア
ントコンピュータが要求したデータファイルが更新され
ているか否かを、上記応答コードに基づいて判定する構
成である。
【0130】それゆえ、さらに、上記重複アクセス排除
手段は、サーバコンピュータがクライアントコンピュー
タによりアクセス要求されたデータファイルが前回のア
クセス以降に更新されたか否かを示すために送信した応
答コードを検出することによって、同一データファイル
の転送を検知することができる。したがって、このよう
な応答コードを送信するプロトコル(例えば、HTT
P)を用いるネットワークでは、容易な処理によって、
上記重複アクセス排除手段を実現することができるとい
う効果を奏する。
【0131】本発明の情報源観測装置は、以上のよう
に、さらに、上記重複アクセス排除手段が、上記クライ
アントコンピュータから要求されたデータファイルのサ
イズと、該クライアントコンピュータが前回アクセスし
た該データファイルのサイズとを比較して所定の閾値以
上の差がない場合、要求されたデータファイルは更新さ
れていないと判定する構成である。
【0132】それゆえ、さらに、上記重複アクセス排除
手段は、上記クライアントコンピュータから要求された
データファイルのサイズと、該クライアントコンピュー
タが前回アクセスした該データファイルのサイズとを比
較して、サイズが閾値以上に変化していなければ、その
データファイルは更新されていないとみなして、参照頻
度を修正することができる。
【0133】したがって、ユーザにとっては表示ページ
の意味内容に変化がないにもかかわらず、ファイルサイ
ズがわずかに異なるためにファイルが転送されたアクセ
スを統計の対象から排除することができ、より精度の高
い参照頻度を算出することが可能となるという効果を奏
する。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る情報源観測装置の
構成の概略を示す機能ブロック図であり、情報源観測装
置がクライアントコンピュータとは別に設けられている
場合を示す。
【図2】本発明の一実施の形態に係る情報源観測装置の
他の構成の概略を示す機能ブロック図であり、情報源観
測装置がクライアントコンピュータ内に設けられている
場合を示す。
【図3】図2に示す情報源観測装置を含むクライアント
コンピュータの物理的構成の概略を示すブロック図であ
る。
【図4】図1および図2に示す情報源観測装置の動作の
概略を示すフローチャートである。
【図5】クライアントコンピュータから発行される要求
ヘッダの一例を示す説明図である。
【図6】サーバコンピュータから発行される応答ヘッダ
の一例であり、通常の場合の応答ヘッダを示す説明図で
ある。
【図7】サーバコンピュータから発行される応答ヘッダ
の一例であり、ファイルが更新されていない場合の応答
ヘッダを示す説明図である。
【図8】図1および図2に示す情報源観測装置で作成さ
れるURLアクセスログの一例を示す説明図である。
【図9】図1および図2に示す情報源観測装置で作成さ
れる参照元URL情報としての頻度統計情報を示す説明
図であり、URLの参照元URLを集計した一例を示
す。
【図10】図1および図2に示す情報源観測装置で作成
される参照元URL情報としての頻度統計情報を示す説
明図であり、応答コード304の参照元URLを除いて
集計した一例を示す。
【図11】図1および図2に示す情報源観測装置が備え
るデータ変換手段によって生成されたデータの一表示例
を示す説明図である。
【図12】図1および図2に示す情報源観測装置で作成
されるURLアクセスログのファイルサイズによる同一
性判定の説明図であり、補正前のアクセスログの一例を
示す。
【図13】図1および図2に示す情報源観測装置で作成
されるURLアクセスログのファイルサイズによる同一
性判定の説明図であり、図12に示すアクセスログを補
正したアクセスログを示す。
【図14】WWW上におけるHTMLページおよびデー
タファイルのリンクの様子の一例を示す概念図である。
【図15】URLアクセスログの一例を示す説明図であ
る。
【図16】WWW上におけるHTMLページおよびデー
タファイルのリンクの様子の他の例を示す概念図であ
る。
【符号の説明】
1 サーバコンピュータ 2 情報観測手段(情報源観測装置) 3 クライアントコンピュータ 5 参照情報保存手段 6 カウント手段 7A 同一URL排除手段(重複アクセス排除手段)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】ネットワークで繋がれたサーバコンピュー
    タ上のハイパーリンク構造を有するデータファイルをク
    ライアントコンピュータ上で閲覧する際に用いられる情
    報源観測装置において、 クライアントコンピュータからアクセスされたデータフ
    ァイルの参照元データファイルのアドレス情報を参照情
    報として保存する参照情報保存手段と、 上記参照情報をアドレス情報ごとに集計して参照元デー
    タファイルの参照頻度を算出するカウント手段とを有す
    るとともに、 1つの参照データファイルから行われた1つのデータフ
    ァイルへのアクセスのうち、そのデータファイルが更新
    されてから次に更新されるまでの間に行われた複数回の
    アクセスを参照頻度1回に換算する重複アクセス排除手
    段を有することを特徴とする情報源観測装置。
  2. 【請求項2】上記サーバコンピュータが、上記クライア
    ントコンピュータから要求されたデータファイルの更新
    日時と、該クライアントコンピュータが前回アクセスし
    た該データファイルの更新日時とを比較して、これら更
    新日時が一致しない場合には、要求されたデータファイ
    ルが更新されている旨の応答コードを該データファイル
    とともに送信し、一致する場合には、要求されたデータ
    ファイルが更新されていない旨の応答コードを送信する
    ものであって、 上記重複アクセス排除手段が、クライアントコンピュー
    タが要求したデータファイルが更新されているか否か
    を、上記応答コードに基づいて判定するものであること
    を特徴とする請求項1に記載の情報源観測装置。
  3. 【請求項3】上記重複アクセス排除手段が、上記クライ
    アントコンピュータから要求されたデータファイルのサ
    イズと、該クライアントコンピュータが前回アクセスし
    た該データファイルのサイズとを比較して所定の閾値以
    上の差がない場合、要求されたデータファイルは更新さ
    れていないと判定するものであることを特徴とする請求
    項1または2に記載の情報源観測装置。
  4. 【請求項4】ネットワークで繋がれたサーバコンピュー
    タ上のハイパーリンク構造を有するデータファイルをク
    ライアントコンピュータ上で閲覧する際の情報源観測方
    法において、 クライアントコンピュータからアクセスされたデータフ
    ァイルの参照元データファイルのアドレス情報を参照情
    報として保存するステップと、 上記参照情報をアドレス情報ごとに集計して参照元デー
    タファイルの参照頻度を算出するステップとを含むとと
    もに、 1つの参照データファイルから行われた1つのデータフ
    ァイルへのアクセスのうち、そのデータファイルが更新
    されてから次に更新されるまでの間に行われた複数回の
    アクセスを参照頻度1回に換算するステップを含んでい
    ることを特徴とする情報源観測方法。
  5. 【請求項5】ネットワークで繋がれたサーバコンピュー
    タ上のハイパーリンク構造を有するデータファイルをク
    ライアントコンピュータ上で閲覧する際に用いられる情
    報源観測プログラムを記録したコンピュータ読み取り可
    能な記録媒体において、 クライアントコンピュータからアクセスされたデータフ
    ァイルの参照元データファイルのアドレス情報を参照情
    報として保存する参照情報保存手段と、 上記参照情報をアドレス情報ごとに集計して参照元デー
    タファイルの参照頻度を算出するカウント手段と、 1つの参照データファイルから行われた1つのデータフ
    ァイルへのアクセスのうち、そのデータファイルが更新
    されてから次に更新されるまでの間に行われた複数回の
    アクセスを参照頻度1回に換算する重複アクセス排除手
    段と、をコンピュータに実現させるための情報源観測プ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体。
JP30565799A 1999-10-27 1999-10-27 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3666638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30565799A JP3666638B2 (ja) 1999-10-27 1999-10-27 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30565799A JP3666638B2 (ja) 1999-10-27 1999-10-27 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2001125822A true JP2001125822A (ja) 2001-05-11
JP3666638B2 JP3666638B2 (ja) 2005-06-29

Family

ID=17947786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30565799A Expired - Fee Related JP3666638B2 (ja) 1999-10-27 1999-10-27 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3666638B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171798A (ja) * 2001-08-03 2006-06-29 Saora Inc 情報処理システム及び装置、及びその方法、及びそのプログラム
JP2006171799A (ja) * 2001-08-17 2006-06-29 Saora Inc 情報処理システム及びその方法、及びそのプログラム、クライアント端末装置、サーバ端末装置
JP2007028060A (ja) * 2005-07-14 2007-02-01 Nec Corp リンク先へのアクセス制限方法、装置及びプログラム
JP2009009309A (ja) * 2007-06-27 2009-01-15 Fujifilm Corp サーバ・システムならびにその動作制御方法およびその制御プログラム
JP2012508914A (ja) * 2008-11-14 2012-04-12 北京捜狗科技▲発▼展有限公司 ページリソースの処理方法および装置
JP2012168582A (ja) * 2011-02-09 2012-09-06 Ntt Docomo Inc 潜在クラス分析装置、潜在クラス分析方法及びプログラム
JP2013541883A (ja) * 2010-09-03 2013-11-14 フル・エルエルシー メディア・プログラム・メタデータのコールバック補足のための方法およびシステム
JP2014146298A (ja) * 2013-01-30 2014-08-14 Canon Electronics Inc 情報処理装置、履歴情報を取得する方法、システムおよびコンピュータプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207838A (ja) * 1997-01-28 1998-08-07 Fujitsu Ltd 対話型ハイパーテキスト情報参照システムにおける情報参照回数計数装置及び方法並びに情報参照回数計数プログラムを記録した媒体
JP2000227886A (ja) * 1999-02-05 2000-08-15 Sharp Corp 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207838A (ja) * 1997-01-28 1998-08-07 Fujitsu Ltd 対話型ハイパーテキスト情報参照システムにおける情報参照回数計数装置及び方法並びに情報参照回数計数プログラムを記録した媒体
JP2000227886A (ja) * 1999-02-05 2000-08-15 Sharp Corp 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171798A (ja) * 2001-08-03 2006-06-29 Saora Inc 情報処理システム及び装置、及びその方法、及びそのプログラム
JP2006171799A (ja) * 2001-08-17 2006-06-29 Saora Inc 情報処理システム及びその方法、及びそのプログラム、クライアント端末装置、サーバ端末装置
JP2007028060A (ja) * 2005-07-14 2007-02-01 Nec Corp リンク先へのアクセス制限方法、装置及びプログラム
JP4635757B2 (ja) * 2005-07-14 2011-02-23 日本電気株式会社 リンク先へのアクセス制限方法、装置及びプログラム
JP2009009309A (ja) * 2007-06-27 2009-01-15 Fujifilm Corp サーバ・システムならびにその動作制御方法およびその制御プログラム
JP2012508914A (ja) * 2008-11-14 2012-04-12 北京捜狗科技▲発▼展有限公司 ページリソースの処理方法および装置
JP2013541883A (ja) * 2010-09-03 2013-11-14 フル・エルエルシー メディア・プログラム・メタデータのコールバック補足のための方法およびシステム
JP2012168582A (ja) * 2011-02-09 2012-09-06 Ntt Docomo Inc 潜在クラス分析装置、潜在クラス分析方法及びプログラム
JP2014146298A (ja) * 2013-01-30 2014-08-14 Canon Electronics Inc 情報処理装置、履歴情報を取得する方法、システムおよびコンピュータプログラム

Also Published As

Publication number Publication date
JP3666638B2 (ja) 2005-06-29

Similar Documents

Publication Publication Date Title
US7146415B1 (en) Information source monitor device for network information, monitoring and display method for the same, storage medium storing the method as a program, and a computer for executing the program
JP3996673B2 (ja) インターネット上の情報収集方法、および情報収集システム
US7996397B2 (en) Using network traffic logs for search enhancement
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
US7949702B2 (en) Method and apparatus for synchronizing cookies across multiple client machines
KR101304119B1 (ko) 이전에 포착된 연관성 데이터에 기초한 광고 리타게팅을 위한 시스템 및 방법
US6973492B2 (en) Method and apparatus for collecting page load abandons in click stream data
JP2006520939A (ja) インターネット使用者の接続意図判断方法およびこれを用いたインターネット上の広告方法とそのシステム
US20140026082A1 (en) Method and system for predictive browsing
US20020032772A1 (en) Method for searching and analysing information in data networks
WO2007071143A1 (fr) Procédé et appareil destinés à émettre des informations réseau
US20100057695A1 (en) Post-processing search results on a client computer
US8135733B2 (en) Information retrieval apparatus, information retrieval method and information retrieval processing program
JP2006309515A (ja) 情報配信方法および情報配信サーバ
JP4875911B2 (ja) コンテンツ特定方法及び装置
JP2002140224A (ja) コンテンツ変更管理方法
JP3666638B2 (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
EP1128290A2 (en) A method and system for summarizing and presenting information from results of a search in very large full-text databases
JP3664906B2 (ja) 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
JP3664923B2 (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11110410A (ja) データ検索装置及び方法、情報処理システム及び方法並びにデータ検索用プログラムを記録した記録媒体
KR20050117760A (ko) 웹 스크래핑 엔진 ini 시스템
JP4009342B2 (ja) 情報提供要求方法,情報提供要求プログラムを記憶した記憶媒体およびサーバコンピュータ
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050217

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050330

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110415

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120415

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120415

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees