JP4312309B2 - 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体 - Google Patents

情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4312309B2
JP4312309B2 JP26095899A JP26095899A JP4312309B2 JP 4312309 B2 JP4312309 B2 JP 4312309B2 JP 26095899 A JP26095899 A JP 26095899A JP 26095899 A JP26095899 A JP 26095899A JP 4312309 B2 JP4312309 B2 JP 4312309B2
Authority
JP
Japan
Prior art keywords
information source
url
information
source
parent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26095899A
Other languages
English (en)
Other versions
JP2001084221A (ja
Inventor
喜史 木戸
充浩 酒田
克良 土居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP26095899A priority Critical patent/JP4312309B2/ja
Publication of JP2001084221A publication Critical patent/JP2001084221A/ja
Application granted granted Critical
Publication of JP4312309B2 publication Critical patent/JP4312309B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、たとえばサーバコンピュータとクライアントコンピュータとがネットワークで接続されたシステムにおいて、サーバコンピュータ上にあるハイパーリンク構造を有するデータファイルをクライアントコンピュータ上において閲覧する際に利用される取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体に関し、特にクライアントの参照統計から情報源を観測する場合に発生する統計誤差を補正するものである。
【0002】
【従来の技術】
昨今、複数のサーバコンピュータおよび複数のクライアントコンピュータがネットワークで接続され、各サーバコンピュータにハイパーテキスト構造のマルチメディアデータが記憶されており、各クライアントコンピュータにおいて、ブラウザと呼ばれるソフトウェアによって、このようなマルチメディアデータを閲覧することが可能なシステムが広く普及している。このようなシステムの例としては、たとえばインターネットにおけるWorld Wide Web(WWW)と呼ばれるシステムなどが挙げられる。
【0003】
マルチメディアデータを含む文書は、たとえばHyper Text Markup Language(HTML)と呼ばれる記述言語によって記述されており、テキスト文書、静止画、動画、音楽データ、およびJava(登録商標)アプレットなどのアプリケーションプログラムなどを含むことが可能になっている。このような文書(以下、HTMLページと称する)およびマルチメディアデータには、それぞれURL(Uniform Resource Locator)と呼ばれる固有のアドレスが割当てられている。ユーザは、ブラウザ上においてURLを指定することによって、所望のHTMLページあるいはマルチメディアデータにアクセスすることができる。また、HTMLページには、他のページやマルチメディアデータへアクセスするためのリンクなども埋込まれており、ユーザは、このリンクをブラウザ上でポイントすることによって、リンク先のページやマルチメディアデータに移動することも可能となっている。
【0004】
クライアントコンピュータにおけるHTML表示ソフトウェアであるブラウザとしては、たとえばNetscape Communications 社のNetscape Communicator (登録商標)や、Microsoft 社のInternet Explorer (登録商標)などの製品が広く普及している。これらのブラウザでは、アクセスしたHTMLページおよびマルチメディアデータのURL、アクセス日時、およびタイトルなどが、履歴データとしてクライアントコンピュータ内のハードディスクに記憶することが可能になっている。そして、ユーザは、過去にアクセスしたHTMLページあるいはマルチメディアデータに再びアクセスしたい時に、この履歴データを参照することによって、容易に所望のHTMLページあるいはマルチメディアデータにアクセスすることが可能となる。
【0005】
そこで、典型的な従来技術である前記Netscape Communicator では、履歴データに基づいて、過去にアクセスしたHTMLページおよびマルチメディアデータのURLを、頻度順、あるいは日時順などに並べ変えて表示することで、ユーザが再アクセスする際の操作性の改善が図られている。同様に、特開平10−143519号公報には、ユーザが過去にアクセスしたURLに対して、頻度や視聴時間を基に順序付けを行い、その結果を表示することで、前記再アクセスする時の操作性の改善が図られている。
【0006】
また、他の従来技術である特開平9−204347号公報および特開平10−21134号公報には、サーバコンピュータとクライアントコンピュータとの間でURLの中継を行うゲートウェイコンピュータにおいて、そのゲートウェイコンピュータに中継キャッシュが内蔵されている場合、過去に中継したURLに対して、その頻度の算出を行ってリストを作成するとともに、頻度順にゲートウェイコンピュータが自発的にキャッシュの更新を行うことで、再アクセス時のユーザの負担が一層軽減されている。
【0007】
したがって、上記各従来技術には、過去にアクセスしたHTMLページおよびマルチメディアデータのURLに関して、その頻度に注目し、アクセスデータを統計処理することによって頻度を算出し、頻度の高いHTMLページおよびマルチメディアデータは、ユーザの要求度が高いと判断している点で共通している。しかしながら、単に前記アクセス頻度だけで、そのHTMLページおよびマルチメディアデータに対するユーザの要求度を判断しているので、以下のような不具合がある。
【0008】
ここで、情報を提供する複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを想定する。なお、ゲートウェイコンピュータとは、異なるネットワーク/システムを相互接続するためのコンピュータを示すものである。
【0009】
そして、たとえば図20に示すように、或るサーバコンピュータ上に、URLが“http://www.news/”で示されるHTMLページが存在し、別のサーバコンピュータ上に、URLが“http://www.hello.nara/”で示されるHTMLページが存在するとする。
【0010】
URLが“http://www.news/”で示されるHTMLページは、或るニュース情報(「日々新聞」)を提供するページであり、「新刊情報(“http://www.news/1.html”)」、「天気予報(“http://www.news/2.html”)」、「A社新製品(“http://www.news/3.html”)」、「B社新製品(“http://www.news/4.html”)」、および「C社新製品(“http://www.news/5.html”)」の5つの詳細なHTMLページへのリンクが接続されている。
【0011】
また、URLが“http://www.hello.nara/”で示されるHTMLページは、奈良県地域情報を提供するページであり、「株式情報(“http://www/a.mov”)」および「道路情報(“http://www/b.mov”)」の2つの動画データ、および「お知らせ(“http://www/index.html ”)」の詳細なHTMLページへのリンクが接続されている。
【0012】
ここで、或るユーザが、クライアントコンピュータにおいて、まず、URLが“http://www.news/”で示されるHTMLページにアクセスし、このページからリンクされているテキストデータの5つのHTMLページの総てを閲覧し、その後、URLが“http://www.hello.nara/”で示されるHTMLページにアクセスし、このページからリンクされている2つの動画データ、およびテキストデータである1つのHTMLページを閲覧したとする。
【0013】
このとき、図21に示すようなアクセスログが、ゲートウェイコンピュータに記録される。
【0014】
なお、図21において、URLが“http://www.news/”で示されるHTMLページが一回しかカウントされていないのは、ブラウザには、通常、キャッシュが一定量蓄積されており、たとえばURLが“http://www.news/”で示されるHTMLページから、リンク先である「新刊情報(“http://www.news/1.html”)」のページへ移動し、閲覧後、“http://www.news/”のページに戻る際には、このキャッシュから“http://www.news/”のページのデータが取出され、ゲートウェイコンピュータにはURLの取得要求が伝達されず、該ゲートウェイコンピュータのアクセスログには、URLが“http://www.news/”で示されるHTMLページが、1回しか現れて来ないためである。
【0015】
図21に示す集計結果によれば、どのURLも1回の出現頻度であるから、前述の従来技術のように、単に出現頻度だけに基づいてユーザの要求度を判断してしまうと、どのURLもユーザの要求度は同等とみなされることになる。しかしながら、実際には、ユーザは、後日、URLが“http://www.news/”で示されるHTMLページや、URLが“http://www.hello.nara/”で示されるHTMLページに再びアクセスしても、新しいリンクが作られていれば、その新しいリンクにアクセスする方が可能性が高いと予想される。
【0016】
すなわち、たとえば「天気予報(“http://www.news/2.html”)」、「株式情報(“http://www/a.mov”)」および「道路情報(“http://www/b.mov”)」などの常時変化している情報は、古くなってしまうと用を成さず、また「新刊情報(“http://www.news/1.html”)」、「A社新製品(“http://www.news/3.html”)」、「B社新製品(“http://www.news/4.html”)」、および「C社新製品(“http://www.news/5.html”)」などの商品情報では、一旦閲覧して購入意思がない場合、再びアクセスされることは殆どない。
【0017】
したがって、前述の従来技術のように、単に出現頻度だけに基づいてユーザの要求度を判断してしまうと、無駄なデータが多く含まれることになり、ユーザにとって有用な情報が示されているとは言えず、実際のユーザの要求度を反映した判定を行っていないことになる。
【0018】
そこで、このような不具合を解消するために、本件出願人は、先に特願平11−28647号を提案した。この従来技術では、中継URLの参照元URLの統計をデータタイプ別に集計することによって、データタイプ毎にユーザにとって頻繁に利用される情報URLをリンクしている情報源URLを発見し、ユーザに提示している。これによって、その発見された情報源URLを定期観測し、新しいURLがリンクされていることを検出してユーザに提示することやユーザがアクセスする前に事前に新規URLをダウンロードしておくことが可能になっている。
【0019】
一方、ハイパーテキストページを自動で観測して変化を検出する技術として、エージェント技術があり、その実現例として、新規リンク検出エージェントソフトがある。公知の例として、“インターネットエージェント”(Fah−ChunCheong著、大野浩之監訳インプレス販売)の第7章の“WebWalker:あなたのWebメンテナンスロボット”に、ハイパーテキストの新規リンクの検出が可能なエージェントソフトウエアの例が掲載されている。またその他、新規リンク検出エージェントソフトウエアとしては、エー・アイ・ソフト株式会社のWebWhatsNewなどの市販のソフトウェアが公知である。
【0020】
これらの新規リンク検出エージェントソフトウエアは、特定URLのハイパーリンクをURL毎に集めたデータベースを有し、次回アクセス時に前回のハイパーリンクと比較を行い、新しく出現したハイパーリンクまたはハイパーリンクのアンカー文字列が変化した場合を検出して、ユーザに新規出現あるいは変化したハイパーリンクを提示するものである。
【0021】
前記特願平11−28647号で発見された情報源URLに対して、上記新規リンク検出エージェントソフトウエアを適用することによって、ユーザにとって重要度の高い新規リンク(変化したリンクを含む)を通知することが可能となる。
【0022】
【発明が解決しようとする課題】
前記特願平11−28647号は、各ページが元々何処にリンクされていたかというリンク関係の統計を観測する。このようなシステム例として、図22に示すものが一般的である。中継処理部1とは、プロキシサーバなどが該当し、このシステムでは該中継処理部1はクライアントコンピュータ内に設けられている。このシステムでは、ユーザがWWWブラウザ3を通してサーバコンピュータ4にアクセスしたログは、前記中継処理部1を通して、GETおよびRefererの部分が図23の形式で参照ログ5として記録される(この図22の例は、URLが“http://www.news/”で示されるHTMLページに含まれるリンクである前記「新刊情報(“http://www.news/1.html”)」を、1999年4月1日10時11分21秒にアクセスした場合のログである。)
ここで、GETとは、参照先のURLアドレスを表し、Refererとは、どのURLアドレスのハイパーリンクをクリックして参照先URLアドレスに移動したのかを明らかにしている(以後、参照元と呼ぶ)。また、参照ログ5における参照元の出現頻度を、参照元出現頻度と呼ぶ。
【0023】
前記参照ログ5から、統計処理部6は、各参照元の出現頻度を求め、ユーザの情報源を明らかにする。この統計処理部6で得られたユーザの情報源は、情報源URLリスト7として出力され、この情報源URLリスト7に記述されたURLアドレスを観測対象として、新規リンク検出エージェント部8がサーバコンピュータ4の新着リンクを発見し、前記HTMLで記述された新規リスト9として出力する。ユーザは、この新規リスト9をWWWブラウザ3を通して閲覧することができる。
【0024】
図24に、前記図20で示すように、URLが“http://www.news/”で示されるHTMLページの5つの詳細なHTMLページを閲覧し、さらにURLが“http://www.hello.nara/”で示されるHTMLページの3つの詳細なHTMLページを閲覧した場合のアクセスログを示す。そして、そのURLアクセスログを統計処理部6で統計処理して得られた情報源URLリスト7は、図25のようになる。
【0025】
前記統計処理部6において、情報源出現頻度が2以上のものはユーザにとって有用な情報源であるとして、新規リンク検出エージェント部8によって翌日も新規リンクがないかどうか自動観測するように設定されていると、前記2つのURLは自動観測され、その結果、翌日の1999年4月2日に、たとえば“http://www.news/”のみに新たなハイパーリンクとして「D社新製品(“http://www.news/6.html”)」と「E社新製品(“http://www.news/7.html”)」が出現したとすると、ユーザに新規リンクリストを提示することができ、そのデータ構造は図26で示すとおりである。
【0026】
この新規リストがWWWブラウザ3を通して実際にユーザに提示されるには、先ず図27で示すように前記HTMLで記述された新規リスト9となり、これを新着HTMLページと呼び、“http://localhost:8080/myweb.html”とする。この新着ページをWWWブラウザ3で閲覧すると、図28のようになる。
【0027】
しかしながら、ユーザがこのページをWWWブラウザ3で見て、前記“http://www.news/6.html”および“http://www.news/7.html”を選択して閲覧すると、前記参照ログ5としては、“http://localhost:8080/myweb.html”が記憶されてしまうので、4月2日の参照統計は、図29で示すようになる。
【0028】
このため、翌4月3日は、新規リンク検出エージェント部8は“http://localhost:8080/myweb.html”を調査して新規リンクを抽出しようとする。これでは、ユーザの情報源が正しく観測されているとは言えず、このような誤差を取除くことが必要となる。
【0029】
このような問題は、“更新情報を用いたWebブラウジング処理装置”(特開平10−222415号公報)等に前出の特願平11−28647号を併用して使用した場合などに、特に顕著になる。すなわち、前記特開平10−222415号は、アクセス日時およびWebページの更新日時の情報から、更新されたのにもかかわらずユーザがまだ見ていないWebページを明らかにし、その情報を整理してHTMLで提供するものである。したがって、前記特願平11−28647号を併用すると、この構成によって提供された更新情報の整理されたHTMLページをユーザがいつも見ていると、その更新状況をチェックした先のURLがユーザにとっての情報源であるにもかかわらず、更新情報を整理したページが情報源になってしまうという問題が発生する。
【0030】
本発明の目的は、WWWなどのハイパーテキストシステムにおいて、ユーザがどのようなページを参照元としてURLページを参照しているのかを集計し、その参照元のリストをユーザに提示するにあたって、誤差無く情報源を特定することができる情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体を提供することである。
【0031】
【課題を解決するための手段】
本発明の情報ネットワークにおける取得情報の情報源観測装置は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測装置において、前記クライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの親子関係を検出して記憶しておく親子関係検出手段と、前記親子関係検出手段のストア内容から、予め定めるデータファイルの情報源のURLの出現頻度を一定期間毎に集計して統計を算出する情報源観測手段と、予め定める種類の情報源を、前記親子関係を修正すべき対象として予め記憶している要修正情報源保持手段と、前記情報源観測手段が集計に使用した情報源のURLの内、前記要修正情報源に含まれる情報源のURLについて、前記親子関係検出手段を検索して真の情報源のURLを求め、前記情報源観測手段の観測結果を補正する情報源補正手段とを含むことを特徴とする。
【0032】
上記の構成によれば、親子関係検出手段は、新規にクライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元のURLとの親子関係(参照元URLが親であり、新規URLが子である)のデータベースを作成する。このデータベースを親子関係リストと呼ぶ。このデータベースを利用し、情報源観測手段が、アクセスがあったデータファイルの参照元のURLの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるURLを把握し、ユーザにとって有用なURLを提示するにあたって、更新情報を整理したHTMLページなどの要修正情報源保持手段が記憶している要修正情報源に対しては、情報源補正手段は、親子関係検出手段を検索して真の情報源のURLを求める。
【0033】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているURLと、そこに現れる関連情報である新規URLとを同時に提示したHTMLファイル(新着HTMLページ)を作成してユーザに提示し、ユーザがその新着HTMLページをアクセスし、新規URLをアクセスした場合でも、その新着HTMLページが要修正情報源であることを要修正情報源保持手段は記憶しており、情報源補正手段は、親子関係リストを検索することで、新着HTMLページではなく、元々情報源となっているURLを真の情報源とすることができる。
【0034】
これによって、前記新着HTMLページのような真の情報源でないURLは集計されず、誤差無く情報源を特定することができる。
【0035】
また、本発明の情報源観測装置では、前記情報源補正手段は、前記情報源の修正頻度を求め、前記情報源観測手段が求めた情報源の出現頻度と該修正頻度とを加算したものを重要度とし、この重要度からユーザの所望とする情報源を決定することを特徴とする。
【0036】
上記の構成によれば、
重要度指数=情報源出現頻度+情報源修正頻度
で表される重要度指数を導入し、その重要度指数を計算することで、各URLページのユーザにとっての重要度を数値的に計測することができ、従来の単に参照頻度を元に情報源の重要度とする方法に比べて、たとえば新着リンクを整理したURLページである前記新着HTMLページをユーザが見た場合でも、その新着リンクの発生した元々のURLページの重要度が上がる仕組みになっており、ユーザが最も依存している情報源を正確に判定することができる。
【0037】
さらにまた、本発明の情報ネットワークにおける取得情報の情報源観測装置は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測装置において、前記クライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの親子関係を検出して記憶しておく親子関係検出手段と、前記親子関係検出手段のストア内容から、予め定めるデータファイルの情報源のURLの出現頻度を一定期間毎に集計して統計を算出する情報源観測手段と、予め定める種類の情報源を、前記親子関係を修正すべき対象として予め記憶している要修正情報源保持手段と、前記情報源観測手段が集計に使用する情報源のURLの内、前記要修正情報源に含まれる情報源のURLについて、前記親子関係検出手段を検索して予め真の情報源のURLを求めて補正しておく情報源補正手段とを含むことを特徴とする。
【0038】
上記の構成によれば、親子関係検出手段は、新規にクライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元のURLとの親子関係のデータベースを作成する。このデータベースを利用し、情報源観測手段が、アクセスがあったデータファイルの参照元のURLの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるURLを把握し、ユーザにとって有用なURLを提示するにあたって、更新情報を整理したHTMLページなどの要修正情報源保持手段が記憶している要修正情報源に対しては、情報源補正手段は、親子関係検出手段を検索して予め真の情報源のURLを求めておく。
【0039】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているURLと、そこに現れる関連情報である新規URLとを同時に提示したHTMLファイルを作成してユーザに提示し、ユーザがその新着HTMLページをアクセスし、新規URLをアクセスした場合でも、その新着HTMLページが要修正情報源であることを要修正情報源保持手段は記憶しており、情報源補正手段は、親子関係リストを検索することで、新着HTMLページではなく、元々情報源となっているURLを真の情報源とすることができる。
【0040】
これによって、前記新着HTMLページのような真の情報源でないURLは集計されず、誤差無く情報源を特定することができる。
【0041】
また、本発明の情報源観測装置では、前記情報源補正手段は、前記要修正情報源に含まれる情報源の参照先に対して、前記親子関係リストにおいて複数の参照元が含まれる場合には、前記情報源補正手段は該当する参照元総てを情報源とすることを特徴とする。
【0042】
上記の構成によれば、前記新着HTMLページなどの要修正情報源に含まれる参照先で、複数の真の情報源からリンクがある場合、そのうちの1つのリンクを参照すれば、その新着リンクの総ての親の重要度指数を上昇させる。
【0043】
したがって、ユーザにとって大切な情報に関連するURLを提供できなかった情報源のランキングが下がり、実際にはアクセスされなくても、前記大切な情報を提供できた情報源のランキングを自動的に上げることができる。
【0044】
さらにまた、本発明の情報源観測装置では、前記情報源補正手段は、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストにおいて親である場合には、その参照先を情報源とすることを特徴とする。
【0045】
上記の構成によれば、ユーザが要修正情報源リストに含まれる前記新着HTMLページにおいて観測対象URLをクリックした場合でも、その行動を情報源発見のための重要度に反映することができ、ユーザの総ての行動を何らかの形で情報源発見のための重要度に反映することができる。
【0046】
また、本発明の情報源観測装置では、前記情報源補正手段は、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストに含まれない場合には、その参照先自身を情報源とすることを特徴とする。
【0047】
上記の構成によれば、対応する情報源URLが親子関係リストに含まれていなくても、前記新着HTMLページのようなユーザが何度も繰返し見ているURLを、ユーザの新しい情報源として処理することが可能となり、ユーザにとっての新たな情報源を発見することが可能になる。
【0048】
さらにまた、本発明の情報源観測方法は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測方法において、前記クライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの親子関係を検出して記憶し、その記憶内容から、予め定めるデータファイルの情報源のURLの出現頻度を一定期間毎に集計して統計を算出し、予め定める種類の情報源を、前記親子関係を修正すべき要修正情報源として予め記憶しておき、前記集計に使用した情報源のURLの内、前記要修正情報源に含まれる情報源のURLについて、前記親子関係を検索して真の情報源のURLを求め、前記統計を補正することを特徴とする。
【0049】
上記の構成によれば、アクセスがあったデータファイルの参照元のURLの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるURLを把握し、ユーザにとって有用なURLを提示するにあたって、更新情報を整理したHTMLページなどの要修正情報源に対しては、親子関係リストを検索して真の情報源のURLを求める。
【0050】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているURLと、そこに現れる関連情報である新規URLとを同時に提示したHTMLファイル(新着HTMLページ)を作成してユーザに提示し、ユーザがその新着HTMLページをアクセスし、新規URLをアクセスした場合でも、その新着HTMLページではなく、元々情報源となっているURLを真の情報源とし、誤差無く情報源を特定することができる。
【0051】
また、本発明の情報源観測方法は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測方法において、予め定める種類の情報源を、親子関係を修正すべき要修正情報源として予め記憶しておき、前記クライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの親子関係を検出して記憶し、検出された情報源のURLの内、前記要修正情報源に含まれる情報源のURLについて、予め前記親子関係を検索して真の情報源のURLを求めて補正し、補正後の記憶内容から、予め定めるデータファイルの情報源のURLの出現頻度を一定期間毎に集計して統計を算出することを特徴とする。
【0052】
上記の構成によれば、アクセスがあったデータファイルの参照元のURLの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるURLを把握し、ユーザにとって有用なURLを提示するにあたって、更新情報を整理したHTMLページなどの要修正情報源に対しては、親子関係リストを検索して予め真の情報源のURLを求める。
【0053】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているURLと、そこに現れる関連情報である新規URLとを同時に提示したHTMLファイルを作成してユーザに提示し、ユーザがその新着HTMLページをアクセスし、新規URLをアクセスした場合でも、その新着HTMLページではなく、元々情報源となっているURLを真の情報源とし、誤差無く情報源を特定することができる。
【0054】
さらにまた、本発明の記録媒体は、上記の処理手順をコンピュータで読取り可能な形態に記憶することを特徴とする。
【0055】
上記の構成によれば、誤差無く情報源を特定し、ユーザにとって有用なURLを正確に提示することができるプログラムを提供することができる。
【0056】
【発明の実施の形態】
本発明の実施の一形態について、図1〜図16に基づいて説明すれば、以下のとおりである。
【0057】
図1は、本発明の実施の一形態に係るコンピュータネットワークシステムの概略構成を示すブロック図である。該コンピュータネットワークシステムは、複数のサーバコンピュータ11にネットワーク12を介して複数のクライアントコンピュータ13が接続されて構成されている。
【0058】
なお、図1において、サーバコンピュータ11およびクライアントコンピュータ13は、図面の簡略化のために1つしか記載していないけれども、インターネットなどのネットワーク12上に存在する無数のコンピュータがこれらに該当することになる。また、図1では、後述する本発明に係る情報源観測装置は前記クライアントコンピュータ13に内蔵されているけれども、たとえばファイアーウォール上に設けられるゲートウェイコンピュータや、インターネット上に設けられるHTTPプロキシサーバコンピュータなどのように、HTTPリクエストと応答との中継を行うものであれば、別体で構成されてもよいことは言うまでもない。さらに、前記情報源観測装置を、クライアントコンピュータ13におけるブラウザ14の一部として、ソフトウェア的に構成することも可能である。
【0059】
サーバコンピュータ11は、HTMLページや各種マルチメディアデータを保持しており、たとえばHTTP(Hyper Text Transfer Protocol)デーモンと呼ばれるサーバソフトウェアによって、これらのデータの管理、および外部コンピュータからのアクセスの管理を行っている。
【0060】
クライアントコンピュータ13は、HTMLページや各種マルチメディアデータを表示可能なブラウザ14と呼ばれるソフトウェアを備えており、ユーザはこのクライアントコンピュータ13上において前記ブラウザ14を操作することによって、所望のHTMLページや各種マルチメディアデータを閲覧することができる。
【0061】
前記図20と同様に、ユーザがWWWブラウザ14を通してサーバコンピュータ11にアクセスしたログは、中継処理部15を通して、GETおよびRefererの部分が前記図21の形式で参照ログ16として記録される。前記参照ログ16から、統計処理部17は、前記特願平11−28647号に従って各参照元の出現頻度を求め、ユーザの情報源を明らかにする。この統計処理部17で得られたユーザの情報源は、情報源URLリスト18として出力され、この情報源URLリスト18に記述されたURLアドレスを観測対象として、新規リンク検出エージェント部19がサーバコンピュータ11の新着リンクを発見し、前記HTMLで記述された新規リスト20として出力する。ユーザは、この新規リスト20をWWWブラウザ14を通して閲覧することができる。
【0062】
注目すべきは、本発明では、情報源観測手段である前記統計処理部17で得られたユーザの情報源は、情報源補正手段である統計補正処理部21で補正された後、前記情報源URLリスト18として出力されることである。この統計補正処理部21に関連して、該クライアントコンピュータ13からアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの親子関係を検出して記憶している親子関係リスト22と、予め定める種類の情報源を、前記親子関係を修正すべき対象として予め記憶している要修正情報源リスト23とが設けられている。
【0063】
図2は、クライアントコンピュータ13の概略構成を示すブロック図である。このクライアントコンピュータ13は、CPU(Central Processing Unit) 31、RAM(Random Access Memory)などで構成されるメモリ32、ハードディスクやフラッシュメモリなどで構成される不揮発性メモリ33、外部ネットワークとのインターフェースとなるネットワークI/O(Input/Output)34、キーボードやマウスなどで構成される入力装置35、および表示装置36を備えており、これらがバス37によって相互に接続されて構成されている。このような構成のクライアントコンピュータ13は、一般的にパーソナルコンピュータと呼ばれるコンピュータによって構成することができる。
【0064】
図3は、前記統計補正処理部21の一構成例を具体的に示すブロック図であり、図4は、その統計補正処理部21の処理動作を説明するためのフローチャートである。処理されるログは、新規リンク検出エージェント部19が巡回して得られた図5で示すような新着HTMLページを例としているが、このように自動的にアクセスされたものでなく、前記特願平11−28647号のように、ユーザが逐次アクセスしたものであってもよい。前記図5のHTMLページを前記WWWブラウザ14を通して表示すると、図6のようになる。
【0065】
ステップS1では、親子関係検索手段41によって親子関係リスト22が前記メモリ32にロードされる。この親子関係リスト22とは、前記図5および図6の新着HTMLページの場合、図7で示すようなものである。ステップS2では、要修正情報源検出手段42によって前記要修正情報源リスト23が前記メモリ32にロードされる。この要修正情報源リストとは、ユーザの情報源を発見するにあたって、情報源となってはならないURLやファイルの名前に関するパターンを明らかにするものであり、予め、ユーザもしくはシステム設計者によって、たとえば図8で示すようなデータ構造で与えられている。
【0066】
ステップS3では、要修正情報源検出手段42によって前記新規リンク検出エージェント部19で作成された第N番目(N=0,1,2,…、初期値は0)の参照ログ16が前記メモリ32にロードされる。参照ログ16は、図9のようなデータ構造で与えられるものである。この例では、ユーザは、まず1999年4月1日7時3分58秒に“http://www.sharp.co.jp/ ”から、そのページに含まれるリンクである“http://www.sharp.co.jp/News.html”を選択して参照している。次に、“http://localhost:8080/myweb.html”から、“http://www.news/Nature2.html”を選んで…というブラウジング履歴を明らかにしている。
【0067】
ステップS4では、参照元変更手段43において、前記ロードされた第N番目の参照ログ16の参照元(参照ログにおけるReferer)が要修正情報源リスト23に含まれているか否かが判断され、含まれている場合にはステップS5に、含まれていない場合はステップS6に進む。
【0068】
図9の参照ログ16の場合、ログの1番目にある“http://www.sharp.co.jp/ News.html ”およびログの8番目にある“http://www.asahi/Weather.html ”への参照以外は、参照元が“http://localhost:8080/myweb.html”または“C:\home\myname\mySecret.html”であり、要修正情報源パターンにマッチするので、以下のようにして、真の情報源が検索されることになる。
【0069】
ステップS5では、N番目の参照元を“?参照先”とする。たとえば、参照先(GET)が“http://aaa.com”で参照元(Referer)が“http://localhost:8080/myweb.html”の場合、参照元は、“?http://aaa.com”となる。ステップS6では、その第N番目の参照元の参照頻度を表すカウント値に1を加算する。
【0070】
ステップS7では、前記第N番目のログが参照ログ16の最後のログであるか否か、すなわち総てのログに関して処理を終了したか否かを判断し、未処理のログが残っている場合には前記ステップS3に戻り、処理を終了している場合にはステップS8に進む。なお、この段階で各URLの出現頻度は、図10で示すようになっている。
【0071】
ステップS8では、“?”で始まるURLに対して、参照元変更手段43が親子関係検索手段41を参照し、“?”の後に続くURL(参照先)に対応する参照元を親子関係リスト22から捜出し、変更する。これによって、前記図10において“?”で始まっている各URLに対応する真の情報源は、図11のようになる。
【0072】
ただし、新着HTMLページの新着リンク観測対象URL(情報源URL)をクリックするなどして参照した場合に、親子関係データに関係なく情報源としてもよい。また、親子関係リスト22に含まれない参照先のURL(子URL)に対しては、その参照先を情報源として扱う。前記図11における参照元の変更前の親子関係を図で表すと、図12のようになり、1つの参照元HTMLページであるmywebに、各参照先HTMLページ“http://www.news/Nature2.html”、“http://www.news/Curry.html”、“http://www.cnn/Topic.html ”、“http://www.cnn/NasaNews.html”および“http://www.asahi/War.html ”がリンクされてしまっている。
【0073】
これに対して、変更後の親子関係は図13のようになり、各参照先がそれぞれの真の情報源にリンクされている。また、注目すべきは、“http://www.cnn/NasaNews.html”の情報源が、実際に参照されたHTMLページである“http://www.cnn/ ”だけでなく、前記親子関係リスト22に含まれているもう1つのHTMLページである“http://www.cosmo/ ”も情報源とされていることである。
【0074】
したがって、このように実際に参照された子となるHTMLページに対して、複数の親となるHTMLページが親子関係リスト22に含まれている場合に、総ての親を情報源とすることによって、ユーザにとって大切な情報に関連するURLを提供できなかった情報源のランキングが下がり、実際にはアクセスされなくても、前記大切な情報を提供可能な情報源のランキングを自動的に上げることができる。
【0075】
また、“http://www.asahi/ ”は、親子関係リスト22では子ではなく親として予め登録されているので、その“http://www.asahi/ ”自体を親の情報源としている。したがって、ユーザが要修正情報源リスト23に含まれる前記新着HTMLページにおいて観測対象URLをクリックした場合でも、その行動を情報源発見のための重要度に反映することができ、ユーザの総ての行動を何らかの形で情報源発見のための重要度に反映することができる。
【0076】
さらにまた、“http://www.zzz/ ”は、参照元が要修正情報源リスト23に含まれ、かつ参照先が親子関係リスト22に親としても子としても登録されていない場合も、その“http://www.zzz/ ”自体を親の情報源としている。したがって、新着HTMLページのようなユーザが何度も繰返し見ているURLを、ユーザの新しい情報源として処理することが可能となり、ユーザにとっての新たな情報源を発見することが可能になる。
【0077】
前記図3および図4に戻って、ステップS9では、重要度指数計算手段44によって重要度指数が計算される。この重要度指数は、
重要度指数=情報源出現頻度+情報源修正頻度
から求められ、情報源修正頻度とは、前記図11で示す表において、右側の情報源の欄における各情報源の出現頻度を表す。したがって、前記図11の例では、各情報源の重要度指数は図14で示すようになる。この重要度指数の大きいもの程、ユーザに提供する情報源として重要であることを意味する。
【0078】
ステップS10では、前記ステップS9で計算された結果をソート手段45が前記重要度指数の順にソートし、出力整形手段46がファイル47として保存する。そのファイル47のデータ構造は、図15で示すようになる。
【0079】
以上のように構成することによって、前記新着HTMLページのような真の情報源でないURLから新規URLをアクセスした場合でも、その新着HTMLページは要修正情報源リスト23に含まれており、該新着HTMLページに対して親子関係リスト22を検索することで、元々情報源となっている真の情報源のURLを誤差無く特定することができる。これによって、ユーザにとって真に重要度の高い情報源を常に正確に追跡し、提供することができる。
【0080】
次に、前記図7で示すような親子関係リスト23の作成を含む前記新規リンク検出エージェント部19の動作を図16のフローチャートを参照して説明する。先ず、ステップS21で情報源URLリスト51がロードされる。前記情報源URLリスト51は、新規リンク検出の起点となるURLの集合であり、新規リンク検出エージェントが呼出されるときには必ず作成されており、一方、前記新規リンク検出エージェントが実行されるか否かに係わらず、作成することができる。
【0081】
ステップS22〜S26では、前記の情報源URLリスト51の総てに対して、情報源URLページのファイル変化がチェックされる。先ず、ステップS22では、I番目のURLページのファイルが前記サーバコンピュータ11から取得され、ステップS23で、その取得したファイルのサイズが変化しているか否かがチェックされる。前記変数Iの初期値は0である。
【0082】
ステップS24では、前記情報源URLリスト51の内、ステップS23で検出されたファイルサイズが変化しているものに対して、タグ情報が変化しているか否かがチェックされ、変化しているものが差分新規情報データベース53とされる。前記タグ情報の変化のチェックには、URLデータベース52が利用される。このURLデータベース52には、過去に新規リンク検出エージェントが新規リンク検出を行った際に作った情報源URLのHTTPヘッダ情報(最終更新時刻、コンテンツのサイズ等が記されている)およびアンカー情報が含まれている。このURLデータベース52は、前記ステップS24で新規リンク検出エージェントが新規リンク検出を行うたびに、ステップS25で更新される。前記情報源URLページ51のアンカーの内、このURLデータベース52のアンカーに含まれていないものが新着リンクということになる。
【0083】
ステップS26では、変数Iが更新されて、その更新結果が総てのURLリスト51に対応した値となるまで前記ステップS22に復帰し、情報源URLリスト51の総てがチェックされるとステップS27に移る。
【0084】
ステップS27では、前記新着リンクをHTML化して前記図6で示す新着HTMLページ54として表示できるよう整形し、その後、ステップS28で前記親子関係リスト22が生成される。
【0085】
本発明の実施の他の形態について、図17〜図19に基づいて説明すれば、以下のとおりである。
【0086】
図17は、本発明の実施の他の形態における前記統計補正処理部21での処理動作を説明するためのフローチャートである。この処理動作は、前述の図4で示す処理動作に類似し、同様の動作には同じステップ番号を付して、その説明を省略する。注目すべきは、この処理動作では、ステップS4において、ロードされた第N番目の参照ログ16の参照元が要修正情報源リスト23に含まれている場合にはステップS31に移り、その第N番目の参照元に対して、参照元変更手段43が親子関係検索手段41を参照し、対応する真の情報源を親子関係リスト22から捜出し、変更する。前記図9で示す参照ログ16の場合、前記図10では“?”で始まっていた各URLに対応する真の情報源は、図18のようになる。その後、前記ステップS6では、その第N番目の真の参照元の参照頻度がカウントされる。
【0087】
したがって、前記重要度の概念を導入することなく、ステップS7で総てのログに関して処理を終了すると、直接ステップS10に移り、前記ステップS6で計算された結果をソート手段45が前記カウント値の順にソートし、出力整形手段46がファイル47として保存する。そのファイル47のデータ構造は、前記図15と全く同様であり、前記重要度指数の欄が出現頻度のカウント値に変わっるだけである。
【0088】
このように、前記図4で示すアルゴリズムおよび図17で示すアルゴリズムは、共に同じ答えを得ることができる。しかしながら、計算時間の面でそれぞれ特徴が異なる。具体的には、ステップS4で参照ログのうちM個が要修正情報源に含まれていたとすると、図17で示すアルゴリズムでは、ステップS5で、親子関係リスト22から捜出し、真の情報源に置換える計算回数(親子関係リストから該当する真の情報源を検索する計算時間コスト)は、M回必要となる。他方、前記図4で示すアルゴリズムでは、ステップS8での前記計算回数をL回とすると、M≧Lが成立する。
【0089】
これは、たとえば図19で示す参照ログのように、補正すべきログが重複している場合を考えれば明らかである。図19では、“http://XXX.com/ ”のログが2回出現しており、図4で示すアルゴリズムでは、出現するたびに真の情報源に置換えずに、ログをすべて読み終わった後、“http://XXX.com/ ”に対する真の情報源(親)を検索するので、検索は1回で済む。これに対して、図17で示すアルゴリズムでは、参照ログの中で参照元が要修正情報源に含まれる回数だけ親子関係リスト22を検索する必要がある。
【0090】
したがって、図4で示すアルゴリズムにおいて、ステップS6での重要度指数の計算時間コストも考慮して、ログの重複が、大きい場合には前記図4で示すアルゴリズムを使用し、小さい場合にはこの図17で示すアルゴリズムを使用すればよく、ユーザの使用形態を分析し、これらのアルゴリズムを使い分けすればよい。
【0091】
【発明の効果】
本発明の情報ネットワークにおける取得情報の情報源観測装置は、以上のように、アクセスがあったデータファイルの参照元のURLの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるURLを把握し、ユーザにとって有用なURLを提示するにあたって、アクセスがあったデータファイルのURLとその参照元である情報源のURLとの親子関係を検出して記憶しておき、更新情報を整理したHTMLページなどの要修正情報源に対しては、親子関係リストを検索して真の情報源のURLを求める。
【0092】
それゆえ、前記更新情報を整理したHTMLページなどではなく、元々情報源となっているURLを真の情報源とすることができる。これによって、新着HTMLページのような真の情報源でないURLは集計されず、誤差無く情報源を特定することができる。
【0093】
また、本発明の情報源観測装置は、以上のように、前記情報源の修正頻度を求め、前記情報源の出現頻度と該修正頻度とを加算したものを重要度とし、この重要度からユーザの所望とする情報源を決定する。
【0094】
それゆえ、各URLページのユーザにとっての重要度を数値的に計測することができ、従来の単に参照頻度を元に情報源の重要度とする方法に比べて、たとえば新着リンクを整理したURLページである前記新着HTMLページをユーザが見た場合でも、その新着リンクの発生した元々のURLページの重要度が上がる仕組みになっており、ユーザが最も依存している情報源を正確に判定することができる。
【0095】
また、本発明の情報源観測装置は、以上のように、前記要修正情報源に含まれる情報源の参照先に対して、前記親子関係リストにおいて複数の参照元とリンクしている場合には、そのうちの1つのリンクを参照すれぱ、該当する参照元総てを情報源とする。
【0096】
それゆえ、ユーザにとって大切な情報に関連するURLを提供できなかった情報源のランキングが下がり、実際にはアクセスされなくても、前記大切な情報を提供できた情報源のランキングを自動的に上げることができる。
【0097】
さらにまた、本発明の情報源観測装置は、以上のように、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストにおいて親である場合には、その参照先を情報源とする。
【0098】
それゆえ、ユーザが要修正情報源リストに含まれる前記新着HTMLページにおいて観測対象URLをクリックした場合でも、その行動を情報源発見のための重要度に反映することができ、ユーザの総ての行動を何らかの形で情報源発見のための重要度に反映することができる。
【0099】
また、本発明の情報源観測装置は、以上のように、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストに含まれない場合には、その参照先自身を情報源とする。
【0100】
それゆえ、対応する情報源URLが親子関係リストに含まれていなくても、前記新着HTMLページのようなユーザが何度も繰返し見ているURLを、ユーザの新しい情報源として処理することが可能となり、ユーザにとっての新たな情報源を発見することが可能になる。
【0101】
さらにまた、本発明の情報源観測方法は、以上のように、アクセスがあったデータファイルの参照元のURLの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるURLを把握し、ユーザにとって有用なURLを提示するにあたって、更新情報を整理したHTMLページなどの要修正情報源に対しては、親子関係リストを検索して真の情報源のURLを求める。
【0102】
それゆえ、前記更新情報を整理したHTMLページなどではなく、元々情報源となっているURLを真の情報源とすることができる。これによって、新着HTMLページのような真の情報源でないURLは集計されず、誤差無く情報源を特定することができる。
【0103】
さらにまた、本発明の記録媒体は、以上のように、上記の処理手順をコンピュータで読取り可能な形態に記憶する。
【0104】
それゆえ、誤差無く情報源を特定し、ユーザにとって有用なURLを正確に提示することができるプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係るコンピュータネットワークシステムの概略構成を示すブロック図である。
【図2】前記コンピュータネットワークシステムにおける本発明の情報源観測装置が内蔵されたクライアントコンピュータの概略構成を示すブロック図である。
【図3】前記クライアントコンピュータにおける本発明の統計補正処理部の一構成例を具体的に示すブロック図である。
【図4】前記統計補正処理部の本発明の実施の一形態の処理動作を説明するためのフローチャートである。
【図5】情報源観測処理されるログの一例である新着HTMLページの図である。
【図6】前記図5のHTMLページのWWWブラウザを通した表示例を示す図である。
【図7】前記図5および図6で示す新着HTMLページの場合の親子関係リストを示す図である。
【図8】要修正情報源リストのデータ構造を示す図である。
【図9】一例の参照ログのデータ構造を示す図である。
【図10】前記図9で示す参照ログでの各URLの出現頻度を示す図である。
【図11】前記図4で示す処理動作による前記図9で示す参照ログでの真の情報源の検索結果を示す図である。
【図12】前記真の情報源への変更前の親子関係を示す図である。
【図13】前記真の情報源への変更後の親子関係を示す図である。
【図14】前記図11で示す検索結果から情報源の真の重要度を求めた結果を示す図である。
【図15】前記図14で求めた重要度の保存ファイル構造を示す図である。
【図16】前記親子関係リストの作成を含む前記新規リンク検出エージェント部の動作を説明するためのフローチャートである。
【図17】本発明の実施の他の形態における前記統計補正処理部での処理動作を説明するためのフローチャートである。
【図18】前記図17で示す処理動作による前記図9で示す参照ログでの真の情報源の検索結果を示す図である。
【図19】参照ログの他の例を示す図である。
【図20】WWW上におけるHTMLページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図21】前記図20で示すようなHTMLページおよびデータファイルへのアクセスに対して、ゲートウェイコンピュータに記録されるログを示す図である。
【図22】従来技術のコンピュータネットワークシステムの概略構成を示すブロック図である。
【図23】アクセスログの一例を示す図である。
【図24】前記図20で示すようなHTMLページおよびデータファイルへのアクセスログを示す図である。
【図25】前記図24で示すアクセスログを統計処理して得られた情報源URLリストを示す図である。
【図26】自動観測によってユーザに提供される新規リンクリストのデータ構造を示す図である。
【図27】前記図26で示す新規リンクリストのHTMLページの図である。
【図28】前記図27のHTMLページのWWWブラウザを通した表示例を示す図である。
【図29】前記図27および図28で示すHTMLページへのアクセスログを統計処理して得られた情報源URLリストを示す図である。
【符号の説明】
11 サーバコンピュータ
12 ネットワーク
13 クライアントコンピュータ(情報源観測装置)
14 WWWブラウザ
15 中継処理部
16 参照ログ
17 統計処理部
18 情報源URLリスト
19 新規リンク検出エージェント部
20 新規リスト
21 統計補正処理部
22 親子関係リスト(親子関係検出手段)
23 要修正情報源リスト(要修正情報源保持手段)
31 CPU
32 メモリ
33 不揮発性メモリ
34 ネットワークI/O
35 入力装置
36 表示装置
37 バス
41 親子関係検索手段
42 要修正情報源検出手段
43 参照元変更手段
44 重要度指数計算手段
45 ソート手段
46 出力整形手段
47 ファイル

Claims (6)

  1. ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測装置において、
    前記クライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの、参照元を親とし、参照先を子とする親子関係を検出して記憶しておく親子関係検出手段と、
    前記親子関係検出手段のストア内容から、前記アクセスがあったデータファイルの参照元である情報源のURLの出現頻度を一定期間毎に集計して統計を算出する情報源観測手段と、
    前記親子関係を修正すべき対象である要修正情報源のURLを含む要修正情報源リストを予め記憶している要修正情報源保持手段と、
    前記情報源観測手段が集計に使用した情報源のURLの内のある情報源のURLが、前記要修正情報源リストに含まれる場合、前記親子関係検出手段に、前記ある情報源のURLの参照先であるデータファイルのURLのとして記憶されている、前記ある情報源のURL以外の情報源のURLの前記出現頻度を、前記ある情報源のURLの出現頻度に基づいて補正する情報源補正手段と、を含むことを特徴とする情報ネットワークにおける取得情報の情報源観測装置。
  2. 前記情報源補正手段は、前記親子関係検出手段に、前記ある情報源のURLの参照先であるデータファイルのURLの複数の親が記憶されている場合には、前記情報源補正手段は前記複数の親の総ての前記出現頻度を補正することを特徴とする請求項1に記載の情報源観測装置。
  3. 前記情報源補正手段は、前記ある情報源のURLの参照先であるデータファイルのURLが、前記親子関係検出手段にとして記憶されている場合には、当該データファイルのURLの前記出現頻度を補正することを特徴とする請求項1に記載の情報源観測装置。
  4. 前記情報源補正手段は、前記ある情報源のURLの参照先であるデータファイルのURLが、前記親子関係検出手段に記憶されていない場合には、当該データファイルのURLの前記出現頻度を補正することを特徴とする請求項1に記載の情報源観測装置。
  5. ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測方法において、前記クライアントコンピュータからアクセスがあったデータファイルのURLと、その参照元である情報源のURLとから、それらの、参照元を親とし、参照先を子とする親子関係を検出して記憶し、その記憶内容から、前記アクセスがあったデータファイルの参照元である情報源のURLの出現頻度を一定期間毎に集計して統計を算出し、前記親子関係を修正すべき対象である要修正情報源のURLを含む要修正情報源リストを予め記憶しておき、前記集計に使用した情報源のURLの内のある情報源のURLが、前記要修正情報源リストに含まれる場合、前記記憶内容において、前記ある情報源のURLの参照先であるデータファイルのURLの親として記憶されている、前記ある情報源のURL以外の情報源のURLの前記出現頻度を、前記ある情報源のURLの出現頻度に基づいて補正することを特徴とする情報ネットワークにおける取得情報の情報源観測方法。
  6. コンピュータに請求項5に記載の処理手順を実行させるためのプログラムを記録したコンピュータ読取り可能記録媒体。
JP26095899A 1999-09-14 1999-09-14 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体 Expired - Fee Related JP4312309B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26095899A JP4312309B2 (ja) 1999-09-14 1999-09-14 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26095899A JP4312309B2 (ja) 1999-09-14 1999-09-14 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001084221A JP2001084221A (ja) 2001-03-30
JP4312309B2 true JP4312309B2 (ja) 2009-08-12

Family

ID=17355139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26095899A Expired - Fee Related JP4312309B2 (ja) 1999-09-14 1999-09-14 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4312309B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006134209A (ja) * 2004-11-09 2006-05-25 Aiphone Co Ltd ナースコールシステム

Also Published As

Publication number Publication date
JP2001084221A (ja) 2001-03-30

Similar Documents

Publication Publication Date Title
US5960429A (en) Multiple reference hotlist for identifying frequently retrieved web pages
CA2538597C (en) Methods and systems for improving a search ranking using population information
US7996397B2 (en) Using network traffic logs for search enhancement
US8560964B2 (en) Method and system for predictive browsing
US9443022B2 (en) Method, system, and graphical user interface for providing personalized recommendations of popular search queries
JP4377473B2 (ja) リンク付けされた文書の集合体における文書アクセスの予測システム
US8572100B2 (en) Method and system for recording search trails across one or more search engines in a communications network
US7979427B2 (en) Method and system for updating a search engine
US7146415B1 (en) Information source monitor device for network information, monitoring and display method for the same, storage medium storing the method as a program, and a computer for executing the program
US8078602B2 (en) Search engine for a computer network
US20040215607A1 (en) Method and system fo blending search engine results from disparate sources into one search result
US20090112857A1 (en) Methods and Systems for Improving a Search Ranking Using Related Queries
US20060064411A1 (en) Search engine using user intent
CN101373485A (zh) 提供网页访问入口的方法及装置
US20100257197A1 (en) Information retrieval apparatus, information retrieval method and information retrieval processing program
JP2006099341A (ja) 更新履歴生成装置及びプログラム
US20110022563A1 (en) Document display system, related document display method, and program
JP3664906B2 (ja) 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体
JP3666638B2 (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4312309B2 (ja) 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体
JP3664923B2 (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11167512A (ja) データ中継装置、データ中継方法および記録媒体
JP2002149699A (ja) データ検索装置
AU2004313991B2 (en) Method and system for recording search trails across one or more search engines in a communications network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060914

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090513

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees