JP4312309B2

JP4312309B2 - 情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体

Info

Publication number: JP4312309B2
Application number: JP26095899A
Authority: JP
Inventors: 喜史木戸; 充浩酒田; 克良土居
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-09-14
Filing date: 1999-09-14
Publication date: 2009-08-12
Anticipated expiration: 2019-09-14
Also published as: JP2001084221A

Description

【０００１】
【発明の属する技術分野】
本発明は、たとえばサーバコンピュータとクライアントコンピュータとがネットワークで接続されたシステムにおいて、サーバコンピュータ上にあるハイパーリンク構造を有するデータファイルをクライアントコンピュータ上において閲覧する際に利用される取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体に関し、特にクライアントの参照統計から情報源を観測する場合に発生する統計誤差を補正するものである。
【０００２】
【従来の技術】
昨今、複数のサーバコンピュータおよび複数のクライアントコンピュータがネットワークで接続され、各サーバコンピュータにハイパーテキスト構造のマルチメディアデータが記憶されており、各クライアントコンピュータにおいて、ブラウザと呼ばれるソフトウェアによって、このようなマルチメディアデータを閲覧することが可能なシステムが広く普及している。このようなシステムの例としては、たとえばインターネットにおけるWorld Wide Web（ＷＷＷ）と呼ばれるシステムなどが挙げられる。
【０００３】
マルチメディアデータを含む文書は、たとえばHyper Text Markup Language（ＨＴＭＬ）と呼ばれる記述言語によって記述されており、テキスト文書、静止画、動画、音楽データ、およびJava（登録商標）アプレットなどのアプリケーションプログラムなどを含むことが可能になっている。このような文書（以下、ＨＴＭＬページと称する）およびマルチメディアデータには、それぞれＵＲＬ(Uniform Resource Locator)と呼ばれる固有のアドレスが割当てられている。ユーザは、ブラウザ上においてＵＲＬを指定することによって、所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることができる。また、ＨＴＭＬページには、他のページやマルチメディアデータへアクセスするためのリンクなども埋込まれており、ユーザは、このリンクをブラウザ上でポイントすることによって、リンク先のページやマルチメディアデータに移動することも可能となっている。
【０００４】
クライアントコンピュータにおけるＨＴＭＬ表示ソフトウェアであるブラウザとしては、たとえばNetscape Communications 社のNetscape Communicator （登録商標）や、Microsoft 社のInternet Explorer （登録商標）などの製品が広く普及している。これらのブラウザでは、アクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬ、アクセス日時、およびタイトルなどが、履歴データとしてクライアントコンピュータ内のハードディスクに記憶することが可能になっている。そして、ユーザは、過去にアクセスしたＨＴＭＬページあるいはマルチメディアデータに再びアクセスしたい時に、この履歴データを参照することによって、容易に所望のＨＴＭＬページあるいはマルチメディアデータにアクセスすることが可能となる。
【０００５】
そこで、典型的な従来技術である前記Netscape Communicator では、履歴データに基づいて、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬを、頻度順、あるいは日時順などに並べ変えて表示することで、ユーザが再アクセスする際の操作性の改善が図られている。同様に、特開平１０−１４３５１９号公報には、ユーザが過去にアクセスしたＵＲＬに対して、頻度や視聴時間を基に順序付けを行い、その結果を表示することで、前記再アクセスする時の操作性の改善が図られている。
【０００６】
また、他の従来技術である特開平９−２０４３４７号公報および特開平１０−２１１３４号公報には、サーバコンピュータとクライアントコンピュータとの間でＵＲＬの中継を行うゲートウェイコンピュータにおいて、そのゲートウェイコンピュータに中継キャッシュが内蔵されている場合、過去に中継したＵＲＬに対して、その頻度の算出を行ってリストを作成するとともに、頻度順にゲートウェイコンピュータが自発的にキャッシュの更新を行うことで、再アクセス時のユーザの負担が一層軽減されている。
【０００７】
したがって、上記各従来技術には、過去にアクセスしたＨＴＭＬページおよびマルチメディアデータのＵＲＬに関して、その頻度に注目し、アクセスデータを統計処理することによって頻度を算出し、頻度の高いＨＴＭＬページおよびマルチメディアデータは、ユーザの要求度が高いと判断している点で共通している。しかしながら、単に前記アクセス頻度だけで、そのＨＴＭＬページおよびマルチメディアデータに対するユーザの要求度を判断しているので、以下のような不具合がある。
【０００８】
ここで、情報を提供する複数のサーバコンピュータと、ゲートウェイコンピュータと、クライアントコンピュータとからなるシステムを想定する。なお、ゲートウェイコンピュータとは、異なるネットワーク／システムを相互接続するためのコンピュータを示すものである。
【０００９】
そして、たとえば図２０に示すように、或るサーバコンピュータ上に、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが存在し、別のサーバコンピュータ上に、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページが存在するとする。
【００１０】
ＵＲＬが“http://www.news/”で示されるＨＴＭＬページは、或るニュース情報（「日々新聞」）を提供するページであり、「新刊情報（“http://www.news/1.html”）」、「天気予報（“http://www.news/2.html”）」、「Ａ社新製品（“http://www.news/3.html”）」、「Ｂ社新製品（“http://www.news/4.html”）」、および「Ｃ社新製品（“http://www.news/5.html”）」の５つの詳細なＨＴＭＬページへのリンクが接続されている。
【００１１】
また、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページは、奈良県地域情報を提供するページであり、「株式情報（“http://www/a.mov”）」および「道路情報（“http://www/b.mov”）」の２つの動画データ、および「お知らせ（“http://www/index.html ”）」の詳細なＨＴＭＬページへのリンクが接続されている。
【００１２】
ここで、或るユーザが、クライアントコンピュータにおいて、まず、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページにアクセスし、このページからリンクされているテキストデータの５つのＨＴＭＬページの総てを閲覧し、その後、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページにアクセスし、このページからリンクされている２つの動画データ、およびテキストデータである１つのＨＴＭＬページを閲覧したとする。
【００１３】
このとき、図２１に示すようなアクセスログが、ゲートウェイコンピュータに記録される。
【００１４】
なお、図２１において、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが一回しかカウントされていないのは、ブラウザには、通常、キャッシュが一定量蓄積されており、たとえばＵＲＬが“http://www.news/”で示されるＨＴＭＬページから、リンク先である「新刊情報（“http://www.news/1.html”）」のページへ移動し、閲覧後、“http://www.news/”のページに戻る際には、このキャッシュから“http://www.news/”のページのデータが取出され、ゲートウェイコンピュータにはＵＲＬの取得要求が伝達されず、該ゲートウェイコンピュータのアクセスログには、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページが、１回しか現れて来ないためである。
【００１５】
図２１に示す集計結果によれば、どのＵＲＬも１回の出現頻度であるから、前述の従来技術のように、単に出現頻度だけに基づいてユーザの要求度を判断してしまうと、どのＵＲＬもユーザの要求度は同等とみなされることになる。しかしながら、実際には、ユーザは、後日、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページや、ＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページに再びアクセスしても、新しいリンクが作られていれば、その新しいリンクにアクセスする方が可能性が高いと予想される。
【００１６】
すなわち、たとえば「天気予報（“http://www.news/2.html”）」、「株式情報（“http://www/a.mov”）」および「道路情報（“http://www/b.mov”）」などの常時変化している情報は、古くなってしまうと用を成さず、また「新刊情報（“http://www.news/1.html”）」、「Ａ社新製品（“http://www.news/3.html”）」、「Ｂ社新製品（“http://www.news/4.html”）」、および「Ｃ社新製品（“http://www.news/5.html”）」などの商品情報では、一旦閲覧して購入意思がない場合、再びアクセスされることは殆どない。
【００１７】
したがって、前述の従来技術のように、単に出現頻度だけに基づいてユーザの要求度を判断してしまうと、無駄なデータが多く含まれることになり、ユーザにとって有用な情報が示されているとは言えず、実際のユーザの要求度を反映した判定を行っていないことになる。
【００１８】
そこで、このような不具合を解消するために、本件出願人は、先に特願平１１−２８６４７号を提案した。この従来技術では、中継ＵＲＬの参照元ＵＲＬの統計をデータタイプ別に集計することによって、データタイプ毎にユーザにとって頻繁に利用される情報ＵＲＬをリンクしている情報源ＵＲＬを発見し、ユーザに提示している。これによって、その発見された情報源ＵＲＬを定期観測し、新しいＵＲＬがリンクされていることを検出してユーザに提示することやユーザがアクセスする前に事前に新規ＵＲＬをダウンロードしておくことが可能になっている。
【００１９】
一方、ハイパーテキストページを自動で観測して変化を検出する技術として、エージェント技術があり、その実現例として、新規リンク検出エージェントソフトがある。公知の例として、“インターネットエージェント”（Ｆａｈ−ＣｈｕｎＣｈｅｏｎｇ著、大野浩之監訳インプレス販売）の第７章の“ＷｅｂＷａｌｋｅｒ：あなたのＷｅｂメンテナンスロボット”に、ハイパーテキストの新規リンクの検出が可能なエージェントソフトウエアの例が掲載されている。またその他、新規リンク検出エージェントソフトウエアとしては、エー・アイ・ソフト株式会社のＷｅｂＷｈａｔｓＮｅｗなどの市販のソフトウェアが公知である。
【００２０】
これらの新規リンク検出エージェントソフトウエアは、特定ＵＲＬのハイパーリンクをＵＲＬ毎に集めたデータベースを有し、次回アクセス時に前回のハイパーリンクと比較を行い、新しく出現したハイパーリンクまたはハイパーリンクのアンカー文字列が変化した場合を検出して、ユーザに新規出現あるいは変化したハイパーリンクを提示するものである。
【００２１】
前記特願平１１−２８６４７号で発見された情報源ＵＲＬに対して、上記新規リンク検出エージェントソフトウエアを適用することによって、ユーザにとって重要度の高い新規リンク（変化したリンクを含む）を通知することが可能となる。
【００２２】
【発明が解決しようとする課題】
前記特願平１１−２８６４７号は、各ページが元々何処にリンクされていたかというリンク関係の統計を観測する。このようなシステム例として、図２２に示すものが一般的である。中継処理部１とは、プロキシサーバなどが該当し、このシステムでは該中継処理部１はクライアントコンピュータ内に設けられている。このシステムでは、ユーザがＷＷＷブラウザ３を通してサーバコンピュータ４にアクセスしたログは、前記中継処理部１を通して、ＧＥＴおよびＲｅｆｅｒｅｒの部分が図２３の形式で参照ログ５として記録される（この図２２の例は、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページに含まれるリンクである前記「新刊情報（“http://www.news/1.html”）」を、１９９９年４月１日１０時１１分２１秒にアクセスした場合のログである。）
ここで、ＧＥＴとは、参照先のＵＲＬアドレスを表し、Ｒｅｆｅｒｅｒとは、どのＵＲＬアドレスのハイパーリンクをクリックして参照先ＵＲＬアドレスに移動したのかを明らかにしている（以後、参照元と呼ぶ）。また、参照ログ５における参照元の出現頻度を、参照元出現頻度と呼ぶ。
【００２３】
前記参照ログ５から、統計処理部６は、各参照元の出現頻度を求め、ユーザの情報源を明らかにする。この統計処理部６で得られたユーザの情報源は、情報源ＵＲＬリスト７として出力され、この情報源ＵＲＬリスト７に記述されたＵＲＬアドレスを観測対象として、新規リンク検出エージェント部８がサーバコンピュータ４の新着リンクを発見し、前記ＨＴＭＬで記述された新規リスト９として出力する。ユーザは、この新規リスト９をＷＷＷブラウザ３を通して閲覧することができる。
【００２４】
図２４に、前記図２０で示すように、ＵＲＬが“http://www.news/”で示されるＨＴＭＬページの５つの詳細なＨＴＭＬページを閲覧し、さらにＵＲＬが“http://www.hello.nara/”で示されるＨＴＭＬページの３つの詳細なＨＴＭＬページを閲覧した場合のアクセスログを示す。そして、そのＵＲＬアクセスログを統計処理部６で統計処理して得られた情報源ＵＲＬリスト７は、図２５のようになる。
【００２５】
前記統計処理部６において、情報源出現頻度が２以上のものはユーザにとって有用な情報源であるとして、新規リンク検出エージェント部８によって翌日も新規リンクがないかどうか自動観測するように設定されていると、前記２つのＵＲＬは自動観測され、その結果、翌日の１９９９年４月２日に、たとえば“http://www.news/”のみに新たなハイパーリンクとして「Ｄ社新製品（“http://www.news/6.html”）」と「Ｅ社新製品（“http://www.news/7.html”）」が出現したとすると、ユーザに新規リンクリストを提示することができ、そのデータ構造は図２６で示すとおりである。
【００２６】
この新規リストがＷＷＷブラウザ３を通して実際にユーザに提示されるには、先ず図２７で示すように前記ＨＴＭＬで記述された新規リスト９となり、これを新着ＨＴＭＬページと呼び、“http://localhost:8080/myweb.html”とする。この新着ページをＷＷＷブラウザ３で閲覧すると、図２８のようになる。
【００２７】
しかしながら、ユーザがこのページをＷＷＷブラウザ３で見て、前記“http://www.news/6.html”および“http://www.news/7.html”を選択して閲覧すると、前記参照ログ５としては、“http://localhost:8080/myweb.html”が記憶されてしまうので、４月２日の参照統計は、図２９で示すようになる。
【００２８】
このため、翌４月３日は、新規リンク検出エージェント部８は“http://localhost:8080/myweb.html”を調査して新規リンクを抽出しようとする。これでは、ユーザの情報源が正しく観測されているとは言えず、このような誤差を取除くことが必要となる。
【００２９】
このような問題は、“更新情報を用いたＷｅｂブラウジング処理装置”（特開平１０−２２２４１５号公報）等に前出の特願平１１−２８６４７号を併用して使用した場合などに、特に顕著になる。すなわち、前記特開平１０−２２２４１５号は、アクセス日時およびＷｅｂページの更新日時の情報から、更新されたのにもかかわらずユーザがまだ見ていないＷｅｂページを明らかにし、その情報を整理してＨＴＭＬで提供するものである。したがって、前記特願平１１−２８６４７号を併用すると、この構成によって提供された更新情報の整理されたＨＴＭＬページをユーザがいつも見ていると、その更新状況をチェックした先のＵＲＬがユーザにとっての情報源であるにもかかわらず、更新情報を整理したページが情報源になってしまうという問題が発生する。
【００３０】
本発明の目的は、ＷＷＷなどのハイパーテキストシステムにおいて、ユーザがどのようなページを参照元としてＵＲＬページを参照しているのかを集計し、その参照元のリストをユーザに提示するにあたって、誤差無く情報源を特定することができる情報ネットワークにおける取得情報の情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体を提供することである。
【００３１】
【課題を解決するための手段】
本発明の情報ネットワークにおける取得情報の情報源観測装置は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測装置において、前記クライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの親子関係を検出して記憶しておく親子関係検出手段と、前記親子関係検出手段のストア内容から、予め定めるデータファイルの情報源のＵＲＬの出現頻度を一定期間毎に集計して統計を算出する情報源観測手段と、予め定める種類の情報源を、前記親子関係を修正すべき対象として予め記憶している要修正情報源保持手段と、前記情報源観測手段が集計に使用した情報源のＵＲＬの内、前記要修正情報源に含まれる情報源のＵＲＬについて、前記親子関係検出手段を検索して真の情報源のＵＲＬを求め、前記情報源観測手段の観測結果を補正する情報源補正手段とを含むことを特徴とする。
【００３２】
上記の構成によれば、親子関係検出手段は、新規にクライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元のＵＲＬとの親子関係（参照元ＵＲＬが親であり、新規ＵＲＬが子である）のデータベースを作成する。このデータベースを親子関係リストと呼ぶ。このデータベースを利用し、情報源観測手段が、アクセスがあったデータファイルの参照元のＵＲＬの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるＵＲＬを把握し、ユーザにとって有用なＵＲＬを提示するにあたって、更新情報を整理したＨＴＭＬページなどの要修正情報源保持手段が記憶している要修正情報源に対しては、情報源補正手段は、親子関係検出手段を検索して真の情報源のＵＲＬを求める。
【００３３】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているＵＲＬと、そこに現れる関連情報である新規ＵＲＬとを同時に提示したＨＴＭＬファイル（新着ＨＴＭＬページ）を作成してユーザに提示し、ユーザがその新着ＨＴＭＬページをアクセスし、新規ＵＲＬをアクセスした場合でも、その新着ＨＴＭＬページが要修正情報源であることを要修正情報源保持手段は記憶しており、情報源補正手段は、親子関係リストを検索することで、新着ＨＴＭＬページではなく、元々情報源となっているＵＲＬを真の情報源とすることができる。
【００３４】
これによって、前記新着ＨＴＭＬページのような真の情報源でないＵＲＬは集計されず、誤差無く情報源を特定することができる。
【００３５】
また、本発明の情報源観測装置では、前記情報源補正手段は、前記情報源の修正頻度を求め、前記情報源観測手段が求めた情報源の出現頻度と該修正頻度とを加算したものを重要度とし、この重要度からユーザの所望とする情報源を決定することを特徴とする。
【００３６】
上記の構成によれば、
重要度指数＝情報源出現頻度＋情報源修正頻度
で表される重要度指数を導入し、その重要度指数を計算することで、各ＵＲＬページのユーザにとっての重要度を数値的に計測することができ、従来の単に参照頻度を元に情報源の重要度とする方法に比べて、たとえば新着リンクを整理したＵＲＬページである前記新着ＨＴＭＬページをユーザが見た場合でも、その新着リンクの発生した元々のＵＲＬページの重要度が上がる仕組みになっており、ユーザが最も依存している情報源を正確に判定することができる。
【００３７】
さらにまた、本発明の情報ネットワークにおける取得情報の情報源観測装置は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測装置において、前記クライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの親子関係を検出して記憶しておく親子関係検出手段と、前記親子関係検出手段のストア内容から、予め定めるデータファイルの情報源のＵＲＬの出現頻度を一定期間毎に集計して統計を算出する情報源観測手段と、予め定める種類の情報源を、前記親子関係を修正すべき対象として予め記憶している要修正情報源保持手段と、前記情報源観測手段が集計に使用する情報源のＵＲＬの内、前記要修正情報源に含まれる情報源のＵＲＬについて、前記親子関係検出手段を検索して予め真の情報源のＵＲＬを求めて補正しておく情報源補正手段とを含むことを特徴とする。
【００３８】
上記の構成によれば、親子関係検出手段は、新規にクライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元のＵＲＬとの親子関係のデータベースを作成する。このデータベースを利用し、情報源観測手段が、アクセスがあったデータファイルの参照元のＵＲＬの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるＵＲＬを把握し、ユーザにとって有用なＵＲＬを提示するにあたって、更新情報を整理したＨＴＭＬページなどの要修正情報源保持手段が記憶している要修正情報源に対しては、情報源補正手段は、親子関係検出手段を検索して予め真の情報源のＵＲＬを求めておく。
【００３９】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているＵＲＬと、そこに現れる関連情報である新規ＵＲＬとを同時に提示したＨＴＭＬファイルを作成してユーザに提示し、ユーザがその新着ＨＴＭＬページをアクセスし、新規ＵＲＬをアクセスした場合でも、その新着ＨＴＭＬページが要修正情報源であることを要修正情報源保持手段は記憶しており、情報源補正手段は、親子関係リストを検索することで、新着ＨＴＭＬページではなく、元々情報源となっているＵＲＬを真の情報源とすることができる。
【００４０】
これによって、前記新着ＨＴＭＬページのような真の情報源でないＵＲＬは集計されず、誤差無く情報源を特定することができる。
【００４１】
また、本発明の情報源観測装置では、前記情報源補正手段は、前記要修正情報源に含まれる情報源の参照先に対して、前記親子関係リストにおいて複数の参照元が含まれる場合には、前記情報源補正手段は該当する参照元総てを情報源とすることを特徴とする。
【００４２】
上記の構成によれば、前記新着ＨＴＭＬページなどの要修正情報源に含まれる参照先で、複数の真の情報源からリンクがある場合、そのうちの１つのリンクを参照すれば、その新着リンクの総ての親の重要度指数を上昇させる。
【００４３】
したがって、ユーザにとって大切な情報に関連するＵＲＬを提供できなかった情報源のランキングが下がり、実際にはアクセスされなくても、前記大切な情報を提供できた情報源のランキングを自動的に上げることができる。
【００４４】
さらにまた、本発明の情報源観測装置では、前記情報源補正手段は、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストにおいて親である場合には、その参照先を情報源とすることを特徴とする。
【００４５】
上記の構成によれば、ユーザが要修正情報源リストに含まれる前記新着ＨＴＭＬページにおいて観測対象ＵＲＬをクリックした場合でも、その行動を情報源発見のための重要度に反映することができ、ユーザの総ての行動を何らかの形で情報源発見のための重要度に反映することができる。
【００４６】
また、本発明の情報源観測装置では、前記情報源補正手段は、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストに含まれない場合には、その参照先自身を情報源とすることを特徴とする。
【００４７】
上記の構成によれば、対応する情報源ＵＲＬが親子関係リストに含まれていなくても、前記新着ＨＴＭＬページのようなユーザが何度も繰返し見ているＵＲＬを、ユーザの新しい情報源として処理することが可能となり、ユーザにとっての新たな情報源を発見することが可能になる。
【００４８】
さらにまた、本発明の情報源観測方法は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測方法において、前記クライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの親子関係を検出して記憶し、その記憶内容から、予め定めるデータファイルの情報源のＵＲＬの出現頻度を一定期間毎に集計して統計を算出し、予め定める種類の情報源を、前記親子関係を修正すべき要修正情報源として予め記憶しておき、前記集計に使用した情報源のＵＲＬの内、前記要修正情報源に含まれる情報源のＵＲＬについて、前記親子関係を検索して真の情報源のＵＲＬを求め、前記統計を補正することを特徴とする。
【００４９】
上記の構成によれば、アクセスがあったデータファイルの参照元のＵＲＬの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるＵＲＬを把握し、ユーザにとって有用なＵＲＬを提示するにあたって、更新情報を整理したＨＴＭＬページなどの要修正情報源に対しては、親子関係リストを検索して真の情報源のＵＲＬを求める。
【００５０】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているＵＲＬと、そこに現れる関連情報である新規ＵＲＬとを同時に提示したＨＴＭＬファイル（新着ＨＴＭＬページ）を作成してユーザに提示し、ユーザがその新着ＨＴＭＬページをアクセスし、新規ＵＲＬをアクセスした場合でも、その新着ＨＴＭＬページではなく、元々情報源となっているＵＲＬを真の情報源とし、誤差無く情報源を特定することができる。
【００５１】
また、本発明の情報源観測方法は、ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測方法において、予め定める種類の情報源を、親子関係を修正すべき要修正情報源として予め記憶しておき、前記クライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの親子関係を検出して記憶し、検出された情報源のＵＲＬの内、前記要修正情報源に含まれる情報源のＵＲＬについて、予め前記親子関係を検索して真の情報源のＵＲＬを求めて補正し、補正後の記憶内容から、予め定めるデータファイルの情報源のＵＲＬの出現頻度を一定期間毎に集計して統計を算出することを特徴とする。
【００５２】
上記の構成によれば、アクセスがあったデータファイルの参照元のＵＲＬの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるＵＲＬを把握し、ユーザにとって有用なＵＲＬを提示するにあたって、更新情報を整理したＨＴＭＬページなどの要修正情報源に対しては、親子関係リストを検索して予め真の情報源のＵＲＬを求める。
【００５３】
したがって、たとえば新規リンク検出エージェントの技術と組合わせ、ユーザの情報源となっているＵＲＬと、そこに現れる関連情報である新規ＵＲＬとを同時に提示したＨＴＭＬファイルを作成してユーザに提示し、ユーザがその新着ＨＴＭＬページをアクセスし、新規ＵＲＬをアクセスした場合でも、その新着ＨＴＭＬページではなく、元々情報源となっているＵＲＬを真の情報源とし、誤差無く情報源を特定することができる。
【００５４】
さらにまた、本発明の記録媒体は、上記の処理手順をコンピュータで読取り可能な形態に記憶することを特徴とする。
【００５５】
上記の構成によれば、誤差無く情報源を特定し、ユーザにとって有用なＵＲＬを正確に提示することができるプログラムを提供することができる。
【００５６】
【発明の実施の形態】
本発明の実施の一形態について、図１〜図１６に基づいて説明すれば、以下のとおりである。
【００５７】
図１は、本発明の実施の一形態に係るコンピュータネットワークシステムの概略構成を示すブロック図である。該コンピュータネットワークシステムは、複数のサーバコンピュータ１１にネットワーク１２を介して複数のクライアントコンピュータ１３が接続されて構成されている。
【００５８】
なお、図１において、サーバコンピュータ１１およびクライアントコンピュータ１３は、図面の簡略化のために１つしか記載していないけれども、インターネットなどのネットワーク１２上に存在する無数のコンピュータがこれらに該当することになる。また、図１では、後述する本発明に係る情報源観測装置は前記クライアントコンピュータ１３に内蔵されているけれども、たとえばファイアーウォール上に設けられるゲートウェイコンピュータや、インターネット上に設けられるＨＴＴＰプロキシサーバコンピュータなどのように、ＨＴＴＰリクエストと応答との中継を行うものであれば、別体で構成されてもよいことは言うまでもない。さらに、前記情報源観測装置を、クライアントコンピュータ１３におけるブラウザ１４の一部として、ソフトウェア的に構成することも可能である。
【００５９】
サーバコンピュータ１１は、ＨＴＭＬページや各種マルチメディアデータを保持しており、たとえばＨＴＴＰ(Hyper Text Transfer Protocol)デーモンと呼ばれるサーバソフトウェアによって、これらのデータの管理、および外部コンピュータからのアクセスの管理を行っている。
【００６０】
クライアントコンピュータ１３は、ＨＴＭＬページや各種マルチメディアデータを表示可能なブラウザ１４と呼ばれるソフトウェアを備えており、ユーザはこのクライアントコンピュータ１３上において前記ブラウザ１４を操作することによって、所望のＨＴＭＬページや各種マルチメディアデータを閲覧することができる。
【００６１】
前記図２０と同様に、ユーザがＷＷＷブラウザ１４を通してサーバコンピュータ１１にアクセスしたログは、中継処理部１５を通して、ＧＥＴおよびＲｅｆｅｒｅｒの部分が前記図２１の形式で参照ログ１６として記録される。前記参照ログ１６から、統計処理部１７は、前記特願平１１−２８６４７号に従って各参照元の出現頻度を求め、ユーザの情報源を明らかにする。この統計処理部１７で得られたユーザの情報源は、情報源ＵＲＬリスト１８として出力され、この情報源ＵＲＬリスト１８に記述されたＵＲＬアドレスを観測対象として、新規リンク検出エージェント部１９がサーバコンピュータ１１の新着リンクを発見し、前記ＨＴＭＬで記述された新規リスト２０として出力する。ユーザは、この新規リスト２０をＷＷＷブラウザ１４を通して閲覧することができる。
【００６２】
注目すべきは、本発明では、情報源観測手段である前記統計処理部１７で得られたユーザの情報源は、情報源補正手段である統計補正処理部２１で補正された後、前記情報源ＵＲＬリスト１８として出力されることである。この統計補正処理部２１に関連して、該クライアントコンピュータ１３からアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの親子関係を検出して記憶している親子関係リスト２２と、予め定める種類の情報源を、前記親子関係を修正すべき対象として予め記憶している要修正情報源リスト２３とが設けられている。
【００６３】
図２は、クライアントコンピュータ１３の概略構成を示すブロック図である。このクライアントコンピュータ１３は、ＣＰＵ(Central Processing Unit) ３１、ＲＡＭ(Random Access Memory)などで構成されるメモリ３２、ハードディスクやフラッシュメモリなどで構成される不揮発性メモリ３３、外部ネットワークとのインターフェースとなるネットワークＩ／Ｏ(Input/Output)３４、キーボードやマウスなどで構成される入力装置３５、および表示装置３６を備えており、これらがバス３７によって相互に接続されて構成されている。このような構成のクライアントコンピュータ１３は、一般的にパーソナルコンピュータと呼ばれるコンピュータによって構成することができる。
【００６４】
図３は、前記統計補正処理部２１の一構成例を具体的に示すブロック図であり、図４は、その統計補正処理部２１の処理動作を説明するためのフローチャートである。処理されるログは、新規リンク検出エージェント部１９が巡回して得られた図５で示すような新着ＨＴＭＬページを例としているが、このように自動的にアクセスされたものでなく、前記特願平１１−２８６４７号のように、ユーザが逐次アクセスしたものであってもよい。前記図５のＨＴＭＬページを前記ＷＷＷブラウザ１４を通して表示すると、図６のようになる。
【００６５】
ステップＳ１では、親子関係検索手段４１によって親子関係リスト２２が前記メモリ３２にロードされる。この親子関係リスト２２とは、前記図５および図６の新着ＨＴＭＬページの場合、図７で示すようなものである。ステップＳ２では、要修正情報源検出手段４２によって前記要修正情報源リスト２３が前記メモリ３２にロードされる。この要修正情報源リストとは、ユーザの情報源を発見するにあたって、情報源となってはならないＵＲＬやファイルの名前に関するパターンを明らかにするものであり、予め、ユーザもしくはシステム設計者によって、たとえば図８で示すようなデータ構造で与えられている。
【００６６】
ステップＳ３では、要修正情報源検出手段４２によって前記新規リンク検出エージェント部１９で作成された第Ｎ番目（Ｎ＝０，１，２，…、初期値は０）の参照ログ１６が前記メモリ３２にロードされる。参照ログ１６は、図９のようなデータ構造で与えられるものである。この例では、ユーザは、まず１９９９年４月１日７時３分５８秒に“http://www.sharp.co.jp/ ”から、そのページに含まれるリンクである“http://www.sharp.co.jp/News.html”を選択して参照している。次に、“http://localhost:8080/myweb.html”から、“http://www.news/Nature2.html”を選んで…というブラウジング履歴を明らかにしている。
【００６７】
ステップＳ４では、参照元変更手段４３において、前記ロードされた第Ｎ番目の参照ログ１６の参照元（参照ログにおけるＲｅｆｅｒｅｒ）が要修正情報源リスト２３に含まれているか否かが判断され、含まれている場合にはステップＳ５に、含まれていない場合はステップＳ６に進む。
【００６８】
図９の参照ログ１６の場合、ログの１番目にある“http://www.sharp.co.jp/ News.html ”およびログの８番目にある“http://www.asahi/Weather.html ”への参照以外は、参照元が“http://localhost:8080/myweb.html”または“C:\home\myname\mySecret.html”であり、要修正情報源パターンにマッチするので、以下のようにして、真の情報源が検索されることになる。
【００６９】
ステップＳ５では、Ｎ番目の参照元を“?参照先”とする。たとえば、参照先（ＧＥＴ）が“http://aaa.com”で参照元（Ｒｅｆｅｒｅｒ）が“http://localhost:8080/myweb.html”の場合、参照元は、“?http://aaa.com”となる。ステップＳ６では、その第Ｎ番目の参照元の参照頻度を表すカウント値に１を加算する。
【００７０】
ステップＳ７では、前記第Ｎ番目のログが参照ログ１６の最後のログであるか否か、すなわち総てのログに関して処理を終了したか否かを判断し、未処理のログが残っている場合には前記ステップＳ３に戻り、処理を終了している場合にはステップＳ８に進む。なお、この段階で各ＵＲＬの出現頻度は、図１０で示すようになっている。
【００７１】
ステップＳ８では、“?”で始まるＵＲＬに対して、参照元変更手段４３が親子関係検索手段４１を参照し、“?”の後に続くＵＲＬ（参照先）に対応する参照元を親子関係リスト２２から捜出し、変更する。これによって、前記図１０において“?”で始まっている各ＵＲＬに対応する真の情報源は、図１１のようになる。
【００７２】
ただし、新着ＨＴＭＬページの新着リンク観測対象ＵＲＬ（情報源ＵＲＬ）をクリックするなどして参照した場合に、親子関係データに関係なく情報源としてもよい。また、親子関係リスト２２に含まれない参照先のＵＲＬ（子ＵＲＬ）に対しては、その参照先を情報源として扱う。前記図１１における参照元の変更前の親子関係を図で表すと、図１２のようになり、１つの参照元ＨＴＭＬページであるｍｙｗｅｂに、各参照先ＨＴＭＬページ“http://www.news/Nature2.html”、“http://www.news/Curry.html”、“http://www.cnn/Topic.html ”、“http://www.cnn/NasaNews.html”および“http://www.asahi/War.html ”がリンクされてしまっている。
【００７３】
これに対して、変更後の親子関係は図１３のようになり、各参照先がそれぞれの真の情報源にリンクされている。また、注目すべきは、“http://www.cnn/NasaNews.html”の情報源が、実際に参照されたＨＴＭＬページである“http://www.cnn/ ”だけでなく、前記親子関係リスト２２に含まれているもう１つのＨＴＭＬページである“http://www.cosmo/ ”も情報源とされていることである。
【００７４】
したがって、このように実際に参照された子となるＨＴＭＬページに対して、複数の親となるＨＴＭＬページが親子関係リスト２２に含まれている場合に、総ての親を情報源とすることによって、ユーザにとって大切な情報に関連するＵＲＬを提供できなかった情報源のランキングが下がり、実際にはアクセスされなくても、前記大切な情報を提供可能な情報源のランキングを自動的に上げることができる。
【００７５】
また、“http://www.asahi/ ”は、親子関係リスト２２では子ではなく親として予め登録されているので、その“http://www.asahi/ ”自体を親の情報源としている。したがって、ユーザが要修正情報源リスト２３に含まれる前記新着ＨＴＭＬページにおいて観測対象ＵＲＬをクリックした場合でも、その行動を情報源発見のための重要度に反映することができ、ユーザの総ての行動を何らかの形で情報源発見のための重要度に反映することができる。
【００７６】
さらにまた、“http://www.zzz/ ”は、参照元が要修正情報源リスト２３に含まれ、かつ参照先が親子関係リスト２２に親としても子としても登録されていない場合も、その“http://www.zzz/ ”自体を親の情報源としている。したがって、新着ＨＴＭＬページのようなユーザが何度も繰返し見ているＵＲＬを、ユーザの新しい情報源として処理することが可能となり、ユーザにとっての新たな情報源を発見することが可能になる。
【００７７】
前記図３および図４に戻って、ステップＳ９では、重要度指数計算手段４４によって重要度指数が計算される。この重要度指数は、
重要度指数＝情報源出現頻度＋情報源修正頻度
から求められ、情報源修正頻度とは、前記図１１で示す表において、右側の情報源の欄における各情報源の出現頻度を表す。したがって、前記図１１の例では、各情報源の重要度指数は図１４で示すようになる。この重要度指数の大きいもの程、ユーザに提供する情報源として重要であることを意味する。
【００７８】
ステップＳ１０では、前記ステップＳ９で計算された結果をソート手段４５が前記重要度指数の順にソートし、出力整形手段４６がファイル４７として保存する。そのファイル４７のデータ構造は、図１５で示すようになる。
【００７９】
以上のように構成することによって、前記新着ＨＴＭＬページのような真の情報源でないＵＲＬから新規ＵＲＬをアクセスした場合でも、その新着ＨＴＭＬページは要修正情報源リスト２３に含まれており、該新着ＨＴＭＬページに対して親子関係リスト２２を検索することで、元々情報源となっている真の情報源のＵＲＬを誤差無く特定することができる。これによって、ユーザにとって真に重要度の高い情報源を常に正確に追跡し、提供することができる。
【００８０】
次に、前記図７で示すような親子関係リスト２３の作成を含む前記新規リンク検出エージェント部１９の動作を図１６のフローチャートを参照して説明する。先ず、ステップＳ２１で情報源ＵＲＬリスト５１がロードされる。前記情報源ＵＲＬリスト５１は、新規リンク検出の起点となるＵＲＬの集合であり、新規リンク検出エージェントが呼出されるときには必ず作成されており、一方、前記新規リンク検出エージェントが実行されるか否かに係わらず、作成することができる。
【００８１】
ステップＳ２２〜Ｓ２６では、前記の情報源ＵＲＬリスト５１の総てに対して、情報源ＵＲＬページのファイル変化がチェックされる。先ず、ステップＳ２２では、Ｉ番目のＵＲＬページのファイルが前記サーバコンピュータ１１から取得され、ステップＳ２３で、その取得したファイルのサイズが変化しているか否かがチェックされる。前記変数Ｉの初期値は０である。
【００８２】
ステップＳ２４では、前記情報源ＵＲＬリスト５１の内、ステップＳ２３で検出されたファイルサイズが変化しているものに対して、タグ情報が変化しているか否かがチェックされ、変化しているものが差分新規情報データベース５３とされる。前記タグ情報の変化のチェックには、ＵＲＬデータベース５２が利用される。このＵＲＬデータベース５２には、過去に新規リンク検出エージェントが新規リンク検出を行った際に作った情報源ＵＲＬのＨＴＴＰヘッダ情報（最終更新時刻、コンテンツのサイズ等が記されている）およびアンカー情報が含まれている。このＵＲＬデータベース５２は、前記ステップＳ２４で新規リンク検出エージェントが新規リンク検出を行うたびに、ステップＳ２５で更新される。前記情報源ＵＲＬページ５１のアンカーの内、このＵＲＬデータベース５２のアンカーに含まれていないものが新着リンクということになる。
【００８３】
ステップＳ２６では、変数Ｉが更新されて、その更新結果が総てのＵＲＬリスト５１に対応した値となるまで前記ステップＳ２２に復帰し、情報源ＵＲＬリスト５１の総てがチェックされるとステップＳ２７に移る。
【００８４】
ステップＳ２７では、前記新着リンクをＨＴＭＬ化して前記図６で示す新着ＨＴＭＬページ５４として表示できるよう整形し、その後、ステップＳ２８で前記親子関係リスト２２が生成される。
【００８５】
本発明の実施の他の形態について、図１７〜図１９に基づいて説明すれば、以下のとおりである。
【００８６】
図１７は、本発明の実施の他の形態における前記統計補正処理部２１での処理動作を説明するためのフローチャートである。この処理動作は、前述の図４で示す処理動作に類似し、同様の動作には同じステップ番号を付して、その説明を省略する。注目すべきは、この処理動作では、ステップＳ４において、ロードされた第Ｎ番目の参照ログ１６の参照元が要修正情報源リスト２３に含まれている場合にはステップＳ３１に移り、その第Ｎ番目の参照元に対して、参照元変更手段４３が親子関係検索手段４１を参照し、対応する真の情報源を親子関係リスト２２から捜出し、変更する。前記図９で示す参照ログ１６の場合、前記図１０では“?”で始まっていた各ＵＲＬに対応する真の情報源は、図１８のようになる。その後、前記ステップＳ６では、その第Ｎ番目の真の参照元の参照頻度がカウントされる。
【００８７】
したがって、前記重要度の概念を導入することなく、ステップＳ７で総てのログに関して処理を終了すると、直接ステップＳ１０に移り、前記ステップＳ６で計算された結果をソート手段４５が前記カウント値の順にソートし、出力整形手段４６がファイル４７として保存する。そのファイル４７のデータ構造は、前記図１５と全く同様であり、前記重要度指数の欄が出現頻度のカウント値に変わっるだけである。
【００８８】
このように、前記図４で示すアルゴリズムおよび図１７で示すアルゴリズムは、共に同じ答えを得ることができる。しかしながら、計算時間の面でそれぞれ特徴が異なる。具体的には、ステップＳ４で参照ログのうちＭ個が要修正情報源に含まれていたとすると、図１７で示すアルゴリズムでは、ステップＳ５で、親子関係リスト２２から捜出し、真の情報源に置換える計算回数（親子関係リストから該当する真の情報源を検索する計算時間コスト）は、Ｍ回必要となる。他方、前記図４で示すアルゴリズムでは、ステップＳ８での前記計算回数をＬ回とすると、Ｍ≧Ｌが成立する。
【００８９】
これは、たとえば図１９で示す参照ログのように、補正すべきログが重複している場合を考えれば明らかである。図１９では、“http://XXX.com/ ”のログが２回出現しており、図４で示すアルゴリズムでは、出現するたびに真の情報源に置換えずに、ログをすべて読み終わった後、“http://XXX.com/ ”に対する真の情報源（親）を検索するので、検索は１回で済む。これに対して、図１７で示すアルゴリズムでは、参照ログの中で参照元が要修正情報源に含まれる回数だけ親子関係リスト２２を検索する必要がある。
【００９０】
したがって、図４で示すアルゴリズムにおいて、ステップＳ６での重要度指数の計算時間コストも考慮して、ログの重複が、大きい場合には前記図４で示すアルゴリズムを使用し、小さい場合にはこの図１７で示すアルゴリズムを使用すればよく、ユーザの使用形態を分析し、これらのアルゴリズムを使い分けすればよい。
【００９１】
【発明の効果】
本発明の情報ネットワークにおける取得情報の情報源観測装置は、以上のように、アクセスがあったデータファイルの参照元のＵＲＬの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるＵＲＬを把握し、ユーザにとって有用なＵＲＬを提示するにあたって、アクセスがあったデータファイルのＵＲＬとその参照元である情報源のＵＲＬとの親子関係を検出して記憶しておき、更新情報を整理したＨＴＭＬページなどの要修正情報源に対しては、親子関係リストを検索して真の情報源のＵＲＬを求める。
【００９２】
それゆえ、前記更新情報を整理したＨＴＭＬページなどではなく、元々情報源となっているＵＲＬを真の情報源とすることができる。これによって、新着ＨＴＭＬページのような真の情報源でないＵＲＬは集計されず、誤差無く情報源を特定することができる。
【００９３】
また、本発明の情報源観測装置は、以上のように、前記情報源の修正頻度を求め、前記情報源の出現頻度と該修正頻度とを加算したものを重要度とし、この重要度からユーザの所望とする情報源を決定する。
【００９４】
それゆえ、各ＵＲＬページのユーザにとっての重要度を数値的に計測することができ、従来の単に参照頻度を元に情報源の重要度とする方法に比べて、たとえば新着リンクを整理したＵＲＬページである前記新着ＨＴＭＬページをユーザが見た場合でも、その新着リンクの発生した元々のＵＲＬページの重要度が上がる仕組みになっており、ユーザが最も依存している情報源を正確に判定することができる。
【００９５】
また、本発明の情報源観測装置は、以上のように、前記要修正情報源に含まれる情報源の参照先に対して、前記親子関係リストにおいて複数の参照元とリンクしている場合には、そのうちの１つのリンクを参照すれぱ、該当する参照元総てを情報源とする。
【００９６】
それゆえ、ユーザにとって大切な情報に関連するＵＲＬを提供できなかった情報源のランキングが下がり、実際にはアクセスされなくても、前記大切な情報を提供できた情報源のランキングを自動的に上げることができる。
【００９７】
さらにまた、本発明の情報源観測装置は、以上のように、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストにおいて親である場合には、その参照先を情報源とする。
【００９８】
それゆえ、ユーザが要修正情報源リストに含まれる前記新着ＨＴＭＬページにおいて観測対象ＵＲＬをクリックした場合でも、その行動を情報源発見のための重要度に反映することができ、ユーザの総ての行動を何らかの形で情報源発見のための重要度に反映することができる。
【００９９】
また、本発明の情報源観測装置は、以上のように、前記参照元が要修正情報源に含まれ、かつ参照先が親子関係リストに含まれない場合には、その参照先自身を情報源とする。
【０１００】
それゆえ、対応する情報源ＵＲＬが親子関係リストに含まれていなくても、前記新着ＨＴＭＬページのようなユーザが何度も繰返し見ているＵＲＬを、ユーザの新しい情報源として処理することが可能となり、ユーザにとっての新たな情報源を発見することが可能になる。
【０１０１】
さらにまた、本発明の情報源観測方法は、以上のように、アクセスがあったデータファイルの参照元のＵＲＬの出現頻度を一定期間毎に集計し、統計を算出することで、参照元として頻繁に利用されるＵＲＬを把握し、ユーザにとって有用なＵＲＬを提示するにあたって、更新情報を整理したＨＴＭＬページなどの要修正情報源に対しては、親子関係リストを検索して真の情報源のＵＲＬを求める。
【０１０２】
それゆえ、前記更新情報を整理したＨＴＭＬページなどではなく、元々情報源となっているＵＲＬを真の情報源とすることができる。これによって、新着ＨＴＭＬページのような真の情報源でないＵＲＬは集計されず、誤差無く情報源を特定することができる。
【０１０３】
さらにまた、本発明の記録媒体は、以上のように、上記の処理手順をコンピュータで読取り可能な形態に記憶する。
【０１０４】
それゆえ、誤差無く情報源を特定し、ユーザにとって有用なＵＲＬを正確に提示することができるプログラムを提供することができる。
【図面の簡単な説明】
【図１】本発明の実施の一形態に係るコンピュータネットワークシステムの概略構成を示すブロック図である。
【図２】前記コンピュータネットワークシステムにおける本発明の情報源観測装置が内蔵されたクライアントコンピュータの概略構成を示すブロック図である。
【図３】前記クライアントコンピュータにおける本発明の統計補正処理部の一構成例を具体的に示すブロック図である。
【図４】前記統計補正処理部の本発明の実施の一形態の処理動作を説明するためのフローチャートである。
【図５】情報源観測処理されるログの一例である新着ＨＴＭＬページの図である。
【図６】前記図５のＨＴＭＬページのＷＷＷブラウザを通した表示例を示す図である。
【図７】前記図５および図６で示す新着ＨＴＭＬページの場合の親子関係リストを示す図である。
【図８】要修正情報源リストのデータ構造を示す図である。
【図９】一例の参照ログのデータ構造を示す図である。
【図１０】前記図９で示す参照ログでの各ＵＲＬの出現頻度を示す図である。
【図１１】前記図４で示す処理動作による前記図９で示す参照ログでの真の情報源の検索結果を示す図である。
【図１２】前記真の情報源への変更前の親子関係を示す図である。
【図１３】前記真の情報源への変更後の親子関係を示す図である。
【図１４】前記図１１で示す検索結果から情報源の真の重要度を求めた結果を示す図である。
【図１５】前記図１４で求めた重要度の保存ファイル構造を示す図である。
【図１６】前記親子関係リストの作成を含む前記新規リンク検出エージェント部の動作を説明するためのフローチャートである。
【図１７】本発明の実施の他の形態における前記統計補正処理部での処理動作を説明するためのフローチャートである。
【図１８】前記図１７で示す処理動作による前記図９で示す参照ログでの真の情報源の検索結果を示す図である。
【図１９】参照ログの他の例を示す図である。
【図２０】ＷＷＷ上におけるＨＴＭＬページおよびデータファイルのリンクの様子の一例を示す概念図である。
【図２１】前記図２０で示すようなＨＴＭＬページおよびデータファイルへのアクセスに対して、ゲートウェイコンピュータに記録されるログを示す図である。
【図２２】従来技術のコンピュータネットワークシステムの概略構成を示すブロック図である。
【図２３】アクセスログの一例を示す図である。
【図２４】前記図２０で示すようなＨＴＭＬページおよびデータファイルへのアクセスログを示す図である。
【図２５】前記図２４で示すアクセスログを統計処理して得られた情報源ＵＲＬリストを示す図である。
【図２６】自動観測によってユーザに提供される新規リンクリストのデータ構造を示す図である。
【図２７】前記図２６で示す新規リンクリストのＨＴＭＬページの図である。
【図２８】前記図２７のＨＴＭＬページのＷＷＷブラウザを通した表示例を示す図である。
【図２９】前記図２７および図２８で示すＨＴＭＬページへのアクセスログを統計処理して得られた情報源ＵＲＬリストを示す図である。
【符号の説明】
１１サーバコンピュータ
１２ネットワーク
１３クライアントコンピュータ（情報源観測装置）
１４ＷＷＷブラウザ
１５中継処理部
１６参照ログ
１７統計処理部
１８情報源ＵＲＬリスト
１９新規リンク検出エージェント部
２０新規リスト
２１統計補正処理部
２２親子関係リスト（親子関係検出手段）
２３要修正情報源リスト（要修正情報源保持手段）
３１ＣＰＵ
３２メモリ
３３不揮発性メモリ
３４ネットワークＩ／Ｏ
３５入力装置
３６表示装置
３７バス
４１親子関係検索手段
４２要修正情報源検出手段
４３参照元変更手段
４４重要度指数計算手段
４５ソート手段
４６出力整形手段
４７ファイル

Claims

ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測装置において、
前記クライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの、参照元を親とし、参照先を子とする親子関係を検出して記憶しておく親子関係検出手段と、
前記親子関係検出手段のストア内容から、前記アクセスがあったデータファイルの参照元である情報源のＵＲＬの出現頻度を一定期間毎に集計して統計を算出する情報源観測手段と、
前記親子関係を修正すべき対象である要修正情報源のＵＲＬを含む要修正情報源リストを予め記憶している要修正情報源保持手段と、
前記情報源観測手段が集計に使用した情報源のＵＲＬの内のある情報源のＵＲＬが、前記要修正情報源リストに含まれる場合、前記親子関係検出手段に、前記ある情報源のＵＲＬの参照先であるデータファイルのＵＲＬの親として記憶されている、前記ある情報源のＵＲＬ以外の情報源のＵＲＬの前記出現頻度を、前記ある情報源のＵＲＬの出現頻度に基づいて補正する情報源補正手段と、を含むことを特徴とする情報ネットワークにおける取得情報の情報源観測装置。
前記情報源補正手段は、前記親子関係検出手段に、前記ある情報源のＵＲＬの参照先であるデータファイルのＵＲＬの複数の親が記憶されている場合には、前記情報源補正手段は前記複数の親の総ての前記出現頻度を補正することを特徴とする請求項１に記載の情報源観測装置。
前記情報源補正手段は、前記ある情報源のＵＲＬの参照先であるデータファイルのＵＲＬが、前記親子関係検出手段に親として記憶されている場合には、当該データファイルのＵＲＬの前記出現頻度を補正することを特徴とする請求項１に記載の情報源観測装置。
前記情報源補正手段は、前記ある情報源のＵＲＬの参照先であるデータファイルのＵＲＬが、前記親子関係検出手段に記憶されていない場合には、当該データファイルのＵＲＬの前記出現頻度を補正することを特徴とする請求項１に記載の情報源観測装置。
ネットワークで接続されたサーバコンピュータ上のハイパーリンク構造を有するデータファイルをクライアントコンピュータ上で閲覧する際に用いられる情報源観測方法において、前記クライアントコンピュータからアクセスがあったデータファイルのＵＲＬと、その参照元である情報源のＵＲＬとから、それらの、参照元を親とし、参照先を子とする親子関係を検出して記憶し、その記憶内容から、前記アクセスがあったデータファイルの参照元である情報源のＵＲＬの出現頻度を一定期間毎に集計して統計を算出し、前記親子関係を修正すべき対象である要修正情報源のＵＲＬを含む要修正情報源リストを予め記憶しておき、前記集計に使用した情報源のＵＲＬの内のある情報源のＵＲＬが、前記要修正情報源リストに含まれる場合、前記記憶内容において、前記ある情報源のＵＲＬの参照先であるデータファイルのＵＲＬの親として記憶されている、前記ある情報源のＵＲＬ以外の情報源のＵＲＬの前記出現頻度を、前記ある情報源のＵＲＬの出現頻度に基づいて補正することを特徴とする情報ネットワークにおける取得情報の情報源観測方法。
コンピュータに請求項５に記載の処理手順を実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。