JP2003263448A - Web収集プログラム及びシステム並びに方法 - Google Patents
Web収集プログラム及びシステム並びに方法Info
- Publication number
- JP2003263448A JP2003263448A JP2002065862A JP2002065862A JP2003263448A JP 2003263448 A JP2003263448 A JP 2003263448A JP 2002065862 A JP2002065862 A JP 2002065862A JP 2002065862 A JP2002065862 A JP 2002065862A JP 2003263448 A JP2003263448 A JP 2003263448A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- web
- page group
- collection
- accessed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
(57)【要約】
【課題】ネットワーク上のWebページの中から、分
析、分類に有効なWebコンテンツのみを効率的に収集
する。 【解決手段】本発明のWeb収集プログラム3は、コン
ピュータ1に、WebページのうちアクセスされたWe
bページの識別情報を含むアクセスログを取得し、アク
セスログに含まれている識別情報の示すWebページを
収集する収集機能4と、収集されたWebページの中か
ら、評価対象として指定されたWebページグループと
所定の関係を持つWebページを選択する選択機能5と
を実現させる。
析、分類に有効なWebコンテンツのみを効率的に収集
する。 【解決手段】本発明のWeb収集プログラム3は、コン
ピュータ1に、WebページのうちアクセスされたWe
bページの識別情報を含むアクセスログを取得し、アク
セスログに含まれている識別情報の示すWebページを
収集する収集機能4と、収集されたWebページの中か
ら、評価対象として指定されたWebページグループと
所定の関係を持つWebページを選択する選択機能5と
を実現させる。
Description
【0001】
【発明の属する技術分野】本発明は、WWW(World Wi
de Web)において、少なくとも一つのWebページを含
み所定の基準で区分けされているWebページグループ
(例えば、Webページ、Webサイト、WWW上の仮
想店舗など)を収集するWeb収集プログラム及びシス
テム並びに方法に関する。
de Web)において、少なくとも一つのWebページを含
み所定の基準で区分けされているWebページグループ
(例えば、Webページ、Webサイト、WWW上の仮
想店舗など)を収集するWeb収集プログラム及びシス
テム並びに方法に関する。
【0002】
【従来の技術】インターネット上のWebページのUR
L(Uniform Resource Locators)を収集する第1の方
法としては、あるWebページにリンクされているWe
bページのURLを収集し、さらに収集されたURLの
示すWebページにリンクされているWebページのU
RLを収集し、この処理を繰り返すプログラムを利用す
る方法がある。
L(Uniform Resource Locators)を収集する第1の方
法としては、あるWebページにリンクされているWe
bページのURLを収集し、さらに収集されたURLの
示すWebページにリンクされているWebページのU
RLを収集し、この処理を繰り返すプログラムを利用す
る方法がある。
【0003】また、URLを収集する第2の方法として
は、例えば、Webページの内容などを参考にして収集
対象のWebページを選抜し、ネットワーク上のWeb
ページの中からある程度の数のURLを人手で収集する
方法がある。例えば、収集者は、ドメイン単位でURL
を収集する。
は、例えば、Webページの内容などを参考にして収集
対象のWebページを選抜し、ネットワーク上のWeb
ページの中からある程度の数のURLを人手で収集する
方法がある。例えば、収集者は、ドメイン単位でURL
を収集する。
【0004】収集されたURLは、様々な目的に利用さ
れる。
れる。
【0005】例えば、収集されたURLは、ネットワー
ク上のWebページの特徴分析を行う場合に、この分析
の対象となるWebページを得るために使用される。W
ebページの特徴分析には、例えば、調査協力者(パネ
ル)の属性データ(例えば性別、年齢、趣味、職業、年
収などのプロファイルデータ)を記録しておき、Web
ページをアクセスした調査協力者の属性データを集計
し、そのWebページの特徴を求める分析がある。その
他にも、Webページの特徴分析には、アクセス数又は
アクセスしたユーザ数などからWebページの認識度を
求める分析などがある。
ク上のWebページの特徴分析を行う場合に、この分析
の対象となるWebページを得るために使用される。W
ebページの特徴分析には、例えば、調査協力者(パネ
ル)の属性データ(例えば性別、年齢、趣味、職業、年
収などのプロファイルデータ)を記録しておき、Web
ページをアクセスした調査協力者の属性データを集計
し、そのWebページの特徴を求める分析がある。その
他にも、Webページの特徴分析には、アクセス数又は
アクセスしたユーザ数などからWebページの認識度を
求める分析などがある。
【0006】また、収集されたURLは、ネットワーク
上のWebページのハイパーリンク構造を把握するため
に利用される。
上のWebページのハイパーリンク構造を把握するため
に利用される。
【0007】また、収集されたURLは、検索エンジン
によりネットワーク上のWebページの検索サービスを
提供する場合に利用される。
によりネットワーク上のWebページの検索サービスを
提供する場合に利用される。
【0008】検索サービス提供者は、検索対象となるW
ebページのURLを収集し、収集したURLを人手で
分類し、検索用のインデックス情報を付してデータベー
スに登録する。検索サービスの提供者は、検索キーを受
け付けると、この検索キーに対応するインデックス情報
の付されているURLを提供する。
ebページのURLを収集し、収集したURLを人手で
分類し、検索用のインデックス情報を付してデータベー
スに登録する。検索サービスの提供者は、検索キーを受
け付けると、この検索キーに対応するインデックス情報
の付されているURLを提供する。
【0009】
【発明が解決しようとする課題】上記Webページの第
1の収集方法では、Webページがリンクされていれば
アクセスの有無に関係なくそのWebページのURLが
収集されるため、属性データを提供したユーザによって
アクセスされていないWebページのURLまでも収集
の対象となる。
1の収集方法では、Webページがリンクされていれば
アクセスの有無に関係なくそのWebページのURLが
収集されるため、属性データを提供したユーザによって
アクセスされていないWebページのURLまでも収集
の対象となる。
【0010】したがって、この第1の収集方法によって
収集されたURLを用いてWebページの特徴分析を行
うと、属性データを提供したユーザにアクセスされてい
ないWebページまで分析の対象となり、分析効率が低
下する場合がある。
収集されたURLを用いてWebページの特徴分析を行
うと、属性データを提供したユーザにアクセスされてい
ないWebページまで分析の対象となり、分析効率が低
下する場合がある。
【0011】例えば、第1の収集方法によって収集され
たURLの示すWebページについてアクセスしたユー
ザの特徴を求めるとすると、特徴分析を行うために使用
される属性データのないWebページに対してもユーザ
の特徴を求める処理を実行することになり、効率的でな
い。
たURLの示すWebページについてアクセスしたユー
ザの特徴を求めるとすると、特徴分析を行うために使用
される属性データのないWebページに対してもユーザ
の特徴を求める処理を実行することになり、効率的でな
い。
【0012】また、上記Webページの第1の収集方法
によって収集されたURLの示すWebページに対して
認識度を調べる場合、ユーザにアクセスされていないW
ebページに対してWebページの認識度を調べる処理
を実行することもあり、効率的でない。
によって収集されたURLの示すWebページに対して
認識度を調べる場合、ユーザにアクセスされていないW
ebページに対してWebページの認識度を調べる処理
を実行することもあり、効率的でない。
【0013】さらに、第1の収集方法では、このように
分析の対象として適していないWebページまでも収集
することになり、収集処理も効率的でない。
分析の対象として適していないWebページまでも収集
することになり、収集処理も効率的でない。
【0014】さらに、第1の収集方法では、収集される
Webページの数が膨大となり、分類する労力が過大と
なる問題がある。
Webページの数が膨大となり、分類する労力が過大と
なる問題がある。
【0015】一方、上記Webページの第2の収集方法
では、選抜されたURLしか収集されないため、URL
の数が不足する場合がある。例えば、属性データを提供
したユーザによってアクセスされたWebページのUR
Lが十分に選抜されず、Webページを分析するために
十分な量のデータが得られない場合がある。また、分類
を人手で行う必要があり、多大な労力と時間がかかり効
率的でない。
では、選抜されたURLしか収集されないため、URL
の数が不足する場合がある。例えば、属性データを提供
したユーザによってアクセスされたWebページのUR
Lが十分に選抜されず、Webページを分析するために
十分な量のデータが得られない場合がある。また、分類
を人手で行う必要があり、多大な労力と時間がかかり効
率的でない。
【0016】本発明は、以上のような実情に鑑みてなさ
れたもので、Webページグループを効率的に収集する
Web収集プログラム及びシステム並びに方法を提供す
ることを目的とする。
れたもので、Webページグループを効率的に収集する
Web収集プログラム及びシステム並びに方法を提供す
ることを目的とする。
【0017】
【課題を解決するための手段】本発明を実現するにあた
って講じた具体的手段について以下に説明する。
って講じた具体的手段について以下に説明する。
【0018】本発明のWeb収集プログラムは、コンピ
ュータに、少なくとも一つのWebページを含むWeb
ページグループのうちアクセスされたWebページグル
ープの識別情報を含むアクセスログを取得し、アクセス
ログに含まれている識別情報の示すWebページグルー
プを収集する収集機能と、収集されたWebページグル
ープの中から、評価対象として指定されたWebページ
グループと所定の関係を持つWebページグループを選
択する選択機能とを実現させる。
ュータに、少なくとも一つのWebページを含むWeb
ページグループのうちアクセスされたWebページグル
ープの識別情報を含むアクセスログを取得し、アクセス
ログに含まれている識別情報の示すWebページグルー
プを収集する収集機能と、収集されたWebページグル
ープの中から、評価対象として指定されたWebページ
グループと所定の関係を持つWebページグループを選
択する選択機能とを実現させる。
【0019】本発明では、実際にアクセスされたWeb
ページグループのみが収集され、実際にアクセスされて
おり評価対象のWebページグループと所定の関係を持
つWebページグループのみが選択される。
ページグループのみが収集され、実際にアクセスされて
おり評価対象のWebページグループと所定の関係を持
つWebページグループのみが選択される。
【0020】これにより、所定の関係を持ち分析に有効
なWebページグループのみを選択することができ、W
ebページグループの収集作業、分析作業、分類作業を
効率化できる。
なWebページグループのみを選択することができ、W
ebページグループの収集作業、分析作業、分類作業を
効率化できる。
【0021】なお、アクセスログは、属性データを提供
したユーザによってアクセスされたWebページグルー
プの識別情報を含み、収集機能は、属性データを提供し
たユーザによってアクセスされたWebページグループ
を収集するとしてもよい。
したユーザによってアクセスされたWebページグルー
プの識別情報を含み、収集機能は、属性データを提供し
たユーザによってアクセスされたWebページグループ
を収集するとしてもよい。
【0022】これにより、属性データに基づく分析に有
効なWebページグループのみを選択することができ、
Webページグループの収集作業、分析作業、分類作業
を効率化できる。
効なWebページグループのみを選択することができ、
Webページグループの収集作業、分析作業、分類作業
を効率化できる。
【0023】また、選択機能は、評価対象として指定さ
れたWebページグループと収集されたWebページグ
ループとの間のリンクの関係を求め、収集されたWeb
ページグループの中から評価対象として指定されたWe
bページグループと所定のリンク関係を持つWebペー
ジグループを選択するとしてもよい。
れたWebページグループと収集されたWebページグ
ループとの間のリンクの関係を求め、収集されたWeb
ページグループの中から評価対象として指定されたWe
bページグループと所定のリンク関係を持つWebペー
ジグループを選択するとしてもよい。
【0024】これにより、実際にアクセスされたWeb
ページグループのみが収集され、アクセスされたWeb
ページグループについてハイパーリンク構造が分析され
る。そして、実際にアクセスされており評価対象のWe
bページグループと所定のリンク関係を持つWebペー
ジグループのみが選択される。
ページグループのみが収集され、アクセスされたWeb
ページグループについてハイパーリンク構造が分析され
る。そして、実際にアクセスされており評価対象のWe
bページグループと所定のリンク関係を持つWebペー
ジグループのみが選択される。
【0025】したがって、所定のリンク関係を持ち分析
に有効なWebページグループのみを選択することがで
き、Webページグループの収集作業、分析作業、分類
作業を効率化できる。
に有効なWebページグループのみを選択することがで
き、Webページグループの収集作業、分析作業、分類
作業を効率化できる。
【0026】また、所定のリンク関係は、評価対象とし
て指定されたWebページグループをリンクしている関
係を含むとしてもよく、評価対象として指定されたWe
bページグループをリンクしているWebページグルー
プにリンクされている関係を含むとしてもよい。
て指定されたWebページグループをリンクしている関
係を含むとしてもよく、評価対象として指定されたWe
bページグループをリンクしているWebページグルー
プにリンクされている関係を含むとしてもよい。
【0027】また、収集機能は、アクセスされたWeb
ページグループの視聴率情報をアクセスログに基づいて
算出し、視聴率情報に基づいて所定レベル以上のアクセ
スのあるWebページグループを収集するとしてもよ
い。
ページグループの視聴率情報をアクセスログに基づいて
算出し、視聴率情報に基づいて所定レベル以上のアクセ
スのあるWebページグループを収集するとしてもよ
い。
【0028】これにより、分析に有効なレベルまでアク
セスがあり所定の関係を持つWebページグループが選
択される。
セスがあり所定の関係を持つWebページグループが選
択される。
【0029】また、選択機能は、アクセスログに基づい
て算出される選択されたWebページグループの視聴率
情報と、選択されたWebページグループと他のWeb
ページグループとの間のリンク関係とのうち、少なくと
も一方に基づいて、選択されたWebページグループを
ランク付けするとしてもよい。
て算出される選択されたWebページグループの視聴率
情報と、選択されたWebページグループと他のWeb
ページグループとの間のリンク関係とのうち、少なくと
も一方に基づいて、選択されたWebページグループを
ランク付けするとしてもよい。
【0030】これにより、選択されたWebページグル
ープのランクを考慮して分析を行うことができ、分析を
容易化、明確化することができる。
ープのランクを考慮して分析を行うことができ、分析を
容易化、明確化することができる。
【0031】また、本発明のWeb収集プログラムは、
コンピュータに、選択機能によって選択されたWebペ
ージグループの分析結果と評価対象として指定されたW
ebページグループの分析結果とを出力する出力機能を
実現させるとしてもよい。
コンピュータに、選択機能によって選択されたWebペ
ージグループの分析結果と評価対象として指定されたW
ebページグループの分析結果とを出力する出力機能を
実現させるとしてもよい。
【0032】上記発明のプログラム又はプログラムを記
録した記録媒体を用いることによって、上記機能を有し
ていないコンピュータ、コンピュータシステム、サー
バ、クライアントに対しても、簡単にこれらの機能を付
加することができる。
録した記録媒体を用いることによって、上記機能を有し
ていないコンピュータ、コンピュータシステム、サー
バ、クライアントに対しても、簡単にこれらの機能を付
加することができる。
【0033】上記発明のWeb収集プログラム又はこの
プログラムを記録した記録媒体をコンピュータに適用す
ることにより、Web収集方法がコンピュータ上で実施
される。
プログラムを記録した記録媒体をコンピュータに適用す
ることにより、Web収集方法がコンピュータ上で実施
される。
【0034】上記発明で実現される機能と同様の動作を
実現する手段をWeb収集システムに備えることによ
り、同様の作用効果を得ることができる。
実現する手段をWeb収集システムに備えることによ
り、同様の作用効果を得ることができる。
【0035】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態について説明する。なお、以下において
は、説明を簡略化するためにWebページ単位で収集を
行う場合について説明する。ただし、例えばWebサイ
ト、WWW上の仮想店舗などのように、少なくとも一つ
のWebページを含み所定の基準で区分けされているW
ebページのグループ、Webコンテンツの収集につい
ても同様に適用可能である。
の実施の形態について説明する。なお、以下において
は、説明を簡略化するためにWebページ単位で収集を
行う場合について説明する。ただし、例えばWebサイ
ト、WWW上の仮想店舗などのように、少なくとも一つ
のWebページを含み所定の基準で区分けされているW
ebページのグループ、Webコンテンツの収集につい
ても同様に適用可能である。
【0036】図1は、本実施の形態に係るWeb収集シ
ステムの構成の一例を示すブロック図である。
ステムの構成の一例を示すブロック図である。
【0037】本実施の形態に係るWeb収集システム1
は、記録媒体2に記録されているWeb収集プログラム
3を読み出して実行する。
は、記録媒体2に記録されているWeb収集プログラム
3を読み出して実行する。
【0038】Web収集プログラム3は、システム1に
読み込まれ、実行されると、収集機能4と、選択機能5
を実現する。
読み込まれ、実行されると、収集機能4と、選択機能5
を実現する。
【0039】Web収集システム1は、例えばインター
ネットなどのようなネットワーク6に接続されている。
ネットワーク6には、WebサーバC1〜CN、調査協力
者の端末機器(例えばブラウザ)D1〜DM、一般的なユ
ーザの端末機器E1〜ELが接続されている。
ネットなどのようなネットワーク6に接続されている。
ネットワーク6には、WebサーバC1〜CN、調査協力
者の端末機器(例えばブラウザ)D1〜DM、一般的なユ
ーザの端末機器E1〜ELが接続されている。
【0040】アクセスログとは、Webページの視聴履
歴データであり、アクセスされたWebページのURL
とアクセスしたユーザのIDとを含む。
歴データであり、アクセスされたWebページのURL
とアクセスしたユーザのIDとを含む。
【0041】収集機能4は、アクセスログを取得し、ア
クセスログに含まれているURLの数に基づいて視聴率
情報を集計し、視聴率の高いWebページのURLを求
める。
クセスログに含まれているURLの数に基づいて視聴率
情報を集計し、視聴率の高いWebページのURLを求
める。
【0042】視聴率情報には、例えばアクセス(視聴)
したユーザ数(アクセス人数)、ユーザのアクセス数
(アクセスされた回数)などを利用可能である。また、
アクセスしたユーザ数又はアクセス数などを基準として
所定の演算により視聴率情報を算出するとしてもよい。
なお、同一ユーザによる2回目以降のアクセスを除いた
アクセス数をアクセスしたユーザ数として利用可能であ
る。
したユーザ数(アクセス人数)、ユーザのアクセス数
(アクセスされた回数)などを利用可能である。また、
アクセスしたユーザ数又はアクセス数などを基準として
所定の演算により視聴率情報を算出するとしてもよい。
なお、同一ユーザによる2回目以降のアクセスを除いた
アクセス数をアクセスしたユーザ数として利用可能であ
る。
【0043】また、収集機能4は、視聴率の高いアクセ
スされたWebページをネットワーク6経由で収集す
る。
スされたWebページをネットワーク6経由で収集す
る。
【0044】選択機能5は、評価対象のWebページの
URLを入力し、評価対象のWebページと視聴率の高
いWebページとの間のリンクの関係を求め、視聴率の
高いWebページの中から評価対象のWebページと所
定のリンク関係を持つWebページを選択し、視聴率情
報とリンク関係とのうちの少なくとも一方に基づいてラ
ンク付けする。
URLを入力し、評価対象のWebページと視聴率の高
いWebページとの間のリンクの関係を求め、視聴率の
高いWebページの中から評価対象のWebページと所
定のリンク関係を持つWebページを選択し、視聴率情
報とリンク関係とのうちの少なくとも一方に基づいてラ
ンク付けする。
【0045】選択機能5は、選択され、ランク付けされ
たWebページ又はそのURLのリスト7を出力する。
出力されたWebページ又はそのURLのリスト7は、
分類処理8の対象となり、分類される。また、評価対象
のWebページに対する比較対象として分析処理9に利
用される。
たWebページ又はそのURLのリスト7を出力する。
出力されたWebページ又はそのURLのリスト7は、
分類処理8の対象となり、分類される。また、評価対象
のWebページに対する比較対象として分析処理9に利
用される。
【0046】図2は、Web収集システム1によって実
施されるWeb収集方法の一例を示すフローチャートで
ある。
施されるWeb収集方法の一例を示すフローチャートで
ある。
【0047】ステップS1において、Web収集システ
ム1の収集機能4は、アクセスログを取得する。
ム1の収集機能4は、アクセスログを取得する。
【0048】アクセスログの取得方法には、例えば以下
の3つの手法が利用可能である。
の3つの手法が利用可能である。
【0049】第1の方法は、調査協力者の使用する端末
機器D1〜DMに視聴履歴情報を報告するモジュールをイ
ンストールし、このモジュールから受信する視聴履歴情
報をアクセスログとする方法である。
機器D1〜DMに視聴履歴情報を報告するモジュールをイ
ンストールし、このモジュールから受信する視聴履歴情
報をアクセスログとする方法である。
【0050】第2の方法は、ユーザの端末機器E1〜EL
とWebサーバC1〜CNの通信経路の途中で、このユー
ザの端末機器E1〜ELとWebサーバC1〜CNの間で通
信される信号を受信し、分析し、アクセスログとする方
法である。
とWebサーバC1〜CNの通信経路の途中で、このユー
ザの端末機器E1〜ELとWebサーバC1〜CNの間で通
信される信号を受信し、分析し、アクセスログとする方
法である。
【0051】第3の方法は、WebサーバC1〜CNに記
録されているアクセスログを収集する方法である。
録されているアクセスログを収集する方法である。
【0052】なお、アクセスログの取得方法は、この3
つに限定されるものではなく、様々な方法が利用でき
る。
つに限定されるものではなく、様々な方法が利用でき
る。
【0053】表1に、アクセスログの具体例を示す。こ
のアクセスログには、アクセスした調査協力者又はユー
ザを識別するユーザIDとアクセスされたURLとアク
セスされた時刻が記録される。
のアクセスログには、アクセスした調査協力者又はユー
ザを識別するユーザIDとアクセスされたURLとアク
セスされた時刻が記録される。
【0054】
【表1】
【0055】ステップS2において、収集機能4は、ア
クセスされたWebページのアクセス数(URLの出現
頻度)をアクセスログに基づいて求め、アクセスされた
WebページのURLをアクセス数の値の大きい順にソ
ートする。なお、アクセスされたWebページのURL
を、アクセスしたユーザ数でソートしてもよい。
クセスされたWebページのアクセス数(URLの出現
頻度)をアクセスログに基づいて求め、アクセスされた
WebページのURLをアクセス数の値の大きい順にソ
ートする。なお、アクセスされたWebページのURL
を、アクセスしたユーザ数でソートしてもよい。
【0056】表2に、アクセスされたWebページを示
すURLのソート結果の一例を示す。
すURLのソート結果の一例を示す。
【0057】
【表2】
【0058】ステップS3において、収集機能4は、ア
クセス数が所定の値以上のURL又は所定の順位以上の
URLを求め、このURLの示すWebページを収集す
る。
クセス数が所定の値以上のURL又は所定の順位以上の
URLを求め、このURLの示すWebページを収集す
る。
【0059】ステップS4において、Web収集システ
ム1の選択機能5は、評価対象のWebページを示すU
RLを入力する。なお、入力される評価対象のWebペ
ージを示すURLは、複数でもよい。
ム1の選択機能5は、評価対象のWebページを示すU
RLを入力する。なお、入力される評価対象のWebペ
ージを示すURLは、複数でもよい。
【0060】ステップS5において、選択機能5は、評
価対象のWebページをリンク関係を分析する基準のW
ebページとする。
価対象のWebページをリンク関係を分析する基準のW
ebページとする。
【0061】ステップS6において、選択機能5は、収
集機能4によって収集されたWebページの中から、基
準のWebページをリンクしているWebページ(以
下、「ハブページ」という)を検索する。
集機能4によって収集されたWebページの中から、基
準のWebページをリンクしているWebページ(以
下、「ハブページ」という)を検索する。
【0062】ステップS7において、選択機能5は、ハ
ブページがリンクしているWebページ(以下、「オー
ソリティページ」という)を検索する。
ブページがリンクしているWebページ(以下、「オー
ソリティページ」という)を検索する。
【0063】図3は、評価対象のWebページを基準の
Webページとした場合のハブページとオーソリティペ
ージとのリンク関係を示す図である。選択機能5は、評
価対象のWebページを含むオーソリティページの集合
と、このオーソリティページをリンクしているハブペー
ジの集合とを検索する。
Webページとした場合のハブページとオーソリティペ
ージとのリンク関係を示す図である。選択機能5は、評
価対象のWebページを含むオーソリティページの集合
と、このオーソリティページをリンクしているハブペー
ジの集合とを検索する。
【0064】ステップS8において、選択機能5は、所
定数以上のWebページを検索したか否か判定する。
定数以上のWebページを検索したか否か判定する。
【0065】所定数以上検索していないと判定された場
合、ステップS9において、選択機能5は、求めたオー
ソリティページを基準のWebページとし、ステップS
6以下の処理を繰り返し、再度ハブページとオーソリテ
ィページとを検索する。
合、ステップS9において、選択機能5は、求めたオー
ソリティページを基準のWebページとし、ステップS
6以下の処理を繰り返し、再度ハブページとオーソリテ
ィページとを検索する。
【0066】所定数以上検索したと判定された場合、ス
テップS10において、選択機能5は、求めたハブペー
ジをアクセスしたユーザ数及びハブページのアクセス数
をアクセスログに基づいて算出し、求めたハブページの
持つリンク数を求め、ハブページをランク付けする。
テップS10において、選択機能5は、求めたハブペー
ジをアクセスしたユーザ数及びハブページのアクセス数
をアクセスログに基づいて算出し、求めたハブページの
持つリンク数を求め、ハブページをランク付けする。
【0067】表3に、ハブページのランク付け結果の具
体例を示す。
体例を示す。
【0068】
【表3】
【0069】この表3は、ハブページを示すURL毎
に、アクセス数、ユーザ数、そのハブページの持ってい
るリンク数を対応付けている。
に、アクセス数、ユーザ数、そのハブページの持ってい
るリンク数を対応付けている。
【0070】ステップS11において、選択機能5は、
上記表3に示すハブページのランク付け結果に基づい
て、オーソリティページ毎に、そのオーソリティページ
をリンクしているハブページのアクセス数の和、そのオ
ーソリティページをリンクしているハブページのリンク
数の和を求め、オーソリティページをランク付けする。
上記表3に示すハブページのランク付け結果に基づい
て、オーソリティページ毎に、そのオーソリティページ
をリンクしているハブページのアクセス数の和、そのオ
ーソリティページをリンクしているハブページのリンク
数の和を求め、オーソリティページをランク付けする。
【0071】表4に、オーソリティページのランク付け
結果の具体例を示す。
結果の具体例を示す。
【0072】
【表4】
【0073】この表4は、オーソリティページを示すU
RL毎に、そのオーソリティページをリンクしているハ
ブページのアクセス数の和、ハブページからのリンク数
(そのオーソリティページをリンクしているハブページ
の数)を対応付けている。
RL毎に、そのオーソリティページをリンクしているハ
ブページのアクセス数の和、ハブページからのリンク数
(そのオーソリティページをリンクしているハブページ
の数)を対応付けている。
【0074】なお、オーソリティページのランク付けの
方法には、様々な方法が利用できる。表5に、オーソリ
ティページのランク付け方法の一例を示す。
方法には、様々な方法が利用できる。表5に、オーソリ
ティページのランク付け方法の一例を示す。
【0075】
【表5】
【0076】ステップS12において、選択機能5は、
ランク付け結果にしたがってハブページのURLとオー
ソリティページのURLとをソートする。
ランク付け結果にしたがってハブページのURLとオー
ソリティページのURLとをソートする。
【0077】ステップS13において、選択機能5は、
ソートしたハブページのURLとオーソリティページの
URLのリスト7を出力する。
ソートしたハブページのURLとオーソリティページの
URLのリスト7を出力する。
【0078】このWeb収集システム1によって収集さ
れ、選択されたハブページ及びオーソリティページは、
例えば評価対象のWebページをアクセスしたユーザの
特性情報(男女比、年齢構成など)と、ネットワーク全
体のユーザの特性情報とを比較する分析に利用される。
れ、選択されたハブページ及びオーソリティページは、
例えば評価対象のWebページをアクセスしたユーザの
特性情報(男女比、年齢構成など)と、ネットワーク全
体のユーザの特性情報とを比較する分析に利用される。
【0079】また、ハブページ及びオーソリティページ
は、アクセス数に差のあるWebページ間の比較に利用
できる。
は、アクセス数に差のあるWebページ間の比較に利用
できる。
【0080】また、オーソリティページ全体又は評価対
象のWebページを除くオーソリティページをアクセス
したユーザの特性情報(例えば男女比)を調べることに
より、ネットワーク上で評価対象のWebページと競合
している他のページをアクセスするユーザの特徴が分か
る。これにより、評価対象のWebページをアクセスす
る可能性の高い潜在的なユーザを推測することができ
る。
象のWebページを除くオーソリティページをアクセス
したユーザの特性情報(例えば男女比)を調べることに
より、ネットワーク上で評価対象のWebページと競合
している他のページをアクセスするユーザの特徴が分か
る。これにより、評価対象のWebページをアクセスす
る可能性の高い潜在的なユーザを推測することができ
る。
【0081】以上説明した本実施の形態においては、ユ
ーザによってWebページがアクセスされた旨を示すア
クセスログに基づいて、実際にアクセスされたWebペ
ージが収集され、収集されたWebページの中から所定
のリンク関係を持つWebページのみが選択される。
ーザによってWebページがアクセスされた旨を示すア
クセスログに基づいて、実際にアクセスされたWebペ
ージが収集され、収集されたWebページの中から所定
のリンク関係を持つWebページのみが選択される。
【0082】これにより、ユーザによって実際にアクセ
スされ、分析に有効なWebページのみが収集され、こ
の収集されたWebページを利用することにより分析を
効率的、効果的に行うことができる。
スされ、分析に有効なWebページのみが収集され、こ
の収集されたWebページを利用することにより分析を
効率的、効果的に行うことができる。
【0083】また、Webページの収集が自動化されて
容易となり、ドメイン単位よりも細かい単位でWebペ
ージを収集でき、分類できる。したがって、ドメイン単
位の分類よりも分類精度を向上させ、高精度な検索サー
ビスを提供できる。
容易となり、ドメイン単位よりも細かい単位でWebペ
ージを収集でき、分類できる。したがって、ドメイン単
位の分類よりも分類精度を向上させ、高精度な検索サー
ビスを提供できる。
【0084】また、本実施の形態においては、アクセス
されていないWebページが収集されることはないた
め、ネットワーク6上のWebページのリンク構造を把
握する場合に、アクセスされないWebページによりリ
ンク構造の解析結果が複雑化することを防止できる。
されていないWebページが収集されることはないた
め、ネットワーク6上のWebページのリンク構造を把
握する場合に、アクセスされないWebページによりリ
ンク構造の解析結果が複雑化することを防止できる。
【0085】なお、本実施の形態において、収集機能4
は、調査協力者によってアクセスされたことをWebペ
ージの収集条件に加えてもよい。これにより、調査協力
者の提供した属性データに基づいて分析処理を実行可能
なWebページのみを収集することができるため、収集
効率及び分析効率を向上させることができる。
は、調査協力者によってアクセスされたことをWebペ
ージの収集条件に加えてもよい。これにより、調査協力
者の提供した属性データに基づいて分析処理を実行可能
なWebページのみを収集することができるため、収集
効率及び分析効率を向上させることができる。
【0086】また、本実施の形態において、選択機能5
は、リンク関係に基づいてWebページを選択するとし
ているが、これに限定されるものではない。例えば、選
択機能5は、同一の単語が所定数以上あるか否かなどの
ように、出現する単語の重複度に基づいてWebページ
間の類似性を求め、この出現単語に基づいて得られた類
似性に基づいてWebページを選択するとしてもよい。
は、リンク関係に基づいてWebページを選択するとし
ているが、これに限定されるものではない。例えば、選
択機能5は、同一の単語が所定数以上あるか否かなどの
ように、出現する単語の重複度に基づいてWebページ
間の類似性を求め、この出現単語に基づいて得られた類
似性に基づいてWebページを選択するとしてもよい。
【0087】また、本実施の形態で説明した各構成要素
は、自由に組み合わせてもよく、また複数の要素に分割
してもよい。例えば、収集機能4と選択機能5とは、組
み合わせてもよい。
は、自由に組み合わせてもよく、また複数の要素に分割
してもよい。例えば、収集機能4と選択機能5とは、組
み合わせてもよい。
【0088】また、本実施の形態におけるWeb収集プ
ログラム3は、複数のコンピュータ上に分散され、互い
に連携しつつ動作してもよい。
ログラム3は、複数のコンピュータ上に分散され、互い
に連携しつつ動作してもよい。
【0089】また、Web収集プログラム3は通信媒体
により伝送してコンピュータに適用可能である。Web
収集プログラム3を読み込んだコンピュータは、Web
収集プログラム3によって動作が制御され、上述した機
能を実現する。
により伝送してコンピュータに適用可能である。Web
収集プログラム3を読み込んだコンピュータは、Web
収集プログラム3によって動作が制御され、上述した機
能を実現する。
【0090】また、上記収集機能4と選択機能5とはハ
ードウェアにより実現するとしてもよい。
ードウェアにより実現するとしてもよい。
【0091】
【発明の効果】以上詳記したように本発明においては、
ネットワーク上のWebページグループの中から、分
析、分類に有効なWebページグループのみを効率的に
収集することができる。
ネットワーク上のWebページグループの中から、分
析、分類に有効なWebページグループのみを効率的に
収集することができる。
【図1】本発明の実施の形態に係るWeb収集システム
の構成の一例を示すブロック図。
の構成の一例を示すブロック図。
【図2】同実施の形態に係るWeb収集システムによっ
て実施されるWeb収集方法の一例を示すフローチャー
ト。
て実施されるWeb収集方法の一例を示すフローチャー
ト。
【図3】ハブページとオーソリティページとのリンク関
係を示す図。
係を示す図。
1…Web収集システム
2…記録媒体
3…Web収集プログラム
4…収集機能
5…選択機能
6…ネットワーク
7…リスト
C1〜CN…Webサーバ
D1〜DM、E1〜EL…端末機器
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 飯田 晴彦
東京都府中市東芝町1番地 株式会社東芝
府中事業所内
Fターム(参考) 5B075 KK02 PR03
5B082 EA01 FA11 HA08
Claims (10)
- 【請求項1】 コンピュータに、 少なくとも一つのWebページを含むWebページグル
ープのうちアクセスされたWebページグループの識別
情報を含むアクセスログを取得し、前記アクセスログに
含まれている識別情報の示すWebページグループを収
集する収集機能と、 収集されたWebページグループの中から、評価対象と
して指定されたWebページグループと所定の関係を持
つWebページグループを選択する選択機能とを実現さ
せるためのWeb収集プログラム。 - 【請求項2】 請求項1記載のプログラムにおいて、 前記アクセスログは、属性データを提供したユーザによ
ってアクセスされたWebページグループの識別情報を
含み、 前記収集機能は、前記属性データを提供したユーザによ
ってアクセスされたWebページグループを収集するこ
とを特徴とするWeb収集プログラム。 - 【請求項3】 請求項1又は請求項2記載のプログラム
において、 前記選択機能は、前記評価対象として指定されたWeb
ページグループと前記収集されたWebページグループ
との間のリンクの関係を求め、前記収集されたWebペ
ージグループの中から前記評価対象として指定されたW
ebページグループと所定のリンク関係を持つWebペ
ージグループを選択することを特徴とするWeb収集プ
ログラム。 - 【請求項4】 請求項3記載のプログラムにおいて、 前記所定のリンク関係は、前記評価対象として指定され
たWebページグループをリンクしている関係を含むこ
とを特徴とするWeb収集プログラム。 - 【請求項5】 請求項3又は請求項4記載のプログラム
において、 前記所定のリンク関係は、前記評価対象として指定され
たWebページグループをリンクしているWebページ
グループにリンクされている関係を含むことを特徴とす
るWeb収集プログラム。 - 【請求項6】 請求項1乃至請求項5のいずれか記載の
プログラムにおいて、 前記収集機能は、前記アクセスログに基づいて前記アク
セスされたWebページグループの視聴率情報を算出
し、前記視聴率情報に基づいて所定レベル以上のアクセ
スのあるWebページグループを収集することを特徴と
するWeb収集プログラム。 - 【請求項7】 請求項1乃至請求項6のいずれか記載の
プログラムにおいて、 前記選択機能は、前記アクセスログに基づいて算出され
る前記選択されたWebページグループの視聴率情報
と、前記選択されたWebページグループと他のWeb
ページグループとの間のリンク関係とのうち、少なくと
も一方に基づいて、前記選択されたWebページグルー
プをランク付けすることを特徴とするWeb収集プログ
ラム。 - 【請求項8】 請求項1乃至請求項7のいずれか記載の
プログラムにおいて、 コンピュータに、 前記選択機能によって選択されたWebページグループ
の分析結果と前記評価対象として指定されたWebペー
ジグループの分析結果とを出力する出力機能を実現させ
ることを特徴とするWeb収集プログラム。 - 【請求項9】 少なくとも一つのWebページを含むW
ebページグループを収集するシステムにおいて、 アクセスされたWebページグループの識別情報を含む
アクセスログを取得し、前記アクセスログに含まれてい
る識別情報の示すWebページグループを収集する収集
手段と、 収集されたWebページグループの中から、評価対象と
して指定されたWebページグループと所定の関係を持
つWebページグループを選択する選択手段とを具備し
たことを特徴とするWeb収集システム。 - 【請求項10】 コンピュータにより、少なくとも一つ
のWebページを含むWebページグループを収集する
方法において、 アクセスされたWebページグループの識別情報を含む
アクセスログを取得し、 前記アクセスログに含まれている識別情報の示すWeb
ページグループを収集し、 収集されたWebページグループの中から、評価対象と
して指定されたWebページグループと所定の関係を持
つWebページグループを選択することを特徴とするW
eb収集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002065862A JP2003263448A (ja) | 2002-03-11 | 2002-03-11 | Web収集プログラム及びシステム並びに方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002065862A JP2003263448A (ja) | 2002-03-11 | 2002-03-11 | Web収集プログラム及びシステム並びに方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003263448A true JP2003263448A (ja) | 2003-09-19 |
Family
ID=29197959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002065862A Pending JP2003263448A (ja) | 2002-03-11 | 2002-03-11 | Web収集プログラム及びシステム並びに方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003263448A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006023961A (ja) * | 2004-07-07 | 2006-01-26 | Fuji Xerox Co Ltd | 文書登録者提示用コンピュータプログラムならびに文書登録者提示装置および方法 |
JP2006092023A (ja) * | 2004-09-21 | 2006-04-06 | Fuji Xerox Co Ltd | 文書管理用コンピュータプログラムならびに文書管理装置および方法 |
JP2009009346A (ja) * | 2007-06-27 | 2009-01-15 | Scigineer Inc | 情報処理装置、情報処理方法、およびプログラム |
JP2010072909A (ja) * | 2008-09-18 | 2010-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2010108363A (ja) * | 2008-10-31 | 2010-05-13 | Yahoo Japan Corp | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
-
2002
- 2002-03-11 JP JP2002065862A patent/JP2003263448A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006023961A (ja) * | 2004-07-07 | 2006-01-26 | Fuji Xerox Co Ltd | 文書登録者提示用コンピュータプログラムならびに文書登録者提示装置および方法 |
JP2006092023A (ja) * | 2004-09-21 | 2006-04-06 | Fuji Xerox Co Ltd | 文書管理用コンピュータプログラムならびに文書管理装置および方法 |
JP2009009346A (ja) * | 2007-06-27 | 2009-01-15 | Scigineer Inc | 情報処理装置、情報処理方法、およびプログラム |
JP2010072909A (ja) * | 2008-09-18 | 2010-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2010108363A (ja) * | 2008-10-31 | 2010-05-13 | Yahoo Japan Corp | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | How YouTube videos are discovered and its impact on video views | |
US10387512B2 (en) | Deriving and using interaction profiles | |
CN101192227B (zh) | 一种基于分布式计算网络的日志文件分析方法和系统 | |
Baglioni et al. | Preprocessing and mining web log data for web personalization | |
US20120215765A1 (en) | Systems and Methods for Generating Statistics from Search Engine Query Logs | |
US8494897B1 (en) | Inferring profiles of network users and the resources they access | |
US9576251B2 (en) | Method and system for processing web activity data | |
CN100547593C (zh) | 在web爬取过程期间给网站排优先级的系统和方法 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN106790487B (zh) | 帮助信息的显示方法、装置及系统 | |
US20060095430A1 (en) | Web page ranking with hierarchical considerations | |
US20130185294A1 (en) | Recommender system, recommendation method, and program | |
US20080183664A1 (en) | Presenting web site analytics associated with search results | |
Upstill et al. | Predicting fame and fortune: pagerank or indegree? | |
AU2009246546A1 (en) | Search results with most clicked next objects | |
US11423096B2 (en) | Method and apparatus for outputting information | |
US20040117363A1 (en) | Information processing device and method, recording medium, and program | |
CN104217031A (zh) | 一种根据服务器搜索日志数据进行用户分类的方法和装置 | |
GB2498762A (en) | Computing user traffic at the website based on user actions | |
US20110184815A1 (en) | System and method for sharing profits with one or more content providers | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
Sujatha | Improved user navigation pattern prediction technique from web log data | |
CN112115280A (zh) | 一种全媒体影响力传播分析方法及装置 | |
Obradović et al. | A social network analysis and mining methodology for the monitoring of specific domains in the blogosphere | |
KR101621735B1 (ko) | 추천 검색어 제공 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080408 |