JP2004118363A - Wwwにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体 - Google Patents
Wwwにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体 Download PDFInfo
- Publication number
- JP2004118363A JP2004118363A JP2002278180A JP2002278180A JP2004118363A JP 2004118363 A JP2004118363 A JP 2004118363A JP 2002278180 A JP2002278180 A JP 2002278180A JP 2002278180 A JP2002278180 A JP 2002278180A JP 2004118363 A JP2004118363 A JP 2004118363A
- Authority
- JP
- Japan
- Prior art keywords
- dynamic
- topic
- www
- hub
- authority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】WWWネットワークの将来の中心的ページと権威的ページを予測することを可能にする。
【解決手段】本発明は、Webページのリンク関係の時系列変化を表すネットワーク時系列系情報を用いて成長予測モデルにより確率的に予測を行い、WWWネットワークにおける、あるトピックに対しての中心的なページ及び権威的なページの移り変わる変化を予測する。
【選択図】 図1
【解決手段】本発明は、Webページのリンク関係の時系列変化を表すネットワーク時系列系情報を用いて成長予測モデルにより確率的に予測を行い、WWWネットワークにおける、あるトピックに対しての中心的なページ及び権威的なページの移り変わる変化を予測する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、WWWにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体に係り、特に、与えられたトピックに対する将来のWWWネットワークの中心的ページと権威的ページの予測方法において、トピックが指定されたとき、そのトピックに関わるWWWネットワークの時系列を収集し、このWWWネットワークの時系列に基づいて、そのトピックに関わるWWWネットワークの成長を予測することにより、そのトピックに関わるネットワークの将来の中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来、トピックが指定されたとき、現在での当該トピックに関わるWebページを収集する方法がある(例えば、非特許文献1参照)。
また、収集されたWWWネットワークに基づいて、当該トピックに関わるWWWネットワークの現在の中心的ページと権威的ページを見つける方法が確立されている。
【0003】
【非特許文献1】
“J.Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of the 9th ACM−SIAM Symposium on Discrete Algorithm, 668−677, 1998.”。
【0004】
【発明が解決しようとする課題】
しかしながら、WWWは、時々刻々とページやハイパーリンクが生成または、消滅する動的なネットワークであるので、与えられたトピックに関わるWWWネットワークの中心的ページと権威的ページも動的に変化する。実際、与えられたトピックに関わる現在のWWWネットワークの中心的ページと権威あるページが、近い将来において他のページにとって代わられることは十分にあり得る。従って、与えられたトピックに関わる将来のWWWネットワークの中心的ページと権威的ページを予測する方法の確立が重要な課題となっている。
【0005】
本発明は、上記の点に鑑みなされたもので、トピックが指定されたとき、当該トピックに関わるWWWネットワークの時系列を収集し、これに基づいて当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページを予測することが可能なWWWにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0007】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測方法において、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得し(ステップ1)、
獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを獲得し(ステップ2)、
獲得されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得し(ステップ3)、
出力数nが指定されたとき、Webページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する(ステップ4)。
【0008】
図2は、本発明の原理構成図である。
【0009】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測装置であって、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得手段10と、
隣接行列時系列データ獲得手段10で獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得手段20と、
ネットワーク成長モデル獲得手段20で作成されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得手段30と、
出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得手段30で計算されたWebページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得手段40と、を有する。
【0010】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するための予測プログラムであって、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得ステップと、
隣接行列時系列データ獲得ステップで獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得ステップと、
ネットワーク成長モデル獲得ステップで作成されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得ステップと、
出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得ステップで計算されたWebページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得ステップと、を実行する。
【0011】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するための予測プログラムを格納した記憶媒体であって、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得ステップと、
隣接行列時系列データ獲得ステップで獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得ステップと、
ネットワーク成長モデル獲得ステップで作成されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得ステップと、
出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得ステップで計算されたWebページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得ステップと、を有する。
【0012】
上記のように、本発明では、隣接行列時系列データ獲得時において、一定期間においてある時間単位で、従来技術を利用して、各時刻での当該トピックに関わるWebページを収集し、それらをうまく結合して、当該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得をしている。従って、当該トピックに関わるWWWネットワークの成長の様子を記録したデータの獲得が可能となる。
【0013】
次に、ネットワーク成長モデル獲得時に、隣接行列時系列データ獲得時に作成された当該トピックに関わるWWWネットワークの成長の様子が記録されている、隣接行列の時系列データを訓練データとし、パラメータをもつネットワーク成長予測モデルを“maximal likelihood estimate ”に基づいて学習させている。従って、当該トピックに関わるWWWネットワークの成長予測モデルの獲得が可能になる。
【0014】
また、動的ハブ・動的オーソリティ獲得時に、ネットワーク成長モデル獲得時に生成された、当該トピックに関わるWWWネットワークの成長モデルに対して、その動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算している。従って、各Webページに対して、その将来のハブ度とオーソリティ度の予測値である、動的ハブ度と動的オーソリティ度の獲得が可能となる。
【0015】
さらに、出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得時に作成された、各Webページの動的ハブ度と動的オーソリティ度に基づいて、その上位nページをそれぞれ出力している。従って、本発明の目的である、当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補を予測することが実現できる。
【0016】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0017】
図3は、本発明の一実施の形態における予測装置の構成を示す。
【0018】
同図に示す予測装置は、隣接行列時系列データ獲得部10、ネットワーク成長モデル獲得部20、動的ハブ・動的オーソリティ獲得部30、有望ハブ・有望オーソリティ獲得部40から構成される。
【0019】
隣接行列時系列データ獲得部10は、トピックが与えられたとき、それを質問としてテキストベースのWWW検索エンジン50へある時間単位で一定期間投げかけることにより、当該トピックに関わるWWWネットワークの成長の様子が記録されている、隣接行列の時系列データを獲得するものである。
【0020】
以下に具体的に隣接行列時系列データ獲得部10について説明する。
【0021】
トピックσが指定されたとする。予め、サンプルする時間間隔と、サンプル回数及び、一度の保存する該当Webページ数を決めておく。
【0022】
まず、時刻t=0において、トピックσを質問として、インターネット経由ででテキストベースのWWW検索エンジン50へ投げかけ、その回答から上位200のWebページを保存する。この各ページに対して、そのフォワードリンクを適当に50本まで辿ることにより、新たな50個までのWebページを保存する。さらに、そのバックワードリンクをWWW検索エンジン50を用いて調べ、それらを50本まで辿ることにより、新たな50個までのWebページを保存する。このようにしてできたWebページ全体の集合を、時刻t=0におけるトピックσの基本集合と呼び、S0 (σ)と記述する。このような、ある時刻でのあるトピックに関わるWWWページを収集する方法は、従来技術として知られている。同様にして任意の時刻tにおけるトピックσの基本集合St (σ)が獲得される。 各時刻tに対して、Webページの集合
【0023】
【数1】
が定義するネットワークGt (σ)を構成する。但し、自己リンク(あるノードからそのノード自身へのリンク)は取り除く。これにより、トピックσに関わるWWWネットワークの成長の様子を記録したネットワーク時系列{Gt (σ);t=0,1,…,T}が獲得される。
【0024】
一般に、ネットワークGのリンク構造は、その隣接行列Aにより実現できる。ここに、Gをノード数Nのネットワークとするとき、その隣接行列Aは、その(i,j)成分A(i,j)がノードiからノードjへのリンク数であるような、N×N行列である。
【0025】
出現時刻に対応したノードの番号付けを行い、各時刻tに対して、ネットワークGt (σ)の隣接行列At を計算し、保存する。これにより、トピックσに関わるWWWネットワークの成長の様子が記録されている、隣接行列の時系列データ{At ;t=0,1,…,T}が獲得される。
【0026】
次に、ネットワーク成長モデル獲得部20について説明する。
【0027】
ネットワーク成長モデル獲得部20は、隣接行列時系列データ獲得部10で作成された、隣接行列の時系列データ{At ;t=0,1,…,T}を訓練データとし、パラメータを持つネットワーク成長予測モデルを“maximal likelihood estimate ”に基づいて学習させることにより、トピックσに関わるWWWネットワークの成長予測モデルを獲得する。
【0028】
以下では、まず、パラメータを持つネットワーク成長予測モデルを説明し、次に、その学習法を説明する。
【0029】
成長予測モデルとしては、未来の時刻t(>T)において予測される、トピックσに関わるWWWネットワークGt (σ)の隣接行列がAt であるという確率は、P(At |AT ,θ)という形のパラメータθを持つ予測モデルで次のように記述されるとする。パラメータθは、
【0030】
【数2】
であり、
【0031】
【数3】
であり、
【0032】
【数4】
である。ネットワークGT (σ)からネットワークGt (σ)へ増加したリンクの全体
【0033】
【数5】
とする。ここに、[ut i ,vt i ]は始点がut i で終点がvt i であるリンクを表しており、
【0034】
【数6】
はリンク[ut i ,vt i ]が
【0035】
【数7】
本加えられたことを表している。
【0036】
ネットワークGT (σ)のノード全体の集合をNT と記述する。このとき、
【0037】
【数8】
であり、
【0038】
【数9】
【0039】
【数10】
であり、
【0040】
【数11】
であり、
【0041】
【数12】
である。
【0042】
次に、学習法について説明する。
【0043】
まず、コミュニティ数Kを設定し、時刻Tにおけるノード全体の集合NT ={1,…,NT }を、隣接行列AT を用いてK個の互いに交わらない部分集合(コミュニティ)z1 ,…,zK に以下のようにして分割する。i,j∈NT に対して、
BT (i,j)=AT (i,j)+AT (j,i)
とし、
BT (i,i)=max {BT (i,j);j∈NT }
とし、ai をその第h成分ai (h)が、
【0044】
【数13】
であるNT 次元ベクトルとする。また、ノードiからノードjへの距離dを
【0045】
【数14】
で定義する。このとき、集合NT と距離dに対して、よく知られているK−meansクラスタリングアルゴリズム(例えば、C.Bishop, Neural Networks for Pattern Recognition, Oxford University Press, 1995, の5.9.3 節を参照)を適用することにより、集合NT をK個の互いに交わらない部分集合z1 ,…,zK に分割する。
【0046】
次に、このクラスタリングの結果に基づいて、パラメータ
【0047】
【数15】
を推定する。時刻t=0での隣接行列A0 と時刻t=Tでの隣接行列AT からこの期間に増加したリンクを調べることにより、この期間に増加したリンクの総数m、この期間に増加したリンクで始点がzk に属するものの数n1 k 、この期間に増加したリンクで始点がzk に属し、終点が
【0048】
【数16】
に属するものの数
【0049】
【数17】
この期間に増加したリンクで始点がzk に属し、終点が
【0050】
【数18】
に属し、始点も終点も旧ノードであったものの数
【0051】
【数19】
この期間に増加したリンクで始点がzk に属し、終点が
【0052】
【数20】
に属し、始点が旧ノードで終点が新ノードであったものの数
【0053】
【数21】
この期間に増加したリンクの始点がzk に属し、終点が
【0054】
【数22】
に属し、始点が新ノードで終点が旧ノードであったものの数
【0055】
【数23】
この期間に増加したリンクで始点がzk に属し、終点が
【0056】
【数24】
に属し、始点も終点も新ノードであったものの数
【0057】
【数25】
を、それぞれ計算する。このとき、
【0058】
【数26】
と推定する。
【0059】
最後に、残りのパラメータ
【0060】
【数27】
と
【0061】
【数28】
をmaximal likelihood estimate に基づいて次のような逐次的な手法で推定する。ψ={α,β}とおく。
【0062】
【数29】
をψの現在の推定値とする。このとき、ψの次のステップの推定値は、
【0063】
【数30】
を最大化するψである。ここに、
【0064】
【数31】
である。ψの次のステップの推定値は、次のような逐次的な手法で、αとβ別々に推定される。
【0065】
【数32】
をαの現在の推定値とする。このとき、αの次のステップ推定値は、
【0066】
【数33】
で与えられる。ここに、
【0067】
【数34】
である。また、
【0068】
【数35】
は、
【0069】
【数36】
が隣接行列がAt−1 であるネットワークのノードであるならば1で、そうでないならば0である。βの次のステップ推定値もまた同様に与えられる。従って、パラメータ
【0070】
【数37】
が推定される。
【0071】
以上より、隣接行列の時系列データ{At ;t=0,1,…,T}からトピックσに関わるWWWネットワークの成長予測モデル
P(At |AT ,θ), t>T
が構成された。
【0072】
次に、動的ハブ・動的オーソリティ獲得部30について説明する。
【0073】
動的ハブ・動的オーソリティ獲得部30は、ネットワーク成長モデル獲得部20で作成されたトピックσに関わるWWWネットワークの成長予測モデルP(At |AT ,θ)に対して、その動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得する。
【0074】
以下に、動的ハブ・動的オーソリティ獲得部30の動作の詳細を説明する。
【0075】
まず、NT ×NT 行列Γを、i,j∈NT に対して、
Γ(i,j)=P([i,j]|AT ,θ)
により定義する。これをトピックσに関わるWWWネットワークの成長予測モデルの動的確率行列と呼ぶ。この動的確率行列Γに対して、行列の主固有ベクトルを求めるよく知られた巾法(例えば、J.Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of the 9th ACM−SIAM Symposium on Discrete Algorithm, 668−677, 1998.を参照)を、行列ΓΓT と行列ΓT Γに適用することにより、NT 次元のベクトルyとベクトルxをそれぞれ求める。ここに、ΓT は、行列Γの転置行列を表している。ベクトルyを動的ハブベクトル、ベクトルxを動的オーソリティベクトルを呼ぶ。ベクトルyの第i成分y(i)とベクトルxの第i成分x(i)は、トピックσに関わるWWWネットワークにおいて、それぞれ、将来のハブ度とオーソティ度を予測するものであり、Webページiの動的ハブ度と動的オーソリティ度と呼ぶ。
【0076】
従って、トピックσに関わるWWWネットワークの成長予測モデルから、各Webページの動的ハブ度と動的オーソリティ度が作成された。
【0077】
次に、有望ハブ・有望オーソリティ獲得部40について説明する。
【0078】
有望ハブ・有望オーソリティ獲得部40は、出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得部30で作成された、トピックσに関わるWWWネットワークにおける、時刻Tでの各Webページの動的ハブ度と動的オーソリティ度に基づいて、その上位nページをそれぞれ出力する。即ち、出力数nが指定されたならば、まず、
【0079】
【数38】
であるj1 ,…,jn ∈NT を計算し、
【0080】
【数39】
であるi1 ,…,in ∈NT を計算する。その結果、当該トピックに関わるWWWネットワークの将来の中心的ページの候補として、n個のWebページj1 ,…,jn を、その将来の権威的ページの候補としてn個のWebページi1 ,…,in を、それぞれ出力する。
【0081】
次に、上記の構成における一連の動作を説明する。
【0082】
図4は、本発明の一実施の形態におけるWWWにおけるハブとオーソリティ予測方法のフローチャートである。
【0083】
ステップ101) 隣接行列時系列データ獲得部10にトッピックが与えられると、隣接行列時系列データ獲得部10は、トピックに対して、当該トピックを質問として、WWW検索エンジン50にアクセスすることにより、当該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得し、ネットワーク成長モデル獲得部20に渡す。
【0084】
ステップ102) ネットワーク成長モデル獲得部20は、隣接行列時系列データ獲得部10から取得した当該トピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータを持つネットワーク成長予測モデルを学習させることにより、当該トピックに関わるWWWネットワークの成長予測モデルを獲得し、動的ハブ・動的オーソリティ獲得部30に渡す。
【0085】
ステップ103) 動的ハブ・動的オーソリティ獲得部30は、ネットワーク成長モデル獲得部20から取得した、当該トピックに関わるWWWネットワークの成長モデルに対して、その動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得し、有望ハブ・有望オーソリティ獲得部40に渡す。
【0086】
ステップ104) 有望ハブ・有望オーソリティ獲得部40は、出力数nが指定されると、動的ハブ・動的オーソリティ獲得部30から取得した各Webページの動的ハブ度と動的オーソリティ度に基づいて、当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する。
【0087】
【実施例】
以下、図面と共に、本発明の実施例を説明する。
【0088】
以下では、トピックとして“mp3”を与え、T=1として行った例を用いて説明する。
【0089】
図5は、本発明の一実施例のトピックmp3に関わるWWWネットワークの将来の中心的Webページを予測した例を示す。
【0090】
図5(a)では、時刻Tでのmp3に関わるWWWネットワークに対するハブ度の上位20ページを横軸にとり、縦軸に、時刻Tでのハブ度と、時刻T+Δtでのハブ度、K=1としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度、K=2としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度を、それぞれとり、それらの値がプロットされている。
【0091】
図5(b)と図5(c)は、K=2としたネットワークの成長予測モデルを用いて学習した場合について、予測結果をより細かく見た図である。
【0092】
図5(b)では、時刻Tでのコミュニティz1 に属するノードの中で、時刻Tでのmp3に関わるWWWネットワークに対するハブ度の上位20ページを横軸にとり、縦軸に時刻Tでのハブ度と、時刻T+Δtでのハブ度、時刻Tでの動的ハブ度を、それぞれとり、それらの値がプロットされている。
【0093】
図5(c)では、時刻Tでのコミュニティz2 に属するノードの中で、時刻Tでのmp3に関わるWWWネットワークに対するハブ度の上位20ページを横軸にとり、縦軸に、時刻Tでのハブ度と、時刻T+Δtでのハブ度、時刻Tでの動的ハブ度を、それぞれとり、それらの値がプロットされている。
【0094】
図5において、菱形の記号は、時刻Tでのmp3に関わるWWWネットワークに対するハブ度を、三角の記号は、時刻T+Δtでのmp3に関わるWWWネットワークに対するハブ度を、丸の記号は、K=1としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度、四角の記号は、K=2としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度を、それぞれ表している。
【0095】
図5を用いて本実施例を説明する。
【0096】
コミュニティ数Kに対しては、K=1とした(コミュニティ構造を組み込まない)ネットワーク成長予測モデルと、K=2とした(コミュニティ構造を組み込んだ)ネットワーク成長モデルとを比較する。図5(a)に示されているように、mp3に関わるWWWネットワークにおいて、時刻Tから見た未来の時刻T+Δtでの中心的ページは、時刻Tでの中心的ページと変化している。図5から、mp3に関わるWWWネットワークの時刻T+Δtでのハブ度の変動は、K=2としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度の変動により、高精度に予測できることがわかる。即ち、mp3に関わるWWWネットワークの時刻T+Δtでの中心的ページは、本発明の方法を用いることで、高精度に予測できることがわかる。また、図5(a)から、mp3に関わるWWWネットワークの時刻T+Δtでの中心的ページの予測に関しては、K=2としたネットワーク成長予測モデルを用いて学習した場合の方が、K=1としてネットワーク成長予測モデルを用いて学習した場合よりも、精度が高いことがわかる。即ち、コミュニティ数Kを適切に設定することにより、将来の中心的ページの高精度な予測が可能なことがわかる。
【0097】
以上より、mp3に関わるWWWネットワークの時刻T+Δtでの中心的ページは、時刻Tまでの精度を基に本発明を利用することにより、高精度に予測できることが示される。
【0098】
また、上記の実施の形態における図3に示す構成要素をプログラムとして構築し、予測装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0099】
また、構築されたプログラムを予測装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより、本発明を実現できる。
【0100】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0101】
【発明の効果】
上述のように、本発明によれば、与えられたトピックに対して、当該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得でき、このトピックに関わるWWWネットワークの隣接行列の時系列データに基づいて、当該トピックに関わるWWWネットワークの成長予測モデルを獲得でき、このトピックに関わるWWWネットワークの成長予測モデルに基づいて、各Webページの動的ハブ度と動的オーソリティ度とを獲得でき、さらに出力数nが指定されたとき、この各Webページの動的ハブ度と動的オーソリティ度に基づいて、当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力できるので、与えられたトピックに対する将来のWWWネットワークの中心的ページと権威的ページの予測が実現できるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における予測装置の構成図である。
【図4】本発明の一実施の形態におけるハブとオーソリティ予測方法のフローチャートである。
【図5】本発明の一実施例のトピックmp3に関わるWWWネットワークの将来の中心的Webページを予測した例である。
【符号の説明】
10 隣接行列時系列データ獲得手段、隣接行列時系列データ獲得部
20 ネットワーク成長モデル獲得手段、ネットワーク成長モデル獲得部
30 動的ハブ・動的オーソリティ獲得手段、動的ハブ・動的オーソリティ獲得部
40 有望ハブ・有望オーソリティ獲得手段、有望ハブ・有望オーソリティ獲得部
50 WWW検索エンジン
【発明の属する技術分野】
本発明は、WWWにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体に係り、特に、与えられたトピックに対する将来のWWWネットワークの中心的ページと権威的ページの予測方法において、トピックが指定されたとき、そのトピックに関わるWWWネットワークの時系列を収集し、このWWWネットワークの時系列に基づいて、そのトピックに関わるWWWネットワークの成長を予測することにより、そのトピックに関わるネットワークの将来の中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来、トピックが指定されたとき、現在での当該トピックに関わるWebページを収集する方法がある(例えば、非特許文献1参照)。
また、収集されたWWWネットワークに基づいて、当該トピックに関わるWWWネットワークの現在の中心的ページと権威的ページを見つける方法が確立されている。
【0003】
【非特許文献1】
“J.Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of the 9th ACM−SIAM Symposium on Discrete Algorithm, 668−677, 1998.”。
【0004】
【発明が解決しようとする課題】
しかしながら、WWWは、時々刻々とページやハイパーリンクが生成または、消滅する動的なネットワークであるので、与えられたトピックに関わるWWWネットワークの中心的ページと権威的ページも動的に変化する。実際、与えられたトピックに関わる現在のWWWネットワークの中心的ページと権威あるページが、近い将来において他のページにとって代わられることは十分にあり得る。従って、与えられたトピックに関わる将来のWWWネットワークの中心的ページと権威的ページを予測する方法の確立が重要な課題となっている。
【0005】
本発明は、上記の点に鑑みなされたもので、トピックが指定されたとき、当該トピックに関わるWWWネットワークの時系列を収集し、これに基づいて当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページを予測することが可能なWWWにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0007】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測方法において、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得し(ステップ1)、
獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを獲得し(ステップ2)、
獲得されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得し(ステップ3)、
出力数nが指定されたとき、Webページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する(ステップ4)。
【0008】
図2は、本発明の原理構成図である。
【0009】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測装置であって、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得手段10と、
隣接行列時系列データ獲得手段10で獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得手段20と、
ネットワーク成長モデル獲得手段20で作成されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得手段30と、
出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得手段30で計算されたWebページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得手段40と、を有する。
【0010】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するための予測プログラムであって、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得ステップと、
隣接行列時系列データ獲得ステップで獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得ステップと、
ネットワーク成長モデル獲得ステップで作成されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得ステップと、
出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得ステップで計算されたWebページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得ステップと、を実行する。
【0011】
本発明は、コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するための予測プログラムを格納した記憶媒体であって、
与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得ステップと、
隣接行列時系列データ獲得ステップで獲得されたトピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得ステップと、
ネットワーク成長モデル獲得ステップで作成されたトピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得ステップと、
出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得ステップで計算されたWebページの動的ハブ度と動的オーソリティ度に基づいて、トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得ステップと、を有する。
【0012】
上記のように、本発明では、隣接行列時系列データ獲得時において、一定期間においてある時間単位で、従来技術を利用して、各時刻での当該トピックに関わるWebページを収集し、それらをうまく結合して、当該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得をしている。従って、当該トピックに関わるWWWネットワークの成長の様子を記録したデータの獲得が可能となる。
【0013】
次に、ネットワーク成長モデル獲得時に、隣接行列時系列データ獲得時に作成された当該トピックに関わるWWWネットワークの成長の様子が記録されている、隣接行列の時系列データを訓練データとし、パラメータをもつネットワーク成長予測モデルを“maximal likelihood estimate ”に基づいて学習させている。従って、当該トピックに関わるWWWネットワークの成長予測モデルの獲得が可能になる。
【0014】
また、動的ハブ・動的オーソリティ獲得時に、ネットワーク成長モデル獲得時に生成された、当該トピックに関わるWWWネットワークの成長モデルに対して、その動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算している。従って、各Webページに対して、その将来のハブ度とオーソリティ度の予測値である、動的ハブ度と動的オーソリティ度の獲得が可能となる。
【0015】
さらに、出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得時に作成された、各Webページの動的ハブ度と動的オーソリティ度に基づいて、その上位nページをそれぞれ出力している。従って、本発明の目的である、当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補を予測することが実現できる。
【0016】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0017】
図3は、本発明の一実施の形態における予測装置の構成を示す。
【0018】
同図に示す予測装置は、隣接行列時系列データ獲得部10、ネットワーク成長モデル獲得部20、動的ハブ・動的オーソリティ獲得部30、有望ハブ・有望オーソリティ獲得部40から構成される。
【0019】
隣接行列時系列データ獲得部10は、トピックが与えられたとき、それを質問としてテキストベースのWWW検索エンジン50へある時間単位で一定期間投げかけることにより、当該トピックに関わるWWWネットワークの成長の様子が記録されている、隣接行列の時系列データを獲得するものである。
【0020】
以下に具体的に隣接行列時系列データ獲得部10について説明する。
【0021】
トピックσが指定されたとする。予め、サンプルする時間間隔と、サンプル回数及び、一度の保存する該当Webページ数を決めておく。
【0022】
まず、時刻t=0において、トピックσを質問として、インターネット経由ででテキストベースのWWW検索エンジン50へ投げかけ、その回答から上位200のWebページを保存する。この各ページに対して、そのフォワードリンクを適当に50本まで辿ることにより、新たな50個までのWebページを保存する。さらに、そのバックワードリンクをWWW検索エンジン50を用いて調べ、それらを50本まで辿ることにより、新たな50個までのWebページを保存する。このようにしてできたWebページ全体の集合を、時刻t=0におけるトピックσの基本集合と呼び、S0 (σ)と記述する。このような、ある時刻でのあるトピックに関わるWWWページを収集する方法は、従来技術として知られている。同様にして任意の時刻tにおけるトピックσの基本集合St (σ)が獲得される。 各時刻tに対して、Webページの集合
【0023】
【数1】
が定義するネットワークGt (σ)を構成する。但し、自己リンク(あるノードからそのノード自身へのリンク)は取り除く。これにより、トピックσに関わるWWWネットワークの成長の様子を記録したネットワーク時系列{Gt (σ);t=0,1,…,T}が獲得される。
【0024】
一般に、ネットワークGのリンク構造は、その隣接行列Aにより実現できる。ここに、Gをノード数Nのネットワークとするとき、その隣接行列Aは、その(i,j)成分A(i,j)がノードiからノードjへのリンク数であるような、N×N行列である。
【0025】
出現時刻に対応したノードの番号付けを行い、各時刻tに対して、ネットワークGt (σ)の隣接行列At を計算し、保存する。これにより、トピックσに関わるWWWネットワークの成長の様子が記録されている、隣接行列の時系列データ{At ;t=0,1,…,T}が獲得される。
【0026】
次に、ネットワーク成長モデル獲得部20について説明する。
【0027】
ネットワーク成長モデル獲得部20は、隣接行列時系列データ獲得部10で作成された、隣接行列の時系列データ{At ;t=0,1,…,T}を訓練データとし、パラメータを持つネットワーク成長予測モデルを“maximal likelihood estimate ”に基づいて学習させることにより、トピックσに関わるWWWネットワークの成長予測モデルを獲得する。
【0028】
以下では、まず、パラメータを持つネットワーク成長予測モデルを説明し、次に、その学習法を説明する。
【0029】
成長予測モデルとしては、未来の時刻t(>T)において予測される、トピックσに関わるWWWネットワークGt (σ)の隣接行列がAt であるという確率は、P(At |AT ,θ)という形のパラメータθを持つ予測モデルで次のように記述されるとする。パラメータθは、
【0030】
【数2】
であり、
【0031】
【数3】
であり、
【0032】
【数4】
である。ネットワークGT (σ)からネットワークGt (σ)へ増加したリンクの全体
【0033】
【数5】
とする。ここに、[ut i ,vt i ]は始点がut i で終点がvt i であるリンクを表しており、
【0034】
【数6】
はリンク[ut i ,vt i ]が
【0035】
【数7】
本加えられたことを表している。
【0036】
ネットワークGT (σ)のノード全体の集合をNT と記述する。このとき、
【0037】
【数8】
であり、
【0038】
【数9】
【0039】
【数10】
であり、
【0040】
【数11】
であり、
【0041】
【数12】
である。
【0042】
次に、学習法について説明する。
【0043】
まず、コミュニティ数Kを設定し、時刻Tにおけるノード全体の集合NT ={1,…,NT }を、隣接行列AT を用いてK個の互いに交わらない部分集合(コミュニティ)z1 ,…,zK に以下のようにして分割する。i,j∈NT に対して、
BT (i,j)=AT (i,j)+AT (j,i)
とし、
BT (i,i)=max {BT (i,j);j∈NT }
とし、ai をその第h成分ai (h)が、
【0044】
【数13】
であるNT 次元ベクトルとする。また、ノードiからノードjへの距離dを
【0045】
【数14】
で定義する。このとき、集合NT と距離dに対して、よく知られているK−meansクラスタリングアルゴリズム(例えば、C.Bishop, Neural Networks for Pattern Recognition, Oxford University Press, 1995, の5.9.3 節を参照)を適用することにより、集合NT をK個の互いに交わらない部分集合z1 ,…,zK に分割する。
【0046】
次に、このクラスタリングの結果に基づいて、パラメータ
【0047】
【数15】
を推定する。時刻t=0での隣接行列A0 と時刻t=Tでの隣接行列AT からこの期間に増加したリンクを調べることにより、この期間に増加したリンクの総数m、この期間に増加したリンクで始点がzk に属するものの数n1 k 、この期間に増加したリンクで始点がzk に属し、終点が
【0048】
【数16】
に属するものの数
【0049】
【数17】
この期間に増加したリンクで始点がzk に属し、終点が
【0050】
【数18】
に属し、始点も終点も旧ノードであったものの数
【0051】
【数19】
この期間に増加したリンクで始点がzk に属し、終点が
【0052】
【数20】
に属し、始点が旧ノードで終点が新ノードであったものの数
【0053】
【数21】
この期間に増加したリンクの始点がzk に属し、終点が
【0054】
【数22】
に属し、始点が新ノードで終点が旧ノードであったものの数
【0055】
【数23】
この期間に増加したリンクで始点がzk に属し、終点が
【0056】
【数24】
に属し、始点も終点も新ノードであったものの数
【0057】
【数25】
を、それぞれ計算する。このとき、
【0058】
【数26】
と推定する。
【0059】
最後に、残りのパラメータ
【0060】
【数27】
と
【0061】
【数28】
をmaximal likelihood estimate に基づいて次のような逐次的な手法で推定する。ψ={α,β}とおく。
【0062】
【数29】
をψの現在の推定値とする。このとき、ψの次のステップの推定値は、
【0063】
【数30】
を最大化するψである。ここに、
【0064】
【数31】
である。ψの次のステップの推定値は、次のような逐次的な手法で、αとβ別々に推定される。
【0065】
【数32】
をαの現在の推定値とする。このとき、αの次のステップ推定値は、
【0066】
【数33】
で与えられる。ここに、
【0067】
【数34】
である。また、
【0068】
【数35】
は、
【0069】
【数36】
が隣接行列がAt−1 であるネットワークのノードであるならば1で、そうでないならば0である。βの次のステップ推定値もまた同様に与えられる。従って、パラメータ
【0070】
【数37】
が推定される。
【0071】
以上より、隣接行列の時系列データ{At ;t=0,1,…,T}からトピックσに関わるWWWネットワークの成長予測モデル
P(At |AT ,θ), t>T
が構成された。
【0072】
次に、動的ハブ・動的オーソリティ獲得部30について説明する。
【0073】
動的ハブ・動的オーソリティ獲得部30は、ネットワーク成長モデル獲得部20で作成されたトピックσに関わるWWWネットワークの成長予測モデルP(At |AT ,θ)に対して、その動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得する。
【0074】
以下に、動的ハブ・動的オーソリティ獲得部30の動作の詳細を説明する。
【0075】
まず、NT ×NT 行列Γを、i,j∈NT に対して、
Γ(i,j)=P([i,j]|AT ,θ)
により定義する。これをトピックσに関わるWWWネットワークの成長予測モデルの動的確率行列と呼ぶ。この動的確率行列Γに対して、行列の主固有ベクトルを求めるよく知られた巾法(例えば、J.Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of the 9th ACM−SIAM Symposium on Discrete Algorithm, 668−677, 1998.を参照)を、行列ΓΓT と行列ΓT Γに適用することにより、NT 次元のベクトルyとベクトルxをそれぞれ求める。ここに、ΓT は、行列Γの転置行列を表している。ベクトルyを動的ハブベクトル、ベクトルxを動的オーソリティベクトルを呼ぶ。ベクトルyの第i成分y(i)とベクトルxの第i成分x(i)は、トピックσに関わるWWWネットワークにおいて、それぞれ、将来のハブ度とオーソティ度を予測するものであり、Webページiの動的ハブ度と動的オーソリティ度と呼ぶ。
【0076】
従って、トピックσに関わるWWWネットワークの成長予測モデルから、各Webページの動的ハブ度と動的オーソリティ度が作成された。
【0077】
次に、有望ハブ・有望オーソリティ獲得部40について説明する。
【0078】
有望ハブ・有望オーソリティ獲得部40は、出力数nが指定されたとき、動的ハブ・動的オーソリティ獲得部30で作成された、トピックσに関わるWWWネットワークにおける、時刻Tでの各Webページの動的ハブ度と動的オーソリティ度に基づいて、その上位nページをそれぞれ出力する。即ち、出力数nが指定されたならば、まず、
【0079】
【数38】
であるj1 ,…,jn ∈NT を計算し、
【0080】
【数39】
であるi1 ,…,in ∈NT を計算する。その結果、当該トピックに関わるWWWネットワークの将来の中心的ページの候補として、n個のWebページj1 ,…,jn を、その将来の権威的ページの候補としてn個のWebページi1 ,…,in を、それぞれ出力する。
【0081】
次に、上記の構成における一連の動作を説明する。
【0082】
図4は、本発明の一実施の形態におけるWWWにおけるハブとオーソリティ予測方法のフローチャートである。
【0083】
ステップ101) 隣接行列時系列データ獲得部10にトッピックが与えられると、隣接行列時系列データ獲得部10は、トピックに対して、当該トピックを質問として、WWW検索エンジン50にアクセスすることにより、当該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得し、ネットワーク成長モデル獲得部20に渡す。
【0084】
ステップ102) ネットワーク成長モデル獲得部20は、隣接行列時系列データ獲得部10から取得した当該トピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータを持つネットワーク成長予測モデルを学習させることにより、当該トピックに関わるWWWネットワークの成長予測モデルを獲得し、動的ハブ・動的オーソリティ獲得部30に渡す。
【0085】
ステップ103) 動的ハブ・動的オーソリティ獲得部30は、ネットワーク成長モデル獲得部20から取得した、当該トピックに関わるWWWネットワークの成長モデルに対して、その動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得し、有望ハブ・有望オーソリティ獲得部40に渡す。
【0086】
ステップ104) 有望ハブ・有望オーソリティ獲得部40は、出力数nが指定されると、動的ハブ・動的オーソリティ獲得部30から取得した各Webページの動的ハブ度と動的オーソリティ度に基づいて、当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する。
【0087】
【実施例】
以下、図面と共に、本発明の実施例を説明する。
【0088】
以下では、トピックとして“mp3”を与え、T=1として行った例を用いて説明する。
【0089】
図5は、本発明の一実施例のトピックmp3に関わるWWWネットワークの将来の中心的Webページを予測した例を示す。
【0090】
図5(a)では、時刻Tでのmp3に関わるWWWネットワークに対するハブ度の上位20ページを横軸にとり、縦軸に、時刻Tでのハブ度と、時刻T+Δtでのハブ度、K=1としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度、K=2としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度を、それぞれとり、それらの値がプロットされている。
【0091】
図5(b)と図5(c)は、K=2としたネットワークの成長予測モデルを用いて学習した場合について、予測結果をより細かく見た図である。
【0092】
図5(b)では、時刻Tでのコミュニティz1 に属するノードの中で、時刻Tでのmp3に関わるWWWネットワークに対するハブ度の上位20ページを横軸にとり、縦軸に時刻Tでのハブ度と、時刻T+Δtでのハブ度、時刻Tでの動的ハブ度を、それぞれとり、それらの値がプロットされている。
【0093】
図5(c)では、時刻Tでのコミュニティz2 に属するノードの中で、時刻Tでのmp3に関わるWWWネットワークに対するハブ度の上位20ページを横軸にとり、縦軸に、時刻Tでのハブ度と、時刻T+Δtでのハブ度、時刻Tでの動的ハブ度を、それぞれとり、それらの値がプロットされている。
【0094】
図5において、菱形の記号は、時刻Tでのmp3に関わるWWWネットワークに対するハブ度を、三角の記号は、時刻T+Δtでのmp3に関わるWWWネットワークに対するハブ度を、丸の記号は、K=1としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度、四角の記号は、K=2としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度を、それぞれ表している。
【0095】
図5を用いて本実施例を説明する。
【0096】
コミュニティ数Kに対しては、K=1とした(コミュニティ構造を組み込まない)ネットワーク成長予測モデルと、K=2とした(コミュニティ構造を組み込んだ)ネットワーク成長モデルとを比較する。図5(a)に示されているように、mp3に関わるWWWネットワークにおいて、時刻Tから見た未来の時刻T+Δtでの中心的ページは、時刻Tでの中心的ページと変化している。図5から、mp3に関わるWWWネットワークの時刻T+Δtでのハブ度の変動は、K=2としたネットワーク成長予測モデルを用いて学習した場合の時刻Tでの動的ハブ度の変動により、高精度に予測できることがわかる。即ち、mp3に関わるWWWネットワークの時刻T+Δtでの中心的ページは、本発明の方法を用いることで、高精度に予測できることがわかる。また、図5(a)から、mp3に関わるWWWネットワークの時刻T+Δtでの中心的ページの予測に関しては、K=2としたネットワーク成長予測モデルを用いて学習した場合の方が、K=1としてネットワーク成長予測モデルを用いて学習した場合よりも、精度が高いことがわかる。即ち、コミュニティ数Kを適切に設定することにより、将来の中心的ページの高精度な予測が可能なことがわかる。
【0097】
以上より、mp3に関わるWWWネットワークの時刻T+Δtでの中心的ページは、時刻Tまでの精度を基に本発明を利用することにより、高精度に予測できることが示される。
【0098】
また、上記の実施の形態における図3に示す構成要素をプログラムとして構築し、予測装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0099】
また、構築されたプログラムを予測装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより、本発明を実現できる。
【0100】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0101】
【発明の効果】
上述のように、本発明によれば、与えられたトピックに対して、当該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得でき、このトピックに関わるWWWネットワークの隣接行列の時系列データに基づいて、当該トピックに関わるWWWネットワークの成長予測モデルを獲得でき、このトピックに関わるWWWネットワークの成長予測モデルに基づいて、各Webページの動的ハブ度と動的オーソリティ度とを獲得でき、さらに出力数nが指定されたとき、この各Webページの動的ハブ度と動的オーソリティ度に基づいて、当該トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力できるので、与えられたトピックに対する将来のWWWネットワークの中心的ページと権威的ページの予測が実現できるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における予測装置の構成図である。
【図4】本発明の一実施の形態におけるハブとオーソリティ予測方法のフローチャートである。
【図5】本発明の一実施例のトピックmp3に関わるWWWネットワークの将来の中心的Webページを予測した例である。
【符号の説明】
10 隣接行列時系列データ獲得手段、隣接行列時系列データ獲得部
20 ネットワーク成長モデル獲得手段、ネットワーク成長モデル獲得部
30 動的ハブ・動的オーソリティ獲得手段、動的ハブ・動的オーソリティ獲得部
40 有望ハブ・有望オーソリティ獲得手段、有望ハブ・有望オーソリティ獲得部
50 WWW検索エンジン
Claims (4)
- コンピュータ上で入力されたトピックに対する将来のWWW(World Wide Web) ネットワークの中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測方法において、
前記与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを獲得し、
獲得された前記トピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを獲得し、
獲得された前記トピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を獲得し、
出力数nが指定されたとき、前記Webページの動的ハブ度と動的オーソリティ度に基づいて、前記トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力することを特徴とするWWWにおけるハブとオーソリティ予測方法。 - コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するためのWWWにおけるハブとオーソリティ予測装置であって、
前記与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得手段と、
前記隣接行列時系列データ獲得手段で獲得された前記トピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得手段と、
前記ネットワーク成長モデル獲得手段で作成された前記トピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得手段と、
出力数nが指定されたとき、前記動的ハブ・動的オーソリティ獲得手段で計算された前記Webページの動的ハブ度と動的オーソリティ度に基づいて、前記トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得手段と、を有することを特徴とするWWWにおけるハブとオーソリティ予測装置。 - コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するための予測プログラムであって、
前記与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得ステップと、
前記隣接行列時系列データ獲得ステップで獲得された前記トピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得ステップと、
前記ネットワーク成長モデル獲得ステップで作成された前記トピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得ステップと、
出力数nが指定されたとき、前記動的ハブ・動的オーソリティ獲得ステップで計算された前記Webページの動的ハブ度と動的オーソリティ度に基づいて、前記トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得ステップと、を実行することを特徴とする予測プログラム。 - コンピュータ上で入力されたトピックに対する将来のWWWネットワークの中心的ページと権威的ページを予測するための予測プログラムを格納した記憶媒体であって、
前記与えられたトピックに対して、該トピックに基づいてWWW検索エンジンにアクセスして、該トピックに関わるWWWネットワークの隣接行列の時系列データを収集する隣接行列時系列データ獲得ステップと、
前記隣接行列時系列データ獲得ステップで獲得された前記トピックに関わるWWWネットワークの隣接行列の時系列データを訓練データとして、パラメータをもつネットワーク成長予測モデルを学習させることにより、該トピックに関わるWWWネットワークの成長予測モデルを作成するネットワーク成長モデル獲得ステップと、
前記ネットワーク成長モデル獲得ステップで作成された前記トピックに関わるWWWネットワークの成長予測モデルの動的確率行列から動的ハブベクトルと動的オーソリティベクトルを計算することにより、各Webページの動的ハブ度と動的オーソリティ度を取得する動的ハブ・動的オーソリティ獲得ステップと、
出力数nが指定されたとき、前記動的ハブ・動的オーソリティ獲得ステップで計算された前記Webページの動的ハブ度と動的オーソリティ度に基づいて、前記トピックに関わるWWWネットワークの将来の中心的ページと権威的ページの候補の上位nページをそれぞれ出力する有望ハブ・有望オーソリティ獲得ステップと、を有することを特徴とする予測プログラムを格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002278180A JP2004118363A (ja) | 2002-09-24 | 2002-09-24 | Wwwにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002278180A JP2004118363A (ja) | 2002-09-24 | 2002-09-24 | Wwwにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004118363A true JP2004118363A (ja) | 2004-04-15 |
Family
ID=32273530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002278180A Pending JP2004118363A (ja) | 2002-09-24 | 2002-09-24 | Wwwにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004118363A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140034A (zh) * | 2015-09-30 | 2018-06-08 | 微软技术许可有限责任公司 | 使用主题模型基于接收的词项选择内容项目 |
JP2019200737A (ja) * | 2018-05-18 | 2019-11-21 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
-
2002
- 2002-09-24 JP JP2002278180A patent/JP2004118363A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140034A (zh) * | 2015-09-30 | 2018-06-08 | 微软技术许可有限责任公司 | 使用主题模型基于接收的词项选择内容项目 |
JP2019200737A (ja) * | 2018-05-18 | 2019-11-21 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP7032233B2 (ja) | 2018-05-18 | 2022-03-08 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Exploring social annotations for information retrieval | |
Santos et al. | Explicit search result diversification through sub-queries | |
JP5454357B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
US20180218241A1 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
JP2009282957A (ja) | 文書処理装置および文書処理方法 | |
CN111158964B (zh) | 一种磁盘故障预测方法、系统、装置及存储介质 | |
CN112115971B (zh) | 一种基于异质学术网络进行学者画像的方法及系统 | |
US20180075324A1 (en) | Information processing apparatus, information processing method, and computer readable storage medium | |
CN107392311A (zh) | 序列切分的方法和装置 | |
CN110070891A (zh) | 一种歌曲识别方法、装置以及存储介质 | |
Ferreira et al. | A new evolutionary method for time series forecasting | |
JP2004118363A (ja) | Wwwにおけるハブとオーソリティ予測方法及び装置及び予測プログラム及び予測プログラムを格納した記憶媒体 | |
CN113159976B (zh) | 一种微博网络重要用户的识别方法 | |
Hsiao | Signal discrimination using category-preserving bag-of-words model for condition monitoring | |
CN109446424B (zh) | 一种无效地址网页过滤方法及系统 | |
JP2021163134A (ja) | 論述構造推定方法、論述構造推定装置、および論述構造推定プログラム | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
Delwar et al. | Realization of hybrid single electron transistor based low power circuits in 22 nm technology | |
Shaik | Fault Diagnosis of Engine Knocking Using Deep Learning Neural Networks with Acoustic Input Processing | |
JP2004053745A (ja) | 言語モデル生成方法、その装置及びそのプログラム | |
Chandra et al. | Coevolutionary recurrent neural networks for prediction of rapid intensification in wind intensity of tropical cyclones in the south pacific region | |
JP5824430B2 (ja) | スパム特徴算出装置、スパム特徴算出方法、及びプログラム | |
Arı et al. | Randomized matrix decompositions and exemplar selection in large dictionaries for polyphonic piano transcription | |
US20240112014A1 (en) | Methods and systems for automated creation of annotated data and training of a machine learning model therefrom | |
CN112001825B (zh) | 基于认知图谱的学习认知路径规划系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070626 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071113 |