JP4398353B2 - Webページの特徴別分類装置およびWebページの特徴別分類プログラム - Google Patents

Webページの特徴別分類装置およびWebページの特徴別分類プログラム Download PDF

Info

Publication number
JP4398353B2
JP4398353B2 JP2004356407A JP2004356407A JP4398353B2 JP 4398353 B2 JP4398353 B2 JP 4398353B2 JP 2004356407 A JP2004356407 A JP 2004356407A JP 2004356407 A JP2004356407 A JP 2004356407A JP 4398353 B2 JP4398353 B2 JP 4398353B2
Authority
JP
Japan
Prior art keywords
web page
weighted
classification
accesses
statistical information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004356407A
Other languages
English (en)
Other versions
JP2006163997A (ja
Inventor
真一 岡野
則泰 荒川
泰久 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004356407A priority Critical patent/JP4398353B2/ja
Publication of JP2006163997A publication Critical patent/JP2006163997A/ja
Application granted granted Critical
Publication of JP4398353B2 publication Critical patent/JP4398353B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類するためのWebページの特徴別分類方法および装置並びにWebページの特徴別分類プログラムに関するものである。
Webページを分類する方法としては、そのページに出現する単語の組み合わせから特徴ベクトルを算出し、それらが類似しているもの同士を分類する手法が広く知られている(特許文献1参照。)。
また、アクセス数によるランキングや、Googleにおけるページランクのように被リンク数から人気度を推定し、ランキングする方法なども分類手法の一種と考えられ、これらについても広く知られている(非特許文献1参照。)。
特開2000−181936号公報 Googleの人気の秘密、[2004年11月02日検索]、インターネット<URL:http://www.google.co.jp/intl/ja/why_use.html>
上述した従来の特徴ベクトルによる分類方法は、Webページに記述されている内容の意味的な特徴に基づいて分類を行うための手法であり、そのWebページがネットワーク上で、どのような役割を果たしているのか、またどのような性格のWebページであるのかを判断することは難しい。
例えば、ある意味カテゴリに分類されているWebページがあったとき、そのWebページが現在でも継続して情報を発信する役割を果たしているかどうか判断することができない。
また、ランキングによる分類では、ランキング上位にあるWebページであっても、それが他者に読んでもらうための情報発信を主としているページであるのか、それとも掲示板のように閲覧者同士のコミュニケーションを主としているページなのか判断することができない。
本発明は、上記の事情に鑑みてなされたもので、Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類するためのWebページの特徴別分類装置およびWebページの特徴別分類プログラムを提供することを目的とする。
本発明は、上記の課題を達成するために、該当するWebページのIDと、そのWebページに対応したアクセス数、エントリ数、コメント数、トラックバック数をWebページ統計情報として入力する、Webページ統計情報入力手段と、Webページ統計情報入力手段から入力された、各Webページのアクセス数、エントリ数、コメント数、トラックバック数に対して重み付け計算を行い、それぞれ重み付けアクセス数、重み付けエントリ数、重み付けコメント数、重み付けトラックバック数に変換する統計値処理手段と、Webページごとに重み付けアクセス数、重み付けエントリ数、重み付けコメント数、重み付けトラックバック数を格納するWebページ統計情報格納手段と、
Webページごとの重み付けアクセス数、重み付けエントリ数、重み付けコメント数、重み付けトラックバック数を入力として、Webページごとにパターングラフを作成し、基準となる複数のパターングラフとの一致度を比較することでWebページを分類し、各WebページのIDと分類結果を出力するWebページ分類手段からなることを特徴とする。
さらに本発明は、Webページの特徴別分類装置における各手段を、コンピュータに実行させるためのプログラムとしたことを特徴とする。
なお、本発明では、Webページ中の記事の更新数などWebページ作成者の行動に基づいた統計値と、Webページへのアクセス数やWebページへのコメントの数など、Webページ閲覧者の行動に基づいた統計値に適切な重み付けをし、それらの値の出現範囲や各統計値間の相対的な大小関係など、各統計値の現れ方の特徴によって、該当するWebページをいくつかの特徴的なタイプに分類するものである。
これにより、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類することができる。
以上述べたように、本発明によれば、Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類することができる。
以下本発明の実施の形態を図面に基づいて説明するに、ここでは、作成者および閲覧者の行動に基づいた統計値を、容易に得ることができるWeblogページを分類する対象のWebページの例として述べる。
ただし、本発明はWeblogページのみを対象とするものではなく、一般のWebページに容易に拡張可能なものである。
図1は、本発明の実施の形態としてコンピュータ装置からなるWebページ特徴別分類装置の構成を示すブロック構成図である。
図1において、入力として、該当するWebページのIDと、そのWebページに対応した作成者および閲覧者の行動に基づいた統計値が含まれているWebページ統計情報11を与える。
ここで、WebページのIDは、例えばURLなどのように、Webページを一意に特定できるものである。
また、統計値は、例えば、Weblogページへのアクセス数、Weblog内で更新されたエントリ(記事)数、各エントリ(記事)に対してつけられたコメントの総数、各エントリ(記事)に対してつけられたトラックバックの総数を含む統計値のリストである。なお、Webページ統計情報11は、複数同時に与えることができる。
入力されたWebページ統計情報11は、統計値処理部12によって、各統計値に適切な重み付けが与えられる。ここで行われる重み付けは、どのような分類を行うかによって変更可能なものであり、特定の手法を限定するものではない。
例えば、Webページ統計情報データベース13に格納されているすべてのWebページに対する各値の最大値を「1」として、それぞれの値の正規化を行うなどの方法がある。そのため、統計値処理部12は必要に応じて、Webページ統計情報データベース13に格納されている、今までに蓄積したWebページ統計情報14を参照することができる。
また、新規に入力されたWebページ統計情報11の値によっては、Webページ統計情報データベース13に格納されている、今までに蓄積したWebページ統計情報14に対しての重み付けを変更し、再度格納し直すこともある。
統計値処理部12によって重み付けされたWebページ統計情報14は、重み付け前のWebページ統計情報11とともにWebページ統計情報データベース13に格納される。
次にWebページ分類処理部15に、分類を行うWebページのIDが引き渡される。このIDは、入力されたWebページ統計情報11の中のIDであり、Webページ統計情報11が複数入力された場合は、複数のIDが渡される。
Webページ分類処理部15は、このIDに該当する重み付けされたWebページ統計情報14をWebページ統計情報データベース13から参照し処理することによって、該当Webページの分類を決定する。なお、分類方法の詳細は後述する。
このようにして決定された分類結果は、各WebページのIDに関連付けられてWebページ統計情報データベース13に格納される。
Webページ分類処理部15によって分類されたWebページの情報は、WebページのIDと、その分類結果が含まれるWebページ分類情報16として出力される。分類結果は、どのような分類を行うかによって異なるが、その分類結果を特定できるIDであればよい。
また、入力が複数のWebページ統計情報11であった場合は、それに対応した数のWebページ分類情報16が出力される。
図2は、分類の例を示すグラフで、統計値として、Weblogページへのアクセス数、Weblogページ内で更新されたエントリ(記事)数、各エントリ(記事)に対してつけられたコメントの総数、各エントリ(記事)に対してつけられたトラックバックの総数の4つを用いた場合、各Webページごとに各統計値をプロットしたグラフの特徴により、図2に示すように分類1〜分類5の5つに分類することができる。
なお、これらの統計値は、すべて統計値処理部12によって適切な重み付けがなされた値である。
図2において、分類1は、アクセス数が他の統計値と比べて相対的に多く、アクセス数が多いが閲覧者からの反応が少ないタイプであると言える。
分類2は、エントリ数が他の統計値と比べて相対的に多く、更新は頻繁に行うが閲覧者が少なく反応も少ないタイプと言える。
分類3は、コメント数が他の統計値と比べて相対的に多く、一種のコミュニティのようになっているタイプと言える。
分類4は、トラックバック数が他の統計値と比べて相対的に多い。トラックバックはその記事に影響を受けた読者が、自分のWeblogサイトに関連する記事を書き、それを元記事があるWeblogサイトに通知する機能であり、これが多いということは、多くの読者にある程度の影響力を持っているタイプと言える。
分類5は、特に突出した特徴がなく、Webページが特に役割もなく、あまり機能していない停滞しているタイプと言える。
なお、各分類のプロットにおいて、各値がどの範囲に出現し、また特徴的な値(分類1であれば、アクセス数)が、他の値に対して相対的にどのくらいの大小関係にあるかという基準は、任意に決定できる。
このような分類方法は、パラメータの出現傾向によって分類を行う一般的なクラスタリング手法と同義であり、例えばK-Means法などを用いることによって、上記で説明した分類を行うことが可能である。
また、上記の分類種別は例であり、用いる統計値によって他の基準で分類することもできる。
上述した、図1で示した各部の機能実現処理部をコンピュータのプログラムで構成したりして、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその処理を実現するためのプログラムを、そのコンピュータが読み取りできる記録媒体、例えば、フレキシブルディスクや、CD,DVD,MO,ROM、メモリカード、リムーバブルディスク、半導体メモリなどに記録して、保存したり、配布したりすることが可能である。
また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。これらの記録媒体からコンピュータに前記のプログラムをインストールすることにより、あるいはネットワークからダウンロードしてコンピュータに前記のプログラムをインストールすることにより、本発明を実施することが可能となる。
本発明の実施の形態を示すブロック構成図。 各Webページごとに各統計値をプロットしたグラフである。
符号の説明
11…Webページ統計情報
12…統計値処理部
13…Webページ統計情報データベース
14…重み付け統計情報
15…Webページ分類処理部
16…Webページ分類情報

Claims (2)

  1. 該当するWebページのIDと、そのWebページに対応したアクセス数、エントリ数、コメント数、トラックバック数をWebページ統計情報として入力する、Webページ統計情報入力手段と、
    Webページ統計情報入力手段から入力された、各Webページのアクセス数、エントリ数、コメント数、トラックバック数に対して重み付け計算を行い、それぞれ重み付けアクセス数、重み付けエントリ数、重み付けコメント数、重み付けトラックバック数に変換する統計値処理手段と、
    Webページごとに重み付けアクセス数、重み付けエントリ数、重み付けコメント数、重み付けトラックバック数を格納するWebページ統計情報格納手段と、
    Webページごとの重み付けアクセス数、重み付けエントリ数、重み付けコメント数、重み付けトラックバック数を入力として、Webページごとにパターングラフを作成し、基準となる複数のパターングラフとの一致度を比較することでWebページを分類し、各WebページのIDと分類結果を出力するWebページ分類手段、
    からなることを特徴とするWebページの特徴別分類装置
  2. 請求項1に記載のWebページの特徴別分類装置における各手段を、コンピュータに実行させるためのプログラムとした
    ことを特徴とするWebページの特徴別分類プログラム
JP2004356407A 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム Active JP4398353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004356407A JP4398353B2 (ja) 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004356407A JP4398353B2 (ja) 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム

Publications (2)

Publication Number Publication Date
JP2006163997A JP2006163997A (ja) 2006-06-22
JP4398353B2 true JP4398353B2 (ja) 2010-01-13

Family

ID=36665935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004356407A Active JP4398353B2 (ja) 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム

Country Status (1)

Country Link
JP (1) JP4398353B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5180452B2 (ja) * 2006-08-28 2013-04-10 日本電信電話株式会社 Webページの評価方法および装置並びにWebページの評価プログラム
JP5011185B2 (ja) * 2008-03-26 2012-08-29 株式会社エヌ・ティ・ティ・データ 情報分析装置、情報分析方法、及び情報分析プログラム
US8676970B2 (en) * 2010-12-18 2014-03-18 Qualcomm Incorporated Methods and systems for managing device specific content
US9160680B1 (en) 2014-11-18 2015-10-13 Kaspersky Lab Zao System and method for dynamic network resource categorization re-assignment

Also Published As

Publication number Publication date
JP2006163997A (ja) 2006-06-22

Similar Documents

Publication Publication Date Title
Raza et al. Progress in context-aware recommender systems—An overview
Ning et al. A comprehensive survey of neighborhood-based recommendation methods
US8484140B2 (en) Feature vector clustering
US11244326B2 (en) Analytical precursor mining for personalized recommendation
US10304116B2 (en) System and method for targeting content based on filter activity
US8352396B2 (en) Systems and methods for improving web site user experience
US7711735B2 (en) User segment suggestion for online advertising
US20110004573A1 (en) Identifying training documents for a content classifier
JP2014501422A (ja) ユーザ意図の有無に基づく検索キーワードの推薦
EP1835419A1 (en) Information processing device, method, and program
US8903822B2 (en) Apparatus and method for measuring contents similarity based on feedback information of ranked user and computer readable recording medium storing program thereof
US20100030781A1 (en) Method and apparatus for automatically classifying data
JP2009508267A (ja) ブログ文書のランク付け
JP2005135071A (ja) 商品購入における信頼値の算出方法及び装置
US20100082628A1 (en) Classifying A Data Item With Respect To A Hierarchy Of Categories
Vandic et al. A framework for product description classification in e-commerce
JP2011145742A (ja) 情報処理装置、情報処理方法、およびプログラム
Piazzai et al. Product proliferation, complexity, and deterrence to imitation in differentiated‐product oligopolies
Shravan Kumar et al. Text document classification with pca and one-class svm
JP4398353B2 (ja) Webページの特徴別分類装置およびWebページの特徴別分類プログラム
Bao et al. The minority matters: A diversity-promoting collaborative metric learning algorithm
US20150331863A1 (en) Selection method, method for maintaining data list and electronic device
Malhotra et al. Quantitative evaluation of web metrics for automatic genre classification of web pages
Daud et al. Human readable rule induction in medical data mining
AlRossais et al. Improving cold-start recommendations using item-based stereotypes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070216

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4398353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131030

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350