JP2006163997A - Webページの特徴別分類方法および装置並びにWebページの特徴別分類プログラム - Google Patents

Webページの特徴別分類方法および装置並びにWebページの特徴別分類プログラム Download PDF

Info

Publication number
JP2006163997A
JP2006163997A JP2004356407A JP2004356407A JP2006163997A JP 2006163997 A JP2006163997 A JP 2006163997A JP 2004356407 A JP2004356407 A JP 2004356407A JP 2004356407 A JP2004356407 A JP 2004356407A JP 2006163997 A JP2006163997 A JP 2006163997A
Authority
JP
Japan
Prior art keywords
web page
classification
statistical
statistical information
statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004356407A
Other languages
English (en)
Other versions
JP4398353B2 (ja
Inventor
Shinichi Okano
真一 岡野
Noriyasu Arakawa
則泰 荒川
Yasuhisa Kato
泰久 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004356407A priority Critical patent/JP4398353B2/ja
Publication of JP2006163997A publication Critical patent/JP2006163997A/ja
Application granted granted Critical
Publication of JP4398353B2 publication Critical patent/JP4398353B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類する。
【解決手段】 Webページに対応した作成者および閲覧者の行動に基づいた統計値が含まれているWebページ統計情報11は、統計値処理部12によって、各統計値に適切な重み付けが与えられてWebページ統計情報データベース13に格納される。次にWebページ分類処理部15は、重み付けされたWebページ統計情報14を統計情報データベース13から参照し処理することによって、該当Webページの分類を決定する。分類されたWebページの情報は、WebページのIDと、その分類結果が含まれるWebページ分類情報16として出力される。
【選択図】 図1

Description

本発明は、Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類するためのWebページの特徴別分類方法および装置並びにWebページの特徴別分類プログラムに関するものである。
Webページを分類する方法としては、そのページに出現する単語の組み合わせから特徴ベクトルを算出し、それらが類似しているもの同士を分類する手法が広く知られている(特許文献1参照。)。
また、アクセス数によるランキングや、Googleにおけるページランクのように被リンク数から人気度を推定し、ランキングする方法なども分類手法の一種と考えられ、これらについても広く知られている(非特許文献1参照。)。
特開2000−181936号公報 Googleの人気の秘密、[2004年11月02日検索]、インターネット<URL:http://www.google.co.jp/intl/ja/why_use.html>
上述した従来の特徴ベクトルによる分類方法は、Webページに記述されている内容の意味的な特徴に基づいて分類を行うための手法であり、そのWebページがネットワーク上で、どのような役割を果たしているのか、またどのような性格のWebページであるのかを判断することは難しい。
例えば、ある意味カテゴリに分類されているWebページがあったとき、そのWebページが現在でも継続して情報を発信する役割を果たしているかどうか判断することができない。
また、ランキングによる分類では、ランキング上位にあるWebページであっても、それが他者に読んでもらうための情報発信を主としているページであるのか、それとも掲示板のように閲覧者同士のコミュニケーションを主としているページなのか判断することができない。
本発明は、上記の事情に鑑みてなされたもので、Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類するためのWebページの特徴別分類方法および装置並びにWebページの特徴別分類プログラムを提供することを目的とする。
本発明は、上記の課題を達成するために、Webページに対して行われる作成者および閲覧者の行動の統計値を入力とする過程と、その統計値に重み付けを行う過程と、重み付けを行った上で、それら統計値の出現範囲、統計値間の相対的な大小関係といった各統計値の現れ方の特徴に基づいて、各Webページのネットワーク上での役割や性格を推定する過程と、各Webページを分類する過程とからなることを特徴とする。
また、本発明は、各Webページに対応する各種統計値に対する重み付けを行う統計値処理部と、各種統計値を保管するためのWebページ統計情報データベースと、前記重み付けされた各種統計値を、前記Webページ統計情報データベースから参照し、Webページの分類処理を行うためのWebページ分類処理部を含むことを特徴とする。
さらに本発明は、Webページの特徴別分類方法における各過程を、コンピュータに実行させるためのプログラムとしたことを特徴とする。
なお、本発明では、Webページ中の記事の更新数などWebページ作成者の行動に基づいた統計値と、Webページへのアクセス数やWebページへのコメントの数など、Webページ閲覧者の行動に基づいた統計値に適切な重み付けをし、それらの値の出現範囲や各統計値間の相対的な大小関係など、各統計値の現れ方の特徴によって、該当するWebページをいくつかの特徴的なタイプに分類するものである。
これにより、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類することができる。
以上述べたように、本発明によれば、Webページに対して行われる作成者および閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類することができる。
以下本発明の実施の形態を図面に基づいて説明するに、ここでは、作成者および閲覧者の行動に基づいた統計値を、容易に得ることができるWeblogページを分類する対象のWebページの例として述べる。
ただし、本発明はWeblogページのみを対象とするものではなく、一般のWebページに容易に拡張可能なものである。
図1は、本発明の実施の形態としてコンピュータ装置からなるWebページ特徴別分類装置の構成を示すブロック構成図である。
図1において、入力として、該当するWebページのIDと、そのWebページに対応した作成者および閲覧者の行動に基づいた統計値が含まれているWebページ統計情報11を与える。
ここで、WebページのIDは、例えばURLなどのように、Webページを一意に特定できるものである。
また、統計値は、例えば、Weblogページへのアクセス数、Weblog内で更新されたエントリ(記事)数、各エントリ(記事)に対してつけられたコメントの総数、各エントリ(記事)に対してつけられたトラックバックの総数を含む統計値のリストである。なお、Webページ統計情報11は、複数同時に与えることができる。
入力されたWebページ統計情報11は、統計値処理部12によって、各統計値に適切な重み付けが与えられる。ここで行われる重み付けは、どのような分類を行うかによって変更可能なものであり、特定の手法を限定するものではない。
例えば、Webページ統計情報データベース13に格納されているすべてのWebページに対する各値の最大値を「1」として、それぞれの値の正規化を行うなどの方法がある。そのため、統計値処理部12は必要に応じて、Webページ統計情報データベース13に格納されている、今までに蓄積したWebページ統計情報14を参照することができる。
また、新規に入力されたWebページ統計情報11の値によっては、Webページ統計情報データベース13に格納されている、今までに蓄積したWebページ統計情報14に対しての重み付けを変更し、再度格納し直すこともある。
統計値処理部12によって重み付けされたWebページ統計情報14は、重み付け前のWebページ統計情報11とともにWebページ統計情報データベース13に格納される。
次にWebページ分類処理部15に、分類を行うWebページのIDが引き渡される。このIDは、入力されたWebページ統計情報11の中のIDであり、Webページ統計情報11が複数入力された場合は、複数のIDが渡される。
Webページ分類処理部15は、このIDに該当する重み付けされたWebページ統計情報14をWebページ統計情報データベース13から参照し処理することによって、該当Webページの分類を決定する。なお、分類方法の詳細は後述する。
このようにして決定された分類結果は、各WebページのIDに関連付けられてWebページ統計情報データベース13に格納される。
Webページ分類処理部15によって分類されたWebページの情報は、WebページのIDと、その分類結果が含まれるWebページ分類情報16として出力される。分類結果は、どのような分類を行うかによって異なるが、その分類結果を特定できるIDであればよい。
また、入力が複数のWebページ統計情報11であった場合は、それに対応した数のWebページ分類情報16が出力される。
図2は、分類の例を示すグラフで、統計値として、Weblogページへのアクセス数、Weblogページ内で更新されたエントリ(記事)数、各エントリ(記事)に対してつけられたコメントの総数、各エントリ(記事)に対してつけられたトラックバックの総数の4つを用いた場合、各Webページごとに各統計値をプロットしたグラフの特徴により、図2に示すように分類1〜分類5の5つに分類することができる。
なお、これらの統計値は、すべて統計値処理部12によって適切な重み付けがなされた値である。
図2において、分類1は、アクセス数が他の統計値と比べて相対的に多く、アクセス数が多いが閲覧者からの反応が少ないタイプであると言える。
分類2は、エントリ数が他の統計値と比べて相対的に多く、更新は頻繁に行うが閲覧者が少なく反応も少ないタイプと言える。
分類3は、コメント数が他の統計値と比べて相対的に多く、一種のコミュニティのようになっているタイプと言える。
分類4は、トラックバック数が他の統計値と比べて相対的に多い。トラックバックはその記事に影響を受けた読者が、自分のWeblogサイトに関連する記事を書き、それを元記事があるWeblogサイトに通知する機能であり、これが多いということは、多くの読者にある程度の影響力を持っているタイプと言える。
分類5は、特に突出した特徴がなく、Webページが特に役割もなく、あまり機能していない停滞しているタイプと言える。
なお、各分類のプロットにおいて、各値がどの範囲に出現し、また特徴的な値(分類1であれば、アクセス数)が、他の値に対して相対的にどのくらいの大小関係にあるかという基準は、任意に決定できる。
このような分類方法は、パラメータの出現傾向によって分類を行う一般的なクラスタリング手法と同義であり、例えばK-Means法などを用いることによって、上記で説明した分類を行うことが可能である。
また、上記の分類種別は例であり、用いる統計値によって他の基準で分類することもできる。
上述した、図1で示した各部の機能実現処理部をコンピュータのプログラムで構成したりして、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその処理を実現するためのプログラムを、そのコンピュータが読み取りできる記録媒体、例えば、フレキシブルディスクや、CD,DVD,MO,ROM、メモリカード、リムーバブルディスク、半導体メモリなどに記録して、保存したり、配布したりすることが可能である。
また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。これらの記録媒体からコンピュータに前記のプログラムをインストールすることにより、あるいはネットワークからダウンロードしてコンピュータに前記のプログラムをインストールすることにより、本発明を実施することが可能となる。
本発明の実施の形態を示すブロック構成図。 各Webページごとに各統計値をプロットしたグラフである。
符号の説明
11…Webページ統計情報
12…統計値処理部
13…Webページ統計情報データベース
14…重み付け統計情報
15…Webページ分類処理部
16…Webページ分類情報

Claims (3)

  1. Webページに対して行われる作成者および閲覧者の行動の統計値を入力とする過程と、
    その統計値に重み付けを行う過程と、
    重み付けを行った上で、それら統計値の出現範囲、統計値間の相対的な大小関係といった各統計値の現れ方の特徴に基づいて、各Webページのネットワーク上での役割や性格を推定する過程と、
    各Webページを分類する過程とからなる
    ことを特徴とするWebページの特徴別分類方法。
  2. 各Webページに対応する各種統計値に対する重み付けを行う統計値処理部と、
    各種統計値を保管するためのWebページ統計情報データベースと、
    前記重み付けされた各種統計値を、前記Webページ統計情報データベースから参照し、Webページの分類処理を行うためのWebページ分類処理部を含む
    ことを特徴とするWebページの特徴別分類装置。
  3. 請求項1に記載のWebページの特徴別分類方法における各過程を、コンピュータに実行させるためのプログラムとした
    ことを特徴とするWebページの特徴別分類プログラム。
JP2004356407A 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム Active JP4398353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004356407A JP4398353B2 (ja) 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004356407A JP4398353B2 (ja) 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム

Publications (2)

Publication Number Publication Date
JP2006163997A true JP2006163997A (ja) 2006-06-22
JP4398353B2 JP4398353B2 (ja) 2010-01-13

Family

ID=36665935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004356407A Active JP4398353B2 (ja) 2004-12-09 2004-12-09 Webページの特徴別分類装置およびWebページの特徴別分類プログラム

Country Status (1)

Country Link
JP (1) JP4398353B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052675A (ja) * 2006-08-28 2008-03-06 Nippon Telegr & Teleph Corp <Ntt> Webページの評価方法および装置並びにWebページの評価プログラム
JP2009237824A (ja) * 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
US9160680B1 (en) 2014-11-18 2015-10-13 Kaspersky Lab Zao System and method for dynamic network resource categorization re-assignment
JP2015207316A (ja) * 2010-12-18 2015-11-19 クアルコム,インコーポレイテッド デバイス固有コンテンツを管理するための方法およびシステム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052675A (ja) * 2006-08-28 2008-03-06 Nippon Telegr & Teleph Corp <Ntt> Webページの評価方法および装置並びにWebページの評価プログラム
JP2009237824A (ja) * 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
JP2015207316A (ja) * 2010-12-18 2015-11-19 クアルコム,インコーポレイテッド デバイス固有コンテンツを管理するための方法およびシステム
US9160680B1 (en) 2014-11-18 2015-10-13 Kaspersky Lab Zao System and method for dynamic network resource categorization re-assignment
US9444765B2 (en) 2014-11-18 2016-09-13 AO Kaspersky Lab Dynamic categorization of network resources

Also Published As

Publication number Publication date
JP4398353B2 (ja) 2010-01-13

Similar Documents

Publication Publication Date Title
He et al. Adversarial personalized ranking for recommendation
US10698967B2 (en) Building user profiles by relevance feedback
JP4837040B2 (ja) ブログ文書のランク付け
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
US8484140B2 (en) Feature vector clustering
US8112703B2 (en) Aggregate tag views of website information
US8352386B2 (en) Identifying training documents for a content classifier
US8611651B1 (en) Scoring items
US20170235830A1 (en) Adjusting Sentiment Scoring For Online Content Using Baseline Attitude of Content Author
US20200097538A1 (en) Book analysis and recommendation
US11301528B2 (en) Selecting content objects for recommendation based on content object collections
WO2017117029A1 (en) System and method for deploying customized machine learning services
US20100262610A1 (en) Identifying Subject Matter Experts
JP6854748B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US20170228462A1 (en) Adaptive seeded user labeling for identifying targeted content
JP2011145742A (ja) 情報処理装置、情報処理方法、およびプログラム
US20090248514A1 (en) System and method for detecting the sensitivity of web page content for serving advertisements in online advertising
US20130179418A1 (en) Search ranking features
US20110270819A1 (en) Context-aware query classification
JP5481295B2 (ja) オブジェクト推薦装置、オブジェクト推薦方法、オブジェクト推薦プログラムおよびオブジェクト推薦システム
Vandic et al. A framework for product description classification in e-commerce
Xie et al. A probabilistic recommendation method inspired by latent Dirichlet allocation model
JP2010182267A (ja) コンテンツ分類装置、方法及びプログラム
JP4398353B2 (ja) Webページの特徴別分類装置およびWebページの特徴別分類プログラム
Lieb The truth about search engine optimization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070216

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4398353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131030

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350