JP5165200B2 - スコア導出システム - Google Patents

スコア導出システム Download PDF

Info

Publication number
JP5165200B2
JP5165200B2 JP2006001682A JP2006001682A JP5165200B2 JP 5165200 B2 JP5165200 B2 JP 5165200B2 JP 2006001682 A JP2006001682 A JP 2006001682A JP 2006001682 A JP2006001682 A JP 2006001682A JP 5165200 B2 JP5165200 B2 JP 5165200B2
Authority
JP
Japan
Prior art keywords
page
information
identification information
score
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006001682A
Other languages
English (en)
Other versions
JP2007183825A (ja
Inventor
浩之 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006001682A priority Critical patent/JP5165200B2/ja
Publication of JP2007183825A publication Critical patent/JP2007183825A/ja
Application granted granted Critical
Publication of JP5165200B2 publication Critical patent/JP5165200B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、インターネットサイトの人気度等をランキングするためのスコア導出システムに関する。
昨今、インターネット上のブログ(Blog, Weblog:個人や数人のグループで運営され、日々更新される日記的なWebサイト)が注目されており、多数のブログが存在する。ブログは複数のHTML(Hyper Text Markup Language)ページから構成されている。
人気のあるブログをランキングして紹介するサービスも行われており、ランキングのためのスコア導出手法が提案されている(例えば、特許文献1、2を参照。)。
図1は特許文献1、2に開示されている「ページランク(Page Rank)」と呼ばれる従来のスコア導出の概要を示す図である。
図1において、ページAからページBとページCに矢印付きの線で示すようにリンクが行われ、ページBからページCにリンクが行われ、ページCからページAにリンクが行われているとすると、i+1回目の計算における各ページのスコア(ランク)は、
i+1(A)=r(C)
i+1(B)=r(A)/2
i+1(C)=r(A)/2+r(B)
のようになる。これは、あるページのスコアは、そのページにリンクしてくるページのスコアに依存するという前提による。なお、一つのページから複数のリンクがある場合、リンク先のページに加算されるスコアはリンクの数で割ったものとなる。
例えば、1回目の各スコアを
(A)=1
(B)=1
(C)=1
とした場合、2回目の各スコアは、
(A)=1
(B)=0.5
(C)=1.5
となり、3回目の各スコアは、
(A)=1.5
(B)=0.5
(C)=1
となり、このような計算を所定の回数(この例では数十回)にわたって繰り返す(ループする)ことで、
(A)=1.2
(B)=0.6
(C)=1.2
に収束することになる。
米国特許第6285999号明細書 米国特許第6799176号明細書
図1に示した例はごく単純化した3つのページによるものであるが、収束値を得るまでには相当量の計算処理を行うことが必要となり、実際には膨大な数のページについて処理しなければならないことから、処理時間がかかるとともに、サーバへの負担が重いという問題があった。また、想定外のページへのランダムなリンクを考慮するため、各ページのスコアの一定割合(10%程度)を均等に割り振った値を他のページのスコアに加算することも行われており、更に計算処理の負担は増大する。
一方、自分のブログのランキングを上昇させようとして、自分のブログのページ間で意図的なリンク(スパムリンク、スパムトラックバック等)を設けることも行われており、従来のスコア導出手法ではかかる不正なスコアアップを防止することができなかった。
更に、ブログの作者毎に人気度等のランキングを行いたいところであるが、従来のスコア導出はページ単位でしか行えないため、ページ単位で求めたスコアを更に作者毎に集計する必要があった。
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、処理時間を短縮しサーバへの負担を軽くすることができるとともに、スパムリンク等による精度低下を防止し、作者毎のスコア集計を行うことのできるスコア導出システムを提供することにある。
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、ネットワーク上のサイトから、少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体の識別情報を一組とする情報を抽出してデータ格納部に格納する手段と、上記データ格納部から上記の情報を取得し、取得した上記の情報からページの識別情報と当該ページがリンクするページの識別情報との第1の対応情報を抽出する手段と、上記データ格納部から上記の情報を取得し、取得した上記の情報からページの識別情報と当該ページ作成主体の識別情報との第2の対応情報を抽出する手段と、上記第1の対応情報のページの識別情報と当該ページがリンクするページの識別情報から、ページの識別情報が共通する上記第2の対応情報の作成主体の識別情報をそれぞれ取得することで、ページの作成主体の識別情報と当該ページがリンクするページの作成主体の識別情報との第3の対応情報を抽出する手段と、上記第3の対応情報の示す作成主体間のリンク関係に基づいて、各作成主体のスコアを初期値に設定し、リンク元の作成主体の現時点のスコアをリンク先の数で割った値をリンク先の作成主体のスコアに加算する処理を所定回数繰り返すことで、各作成主体のスコアを算出する手段とを備えるスコア導出システムを要旨としている。
また、請求項2に記載されるように、請求項1に記載のスコア導出システムにおいて、上記の作成主体の識別情報は、RSSに含まれるIDであるものとすることができる。
また、請求項3に記載されるように、請求項1に記載のスコア導出システムにおいて、上記の作成主体の識別情報は、ネットワークサービス上の作成者の会員IDであるものとすることができる。
また、請求項に記載されるように、スコア導出方法として構成することができる。
本発明のスコア導出システムにあっては、処理時間を短縮しサーバへの負担を軽くすることができるとともに、スパムリンク等による精度低下を防止し、作者毎のスコア集計を行うことができる。
以下、本発明の好適な実施形態につき説明する。
図2は本発明の一実施形態にかかるスコア導出システム100の構成例を示す図である。図2において、スコア導出システム100は、インターネット200上の計測対象となるサイトのコンテンツから少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体を識別する情報を抽出してデータ格納部120に格納するコンテンツ抽出部110と、データ格納部120から情報を取得して作成主体を識別する情報に基づいて作成主体毎のリンク関係にグループ化するグループ化処理部130と、グループ化された作成主体毎のリンク関係に基づいてスコアを算出するスコア算出処理部140とを備えている。なお、ページの識別情報としては、URL(Uniform Resource Locator)を用いることができる。また、作成主体を識別する情報としては、ブログの要約情報を提供するRSS(Rich Site Summary, Really Simple Syndication, RDF(Resource Description Framework) Site Summary)に含まれるID(RSS−ID)を用いることができる。RSS−IDはソースの情報に埋め込まれているRSSへのリンク情報から取得することができる。更に、作成主体を識別する情報としてネットワークサービス上の作成者の会員IDを用いることもできる。
図3はデータ格納部120の格納情報の例を示す図であり、ページのURLと、そのページがリンクするページのURLと、ページ(リンク元)のRSS−IDとが、ページの数だけ含まれている。なお、コンテンツ抽出部110は、ページの情報を抽出する際に、ブログでないページ(ソースにRSSへのリンク情報を示すタグが含まれないページ)の情報を排除する。例えば、ページAからページCへのリンクがなされていても、ページCがブログでない場合、ページCについての情報は、ページ自体の情報としてもリンク先の情報としても抽出しない。こうすることで、後の処理を軽くすることができる。
図4はグループ化処理部130の詳細構成例を示す図であり、リンク抽出部131とRSS抽出部132とRSS間リンク抽出部133とを備えている。
図4において、リンク抽出部131は、データ格納部120の情報からページと当該ページがリンクするページの対応情報を抽出し、ページ/リンクページ対応テーブルT1を生成する。図示の例では、ページAがページB、Dにリンクし、ページBがページE、F、Gにリンクしていることを示している。ページAからページCへのリンクがなされているが、ページCはブログでない場合を想定しているため、ページCの情報は出てこない。
また、RSS抽出部132は、データ格納部120の情報からページと当該ページが属するRSS−IDとの対応情報を抽出し、ページ/RSS対応テーブルT2もしくはRSS/ページ対応テーブルT3を生成する。図示の例では、ページA、DはRSS1に属し、ページB、E、FはRSS2に属していることを示している。ここでも、ページAからリンクされるページCはブログでない場合を想定しているため、ページCの情報は出てこない。
次いで、RSS間リンク抽出部133は、ページ/リンクページ対応テーブルT1とページ/RSS対応テーブルT2もしくはRSS/ページ対応テーブルT3から、RSS−ID毎のリンクの対応情報を抽出し、RSS/リンクRSS対応テーブルT4を生成する。図示の例では、RSS1からRSS2にリンクし、RSS2からRSS1、RSS3にリンクしていることを示している。
そして、スコア算出処理部140はRSS/リンクRSS対応テーブルT4に基づき、図1に示した従来のスコア導出手法におけるページをRSS−ID毎のグループに置き換えてスコアを算出する。
図5は本発明においてスコア算出の対象となるリンクの例を示す図であり、作者1のブログと作者2のブログと作者3のブログがあるとして、各ブログ内のページ間で複数のリンクが存在しても、雑多なページ群を作者毎のブログにグループ化することで、スコア算出の対象となるのはブログ間のリンクL1、L2、L3のみとなり、ブログ内のリンクは無視される。また、ブログ以外のページへのリンクも無視される。
従って、スコア算出の処理時間を短縮しサーバへの負担を軽くすることができるとともに、スパムリンク等による精度低下を防止することができる。また、作成者毎のスコアを直接に求めることができる。
図6は従来と本発明の処理時間の違いを示す図である。図6において、従来はページに対するループ処理の時間Tがかかっていたのに対し、本発明ではグループ化処理の時間Tとグループに対するループ処理の時間Tとがかかる。以下、数式により、その大小関係について考察する。
各定数を次のように定める。
n:ページ(ノード)数
m:グループ数
C:1グループあたりのグループ化処理の時間(一定)
N:1ページもしくは1グループあたりの1回のループ処理の時間(一定)
β:ループ処理の繰り返し数
α:グループ化したことによる処理時間短縮率(0<α≦1)
これらを用いて従来におけるページに対するループ処理の時間Tを表すと、
=β・n・N
となる。
また、本発明におけるグループ化処理の時間Tは、
=m・C
となり、グループに対するループ処理の時間Tは、
=β・m・α・N
となる。
ここで、従来の処理時間から本発明の処理時間を差し引くと、
−(T+T)=β・n・N−m・C−β・m・α・N
=β・N(n−m・α)−m・C
となる。
経験上、1つのブログは10個以上のページを持っていることから、
n≧10m
と考えられ、最低値である
n=10m
とおくと、
−(T+T)=β・N(10m−m・α)−m・C
=β・N・m(10−α)−m・C
となる。
更に、αとして最悪の状態(処理時間短縮がない状態)を考え、
α=1
とすると、
−(T+T)=β・N・m・9−m・C
=m(9・β・N−C)
となる。
ここで、NとCは略同等のオーダーの値であることから、9・β・NはCに比して非常に大きな値となり、
−(T+T)≫0
であるといえ、大きな時間短縮の効果があることがわかる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
従来のスコア導出の概要を示す図である。 本発明の一実施形態にかかるスコア導出システムの構成例を示す図である。 データ格納部の格納情報の例を示す図である。 グループ化処理部の詳細構成例を示す図である。 本発明においてスコア算出の対象となるリンクの例を示す図である。 従来と本発明の処理時間の違いを示す図である。
符号の説明
100 スコア導出システム
110 コンテンツ抽出部
120 データ格納部
130 グループ化処理部
131 リンク抽出部
132 RSS抽出部
133 RSS間リンク抽出部
140 スコア算出処理部
200 インターネット
T1 ページ/リンクページ対応テーブル
T2 ページ/RSS対応テーブル
T3 RSS/ページ対応テーブル
T4 RSS/リンクRSS対応テーブル

Claims (4)

  1. ネットワーク上のサイトから、少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体の識別情報を一組とする情報を抽出してデータ格納部に格納する手段と、
    上記データ格納部から上記の情報を取得し、取得した上記の情報からページの識別情報と当該ページがリンクするページの識別情報との第1の対応情報を抽出する手段と、
    上記データ格納部から上記の情報を取得し、取得した上記の情報からページの識別情報と当該ページ作成主体の識別情報との第2の対応情報を抽出する手段と、
    上記第1の対応情報のページの識別情報と当該ページがリンクするページの識別情報から、ページの識別情報が共通する上記第2の対応情報の作成主体の識別情報をそれぞれ取得することで、ページの作成主体の識別情報と当該ページがリンクするページの作成主体の識別情報との第3の対応情報を抽出する手段と、
    上記第3の対応情報の示す作成主体間のリンク関係に基づいて、各作成主体のスコアを初期値に設定し、リンク元の作成主体の現時点のスコアをリンク先の数で割った値をリンク先の作成主体のスコアに加算する処理を所定回数繰り返すことで、各作成主体のスコアを算出する手段とを備えたことを特徴とするスコア導出システム。
  2. 請求項1に記載のスコア導出システムにおいて、
    上記の作成主体の識別情報は、RSSに含まれるIDであることを特徴とするスコア導出システム。
  3. 請求項1に記載のスコア導出システムにおいて、
    上記の作成主体の識別情報は、ネットワークサービス上の作成者の会員IDであることを特徴とするスコア導出システム。
  4. コンテンツ導出システムのコンテンツ抽出部が、ネットワーク上のサイトから、少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体の識別情報を一組とする情報を抽出してデータ格納部に格納する工程と、
    上記コンテンツ導出システムのグループ化処理部が、上記データ格納部から上記の情報を取得し、取得した上記の情報からページの識別情報と当該ページがリンクするページの識別情報との第1の対応情報を抽出する工程と、
    上記グループ化処理部が、上記データ格納部から上記の情報を取得し、取得した上記の情報からページの識別情報と当該ページ作成主体の識別情報との第2の対応情報を抽出する工程と、
    上記グループ化処理部が、上記第1の対応情報のページの識別情報と当該ページがリンクするページの識別情報から、ページの識別情報が共通する上記第2の対応情報の作成主体の識別情報をそれぞれ取得することで、ページの作成主体の識別情報と当該ページがリンクするページの作成主体の識別情報との第3の対応情報を抽出する工程と、
    上記コンテンツ導出システムのスコア算出処理部が、上記第3の対応情報の示す作成主体間のリンク関係に基づいて、各作成主体のスコアを初期値に設定し、リンク元の作成主体の現時点のスコアをリンク先の数で割った値をリンク先の作成主体のスコアに加算する処理を所定回数繰り返すことで、各作成主体のスコアを算出する工程とを備えたことを特徴とするスコア導出方法。
JP2006001682A 2006-01-06 2006-01-06 スコア導出システム Expired - Fee Related JP5165200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006001682A JP5165200B2 (ja) 2006-01-06 2006-01-06 スコア導出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006001682A JP5165200B2 (ja) 2006-01-06 2006-01-06 スコア導出システム

Publications (2)

Publication Number Publication Date
JP2007183825A JP2007183825A (ja) 2007-07-19
JP5165200B2 true JP5165200B2 (ja) 2013-03-21

Family

ID=38339855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006001682A Expired - Fee Related JP5165200B2 (ja) 2006-01-06 2006-01-06 スコア導出システム

Country Status (1)

Country Link
JP (1) JP5165200B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5135174B2 (ja) * 2008-11-13 2013-01-30 日本電信電話株式会社 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
KR101083476B1 (ko) 2009-08-03 2011-11-16 엔에이치엔(주) 문서의 위치 정보를 이용한 문서 순위 산출 시스템 및 방법
JP5990105B2 (ja) 2011-01-26 2016-09-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像管理装置、画像管理方法、プログラム、記録媒体、集積回路
US10032145B1 (en) * 2011-09-29 2018-07-24 Google Llc Video revenue sharing program
JP7366763B2 (ja) * 2020-01-17 2023-10-23 株式会社日立製作所 データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム

Also Published As

Publication number Publication date
JP2007183825A (ja) 2007-07-19

Similar Documents

Publication Publication Date Title
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US7809710B2 (en) System and method for extracting content for submission to a search engine
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
US8683311B2 (en) Generating structured data objects from unstructured web pages
US7318193B2 (en) Method and apparatus for automatic document generation based on annotation
EP1672538A1 (en) System and method for managing web content
US7562079B2 (en) Message generator
JP5165200B2 (ja) スコア導出システム
JP2009271799A (ja) 企業相関情報抽出システム
JP2022159037A (ja) ソーシャルメディアコンテンツのリコメンデーション
CN105183730B (zh) 网页信息的处理方法和装置
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
US7979448B2 (en) Mail and calendar tool and method
JP2002215645A (ja) 文書処理装置
JP2008102790A (ja) 検索システム
CN113792232A (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN112287229B (zh) 一种基于组合语义相似度的国防建设动态信息推荐方法
JP5856905B2 (ja) 主題抽出装置およびそのプログラム
JP4425846B2 (ja) Weblogコミュニティ追跡装置及びプログラム
Gunn Babylon on the Thames
Brezovnik et al. TextProc–a natural language processing framework
JP2003186891A (ja) リンク集生成装置およびリンク集生成方法
JP2015106368A (ja) テキスト要約方法、装置、及びプログラム
JP2010055179A (ja) 人物検索システムおよび人物検索方法
CN116089763A (zh) 网页处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120203

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120209

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees