JP2007183825A - Score derivation system - Google Patents

Score derivation system Download PDF

Info

Publication number
JP2007183825A
JP2007183825A JP2006001682A JP2006001682A JP2007183825A JP 2007183825 A JP2007183825 A JP 2007183825A JP 2006001682 A JP2006001682 A JP 2006001682A JP 2006001682 A JP2006001682 A JP 2006001682A JP 2007183825 A JP2007183825 A JP 2007183825A
Authority
JP
Japan
Prior art keywords
page
information
score
link
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006001682A
Other languages
Japanese (ja)
Other versions
JP5165200B2 (en
Inventor
Hiroyuki Yamada
浩之 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006001682A priority Critical patent/JP5165200B2/en
Publication of JP2007183825A publication Critical patent/JP2007183825A/en
Application granted granted Critical
Publication of JP5165200B2 publication Critical patent/JP5165200B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To enable score tabulation by author, in a score derivation system for ranking the popularity stakes of Internet sites or the like, while preventing deterioration of accuracy by spam link, etc. with a reduced load to a server by shortening processing time. <P>SOLUTION: This system comprises a means for extracting, from a site on a network, at least identification information of a page, identification information of a page linked from this page, and information for identifying a creation subject of this page; a means for grouping the extracted information to creation subject-segregated link relations based on the information for identifying the creation subject; and a means for calculating a score based on the grouped creation subject-segregated link relations. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、インターネットサイトの人気度等をランキングするためのスコア導出システムに関する。   The present invention relates to a score derivation system for ranking the popularity etc. of Internet sites.

昨今、インターネット上のブログ(Blog, Weblog:個人や数人のグループで運営され、日々更新される日記的なWebサイト)が注目されており、多数のブログが存在する。ブログは複数のHTML(Hyper Text Markup Language)ページから構成されている。   Recently, blogs on the Internet (Blog, Weblog: a diary Web site operated by individuals and groups of people and updated daily) have attracted attention, and there are many blogs. The blog is composed of a plurality of HTML (Hyper Text Markup Language) pages.

人気のあるブログをランキングして紹介するサービスも行われており、ランキングのためのスコア導出手法が提案されている(例えば、特許文献1、2を参照。)。   A service for ranking and introducing popular blogs is also available, and a score derivation method for ranking has been proposed (see, for example, Patent Documents 1 and 2).

図1は特許文献1、2に開示されている「ページランク(Page Rank)」と呼ばれる従来のスコア導出の概要を示す図である。   FIG. 1 is a diagram showing an outline of conventional score derivation called “Page Rank” disclosed in Patent Documents 1 and 2. In FIG.

図1において、ページAからページBとページCに矢印付きの線で示すようにリンクが行われ、ページBからページCにリンクが行われ、ページCからページAにリンクが行われているとすると、i+1回目の計算における各ページのスコア(ランク)は、
i+1(A)=r(C)
i+1(B)=r(A)/2
i+1(C)=r(A)/2+r(B)
のようになる。これは、あるページのスコアは、そのページにリンクしてくるページのスコアに依存するという前提による。なお、一つのページから複数のリンクがある場合、リンク先のページに加算されるスコアはリンクの数で割ったものとなる。
In FIG. 1, a link is made from page A to page B and page C as indicated by a line with an arrow, a link is made from page B to page C, and a link is made from page C to page A. Then, the score (rank) of each page in the (i + 1) th calculation is
r i + 1 (A) = r i (C)
r i + 1 (B) = r i (A) / 2
r i + 1 (C) = r i (A) / 2 + r i (B)
become that way. This is based on the premise that the score of a certain page depends on the score of the page linked to that page. When there are a plurality of links from one page, the score added to the linked page is divided by the number of links.

例えば、1回目の各スコアを
(A)=1
(B)=1
(C)=1
とした場合、2回目の各スコアは、
(A)=1
(B)=0.5
(C)=1.5
となり、3回目の各スコアは、
(A)=1.5
(B)=0.5
(C)=1
となり、このような計算を所定の回数(この例では数十回)にわたって繰り返す(ループする)ことで、
(A)=1.2
(B)=0.6
(C)=1.2
に収束することになる。
米国特許第6285999号明細書 米国特許第6799176号明細書
For example, each score of the first time is r 1 (A) = 1
r 1 (B) = 1
r 1 (C) = 1
, Each score for the second time is
r 2 (A) = 1
r 2 (B) = 0.5
r 2 (C) = 1.5
And each score for the third time is
r 3 (A) = 1.5
r 3 (B) = 0.5
r 3 (C) = 1
By repeating (looping) such a calculation for a predetermined number of times (in this example, several tens of times),
r (A) = 1.2
r (B) = 0.6
r (C) = 1.2
Will converge to.
US Pat. No. 6,285,999 US Pat. No. 6,799,176

図1に示した例はごく単純化した3つのページによるものであるが、収束値を得るまでには相当量の計算処理を行うことが必要となり、実際には膨大な数のページについて処理しなければならないことから、処理時間がかかるとともに、サーバへの負担が重いという問題があった。また、想定外のページへのランダムなリンクを考慮するため、各ページのスコアの一定割合(10%程度)を均等に割り振った値を他のページのスコアに加算することも行われており、更に計算処理の負担は増大する。   Although the example shown in FIG. 1 is based on three simplified pages, it is necessary to perform a considerable amount of calculation processing to obtain a convergence value. In fact, a large number of pages are processed. As a result, there is a problem that processing time is required and the load on the server is heavy. In addition, in order to take into account random links to unexpected pages, a certain percentage of each page's score (about 10%) is evenly added to the score of other pages. Furthermore, the burden of calculation processing increases.

一方、自分のブログのランキングを上昇させようとして、自分のブログのページ間で意図的なリンク(スパムリンク、スパムトラックバック等)を設けることも行われており、従来のスコア導出手法ではかかる不正なスコアアップを防止することができなかった。   On the other hand, intentional links (spam links, spam trackbacks, etc.) are also provided between pages of my blog in an attempt to increase the ranking of my blog. Score up could not be prevented.

更に、ブログの作者毎に人気度等のランキングを行いたいところであるが、従来のスコア導出はページ単位でしか行えないため、ページ単位で求めたスコアを更に作者毎に集計する必要があった。   Furthermore, although it is desired to rank popularity etc. for each author of the blog, since the conventional score derivation can be performed only in units of pages, it is necessary to further add up the scores obtained in units of pages for each author.

本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、処理時間を短縮しサーバへの負担を軽くすることができるとともに、スパムリンク等による精度低下を防止し、作者毎のスコア集計を行うことのできるスコア導出システムを提供することにある。   The present invention has been proposed in view of the above-mentioned conventional problems, and its object is to reduce processing time and reduce the burden on the server, and to prevent deterioration in accuracy due to spam links and the like. It is another object of the present invention to provide a score derivation system capable of collecting scores for each author.

上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、ネットワーク上のサイトから、少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体を識別する情報を抽出する手段と、抽出された上記の情報から、上記の作成主体を識別する情報に基づいて作成主体毎のリンク関係にグループ化する手段と、グループ化された上記の作成主体毎のリンク関係に基づいてスコアを算出する手段とを備えるスコア導出システムを要旨としている。   In order to solve the above-mentioned problem, in the present invention, as described in claim 1, from a site on a network, at least page identification information, page identification information linked from the page, and Means for extracting information for identifying the author of the page, means for grouping from the extracted information into a link relationship for each author based on the information for identifying the author, and grouped The gist of the present invention is a score derivation system comprising means for calculating a score based on the link relationship for each of the above-mentioned creation subjects.

また、請求項2に記載されるように、請求項1に記載のスコア導出システムにおいて、上記の作成主体を識別する情報は、RSSに含まれるIDであるものとすることができる。   Further, as described in claim 2, in the score derivation system according to claim 1, the information for identifying the creation subject may be an ID included in the RSS.

また、請求項3に記載されるように、請求項1に記載のスコア導出システムにおいて、上記の作成主体を識別する情報は、ネットワークサービス上の作成者の会員IDであるものとすることができる。   In addition, as described in claim 3, in the score derivation system according to claim 1, the information for identifying the creator may be a member ID of the creator on the network service. .

また、請求項4に記載されるように、請求項1乃至3のいずれか一項に記載のスコア導出システムにおいて、上記の作成主体毎のリンク関係にグループ化する手段は、抽出された上記の情報からページと当該ページがリンクするページの対応情報を抽出する手段と、抽出された上記の情報からページと当該ページが属する作成主体を識別する情報との対応情報を抽出する手段と、上記のページと当該ページがリンクするページの対応情報およびページと当該ページが属する作成主体を識別する情報との対応情報から、作成主体毎のリンクの対応情報を抽出する手段とを備えることができる。   Further, as described in claim 4, in the score derivation system according to any one of claims 1 to 3, the means for grouping into the link relation for each creation subject is the extracted above Means for extracting correspondence information between a page and the page to which the page is linked from the information, means for extracting correspondence information between the page and information for identifying a creation entity to which the page belongs, from the extracted information, Means for extracting link correspondence information for each creation subject from correspondence information between the page and the page to which the page is linked and correspondence information between the page and information identifying the creation subject to which the page belongs can be provided.

また、請求項5、6に記載されるように、スコア導出方法として構成することができる。   Further, as described in claims 5 and 6, it can be configured as a score derivation method.

本発明のスコア導出システムにあっては、処理時間を短縮しサーバへの負担を軽くすることができるとともに、スパムリンク等による精度低下を防止し、作者毎のスコア集計を行うことができる。   In the score derivation system of the present invention, the processing time can be shortened and the burden on the server can be reduced, the accuracy can be prevented from decreasing due to spam links and the like, and the score can be tabulated for each author.

以下、本発明の好適な実施形態につき説明する。   Hereinafter, preferred embodiments of the present invention will be described.

図2は本発明の一実施形態にかかるスコア導出システム100の構成例を示す図である。図2において、スコア導出システム100は、インターネット200上の計測対象となるサイトのコンテンツから少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体を識別する情報を抽出してデータ格納部120に格納するコンテンツ抽出部110と、データ格納部120から情報を取得して作成主体を識別する情報に基づいて作成主体毎のリンク関係にグループ化するグループ化処理部130と、グループ化された作成主体毎のリンク関係に基づいてスコアを算出するスコア算出処理部140とを備えている。なお、ページの識別情報としては、URL(Uniform Resource Locator)を用いることができる。また、作成主体を識別する情報としては、ブログの要約情報を提供するRSS(Rich Site Summary, Really Simple Syndication, RDF(Resource Description Framework) Site Summary)に含まれるID(RSS−ID)を用いることができる。RSS−IDはソースの情報に埋め込まれているRSSへのリンク情報から取得することができる。更に、作成主体を識別する情報としてネットワークサービス上の作成者の会員IDを用いることもできる。   FIG. 2 is a diagram illustrating a configuration example of the score derivation system 100 according to the embodiment of the present invention. In FIG. 2, the score derivation system 100 includes at least identification information of a page from content of a site to be measured on the Internet 200, identification information of a page linked from the page, and information for identifying a creation subject of the page. A content extraction unit 110 that extracts and stores the data in the data storage unit 120, and a grouping processing unit 130 that obtains information from the data storage unit 120 and groups into a link relationship for each creation subject based on information that identifies the creation subject. And a score calculation processing unit 140 that calculates a score based on the link relationship for each grouped creator. As page identification information, a URL (Uniform Resource Locator) can be used. Further, as information for identifying the creator, an ID (RSS-ID) included in RSS (Rich Site Summary, Really Simple Syndication, RDF (Resource Description Framework) Site Summary) that provides blog summary information is used. it can. The RSS-ID can be acquired from the link information to the RSS embedded in the source information. Further, the member ID of the creator on the network service can be used as information for identifying the creator.

図3はデータ格納部120の格納情報の例を示す図であり、ページのURLと、そのページがリンクするページのURLと、ページ(リンク元)のRSS−IDとが、ページの数だけ含まれている。なお、コンテンツ抽出部110は、ページの情報を抽出する際に、ブログでないページ(ソースにRSSへのリンク情報を示すタグが含まれないページ)の情報を排除する。例えば、ページAからページCへのリンクがなされていても、ページCがブログでない場合、ページCについての情報は、ページ自体の情報としてもリンク先の情報としても抽出しない。こうすることで、後の処理を軽くすることができる。   FIG. 3 is a diagram illustrating an example of information stored in the data storage unit 120. The URL of the page, the URL of the page to which the page is linked, and the RSS-ID of the page (link source) are included in the number of pages. It is. Note that the content extraction unit 110 excludes information on a page that is not a blog (a page that does not include a tag indicating link information to the RSS in the source) when extracting page information. For example, even if a link is made from page A to page C, if page C is not a blog, information about page C is not extracted as information on the page itself or information on the link destination. By doing so, subsequent processing can be lightened.

図4はグループ化処理部130の詳細構成例を示す図であり、リンク抽出部131とRSS抽出部132とRSS間リンク抽出部133とを備えている。   FIG. 4 is a diagram illustrating a detailed configuration example of the grouping processing unit 130, and includes a link extraction unit 131, an RSS extraction unit 132, and an inter-RSS link extraction unit 133.

図4において、リンク抽出部131は、データ格納部120の情報からページと当該ページがリンクするページの対応情報を抽出し、ページ/リンクページ対応テーブルT1を生成する。図示の例では、ページAがページB、Dにリンクし、ページBがページE、F、Gにリンクしていることを示している。ページAからページCへのリンクがなされているが、ページCはブログでない場合を想定しているため、ページCの情報は出てこない。   In FIG. 4, a link extraction unit 131 extracts correspondence information between a page and a page to which the page is linked from information in the data storage unit 120, and generates a page / link page correspondence table T1. In the example shown in the figure, page A is linked to pages B and D, and page B is linked to pages E, F, and G. Although the link from page A to page C is made, page C is assumed not to be a blog, so information on page C does not come out.

また、RSS抽出部132は、データ格納部120の情報からページと当該ページが属するRSS−IDとの対応情報を抽出し、ページ/RSS対応テーブルT2もしくはRSS/ページ対応テーブルT3を生成する。図示の例では、ページA、DはRSS1に属し、ページB、E、FはRSS2に属していることを示している。ここでも、ページAからリンクされるページCはブログでない場合を想定しているため、ページCの情報は出てこない。   The RSS extraction unit 132 also extracts correspondence information between a page and an RSS-ID to which the page belongs from information in the data storage unit 120, and generates a page / RSS correspondence table T2 or an RSS / page correspondence table T3. In the illustrated example, pages A and D belong to RSS1, and pages B, E, and F belong to RSS2. Also here, since the page C linked from the page A is assumed not to be a blog, the information of the page C does not come out.

次いで、RSS間リンク抽出部133は、ページ/リンクページ対応テーブルT1とページ/RSS対応テーブルT2もしくはRSS/ページ対応テーブルT3から、RSS−ID毎のリンクの対応情報を抽出し、RSS/リンクRSS対応テーブルT4を生成する。図示の例では、RSS1からRSS2にリンクし、RSS2からRSS1、RSS3にリンクしていることを示している。   Next, the RSS link extracting unit 133 extracts link correspondence information for each RSS-ID from the page / link page correspondence table T1 and the page / RSS correspondence table T2 or the RSS / page correspondence table T3, and the RSS / link RSS. A correspondence table T4 is generated. In the example of illustration, it has shown that it links from RSS1 to RSS2, and is linked from RSS2 to RSS1, RSS3.

そして、スコア算出処理部140はRSS/リンクRSS対応テーブルT4に基づき、図1に示した従来のスコア導出手法におけるページをRSS−ID毎のグループに置き換えてスコアを算出する。   And the score calculation process part 140 replaces the page in the conventional score derivation method shown in FIG. 1 with the group for every RSS-ID based on RSS / link RSS corresponding | compatible table T4, and calculates a score.

図5は本発明においてスコア算出の対象となるリンクの例を示す図であり、作者1のブログと作者2のブログと作者3のブログがあるとして、各ブログ内のページ間で複数のリンクが存在しても、雑多なページ群を作者毎のブログにグループ化することで、スコア算出の対象となるのはブログ間のリンクL1、L2、L3のみとなり、ブログ内のリンクは無視される。また、ブログ以外のページへのリンクも無視される。   FIG. 5 is a diagram showing an example of links for which scores are calculated in the present invention. Assuming that there is a blog of author 1, a blog of author 2, and a blog of author 3, a plurality of links are provided between pages in each blog. Even if it exists, by grouping miscellaneous pages into blogs for each author, only the links L1, L2, and L3 between the blogs are subject to score calculation, and the links in the blog are ignored. Also, links to pages other than blogs are ignored.

従って、スコア算出の処理時間を短縮しサーバへの負担を軽くすることができるとともに、スパムリンク等による精度低下を防止することができる。また、作成者毎のスコアを直接に求めることができる。   Therefore, it is possible to shorten the processing time for calculating the score and lighten the burden on the server, and to prevent a decrease in accuracy due to a spam link or the like. Moreover, the score for every creator can be calculated | required directly.

図6は従来と本発明の処理時間の違いを示す図である。図6において、従来はページに対するループ処理の時間Tがかかっていたのに対し、本発明ではグループ化処理の時間Tとグループに対するループ処理の時間Tとがかかる。以下、数式により、その大小関係について考察する。 FIG. 6 is a diagram showing a difference in processing time between the conventional technique and the present invention. In FIG. 6, the loop processing time TN for the page is conventionally required, but in the present invention, the grouping processing time T m and the loop processing time T M for the group are required. In the following, the magnitude relationship will be considered using mathematical formulas.

各定数を次のように定める。
n:ページ(ノード)数
m:グループ数
C:1グループあたりのグループ化処理の時間(一定)
N:1ページもしくは1グループあたりの1回のループ処理の時間(一定)
β:ループ処理の繰り返し数
α:グループ化したことによる処理時間短縮率(0<α≦1)
これらを用いて従来におけるページに対するループ処理の時間Tを表すと、
=β・n・N
となる。
Each constant is defined as follows.
n: number of pages (nodes) m: number of groups C: grouping process time per group (constant)
N: Time for one loop process per page or group (constant)
β: Loop processing repetition rate α: Processing time reduction rate by grouping (0 <α ≦ 1)
Using these, the time TN of the loop processing for the conventional page is expressed as follows:
T N = β · n · N
It becomes.

また、本発明におけるグループ化処理の時間Tは、
=m・C
となり、グループに対するループ処理の時間Tは、
=β・m・α・N
となる。
The grouping processing time T m in the present invention is:
T m = m · C
Next, time T M of the loop processing for the group,
T M = β ・ m ・ α ・ N
It becomes.

ここで、従来の処理時間から本発明の処理時間を差し引くと、
−(T+T)=β・n・N−m・C−β・m・α・N
=β・N(n−m・α)−m・C
となる。
Here, when the processing time of the present invention is subtracted from the conventional processing time,
T N − (T m + T M ) = β · n · N−m · C−β · m · α · N
= Β · N (n−m · α) −m · C
It becomes.

経験上、1つのブログは10個以上のページを持っていることから、
n≧10m
と考えられ、最低値である
n=10m
とおくと、
−(T+T)=β・N(10m−m・α)−m・C
=β・N・m(10−α)−m・C
となる。
Experience has shown that a blog has more than 10 pages,
n ≧ 10m
N = 10m, the lowest value
After all,
T N − (T m + T M ) = β · N (10 m−m · α) −m · C
= Β · N · m (10−α) −m · C
It becomes.

更に、αとして最悪の状態(処理時間短縮がない状態)を考え、
α=1
とすると、
−(T+T)=β・N・m・9−m・C
=m(9・β・N−C)
となる。
Furthermore, consider the worst state (state where there is no reduction in processing time) as α,
α = 1
Then,
T N − (T m + T M ) = β · N · m · 9−m · C
= M (9 · β · N-C)
It becomes.

ここで、NとCは略同等のオーダーの値であることから、9・β・NはCに比して非常に大きな値となり、
−(T+T)≫0
であるといえ、大きな時間短縮の効果があることがわかる。
Here, since N and C are values of approximately the same order, 9 · β · N is a very large value compared to C,
T N − (T m + T M ) >> 0
However, it can be seen that there is a significant time saving effect.

以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。   The present invention has been described above by the preferred embodiments of the present invention. While the invention has been described with reference to specific embodiments, various modifications and changes may be made to the embodiments without departing from the broad spirit and scope of the invention as defined in the claims. Obviously you can. In other words, the present invention should not be construed as being limited by the details of the specific examples and the accompanying drawings.

従来のスコア導出の概要を示す図である。It is a figure which shows the outline | summary of the conventional score derivation. 本発明の一実施形態にかかるスコア導出システムの構成例を示す図である。It is a figure showing an example of composition of a score derivation system concerning one embodiment of the present invention. データ格納部の格納情報の例を示す図である。It is a figure which shows the example of the storage information of a data storage part. グループ化処理部の詳細構成例を示す図である。It is a figure which shows the detailed structural example of a grouping process part. 本発明においてスコア算出の対象となるリンクの例を示す図である。It is a figure which shows the example of the link used as the object of score calculation in this invention. 従来と本発明の処理時間の違いを示す図である。It is a figure which shows the difference in the processing time of the past and this invention.

符号の説明Explanation of symbols

100 スコア導出システム
110 コンテンツ抽出部
120 データ格納部
130 グループ化処理部
131 リンク抽出部
132 RSS抽出部
133 RSS間リンク抽出部
140 スコア算出処理部
200 インターネット
T1 ページ/リンクページ対応テーブル
T2 ページ/RSS対応テーブル
T3 RSS/ページ対応テーブル
T4 RSS/リンクRSS対応テーブル
DESCRIPTION OF SYMBOLS 100 Score derivation system 110 Content extraction part 120 Data storage part 130 Grouping process part 131 Link extraction part 132 RSS extraction part 133 Link extraction part between RSS 140 Score calculation processing part 200 Internet T1 page / link page correspondence table T2 page / RSS correspondence Table T3 RSS / page correspondence table T4 RSS / link RSS correspondence table

Claims (6)

ネットワーク上のサイトから、少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体を識別する情報を抽出する手段と、
抽出された上記の情報から、上記の作成主体を識別する情報に基づいて作成主体毎のリンク関係にグループ化する手段と、
グループ化された上記の作成主体毎のリンク関係に基づいてスコアを算出する手段とを備えたことを特徴とするスコア導出システム。
Means for extracting at least page identification information, page identification information linked from the page, and information for identifying the creator of the page from a site on the network;
Means for grouping into a link relationship for each creator based on the information identifying the creator from the extracted information;
A score derivation system comprising: means for calculating a score on the basis of the link relation for each of the grouped creators.
請求項1に記載のスコア導出システムにおいて、
上記の作成主体を識別する情報は、RSSに含まれるIDであることを特徴とするスコア導出システム。
The score derivation system according to claim 1,
The score derivation system, wherein the information for identifying the creation subject is an ID included in RSS.
請求項1に記載のスコア導出システムにおいて、
上記の作成主体を識別する情報は、ネットワークサービス上の作成者の会員IDであることを特徴とするスコア導出システム。
The score derivation system according to claim 1,
The score derivation system, wherein the information for identifying the creator is a member ID of the creator on the network service.
請求項1乃至3のいずれか一項に記載のスコア導出システムにおいて、
上記の作成主体毎のリンク関係にグループ化する手段は、
抽出された上記の情報からページと当該ページがリンクするページの対応情報を抽出する手段と、
抽出された上記の情報からページと当該ページが属する作成主体を識別する情報との対応情報を抽出する手段と、
上記のページと当該ページがリンクするページの対応情報およびページと当該ページが属する作成主体を識別する情報との対応情報から、作成主体毎のリンクの対応情報を抽出する手段とを備えたことを特徴とするスコア導出システム。
In the score derivation system according to any one of claims 1 to 3,
The means for grouping into the link relationship for each creator is
Means for extracting correspondence information between a page and a page linked to the page from the extracted information;
Means for extracting correspondence information between a page and information for identifying a creation subject to which the page belongs, from the extracted information;
Means for extracting link correspondence information for each creation subject from correspondence information between the page and the page to which the page is linked and correspondence information between the page and information for identifying the creation subject to which the page belongs. A characteristic score derivation system.
ネットワーク上のサイトから、少なくともページの識別情報、当該ページからリンクするページの識別情報、および、当該ページの作成主体を識別する情報を抽出する工程と、
抽出された上記の情報から、上記の作成主体を識別する情報に基づいて作成主体毎のリンク関係にグループ化する工程と、
グループ化された上記の作成主体毎のリンク関係に基づいてスコアを算出する工程とを備えたことを特徴とするスコア導出方法。
Extracting at least page identification information, page identification information linked from the page, and information identifying the creation subject of the page from a site on the network;
Grouping from the extracted information into a link relationship for each creator based on the information identifying the creator;
And a step of calculating a score on the basis of the link relation for each of the grouped creators.
請求項5に記載のスコア導出方法において、
上記の作成主体毎のリンク関係にグループ化する工程は、
抽出された上記の情報からページと当該ページがリンクするページの対応情報を抽出する工程と、
抽出された上記の情報からページと当該ページが属する作成主体を識別する情報との対応情報を抽出する工程と、
上記のページと当該ページがリンクするページの対応情報およびページと当該ページが属する作成主体を識別する情報との対応情報から、作成主体毎のリンクの対応情報を抽出する工程とを備えたことを特徴とするスコア導出方法。
The score derivation method according to claim 5,
The process of grouping into the link relationship for each creator is
Extracting the correspondence information between the page and the page linked to the page from the extracted information,
Extracting correspondence information between a page and information for identifying a creation subject to which the page belongs, from the extracted information,
A step of extracting link correspondence information for each creation subject from correspondence information between the page and the page linked to the page and correspondence information between the page and information identifying the creation subject to which the page belongs. A characteristic score derivation method.
JP2006001682A 2006-01-06 2006-01-06 Score derivation system Expired - Fee Related JP5165200B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006001682A JP5165200B2 (en) 2006-01-06 2006-01-06 Score derivation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006001682A JP5165200B2 (en) 2006-01-06 2006-01-06 Score derivation system

Publications (2)

Publication Number Publication Date
JP2007183825A true JP2007183825A (en) 2007-07-19
JP5165200B2 JP5165200B2 (en) 2013-03-21

Family

ID=38339855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006001682A Expired - Fee Related JP5165200B2 (en) 2006-01-06 2006-01-06 Score derivation system

Country Status (1)

Country Link
JP (1) JP5165200B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117893A (en) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> Large-scale web site evaluation device, large-scale web site evaluation method and large-scale web site evaluation program
KR101083476B1 (en) 2009-08-03 2011-11-16 엔에이치엔(주) System and method for calculation rank of document using position information of document
US9020264B2 (en) 2011-01-26 2015-04-28 Panasonic Intellectual Property Corporation Of America Image management device, image management method, program, recording medium, and integrated circuit
US11049081B1 (en) * 2011-09-29 2021-06-29 Google Llc Video revenue sharing program
JP7366763B2 (en) 2020-01-17 2023-10-23 株式会社日立製作所 Data reliability calculation device, data reliability calculation method, and data reliability calculation program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200501044018, 中窪仁、佐藤隆士, "Web検索におけるリンク構造解析を利用したランキング法", 情報処理学会研究報告, 20040714, Vol.2004,No.72, p.411−415, JP, 社団法人情報処理学会 *
JPN6011004622, 中窪仁、佐藤隆士, "Web検索におけるリンク構造解析を利用したランキング法", 情報処理学会研究報告, 20040714, Vol.2004,No.72, p.411−415, JP, 社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117893A (en) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> Large-scale web site evaluation device, large-scale web site evaluation method and large-scale web site evaluation program
KR101083476B1 (en) 2009-08-03 2011-11-16 엔에이치엔(주) System and method for calculation rank of document using position information of document
US9020264B2 (en) 2011-01-26 2015-04-28 Panasonic Intellectual Property Corporation Of America Image management device, image management method, program, recording medium, and integrated circuit
US11049081B1 (en) * 2011-09-29 2021-06-29 Google Llc Video revenue sharing program
US11853983B1 (en) 2011-09-29 2023-12-26 Google Llc Video revenue sharing program
JP7366763B2 (en) 2020-01-17 2023-10-23 株式会社日立製作所 Data reliability calculation device, data reliability calculation method, and data reliability calculation program

Also Published As

Publication number Publication date
JP5165200B2 (en) 2013-03-21

Similar Documents

Publication Publication Date Title
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US7809710B2 (en) System and method for extracting content for submission to a search engine
CN107729480B (en) Text information extraction method and device for limited area
US20080160490A1 (en) Seeking Answers to Questions
US20110219087A1 (en) Systems and methods for webpage creation and updating
CN102682120B (en) Method and device for acquiring essential article commented on network
US20130041898A1 (en) Image processing system, image processing method, program, and non-transitory information storage medium
JP5165200B2 (en) Score derivation system
JP2009271799A (en) Company correlative information extracting system
CN107526718A (en) Method and apparatus for generating text
US20070294246A1 (en) Associating metadata on a per-user basis
Challenger The ontology and architecture for an academic social network
EP1128290A3 (en) A method and system for summarizing and presenting information from results of a search in very large full-text databases
CN105183730B (en) The treating method and apparatus of webpage information
US8886653B2 (en) Information processing device, computer readable recording medium, and information processing method
US9779145B2 (en) Variable result set size based on user expectation
JP4853915B2 (en) Search system
JP2011070252A (en) Document analysis system
US20220318653A1 (en) Social media content recommendation
CN113792232A (en) Page feature calculation method, device, electronic equipment, medium and program product
JP5856905B2 (en) Theme extraction device and program thereof
CN102750344B (en) Repeated answer removing method and device based on knowledge question-answering platform
San Boilerplate removal and content extraction from dynamic web pages
JP4425846B2 (en) Weblog community tracking device and program
CN109960531B (en) Page display method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120203

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120209

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees