JP5135174B2 - Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program - Google Patents

Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program Download PDF

Info

Publication number
JP5135174B2
JP5135174B2 JP2008290786A JP2008290786A JP5135174B2 JP 5135174 B2 JP5135174 B2 JP 5135174B2 JP 2008290786 A JP2008290786 A JP 2008290786A JP 2008290786 A JP2008290786 A JP 2008290786A JP 5135174 B2 JP5135174 B2 JP 5135174B2
Authority
JP
Japan
Prior art keywords
site
web document
evaluation
web
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008290786A
Other languages
Japanese (ja)
Other versions
JP2010117893A (en
Inventor
大和 高橋
光俊 長浜
俊介 小長井
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008290786A priority Critical patent/JP5135174B2/en
Publication of JP2010117893A publication Critical patent/JP2010117893A/en
Application granted granted Critical
Publication of JP5135174B2 publication Critical patent/JP5135174B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、大量の電子文書を持つWEBサービスに関して、重要なサイトかどうかを事前に評価しておくことにより、これらの電子文書からキーワードなどを用いて必要な電子文書を検索する際、サイトの評価が高い電子文書を優先する場合などに有用な技術に関する。   The present invention evaluates in advance whether or not an important site for a WEB service having a large number of electronic documents, so that when searching for necessary electronic documents using keywords or the like from these electronic documents, The present invention relates to a technique that is useful when priority is given to highly evaluated electronic documents.

より具体的には、前もって取得した電子文書の取得元を示すURLと、その文書の中に記述されている他の文書との関連情報(リンクと呼ぶ)と、文書群をWEBサービスのまとまりとして扱うためにURLを基にサイトに分類するデータベースを用いて、文書のサイトへの仕分けとサイト単位での評価を行うことで、従来よりも精度の高い文書検索の実現を可能にすることを特徴とする大規模WEBサイトの評価装置、方法、プログラムに関する。   More specifically, a URL indicating an acquisition source of an electronic document acquired in advance, related information (referred to as a link) with other documents described in the document, and a group of documents as a group of WEB services. Using a database that is classified into sites based on URLs for handling, it is possible to achieve document search with higher accuracy than before by sorting documents into sites and evaluating each site. It is related with the evaluation apparatus, method, and program of a large-scale WEB site.

従来は、WEBの文書を全文検索する際、検索結果を優先順位に沿って並べ替えるための判断基準のひとつとして、ページランクがある。これは、より多くのページから関連があるとされるような、リンクによって指し示される数が多いページを優先するための評価基準である。   Conventionally, when a full-text search is performed on a WEB document, there is a page rank as one of the determination criteria for rearranging the search results according to the priority order. This is an evaluation criterion for giving priority to a page with a large number of points indicated by links, which is considered to be related from a larger number of pages.

しかし、近年では、あまり関連性がないにもかかわらず、ページ作成者自身が自分で作ったたくさんのページから高い評価値を得たい自分のページにたくさんのリンクを張ることで、この評価を高めるということを行うという行為が増えてきている。このようなリンクをそのまま使った場合、検索結果が好ましくない状態になることが多い。これらはリンクスパムと呼ばれ、非特許文献1に開示されているようなWEBのサーバ単位(ホスト)でのページランクから不正なリンクを構成しているであろうWEBサーバを検出する技術がある。
Gyongyi,Z.,Garcia−Molina,H.and Pedersen,J.,Link Spam Detection Based on Mass Estimation,VLDB ’06:Proceedings of the 32nd international conference on Very large data bases,September,2006 高田寛喜(奈良先端科学技術大学院大学),山田武士,上田修功(NTTコミュニケーション科学基礎研究所)、「ノードの機能特性に基づくクラスタリング」、ネットワーク生態学2008シンポジウム予稿集、pp.120−124,2008年
However, in recent years, even though there is not much relevance, this evaluation is improved by creating a lot of links to your own page where you want to get a high evaluation value from the many pages you created yourself. The act of doing that is increasing. When such a link is used as it is, the search result often becomes unfavorable. These are called link spam, and there is a technique for detecting a WEB server that would constitute an invalid link from the page rank of the WEB server unit (host) as disclosed in Non-Patent Document 1. .
Gyongyi, Z .; , Garcia-Molina, H .; and Pedersen, J. et al. , Link Spam Detection Based on Mass Estimation, VLDB '06: Proceedings of the 32nd international conference on Very large data bases, 2006. Hiroki Takada (Nara Institute of Science and Technology), Takeshi Yamada, Nobuyoshi Ueda (NTT Communication Science Laboratories), "Clustering Based on Functional Characteristics of Nodes", Proceedings of Network Ecology 2008 Symposium, pp. 120-124, 2008

ブログなどは、同じホストで、複数のユーザが個々にWEB文書を作成しており、非特許文献1に記載の検出技術のように、ホスト単位で扱うと、全てのユーザをまとめて扱ってしまうことになる。   In a blog or the like, a plurality of users individually create a WEB document on the same host, and if the users are handled in units of hosts as in the detection technique described in Non-Patent Document 1, all users are handled together. It will be.

本発明では、上記課題を解決し、WEB文書を取得したサーバ、もしくは、サーバ毎に事前に設定した特定の場所から取得した複数のWEB文書をサイトという単位でまとめ、WEB文書に記載されているリンク情報をサイト単位でまとめて分析することにより、ページ作成者の不正な自己作成によるリンクを無効、もしくは低い評価で扱うことでページランク相当の評価値を各WEB文書に付与し、検索時の優先順位の決定に効果的に利用できるようにする。   In the present invention, the above-mentioned problems are solved, and a plurality of WEB documents acquired from a specific location set in advance for each server or a WEB document are collected in units of sites and described in the WEB document. By linking and analyzing link information in units of sites, an invalid self-created link by the page creator is handled, or an evaluation value equivalent to the page rank is given to each WEB document by treating it with a low evaluation, and at the time of search Make effective use of priorities.

また、リンク情報を分析する際、非特許文献2に開示されているようにリンク構造の分析を3サイト間で行うことにより、評価値の算出とサイト間の関係の分析を効率的に計算するように構成した大規模WEBサイトの評価装置、大規模WEBサイトの評価方法および大規模WEBサイトの評価プログラムを提供する。   In addition, when analyzing link information, as disclosed in Non-Patent Document 2, the link structure is analyzed between the three sites, thereby efficiently calculating the evaluation value and the relationship between the sites. A large-scale WEB site evaluation apparatus, a large-scale WEB site evaluation method, and a large-scale WEB site evaluation program are provided.

本発明では、WEBから取得したWEB文書群に対して、WEB文書に関する情報をサイト集約ルールを元に集約して扱い、サイト分析装置で分析して新たなサイト集約ルールを追加し、WEB文書それぞれに前記サイト集約ルールを元に妥当な評価値を付与した情報を評価済WEB文書蓄積装置に蓄積することで高精度なWEB文書の評価値を高速に付与できるように構成した。   In the present invention, for a WEB document group acquired from the WEB, information on the WEB document is aggregated and handled based on the site aggregation rule, analyzed by the site analyzer, and a new site aggregation rule is added. In addition, it is configured such that a highly accurate evaluation value of a WEB document can be assigned at high speed by accumulating information with an appropriate evaluation value based on the site aggregation rule in an evaluated WEB document storage device.

すなわち、請求項1に記載の大規模WEBサイトの評価装置は、WEBから取得したWEB文書に関する情報を蓄積するWEB文書蓄積手段と、サイトを集約するためのサイト集約ルールが蓄積されたサイト集約ルール蓄積手段と、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約し、前記集約されたサイト間のリンク構造を分析し、前記集約されたサイト毎にページランク相当の評価値を求め、前記分析されたリンク構造と前記求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト分析手段と、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価手段と、前記WEB文書評価手段により評価値が付与されたWEB文書を蓄積する評価済WEB文書蓄積手段と、を備えたことを特徴としている。   That is, the evaluation apparatus for a large-scale WEB site according to claim 1 includes a WEB document storage unit that stores information about a WEB document acquired from the WEB, and a site aggregation rule in which site aggregation rules for aggregating the sites are accumulated. Based on the site aggregation rules stored in the storage means and the site aggregation rule storage means, link information of the WEB documents stored in the WEB document storage means is aggregated on a site basis, and the links between the aggregated sites Analyzing the structure, obtaining an evaluation value corresponding to the page rank for each of the aggregated sites, and based on the analyzed link structure, the obtained evaluation value for each site and the link information, To create a new site aggregation rule and update the site aggregation rule stored in the site aggregation rule storage means Site analysis means, and for each WEB document stored in the WEB document storage means, for each document using link information between sites based on the site aggregation rules stored in the site aggregation rule storage means. WEB document evaluation means for assigning an evaluation value; and evaluated WEB document storage means for storing a WEB document assigned an evaluation value by the WEB document evaluation means.

また請求項2に記載の大規模WEBサイトの評価装置は、請求項1において、前記サイト分析手段は、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約手段と、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析手段と、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価手段と、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別手段と、を備えたことを特徴としている。   Further, the evaluation apparatus for a large-scale WEB site according to claim 2 is characterized in that, in claim 1, the site analysis unit stores the WEB document storage unit based on the site aggregation rule stored in the site aggregation rule storage unit. Site aggregation means for aggregating the link information of the stored WEB documents for each site, link structure analysis means for analyzing the link structure between sites aggregated by the site aggregation means, and sites aggregated by the site aggregation means And link information, a site evaluation means for obtaining an evaluation value corresponding to a page rank for each site, a link structure analyzed by the link structure analysis means, an evaluation value for each site obtained by the site evaluation means, and the Based on the link information, create a new site aggregation rule by grouping highly related sites together, It is characterized and site determination means for updating the stored sites aggregated rule site aggregation rule storage means, further comprising: a.

また請求項3に記載の大規模WEBサイトの評価装置は、請求項1又は2において、前記サイト集約ルール蓄積手段には、WEB文書の取得元情報のホスト名とディレクトリ名に分け、ホスト名を個別に扱って共通部分をまとめて階層化した構造化サイト集約ルールが蓄積されることを特徴としている。   Further, the evaluation apparatus for a large-scale WEB site according to claim 3, according to claim 1, wherein the site aggregation rule accumulating unit divides the host name into a host name and a directory name of the acquisition source information of the WEB document. It is characterized by the accumulation of structured site aggregation rules that are handled individually and grouped common parts.

また、請求項4に記載の大規模WEBサイトの評価方法は、WEB文書取得手段が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積手段に蓄積するステップと、サイト集約手段が、サイト集約ルール蓄積手段に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、リンク構造分析手段が、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析ステップと、サイト評価手段が、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価ステップと、サイト判別手段が、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別ステップと、WEB文書評価手段が、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積手段に蓄積するステップと、を備えたことを特徴としている。   According to a fourth aspect of the present invention, there is provided a method for evaluating a large-scale WEB site, wherein a WEB document acquisition unit acquires a WEB document from the Internet and stores information related to the WEB document in the WEB document storage unit; A site aggregating step for aggregating the link information of the WEB document accumulated in the WEB document accumulating unit for each site based on the site aggregation rule for aggregating the sites accumulated in the site aggregation rule accumulating unit; A link structure analysis step in which the link structure analysis means analyzes the link structure between the sites aggregated by the site aggregation means; and a site evaluation means acquires the site and link information aggregated by the site aggregation means; The site evaluation step for obtaining an evaluation value equivalent to the page rank every time and the site discrimination means Based on the link structure analyzed by the link structure analysis means and the evaluation value for each site obtained by the site evaluation means and the link information, a site aggregation rule is newly created by collecting strongly related sites, A site determination step for updating the site aggregation rule stored in the site aggregation rule storage unit, and a WEB document evaluation unit stores in the site aggregation rule storage unit for each WEB document stored in the WEB document storage unit And a step of assigning an evaluation value for each document using link information between sites based on the site aggregation rule and storing the evaluation value in the evaluated WEB document storage means.

また、請求項5に記載の大規模WEBサイトの評価プログラムは、コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる大規模WEBサイトの評価プログラムである。   An evaluation program for a large-scale WEB site according to claim 5 is an evaluation program for a large-scale WEB site that causes a computer to function as each means according to any one of claims 1 to 3.

(1)請求項1〜5に記載の発明によれば、WEB文書をサイト単位で集約してページランク評価とリンク構造から新たにサイト集約ルールを作成することで、ページランク評価値を付与するために利用すべきリンクを効果的に選別し、高速に計算することができ、従来よりも精度の高い文書検索の実現が可能となる。
(2)また請求項3に記載の発明によれば、構造化サイト集約ルールを利用することにより、サイトの集約を高速に行うことができる。
(1) According to the first to fifth aspects of the present invention, a page rank evaluation value is given by aggregating WEB documents in units of sites and creating a new site aggregation rule from the page rank evaluation and link structure. Therefore, the links to be used can be effectively selected and calculated at high speed, and it is possible to realize a document search with higher accuracy than before.
(2) According to the invention described in claim 3, the site can be aggregated at high speed by using the structured site aggregation rule.

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments.

本実施形態例の大規模WEBサイトの評価装置は、図1に示すように、既存のWEB文書取得装置100がインターネットを介してWEBサーバから取得してきたWEB文書を蓄積しておく、WEB文書蓄積手段としてのWEB文書蓄積装置200内の情報を元に、サイト集約ルール蓄積手段としてのサイト集約ルールデータベース400内のサイト集約(分類)ルールを使ってサイトへの集約(分類)とその分析結果によってサイト集約ルールを更新するサイト分析手段としてのサイト分析装置300と、前記データベース400内のサイト集約ルールを元に、前記蓄積されたWEB文書蓄積装置200内のWEB文書それぞれに評価値を付与するWEB文書評価手段としてのWEB文書評価装置500と、前記WEB文書評価装置500により評価値が付与されたWEB文書を格納する評価済WEB文書蓄積手段としての評価済WEB文書蓄積装置600とで構築されている。   As shown in FIG. 1, the evaluation apparatus for a large-scale WEB site according to the present embodiment stores a WEB document in which an existing WEB document acquisition apparatus 100 stores a WEB document acquired from a WEB server via the Internet. Based on the information in the WEB document storage device 200 as a means, using the site aggregation (classification) rules in the site aggregation rule database 400 as the site aggregation rule storage means, the aggregation (classification) to the site and the analysis result A site analysis apparatus 300 serving as a site analysis unit for updating the site aggregation rule, and a WEB for assigning an evaluation value to each of the accumulated WEB documents in the WEB document accumulation apparatus 200 based on the site aggregation rule in the database 400 WEB document evaluation apparatus 500 as document evaluation means, and WEB document evaluation apparatus 500 It is constructed by the evaluated configuration WEB document storage device 600 as the evaluated WEB document storage means for storing the WEB document more evaluation value is assigned.

前記WEB文書取得装置100、サイト分析装置300およびWEB文書評価装置500の、後述する各機能は、例えばコンピュータにより達成される。   Each function described below of the WEB document acquisition apparatus 100, the site analysis apparatus 300, and the WEB document evaluation apparatus 500 is achieved by, for example, a computer.

サイト分析装置300は図2のように構成されている。図2において301は、任意のサイト集約ルールを元にWEB文書蓄積装置200に蓄積されているWEB文書のリンク情報をサイト単位に集約するサイト集約手段としてのサイト集約装置である。   The site analysis apparatus 300 is configured as shown in FIG. In FIG. 2, reference numeral 301 denotes a site aggregating apparatus as a site aggregating means for aggregating WEB document link information accumulated in the WEB document accumulating apparatus 200 on a site basis based on an arbitrary site aggregation rule.

302は、サイトごとに集約された情報を蓄積しておく集約データ蓄積装置である。303は、集約データ蓄積装置302からサイトとリンク情報を組みとして取得し、サイト間のリンク構造を分析するリンク構造分析手段としてのリンク構造分析装置である。   Reference numeral 302 denotes an aggregate data storage device that accumulates information aggregated for each site. Reference numeral 303 denotes a link structure analysis device as a link structure analysis unit that acquires a set of sites and link information from the aggregate data storage device 302 and analyzes the link structure between sites.

304は、リンク先サイトとリンク元サイトに隣接しているサイトのリンク情報を組み合わせた情報が、前記リンク構造分析装置303によって記録されるリンク構造分析補助記録装置である。   Reference numeral 304 denotes a link structure analysis auxiliary recording device in which information obtained by combining link information of a link destination site and a site adjacent to the link source site is recorded by the link structure analysis device 303.

305は、集約データ蓄積装置302から集約されたサイトおよびリンク情報を取得し、サイトの評価を行うサイト評価手段としてのサイト評価装置である。   Reference numeral 305 denotes a site evaluation device serving as a site evaluation unit that acquires aggregated site and link information from the aggregate data storage device 302 and evaluates the site.

306は、サイト評価装置305によりサイト毎に分配されたサイトの評価値が記録されるサイト評価補助記録装置である。   Reference numeral 306 denotes a site evaluation auxiliary recording device that records site evaluation values distributed for each site by the site evaluation device 305.

307は、リンク構造分析装置303とサイト評価装置305から得られた結果を蓄積する分析データ蓄積装置である。   Reference numeral 307 denotes an analysis data storage device that stores the results obtained from the link structure analysis device 303 and the site evaluation device 305.

308は、分析データ蓄積装置307から情報を取得し、新たにサイトとして集約するルールを作成するサイト判別手段としてのサイト判別装置である。   Reference numeral 308 denotes a site discriminating device as site discriminating means for creating a rule for acquiring information from the analysis data storage device 307 and newly aggregating it as a site.

前記サイト集約ルールデータベース400内のサイト集約ルールは、図3に示すように、WEB文書の取得元情報(URL、つまり、http://ホスト名/ディレクトリ名)のホスト名とディレクトリ名に対して、集約ルールに合致する場合、記述した集約サイト名を付与するものである。基本的には、WEB文書はホスト名を見出し(サイト名)として集約し、ホスト名とディレクトリ名が合致するユーザサイト(例では、blog.goo.ne.jp/?のように、?を記述したルール)は、ユーザサイト名を見出し(サイト名)として集約する。 ユーザサイトは、インターネットサービスを提供しているプロバイダのホームページサービスやブログなどのURLの一部が一定の規則性を持つ、サービス利用者が自由に作成できるようなWEB文書群をまとめる単位である。   As shown in FIG. 3, the site aggregation rule in the site aggregation rule database 400 corresponds to the host name and directory name of the WEB document acquisition source information (URL, that is, http: // host name / directory name). When the aggregation rule is met, the described aggregation site name is given. Basically, a WEB document collects host names as headings (site names), and describes a user site (in this example, blog.goo.ne.jp/?) Where the host name and directory name match. Rule) is aggregated with the user site name as a heading (site name). A user site is a unit that collects a group of WEB documents that can be freely created by a service user, in which a part of a URL such as a homepage service or a blog of a provider that provides an Internet service has a certain regularity.

また集約サイト名は、複数のホストをまとめるための仮の名前であり、例えば図3のように、*.ntt.co.jp *.ntt.jpとルールを記述すると、ホスト名が「任意の語.ntt.co.jp」となっているWEB文書や「任意の語.ntt.jp」となっているWEB文書を、ntt.co.jpという集約サイト名を付与することで、同一サイトに属するホストサーバである、という意味を表す。 The aggregation site name is the name of the temporary order to summarize the multiple hosts, for example, as shown in FIG. 3, *. ntt. co. jp * . ntt. jp and a rule are described, a WEB document having a host name “arbitrary word.ntt.co.jp” or a WEB document having “arbitrary word.ntt.jp” is represented by ntt. co. By assigning an aggregate site name of jp, it means that the host servers belong to the same site.

前記サイト集約ルールは、図3の例のように、ひとつの集約サイト名に関して複数あってもよい。前記サイト集約ルールは、既知のブログサービスなどに関しては事前にルールを作成しておく。   There may be a plurality of site aggregation rules with respect to one aggregation site name as in the example of FIG. The site aggregation rule is created in advance for a known blog service or the like.

また前記サイト集約ルールをこのまま利用すると、1ページ毎にルール数に応じた適合検査を行う必要があり、処理時間がかかる。本発明では、サイト集約ルールをホスト名とディレクトリ名に分け、ホスト名を’.’にて個別に扱い共通部分をまとめて階層化した図4のような構造化サイト集約ルールを作って利用することで、適合検査を少ない回数で行うことにより、高速な集約を実現する。   Further, if the site aggregation rule is used as it is, it is necessary to perform a conformity inspection according to the number of rules for each page, which takes processing time. In the present invention, the site aggregation rule is divided into a host name and a directory name. By constructing and using the structured site aggregation rule as shown in FIG. 4 in which common parts are individually handled in ‘hierarchy’ and hierarchized, high-speed aggregation is realized by performing the conformity inspection in a small number of times.

WEB文書評価装置500は、WEB文書蓄積装置200からWEB文書を読み出し、サイト集約ルールデータベース400内の構造化サイト集約ルールを元に、WEB文書間のリンク情報から文書ごとの評価値を付与する。このとき、評価に使うリンク情報は、異なるサイト間のリンク情報のみを扱う。これは、同一サイト内でのリンクは、サイトを管理するものが自由に作ることができるため、ページを評価するための客観的な指標になりえないためである。この仕組みにより、従来手法の問題であった関連性のないリンクを排除して、有効なリンクを使った評価値の計算を実現できる。   The WEB document evaluation apparatus 500 reads out a WEB document from the WEB document storage apparatus 200 and assigns an evaluation value for each document from link information between the WEB documents based on the structured site aggregation rule in the site aggregation rule database 400. At this time, the link information used for evaluation deals only with link information between different sites. This is because links within the same site can be freely created by those managing the site, and thus cannot be an objective index for evaluating a page. By this mechanism, it is possible to eliminate the unrelated links, which was a problem of the conventional method, and to calculate the evaluation value using the effective links.

評価済WEB文書蓄積装置600は、WEB文書評価装置500によって付与された評価値を一緒に蓄積し、全文検索などへ利用するために都合の良い形式でWEB文書を格納しておく。   The evaluated WEB document storage device 600 stores together the evaluation values given by the WEB document evaluation device 500, and stores the WEB document in a format convenient for use in full-text search or the like.

次にサイト分析装置300に関して、その詳細を説明する。サイト集約装置301は、図5に示すようなデータを蓄積済みのWEB文書蓄積装置200からWEB文書のURLとそのWEB文書に記載されているリンク情報を組として取得し、サイト集約ルールデータベース400内の構造化サイト集約ルールを元に、WEB文書のURLとリンク先のURLが同一の集約サイト名を持たない場合のみ、それぞれのURLに対応するホスト名、もしくはユーザサイト名を見出し(サイト名)として、リンク情報とともに集約データ蓄積装置302へ記録する。   Next, details of the site analysis apparatus 300 will be described. The site aggregation device 301 acquires the URL of the WEB document and the link information described in the WEB document as a set from the WEB document storage device 200 in which data as shown in FIG. Based on the structured site aggregation rule, the host name or user site name corresponding to each URL is found (site name) only when the URL of the WEB document and the link destination URL do not have the same aggregation site name. As well as the link information.

このとき、図6のように、まずWEB文書のサイトに対して、そのリンク先サイトを追加し、またさらに、リンク先サイトに対してリンク元サイトを追加することを繰り返して記録していく。これにより、WEB文書蓄積装置200に記録されているWEB文書すべてを処理すると、サイト毎にリンク先とリンク元のサイト情報がそろうことになる。   At this time, as shown in FIG. 6, the link destination site is first added to the site of the WEB document, and further, the addition of the link source site to the link destination site is repeatedly recorded. Thus, when all the WEB documents recorded in the WEB document storage apparatus 200 are processed, the link destination and link source site information are aligned for each site.

リンク構造分析装置303では、集約データ蓄積装置302からサイトとリンク情報を組として取得し、リンク情報を元に、リンク先サイトとリンク元サイトに隣接しているサイトのリンク情報を組み合わせた情報をリンク構造分析補助記録装置304に記録していく。集約データ蓄積装置302に記録されているデータを全部処理すれば、サイトとその隣接するサイトとのリンク情報が、図7のようにまとまることになる。次に、リンク構造分析装置303は、リンク構造分析補助記録装置304に記録されているデータを順にサイト毎に3サイト間リンク構造を分析し、そのパターンによってサイトのリンク構造の特徴を表すデータとして、分析データ蓄積装置307へサイト毎に記録していく。   The link structure analysis device 303 acquires the site and link information as a set from the aggregate data storage device 302, and based on the link information, combines the link information of the link destination site and the site adjacent to the link source site. The data is recorded in the link structure analysis auxiliary recording device 304. If all the data recorded in the aggregated data storage device 302 is processed, link information between a site and its adjacent sites is collected as shown in FIG. Next, the link structure analysis device 303 sequentially analyzes the data recorded in the link structure analysis auxiliary recording device 304 for the three-site link structure for each site, and uses the pattern as data representing the characteristics of the link structure of the site. The data is recorded in the analysis data storage device 307 for each site.

サイト評価装置305は、最初に、集約データ蓄積装置302からサイトとリンク情報を組として取得し、ページランクの手法を元として、サイトのもつ評価値をリンク先サイトへ分配して、サイト評価補助記録装置306へ記録していく。   First, the site evaluation device 305 acquires the site and link information as a set from the aggregate data storage device 302, distributes the evaluation value of the site to the link destination site based on the page rank method, and assists in site evaluation. Recording is performed on the recording device 306.

次に、サイト評価装置305は、サイト評価補助記録装置306からサイト毎に分配された評価値を集計して新たな評価値として更新し、新たな評価値と前の評価値との差分を計算し、サイト評価補助記録装置306全体で最大の差分を記録しておく。この最大の差分があらかじめ定めた任意の値以上の時は、更新された新たな評価値をリンク先サイトへ分配し、集計することで、評価値を更新していく。   Next, the site evaluation device 305 aggregates the evaluation values distributed for each site from the site evaluation auxiliary recording device 306, updates them as new evaluation values, and calculates the difference between the new evaluation value and the previous evaluation value. The maximum difference is recorded in the entire site evaluation auxiliary recording device 306. When this maximum difference is equal to or greater than a predetermined value, the updated new evaluation value is distributed to the linked sites and aggregated to update the evaluation value.

このとき、サイトによっては、リンク先サイトはあるが、リンク元サイトがない場合、サイトの評価値は一定の値に決まる。こういったサイトの場合は、固定値になったという印をつけてリンク先サイトへ評価値を分配し、分析データ蓄積装置307へ評価値とリンク情報を記録することで、サイト評価装置305がもし次に計算を行う時があっても、無駄な計算をせずにすむ。また、リンク元サイトがあっても、すべてが固定値となった場合も同様に処理することで、処理量を減らすことができる。最大の差分が、あらかじめ定めた任意の値より下になったときに、サイト評価補助記録装置306のサイト評価値とリンク情報を分析データ蓄積装置307へ記録して終了する。   At this time, depending on the site, there is a link destination site, but when there is no link source site, the evaluation value of the site is determined to be a constant value. In the case of such a site, the site evaluation device 305 marks the fixed value, distributes the evaluation value to the link destination site, and records the evaluation value and the link information to the analysis data storage device 307 so that the site evaluation device 305 If there is a next time to perform a calculation, there is no need for unnecessary calculations. Further, even if there is a link source site, the processing amount can be reduced by processing in the same manner even when all of the link source sites become fixed values. When the maximum difference falls below a predetermined arbitrary value, the site evaluation value and link information of the site evaluation auxiliary recording device 306 are recorded in the analysis data storage device 307, and the process ends.

サイト判別装置308は、サイト毎に、評価値とリンク情報とリンク構造の特徴から判別式を用いて、サイト名に共通点はなくとも関連性が高いと推測できる場合は、同一サイトとしてまとめるよう複数のサイト集約ルールをまとめて、あたらしいサイトとする。   The site discriminating apparatus 308 uses the discriminant from the evaluation value, the link information, and the characteristics of the link structure for each site, and if the site names can be inferred to be highly relevant even if there is no common point, Combine multiple site aggregation rules into a new site.

(実施例1)
以下、本発明の実施例を説明する。
Example 1
Examples of the present invention will be described below.

既存のWEB文書取得装置100によって、インターネットからWEB文書を取得し、その取得元URLと、WEB文書に関する情報、また、WEB文書内のリンク情報をWEB文書蓄積装置200に記録しておく。WEB文書内のリンク情報は、既存のWEB文書取得装置100であれば、リンクをたどることで効率よくWEB文書を次々に取得するための基本機能であるので、この情報も記録できるものであれば良い。ここでは、図5に示すようなデータが取得できたものとする。   The existing WEB document acquisition apparatus 100 acquires a WEB document from the Internet, and records the acquisition source URL, information about the WEB document, and link information in the WEB document in the WEB document storage apparatus 200. The link information in the WEB document is a basic function for efficiently acquiring WEB documents one after another by following links in the existing WEB document acquisition apparatus 100, so that this information can also be recorded. good. Here, it is assumed that data as shown in FIG. 5 has been acquired.

サイト集約ルールデータベース400内のサイト集約ルールとして、例を図3に示す。図3における集約サイト名example.jpは、ex1.example.jpやex2.example.jpといったホスト名を持つWEB文書に対して、集約サイト名example.jpを付与する、というルールである。図3の次の段のルールは、ntt.co.jpとntt.jpは、ドメイン名は違うが、集約サイト名はntt.co.jpとして同一サイトとして扱う、ということを示す。また、図3のさらに次の段のルールは、ホスト名部分は同じでも、ディレクトリ名部分によって、利用者毎に作成者が違う場合、例えば、ISP(インターネットサービスプロバイダ)のユーザホームページサービスや、ブログサービスなどを、作者別に扱うためのルールであり、集約サイト名は、ユーザサイト名として、そのまま集約時にサイト名として扱うことを意味する。   An example of the site aggregation rule in the site aggregation rule database 400 is shown in FIG. Aggregation site name example. jp is ex1. example. jp and ex2. example. For a WEB document having a host name such as jp, an aggregate site name example. It is a rule that jp is assigned. The next level rule in FIG. co. jp and ntt. jp has a different domain name, but the aggregate site name is ntt. co. jp is treated as the same site. Further, the rule in the next stage in FIG. 3 is that, even if the host name portion is the same, but the creator is different for each user depending on the directory name portion, for example, an ISP (Internet Service Provider) user homepage service or a blog This is a rule for handling services and the like by author, and the aggregation site name means that it is treated as a user site name as a site name at the time of aggregation.

前記サイト集約ルールは、利用するにあたって、構造化サイト集約ルールとして、図4のような構造化を行う。サイト分析装置300のサイト集約装置301、WEB文書評価装置500では、WEB文書蓄積装置200から取得したURL(http://ホスト名/ディレクトリ名)を、ホスト名とディレクトリ名に分割し、ホスト名は、さらに’.’で分割して、右から逆順にして扱う。例えば、図5のURLwww.ntt.co.jp/top.htmlは、ホスト名www.ntt.co.jpとディレクトリ名/top.htmlに分け、さらに、ホスト名をjp,co,ntt,wwwと、分割して並べ替える。これを先頭から、図4の構造化サイト集約ルールに照らし合わせると、[jp]+[co]+[ntt]+[任意]に適合し、集約サイト名ntt.co.jpが付与される。同様に、図5のリンク情報であるwww.ntt.jp/は、集約サイト名ntt.co.jp、www.ntt−east.jp/は、合致するルールがないため、そのままwww.ntt−east.jpがサイト名となる。   When used, the site aggregation rule is structured as shown in FIG. 4 as a structured site aggregation rule. In the site aggregation device 301 and the web document evaluation device 500 of the site analysis device 300, the URL (http: // host name / directory name) acquired from the web document storage device 200 is divided into a host name and a directory name, and the host name Furthermore, '. Divide by 'and handle in reverse order from the right. For example, URL www. ntt. co. jp / top. html is the host name www. ntt. co. jp and directory name / top. The host name is further divided into html, jp, co, ntt, and www. When this is compared with the structured site aggregation rule of FIG. 4 from the top, it matches [jp] + [co] + [ntt] + [arbitrary], and the aggregation site name ntt. co. jp is assigned. Similarly, the link information www. ntt. jp / is an aggregate site name ntt. co. jp, www. ntt-east. Since there is no matching rule, jp / ntt-east. jp is the site name.

サイト集約装置301は、集約サイト名が同一の場合は、集約データ蓄積装置302に記録しない。この場合は、サイト名www.ntt.co.jpに対して、リンク先として、サイト名www.ntt−east.jpを記録し、またさらに、サイト名www.ntt−east.jpに対して、リンク元としてサイト名www.ntt.co.jpを記録する。同様の手順により、図5の記録データ例を処理して集約データ蓄積装置302に記録した結果を図6に例示している。   The site aggregation device 301 does not record the aggregation data storage device 302 when the aggregation site name is the same. In this case, the site name www. ntt. co. jp as the link destination, the site name www. ntt-east. jp and the site name www. ntt-east. jp, the site name www. ntt. co. jp is recorded. FIG. 6 illustrates the result of processing the recorded data example of FIG. 5 and recording it in the aggregated data storage device 302 by the same procedure.

リンク構造分析装置303は、集約データ蓄積装置302からサイト名とリンク情報を取得して、リンク先、リンク元のサイトそれぞれに対して、サイト名と加工したリンク情報をリンク構造分析補助記録装置304に記録していく。図6の例では、サイトexample.jpは、リンク情報として、リンク先としてblog.goo.ne.jp/person1、リンク元として、blog.goo.ne.jp/person2を持っている。リンク情報は順に処理していくので、まず、サイトblog.goo.ne.jp/person1に、リンク元サイトとして、example.jp、また、そのリンク情報として、記録先のサイトとのリンク情報以外のリンク情報を付加する。ここでは、(先:なし、元:blog.goo.ne.jp/person2)を一緒に記録する。次に、サイトblog.goo.ne.jp/person2に、リンク先サイトとして、example.jp、リンク情報として、(先:blog.goo.ne.jp/person1、元:)を一緒に記録する。図6に例示したデータを処理して記録した結果が、図7のリンク構造分析補助記録装置304の例である。   The link structure analysis device 303 acquires the site name and link information from the aggregate data storage device 302, and links the site name and the processed link information for each link destination and link source site to the link structure analysis auxiliary recording device 304. To record. In the example of FIG. jp is blog. as link information and blog. goo. ne. jp / person1, blog. goo. ne. I have jp / person2. Since the link information is processed in order, first, the site blog. goo. ne. jp / person1 is linked to example. jp and link information other than the link information with the recording destination site is added as the link information. Here, (first: none, original: blog.goo.ne.jp/person2) is recorded together. Next, the site blog. goo. ne. jp / person2 is linked to example. jp and (link: good.ne.jp/person1, source :) are recorded together as link information. The result of processing and recording the data illustrated in FIG. 6 is an example of the link structure analysis auxiliary recording device 304 of FIG.

次に、リンク構造分析装置303は、サイト毎にこのリンク情報を三つのサイトを一組と考え、その繋がり方を分析する。example.jpの場合は、リンク情報サイトと合わせると3サイト一組の組み合わせが出来る。これに、直接のリンク先、リンク元の間の関係は、付加されたリンク情報から分析でき、これを図示すると、図9のようなリンク構造を持つことが分かる。このリンク構造の中での役割を図10に示す番号を振ることで、サイトがどんな役割を持つか、という特徴を表す。すなわち、リンク構造は13パターン有り、サイトの役割は30種類に分類される。この特徴を、分析データ蓄積装置307にサイトの特徴として記録する。   Next, the link structure analysis device 303 considers this link information as a set of three sites for each site, and analyzes the connection method. example. In the case of jp, a combination of 3 sites can be combined with the link information site. In addition, the relationship between the direct link destination and the link source can be analyzed from the added link information, and it can be seen that this has a link structure as shown in FIG. By assigning the numbers shown in FIG. 10 to the roles in this link structure, the characteristics of what role the site has are expressed. That is, the link structure has 13 patterns, and the role of the site is classified into 30 types. This feature is recorded in the analysis data storage device 307 as a site feature.

サイト評価装置305は、集約データ蓄積装置302からサイト名とリンク情報を取得して、リンク先へ評価値を記録する。例えば、図6のサイトwww.ntt.co.jpの場合は、サイト評価補助記録装置306へサイトwww.ntt.co.jpと評価値の初期値1.0、リンク先サイトの情報を記録し、さらに、リンク先サイトwww.ntt−east.jpに対して、初期値1.0をリンク先サイトへのリンク数を掛け(ここでは1)、リンク先サイト数全体(ここでは1)で割った値を記録する。集約データ蓄積装置302のデータ全体をサイト評価装置305で処理した結果(サイト評価補助記録装置306内の記録データ)を図8に例示する。   The site evaluation device 305 acquires the site name and link information from the aggregate data storage device 302 and records the evaluation value at the link destination. For example, the site www. ntt. co. In the case of jp, the site www. ntt. co. jp and the initial value 1.0 of the evaluation value, information on the link destination site is recorded, and the link destination site www. ntt-east. The value obtained by multiplying jp by the initial value 1.0 multiplied by the number of links to the linked site (here, 1) and divided by the total number of linked sites (here, 1) is recorded. FIG. 8 illustrates the result of processing the entire data of the aggregate data storage device 302 by the site evaluation device 305 (recorded data in the site evaluation auxiliary recording device 306).

次に、サイト評価装置305は、サイト毎に、評価値を以下の式(1)で計算する。初期値、重みは、任意の値を指定できる。本例では、初期値1.0、重み0.85で計算している。   Next, the site evaluation apparatus 305 calculates an evaluation value for each site using the following formula (1). Arbitrary values can be specified for the initial value and weight. In this example, the calculation is performed with an initial value of 1.0 and a weight of 0.85.

評価値=初期値+重み×リンク元評価値の総和…(1)
サイト評価装置305は、算出した値と前回の評価値との差分の絶対値を記録し、あらかじめ定めた閾値よりも低くなるまで、繰り返し計算を行う。次回の計算では、新しく算出した評価値をリンク先サイトへのリンク数を掛け、リンク先サイト数全体で割った値をリンク先サイトへ記録する。基本的な計算方法は前述の通りだが、ここではサイト評価装置305は、初期値1.0の場合の最終的な評価値(サイトランク)と、特定のサイトのみ初期値1.0とし、他のサイトは初期値0.0で計算した評価値(信用度ランク)の二つを計算する。後者の特定のサイトとは、関連性のないリンクを作成するようなことのないサイトへのみリンクを張ると考えられるサイトを指定する。例えば、政府系のサイト(.go.jp)や、学術系のサイト(*.ac.jp)である。ここでは、ntt.co.jpのみを初期値1.0で、信用度ランクを算出する。この二つの評価値を以下の式(2)で評価した値を、最終的なサイト評価値として、分析データ蓄積装置307へ記録する。
Evaluation value = initial value + weight × total sum of link source evaluation values (1)
The site evaluation device 305 records the absolute value of the difference between the calculated value and the previous evaluation value, and repeatedly performs the calculation until it becomes lower than a predetermined threshold value. In the next calculation, the newly calculated evaluation value is multiplied by the number of links to the linked site, and the value divided by the total number of linked sites is recorded in the linked site. The basic calculation method is as described above. Here, the site evaluation device 305 sets the final evaluation value (site rank) in the case of the initial value 1.0, the initial value 1.0 only for a specific site, and others. Site 2 calculates the evaluation value (credit rating rank) calculated with the initial value 0.0. The latter specific site designates a site that is considered to be linked only to a site that does not create an unrelated link. For example, a governmental site (.go.jp) or an academic site ( * .ac.jp). Here, ntt. co. The trustworthiness rank is calculated with only the initial value 1.0 for jp. A value obtained by evaluating these two evaluation values by the following expression (2) is recorded in the analysis data storage device 307 as a final site evaluation value.

サイト評価値=1.0−信用度ランク/サイトランク…(2)
サイト判別装置308は、サイト毎にリンク情報とリンク構造特徴とサイト評価値から、あらかじめ定めた判別ルールもしくは、機械学習によるサイト判別器により、関連が強いサイト同士をまとめ、新たにサイト集約ルールを作成し、サイト集約ルールデータベース400に記録する。本例では、分析データ蓄積装置307内の図11に示す記録データから、blog.goo.ne.jp/person1とblog.goo.ne.jp/person2を同一サイトとする新しいサイト集約ルールとして、図12に示すルールが追加される。
Site evaluation value = 1.0−credit rating rank / site rank (2)
The site discriminating apparatus 308 compiles sites that are strongly related to each other by using a predetermined discriminating rule or a site discriminator based on machine learning based on link information, link structure characteristics, and site evaluation values for each site. Created and recorded in the site aggregation rule database 400. In this example, from the recorded data shown in FIG. goo. ne. jp / person1 and blog. goo. ne. As a new site aggregation rule with jp / person2 as the same site, the rule shown in FIG. 12 is added.

WEB文書評価装置500は、前記のように追加されたサイト集約ルールも加えて、WEB文書毎に、初期値0.15、重み0.85で、サイト評価装置305と同様の手法で評価値を計算していく。評価値の差分の絶対値がある閾値より低くなった場合、もしくは、ある回数分計算した結果を追加して、評価済WEB文書蓄積装置600へ記録していく。このデータを元に、全文検索サービスなどへ応用を行う。   In addition to the site aggregation rule added as described above, the WEB document evaluation apparatus 500 sets an evaluation value for each WEB document with an initial value of 0.15 and a weight of 0.85 in the same manner as the site evaluation apparatus 305. Calculate. When the absolute value of the difference between the evaluation values is lower than a certain threshold value, or a result calculated for a certain number of times is added and recorded in the evaluated WEB document storage device 600. Based on this data, it will be applied to full-text search services.

本発明の大規模WEBサイトの評価方法の実施形態例は、例えば前記図1〜図12で説明した各装置の処理を実行するものである。すなわち、WEB文書取得装置100が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積装置200に蓄積するステップと、サイト分析装置300のサイト集約装置301が、サイト集約ルールデータベース400に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積装置200に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、前記サイト毎に集約された情報を集約データ蓄積装置302に蓄積するステップと、リンク構造分析装置303が、前記集約データ蓄積装置302からサイトとリンク情報を組みとして取得し、サイト間のリンク構造をリンク構造分析補助記録装置304を利用して分析するリンク構造分析ステップと、サイト評価装置305が、集約データ蓄積装置302から集約されたサイトおよびリンク情報を取得し、サイト評価補助記録装置306を利用しながらサイト毎にページランク相当の評価値を求めるサイト評価ステップと、リンク構造分析装置303およびサイト評価装置305により得られた結果を分析データ蓄積装置307に蓄積するステップと、サイト判別装置308が、分析データ蓄積装置307から情報を取得し、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルールデータベース400に蓄積されたサイト集約ルールを更新するサイト判別ステップと、WEB文書評価装置500が、前記WEB文書蓄積装置200に蓄積された各WEB文書に対して、前記サイト集約ルールデータベース400に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積装置600に蓄積するステップとを実行する。   The embodiment of the evaluation method for a large-scale WEB site according to the present invention executes the processing of each device described with reference to FIGS. That is, the step in which the WEB document acquisition apparatus 100 acquires a WEB document from the Internet and stores information on the WEB document in the WEB document storage apparatus 200, and the site aggregation apparatus 301 of the site analysis apparatus 300 includes the site aggregation rule database 400. Based on the site aggregation rules for aggregating the sites, the site aggregation step for aggregating the link information of the WEB documents stored in the WEB document storage device 200 in units of sites, and for each site A link structure analysis device 303 acquires a site and link information as a set from the aggregate data storage device 302, and a link structure analysis auxiliary recording device for the link structure between sites. Link structure analysis step for analyzing using 304 A site evaluation step in which the site evaluation device 305 acquires the aggregated site and link information from the aggregate data storage device 302 and obtains an evaluation value corresponding to the page rank for each site while using the site evaluation auxiliary recording device 306; The step of accumulating the results obtained by the link structure analysis device 303 and the site evaluation device 305 in the analysis data storage device 307, and the site determination device 308 obtain information from the analysis data storage device 307, so A site determination step for collectively creating a new site aggregation rule and updating the site aggregation rule stored in the site aggregation rule database 400, and a WEB document evaluation device 500, each of which is stored in the WEB document storage device 200 For the WEB document, the site aggregation rule database is used. 400 based on the accumulated site aggregation rules, granted an evaluation value for each document using the link information between sites, and a step of storing the evaluated configuration WEB document storage device 600.

また、本実施形態の大規模WEBサイトの評価装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の大規模WEBサイトの評価方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。   Further, a part or all of the functions of each means in the evaluation apparatus for a large-scale WEB site of the present embodiment can be configured by a computer program, and the present invention can be realized by executing the program using the computer. It goes without saying that the procedure in the evaluation method for a large-scale WEB site of the present embodiment can be constituted by a computer program, and the program can be executed by the computer. Readable recording media such as FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk) -ROM, DVD (Dig) It is possible to record and save or distribute it in (Versatile Disk) -ROM, CD-R, CD-RW, HDD, removable disk or the like. It is also possible to provide the above program through a network such as the Internet or electronic mail.

本発明の大規模WEBサイトの評価装置の実施形態例を示すブロック図。The block diagram which shows the example of embodiment of the evaluation apparatus of the large-scale WEB site of this invention. 図1の装置の要部構成を示すブロック図。The block diagram which shows the principal part structure of the apparatus of FIG. 本発明の実施形態例におけるサイト集約ルールの一例を示す説明図。Explanatory drawing which shows an example of the site aggregation rule in the embodiment of this invention. 本発明の実施形態例における構造化サイト集約ルールの一例を示す説明図。Explanatory drawing which shows an example of the structured site aggregation rule in the embodiment of this invention. 本発明の実施形態例におけるWEB文書蓄積装置内の記録データの一例を示す説明図。Explanatory drawing which shows an example of the recording data in the WEB document storage apparatus in the embodiment of this invention. 本発明の実施形態例における集約データ蓄積装置内の記録データの一例を示す説明図。Explanatory drawing which shows an example of the recording data in the aggregated data storage apparatus in the embodiment of this invention. 本発明の実施形態例におけるリンク構造分析補助記録装置内の記録データの一例を示す説明図。Explanatory drawing which shows an example of the recording data in the link structure analysis auxiliary | assistant recording device in the embodiment of this invention. 本発明の実施形態例におけるサイト評価補助記録装置内の記録データの一例を示す説明図。Explanatory drawing which shows an example of the recording data in the site evaluation auxiliary | assistant recording device in the example of embodiment of this invention. 本発明の実施形態例におけるリンク構造分析装置で分析されるリンク構造の一例を示す説明図。Explanatory drawing which shows an example of the link structure analyzed with the link structure analyzer in the embodiment of this invention. 本発明の実施形態例におけるリンク構造の特徴番号を表す説明図。Explanatory drawing showing the feature number of the link structure in the embodiment of this invention. 本発明の実施形態例における分析データ蓄積装置内の記録データの一例を示す説明図。Explanatory drawing which shows an example of the recording data in the analysis data storage device in the embodiment of the present invention. 本発明の実施形態例におけるサイト集約ルールデータベースに追加されたサイト集約ルールの一例を示す説明図。Explanatory drawing which shows an example of the site aggregation rule added to the site aggregation rule database in the embodiment of this invention.

符号の説明Explanation of symbols

100…WEB文書取得装置、200…WEB文書蓄積装置、300…サイト分析装置、301…サイト集約装置、302…集約データ蓄積装置、303…リンク構造分析装置、304…リンク構造分析補助記録装置、305…サイト評価装置、306…サイト評価補助記録装置、307…分析データ蓄積装置、308…サイト判別装置、400…サイト集約ルールデータベース、500…WEB文書評価装置、600…評価済WEB文書蓄積装置。   DESCRIPTION OF SYMBOLS 100 ... WEB document acquisition apparatus, 200 ... WEB document storage apparatus, 300 ... Site analysis apparatus, 301 ... Site aggregation apparatus, 302 ... Aggregation data storage apparatus, 303 ... Link structure analysis apparatus, 304 ... Link structure analysis auxiliary recording apparatus, 305 ... site evaluation apparatus, 306 ... site evaluation auxiliary recording apparatus, 307 ... analysis data storage apparatus, 308 ... site discrimination apparatus, 400 ... site aggregation rule database, 500 ... WEB document evaluation apparatus, 600 ... evaluated WEB document storage apparatus.

Claims (5)

WEBから取得したWEB文書に関する情報を蓄積するWEB文書蓄積手段と、
サイトを集約するためのサイト集約ルールが蓄積されたサイト集約ルール蓄積手段と、
前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約し、前記集約されたサイト間のリンク構造を分析し、前記集約されたサイト毎にページランク相当の評価値を求め、前記分析されたリンク構造と前記求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト分析手段と、
前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価手段と、
前記WEB文書評価手段により評価値が付与されたWEB文書を蓄積する評価済WEB文書蓄積手段と、
を備えたことを特徴とする大規模WEBサイトの評価装置。
WEB document storage means for storing information about a WEB document acquired from WEB;
Site aggregation rule storage means for storing site aggregation rules for aggregating sites,
Based on the site aggregation rule stored in the site aggregation rule storage unit, the link information of the WEB document stored in the WEB document storage unit is aggregated for each site, and the link structure between the aggregated sites is analyzed. , An evaluation value corresponding to the page rank is obtained for each of the aggregated sites, and based on the analyzed link structure, the obtained evaluation value for each site, and the link information, the strongly related sites are collectively updated. A site analysis unit that creates a site aggregation rule and updates the site aggregation rule stored in the site aggregation rule storage unit;
WEB for assigning an evaluation value for each document using link information between sites based on the site aggregation rule stored in the site aggregation rule storage unit for each WEB document stored in the WEB document storage unit Document evaluation means;
An evaluated WEB document storage means for storing the WEB document to which the evaluation value is given by the WEB document evaluation means;
An evaluation apparatus for a large-scale WEB site characterized by comprising:
前記サイト分析手段は、
前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約手段と、
前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析手段と、
前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価手段と、
前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別手段と、
を備えたことを特徴とする請求項1に記載の大規模WEBサイトの評価装置。
The site analysis means includes
A site aggregating unit for aggregating link information of WEB documents accumulated in the WEB document accumulating unit for each site based on the site aggregation rules accumulated in the site aggregation rule accumulating unit;
A link structure analysis means for analyzing a link structure between sites aggregated by the site aggregation means;
Site evaluation means for obtaining site and link information aggregated by the site aggregation means, and obtaining an evaluation value equivalent to page rank for each site;
Based on the link structure analyzed by the link structure analysis unit and the evaluation value for each site obtained by the site evaluation unit and the link information, a site aggregation rule is newly created by combining strongly related sites, Site discrimination means for updating the site aggregation rules stored in the site aggregation rule storage means;
The apparatus for evaluating a large-scale WEB site according to claim 1, comprising:
前記サイト集約ルール蓄積手段には、WEB文書の取得元情報のホスト名とディレクトリ名に分け、ホスト名を個別に扱って共通部分をまとめて階層化した構造化サイト集約ルールが蓄積されることを特徴とする請求項1又は2に記載の大規模WEBサイトの評価装置。   The site aggregation rule accumulating means accumulates structured site aggregation rules that are divided into a host name and a directory name of the acquisition source information of the WEB document, and the host names are handled individually and the common parts are hierarchized. The evaluation apparatus for a large-scale WEB site according to claim 1 or 2, characterized in that: WEB文書取得手段が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積手段に蓄積するステップと、
サイト集約手段が、サイト集約ルール蓄積手段に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、
リンク構造分析手段が、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析ステップと、
サイト評価手段が、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価ステップと、
サイト判別手段が、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別ステップと、
WEB文書評価手段が、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積手段に蓄積するステップと、
を備えたことを特徴とする大規模WEBサイトの評価方法。
WEB document acquisition means acquires a WEB document from the Internet, and stores information about the WEB document in the WEB document storage means;
Site aggregation in which site aggregation means aggregates WEB document link information accumulated in the WEB document accumulation means on a site basis, based on site aggregation rules for aggregating sites accumulated in the site aggregation rule accumulation means Steps,
A link structure analysis means for analyzing a link structure between sites aggregated by the site aggregation means;
A site evaluation step in which the site evaluation means acquires the site and link information aggregated by the site aggregation means, and obtains an evaluation value corresponding to the page rank for each site;
The site discriminating unit collects sites that are strongly related to each other based on the link structure analyzed by the link structure analyzing unit, the evaluation value for each site obtained by the site evaluating unit, and the link information. A site determination step of creating a rule and updating the site aggregation rule stored in the site aggregation rule storage means;
The WEB document evaluation means uses the link information between sites based on the site aggregation rules stored in the site aggregation rule storage means for each WEB document stored in the WEB document storage means for each document. Assigning an evaluation value and storing it in the evaluated WEB document storage means;
A large-scale WEB site evaluation method characterized by comprising:
コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる大規模WEBサイトの評価プログラム。   An evaluation program for a large-scale WEB site that causes a computer to function as each means according to any one of claims 1 to 3.
JP2008290786A 2008-11-13 2008-11-13 Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program Expired - Fee Related JP5135174B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008290786A JP5135174B2 (en) 2008-11-13 2008-11-13 Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008290786A JP5135174B2 (en) 2008-11-13 2008-11-13 Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program

Publications (2)

Publication Number Publication Date
JP2010117893A JP2010117893A (en) 2010-05-27
JP5135174B2 true JP5135174B2 (en) 2013-01-30

Family

ID=42305531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008290786A Expired - Fee Related JP5135174B2 (en) 2008-11-13 2008-11-13 Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program

Country Status (1)

Country Link
JP (1) JP5135174B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5529790B2 (en) * 2011-03-28 2014-06-25 Kddi株式会社 Collection device, collection method, and collection program
JP5623983B2 (en) * 2011-06-14 2014-11-12 Kddi株式会社 ID assigning apparatus, method and program
JP5890301B2 (en) * 2012-12-13 2016-03-22 日本電信電話株式会社 User behavior visualization information providing device and method, program, and access log analysis device
JP7109764B2 (en) * 2017-10-15 2022-08-01 データ・サイエンティスト株式会社 Evaluation device and evaluation method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290843A (en) * 2000-02-04 2001-10-19 Fujitsu Ltd Device and method for document retrieval, document retrieving program, and recording medium having the same program recorded
JP3732826B2 (en) * 2002-11-28 2006-01-11 Ecジャパン株式会社 Document output apparatus and static web page composition method used therefor
US7739281B2 (en) * 2003-09-16 2010-06-15 Microsoft Corporation Systems and methods for ranking documents based upon structurally interrelated information
JP2005190065A (en) * 2003-12-25 2005-07-14 Nippon Telegr & Teleph Corp <Ntt> User terminal for information retrieval and collection, information retrieval and collection system, and information retrieval and collection method
JP2007114903A (en) * 2005-10-18 2007-05-10 Just Syst Corp Document-processing device, document-processing method, and document-processing program
JP5165200B2 (en) * 2006-01-06 2013-03-21 ヤフー株式会社 Score derivation system

Also Published As

Publication number Publication date
JP2010117893A (en) 2010-05-27

Similar Documents

Publication Publication Date Title
KR101063364B1 (en) System and method for prioritizing websites during the web crawling process
JP6017155B2 (en) Improved similar document detection method, apparatus, and computer-readable recording medium
JP4322887B2 (en) Thread ranking apparatus and method
Alam et al. Novel approaches to crawling important pages early
US20070162408A1 (en) Content Object Indexing Using Domain Knowledge
JP4797069B2 (en) Keyword management program, keyword management system, and keyword management method
JP2009104591A (en) Web document clustering method and system
JP2008033687A (en) Retrieval query generation device
GB2498762A (en) Computing user traffic at the website based on user actions
JP5135174B2 (en) Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program
Uzun et al. An effective and efficient Web content extractor for optimizing the crawling process
JP4714710B2 (en) Automatic tagging device, automatic tagging method, automatic tagging program, and recording medium recording the program
JP4750628B2 (en) Information ranking method and apparatus, program, and computer-readable recording medium
JP2008146293A (en) Evaluation system, method and program for browsing target information
KR101556714B1 (en) Method, system and computer readable recording medium for providing search results
Vieira et al. On finding templates on web collections
Narayana et al. Fixing the threshold for effective detection of near duplicate web documents in web crawling
JP5416552B2 (en) Ranking function generation device, ranking function generation method, ranking function generation program
Annam et al. Entropy based informative content density approach for efficient web content extraction
Lee et al. Social network based reputation computation and document classification
JP2006228116A (en) Web page link determination method and web page link determination device
JP5292336B2 (en) Knowledge amount estimation device, knowledge amount estimation method, and knowledge amount estimation program for each field of search system users
JP2011070252A (en) Document analysis system
Bashir Estimating retrievability ranks of documents using document features
US9256608B2 (en) Mapping user content to folders in a file system

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100610

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees