JP2010231508A - Device, method and program for determining significance - Google Patents
Device, method and program for determining significance Download PDFInfo
- Publication number
- JP2010231508A JP2010231508A JP2009078383A JP2009078383A JP2010231508A JP 2010231508 A JP2010231508 A JP 2010231508A JP 2009078383 A JP2009078383 A JP 2009078383A JP 2009078383 A JP2009078383 A JP 2009078383A JP 2010231508 A JP2010231508 A JP 2010231508A
- Authority
- JP
- Japan
- Prior art keywords
- importance
- determination
- article data
- data
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013480 data collection Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、Webページに表示されている記事データの重要度を判定する重要度判定装置、重要度判定方法、およびプログラムに関する。 The present invention relates to an importance determination device, an importance determination method, and a program for determining the importance of article data displayed on a Web page.
従来、インターネット上には、不特定多数に対する情報発信の場としてのWebページが多数存在している。このようなWebページには、企業の広告ページの他、個人ユーザの日記等を記述することができるブログと呼ばれるサービスにより作成されたページも多く見られる。 Conventionally, there are many web pages on the Internet as a place for sending information to unspecified people. In such Web pages, in addition to corporate advertisement pages, many pages created by a service called a blog that can describe a diary of an individual user can be seen.
このブログサービスでは、Webページ(ブログ)をユーザが作成、編集できる仕様であるため、近年では、情報発信とは異なる目的により作成されたスパムブログ(スプログ)が多数見られるようになっている。具体的には、アクセス数を増やす目的で、他のWebページの文章をそのまま引用したもの等が挙げられる。これらのスプログは、独自の記事を持たず重要度が低いため、検索サービスの精度を低下させる要因となったり、大量に生成されることによりブログサービスを提供するサーバのリソースを圧迫したりする問題がある。 In this blog service, since a user can create and edit a web page (blog), in recent years, many spam blogs (splogs) created for a purpose different from information transmission have been seen. Specifically, for the purpose of increasing the number of accesses, a text quoted as it is from another Web page can be cited. These splogs do not have their own articles and are of low importance, so they can cause problems in reducing the accuracy of the search service, or they can generate a large amount of information and squeeze the resources of the server that provides the blog service. There is.
そこで、このようなスパムブログを検出する方法が提案されている。例えば、非特許文献1には、特定のキーワードが書かれているブログ記事を予め抽出し、そのスパム率を調査しておくことが示されている。また、非特許文献2には、集めた文書の中で、コピーコンテンツの割合が閾値以上の文書をスプログと判定することが示されている。 Therefore, a method for detecting such a spam blog has been proposed. For example, Non-Patent Document 1 shows that a blog article in which a specific keyword is written is extracted in advance and its spam rate is investigated. Further, Non-Patent Document 2 shows that, among collected documents, a document whose copy content ratio is equal to or greater than a threshold is determined as a splog.
しかしながら、非特許文献1の方法では、予めキーワードを選出する必要があり、このキーワードを含まないスプログを検知することができない。また、非特許文献2の方法では、予め大量のブログを用意しておく必要がある。1日に100万件以上の投稿がある現状では、これらに対して十分な量をサンプリングすることは現実的ではない。そこで、事前にデータ収集することなく、簡便にスプログ等の重要度の低い記事を検知できる方法が望まれている。 However, in the method of Non-Patent Document 1, it is necessary to select a keyword in advance, and splogs that do not include this keyword cannot be detected. In the method of Non-Patent Document 2, it is necessary to prepare a large number of blogs in advance. In the current situation where there are more than 1 million posts per day, it is not practical to sample a sufficient amount for these posts. Therefore, a method that can easily detect articles with low importance such as splogs without collecting data in advance is desired.
本発明は、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる重要度判定装置、重要度判定方法、およびプログラムを提供することを目的とする。 An object of the present invention is to provide an importance level determination apparatus, an importance level determination method, and a program that can determine the level of importance for a target article without requiring prior data collection.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1) Webページに表示されている記事データの重要度を判定する重要度判定装置であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。
(1) An importance level determination device for determining the importance level of article data displayed on a web page,
Extraction means for extracting link data and article data included in the web page;
An acquisition unit that acquires a link destination file indicated by the link data extracted by the extraction unit;
An importance level determination apparatus comprising: a determination unit that determines, when the file acquired by the acquisition unit includes at least a part of the article data, the importance level of the article data to be low.
このような構成によれば、当該重要度判定装置は、Webページ(ブログ)内に記述されているリンクデータ、具体的には、URL(Uniform Resource Locator)を抽出し、このURLのリンク先のファイルを取得する。そして、取得したファイル内に、Webページの記事が含まれる場合、Webページがリンク先のファイルを引用していると判断できるので、当該重要度判定装置は、この記事の重要度を低く判定する。 According to such a configuration, the importance level determination device extracts link data described in a Web page (blog), specifically, a URL (Uniform Resource Locator), and links the link destination of this URL. Get the file. If the acquired file includes an article of the Web page, it can be determined that the Web page quotes the linked file, and thus the importance level determination device determines the importance level of the article to be low. .
したがって、当該重要度判定装置は、Webページに表示される記事の重要度を判定することにより、この重要度が低い記事を表示させているWebページをスプログであると判定することができる。このとき、当該重要度判定装置は、判定対象のWebページとURLのリンク先データのみを参照することで重要度判定を行うので、事前のデータ収集を必要とせず、簡便に重要度を判定することができる。 Therefore, the importance level determination apparatus can determine that the web page displaying the article with low importance is splog by determining the importance level of the article displayed on the web page. At this time, since the importance level determination apparatus performs the importance level determination by referring only to the determination target Web page and URL link destination data, the importance level can be easily determined without requiring prior data collection. be able to.
(2) 前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする(1)に記載の重要度判定装置。 (2) The importance determination apparatus according to (1), wherein the extraction unit extracts and divides and separates article data in the vicinity of the link data by a predetermined character string.
このような構成によれば、当該重要度判定装置は、リンクデータ(URL)の近傍の記事データを用いて判定するので、引用された可能性の高い記事を効率的に抽出できる。また、タグ、改行、句読点や「...」等、所定の文字列を区切りとして分割するので、分割された小さな単位で引用の有無を判定できる。その結果、記事全体としての引用の度合いを容易に判定することができる。 According to such a configuration, since the importance level determination device determines using article data in the vicinity of the link data (URL), it is possible to efficiently extract articles that are likely to be cited. In addition, since a predetermined character string such as a tag, a line feed, a punctuation mark, or “...” Is divided as a delimiter, the presence / absence of citation can be determined in divided small units. As a result, it is possible to easily determine the degree of citation for the entire article.
(3) 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする(2)に記載の重要度判定装置。 (3) The determination unit determines the importance of the article data based on the amount of the article data included in the file acquired by the acquisition unit. Importance determination device.
このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Webページ(ブログ)の記事データが含まれる量に基づいて重要度を判定する。すなわち、引用量の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。 According to such a configuration, the importance level determination device determines the importance level based on the amount of article data of the Web page (blog) included in the linked file. In other words, since article data with a larger amount of citations can be determined to be less important, there is a possibility that splogs can be accurately detected based on the importance.
(4) 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Webページの重要度を判定することを特徴とする(2)に記載の重要度判定装置。 (4) The determination unit may determine the importance of the Web page based on a ratio of the article data included in the file acquired by the acquisition unit. Importance determination device.
このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Webページ(ブログ)の記事データが含まれる割合に基づいて重要度を判定する。すなわち、引用割合の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。 According to such a configuration, the importance level determination device determines the importance level based on the ratio of the web page (blog) article data included in the linked file. That is, since the article data having a higher citation ratio can be determined to be less important, there is a possibility that splogs can be detected with high accuracy based on the importance.
(5) 前記判定手段は、前記Webページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする(1)から(4)のいずれかに記載の重要度判定装置。 (5) The determination means determines the importance of the article data based on a distance between a position where the link data is described in the Web page and a position where the article data is described. The importance determination device according to any one of (1) to (4), which is characterized.
このような構成によれば、当該重要度判定装置は、リンクデータ(URL)と記事データとの距離に基づいて重要度を判定する。ここで、リンクデータに近い記事であるほどリンクデータとの関連性は高く、引用された可能性が高いと考えられる。当該重要度判定装置は、このような引用された可能性が高い記事の重要度を低く判定することができる。 According to such a configuration, the importance level determination device determines the importance level based on the distance between the link data (URL) and the article data. Here, it is considered that the closer the article is to the link data, the higher the relevance with the link data and the higher the possibility of being cited. The importance level determination apparatus can determine the importance level of articles that have a high possibility of being cited.
(6) 前記判定手段は、前記Webページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする(1)から(5)のいずれかに記載の重要度判定装置。 (6) The determination unit determines the importance of article data in the predetermined area based on a determination result regarding each of the plurality of link data included in the predetermined area of the Web page (1) To the importance determining device according to any one of (5).
このような構成によれば、当該重要度判定装置は、複数のリンクデータに対する判定結果に基づいて、Webページ(ブログ)の所定領域、例えば所定の期間に投稿されたブログ記事やブログ全体の重要度を判定することができる。したがって、局所的に引用されているだけで、その他の部分も含めて重要度が低く判定されることを抑制でき、スプログ検知の精度を向上することができる。 According to such a configuration, the importance level determination device determines the importance of a blog article or a whole blog posted in a predetermined area of a Web page (blog), for example, a predetermined period, based on determination results for a plurality of link data. Degree can be determined. Therefore, it is possible to suppress the determination that the degree of importance is low including other parts only by being quoted locally, and the accuracy of splog detection can be improved.
(7) Webページの更新情報を受信する受信手段をさらに備え、
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする(1)から(6)のいずれかに記載の重要度判定装置。
(7) It further comprises receiving means for receiving update information of the Web page,
The importance determination apparatus according to any one of (1) to (6), wherein the reception unit receives article data for determining the importance based on the update information.
このような構成によれば、当該重要度判定装置は、Webページが更新されたことを示す情報を受信するので、新しく生成された、または更新されたWebページ(ブログ)の記事データを受信することができる。したがって、未判定のWebページを対象として効率的にスプログか否かを判定することができる。 According to such a configuration, the importance determination apparatus receives information indicating that the Web page has been updated, and therefore receives article data of a newly generated or updated Web page (blog). be able to. Therefore, it is possible to efficiently determine whether or not a splog is targeted for an undetermined Web page.
(8) 前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたWebページに関して、前記記事データの重要度を判定することを特徴とする(7)に記載の重要度判定装置。 (8) The determination unit determines the importance of the article data with respect to a Web page updated in a predetermined time zone based on the update information received by the reception unit (7) Importance determination device described in 1.
このような構成によれば、当該重要度判定装置は、所定の時間帯に更新されたWebページ(ブログ)に関してスプログ判定を行う。したがって、例えば深夜の時間帯に更新されたWebページや、一定周期で更新されているWebページ等、自動的に更新された可能性の高いWebページを選択することができる。その結果、当該重要度判定装置は、効率的にスプログを検知できる可能性がある。 According to such a configuration, the importance level determination device performs splog determination for a Web page (blog) updated in a predetermined time zone. Therefore, for example, it is possible to select a Web page that is highly likely to be automatically updated, such as a Web page updated at midnight, or a Web page updated at a constant cycle. As a result, the importance level determination apparatus may be able to detect splogs efficiently.
(9) コンピュータがWebページに表示されている記事データの重要度を判定する重要度判定方法であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。
(9) An importance determination method for determining the importance of article data displayed on a web page by a computer,
An extraction step of extracting link data and article data included in the web page;
An acquisition step of acquiring a link destination file indicated by the link data extracted by the extraction step;
And a determination step of determining a low importance level of the article data when at least a part of the article data is included in the file acquired by the acquisition step.
このような構成によれば、当該方法を実行することにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by executing the method.
(10) Webページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。
(10) A program for causing a computer to determine the importance of article data displayed on a web page,
An extraction step of extracting link data and article data included in the web page;
An acquisition step of acquiring a link destination file indicated by the link data extracted by the extraction step;
When the file acquired by the acquisition step includes at least a part of the article data, a program for executing a determination step of determining the importance of the article data to be low.
このような構成によれば、当該プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by causing the computer to execute the program.
本発明によれば、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる。 According to the present invention, it is possible to determine the importance level of a target article without requiring prior data collection.
以下、本発明の実施形態の一例について図を参照しながら説明する。なお、重要度を判定する対象は、ブログの記事データであるとする。本実施形態では、重要度に応じて、このブログがスプログであるか否かを判定する。 Hereinafter, an example of an embodiment of the present invention will be described with reference to the drawings. It is assumed that the target for determining the importance is blog article data. In this embodiment, it is determined whether this blog is a splog according to the importance.
[システム全体構成]
図1は、本実施形態に係る判定サーバ10(重要度判定装置)と関連要素とを含んだシステムの全体構成を示す図である。判定サーバ10と、Webサーバ20および21と、ユーザ端末30とは、インターネット等の所定のネットワークを介して接続されている。
[Entire system configuration]
FIG. 1 is a diagram illustrating an overall configuration of a system including a determination server 10 (importance determination device) and related elements according to the present embodiment. The
ユーザ端末30は、所定の検索サービスの検索結果から選択される等の指示入力に応じて、Webサーバ20より、Webページ(ブログ)を受信して表示する。このWebページには、別のWebサーバ21に記憶されているファイルに対するURLが記述されており、このファイルを引用(コピー)しているものとする。なお、リンク先は、同一のWebサーバ20内であってもよい。
The
判定サーバ10は、ユーザ端末30に表示されたブログ記事の重要度を判定し、このブログがスパムブログであるか否かを判定する。このとき、判定サーバ10は、Webサーバ21より、引用ファイルを受信し、ブログ記事との一致度に基づいて重要度を判定する(処理の詳細は後述する)。
The
[ハードウェア構成]
図2は、本実施形態に係る判定サーバ10のハードウェア構成を示す図である。判定サーバ10は、制御部110と、記憶部120と、入力部130と、表示部140と、通信部150と、を備え、各ハードウェアは、バス160を介して接続されている。
[Hardware configuration]
FIG. 2 is a diagram illustrating a hardware configuration of the
制御部110は、判定サーバ10の全体を制御する部分であり、記憶部120に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウェアと協働し、本発明に係る各種機能を実現している。制御部110は、CPU(Central Processing Unit)であってよい。
The
記憶部120は、ハードウェア群を判定サーバ10として機能させるための各種プログラムや、本発明の機能を制御部110に実行させるプログラム、データベース等を記憶する。記憶部120は、ハードディスク、光ディスクドライブ、あるいは半導体メモリ等、様々な記憶装置のいずれかにより構成されてよい。
The
入力部130は、判定サーバ10に対するユーザ(判定サーバ10の管理者)からの指示入力を受け付けるインタフェース装置である。入力部130は、例えばキーボードやマウス等により構成される。
The
表示部140は、ユーザ(判定サーバ10の管理者)にデータの入力を受け付ける画面を表示したり、判定サーバ10による処理結果の画面を表示したりするものである。表示部140は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置であってよい。
The
通信部150は、判定サーバ10が、ネットワーク40(図1)を介してWebサーバ20、21や他の情報端末等と情報を送受信する場合のネットワーク・アダプタである。
The
なお、本発明でいうコンピュータとは、制御装置や記憶装置等を備えた情報処理装置である。判定サーバ10は、制御部110や記憶部120等を備えた情報処理装置であり、この情報処理装置は、本発明のコンピュータの概念に含まれる。
The computer referred to in the present invention is an information processing apparatus including a control device, a storage device, and the like. The
[機能構成]
図3は、本実施形態に係る判定サーバ10の機能構成を示す図である。判定サーバ10の制御部110は、ブログ受信部11(受信手段)と、URL抽出部12(抽出手段)と、引用ファイル取得部13(取得手段)と、引用解析部14(判定手段)と、スプログ判定部15と、を備える。また、記憶部120は、ブログDB16を備える。
[Function configuration]
FIG. 3 is a diagram illustrating a functional configuration of the
ブログ受信部11は、Webサーバ20からスプログ判定の対象であるブログのページデータ(HTMLファイル)を受信する。ここで、ブログ受信部11は、新規に作成または更新されたブログを受信することとする。すなわち、ブログ受信部11は、RSS等により配信されるブログの更新情報を受信したことに応じて、対象のブログを受信する。
The
URL抽出部12は、ブログ受信部11により受信されたブログのページデータから、リンクデータとしてのURLを抽出する。具体的には、URL抽出部12は、「http」から始まる文字列の、「”」や「>」や改行までの部分を抽出する。これにより、URL抽出部12は、実際のリンク項目としてタグを付与されていないURLも抽出することができる。なお、「.html」や「.htm」等のファイル拡張子をもつもの以外を除外することとしてもよい。
The
さらに、URL抽出部12は、抽出したURLの近傍にある記事データを抽出する。具体的には、URLの前後の所定量の記事データについて、タグ部分や、改行、句読点や「...」等、所定の文字列を区切りとして、分割して抽出する。URL抽出部12は、抽出したURLおよび記事データをブログDB16に記憶する。
Further, the
図4は、本実施形態に係るブログDB16に格納されるスプログ判定テーブルを示す図である。スプログ判定テーブルには、対象ブログの更新日時と共に、抽出されたURLおよびURL近傍の記事データが記憶される。さらに、各記事データとURLとの距離データ、および後述の重要度の低さを示す引用判定値が記憶される。
FIG. 4 is a diagram showing a splog determination table stored in the
引用ファイル取得部13は、スプログ判定テーブルに記憶されたURL、すなわちスプログ判定対象のブログに記述されているURLが指し示すリンク先の引用ファイルを、Webサーバ21から取得する。
The citation
引用解析部14は、引用ファイル取得部13により取得した引用ファイルと、スプログ判定テーブルに記憶されている記事データとを比較し、引用ファイル内に記事データと一致する部分が存在する場合には、引用(コピー)されたと判断する。さらに、URLと記事データとの距離を考慮し、距離が近いほど引用判定値を大きく設定し、スプログ判定テーブルに記憶する。ここで、引用判定値が大きいほど記事データの重要度は低く、Webページがスプログである可能性が高いことを示している。
The
スプログ判定部15は、引用解析部14により判定された記事データの重要度、すなわちスプログ判定テーブルの引用判定値を統計処理することにより、スプログ判定を行う。具体的には、例えば引用判定値の合計や平均、あるいは所定以上の引用判定値となっている記事データの量や割合等により引用度合いを算出し、この度合いが所定の閾値以上である場合にスプログであると判定する。
The
図5は、本実施形態に係る判定サーバ10によりスプログと判定されるWebページの例を示す図である。
FIG. 5 is a diagram illustrating an example of a Web page that is determined as a splog by the
ブログページ50には、URLを含むリンクデータ51と共に記事データ52が配置されている。リンクデータ51は、別のWebページ60へのハイパーリンクであり、URLが指し示すリンク先のWebページ60には、リンクデータ51と同一のタイトル文字列61と、記事データ52と同一の文章である記事データ62が配置されている。
In the
判定サーバ10は、リンクデータ51の近傍の文字列がWebページ60に含まれることにより、この領域の記事データについて、重要度が低いと判定する。他の領域についても、同様にリンクデータ近傍の記事データが別のWebページに存在することが判明すると、ブログページ50全体の重要度は低くなる。その結果、判定サーバ10は、ブログページ50はスプログであると判定する。
The
なお、重要度を判定する記事データは、テキストには限られない。例えば、動画像53や、静止画、音声データ等であってもよく、判定サーバ10は、リンク先に同一のデータが存在することにより、これらが引用(コピー)されたものとして重要度を低く設定する。
The article data for determining the importance is not limited to text. For example, it may be a moving
[処理フロー]
図6は、本実施形態に係る判定サーバ10の制御部110における処理を示すフローチャートである。
[Processing flow]
FIG. 6 is a flowchart showing processing in the
ステップS1では、制御部110は、RSS等により取得したWebページの更新情報に基づいて、スプログ判定を行うブログのページデータを取得する。
In step S <b> 1, the
ステップS2では、制御部110は、ステップS1で取得したページデータから、URLの記述を抽出する。
In step S2,
ステップS3では、制御部110は、ステップS2で抽出したURLの付近の記事データを抽出する。抽出されたURLおよび記事データは、記憶部120のスプログ判定テーブル(図4)に記憶される。
In step S3, the
ステップS4では、制御部110は、ステップS2で抽出したURLが指し示す引用ファイルを取得する。
In step S4, the
ステップS5では、制御部110は、ステップS4で取得した引用ファイル内に、ステップS3で抽出した記事データと一致する部分が含まれるか否かを解析する。解析結果として、記事データの引用判定値を設定し、記憶部120のスプログ判定テーブル(図4)に記憶する。さらに、制御部110は、判定領域に含まれる複数のURLに関する引用判定値に基づいて、統計処理により全体の引用度合いを算出する。
In step S5, the
ステップS6では、制御部110は、ステップS5で算出した引用度合いが所定の閾値以上であるか否かを判定する。この判定がYESの場合はステップS7に移り、判定がNOの場合はステップS8に移る。
In step S6, the
ステップS7では、制御部110は、記事の引用度合いが高く、ページの重要度が低いと判断し、ステップS1で取得したブログはスプログであると判定する。
In step S7, the
ステップS8では、制御部110は、記事の引用度合いが低く、ページの重要度が高いと判断し、ステップS1で取得したブログはスプログではないと判定する。
In step S8, the
このように、本実施形態によれば、記事の中に記述されたURLに基づいて、リンク先との一致度合いを解析することにより、ブログの重要度を判定する。その結果、重要度の低いスプログを検知することができる。このとき、事前にデータ収集する必要がないため、簡便にスプログか否かを判定することができる。 Thus, according to this embodiment, the importance level of a blog is determined by analyzing the degree of matching with a link destination based on the URL described in the article. As a result, splogs with low importance can be detected. At this time, since it is not necessary to collect data in advance, it can be easily determined whether or not it is a splog.
なお、本実施形態では、他の記事を引用しているスプログを検知できる。すなわち、スプログと判定されるブログは、アクセス数を稼ぐためにコンテンツがコピーされたブログの他、例えばアフィリエイト収入を目的として商品説明文等をコピーしているのみのブログ等を精度良く検知することができる。 In the present embodiment, it is possible to detect splogs quoting other articles. In other words, blogs that are determined to be splogs can accurately detect, for example, blogs whose contents have been copied in order to increase the number of accesses, as well as blogs that only have product descriptions copied for the purpose of affiliate income, for example. Can do.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
上述の実施形態では、新規に作成または更新されたブログを対象として重要度の判定を行ったが、本発明はこれには限られない。例えば、管理者からの指示入力を受け付けて、指示されたWebページや、ページ内の指示された領域について、重要度を判定してもよい。 In the above-described embodiment, the importance level is determined for a newly created or updated blog, but the present invention is not limited to this. For example, it is possible to receive an instruction input from the administrator and determine the importance of the instructed Web page or the instructed area in the page.
また、重要度に関する様々な指標を組み合わせ、総合的に重要度を判定してもよい。例えば、所定の時間帯(例えば、深夜)に更新されたWebページや、一定周期で(決まった時間に)更新されているWebページ等は、人手によらず自動的に生成、更新されている可能性が高い。このようなWebページを優先して重要度判定の対象としてもよいし、重要度を低く重み付けして判定してもよい。 Also, the importance may be determined comprehensively by combining various indexes related to the importance. For example, a web page updated at a predetermined time zone (for example, midnight), a web page updated at a fixed period (at a fixed time), and the like are automatically generated and updated without human intervention. Probability is high. Such Web pages may be prioritized for importance determination, or may be determined by weighting the importance low.
上述の実施形態では、判定サーバ10を説明したが、本発明の重要度判定装置の構成はこれには限られない。判定サーバ10の各機能は、複数のサーバに分散されてもよい。また、判定サーバ10は、Webサーバ20等の他のサーバと統合されていてもよい。
Although the
10 判定サーバ(重要度判定装置)
11 ブログ受信部(受信手段)
12 URL抽出部(抽出手段)
13 引用ファイル取得部(取得手段)
14 引用解析部(判定手段)
15 スプログ判定部
16 ブログDB
10 judgment server (importance judgment device)
11 Blog receiving part (receiving means)
12 URL extraction unit (extraction means)
13 Citation file acquisition unit (acquisition means)
14 Citation analysis section (determination means)
15
Claims (10)
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。 An importance level determination device for determining the importance level of article data displayed on a web page,
Extraction means for extracting link data and article data included in the web page;
An acquisition unit that acquires a link destination file indicated by the link data extracted by the extraction unit;
An importance level determination apparatus comprising: a determination unit that determines, when the file acquired by the acquisition unit includes at least a part of the article data, the importance level of the article data to be low.
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする請求項1から請求項6のいずれかに記載の重要度判定装置。 A receiving means for receiving update information of the Web page;
The importance determination apparatus according to claim 1, wherein the reception unit receives article data for determining the importance based on the update information.
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。 An importance determination method for determining the importance of article data displayed on a web page by a computer,
An extraction step of extracting link data and article data included in the web page;
An acquisition step of acquiring a link destination file indicated by the link data extracted by the extraction step;
And a determination step of determining a low importance level of the article data when at least a part of the article data is included in the file acquired by the acquisition step.
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。 A program for causing a computer to determine the importance of article data displayed on a web page,
An extraction step of extracting link data and article data included in the web page;
An acquisition step of acquiring a link destination file indicated by the link data extracted by the extraction step;
When the file acquired by the acquisition step includes at least a part of the article data, a program for executing a determination step of determining the importance of the article data to be low.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009078383A JP5216654B2 (en) | 2009-03-27 | 2009-03-27 | Importance determination device, importance determination method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009078383A JP5216654B2 (en) | 2009-03-27 | 2009-03-27 | Importance determination device, importance determination method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010231508A true JP2010231508A (en) | 2010-10-14 |
JP5216654B2 JP5216654B2 (en) | 2013-06-19 |
Family
ID=43047253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009078383A Active JP5216654B2 (en) | 2009-03-27 | 2009-03-27 | Importance determination device, importance determination method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5216654B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012133578A (en) * | 2010-12-21 | 2012-07-12 | Yahoo Japan Corp | Web page evaluation device and web page evaluation method |
CN103927370A (en) * | 2014-04-23 | 2014-07-16 | 焦点科技股份有限公司 | Network information batch acquisition method of combined text and picture information |
JP2014146257A (en) * | 2013-01-30 | 2014-08-14 | International Business Maschines Corporation | Information processing apparatus, information processing method, and information processing program |
JP2015090663A (en) * | 2013-11-07 | 2015-05-11 | 三菱電機株式会社 | Text summarization device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338086A (en) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | Topic scale management device |
JP2007052737A (en) * | 2005-08-19 | 2007-03-01 | Oki Electric Ind Co Ltd | Information processor and computer program |
JP2007272333A (en) * | 2006-03-30 | 2007-10-18 | Fujitsu Ltd | Web page sorting program, web page sorting device, and web page sorting method |
JP2009508267A (en) * | 2005-09-13 | 2009-02-26 | グーグル インコーポレイテッド | Ranking blog documents |
-
2009
- 2009-03-27 JP JP2009078383A patent/JP5216654B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338086A (en) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | Topic scale management device |
JP2007052737A (en) * | 2005-08-19 | 2007-03-01 | Oki Electric Ind Co Ltd | Information processor and computer program |
JP2009508267A (en) * | 2005-09-13 | 2009-02-26 | グーグル インコーポレイテッド | Ranking blog documents |
JP2007272333A (en) * | 2006-03-30 | 2007-10-18 | Fujitsu Ltd | Web page sorting program, web page sorting device, and web page sorting method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012133578A (en) * | 2010-12-21 | 2012-07-12 | Yahoo Japan Corp | Web page evaluation device and web page evaluation method |
JP2014146257A (en) * | 2013-01-30 | 2014-08-14 | International Business Maschines Corporation | Information processing apparatus, information processing method, and information processing program |
US9904663B2 (en) | 2013-01-30 | 2018-02-27 | International Business Machines Corporation | Information processing apparatus, information processing method, and information processing program |
JP2015090663A (en) * | 2013-11-07 | 2015-05-11 | 三菱電機株式会社 | Text summarization device |
CN103927370A (en) * | 2014-04-23 | 2014-07-16 | 焦点科技股份有限公司 | Network information batch acquisition method of combined text and picture information |
CN103927370B (en) * | 2014-04-23 | 2015-02-18 | 焦点科技股份有限公司 | Network information batch acquisition method of combined text and picture information |
Also Published As
Publication number | Publication date |
---|---|
JP5216654B2 (en) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3491544B1 (en) | Web page display systems and methods | |
CN109145280B (en) | Information pushing method and device | |
US8601120B2 (en) | Update notification method and system | |
KR102455232B1 (en) | Method and electronic device for tab management based on context | |
Wang et al. | How do developers react to restful api evolution? | |
US9614862B2 (en) | System and method for webpage analysis | |
US9304979B2 (en) | Authorized syndicated descriptions of linked web content displayed with links in user-generated content | |
US20150295942A1 (en) | Method and server for performing cloud detection for malicious information | |
WO2014074216A1 (en) | Smart web notifications | |
TW201514845A (en) | Title and body extraction from web page | |
CN107153716B (en) | Webpage content extraction method and device | |
US11423096B2 (en) | Method and apparatus for outputting information | |
CN106951270B (en) | Code processing method, system and server | |
JP6663005B2 (en) | Internet content providing server and computer readable recording medium embodying the method | |
JP5216654B2 (en) | Importance determination device, importance determination method, and program | |
WO2018145637A1 (en) | Method and device for recording web browsing behavior, and user terminal | |
JP6763433B2 (en) | Information gathering system, information gathering method, and program | |
JP5116822B2 (en) | Advertisement distribution apparatus and method for distributing content match advertisement to user terminal | |
CN113656737A (en) | Webpage content display method and device, electronic equipment and storage medium | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
KR101614843B1 (en) | The method and judgement apparatus for detecting concealment of social issue | |
WO2016075832A1 (en) | Automatic page editing method, automatic page editing program, and automatic page editing device | |
JP5089091B2 (en) | Content collection system | |
CN110891010B (en) | Method and apparatus for transmitting information | |
JP4550939B1 (en) | Information propagation path identification device, information propagation path identification method, information propagation path identification program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110817 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120803 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5216654 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |