JP5216654B2

JP5216654B2 - 重要度判定装置、重要度判定方法、およびプログラム

Info

Publication number: JP5216654B2
Application number: JP2009078383A
Authority: JP
Inventors: 正憲原; 山田　　明; 優三宅
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2013-06-19
Anticipated expiration: 2029-03-27
Also published as: JP2010231508A

Description

本発明は、Ｗｅｂページに表示されている記事データの重要度を判定する重要度判定装置、重要度判定方法、およびプログラムに関する。

従来、インターネット上には、不特定多数に対する情報発信の場としてのＷｅｂページが多数存在している。このようなＷｅｂページには、企業の広告ページの他、個人ユーザの日記等を記述することができるブログと呼ばれるサービスにより作成されたページも多く見られる。

このブログサービスでは、Ｗｅｂページ（ブログ）をユーザが作成、編集できる仕様であるため、近年では、情報発信とは異なる目的により作成されたスパムブログ（スプログ）が多数見られるようになっている。具体的には、アクセス数を増やす目的で、他のＷｅｂページの文章をそのまま引用したもの等が挙げられる。これらのスプログは、独自の記事を持たず重要度が低いため、検索サービスの精度を低下させる要因となったり、大量に生成されることによりブログサービスを提供するサーバのリソースを圧迫したりする問題がある。

そこで、このようなスパムブログを検出する方法が提案されている。例えば、非特許文献１には、特定のキーワードが書かれているブログ記事を予め抽出し、そのスパム率を調査しておくことが示されている。また、非特許文献２には、集めた文書の中で、コピーコンテンツの割合が閾値以上の文書をスプログと判定することが示されている。

「キーワードの特性を利用したスパムブログの収集と分析」、第２２回人工知能学会全国大会、２００８年「日本語ｓｐｌｏｇの現状と対策」、電子情報通信学会東京支部学生会研究発表会、２００７年

しかしながら、非特許文献１の方法では、予めキーワードを選出する必要があり、このキーワードを含まないスプログを検知することができない。また、非特許文献２の方法では、予め大量のブログを用意しておく必要がある。１日に１００万件以上の投稿がある現状では、これらに対して十分な量をサンプリングすることは現実的ではない。そこで、事前にデータ収集することなく、簡便にスプログ等の重要度の低い記事を検知できる方法が望まれている。

本発明は、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる重要度判定装置、重要度判定方法、およびプログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）Ｗｅｂページに表示されている記事データの重要度を判定する重要度判定装置であって、
前記Ｗｅｂページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。

このような構成によれば、当該重要度判定装置は、Ｗｅｂページ（ブログ）内に記述されているリンクデータ、具体的には、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出し、このＵＲＬのリンク先のファイルを取得する。そして、取得したファイル内に、Ｗｅｂページの記事が含まれる場合、Ｗｅｂページがリンク先のファイルを引用していると判断できるので、当該重要度判定装置は、この記事の重要度を低く判定する。

したがって、当該重要度判定装置は、Ｗｅｂページに表示される記事の重要度を判定することにより、この重要度が低い記事を表示させているＷｅｂページをスプログであると判定することができる。このとき、当該重要度判定装置は、判定対象のＷｅｂページとＵＲＬのリンク先データのみを参照することで重要度判定を行うので、事前のデータ収集を必要とせず、簡便に重要度を判定することができる。

（２）前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする（１）に記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、リンクデータ（ＵＲＬ）の近傍の記事データを用いて判定するので、引用された可能性の高い記事を効率的に抽出できる。また、タグ、改行、句読点や「．．．」等、所定の文字列を区切りとして分割するので、分割された小さな単位で引用の有無を判定できる。その結果、記事全体としての引用の度合いを容易に判定することができる。

（３）前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする（２）に記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Ｗｅｂページ（ブログ）の記事データが含まれる量に基づいて重要度を判定する。すなわち、引用量の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。

（４）前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Ｗｅｂページの重要度を判定することを特徴とする（２）に記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Ｗｅｂページ（ブログ）の記事データが含まれる割合に基づいて重要度を判定する。すなわち、引用割合の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。

（５）前記判定手段は、前記Ｗｅｂページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする（１）から（４）のいずれかに記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、リンクデータ（ＵＲＬ）と記事データとの距離に基づいて重要度を判定する。ここで、リンクデータに近い記事であるほどリンクデータとの関連性は高く、引用された可能性が高いと考えられる。当該重要度判定装置は、このような引用された可能性が高い記事の重要度を低く判定することができる。

（６）前記判定手段は、前記Ｗｅｂページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする（１）から（５）のいずれかに記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、複数のリンクデータに対する判定結果に基づいて、Ｗｅｂページ（ブログ）の所定領域、例えば所定の期間に投稿されたブログ記事やブログ全体の重要度を判定することができる。したがって、局所的に引用されているだけで、その他の部分も含めて重要度が低く判定されることを抑制でき、スプログ検知の精度を向上することができる。

（７）Ｗｅｂページの更新情報を受信する受信手段をさらに備え、
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする（１）から（６）のいずれかに記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、Ｗｅｂページが更新されたことを示す情報を受信するので、新しく生成された、または更新されたＷｅｂページ（ブログ）の記事データを受信することができる。したがって、未判定のＷｅｂページを対象として効率的にスプログか否かを判定することができる。

（８）前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたＷｅｂページに関して、前記記事データの重要度を判定することを特徴とする（７）に記載の重要度判定装置。

このような構成によれば、当該重要度判定装置は、所定の時間帯に更新されたＷｅｂページ（ブログ）に関してスプログ判定を行う。したがって、例えば深夜の時間帯に更新されたＷｅｂページや、一定周期で更新されているＷｅｂページ等、自動的に更新された可能性の高いＷｅｂページを選択することができる。その結果、当該重要度判定装置は、効率的にスプログを検知できる可能性がある。

（９）コンピュータがＷｅｂページに表示されている記事データの重要度を判定する重要度判定方法であって、
前記Ｗｅｂページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。

このような構成によれば、当該方法を実行することにより、（１）と同様の効果が期待できる。

（１０）Ｗｅｂページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
前記Ｗｅｂページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。

このような構成によれば、当該プログラムをコンピュータに実行させることにより、（１）と同様の効果が期待できる。

本発明によれば、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる。

本発明の実施形態に係る判定サーバと関連要素とを含んだシステムの全体構成を示す図である。本発明の実施形態に係る判定サーバのハードウェア構成を示す図である。本発明の実施形態に係る判定サーバの機能構成を示す図である。本発明の実施形態に係るスプログ判定テーブルを示す図である。本発明の実施形態に係る判定サーバによりスプログと判定されるＷｅｂページの例を示す図である。本発明の実施形態に係る判定サーバの制御部における処理を示すフローチャートである。

以下、本発明の実施形態の一例について図を参照しながら説明する。なお、重要度を判定する対象は、ブログの記事データであるとする。本実施形態では、重要度に応じて、このブログがスプログであるか否かを判定する。

［システム全体構成］
図１は、本実施形態に係る判定サーバ１０（重要度判定装置）と関連要素とを含んだシステムの全体構成を示す図である。判定サーバ１０と、Ｗｅｂサーバ２０および２１と、ユーザ端末３０とは、インターネット等の所定のネットワークを介して接続されている。

ユーザ端末３０は、所定の検索サービスの検索結果から選択される等の指示入力に応じて、Ｗｅｂサーバ２０より、Ｗｅｂページ（ブログ）を受信して表示する。このＷｅｂページには、別のＷｅｂサーバ２１に記憶されているファイルに対するＵＲＬが記述されており、このファイルを引用（コピー）しているものとする。なお、リンク先は、同一のＷｅｂサーバ２０内であってもよい。

判定サーバ１０は、ユーザ端末３０に表示されたブログ記事の重要度を判定し、このブログがスパムブログであるか否かを判定する。このとき、判定サーバ１０は、Ｗｅｂサーバ２１より、引用ファイルを受信し、ブログ記事との一致度に基づいて重要度を判定する（処理の詳細は後述する）。

［ハードウェア構成］
図２は、本実施形態に係る判定サーバ１０のハードウェア構成を示す図である。判定サーバ１０は、制御部１１０と、記憶部１２０と、入力部１３０と、表示部１４０と、通信部１５０と、を備え、各ハードウェアは、バス１６０を介して接続されている。

制御部１１０は、判定サーバ１０の全体を制御する部分であり、記憶部１２０に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウェアと協働し、本発明に係る各種機能を実現している。制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってよい。

記憶部１２０は、ハードウェア群を判定サーバ１０として機能させるための各種プログラムや、本発明の機能を制御部１１０に実行させるプログラム、データベース等を記憶する。記憶部１２０は、ハードディスク、光ディスクドライブ、あるいは半導体メモリ等、様々な記憶装置のいずれかにより構成されてよい。

入力部１３０は、判定サーバ１０に対するユーザ（判定サーバ１０の管理者）からの指示入力を受け付けるインタフェース装置である。入力部１３０は、例えばキーボードやマウス等により構成される。

表示部１４０は、ユーザ（判定サーバ１０の管理者）にデータの入力を受け付ける画面を表示したり、判定サーバ１０による処理結果の画面を表示したりするものである。表示部１４０は、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置であってよい。

通信部１５０は、判定サーバ１０が、ネットワーク４０（図１）を介してＷｅｂサーバ２０、２１や他の情報端末等と情報を送受信する場合のネットワーク・アダプタである。

なお、本発明でいうコンピュータとは、制御装置や記憶装置等を備えた情報処理装置である。判定サーバ１０は、制御部１１０や記憶部１２０等を備えた情報処理装置であり、この情報処理装置は、本発明のコンピュータの概念に含まれる。

［機能構成］
図３は、本実施形態に係る判定サーバ１０の機能構成を示す図である。判定サーバ１０の制御部１１０は、ブログ受信部１１（受信手段）と、ＵＲＬ抽出部１２（抽出手段）と、引用ファイル取得部１３（取得手段）と、引用解析部１４（判定手段）と、スプログ判定部１５と、を備える。また、記憶部１２０は、ブログＤＢ１６を備える。

ブログ受信部１１は、Ｗｅｂサーバ２０からスプログ判定の対象であるブログのページデータ（ＨＴＭＬファイル）を受信する。ここで、ブログ受信部１１は、新規に作成または更新されたブログを受信することとする。すなわち、ブログ受信部１１は、ＲＳＳ等により配信されるブログの更新情報を受信したことに応じて、対象のブログを受信する。

ＵＲＬ抽出部１２は、ブログ受信部１１により受信されたブログのページデータから、リンクデータとしてのＵＲＬを抽出する。具体的には、ＵＲＬ抽出部１２は、「ｈｔｔｐ」から始まる文字列の、「”」や「＞」や改行までの部分を抽出する。これにより、ＵＲＬ抽出部１２は、実際のリンク項目としてタグを付与されていないＵＲＬも抽出することができる。なお、「．ｈｔｍｌ」や「．ｈｔｍ」等のファイル拡張子をもつもの以外を除外することとしてもよい。

さらに、ＵＲＬ抽出部１２は、抽出したＵＲＬの近傍にある記事データを抽出する。具体的には、ＵＲＬの前後の所定量の記事データについて、タグ部分や、改行、句読点や「．．．」等、所定の文字列を区切りとして、分割して抽出する。ＵＲＬ抽出部１２は、抽出したＵＲＬおよび記事データをブログＤＢ１６に記憶する。

図４は、本実施形態に係るブログＤＢ１６に格納されるスプログ判定テーブルを示す図である。スプログ判定テーブルには、対象ブログの更新日時と共に、抽出されたＵＲＬおよびＵＲＬ近傍の記事データが記憶される。さらに、各記事データとＵＲＬとの距離データ、および後述の重要度の低さを示す引用判定値が記憶される。

引用ファイル取得部１３は、スプログ判定テーブルに記憶されたＵＲＬ、すなわちスプログ判定対象のブログに記述されているＵＲＬが指し示すリンク先の引用ファイルを、Ｗｅｂサーバ２１から取得する。

引用解析部１４は、引用ファイル取得部１３により取得した引用ファイルと、スプログ判定テーブルに記憶されている記事データとを比較し、引用ファイル内に記事データと一致する部分が存在する場合には、引用（コピー）されたと判断する。さらに、ＵＲＬと記事データとの距離を考慮し、距離が近いほど引用判定値を大きく設定し、スプログ判定テーブルに記憶する。ここで、引用判定値が大きいほど記事データの重要度は低く、Ｗｅｂページがスプログである可能性が高いことを示している。

スプログ判定部１５は、引用解析部１４により判定された記事データの重要度、すなわちスプログ判定テーブルの引用判定値を統計処理することにより、スプログ判定を行う。具体的には、例えば引用判定値の合計や平均、あるいは所定以上の引用判定値となっている記事データの量や割合等により引用度合いを算出し、この度合いが所定の閾値以上である場合にスプログであると判定する。

図５は、本実施形態に係る判定サーバ１０によりスプログと判定されるＷｅｂページの例を示す図である。

ブログページ５０には、ＵＲＬを含むリンクデータ５１と共に記事データ５２が配置されている。リンクデータ５１は、別のＷｅｂページ６０へのハイパーリンクであり、ＵＲＬが指し示すリンク先のＷｅｂページ６０には、リンクデータ５１と同一のタイトル文字列６１と、記事データ５２と同一の文章である記事データ６２が配置されている。

判定サーバ１０は、リンクデータ５１の近傍の文字列がＷｅｂページ６０に含まれることにより、この領域の記事データについて、重要度が低いと判定する。他の領域についても、同様にリンクデータ近傍の記事データが別のＷｅｂページに存在することが判明すると、ブログページ５０全体の重要度は低くなる。その結果、判定サーバ１０は、ブログページ５０はスプログであると判定する。

なお、重要度を判定する記事データは、テキストには限られない。例えば、動画像５３や、静止画、音声データ等であってもよく、判定サーバ１０は、リンク先に同一のデータが存在することにより、これらが引用（コピー）されたものとして重要度を低く設定する。

［処理フロー］
図６は、本実施形態に係る判定サーバ１０の制御部１１０における処理を示すフローチャートである。

ステップＳ１では、制御部１１０は、ＲＳＳ等により取得したＷｅｂページの更新情報に基づいて、スプログ判定を行うブログのページデータを取得する。

ステップＳ２では、制御部１１０は、ステップＳ１で取得したページデータから、ＵＲＬの記述を抽出する。

ステップＳ３では、制御部１１０は、ステップＳ２で抽出したＵＲＬの付近の記事データを抽出する。抽出されたＵＲＬおよび記事データは、記憶部１２０のスプログ判定テーブル（図４）に記憶される。

ステップＳ４では、制御部１１０は、ステップＳ２で抽出したＵＲＬが指し示す引用ファイルを取得する。

ステップＳ５では、制御部１１０は、ステップＳ４で取得した引用ファイル内に、ステップＳ３で抽出した記事データと一致する部分が含まれるか否かを解析する。解析結果として、記事データの引用判定値を設定し、記憶部１２０のスプログ判定テーブル（図４）に記憶する。さらに、制御部１１０は、判定領域に含まれる複数のＵＲＬに関する引用判定値に基づいて、統計処理により全体の引用度合いを算出する。

ステップＳ６では、制御部１１０は、ステップＳ５で算出した引用度合いが所定の閾値以上であるか否かを判定する。この判定がＹＥＳの場合はステップＳ７に移り、判定がＮＯの場合はステップＳ８に移る。

ステップＳ７では、制御部１１０は、記事の引用度合いが高く、ページの重要度が低いと判断し、ステップＳ１で取得したブログはスプログであると判定する。

ステップＳ８では、制御部１１０は、記事の引用度合いが低く、ページの重要度が高いと判断し、ステップＳ１で取得したブログはスプログではないと判定する。

このように、本実施形態によれば、記事の中に記述されたＵＲＬに基づいて、リンク先との一致度合いを解析することにより、ブログの重要度を判定する。その結果、重要度の低いスプログを検知することができる。このとき、事前にデータ収集する必要がないため、簡便にスプログか否かを判定することができる。

なお、本実施形態では、他の記事を引用しているスプログを検知できる。すなわち、スプログと判定されるブログは、アクセス数を稼ぐためにコンテンツがコピーされたブログの他、例えばアフィリエイト収入を目的として商品説明文等をコピーしているのみのブログ等を精度良く検知することができる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

上述の実施形態では、新規に作成または更新されたブログを対象として重要度の判定を行ったが、本発明はこれには限られない。例えば、管理者からの指示入力を受け付けて、指示されたＷｅｂページや、ページ内の指示された領域について、重要度を判定してもよい。

また、重要度に関する様々な指標を組み合わせ、総合的に重要度を判定してもよい。例えば、所定の時間帯（例えば、深夜）に更新されたＷｅｂページや、一定周期で（決まった時間に）更新されているＷｅｂページ等は、人手によらず自動的に生成、更新されている可能性が高い。このようなＷｅｂページを優先して重要度判定の対象としてもよいし、重要度を低く重み付けして判定してもよい。

上述の実施形態では、判定サーバ１０を説明したが、本発明の重要度判定装置の構成はこれには限られない。判定サーバ１０の各機能は、複数のサーバに分散されてもよい。また、判定サーバ１０は、Ｗｅｂサーバ２０等の他のサーバと統合されていてもよい。

１０判定サーバ（重要度判定装置）
１１ブログ受信部（受信手段）
１２ＵＲＬ抽出部（抽出手段）
１３引用ファイル取得部（取得手段）
１４引用解析部（判定手段）
１５スプログ判定部
１６ブログＤＢ

Claims

Ｗｅｂページに表示されている記事データの重要度を判定する重要度判定装置であって、
前記Ｗｅｂページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。
前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする請求項１に記載の重要度判定装置。
前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする請求項２に記載の重要度判定装置。
前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Ｗｅｂページの重要度を判定することを特徴とする請求項２に記載の重要度判定装置。
前記判定手段は、前記Ｗｅｂページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする請求項１から請求項４のいずれかに記載の重要度判定装置。
前記判定手段は、前記Ｗｅｂページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする請求項１から請求項５のいずれかに記載の重要度判定装置。
Ｗｅｂページの更新情報を受信する受信手段をさらに備え、
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする請求項１から請求項６のいずれかに記載の重要度判定装置。
前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたＷｅｂページに関して、前記記事データの重要度を判定することを特徴とする請求項７に記載の重要度判定装置。
コンピュータがＷｅｂページに表示されている記事データの重要度を判定する重要度判定方法であって、
前記Ｗｅｂページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。
Ｗｅｂページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
前記Ｗｅｂページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。