JP5165720B2 - スパムブログ抽出装置及び方法 - Google Patents

スパムブログ抽出装置及び方法 Download PDF

Info

Publication number
JP5165720B2
JP5165720B2 JP2010083535A JP2010083535A JP5165720B2 JP 5165720 B2 JP5165720 B2 JP 5165720B2 JP 2010083535 A JP2010083535 A JP 2010083535A JP 2010083535 A JP2010083535 A JP 2010083535A JP 5165720 B2 JP5165720 B2 JP 5165720B2
Authority
JP
Japan
Prior art keywords
blog
spam
determination
list
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010083535A
Other languages
English (en)
Other versions
JP2011215891A (ja
Inventor
千鶴 ▲高▼澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010083535A priority Critical patent/JP5165720B2/ja
Publication of JP2011215891A publication Critical patent/JP2011215891A/ja
Application granted granted Critical
Publication of JP5165720B2 publication Critical patent/JP5165720B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、スパムブログ抽出装置及び方法に関する。
従来、特定のサイトへ誘導することを目的として、自動的に作成して投稿する「スパムブログ」と呼ばれるブログが存在する。スパムブログは、「スプログ」(splog)とも呼ばれる。このスパムブログは、インターネットにおいて様々な問題が生じる危険性がある。例えば、ブログサービス提供業者にとって、スパムブログは、サーバや回線を高負荷にするため、サービスに支障が出る危険性がある。また、企業等は、自社の製品や情報がどの程度の検索ランクになっているのか知りたいニーズが存在する。しかし、スパムブログによって検索ランクが狂わされてしまうという危険性がある。そして、スパムブログによって、例えば、検索サービスからユーザの欲する情報に到達できなくなる危険性がある。
このようなスパムブログに対する対策として、スパムであると判定するいくつかの方法が開示されている。例えば、特許文献1に記載の方法は、機械的に大量生産されたスパム投稿を発見するものである。その方法は、リンク数と段落数から求めた文書の構造定型性スコア、発信者単位の文書におけるリンクの被参照最大数の割合から求めた内容定型性スコア、及び文書の時刻の偏差である時刻定型性スコアと、予め設定されている閾値とを比較して、所定の値以上に定型的に作成されていると見做せる場合に、発信文書の発信源がスパムであると判定するものである。
特開2009−301139号公報
しかし、特許文献1に記載のように、スパムブログそのもののパターンに着目する方法では、次々に新しい未知のスパムのパターンが出現し、消滅するスパムブログに対応して効率的かつ効果的にスパムブログの判定を行うには、当該新しい未知のスパムのパターンが出現するたびにスコアの計算手法を更新していく必要があり、限界があった。
このような状況において、本発明は、未知のブログについてより効率的かつ効果的にスパムブログを抽出可能なスパムブログ抽出装置及び方法を提供することを目的とする。
本発明者らは、スパムブログが引用するWebサイトが所定の基準を満たす場合に、そのWebサイトをブラックリストとして管理し、当該ブラックリストを使用してスパムブログを判定することを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) スパムブログ記憶手段に記憶されたスパムブログが引用するWebサイトのURLを記憶して、所定の基準を満たした前記WebサイトのURLをスパムブログ判定用URLとして加えてスパムブログ判定用URLリストを更新する判定用リスト更新手段と、判定対象ブログを受け付けたことに応じて、受け付けた前記判定対象ブログがスパムであるか否かを、前記スパムブログ判定用URLリストを素性として使用して機械学習により判定するスパムブログ判定手段と、前記スパムブログ判定手段によりスパムであると判定された場合に、スパムであると判定された前記判定対象ブログが引用するWebサイトであって前記Webサイト以外のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する候補リスト抽出手段と、を備えるスパムブログ抽出装置。
本発明のこのような構成によれば、スパムブログ抽出装置は、ツール等により自動生成されるために圧倒的に生成頻度及び消滅頻度の高いスパムブログの判定に、スパムブログが引用し、所定の基準を満たすWebサイトのリストであるスパムブログ判定用URLリストを使用することで、処理を簡単にして、効率的かつ効果的にスパムブログ判定を行うことができる。また、スパムブログ抽出装置は、スパムブログ判定がされたスパムブログが引用する他のWebサイトをスパムブログ判定用URLリストの候補として抽出できる。
(2) 前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補を出力する候補リスト出力手段と、前記候補リスト出力手段により出力された前記スパムブログ判定用URLリストの候補に含まれるWebサイトのURLについて登録要求を受け付けたことに応じて、当該WebサイトのURLを前記スパムブログ判定用URLリストに登録する判定用リスト登録手段と、を備える、(1)に記載のスパムブログ抽出装置。
本発明のこのような構成によれば、スパムブログ抽出装置は、スパムブログ判定用URLリストの候補として他のWebサイトのリストを出力するので、出力された管理端末等において、他のWebサイトがスパムブログに対応付けられたWebサイトであるか否かの確認を、管理者等に行わせることができる。また、スパムブログ抽出装置は、管理者によって確認されたスパムブログ判定用URLリストの候補の入力を受け付けることで、受け付けた候補をスパムブログ判定用URLリストとして登録できる。よって、スパムブログ抽出装置は、未知なブログに対してスパムブログであるか否かの判定を、スパムブログ判定用URLリストを参照することで効率的に行うことができる。
(3) 受け付けた前記判定対象ブログを蓄積するブログ蓄積手段と、前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補に基づいて、前記ブログ蓄積手段に蓄積された前記判定対象ブログを用いた前記スパムブログ判定手段を、前記候補リスト抽出手段により前記スパムブログ判定用URLリストの候補が新たに抽出されなくなるまで繰返す反復実行手段と、前記反復実行手段による繰返し処理の間、前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補が示すWebサイトをオーソリティに対応付け、前記ブログ蓄積手段に蓄積された前記判定対象ブログをハブに対応付けて、HITS理論を応用して当該Webサイトのオーソリティスコアを計算するHITS理論応用計算手段と、前記HITS理論応用計算手段により計算された前記オーソリティスコアが所定の閾値以上である場合に、前記スパムブログ判定用URLリストの候補を前記スパムブログ判定用URLリストに登録する判定用リスト登録手段と、を備える、(1)に記載のスパムブログ抽出装置。
本発明のこのような構成によれば、スパムブログ抽出装置は、スパムブログ判定用URLリストの候補に基づいて、蓄積された判定対象ブログを用いたスパムブログ判定手段を、候補リスト抽出手段により新たな候補が抽出されなくなるまで繰返し、HITS理論を応用してWebサイトのオーソリティスコアを計算した結果が所定の閾値以上である場合に、スパムブログ判定用URLリストの候補をスパムブログ判定用URLリストに登録するので、スパムブログ判定用URLリストの精度の向上を図り、スパムブログの候補が参照するさらに未知なWebサイトを自動的に発見することができる。
(4) 前記スパムブログ判定手段によりスパムであると判定された前記判定対象ブログを前記スパムブログ記憶手段に記憶するスパムブログ記憶制御手段を備える、(1)から(3)までのいずれかに記載のスパムブログ抽出装置。
本発明のこのような構成によれば、スパムブログ抽出装置は、スパムであると判定された判定対象ブログをスパムブログとして記憶するので、スパムブログ判定用URLリストを更新する元データとして活用できる。
(5) スパムブログを記憶するスパムブログ記憶手段を有するコンピュータによって実行されるスパムブログ抽出方法であって、前記コンピュータが、前記スパムブログ記憶手段に記憶された前記スパムブログが引用するWebサイトのURLを記憶して、所定の基準を満たした前記WebサイトのURLをスパムブログ判定用URLとして加えてスパムブログ判定用URLリストを更新する判定用リスト更新ステップと、前記コンピュータが、判定対象ブログを受け付けたことに応じて、受け付けた前記判定対象ブログがスパムであるか否かを、前記スパムブログ判定用URLリストを素性として使用して機械学習により判定するスパムブログ判定ステップと、前記コンピュータが、前記スパムブログ判定ステップによりスパムであると判定された場合に、スパムであると判定された前記判定対象ブログが引用するWebサイトであって前記Webサイト以外のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する候補リスト抽出ステップと、を含むスパムブログ抽出方法。
本発明によれば、未知のブログについてより効率的かつ効果的にスパムブログを抽出可能なスパムブログ抽出装置及び方法を提供することができる。
第1実施形態に係るスパムブログ抽出システムの全体構成及びスパムブログ抽出装置の機能構成を示す図である。 第1実施形態に係るスパムブログ抽出装置の機械学習による判定結果を説明するための図である。 第1実施形態に係るスパムブログ抽出装置での処理の概要を示す図である。 第1実施形態に係るスパムブログ抽出装置の判定用リスト更新処理のフローチャートである。 第1実施形態に係るスパムブログ抽出装置のスパムブログ判定処理のフローチャートである。 第1実施形態に係るスパムブログ抽出装置の候補リスト抽出処理のフローチャートである。 第1実施形態に係るスパムブログ抽出装置の判定用リスト登録処理のフローチャートである。 第2実施形態に係るスパムブログ抽出システムの全体構成及びスパムブログ抽出装置の機能構成を示す図である。 第2実施形態に係るHITS理論を説明するための図である。 第2実施形態に係るスパムブログ抽出装置の判定用リスト登録処理のフローチャートである。 図10に続くフローチャートである。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1実施形態)
[スパムブログ抽出システム100の全体構成及びスパムブログ抽出装置1の機能構成]
図1は、第1実施形態に係るスパムブログ抽出システム100の全体構成及びスパムブログ抽出装置1の機能構成を示す図である。図2は、第1実施形態に係るスパムブログ抽出装置1の機械学習による判定結果を説明するための図である。
図1に示すように、スパムブログ抽出システム100は、スパムブログ抽出装置1と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
スパムブログ抽出装置1は、管理端末5から受け付けたスパムブログを記憶し、記憶したスパムブログが引用する外部の商用サイト(Webサイト)等が所定の基準を満たす場合に、そのURL(Uniform Resource Locator)をスパムブログ判定用URLリストに追加する装置である。
ここで、スパムブログとは、商用サイト等の検索ランクを上位にするために、例えば、機械的に作成されたブログ記事をいう。また、ブログ記事とは、ブログを構成する1つ1つの記事をいう。外部の商用サイト等とは、例えば、あるスパムブログを示すHTML(HyperText Markup Language)文書にアンカータグ等により「http://〜」等のリンクが張られている場合に、そのリンクが示すリンク先のサイトをいう。外部の商用サイト自身は、一般的に通常のWebサイトであって、スパムではない。
また、スパムブログ抽出装置1は、判定対象のブログ記事(判定対象ブログ)をブログサーバ3から受け付けて、スパムブログ判定用URLリストを素性として用いて判定対象のブログ記事がスパムブログであるか否かを機械学習により判定し、スパムブログであると判定された判定対象のブログ記事が引用する上述の商用サイト等以外の未知サイトのURLを、スパムブログ判定用URLリストの候補として抽出する装置である。スパムブログ抽出装置1は、制御部10と、記憶部20とを備える。
制御部10は、スパムブログ受付部11と、判定用リスト更新手段としての判定用リスト更新部12と、判定対象ブログ受付部13と、スパムブログ判定手段としてのスパムブログ判定部14と、スパムブログ記憶制御手段としてのスパムブログ記憶制御部15と、候補リスト抽出手段としての候補リスト抽出部16と、候補リスト出力手段としての候補リスト出力部17と、判定用リスト登録手段としての判定用リスト登録部19とを備える。
スパムブログ受付部11は、管理端末5から指定されたスパムブログを受け付ける制御部である。受け付けるスパムブログは、管理端末5において管理者が手動で判定したものでもよいし、自動で判定したものでもよい。また、スパムブログ受付部11は、管理端末5から受け付けたスパムブログを、スパムブログDB21(DB:データベース)(スパムブログ記憶手段)に記憶させる制御部である。
判定用リスト更新部12は、スパムブログDB21に記憶されたスパムブログが引用する商用サイト等のWebサイトのURLを記憶し、所定の基準を満たした場合に、その商用サイト等のURLをスパムブログ判定用URLリスト23に追加更新する制御部である。
判定対象ブログ受付部13は、ブログサーバ3から判定対象のブログ記事を受け付ける制御部である。判定対象ブログ受付部13は、ブログサーバ3においてブログ記事が更新された都度、ブログサーバ3から送信されたブログ記事を受け付けてもよいし、スパムブログ抽出装置1からブログサーバ3に対して、例えば、毎日決まった時刻にブログ記事の送信を依頼することで、新たに更新されたブログ記事をブログサーバ3から受け付けてもよい。
スパムブログ判定部14は、例えば、SVM(Support Vector Machine)エンジン22を用いた学習モデルにより、判定対象ブログ受付部13が受け付けた判定対象のブログ記事がスパムブログであるか否かを判定する制御部である。その仕組みとして、スパムブログ判定部14は、予めスパムブログのブログ記事と、スパムブログではないブログ記事(通常のブログ記事)とを学習し、統計的処理を実施し、スパムブログのブログ記事と、通常のブログ記事との区別の基準を示す基準データを生成しておく。そして、スパムブログ判定部14のSVMエンジン22を用いた判定は、2つのクラス(スパムブログのブログ記事の集合及び通常のブログ記事の集合)のいずれかに属する訓練事例から、未知の事例がいずれかのクラスに属するかを判定するものである。
ここで、SVMエンジン22を用いた学習モデルでの学習結果30について、図2を用いて説明する。SVMエンジン22を用いたスパムブログ判定部14は、スパムブログか否かのラベルが未知の事例であるブログ記事に対して、ラベルを推定する分類器である。スパムブログ等を事例にした上で、スパムブログのブログ記事から生成された事例と、通常のブログ記事から生成された事例との2つの識別面31,32同士の距離(マージン)が特徴空間上で最大になるような識別面31,32を算出する。このように、スパムブログ判定部14は、スパムブログ等を事例という形に変換した上で、学習するようになっている。
スパムブログ判定部14は、識別面31,32に最も近接するスパムブログから生成された事例と、通常のブログ記事から生成された事例とを各々サポートベクタ33,34として、ラベルが未知の事例の分類に利用する。スパムブログ判定部14は、スパムブログから生成された事例と、通常のブログ記事から生成された事例とを事例にした上で、統計処理をすることによって、スパムブログから生成された事例群と、通常のブログ記事から生成された事例群とを区別するための識別データである識別面を生成する。
そして、スパムブログ判定部14は、スパムブログか否かのラベルが未知の事例であるブログ記事に対して、学習結果30を用いて、どの位置に該当するものであるかを、例えば、スパムブログ判定用URLリスト23に記憶された商用サイトのURLの引用関係を素性として使用することで分類する。素性とは、入力されたデータを特徴付けるものである。このように、スパムブログ抽出装置1は、既知のモデルであるSVMエンジン22を使用して機械学習による判定をすることができる。そして、スパムブログ抽出装置1は、スパムブログ判定部14によって判定対象のブログ記事がスパムブログであるか否かを判定することで、機械学習自体をやり直すことなく、素性をメンテナンスするだけで対応でき、スパムブログであるか否かの判定に用いることができる。
図1に戻り、スパムブログ記憶制御部15は、スパムブログ判定部14による判定結果として、スパムブログであると判定された判定対象のブログ記事を、スパムブログDB21に記憶させる制御部である。
候補リスト抽出部16は、スパムブログ判定部14による判定結果として、スパムブログであると判定された判定対象のブログ記事が引用する他の商用サイト等のURLを抽出する制御部である。ここで、他の商用サイト等とは、判定対象のブログ記事が引用する商用サイト等のURLのうち、その前の処理で対象にした商用サイト等を除く商用サイト等をいう。また、候補リスト抽出部16は、抽出した他の商用サイト等のURLを、スパムブログ判定用URL候補リスト24に記憶させる。
候補リスト出力部17は、候補リスト抽出部16で抽出した他の商用サイト等のURLを管理端末5に対して抽出する制御部である。
判定用リスト登録部19は、管理端末5から他の商用サイト等のURLを受け付けて、スパムブログ判定用URLリスト23に登録する制御部である。
記憶部20は、スパムブログDB21と、SVMエンジン22と、スパムブログ判定用URLリスト23と、スパムブログ判定用URL候補リスト24とを備える。
スパムブログDB21は、スパムブログを記憶するDBである。スパムブログDB21に記憶されたスパムブログは、上述のとおりに、スパムブログ受付部11により管理端末5から直接受け付けたものと、スパムブログ判定部14によってスパムブログであると判定された結果、記憶されたものとを含む。
SVMエンジン22は、上述のとおりスパムブログであるか否かを判断するプログラムである。スパムブログ判定用URLリスト23は、商用サイト等のURLを少なくとも含むリストである。スパムブログ判定用URL候補リスト24は、スパムブログ判定用URLリスト23に登録する候補として、スパムブログ判定用URLリスト23に記憶された商用サイト等のURLを除く他の商用サイト等のURLを少なくとも含むリストである。
第1実施形態のスパムブログ抽出装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、スパムブログ抽出装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
ブログサーバ3は、ブログ記事を記憶するサーバであり、ブログ記事を記憶する記憶部と、ブログサーバ3の全体を制御する制御部とを備える。ブログサーバ3のハードウェアは、一般的なコンピュータによって構成してよい。
管理端末5は、例えば、パーソナルコンピュータ(PC)や、携帯電話機等の携帯端末である。管理端末5は、通信機能を有し、スパムブログ抽出装置1に対してデータの送受信が可能な端末であれば、どのような装置でもよい。
なお、第1実施形態では、スパムブログ抽出装置1と、ブログサーバ3とを別々の装置として説明しているが、スパムブログ抽出装置1がブログサーバ3の機能をも有して、1台のコンピュータによって実現してもよい。
通信ネットワーク9は、スパムブログ抽出装置1と、ブログサーバ3と、管理端末5との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
[処理の概要]
次に、スパムブログ抽出装置1での処理の概要について説明する。図3は、第1実施形態に係るスパムブログ抽出装置1での処理の概要を示す図である。
図3(a)は、複数のスパムブログ41(41A〜41D)と、複数の未知ブログ42(判定対象ブログ)と、複数のスパムブログ41及び複数の未知ブログ42が引用する商用サイト50とを概念的に示す図である。スパムブログ41は、既にスパムであることが判明しているブログ記事である。未知ブログ42は、商用サイト50を引用しているが、スパムであるか否かが判明していないブログ記事である。制御部10は、このスパムブログ41と商用サイト50との関係を記憶し、例えば、スパムブログ41との引用関係が所定の基準を満たす商用サイト50のURLをスパムブログ判定用URLリスト23に追加更新する。このことにより、制御部10は、未知ブログ42についても、スパムブログ判定用URLリスト23を素性として使用して、機械学習によりスパムブログであるか否かを判定できるようになる。
図3(b)は、複数の未知ブログ42(42A〜42D)が商用サイト50以外に引用することを示す図である。未知ブログ42A〜42Dは、商用サイト50の他に未知サイト51をも引用している。制御部10は、上述の図3(a)の手順にしたがってこれらの未知ブログ42A〜42Dがスパムであるか否かを判定し、スパムであると判定された場合には、これらの未知ブログ42A〜42Dが引用する未知サイト51のURLを抽出して、抽出した未知サイト51のURLをスパムブログ判定用URL候補リスト24に登録する。そして、制御部10は、管理端末5からの指示を受け付けたり、所定の判定条件に合致することにより、スパムブログ判定用URL候補リスト24に登録されたURLをスパムブログ判定用URLリスト23に自動的に登録することができる。このような処理を繰返し実行することによって、制御部10は、次々と未知サイト51のURLをスパムブログ判定用URLリスト23に登録することができる。そして、スパムブログ抽出装置1は、次々と新しい未知のスパムのパターンが出現しては消滅するスパムブログに対応して、効率的かつ効果的にスパムブログの判定を行うことができる。
[スパムブログ抽出装置1の処理]
次に、スパムブログ抽出装置1での処理について説明する。図4は、第1実施形態に係るスパムブログ抽出装置1の判定用リスト更新処理のフローチャートである。図5は、第1実施形態に係るスパムブログ抽出装置1のスパムブログ判定処理のフローチャートである。図6は、第1実施形態に係るスパムブログ抽出装置1の候補リスト抽出処理のフローチャートである。図7は、第1実施形態に係るスパムブログ抽出装置1の判定用リスト登録処理のフローチャートである。まず、スパムブログ抽出装置1の判定用リスト更新処理について説明する。
図4のS11:制御部10(スパムブログ受付部11)は、管理端末5からスパムブログを受け付ける。
S12:制御部10(スパムブログ受付部11)は、S11で受け付けたスパムブログを、スパムブログDB21に記憶させる。
S13:制御部10(判定用リスト更新部12)は、スパムブログDB21に記憶されたスパムブログが引用するWebサイトのURLを記憶する。
S14:制御部10(判定用リスト更新部12)は、S13において記憶したWebサイトのURLごとに、所定の基準を満たすか否かを判断する。所定の基準を満たす場合(S14:YES)には、制御部10は、処理をS15に移す。他方、所定の基準を満たさない場合(S14:NO)には、制御部10は、本処理を終了する。
S15:制御部10(判定用リスト更新部12)は、所定の基準を満たしたWebサイトのURLを、スパムブログ判定用URLリスト23に登録することで、スパムブログ判定用URLリスト23を更新する。その後、制御部10は、本処理を終了する。
このように、スパムブログ抽出装置1は、スパムブログが引用するWebサイトが所定の基準を満たす場合に、そのWebサイトのURLをスパムブログ判定用URLリスト23に登録することができる。よって、スパムブログ抽出装置1は、ツール等により自動生成されるために圧倒的に生成頻度及び消滅頻度の高いスパムブログの判定にスパムブログ判定用URLリスト23を使用することができ、そのことで処理を簡単にして、効率的かつ効果的にスパムブログ判定を行うことができる。
次に、スパムブログ抽出装置1のスパムブログ判定処理について説明する。
図5のS21:制御部10(判定対象ブログ受付部13)は、判定対象ブログをブログサーバ3から受け付ける。
S22:制御部10(スパムブログ判定部14)は、S21で受け付けた判定対象ブログがスパムであるか否かを判断する。判定対象ブログがスパムである場合(S22:YES)には、制御部10は、処理をS23に移す。他方、判定対象ブログがスパムではない場合(S22:NO)には、制御部10は、当該判定対象ブログがスパムではない旨の情報を当該判定対象ブログを受け付けたブログサーバ3等に返信して(図示しない)、本処理を終了する。
S23:制御部10(スパムブログ記憶制御部15)は、当該判定対象ブログがスパムである旨の情報を当該判定対象ブログを受け付けたブログサーバ3等に返信して(図示しない)、スパムであると判断した判定対象ブログを、スパムブログDB21に記憶させる。このように、スパムブログ抽出装置1は、スパムであると判定された判定対象ブログをスパムブログとして記憶するので、スパムブログ判定用URLリスト23を更新する元データとして活用できる。
次に、スパムブログ抽出装置1の候補リスト抽出処理について説明する。
図6のS31:制御部10(候補リスト抽出部16)は、上述のS22〜S23でスパムと判定され、スパムブログDB21に記憶された判定対象ブログが引用する他のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する。また、制御部10は、抽出した他のWebサイトのURLを、スパムブログ判定用URL候補リスト24に登録する。
S32:制御部10(候補リスト出力部17)は、S31で抽出した他のWebサイトのURLを、管理端末5に対して出力する。このようにすることで、管理端末5では、スパムブログ判定用URLリストの候補である他のWebサイトを受信でき、管理端末5の管理者が、受信した他のWebサイトを確認することができる。そして、管理者は、受信した他のWebサイトを、スパムブログによって検索ランクが上位になっているものであるか否かを検証するのに用いることができる。
次に、スパムブログ抽出装置1の判定用リスト登録処理について説明する。
図7のS41:制御部10(判定用リスト登録部19)は、上述のS32で管理端末5に出力された、他のWebサイトのURLに基づいて当該Webサイトを確認した管理者の操作に応じて、管理端末5からWebサイトのURLを受け付ける。
S42:制御部10(判定用リスト登録部19)は、S41で受け付けたWebサイトのURLが、S32で出力したものであるか否かを判断する。これは、受け付けたWebサイトのURLがスパムブログ判定用URL候補リスト24に記憶されているものであるか否かにより判断できる。WebサイトのURLがスパムブログ抽出装置1によって出力したものである場合(S42:YES)には、制御部10は、処理をS43に移す。他方、WebサイトのURLがスパムブログ抽出装置1によって出力したものではない場合(S42:NO)には、制御部10は、本処理を終了する。
S43:制御部10(判定用リスト登録部19)は、受け付けたWebサイトのURLをスパムブログ判定用URLリスト23に記憶させる。その後、制御部10は、本処理を終了する。
上述の処理により、図3(b)に示す未知サイト51をスパムブログ判定用URLリスト23に記憶させた場合に、この未知サイト51を引用している未知ブログ42のブログ記事がスパムブログであるか否かを判断することができる。よって、この処理を繰返すことで、スパムブログ抽出装置1は、スパムブログの候補である未知ブログ42が参照する未知サイトをさらに見つけることができる。
(第2実施形態)
第1実施形態では、スパムブログ抽出装置は、判定対象ブログが引用する他のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出して、管理端末に対して出力するものであった。第2実施形態では、抽出したスパムブログ判定用URLリストの候補を、自動的にスパムブログ判定用URLリストに登録するものを説明する。より具体的には、第2実施形態では、スパムブログの判定を、新たな候補リストが抽出されなくなるまで繰返し、HITS(Hyperlink−Induced Topic Search)理論を応用してスコアを算出し、抽出したスパムブログ判定用URLリストの候補を、スコアに基づいて自動的にスパムブログ判定用URLリストに登録するものを説明する。なお、以降の説明において、上述した第1実施形態と同様の機能を果たす部分には、同一の符号又は末尾に同一の符号を付して、重複する説明を適宜省略する。
[スパムブログ抽出システム300の全体構成及びスパムブログ抽出装置301の機能構成]
図8は、第2実施形態に係るスパムブログ抽出システム300の全体構成及びスパムブログ抽出装置301の機能構成を示す図である。図9は、第2実施形態に係るHITS理論を説明するための図である。
スパムブログ抽出システム300は、スパムブログ抽出装置301と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
スパムブログ抽出装置301は、制御部310と、記憶部320とを備える。制御部310は、スパムブログ受付部11と、判定用リスト更新部12と、判定対象ブログ受付部13と、スパムブログ判定部14と、スパムブログ記憶制御部15と、候補リスト抽出部16との他に、反復実行手段としての反復実行部31Bと、HITS理論応用計算手段としてのHITS理論応用計算部31Aと、判定用リスト登録手段としての判定用リスト登録部319とを備える。
反復実行部31Bは、候補リスト抽出部16により抽出されたスパムブログ判定用URL候補リスト324に基づいて、ブログ蓄積DB325に蓄積されたブログ(判定対象ブログ)を用いたスパムブログ判定部14による判定を、候補リスト抽出部16が新たに抽出しなくなるまで繰返す制御部である。
HITS理論応用計算部31Aは、反復実行部31Bによる繰返し処理の間、候補リスト抽出部16で抽出した他の商用サイト等のURLが示すWebサイトをオーソリティに対応付け、ブログ蓄積DB325に記憶されたブログをハブに対応付けて、HITS理論を応用して、それぞれオーソリティスコア及びハブスコアを計算する制御部である。
判定用リスト登録部319は、HITS理論応用計算部31Aにより算出されたオーソリティスコアが所定の閾値以上(例えば、0.8以上)である場合に、他の商用サイト等のURLをスパムブログ判定用URLリスト23に登録する制御部である。
記憶部320は、スパムブログDB21と、SMVエンジン22と、スパムブログ判定用URLリスト23との他に、スパムブログ判定用URL候補リスト324と、ブログ蓄積DB325とを備える。
スパムブログ判定用URL候補リスト324は、その一例として、例えば、他の商用サイト等のURLを記憶するURL部の他に、スコア部と、判定部とを有する。スコア部は、HITS理論を応用して計算したオーソリティスコアであり、値が大きいほどスパムである可能性が高い。また、判定部は、「○」か「×」かで表し、判定部の「×」は、スパムブログ判定用リストにURL部のURLを登録をするか否かの判定の結果、登録するものであり、「○」は、スパムブログ判定用リストにURL部のURLを登録しなくてよいものである。スコア部及び判定部については、HITS理論応用計算部31A及び判定用リスト登録部319により格納されるが、処理については、後述する。
ブログ蓄積DB325は、判定対象ブログ受付部13により受け付けた判定対象ブログを蓄積するDBである。ブログ蓄積DB325に蓄積されるブログは、直近1週間分等の所定の期間内に受け付けたものであってよい。
ここで、第2実施形態で用いるHITS理論の応用について、HITS理論を説明する図9に基づき説明する。第2実施形態では、HITSアルゴリズムの「重要なページにリンクされているページは、やはり重要である」を応用し、「スパムブログが引用している商用サイト等以外の他の商用サイト等は、やはりスパムブログにより不当に検索ランクが上位にされているものである」とする理論を用いる。
図9に示すオーソリティは、スパムブログ判定用URL候補リスト324のURL部に記憶された他の商用サイト等のURLが示すWebサイトに対応する。また、図9に示すハブは、ブログ蓄積DB325に蓄積されたブログに対応する。オーソリティとハブとは相互再帰的な関係にあり、あるWebサイトのオーソリティスコアは、そのページを引用しているスパムブログ数であるハブスコアの和であり、ハブスコアは、そのスパムブログが引用する他の商用サイト等のURLが示すWebサイトのオーソリティスコアの和である。オーソリティスコア及びハブスコアは、正規化して0から1の間の値として示され、反復実行処理の結果を用いて、都度それらのスコアを計算する。
[スパムブログ抽出装置301の処理]
次に、スパムブログ抽出装置301での処理について説明する。図10及び図11は、第2実施形態に係るスパムブログ抽出装置301の判定用リスト登録処理のフローチャートである。なお、第2実施形態において、判定用リスト更新処理、スパムブログ判定処理及び候補リスト抽出処理は、第1実施形態とほぼ同様であるため、その説明を省略する。なお、スパムブログ判定処理において、制御部310は、判定対象ブログを受け付けた後に、ブログ蓄積DB325に受け付けた判定対象ブログを蓄積する処理を行う。また、候補リスト抽出処理において、制御部310は、抽出した他のWebサイトのURLを、スパムブログ判定用URL候補リスト324に登録するまでの処理にとどめ、抽出した他のWebサイトのURLを管理端末5に対して出力する処理は、任意である。
図10のS341:制御部310(反復実行部31B、スパムブログ判定部14)は、スパムブログ判定用URL候補リスト324に基づいて、ブログ蓄積DB325に蓄積されたブログを用いたスパムブログ判定処理を行う。
S342:制御部310(反復実行部31B、候補リスト抽出部16)は、スパムブログであると判定されたブログが引用する他のWebサイトのURLが存在するか否かを判断する。他のWebサイトのURLが存在する場合(S342:YES)には、制御部310は、処理をS343に移す。他方、他のWebサイトのURLが存在しない場合(S343:NO)には、制御部310は、本処理を終了する。
S343:制御部310(反復実行部31B)は、他のWebサイトのURLを抽出して、スパムブログ判定用URL候補リスト324に登録する。
S344:制御部310(HITS理論応用計算部31A)は、スパムブログ判定用URL候補リスト324に登録されたURLが示すWebサイトを、オーソリティに対応付ける。
S345:制御部310(HITS理論応用計算部31A)は、スパムブログDB21に記憶されたスパムブログを、ハブに対応付ける。
S346:制御部310(HITS理論応用計算部31A)は、HITS理論応用計算処理を行う。具体的には、HITS理論応用計算部31Aは、スパムブログ判定用URL候補リスト324に登録されたURLについて、オーソリティスコアを計算する。
S347:制御部310は、スパムブログ判定用URL候補リスト324のURL部に対応するスコア部に、オーソリティスコアを格納する。
S348:制御部310(判定用リスト登録部319)は、S346で計算したオーソリティスコアの値が所定の閾値以上であるか否かを判断する。所定の閾値以上の場合(S348:YES)には、制御部310は、スパムブログ判定用URL候補リスト324のURL部に対応する判定部に、登録するものであることを示す「×」を格納し、処理をS349に移す。他方、所定の閾値以上ではない場合(S348:NO)には、制御部310は、スパムブログ判定用URL候補リスト324のURL部に対応する判定部に、登録しないものであることを示す「○」を格納し、処理を図11のS350に移す。
S349:制御部310(判定用リスト登録部319)は、所定の閾値以上のWebサイトのURLを、スパムブログ判定用URLリスト23に登録する。
図11のS350:制御部310は、S346で計算したハブスコアの値が所定の閾値(例えば、0.9)以上であるか否かを判断する。所定の閾値以上の場合(S350:YES)には、制御部310は、処理をS351に移す。他方、所定の閾値以上ではない場合(S350:NO)には、制御部10は、処理を図10のS341に移す。
S351:制御部310は、所定の閾値以上のブログをスパムブログDB21に登録する。
S352〜S354:図4のS13〜S15の処理と同様である。S354での処理の後、制御部310は、処理を図10のS341に移す。
このように、スパムブログ抽出装置301は、スパムブログ判定用URL候補リスト324に基づいて、ブログ蓄積DB325に蓄積されたブログを用いたスパムブログ判定部14による処理を、候補リスト抽出部16により新たな候補が抽出されなくなるまで繰返し、HITS理論を応用してWebサイトのオーソリティスコアを計算した結果が所定の閾値以上である場合に、スパムブログ判定用URL候補リスト324のURLをスパムブログ判定用URLリスト23に登録するので、スパムブログ判定用URLリスト23の精度の向上を図り、スパムブログの候補が参照するさらに未知なWebサイトを自動的に発見することができる。
以上、本発明の実施形態について説明したが、本発明は、上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1,301 スパムブログ抽出装置
3 ブログサーバ
5 管理端末
10,310 制御部
11 スパムブログ受付部
12 判定用リスト更新部
13 判定対象ブログ受付部
14 スパムブログ判定部
15 スパムブログ記憶制御部
16 候補リスト抽出部
17 候補リスト出力部
19,319 判定用リスト登録部
20,320 記憶部
21 スパムブログDB
22 SVMエンジン
23 スパムブログ判定用URLリスト
24,324 スパムブログ判定用URL候補リスト
41,41A,41B,41C,41D スパムブログ
42,42A,42B,42C,42D 未知ブログ
50 商用サイト
51 未知サイト
100,300 スパムブログ抽出システム
31A HITS理論応用計算部
31B 反復実行部
325 ブログ蓄積DB

Claims (4)

  1. 定対象ブログを受け付けたことに応じて、受け付けた前記判定対象ブログがスパムであるか否かを、パムブログ判定用URLリストを素性として使用して機械学習により判定するスパムブログ判定手段と、
    前記スパムブログ判定手段によりスパムであると判定された場合に、スパムであると判定された前記判定対象ブログが引用するWebサイトであって前記Webサイト以外のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する候補リスト抽出手段と、
    受け付けた前記判定対象ブログを蓄積するブログ蓄積手段と、
    前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補に基づいて、前記ブログ蓄積手段に蓄積された前記判定対象ブログを用いた前記スパムブログ判定手段を、前記候補リスト抽出手段により前記スパムブログ判定用URLリストの候補が新たに抽出されなくなるまで繰返す反復実行手段と、
    前記反復実行手段による繰返し処理の間、前記候補リスト抽出手段により抽出された前記スパムブログ判定用URLリストの候補が示すWebサイトをオーソリティに対応付け、前記ブログ蓄積手段に蓄積された前記判定対象ブログをハブに対応付けて、HITS理論を応用して当該Webサイトのオーソリティスコアを計算するHITS理論応用計算手段と、
    前記HITS理論応用計算手段により計算された前記オーソリティスコアが所定の閾値以上である場合に、前記スパムブログ判定用URLリストの候補を前記スパムブログ判定用URLリストに登録する判定用リスト登録手段と、
    を備えるスパムブログ抽出装置。
  2. スパムブログ記憶手段に記憶されたスパムブログが引用するWebサイトのURLを記憶して、所定の基準を満たした前記WebサイトのURLをスパムブログ判定用URLとして加えて前記スパムブログ判定用URLリストを更新する判定用リスト更新手段を備える、
    請求項1に記載のスパムブログ抽出装置。
  3. 前記スパムブログ判定手段によりスパムであると判定された前記判定対象ブログを前記スパムブログ記憶手段に記憶するスパムブログ記憶制御手段を備える、
    請求項2に記載のスパムブログ抽出装置。
  4. ンピュータによって実行されるスパムブログ抽出方法であって、
    記コンピュータが、判定対象ブログを受け付けたことに応じて、受け付けた前記判定対象ブログがスパムであるか否かを、パムブログ判定用URLリストを素性として使用して機械学習により判定するスパムブログ判定ステップと、
    前記コンピュータが、前記スパムブログ判定ステップによりスパムであると判定された場合に、スパムであると判定された前記判定対象ブログが引用するWebサイトであって前記Webサイト以外のWebサイトのURLを、スパムブログ判定用URLリストの候補として抽出する候補リスト抽出ステップと、
    前記コンピュータが、受け付けた前記判定対象ブログをブログ蓄積手段に蓄積するブログ蓄積ステップと、
    前記コンピュータが、前記候補リスト抽出ステップにより抽出された前記スパムブログ判定用URLリストの候補に基づいて、前記ブログ蓄積手段に蓄積された前記判定対象ブログを用いた前記スパムブログ判定ステップを、前記候補リスト抽出ステップにより前記スパムブログ判定用URLリストの候補が新たに抽出されなくなるまで繰返す反復実行ステップと、
    前記コンピュータが、前記反復実行ステップによる繰返し処理の間、前記候補リスト抽出ステップにより抽出された前記スパムブログ判定用URLリストの候補が示すWebサイトをオーソリティに対応付け、前記ブログ蓄積手段に蓄積された前記判定対象ブログをハブに対応付けて、HITS理論を応用して当該Webサイトのオーソリティスコアを計算するHITS理論応用計算ステップと、
    前記コンピュータが、前記HITS理論応用計算ステップにより計算された前記オーソリティスコアが所定の閾値以上である場合に、前記スパムブログ判定用URLリストの候補を前記スパムブログ判定用URLリストに登録する判定用リスト登録ステップと、
    を含むスパムブログ抽出方法。
JP2010083535A 2010-03-31 2010-03-31 スパムブログ抽出装置及び方法 Active JP5165720B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010083535A JP5165720B2 (ja) 2010-03-31 2010-03-31 スパムブログ抽出装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010083535A JP5165720B2 (ja) 2010-03-31 2010-03-31 スパムブログ抽出装置及び方法

Publications (2)

Publication Number Publication Date
JP2011215891A JP2011215891A (ja) 2011-10-27
JP5165720B2 true JP5165720B2 (ja) 2013-03-21

Family

ID=44945554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010083535A Active JP5165720B2 (ja) 2010-03-31 2010-03-31 スパムブログ抽出装置及び方法

Country Status (1)

Country Link
JP (1) JP5165720B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4874828B2 (ja) * 2007-02-02 2012-02-15 ヤフー株式会社 コミュニティ抽出による検索用インデックス作成方法およびその装置
JP4429356B2 (ja) * 2007-12-26 2010-03-10 富士通株式会社 属性抽出処理方法及び装置
JP4636473B2 (ja) * 2008-08-21 2011-02-23 Necビッグローブ株式会社 リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP2010066980A (ja) * 2008-09-10 2010-03-25 Kddi Corp スパムブログ検知装置、スパムブログ検知方法及びプログラム

Also Published As

Publication number Publication date
JP2011215891A (ja) 2011-10-27

Similar Documents

Publication Publication Date Title
US20210392152A1 (en) Intrusion detection using robust singular value decomposition
US20150206069A1 (en) Machine learning-based patent quality metric
CN105247507A (zh) 品牌的影响力得分
US20130268457A1 (en) System and Method for Extracting Aspect-Based Ratings from Product and Service Reviews
US11645122B2 (en) Method, device, and computer program product for managing jobs in processing system
US7979386B1 (en) Method and system for performing search engine optimizations
JP2020503626A (ja) 要求リンクをリダイレクトする動的レビュー生成の最適化
US11924064B2 (en) Apparatuses, methods, and computer program products for predictive determinations of causal change identification for service incidents
CN104025089B (zh) 基于情形的爬行的方法和系统
US20180253695A1 (en) Generating job recommendations using job posting similarity
US20230224325A1 (en) Distributed endpoint security architecture enabled by artificial intelligence
JP6680663B2 (ja) 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
US20160241671A1 (en) Profile update evaluator
US8886653B2 (en) Information processing device, computer readable recording medium, and information processing method
JP5165720B2 (ja) スパムブログ抽出装置及び方法
JP6883561B2 (ja) 脆弱性推定装置及び脆弱性推定方法
US20190332682A1 (en) Automated selection of search ranker
US11314839B2 (en) Apparatus for webpage scoring
CN110392064B (zh) 风险识别方法、装置、计算设备以及计算机可读存储介质
JP6935849B2 (ja) 学習方法、学習装置及び学習プログラム
JP2014044552A (ja) 評価方法、情報処理装置およびプログラム
CN109325198B (zh) 一种资源展示方法、装置和存储介质
JP5113206B2 (ja) スパムブログ判定装置及び方法
JP2011232954A (ja) 情報提供システム、情報提供方法及び情報提供プログラム
WO2016072474A1 (ja) 情報処理装置及び方法、並びにプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350