JP2006146882A - コンテンツ評価 - Google Patents

コンテンツ評価 Download PDF

Info

Publication number
JP2006146882A
JP2006146882A JP2005287699A JP2005287699A JP2006146882A JP 2006146882 A JP2006146882 A JP 2006146882A JP 2005287699 A JP2005287699 A JP 2005287699A JP 2005287699 A JP2005287699 A JP 2005287699A JP 2006146882 A JP2006146882 A JP 2006146882A
Authority
JP
Japan
Prior art keywords
web page
web
evaluating
statistical
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005287699A
Other languages
English (en)
Inventor
Dennis Craig Fetterly
クレイグ フェッターリー デニス
Marc Alexander Najork
アレクサンダー ナジョーク マルク
Mark Steven Manasse
スティーブン マナセ マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006146882A publication Critical patent/JP2006146882A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity

Abstract

【課題】コンテンツを評価するための方法およびシステムを提供すること。
【解決手段】コンテンツ評価は、コンテンツ属性の使用によるデータセット生成、統計分布を使用してデータセットの評価による統計外れ値のクラスの識別、ウェブページの分析によるそれが統計外れ値クラスの一部かの判定を含む。システムは、メモリとプロセッサとを備え、プロセッサは、コンテンツ属性を使用してデータセットを生成し、統計分布を使用してデータセットを評価して統計外れ値のクラスを識別し、ウェブページを分析してそれが統計外れ値クラスの一部かを判定するように構成される。別の技法は、ウェブページのセットをクロールすること、ウェブページのセットを評価して統計分布を計算すること、統計分布中の外れ値ページにウェブスパムとしてフラグを立てること、クエリに答えるためにウェブページと外れ値ページのインデックスとを作成することを含む。
【選択図】図2

Description

本発明は一般に、ソフトウェアに関する。より詳細には、コンテンツ評価に関する。
「スパム」としばしば呼ばれる、一方的に押し付けられるコンテンツは、ワールドワイドウェブ(「ウェブ」)を含めた様々な電子媒体を介して多量の望ましくないデータがユーザによって送受信されるという点で問題である。スパムは、eメールを使用して送達されるか、あるいはメッセージング、インターネット、ウェブ、またはその他の電子通信媒体を含めた、その他の電子コンテンツ送達機構を使用して送達される場合がある。検索エンジン、クローラ、ボット、およびその他のコンテンツフィルタリング機構のコンテキストで、ウェブ上の望ましくないコンテンツ(「ウェブスパム」)の検出は、ますます大きな問題になっている。例えば、検索が実行された場合、所与の検索に適合するすべてのウェブページが結果ページに列挙されることがある。検索結果ページには、特定のウェブサイトの視認性を特に高めるために生成されたウェブページが含まれることがある。ウェブスパムは、ユーザをそそのかして特定のウェブサイトを訪れさせようとして、望ましくないコンテンツをユーザに「プッシュ」する。ウェブスパムはまた、ユーザにとって有用でないかまたは関心を引かない大量のデータを生成し、正確な検索エンジン性能を遅延させるか妨げる可能性がある。検索リストまたはランキングにおいて特定のウェブページの視認性を高めるための機構には、様々なタイプのものがある。
多くの場合、スパムは、商業目的でウェブおよびインターネットを介して発生することがある。例えば、検索エンジンオプティマイザ(SEO)が、特定のウェブページの望ましさまたは「検索可能性」を高めるために、スパムウェブページ(「ウェブスパム」)を自動または手動で生成する。SEOは、検索リスト中のウェブサイトランキングを上げようとし、したがってかなりの量のスパムウェブページを生成する。宛先ウェブサイトまたはウェブページは、特定の検索におけるそのランキングまたは優先順位を上げることができ、したがって結果ページ上でより目立つように位置付けおよび配置されることができ、これはユーザからのトラフィックの増加につながる。その後、SEOは、クライアントウェブサイトがますます多くのトラフィックおよびユーザに対して露出されるのを増加(improve)させることに基づいて、収入を得ることができる。SEOの中には、キーワードスタッフィングを利用して、キーワードは含むが実際のコンテンツは含まないウェブページを作成することができるものもある。別の問題は、リンクスパムである。リンクスパムは、特定のページ(商業クライアント)にリンクする多数のページを作成し、それにより、検索エンジンを欺いて、検索結果内で特定のウェブサイトまたはウェブページのランキングを上げさせるものである。他の場合では、ウェブスパムは、相互にわずかに異なる多数のウェブページを生成することによって作成されることがあり、これらのウェブページの1つが検査エンジンによって高くランク付けされるよう意図される。
したがって、従来技法の制限なしに、一方的に押し付けられるオンラインコンテンツを検出するための解決法が必要とされている。
本発明の様々な実施形態を、以下の詳細な記述および添付の図面に開示する。
本発明は、プロセスと、装置と、システムと、組成物(composition of matter)と、コンピュータ可読記憶媒体などのコンピュータ可読媒体と、プログラム命令が光通信リンクまたは電子通信リンクを介して送信されるコンピュータネットワークとを含めた、多くの方式で実施することができる。本明細書では、これらの実装形態、または本発明がとることのできる他の任意の形を、技法と呼ぶ場合がある。概して、開示されるプロセスのステップの順序は、本発明の範囲内で変えることができる。
以下、本発明の1つまたは複数の実施形態に関する詳細な記述を、本発明の原理を例示する添付の図と共に提供する。本発明をこのような実施形態に関して述べるが、本発明はどんな実施形態にも限定されない。本発明の範囲は特許請求の範囲によってのみ限定され、本発明は多くの代替、修正、および均等物を包含する。以下の記述では、本発明の完全な理解を提供するために、多くの具体的な詳細を述べる。これらの詳細は例示のために提供するものであり、本発明は、これらの具体的な詳細の一部または全部がなくても特許請求の範囲に従って実施することができる。明確にするために、本発明に関係する技術分野で知られている技術材料については、本発明が不必要に曖昧にならないよう、詳細に述べていない。
ウェブスパムの検出は、望ましくないコンテンツを削減および除去する際の、重要な目標である。ユーザの選好に応じていくつかのコンテンツが望ましくない場合があり、検出を実行して、ウェブスパムが存在するかどうかを判定することができる。クロールされたウェブページのセットに関連する様々なパラメータまたは属性を使用して形成された統計分布を用いて、検索結果中にあるすべてのページのグラフを展開することができる。ここでグラフとは、様々なパラメータを使用したデータのダイアグラム、図、またはプロットを指すものとすることができる。例として、検索エンジンによってクロールされた各ページにつき1つの点をプロットすることのできるグラフを展開することができ、この場合、グラフはページの1つまたは複数の属性を使用してプロットされる。いくつかの例では、ユーザへの検索結果を遅延させないようにするために、ウェブスパム検出技法は、クエリが実行された場合ではなく、検索エンジンインデックスの作成中に実行することができる。他の例では、ウェブスパム検出は別の仕方で実行することができる。外れ値(outlier)が識別されると、外れ値に関連するウェブページを、様々な技法を使用してさらに評価することができる。しかし、ウェブスパムが検出されると、削除、フィルタリング、検索エンジンランキングの降格、またはその他の動作を実行することができる。ソフトウェアまたはハードウェアアプリケーション(例えばコンピュータプログラム、ソフトウェア、ソフトウェアシステム、およびその他のコンピューティングシステム)を使用して、ウェブスパムを検出するためのコンテンツ評価技法を実施することができる。
図1に、スパムウェブページを示す。スパムウェブページ(「ウェブスパム」)には、リンクスパム、キーワードスタッフィングや、ユニフォームリソースロケータ(URL)などのアドレスの合成など、他の形のスパムも含まれるが、eメールスパムは通常含まれない。例として、スパムウェブページ100はキーワード、検索語、リンクを含み、これらはそれぞれ、SEOによって、検索エンジンなどからの検索結果リスト中でウェブサイトのランキングを上げるために生成される場合がある。この例では、キーワード、コンテンツ、リンク、合成URLが生成されており、宛先ウェブサイトへの追加のトラフィックを促進する機構が提供されている。ここでは、信用回復機関またはローン機関のウェブサイトが、スパムウェブサイト100の宛先サイトであるものとすることができる。これらのようなSEO技法を検出および使用して、検索エンジンによって発見された特定のコンテンツまたはコンテンツ結果がウェブスパムを含むかどうかを示すことができる。
図2に、コンテンツを評価するための例示的なフローチャートを示す。ここでは、様々な技法を使用してコンテンツを評価しウェブスパムを検出するための、全体的なプロセスを提供する。この例では、検索エンジンが、ウェブページのセットをクロールすることによってデータセットを生成する(202)。クロールされたウェブページは評価されて、統計分布が形成される(204)。統計分布中の外れ値に関連するページには、ウェブスパムとしてフラグが立てられる(206)。ウェブスパムが検出されてフラグが立てられると、ウェブスパムを含めたすべてのクロール済みページについて、検索インデックスを作成することができる(208)。いくつかの例では、検出されたウェブスパムは、検索エンジンインデックスから除外することができ、あるいは低い検索ランキングを与えることができ、あるいはユーザクエリがウェブスパムによって影響されたりポピュレートされたりしないようにして扱うことができ、それにより、より関連性のある検索結果をクエリに応答して生成することができる(210)。使用できる統計分布のいくつかの例については、後で図4〜10に関してより詳細に述べる。図3に、コンテンツを評価するための別のプロセスを示す。
図3に、コンテンツを評価するための別の例示的なフローチャートを示す。この例では、ウェブスパムが存在するかどうかを判定するための代替方法が提示される。ここでは、クロールされたウェブページのセットからデータセットを生成することができる(302)。ウェブページは、検索エンジンインデックス中のすべてのページを表すものとすることができる。他の例では、異なるウェブページセットからデータセットを生成することができる。データセットが生成されると、統計分布を使用してデータセットを評価して、統計外れ値のクラスを識別することができる(304)。識別された統計外れ値クラスに対して、個々のウェブページを分析して、これらのページが統計外れ値クラス内に入るパラメータを含むかどうかを判定することができる(306)。様々なタイプの統計分布を形成することができ、統計分布から統計外れ値のクラスを決定することができる。これらの統計外れ値は、上述したようなウェブスパムであるウェブページに関連する場合がある。
例として、ユニフォームリソースロケータ(URL)など様々な属性またはパラメータを使用して統計分布が形成されると、様々な外れ値が得られる場合がある。URLはウェブページのアドレスを表し、このアドレスは、そのURLによってアドレス指定されるページがウェブスパムかどうかを判定するためのパラメータとして使用することができる。いくつかの例では、ページをアドレス指定するのに合成URLが使用されることがある。合成URLは、開発者、管理者、またはその他のウェブコンテンツプロバイダによって、手動ではなく自動で生成される。これらのURLは、例えば数字、文字、またはその他の要素のランダムシーケンスがアドレスに含められることにより、異なって見える場合がある。合成URLは、アプリケーション、プログラム、またはマシンによって自動的に生成することができる。図4〜10に、ウェブスパムを検出するために形成された統計分布のいくつかの例を示す。
図4に、URLに含まれるホスト名を評価することによって形成された例示的な統計分布を示す。ここでは、データセットに含まれるすべてのホスト名のプロパティから統計分布が形成される。統計分布の主要部分の外にくる外れ値、例えばグループ420が評価されて、さらに、これらのホスト上に位置するページがウェブスパムかどうかが判定される。例として、データセット中のあらゆる点について、ホスト名の数をホスト名の長さに対してプロットすることができる。グループ420中に位置する点は、前述のプロセスを使用して評価することのできる統計外れ値を表す。ここでは、ホスト名の属性を評価することによって統計分布を実行することができる。
ホスト名はドメインセイムシステム(DNS)と共に使用することができ、DNSは、数字のIPアドレスに記号のホスト名をマッピングするための大域的な分散システムである。DNSは、多数の独立したコンピュータ(「DNSサーバ」)によって実現される。各DNSサーバは、マッピングのいくらかの部分を担い、ドメイン名の登録所有権を有する組織によって運営することができる。記号のホスト名はクライアントによって解決することができ、クライアントはホスト名をDNSサーバに送る。ホスト名は、このホストが存在するドメインを担当する(またはドメインに対する権限を有する)DNSサーバに、直接的または間接的に転送され、DNSサーバは、関連するIPアドレスを返す。例として、DNSサーバは、小さい固定の(またはゆっくり発展する)ホスト名セットを担当することができる。しかし、特定ドメイン内の任意のホスト名を、あるIPアドレスに解決するようにDNSサーバを構成することが可能である。したがって、ウェブサーバは、ハイパーリンク(例えばURL)を含むウェブページを生成し、これらのハイパーリンクのホスト要素が様々なホスト(例えば「belgium.sometravelagency.com」、「holland.sometravelagency.com」、「france.sometravelagency.com」)を参照するように見えるがすべてのホスト名が同じIPアドレスに解決されるようにすることができる。様々なホストはそれぞれ、マシン生成されたホスト名すなわち「合成ホスト名」として類別することができる。
合成ホスト名は、動的に作成することができる。合成ホスト名はしばしば、標準的なホスト名よりも多くのドット、ダッシュ、数字、またはその他の文字を含む。いくつかの例では、合成ホスト名は、標準的なホスト名とは異なる体裁を有する場合がある。合成ホスト名は、ドメインネームシステム(DNS)スパムと呼ばれることもある。合成ホスト名が存在する場合は、このホストから発生するすべてのウェブページを、ウェブスパムとしてマークまたは指示することができる(408)。合成ホスト名が存在しない場合は、どんな動作も行われない。このプロセスを、検索エンジンによってクロールされたあらゆるホスト名について繰り返すことができる。図5に、アドレスに割り当てられたホスト名の数を評価することによって形成された、別の例示的な統計分布を示す。
図5に、アドレスに割り当てられたホスト名の数を評価することによって形成された例示的な統計分布を示す。例として、アドレス(例えばIPアドレス)を使用して、ウェブページを評価しウェブスパムが存在するかどうかを判定することができる。グループ520中の一群の点は、統計外れ値を表す。例として、統計外れ値は、DNSスパムを示すものかもしれない何千または何百万ものホスト名が割り当てられた単一のIPアドレスを表し、このことは、マシン生成または自動生成されたスパムウェブページの証拠である場合がある。しかし、他の例では、これらの外れ値のいくつかは有効なウェブサイトである場合もある。これらの有効なウェブサイトの例には、オンラインコミュニティウェブサイト、ソーシャルネットワーキングウェブサイト、パーソナルウェブページコミュニティ、およびその他の類似のサイトを含めることができる。あるウェブページが与えられれば、関連するURLのホスト名をIPアドレスに解決することができ、同じIPアドレスに解決される他の既知のホスト名を決定することができる。複数のホスト名が、同じIPアドレスに解決される場合がある。所与のページについて、同じIPアドレスに解決される既知のホスト名の数がしきい値を超える場合、このページはウェブスパムとしてマークまたは指示される。同じIPアドレスに解決されるホスト名の数がしきい値を超えない場合は、このページはウェブスパムとしてマークされない。グラフ表現では、1つのアドレスに割り当てられたホスト名の数を、データセットのアドレスの数に対してプロットすることができる。他の例では、ホスト−マシン比を使用して、ウェブスパムが存在するかどうかを判定することができる。
スパムウェブページは、様々な非系列ウェブサーバを参照するように見えるが系列ウェブサーバを参照するかもしれない様々なホスト名を有する、多くのハイパーリンクを含む場合がある。これは、ウェブページが他のウェブサイトにリンクしておりこれらのウェブサイトを是認しているような印象を生み、公正であるような様相を生む。独立したウェブサーバを運営することに関連するコストを削減するために、ウェブスパムの作者は、前述のように、様々なホスト名を単一のマシンに解決するようにDNSサーバを構成することがある。ウェブスパムの作者は、この技法を利用して、他の様々なウェブサイトにリンクするように見えながらも通常のウェブページに見えるようにすることができる。この挙動は、ホスト−マシン比を計算することによって検出することができる。ホスト名は1つまたは複数の物理マシンにマッピングされる場合があり、各マシンはIPアドレスで識別される。例として、ホスト−マシン比は、所与のウェブページがリンクしており是認しているように見えるウェブサイトまたはホスト名の数を、実際に是認されているマシンの数で割ることによって決定することができる。マシンよりも多くのウェブサイトを是認しているウェブページは、ホスト−マシン比が高い。後で、これらのウェブページはウェブスパムとして検出および識別される場合がある。ウェブページに高いホスト−マシン比が関連する場合、このウェブページはウェブスパムとしてマークまたは指示することができる。高いホスト−マシン比が存在しない場合は、このウェブページはウェブスパムとしてマークまたは指示されない。ホスト−マシン比は、しきい値を有することができ、このしきい値を超えるとスパムが識別される。ホスト−マシン比しきい値は、より高くまたは低く調整することができる。ページが高いホスト−マシン比を有する場合、このページは、多くの様々なウェブサイトにリンクされているように見えるかもしれないが、実際にはより少ないウェブサーバにリンクしておりそれらを是認している場合がある。別の例では、平均ホスト−マシン比は、マシンによってサービスされるページのホスト−マシン比の平均である。マシンによって高い平均ホスト−マシン比でサービスされるウェブページは、ウェブスパムとしてマークまたは指示される。図6に、ホスト名解決を使用してウェブスパムが存在するかどうかを判定する別の技法を示す。
図6に、ホスト−マシン比を評価することによって形成された例示的な統計分布を示す。グループ620は、マシン上のウェブページの数をマシン上の平均ホスト−マシン比に対してプロットすることによってグラフ化されたデータセット(例えばウェブページ)の統計分布の、外れ値のセットを表す。ここでは、グループ620中に示すような外れ値は、スパムとしてフラグを立てるか指示することができる。図7A〜7Bに、ウェブスパムの検出に使用することのできる統計分布の別の例を示す。
図7Aに、入次数(in−degree)を使用してリンク構造を評価することによって形成された例示的な統計分布を示す。ウェブページの入次数は、そのウェブページを参照するハイパーリンクの数を指す。ウェブページの入次数を評価することによって、統計分布を形成して外れ値を発見することができ、これらの外れ値をウェブスパムに関連付けることができる。入次数dのウェブページを仮定して、観察された入次数統計分布が与えられた場合に予測されるであろうよりも多く入次数dのページがある場合は、これらのウェブページはウェブスパムとしてマークまたは指示される。例として、データセットが、入次数1001で369457ページを含んでいたが、図7Aに示す観察された統計分布によれば2000ウェブページしか予想されなかった場合、これらのウェブページはウェブスパムとしてマークまたは指示される。グループ720に、上述したような入次数のウェブページを表すことのできる外れ値のグループの例を示す。ウェブページは、図7Bに示すグループ740中の外れ値によって示すように、出次数(out−degree)を使用して評価することもできる。
図7Bに、出次数を評価することによって形成された例示的な統計分布を示す。ウェブページの出次数は、そのウェブページに埋め込まれたハイパーリンクの数を指す。ここでは、データセット中の各ウェブページに関連する出次数の数を使用して、統計分布が形成される。外れ値をグループ740で示す。データセット中のウェブページにウェブスパムが関連するかどうかを判定するために、図7Aに関して上に論じたように入次数の代わりに出次数を使用して統計分布が形成される。この例では、ウェブページの数と、ページの入次数または出次数とのグラフは、Zipfian分布をもたらすことができ、この分布から統計外れ値(例えば分布の外にある点)を選択および評価して、さらに、その出次数を有するウェブページが実際にウェブスパムかどうかを判定することができる。図7Aと7Bの両方の例で、同一の入次数または出次数を有する同一のウェブページもまた、ウェブスパムである場合がある。図8に、ウェブスパムを検出するために形成することのできる統計分布の別の例を示す。
図8に、構文内容を評価することによってウェブスパムを検出するための例示的なフローチャートを示す。例として、サイズまたは単語カウントの分布に基づいて構文内容を評価することができる。ここでは、一連の数のプロパティとして分散が決定される。所与のウェブサイト上にあるすべてのウェブページの単語カウントまたはサイズ(例えばホスト名、IPアドレス、またはその他のパラメータ)の分散が計算される。所与のウェブサイト上にあるすべてのウェブページが、単語カウントにおいて0に近い分散を有する場合(グループ820で示すように)、これらのウェブページはテンプレートによるものである場合がある。テンプレートによるページは、マシン生成または自動生成のコンテンツ(例えば完全にキーワードまたはフレーズだけで構成されるページ)を示し、これらのページはウェブスパムとしてマークまたは指示することができる。0に近い分散は、検索エンジン、クローラ、ボット、またはその他の検索アプリケーションによって高くランク付けされるであろうウェブページを作成するためにテンプレートによるウェブスパム生成の間に加えられた、小さい変更を反映する。他の例では、異なる特性を使用して構文内容を評価することができる。図9に、ウェブスパムを検出するために形成された別の例示的な統計分布を示す。
図9に、ページ進化を評価することによって形成された例示的な統計分布を示す。いくつかの例では、ページ進化は、ウェブページがダウンロード間で経験する変化を指す。例として、SEOまたはウェブスパムジェネレータが、ダウンロード間で手動または自動でウェブページを作成または変更することがある。ウェブページは、その進化に基づいて評価される。例として、ウェブページが各ダウンロードで大きく変化すなわち「進化」しているかどうかが判定される。大きな変化は、ページレイアウト全体の修正である場合もあり、コンテンツの大部分の変更である場合もあり、コンテンツのタイプの変更である場合もある(例えば大きなテキストセクションを画像と交換する)。その他のタイプの大きな変化を用いて、各ページが各ダウンロードで大きく変化しているかどうかを判定することもできる。所与のウェブサイト上にあるウェブページに関連する平均変化量が計算される。所与のウェブサイトに関連するウェブページの平均変化量が何らかのしきい値を超える場合は、これらのウェブページはウェブスパムとしてマークまたは指示される。超えない場合は、これらのウェブページはマークされない。例として、ストリップ920は、データセット全体のうち、ある週から次の週までで一致する特徴の平均数が低い部分を強調表示している。他の例では、統計分布が展開される期間は、毎日、毎時間、毎月に変更してもよく、あるいはページ内容が進化したことの判定を確立するためのその他いずれかの期間に変更してもよい。他の例では、その他のパラメータを修正することができる。図10に、ウェブスパムを検出するために形成された別の統計分布を示す。
図10に、複製に近いページのクラスタを評価することによって形成された例示的な統計分布を示す。ここでは、複製に近いページを識別することができる。複製に近いページが識別されると、これらのページは例えば等価クラスにクラスタリングされる。他の例では、複製に近いページは、等価クラス以外に、その他のデータ構造または構成に分類されてもよい。クラスタリングされると、各クラスタは評価されて、多数のウェブページが含まれるかどうかが判定される。評価されたクラスタに多数のウェブページが含まれる場合は、ウェブスパムが存在すると判定することができる。クラスタサイズが増大するにつれて、関連するウェブページがウェブスパムである確率は高くなる。ここでは、グループ1020は、大きなクラスタとして示される統計外れ値のグループを例示しており、このクラスタはウェブスパムを示す。この例では、所与のクラスタに多数のウェブページが含まれる場合は、このクラスタ中のウェブページはウェブスパムとしてマークまたは指示される。
上の各例では、様々な属性および特性を評価して、ウェブスパムを検出するためのこれらのコンテンツ評価技法を実施することができる。いくつかの例では、データセットの様々な特性をグラフ化して統計分布を展開することができ、統計分布から統計外れ値を識別および選択することができる。他の例では、前述の統計分布、分析、評価の技法を、他の環境または特性システムで使用して、データセットの評価に関連する統計外れ値および関連の項目、プロパティ、または属性を決定することができる。
図11は、コンテンツを評価するのに適した例示的なコンピュータシステムを示すブロック図である。いくつかの例では、コンピュータシステム1100を使用して前述の技法を実施することができる。コンピュータシステム1100は、情報を通信するためのバス1102またはその他の通信機構を備え、バス1102またはその他の通信機構は、プロセッサ1104、システムメモリ1106(例えばRAM)、記憶デバイス1108(例えばROM)、ディスクドライブ1110(例えば磁気または光学)、通信インタフェース1112(例えばモデムやイーサネット(登録商標)カード)、表示装置1114(例えばCRTやLCD)、入力デバイス1116(例えばキーボード)、カーソルコントロール1118(例えばマウスやトラックボール)などのサブシステムおよびデバイスを相互接続する。
本発明の一実施形態によれば、コンピュータシステム1100は、システムメモリ1106に含まれる1つまたは複数の命令の1つまたは複数のシーケンスをプロセッサ1104が実行することによって、特定の動作を実行する。このような命令は、静的記憶デバイス1108やディスクドライブ1110などの別のコンピュータ可読媒体から、システムメモリ1106に読み込むことができる。代替の実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて、ハードワイヤード回路を使用して本発明を実施することができる。
用語「コンピュータ可読媒体」は、命令を実行のためにプロセッサ1104に提供することに関与する任意の媒体を指す。このような媒体は、限定しないが不揮発性媒体、揮発性媒体、伝送媒体を含めて、多くの形をとることができる。不揮発性媒体には、例えば、ディスクドライブ1110などの光学または磁気ディスクが含まれる。揮発性媒体には、システムメモリ1106などの動的メモリが含まれる。伝送媒体には、バス1102を構成するワイヤを含めて、同軸ケーブル、銅ワイヤ、光ファイバが含まれる。伝送媒体は、電波通信および赤外線データ通信の間に生成されるような音波または光波の形をとることもできる。
コンピュータ可読媒体の一般的な形には、例えばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の任意の磁気媒体、CD−ROM、その他の任意の光学媒体、パンチカード、紙テープ、その他の任意の孔パターン付き物理媒体、RAM、PROM、EPROM、FLASH−EPROM、その他の任意のメモリチップまたはカートリッジ、搬送波、または、コンピュータが読み取ることのできるその他の任意の媒体が含まれる。
本発明の一実施形態では、本発明を実施するための命令シーケンスの実行は、単一のコンピュータシステム1100によって実行される。本発明の他の実施形態では、通信リンク1120(例えばLAN、PSTN、または無線ネットワーク)で結合された複数のコンピュータシステム1100が相互に協調して、本発明を実施するための命令シーケンスを実行することができる。コンピュータシステム1100は、プログラムすなわちアプリケーションコードを含めて、メッセージ、データ、命令を、通信リンク1120および通信インタフェース1112を介して送受信することができる。受信されたプログラムコードは、受信時にプロセッサ1104によって実行されてもよく、かつ/あるいは、後で実行されるようにディスクドライブ1110またはその他の不揮発性記憶装置に記憶されてもよい。
前述の実施形態は、理解をはっきりさせるためにいくらか詳細に述べたが、本発明は、提供された詳細に限定されない。本発明を実施する方法には、多くの代替方法がある。開示した実施形態は例示的なものであり、限定的なものではない。
スパムウェブページを示す図である。 コンテンツを評価するための例示的なフローチャートである。 コンテンツを評価するための別の例示的なフローチャートである。 ホスト名を評価することによって形成された例示的な統計分布を示す図である。 1アドレスあたりのホスト名の数を評価することによって形成された例示的な統計分布を示す図である。 ホスト−マシン比を評価することによって形成された例示的な統計分布を示す図である。 入次数を使用してリンク構造を評価することによって形成された例示的な統計分布を示す図である。 出次数を使用してリンク構造を評価することによって形成された例示的な統計分布を示す図である。 ウェブサーバ上のウェブページにわたる単語カウントの分散を評価することによって形成された例示的な統計分布を示す図である。 ページ進化を評価することによって形成された例示的な統計分布を示す図である。 複製に近いページのクラスタを評価することによって形成された例示的な統計分布を示す図である。 コンテンツを評価するのに適した例示的なコンピュータシステムを示すブロック図である。
符号の説明
1104 プロセッサ
1106 メモリ
1108 記憶デバイス
1110 ディスクドライブ
1112 通信インタフェース
1114 表示装置
1116 入出力デバイス
1118 カーソルコントロール

Claims (29)

  1. コンテンツを評価する方法であって、
    前記コンテンツに関連する属性を使用してデータセットを生成するステップと、
    統計外れ値のクラスを識別するために統計分布を使用して前記データセットを評価するステップと、
    ウェブページが前記統計外れ値クラスの一部かどうかを判定するために前記ウェブページを分析するステップと含むことを特徴とする方法。
  2. 前記属性はアドレスであることを特徴とする請求項1に記載の方法。
  3. 前記属性はアドレスプロパティであることを特徴とする請求項1に記載の方法。
  4. 前記属性はユニフォームリソースロケータプロパティであることを特徴とする請求項1に記載の方法。
  5. 前記属性はホスト名解決特性であることを特徴とする請求項1に記載の方法。
  6. 前記ホスト名解決特性は、アドレスに割り当てられた名前の数を表すことを特徴とする請求項5に記載の方法。
  7. 前記ホスト名解決特性はホスト−マシン比であることを特徴とする請求項5に記載の方法。
  8. 前記属性はリンク構造であることを特徴とする請求項1に記載の方法。
  9. 前記属性は構文内容であることを特徴とする請求項1に記載の方法。
  10. 前記属性はコンテンツ進化であることを特徴とする請求項1に記載の方法。
  11. 前記属性は類似ウェブページのクラスタであることを特徴とする請求項1に記載の方法。
  12. 前記データセットはサンプルポピュレーションを選択する前に生成されることを特徴とする請求項1に記載の方法。
  13. ウェブページを分析するステップはさらに、ウェブスパムが存在するかどうか判定するステップを含むことを特徴とする請求項1に記載の方法。
  14. ウェブスパムが存在するかどうかを判定するステップはさらに、
    複数のウェブページを評価するステップと、
    前記各ウェブページに関連するホスト名の長さを決定するステップとを含むことを特徴とする請求項13に記載の方法。
  15. ウェブスパムが存在するかどうか判定するステップはさらに、
    前記ウェブページを評価するステップであって、前記ウェブページに関連するホスト名が、あるアドレスに解決されるステップと、
    他のウェブページが他のホスト名を前記アドレスに解決するかどうかを判定するステップとを含むことを特徴とする請求項13に記載の方法。
  16. ウェブスパムが存在するかどうかを判定するステップはさらに、前記ウェブページを評価してホスト−マシン比を決定するステップを含むことを特徴とする請求項13に記載の方法。
  17. 前記ホスト−マシン比は、前記ウェブページに含まれる異なるホスト名の数を、前記異なるホスト名の数に関連する異なるアドレスの数で割ることによって決定されることを特徴とする請求項16に記載の方法。
  18. 前記データセットを評価するステップはさらに、前記統計分布を使用して、前記統計外れ値クラスに含まれる入次数の値を識別するステップを含むことを特徴とする請求項1に記載の方法。
  19. 前記ウェブページを分析するステップはさらに、
    前記ウェブページの入次数の値を決定するステップと、
    前記ウェブページの前記入次数の値が前記統計外れ値クラスに含まれるかどうかを判定するステップとを含むことを特徴とする請求項1に記載の方法。
  20. 前記データセットを評価するステップはさらに、前記統計分布を使用して、前記統計外れ値クラスに含まれる出次数の値を識別するステップを含むことを特徴とする請求項1に記載の方法。
  21. 前記ウェブページを分析するステップはさらに、
    前記ウェブページの出次数の値を決定するステップと、
    前記ウェブページの前記出次数の値が前記統計外れ値クラスに含まれるかどうかを判定するステップとを含むことを特徴とする請求項1に記載の方法。
  22. 前記ウェブページを分析するステップはさらに、前記ウェブページが単語カウントにおいて0に近い分散を有するかどうかを判定するステップを含むことを特徴とする請求項1に記載の方法。
  23. 前記ウェブページを分析するステップはさらに、前記ウェブページがサイズにおいて0に近い分散を有するかどうかを判定するステップを含むことを特徴とする請求項1に記載の方法。
  24. 前記ウェブページを分析するステップはさらに、ある期間にわたる、アドレスからの連続的なダウンロードの数に対する一致する特徴の平均数を決定するステップを含むことを特徴とする請求項1に記載の方法。
  25. 前記ウェブページを分析するステップはさらに、ほぼ同一のウェブページのクラスタのサイズを決定するステップを含むことを特徴とする請求項1に記載の方法。
  26. 前記統計外れ値クラスは、望ましくないコンテンツを識別することを特徴とする請求項1に記載の方法。
  27. コンテンツを評価する方法であって、
    ウェブページのセットをクロールするステップと、
    前記ウェブページセットを評価して統計分布を計算するステップと、
    前記統計分布中の外れ値ページにウェブスパムとしてフラグを立てるステップと、
    クエリに答えるために前記ウェブページおよび前記外れ値ページのインデックスを作成するステップとを含むことを特徴とする方法。
  28. コンテンツを評価するためのシステムであって、
    データを記憶するように構成されたメモリと、
    前記コンテンツに関連する属性を使用してデータセットを生成し、統計分布を使用して前記データセットを評価して統計外れ値のクラスを識別し、ウェブページを分析して前記ウェブページが前記統計外れ値クラスの一部かどうかを判定するように構成されたプロセッサとを備えることを特徴とするシステム。
  29. コンピュータ可読媒体に組み入れられた、コンテンツを評価するためのコンピュータプログラム製品であって、
    前記コンテンツに関連する属性を使用してデータセットを生成するためのコンピュータ命令と、
    統計分布を使用して前記データセットを評価して統計外れ値のクラスを識別するためのコンピュータ命令と、
    ウェブページを分析して前記ウェブページが前記統計外れ値クラスの一部かどうかを判定するためのコンピュータ命令とを備えることを特徴とするコンピュータプログラム製品。
JP2005287699A 2004-09-30 2005-09-30 コンテンツ評価 Pending JP2006146882A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/956,228 US20060069667A1 (en) 2004-09-30 2004-09-30 Content evaluation

Publications (1)

Publication Number Publication Date
JP2006146882A true JP2006146882A (ja) 2006-06-08

Family

ID=35124342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005287699A Pending JP2006146882A (ja) 2004-09-30 2005-09-30 コンテンツ評価

Country Status (5)

Country Link
US (1) US20060069667A1 (ja)
EP (1) EP1643392A1 (ja)
JP (1) JP2006146882A (ja)
KR (1) KR20060051939A (ja)
CN (1) CN1770158A (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7466663B2 (en) * 2000-10-26 2008-12-16 Inrotis Technology, Limited Method and apparatus for identifying components of a network having high importance for network integrity
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US8125922B2 (en) * 2002-10-29 2012-02-28 Searchbolt Limited Method and apparatus for generating a ranked index of web pages
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US20070143300A1 (en) * 2005-12-20 2007-06-21 Ask Jeeves, Inc. System and method for monitoring evolution over time of temporal content
CN1936893B (zh) * 2006-06-02 2010-05-12 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统
US20080033797A1 (en) * 2006-08-01 2008-02-07 Microsoft Corporation Search query monetization-based ranking and filtering
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US9110975B1 (en) 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US20080147669A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Detecting web spam from changes to links of web sites
US7711684B2 (en) 2006-12-28 2010-05-04 Ebay Inc. Collaborative content evaluation
US7975301B2 (en) * 2007-03-05 2011-07-05 Microsoft Corporation Neighborhood clustering for web spam detection
US7680851B2 (en) 2007-03-07 2010-03-16 Microsoft Corporation Active spam testing system
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) * 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US7756987B2 (en) * 2007-04-04 2010-07-13 Microsoft Corporation Cybersquatter patrol
US7711747B2 (en) 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US7930303B2 (en) * 2007-04-30 2011-04-19 Microsoft Corporation Calculating global importance of documents based on global hitting times
US7941391B2 (en) 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
CN101383838B (zh) * 2007-09-06 2012-01-18 阿里巴巴集团控股有限公司 一种Web界面在线评估的方法、系统和装置
US20090070346A1 (en) * 2007-09-06 2009-03-12 Antonio Savona Systems and methods for clustering information
US9058608B2 (en) 2007-09-12 2015-06-16 Google Inc. Placement attribute targeting
US20090089244A1 (en) * 2007-09-27 2009-04-02 Yahoo! Inc. Method of detecting spam hosts based on clustering the host graph
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8046675B2 (en) * 2007-12-28 2011-10-25 Yahoo! Inc. Method of creating graph structure from time-series of attention data
CN101493819B (zh) * 2008-01-24 2011-09-14 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法
US8219549B2 (en) * 2008-02-06 2012-07-10 Microsoft Corporation Forum mining for suspicious link spam sites detection
EP2169568A1 (en) 2008-09-17 2010-03-31 OGS Search Limited Method and apparatus for generating a ranked index of web pages
US7974970B2 (en) * 2008-10-09 2011-07-05 Yahoo! Inc. Detection of undesirable web pages
US8874662B2 (en) * 2008-10-17 2014-10-28 Alan Graham Method and apparatus for controlling unsolicited messages in a messaging network using an authoritative domain name server
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US20100293028A1 (en) * 2009-05-11 2010-11-18 Amod Ashok Dange Method and apparatus for evaluating content
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US8473491B1 (en) * 2010-12-03 2013-06-25 Google Inc. Systems and methods of detecting keyword-stuffed business titles
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
US8655883B1 (en) * 2011-09-27 2014-02-18 Google Inc. Automatic detection of similar business updates by using similarity to past rejected updates
US9553783B2 (en) * 2012-09-14 2017-01-24 Salesforce.Com, Inc. Spam flood detection methodologies
CA2843276A1 (en) * 2013-02-20 2014-08-20 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
CA2945543C (en) 2014-04-11 2021-06-15 Hartford Steam Boiler Inspection And Insurance Company Improving future reliability prediction based on system operational and performance data modelling
US10394796B1 (en) * 2015-05-28 2019-08-27 BloomReach Inc. Control selection and analysis of search engine optimization activities for web sites
CN105119910A (zh) * 2015-07-23 2015-12-02 浙江大学 基于模板的在线社交网络垃圾信息实时检测方法
US20180150752A1 (en) * 2016-11-30 2018-05-31 NewsRx, LLC Identifying artificial intelligence content
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
CN110427577B (zh) * 2019-06-26 2022-04-19 五八有限公司 内容的影响评估方法、装置、电子设备和存储介质
GB201911459D0 (en) * 2019-08-09 2019-09-25 Majestic 12 Ltd Systems and methods for analysing information content
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
KR20220066924A (ko) 2019-09-18 2022-05-24 하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니 머신 러닝 모델에서 동적 이상치 바이어스 감소를 구현하도록 구성된 컴퓨터 기반 시스템, 컴퓨팅 구성요소 및 컴퓨팅 객체
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030037074A1 (en) * 2001-05-01 2003-02-20 Ibm Corporation System and method for aggregating ranking results from various sources to improve the results of web searching

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
US6615242B1 (en) * 1998-12-28 2003-09-02 At&T Corp. Automatic uniform resource locator-based message filter
US6418433B1 (en) * 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6769016B2 (en) * 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US7016939B1 (en) * 2001-07-26 2006-03-21 Mcafee, Inc. Intelligent SPAM detection system using statistical analysis
US7272853B2 (en) * 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US8301702B2 (en) * 2004-01-20 2012-10-30 Cloudmark, Inc. Method and an apparatus to screen electronic communications
US20060020672A1 (en) * 2004-07-23 2006-01-26 Marvin Shannon System and Method to Categorize Electronic Messages by Graphical Analysis
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US9288078B2 (en) * 2005-03-25 2016-03-15 Qualcomm Incorporated Apparatus and methods for managing content exchange on a wireless device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030037074A1 (en) * 2001-05-01 2003-02-20 Ibm Corporation System and method for aggregating ranking results from various sources to improve the results of web searching

Also Published As

Publication number Publication date
KR20060051939A (ko) 2006-05-19
US20060069667A1 (en) 2006-03-30
CN1770158A (zh) 2006-05-10
EP1643392A1 (en) 2006-04-05

Similar Documents

Publication Publication Date Title
JP2006146882A (ja) コンテンツ評価
US11606384B2 (en) Clustering-based security monitoring of accessed domain names
US8661119B1 (en) Determining a number of users behind a set of one or more internet protocol (IP) addresses
US7890451B2 (en) Computer program product and method for refining an estimate of internet traffic
US8135833B2 (en) Computer program product and method for estimating internet traffic
US20080184129A1 (en) Presenting website analytics associated with a toolbar
KR20060121923A (ko) 인터넷 상의 웹사이트들의 동작을 분석하기 위한 방법 및툴
WO2010042199A1 (en) Indexing online advertisements
WO2004084097A1 (en) Method and apparatus for detecting invalid clicks on the internet search engine
JP2007018508A (ja) コンピュータネットワークを介して配信されたドキュメントにおけるインプレッションを表示するための技術
WO2009064741A1 (en) Systems and methods for normalizing clickstream data
JP6872853B2 (ja) 検出装置、検出方法及び検出プログラム
US7139972B2 (en) Preemptive downloading of web pages with terms associated with user interest keywords
Dhawan et al. Web Usage Mining: Finding Usage Patterns from Web Logs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080930

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110715

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120327