JP4908422B2 - リンクベースのスパム検出 - Google Patents
リンクベースのスパム検出 Download PDFInfo
- Publication number
- JP4908422B2 JP4908422B2 JP2007539077A JP2007539077A JP4908422B2 JP 4908422 B2 JP4908422 B2 JP 4908422B2 JP 2007539077 A JP2007539077 A JP 2007539077A JP 2007539077 A JP2007539077 A JP 2007539077A JP 4908422 B2 JP4908422 B2 JP 4908422B2
- Authority
- JP
- Japan
- Prior art keywords
- documents
- hit
- forming
- measure
- metric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title description 6
- 238000000034 method Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 241000239290 Araneae Species 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は概して検索システムに関し、より詳細には、結果セットにおいて検索ヒットをランク付けする検索システムに関する。
せることはない。この点に関して、スパムの作者は別の技術を使用する。その別の技術とは、他者によってより頻繁に参照されるページが概して検索エンジンによって好ましい(より高い関連性を有する)と考えられるという観察に基づいて、インリンク(inlink)とも呼ばれる多くの入ってくる(ハイパー)リンクをページに付加するというものである。価値が優れているために多くの他者によって参照される真に高品質のページと、多くのインリンクを有するウェブスパムとを区別することは困難である。
この発明の実施例は、検索結果セットを形成するヒットをランク付けすることを含む、検索要求を処理するためのシステムおよび方法を提供する。ヒットは、特定のページを指し示すスパムファーム(spam farm)の大きさの尺度である有効質量(effective mass)および他のパラメータを使用してランク付けされることができる。
に信頼値を割当てることと、リンクを張るドキュメントによって指し示されるリンクされるドキュメントの各々にその信頼値を伝播させることと、比例配分された信頼値を、リンクされるドキュメントの各々に割当てることとによって生成される。
ンク付けすることと、最も高くランク付けされたドキュメントのセットを識別することと、最も高くランク付けされたドキュメントの質を評価することと、最も高くランク付けされたドキュメントから不適切であると考えられるドキュメントを除去することによってドキュメントの修正されたセットを形成することと、修正された保持されるセットを使用してシードセットを形成することとによって形成される。
定義
別の方法で定義されない限り、本明細書において使用されるすべての技術的および科学的用語は、この発明が関係する当業者によって一般に理解されている意味を有する。本明細書において使用されるように、以下の用語は下記のとおりに定義される。
ョンへのナビゲーションを可能にするためにハイパーテキストリンクを有するワールドワイドウェブのページまたはファイルを指す。ウェブページはしばしば関連付けられるグラフィックスファイルを使用してイラストをもたらし、これらもクリック可能なリンクであり得る。ウェブページは、ウェブブラウザを使用して表示され、多くの場合モーション、グラフィックス、対話および音声をもたらすアプレット(ページ内で実行するサブプログラム)を利用するように設計されることができる。
この発明の実施例は、リンクベースのスパムの検出のための方法およびシステムに向けられている。検索クエリに応答してもたらされる検索結果は、ヒットの有効質量を求めるために処理される。ヒットの有効質量は、ヒットを指し示すために作成され、したがって、ヒットの相対的な重要性を人為的にブーストするスパムファームの大きさの尺度である。この発明の実施例に従う方法およびシステムは、ヒットの有効質量を使用し、有効質量がリンクベースのスパムによってヒットを人為的にブーストする可能性を高くするそのヒットを格下げする。所与のウェブドキュメントについての有効質量を求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ(たとえば、ページランク)と、所与のウェブドキュメントの信頼性(たとえば、トラストランク)との間の相違を部分的に査定する技術の組合せに依拠する。所与のウェブドキュメントの有効質量を求めるため
の技術について、以下でさらに詳細に説明する。
図1は、この発明の実施例を実施するために使用され得る1つ以上のクライアントシステム201-Nを含む情報抽出および通信ネットワーク10の一般的な概要を示す。コンピュータネットワーク10では、クライアントシステム201-Nは、インターネット40または他の通信ネットワークを介して(たとえば、任意のローカルエリアネットワーク(local area network)(LAN)または広域ネットワーク(wide area network)(WAN)接続によって)任意の数のサーバシステム501から50Nに結合される。本明細書において記載されるように、クライアントシステム201-Nは、たとえば媒体コンテンツおよびウェブページなどの他の情報にアクセスし、それらを受取、抽出および表示するためにサーバシステム501から50Nのいずれかと通信するようこの発明に従って構成される。
トシステム20にインターネットによって伝送およびダウンロードされる場合もあれば、任意の通信媒体およびプロトコル(たとえば、TCP/IP、HTTP、HTTPS、イーサネット(登録商標)または他の従来型の媒体およびプロトコル)を使用して他のネットワーク接続(たとえば、エクストラネット、VPN、LANまたは他の従来型のネットワーク)によって伝送される場合もある。
図2は、この発明の実施例による媒体コンテンツを通信するための別の情報抽出および通信ネットワーク110を示す。示されるように、ネットワーク110は、クライアントシステム120と、1つ以上のコンテンツサーバシステム150と、検索サーバシステム160とを含む。ネットワーク110では、クライアントシステム120は、インターネット140または他の通信ネットワークを介して、サーバシステム150および160に通信可能に結合される。上述のように、クライアントシステム120およびその構成要素は、インターネット140または他の通信ネットワークによって、サーバシステム150および160ならびに他のサーバシステムと通信するよう構成される。
一実施例によれば、クライアントシステム120で実行する(モジュール125として表わされる)クライアントアプリケーションは、サーバシステム150および160と通信するため、ならびにそこから受取られたデータコンテンツを処理および表示するためにクライアントシステム120およびその構成要素を制御するための命令を含む。クライアントアプリケーション125は好ましくは、リモートサーバシステム(たとえば、サーバシステム150、サーバシステム160または他のリモートサーバシステム)などのソフトウェアソースからクライアントシステム120に伝送およびダウンロードされるが、クライアントアプリケーションモジュール125は、上述のように、フロッピー(登録商標)ディスク、CD、DVDなどの任意のソフトウェア記憶媒体に設けられることができる。たとえば、一局面では、クライアントアプリケーションモジュール125は、データを操作するためならびにさまざまなオブジェクト、フレームおよびウインドウでデータを表現するための、たとえば組込型Java(登録商標)ScriptまたはActiveX制御装置などのさまざまな制御装置を含むHTMLラッパーの状態でインターネット140によってクライアントシステム120に与えられてもよい。
プリケーション、インスタントメッセージ(instant messaging)(IM)アプリケーション、ブラウザアプリケーション、ドキュメント管理アプリケーションなどを含む。さらに、インターフェイスモジュール127は、クライアントシステム120に構成されるデフォルトブラウザまたは異なるブラウザなどのブラウザを含んでもよい。
一実施例によれば、検索サーバシステム160は、検索結果データおよび媒体コンテンツをクライアントシステム120に与えるよう構成される。コンテンツサーバシステム150は、たとえば検索サーバシステム160によって与えられる検索結果ページにおいて選択されたリンクに応答して、ウェブページなどのデータおよび媒体コンテンツをクライアントシステム120に与えるよう構成される。いくつかの変形例では、検索サーバシステム160は、コンテンツへのリンクおよび/または他の参照と同様に、またはその代わりに、コンテンツを返す。
図2に示されるように、検索サーバシステム160は、ウェブスパムページが格下げされるかまたはリストから除去された場合に修正された検索リストを返すリンクベースのスパム検出器180と組合せられて機能し、検索サーバシステム160の出力(結果、提案、媒体コンテンツなど)をリンクベースのスパム検出器180に与える。検索サーバシステム160は、この発明の実施例による検索エンジンを動作させるよう構成される。検索エンジンは、3つの部分、すなわち1つ以上のスパイダ162と、データベース163と、ツール/アプリケーション167とから成る。情報を集めるスパイダ162はインターネット中をゆっくり進み、データベース163にはスパイダが集めた情報および他の情報が入っており、ツール/アプリケーション167は、データベースを検索するためにユーザによって使用される検索ツール166などのアプリケーションを含む。データベース163には、検索ツールによって使用されるページ索引170が入っている。さらに、この発明の実施例による検索エンジンは、スパム検出器180を含む。スパム検出器180は、以下に記載されるさまざまなアルゴリズムを実行し、ページについてのウェブスパムメトリック181をページ索引170に格納する。上で説明されたように、この発明の実施例によるスパム検出器180は、ヒットの有効質量に一致するメトリックを推定し、検索ツール166およびページ索引170と組合せられて機能し、有効質量がリンクベースのスパムによってヒットを人為的にブーストする可能性を高くするそのヒットを格下げする。所与のウェブドキュメントについての有効質量を求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ(たとえば、ページランク)と、所与のウェブドキュメントの信頼性(たとえば、トラストランク)との間の相違を部分的に査定する技術の組合せに依拠する。一実施例では、ウェブスパム検出器180は、ページ索引170におけるすべてのページを処理して、索引におけるページについてウェブスパムメトリック181を計算し、ウェブスパムメトリック181をデータベース163に格納する。メトリック181は、ドキュメントを検索結果に含ませる検索クエリから独立している。
このセクションでは、スパムファーム、(一般に「ページランク」と称される)インリンクページランキング、および信頼ランキングの概念について説明する。スパムファームとは、重要性をブーストするためにスパムターゲットページを指し示すページの人為的に作成されたセットである。信頼ランキング(「トラストランク」)とは、高品質のページのサブセットへの特別なテレポーテーション(teleportation)(すなわち、ジャンプ)を有するページランクの一形態である。本明細書に記載される技術を使用して、検索エンジンは自動的に不良なページ(ウェブスパムページ)を見つけることができ、より具体的には、人為的なスパムファーム(参照ページの集まり)を作成することによって、重要性をブーストするために作成されたウェブスパムページを見つけることができる。具体的な実施例では、均一なテレポーテーションを有するページランクプロセスおよび信頼ランキングプロセスが実行され、それらの結果は、ページまたはページの集まりの「スパム性」の試験の一部として比較される。さらに、信頼ランキングプロセスへの入力を構築する新規の方法について以下で説明する。
ムは、(1)サイトのウェブ(ウェブコンテンツ/ページおよび単一のオーソリティに関連付けられる他のタイプのウェブドキュメントの論理的なグループ)、(2)ホスト間のグラフエッジ(graph edge)(たとえば、2つのホストがハイパーリンクによって接続される少なくとも1つのページを各々含む場合に2つのホストがリンクを有するホストグラフ、または他の試験)の何らかの定義を有する、ホストのウェブ(ホストランク)(HostRank)によって表わされるサイトのウェブに近いもの、(3)他のウェブページのグラフの集約、および/または(4)参照の強さを反映する、関連付けられる重みを有するリンクの集まりに同様に適用可能である。
スパムファームとは、重要性をブーストするためにスパムターゲットページを指し示すページの人為的に作成されたセット(または代替的には、ホスト)である。図3A−図3Bは、2つの単純なスパムファームを示す例示的な図である。
ページランクの概念は、ウェブページの分析に有用である。ページランクについての多くの可能な定義の中で、ページランキングの以下の線形システム定義が使用される。
ウェブページの有効質量は、インジケータとして使用されて、ウェブページがスパムページであるかどうかを判断するのを助ける。
はずであり、すなわち、シードページは高い適用範囲をもたらすはずであること、および2)シードページの品質は非常に高いはずであり、そのため、スパムのないページからスパムページへのリンクに遭遇するチャンスは最小限のはずであることである。
Claims (8)
- 検索結果セットにおいて検索ヒットをランク付けする、コンピュータによって実現される方法であって、
ユーザからクエリを受取るステップと、
前記クエリに関連するヒットのリストを生成するステップと、を備え、
前記ヒットのリストの各々のヒットは前記クエリに関連し、
前記方法はさらに、少なくとも1つのヒットにメトリックを関連付けるステップを備え、前記メトリックは、前記少なくとも1つのヒットの前記クエリとの関連性を人為的に高める前記少なくとも1つのヒットへのリンクを含むブーストドキュメントの数を表わし、前記メトリックは、前記少なくとも1つのヒットについての信頼値及びリンクベースポピュラリティ値に少なくとも部分的に基づくものであり、前記方法はさらに、
前記少なくとも1つのヒットについてリンクベースのポピュラリティ値の第1の尺度を形成するステップであって、前記第1の尺度は、前記少なくとも1つのヒットのリンクポピュラリティを表わすステップと、
前記少なくとも1つのヒットについて信頼値の第2の尺度を形成するステップであって、前記第2の尺度は、前記少なくとも1つのヒットが評判のよいドキュメントである可能性を示すステップと、
前記第1の尺度および前記第2の尺度を備える組合せに少なくとも部分的に基づいて前記メトリックを形成するステップであって、前記組合せは、前記第1の尺度と前記第2の尺度との間の差を表わすステップと、
前記メトリックが閾値より大きいかどうかを判断するステップと、
修正されたリストを形成するために前記ヒットのリストを処理するステップであって、前記メトリックが前記閾値より大きいと判断されたことに応答して、前記少なくとも1つのヒットを前記修正されたリストから除外するか、前記ヒットのリストにおける前記少なくとも1つのヒットに起因していた関連性よりも関連性が低い状態で前記修正されたリストの中の前記少なくとも1つのヒットを提示するかの1つを実行するステップと、
前記修正されたリストをユーザに伝送するステップと、を備える、方法。 - 前記メトリックを前記形成するステップは、クエリを前記受取るステップの前に実行される、請求項1に記載の方法。
- 前記第2の尺度を前記形成するステップは、
評判のよいドキュメントのシードセットを形成するステップを備え、評判のよいドキュメントの前記シードセットは他のドキュメントへのリンクを備え、前記第2の尺度を前記形成するステップはさらに、
前記シードセットにおけるドキュメントの各々に信頼値を割当てるステップと、
比例配分された信頼値を、前記シードセットにおけるドキュメントのうちの少なくとも1つによって指し示される複数のドキュメントの各々に割当てるステップとを備える、請求項1に記載の方法。 - シードセットを前記形成するステップは、
複数のドキュメントの各々ごとに、複数のドキュメントの各々に含まれるアウトリンクの数を表わすアウトリンクメトリックをそれぞれ求めるステップと、
アウトリンクメトリックを使用して複数のドキュメントをランク付けするステップと、 複数のドキュメントにおいて最も高くランク付けされたドキュメントのセットを識別するステップと、
最も高くランク付けされたドキュメントのセットの各々の質を評価するステップと、
最も高くランク付けされたドキュメントのセットから不適切であると考えられるドキュメントを除去することによって、最も高くランク付けされたドキュメントの修正されたセットを形成するステップと、
最も高くランク付けされたドキュメントの修正されたセットを使用してシードセットを形成するステップとを備える、請求項3に記載の方法。 - 検索結果セットにおいて検索ヒットをランク付けするための命令を格納する、コンピュータによって実現されるコンピュータ可読記憶媒体であって、命令は、
ユーザからクエリを受取るステップと、
前記クエリに関連するヒットのリストを生成するステップとを実行するための命令を含み、
前記ヒットのリストの各々のヒットは前記クエリに関連し、
前記命令はさらに、少なくとも1つのヒットにメトリックを関連付けるステップを実行するための命令を含み、前記メトリックは、前記少なくとも1つのヒットの前記クエリとの関連性を人為的に高める前記少なくとも1つのヒットへのリンクを含むブーストドキュメントの数を表わし、前記メトリックは、前記少なくとも1つのヒットについての信頼値及びリンクベースポピュラリティ値に少なくとも部分的に基づくものであり、前記命令はさらに、
前記少なくとも1つのヒットについてリンクベースのポピュラリティ値の第1の尺度を形成するステップであって、前記第1の尺度は、前記少なくとも1つのヒットのリンクポピュラリティを表わすステップと、
前記少なくとも1つのヒットについて信頼度の第2の尺度を形成するステップであって、前記第2の尺度は、前記少なくとも1つのヒットが評判のよいドキュメントである可能性を示すステップと、
前記第1の尺度および前記第2の尺度を備える組合せに少なくとも部分的に基づいて前記メトリックを形成するステップであって、前記組合せは、前記第1の尺度と前記第2の尺度との間の差を表わすステップと、
前記メトリックが閾値より大きいかどうかを判断するステップと、
修正されたリストを形成するために前記ヒットのリストを処理するステップであって、前記メトリックが前記閾値より大きいと判断されたことに応答して、前記少なくとも1つのヒットを前記修正されたリストから除外するか、前記ヒットのリストにおける前記少なくとも1つのヒットに起因していた関連性よりも関連性が低い状態で前記修正されたリストの中の前記少なくとも1つのヒットを提示するかの1つを実行するための命令を含み、前記命令はさらに、
前記修正されたリストをユーザに伝送するステップを実行するための命令を含む、コンピュータ可読記憶媒体。 - 前記メトリックを前記形成するステップは、クエリを前記受取るステップの前に実行される、請求項5に記載のコンピュータ可読記憶媒体。
- 前記第2の尺度を前記形成するステップは、
評判のよいドキュメントのシードセットを形成するステップを備え、評判のよいドキュメントの前記シードセットは他のドキュメントへのリンクを備え、前記第2の尺度を前記形成するステップはさらに、
前記シードセットにおけるドキュメントの各々に信頼値を割当てるステップと、
比例配分された信頼値を、前記シードセットにおけるドキュメントのうちの少なくとも1つによって指し示される複数のドキュメントの各々に割当てるステップとを備える、請求項5に記載のコンピュータ可読記憶媒体。 - シードセットを前記形成するステップは、
複数のドキュメントの各々ごとに、複数のドキュメントの各々に含まれるアウトリンクの数を表わすアウトリンクメトリックをそれぞれ求めるステップと、
アウトリンクメトリックを使用して複数のドキュメントをランク付けするステップと、 複数のドキュメントにおいて最も高くランク付けされたドキュメントのセットを識別するステップと、
最も高くランク付けされたドキュメントのセットの各々の質を評価するステップと、
最も高くランク付けされたドキュメントのセットから不適切であると考えられるドキュメントを除去することによって、最も高くランク付けされたドキュメントの修正されたセットを形成するステップと、
最も高くランク付けされたドキュメントの修正されたセットを使用してシードセットを形成するステップとを備える、請求項7に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62329504P | 2004-10-28 | 2004-10-28 | |
US60/623,295 | 2004-10-28 | ||
US11/198,471 | 2005-08-04 | ||
US11/198,471 US7533092B2 (en) | 2004-10-28 | 2005-08-04 | Link-based spam detection |
PCT/US2005/038619 WO2006049996A2 (en) | 2004-10-28 | 2005-10-26 | Link-based spam detection |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008519328A JP2008519328A (ja) | 2008-06-05 |
JP2008519328A5 JP2008519328A5 (ja) | 2008-09-11 |
JP4908422B2 true JP4908422B2 (ja) | 2012-04-04 |
Family
ID=35705210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007539077A Active JP4908422B2 (ja) | 2004-10-28 | 2005-10-26 | リンクベースのスパム検出 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7533092B2 (ja) |
EP (1) | EP1817697A2 (ja) |
JP (1) | JP4908422B2 (ja) |
KR (1) | KR101230687B1 (ja) |
CN (1) | CN101180624B (ja) |
HK (1) | HK1115930A1 (ja) |
WO (1) | WO2006049996A2 (ja) |
Families Citing this family (82)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7466663B2 (en) | 2000-10-26 | 2008-12-16 | Inrotis Technology, Limited | Method and apparatus for identifying components of a network having high importance for network integrity |
US7743045B2 (en) * | 2005-08-10 | 2010-06-22 | Google Inc. | Detecting spam related and biased contexts for programmable search engines |
US20070038614A1 (en) * | 2005-08-10 | 2007-02-15 | Guha Ramanathan V | Generating and presenting advertisements based on context data for programmable search engines |
US7693830B2 (en) | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
US7716199B2 (en) * | 2005-08-10 | 2010-05-11 | Google Inc. | Aggregating context data for programmable search engines |
US8125922B2 (en) * | 2002-10-29 | 2012-02-28 | Searchbolt Limited | Method and apparatus for generating a ranked index of web pages |
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US20060069667A1 (en) * | 2004-09-30 | 2006-03-30 | Microsoft Corporation | Content evaluation |
US7533092B2 (en) * | 2004-10-28 | 2009-05-12 | Yahoo! Inc. | Link-based spam detection |
US7634810B2 (en) * | 2004-12-02 | 2009-12-15 | Microsoft Corporation | Phishing detection, prevention, and notification |
US20060123478A1 (en) * | 2004-12-02 | 2006-06-08 | Microsoft Corporation | Phishing detection, prevention, and notification |
US20110197114A1 (en) * | 2004-12-08 | 2011-08-11 | John Martin | Electronic message response and remediation system and method |
US7962510B2 (en) * | 2005-02-11 | 2011-06-14 | Microsoft Corporation | Using content analysis to detect spam web pages |
US8086605B2 (en) * | 2005-06-28 | 2011-12-27 | Yahoo! Inc. | Search engine with augmented relevance ranking by community participation |
US20070078939A1 (en) * | 2005-09-26 | 2007-04-05 | Technorati, Inc. | Method and apparatus for identifying and classifying network documents as spam |
US20090299819A1 (en) * | 2006-03-04 | 2009-12-03 | John Stannard Davis, III | Behavioral Trust Rating Filtering System |
US7580931B2 (en) * | 2006-03-13 | 2009-08-25 | Microsoft Corporation | Topic distillation via subsite retrieval |
WO2007123416A1 (en) * | 2006-04-24 | 2007-11-01 | Telenor Asa | Method and device for efficiently ranking documents in a similarity graph |
US7634476B2 (en) * | 2006-07-25 | 2009-12-15 | Microsoft Corporation | Ranking of web sites by aggregating web page ranks |
US20080033797A1 (en) * | 2006-08-01 | 2008-02-07 | Microsoft Corporation | Search query monetization-based ranking and filtering |
US20080126331A1 (en) * | 2006-08-25 | 2008-05-29 | Xerox Corporation | System and method for ranking reference documents |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
US20080114753A1 (en) * | 2006-11-15 | 2008-05-15 | Apmath Ltd. | Method and a device for ranking linked documents |
US20080147669A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Detecting web spam from changes to links of web sites |
US7885952B2 (en) * | 2006-12-20 | 2011-02-08 | Microsoft Corporation | Cloaking detection utilizing popularity and market value |
US7693833B2 (en) * | 2007-02-01 | 2010-04-06 | John Nagle | System and method for improving integrity of internet search |
US8595204B2 (en) * | 2007-03-05 | 2013-11-26 | Microsoft Corporation | Spam score propagation for web spam detection |
US7680851B2 (en) | 2007-03-07 | 2010-03-16 | Microsoft Corporation | Active spam testing system |
US8938463B1 (en) | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
US8694374B1 (en) * | 2007-03-14 | 2014-04-08 | Google Inc. | Detecting click spam |
US7756987B2 (en) * | 2007-04-04 | 2010-07-13 | Microsoft Corporation | Cybersquatter patrol |
US20080270549A1 (en) * | 2007-04-26 | 2008-10-30 | Microsoft Corporation | Extracting link spam using random walks and spam seeds |
US7930303B2 (en) * | 2007-04-30 | 2011-04-19 | Microsoft Corporation | Calculating global importance of documents based on global hitting times |
US7853589B2 (en) * | 2007-04-30 | 2010-12-14 | Microsoft Corporation | Web spam page classification using query-dependent data |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
US7788254B2 (en) * | 2007-05-04 | 2010-08-31 | Microsoft Corporation | Web page analysis using multiple graphs |
US7941391B2 (en) | 2007-05-04 | 2011-05-10 | Microsoft Corporation | Link spam detection using smooth classification function |
US9430577B2 (en) * | 2007-05-31 | 2016-08-30 | Microsoft Technology Licensing, Llc | Search ranger system and double-funnel model for search spam analyses and browser protection |
US7873635B2 (en) * | 2007-05-31 | 2011-01-18 | Microsoft Corporation | Search ranger system and double-funnel model for search spam analyses and browser protection |
US8667117B2 (en) * | 2007-05-31 | 2014-03-04 | Microsoft Corporation | Search ranger system and double-funnel model for search spam analyses and browser protection |
US8244737B2 (en) * | 2007-06-18 | 2012-08-14 | Microsoft Corporation | Ranking documents based on a series of document graphs |
US8438189B2 (en) * | 2007-07-23 | 2013-05-07 | Microsoft Corporation | Local computation of rank contributions |
US8694511B1 (en) | 2007-08-20 | 2014-04-08 | Google Inc. | Modifying search result ranking based on populations |
US8041338B2 (en) * | 2007-09-10 | 2011-10-18 | Microsoft Corporation | Mobile wallet and digital payment |
US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US20090177690A1 (en) * | 2008-01-03 | 2009-07-09 | Sinem Guven | Determining an Optimal Solution Set Based on Human Selection |
US8219549B2 (en) * | 2008-02-06 | 2012-07-10 | Microsoft Corporation | Forum mining for suspicious link spam sites detection |
US8010482B2 (en) * | 2008-03-03 | 2011-08-30 | Microsoft Corporation | Locally computable spam detection features and robust pagerank |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US20090307191A1 (en) * | 2008-06-10 | 2009-12-10 | Li Hong C | Techniques to establish trust of a web page to prevent malware redirects from web searches or hyperlinks |
EP2169568A1 (en) | 2008-09-17 | 2010-03-31 | OGS Search Limited | Method and apparatus for generating a ranked index of web pages |
US7974970B2 (en) * | 2008-10-09 | 2011-07-05 | Yahoo! Inc. | Detection of undesirable web pages |
US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
US8615514B1 (en) | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
US8738635B2 (en) * | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
US8707441B1 (en) * | 2010-08-17 | 2014-04-22 | Symantec Corporation | Techniques for identifying optimized malicious search engine results |
US8874566B2 (en) | 2010-09-09 | 2014-10-28 | Disney Enterprises, Inc. | Online content ranking system based on authenticity metric values for web elements |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
CN102214245B (zh) * | 2011-07-12 | 2013-09-11 | 厦门大学 | 基于关键词共现的研究热点图论分析方法 |
CN102222115B (zh) * | 2011-07-12 | 2013-09-11 | 厦门大学 | 基于关键词共现的研究热点边连通度分析方法 |
CN102571768B (zh) * | 2011-12-26 | 2014-11-26 | 北京大学 | 一种钓鱼网站检测方法 |
CN102591965B (zh) * | 2011-12-30 | 2014-07-09 | 奇智软件(北京)有限公司 | 一种黑链检测的方法及装置 |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9002832B1 (en) | 2012-06-04 | 2015-04-07 | Google Inc. | Classifying sites as low quality sites |
US9183499B1 (en) | 2013-04-19 | 2015-11-10 | Google Inc. | Evaluating quality based on neighbor features |
CN103345499A (zh) * | 2013-06-28 | 2013-10-09 | 宇龙计算机通信科技(深圳)有限公司 | 一种搜索引擎的搜索结果处理方法及装置 |
CN103412922B (zh) * | 2013-08-12 | 2017-02-08 | 曙光信息产业股份有限公司 | 一种数据查询处理方法 |
US20170046376A1 (en) * | 2015-04-03 | 2017-02-16 | Yahoo! Inc. | Method and system for monitoring data quality and dependency |
CN105373598B (zh) * | 2015-10-27 | 2017-03-15 | 广州神马移动信息科技有限公司 | 作弊站点识别方法及装置 |
CN108304395B (zh) * | 2016-02-05 | 2022-09-06 | 北京迅奥科技有限公司 | 网页作弊检测 |
CN108984630B (zh) * | 2018-06-20 | 2021-08-24 | 天津大学 | 复杂网络中节点重要性在垃圾网页检测中的应用方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216533A1 (en) * | 2004-03-29 | 2005-09-29 | Yahoo! Inc. | Search using graph colorization and personalized bookmark processing |
US7533092B2 (en) * | 2004-10-28 | 2009-05-12 | Yahoo! Inc. | Link-based spam detection |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4167652A (en) * | 1974-10-17 | 1979-09-11 | Telefonaktiebolaget L M Ericsson | Method and apparatus for the interchanges of PCM word |
US7082426B2 (en) * | 1993-06-18 | 2006-07-25 | Cnet Networks, Inc. | Content aggregation method and apparatus for an on-line product catalog |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6728752B1 (en) * | 1999-01-26 | 2004-04-27 | Xerox Corporation | System and method for information browsing using multi-modal features |
US6678681B1 (en) * | 1999-03-10 | 2004-01-13 | Google Inc. | Information extraction from a database |
US6985431B1 (en) * | 1999-08-27 | 2006-01-10 | International Business Machines Corporation | Network switch and components and method of operation |
US6404752B1 (en) * | 1999-08-27 | 2002-06-11 | International Business Machines Corporation | Network switch using network processor and methods |
US6529903B2 (en) * | 2000-07-06 | 2003-03-04 | Google, Inc. | Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query |
US6865575B1 (en) * | 2000-07-06 | 2005-03-08 | Google, Inc. | Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query |
US20040193503A1 (en) * | 2000-10-04 | 2004-09-30 | Eder Jeff Scott | Interactive sales performance management system |
US7197470B1 (en) * | 2000-10-11 | 2007-03-27 | Buzzmetrics, Ltd. | System and method for collection analysis of electronic discussion methods |
US20040236673A1 (en) * | 2000-10-17 | 2004-11-25 | Eder Jeff Scott | Collaborative risk transfer system |
CA2323883C (en) * | 2000-10-19 | 2016-02-16 | Patrick Ryan Morin | Method and device for classifying internet objects and objects stored oncomputer-readable media |
US8509086B2 (en) * | 2001-06-20 | 2013-08-13 | Arbor Networks, Inc. | Detecting network misuse |
US7089252B2 (en) * | 2002-04-25 | 2006-08-08 | International Business Machines Corporation | System and method for rapid computation of PageRank |
US20040002988A1 (en) * | 2002-06-26 | 2004-01-01 | Praveen Seshadri | System and method for modeling subscriptions and subscribers as data |
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US20060064411A1 (en) * | 2004-09-22 | 2006-03-23 | William Gross | Search engine using user intent |
US20060085391A1 (en) * | 2004-09-24 | 2006-04-20 | Microsoft Corporation | Automatic query suggestions |
EP1817708A4 (en) * | 2004-10-18 | 2014-08-27 | Wellstat Vaccines Llc | SYSTEMS AND METHODS FOR OBTAINING, STORING, PROCESSING AND USING IMMUNOLOGICAL INFORMATION RELATING TO AN INDIVIDUAL OR A POPULATION |
-
2005
- 2005-08-04 US US11/198,471 patent/US7533092B2/en not_active Expired - Fee Related
- 2005-10-26 JP JP2007539077A patent/JP4908422B2/ja active Active
- 2005-10-26 KR KR1020077011999A patent/KR101230687B1/ko active IP Right Grant
- 2005-10-26 EP EP05821001A patent/EP1817697A2/en not_active Ceased
- 2005-10-26 WO PCT/US2005/038619 patent/WO2006049996A2/en active Application Filing
- 2005-10-26 CN CN2005800372291A patent/CN101180624B/zh not_active Expired - Fee Related
-
2008
- 2008-10-23 HK HK08111675.1A patent/HK1115930A1/xx not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216533A1 (en) * | 2004-03-29 | 2005-09-29 | Yahoo! Inc. | Search using graph colorization and personalized bookmark processing |
US7533092B2 (en) * | 2004-10-28 | 2009-05-12 | Yahoo! Inc. | Link-based spam detection |
Also Published As
Publication number | Publication date |
---|---|
KR20070085477A (ko) | 2007-08-27 |
HK1115930A1 (en) | 2008-12-12 |
CN101180624B (zh) | 2012-05-09 |
JP2008519328A (ja) | 2008-06-05 |
CN101180624A (zh) | 2008-05-14 |
KR101230687B1 (ko) | 2013-02-07 |
WO2006049996A3 (en) | 2007-09-27 |
US7533092B2 (en) | 2009-05-12 |
EP1817697A2 (en) | 2007-08-15 |
WO2006049996A2 (en) | 2006-05-11 |
US20060095416A1 (en) | 2006-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4908422B2 (ja) | リンクベースのスパム検出 | |
US11017047B2 (en) | Establishing search results and deeplinks using trails | |
JP5114380B2 (ja) | 検索結果の関連性の再ランク付けおよびその増強 | |
US20080244428A1 (en) | Visually Emphasizing Query Results Based on Relevance Feedback | |
US20090157643A1 (en) | Semi-supervised part-of-speech tagging | |
US20090259646A1 (en) | Method for Calculating Score for Search Query | |
US20080114753A1 (en) | Method and a device for ranking linked documents | |
US9411895B2 (en) | Personalized deeplinks for search results | |
US20070094250A1 (en) | Using matrix representations of search engine operations to make inferences about documents in a search engine corpus | |
JP2009528619A (ja) | ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること | |
US20080091672A1 (en) | Process for analyzing interrelationships between internet web sited based on an analysis of their relative centrality | |
Baraglia et al. | Suggest: A web usage mining system | |
KR100557874B1 (ko) | 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 | |
US7844602B2 (en) | Method and system for establishing document relevance | |
US7886217B1 (en) | Identification of web sites that contain session identifiers | |
JP2010108363A (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
US20070079229A1 (en) | Method and system for automatically determining the server-side technology underlying a dynamic web site | |
US7490082B2 (en) | System and method for searching internet domains | |
US8117205B2 (en) | Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric | |
JP6749865B2 (ja) | 情報収集装置、および、情報収集方法 | |
US8930353B2 (en) | System and method for reflective searching of previous search results | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Bute et al. | Evaluating search effectiveness of some selected search engines | |
Mourad et al. | In-Depth Métan-Search Engine | |
Devi | A Novel Approach on Focused Crawling With Anchor Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080717 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080717 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090916 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090929 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110228 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110531 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111219 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4908422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |