JP2007528520A - 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム - Google Patents

検索エンジンに登録されたウェブサイトを管理するための方法およびシステム Download PDF

Info

Publication number
JP2007528520A
JP2007528520A JP2006508534A JP2006508534A JP2007528520A JP 2007528520 A JP2007528520 A JP 2007528520A JP 2006508534 A JP2006508534 A JP 2006508534A JP 2006508534 A JP2006508534 A JP 2006508534A JP 2007528520 A JP2007528520 A JP 2007528520A
Authority
JP
Japan
Prior art keywords
website
predetermined
page
registered
html file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006508534A
Other languages
English (en)
Inventor
グァン キム、ヨン
ヨン ペ、サン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR10-2004-0038426A external-priority patent/KR100458458B1/ko
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2007528520A publication Critical patent/JP2007528520A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、インターネット上で所定のウェブサイトに対する情報を提供する検索エンジンに関する。 本発明の好ましい一実施例による検索エンジン管理システムにおける検索エンジンに登録されたウェブサイトを管理するための方法は、所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールは、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、前記ウェブサイトのウェブページを構成するHTMLファイルを抽出するステップと、抽出された前記HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、前記カウンタ値が選定された値以上であるかを判断するステップと、前記カウンタ値が選定された値以上の場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、を含むことを特徴とする。

Description

本発明は、インターネット上で所定のウェブサイトに対する情報を提供する検索エンジンに関し、さらに詳しくは、検索エンジンに登録されている所定のウェブサイトに対する情報を分析し、所定のスパムサイトまたはアダルトサイトを追跡することによって検索エンジンユーザに不必要な情報を提供しないようにするための登録されたウェブサイトを管理するための方法に関する。
アルタビスタ(登録商標)(http://www.altavista.com)、ライコス(http://www.lycos.com)、ヤフー(登録商標)(http://www.yahoo.com)などのような通常の検索エンジンは、ウェブサイト情報を所定の基準に従って分類および格納して管理するためのデータベースと、ウェブ上を持続的に巡回しながら新しいウェブサイト情報を機械的に収集するためのソフトウェアで実装される検索ロボット(robot)と、収集されたデータをデータベース化して前記検索エンジンを用いる利用者が検索可能にする検索エンジンソフトウェアとから構成されている。
上述した検索エンジンサービスを提供するための全体システムのブロック図が図1に示されている。図1を参照すると、ユーザはユーザ端末機110を介し、インターネットを介して検索エンジンサーバ150に接続される。ユーザが所定の検索語を入力すると、検索エンジンサーバ150は、検索エンジンソフトウェア140に該当検索語に対するウェブサイト情報を問合せ(クエリ:query)し、検索エンジンソフトウェア140は、該当データベース130を検索して所定のウェブサイト情報を知らせる。検索ロボット120は、前記で説明したように、ウェブ上を持続的に巡回しながらウェブサーバ160から新しいウェブサイト情報を機械的に収集するためのソフトウェアで実装されるエンティティ(entity)である。検索ロボット120は、ネットワーク上にてHTML(ハイパーテキストマークアップ言語:Hyper Text Markup Language)で記述された文章を探索し、記載されているリンク先を構文解析(parsing)してネットワーク上に存在する多数のウェブサイトからデータを収集する。このように、検索ロボット120によって収集されたデータはデータベース化される。ここで、データベース化とは、ウェブサイトに位置する所定の情報に対して形態素解析(morphological analysis)を実行し、インデックステーブルを作成してデータベース130に格納する一連の手順を意味する。データベース130は、検索ロボット120によって収集されたすべてのウェブサイト情報を格納するためのものである。検索エンジンソフトウェア140は、検索結果をユーザに示す機能を有する。該ソフトウェアは、データベース130に格納された多数のページを検索し、特定アルゴリズムによって決定された配列手順に従って検索用語と一致する文字列を含んでいるウェブサイトのリストを検索サービス利用者に提供するように動作する。上記のような従来の検索エンジンは、次のような方法でウェブサイトに対する情報を検索エンジンに登録し、前記情報をユーザに提供する。
(1)上述したように、検索ロボットを用いて所定の情報を収集し、収集された情報を専門サーファ(surfer)の検収を経て前記ウェブサイトを検索エンジンに登録する。
(2)登録しようとするウェブサイトの主題によって分類されたディレクトリを選択し、前記選択されたディレクトリに対して前記ウェブサイト登録申請をし、専門サーファの検収を経て検索エンジンに登録される。検索エンジンによるこのようなディレクトリ登録の場合には、所定の登録料を受けて登録に要される時間を削減するサービスを提供したりもする。
前記の方法などによって、検索エンジンに登録されたウェブサイトは、所定の情報を検索しようとするユーザの検索語入力によって統合ウェブ検索またはディレクトリ検索などの多様な検索方式に従って検索されてユーザに提供される。前記統合ウェブ検索は、他の用語で“単語別検索”とも言われる。この検索方法は、データベースにすべてのウェブサイトのユニフォーム・リソース・ロケータ(URL)を格納し、特定キーワード(keyword)を入力することによって所望する情報を探す方法である。
上述した従来技術によるウェブサイトの検索サービス提供方法には次のような問題点がある。
(1)検索エンジンに登録されたウェブサイトの中で、初めに検索エンジンに登録される当時のウェブサイトに含まれたコンテンツと、登録以後にウェブサイトに含まれたコンテンツが異なる場合がある。例えば、初めの登録当時には所定のコンテンツを含んだウェブサイトであったが、時間の経過に伴って次第に毀損し、多数のポップアップウィンドウを生成するスパムサイトに変更するという問題点がある。このような多数のポップアップウィンドウを生成するスパムサイトの場合には、主にアダルトコンテンツを含んでいる場合が多く、該当URLへの移動時は勿論、該当URLを出る場合に同時多発的に数個から数十個のポップアップウィンドウを生成することによってユーザに多くの不便を与えている。
(2)また、大部分の検索エンジン運営業社においては、通常のキーワードに対する一般ウェブサイト登録費用とアダルトコンテンツに関連するキーワードに対するアダルトウェブサイト登録の場合、請求する登録費用を相違させる場合が多い。これは、一般ウェブサイトよりアダルトウェブサイトの場合が実定法違反の可能性が高いため、検索エンジン運営者の立場においてもこのようなアダルトウェブサイトの登録管理に対する負担を抱いているためであるが、このような点を悪用し、登録時に一般コンテンツと通常の一般キーワードを用いて検索エンジンに登録し、登録以後にウェブサイトのHTMLソースを変更して該当サイトでアダルトコンテンツを提供する場合は勿論、該当サイトとリンクされたサイトでアダルトコンテンツを提供するなどの問題点がある。このようなサイトを“変質サイト”と定義する。このような変質サイトは、検索エンジンユーザの不便申告または専門サーファなどの人為的な検索なしで発見されることは非常に困難であるという問題点がある。
上述した問題点を解決するための解決策として、ユーザの告発申告または専門サーファなどの専門人力を介した登録ウェブサイトの持続的なモニタリングが必要であるが、このような従来技術による解決方法は、上述した問題点に対する究極的な解決策にならないことは言うまでもなく、このような問題点をインターネット上で所定のアルゴリズムを介して自動的に実行される方法が導出されるとしたら、上述した問題点を一挙に解決することができる有用な手段となるであろう。
本発明による検索エンジンに登録されたウェブサイトを管理するための方法は、上述した従来技術の問題点を解決するためのものであって、上述した多数のポップアップウィンドウを生成するスパムサイトまたは変質サイトを所定のアルゴリズムを用いて自動的に検出できるようにすることによって、検索エンジンユーザに不便をもたらすことのない検索エンジンサービスを提供することをその目的とする。
また、スパムサイトまたは変質サイトを自動的に検出し、検出されたスパムサイトまたは変質サイト運営者に対する制裁措置を加えることによって、検索エンジンで登録されたウェブサイト自体の自浄が強化されるようにすることをさらに他の目的とする。
また、スパムサイトまたは変質サイトの検出および検出されたスパムサイトまたは変質サイトに対する警告などの制裁措置を所定のアルゴリズムによって自動的に実行することによって、上述したサイトの検出のために要される多数の人力資源を節約することをさらに他の目的とする。
本発明の好ましい一実施例による検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法は、所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールは、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、前記ウェブサイトのウェブページを構成するハイパーテキストマークアップ言語(HTML)ファイルを抽出するステップと、抽出された前記HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、前記カウンタ値が選定された値以上であるかを判断するステップと、前記カウンタ値が選定された値以上の場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、を含むことを特徴とする。
また、所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、前記ウェブサイトの前記ウェブページの中で最上位ページである第1ページのハイパーテキストマークアップ言語(HTML)ファイルを抽出するステップと、前記第1ページで抽出されたハイパーテキストマークアップ言語(HTML)ファイルを分析して前記第1ページがスパムページであるかを判断するステップと、前記第1ページがスパムページと判断された場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、を含み、前記第1ページがスパムページであるかを判断する前記ステップは、抽出された前記HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、前記検出された関数によって生成されるポップアップウィンドウの個数によって所定のカウンタ値を所定値だけ増加させるステップと、前記カウンタ値が選定された値以上であるかを判断するステップと、前記カウンタ値が選定された値以上の場合、前記第1ページをスパムページと判断するステップと、を含むことを特徴とする。
本明細書にて用いられるスパムサイトとは、ウェブページのHTMLファイルなどに多様な方法で所定の関数などを挿入し、該当URLを訪問する時または該当URLを出る場合、所定の個数のポップアップウィンドウを生成するウェブサイトを意味する。また、ウェブサイトを構成する1つ以上のウェブページに対して、本発明によるスパムサイト判断方法によってスパムと判断されたウェブページをスパムページと命名する。
また、本明細書で用いられる変質サイトとは、所定のウェブページを介して提供されるコンテンツがアダルトコンテンツであるウェブサイトであって、登録時にアダルトサイトとして登録されない、すなわち登録以後にアダルトサイトに変質したウェブサイトを意味する。なお、アダルトサイトとは19歳未満の青少年に非常に有害なコンテンツを含んでいるウェブサイトを意味する。
本発明による検索エンジンに登録されたウェブサイトを管理するための方法によると、多数のポップアップウィンドウを生成するスパムサイトまたは変質サイトを所定のアルゴリズムを用いて自動的に検出することができるため、エンジンユーザに不便をもたらすことのない検索エンジンサービスを提供することができるという効果を得ることができる。
また、スパムサイトまたは変質サイトを自動的に検出し、検出されたスパムサイトまたは変質サイト運営者に対する制裁措置を加えることができるため、検索エンジンで登録されたウェブサイト自体の自浄が強化されるという効果を得ることができる。
また、スパムサイトまたは変質サイトの検出および検出されたスパムサイトまたは変質サイトに対する警告などの制裁措置を所定のアルゴリズムによって自動的に実行されることによって、上述したサイトの検出のために要される多数の人力資源を節約することができるという効果を得ることができる。
以下、添付された図面を参照して、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理する方法およびそのシステムに対して詳述する。
図2は、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するためのシステムを示した構成ブロック図である。図2を参照すると、本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムは、インターフェイスモジュール201と、ウェブサイト登録モジュール202と、ウェブサイト管理モジュール203と、ウェブサイト情報データベース204と、ウェブサイト分析モジュール205と、検索ロボット207とから構成される。
また、本発明の好ましい一実施例によると、検索エンジンに登録されたウェブサイトを管理するためのシステムは、ウェブサイトの登録者に所定のメッセージを送信するためのメールサーバ208、またはSMS(ショートメッセージサービス)サーバ209を含む。このようなメールサーバ208とSMSサーバ209は、検索エンジンサービス提供システム内に含まれたり、第3者が運営するシステム内に位置したりする。また、図2には、インターフェイスモジュール201、多種のモジュール、およびメールサーバ208またはSMSサーバ209が別個のエンティティ(実体)であるように示されているが、これは説明の便宜のためにそうしただけであり、同一のエンティティであってよい。また、前記図2に示された構成要素は、物理的にも同一の場所に位置していてよく、他の実施例によると物理的に離隔しているものもある。
まず、インターフェイスモジュール201は、所定のウェブサイトを検索エンジンに登録しようとする登録者側に備えられたコンピュータ端末機と検索エンジンの登録管理システムとの間のデータ伝送および物理的伝送装備間のインターフェイス役割を担当するモジュールである。
ウェブサイト登録モジュール202は、前記登録者から所定のウェブサイトに対する登録申請を受信し、ウェブサイト登録申請に含まれたウェブサイトに対する情報データを収集および分類する機能を担当する。このようなウェブサイト登録モジュール202は、ウェブサイト登録に対する所定の課金を実行する課金モジュール(図示せず)をさらに含むこともあり、課金モジュールは、登録を所望するウェブサイトの種類(一般的な内容を含んでいる一般サイトまたはアダルトコンテンツを含んでいるアダルトサイト)によって、その課金内訳を相違して適用するように動作する。
ウェブサイト管理モジュール203は、本発明によるウェブサイトの登録管理を総括するモジュールであって、検索ロボット207が収集したウェブサイトに対する情報に基づいて前記ウェブサイトが選定された基準に適合して運営されているかを判断し、非正常的に運営されるウェブサイト、すなわちスパムまたは変質サイトであると判断される場合、前記登録者に対して所定の措置を自動的に取るように制御する機能を担当する。また、ウェブサイト管理モジュール203は、メールサーバ208やSMSサーバ209と連動することによって、前記スパムまたは変質サイトの登録者に対して電子メールを送信したり、前記登録者の移動通信端末機にSMSを伝送することによって、ウェブサイトの不正運営に対する警告をする。
ウェブサイト情報データベース204は、登録されたウェブサイトに対する情報を分類して記録する役割を担当する。ウェブサイト情報データベース204には、ウェブサイトのユニフォーム・リソース・ロケータ(URL)、該当ウェブサイトのキーワード、該当ウェブサイトの登録者情報(登録者の名前、住所、電子メールアドレス、移動通信端末機番号など)、該当ウェブサイトのディレクトリ情報などの多様な情報が各フィールド別に分類および格納されている。本発明によるウェブサイト情報データベース204に格納された情報は、システム管理者および前記ウェブサイトの登録者によって修正可能であり、ウェブサイトのコンテンツが変わる場合、登録者が直接修正しなくても検索ロボット207が収集したデータの分析結果(該当ウェブサイトのURLに対応する新しいキーワードなど)などによって自動的に該当情報が更新されるように動作する。
ウェブサイト分析モジュール205は、検索ロボット207が収集したウェブサイトの情報を分析する役割を担当する。検索ロボット207が収集するデータの種類と分析方法に関しては下記図3に対する説明と共に詳述する。
また、ウェブサイト分析モジュール205は、前記ウェブサイトを構成するウェブページの中で最上位の第1ページのHTMLファイルを抽出し、ウェブサイト管理モジュール203は、前記第1ページがスパムページの場合、前記ウェブサイトをスパムサイトと判断するように動作する。この時、前記第1ページがスパムページでないと判断された場合、ウェブサイト分析モジュール205は、前記第1ページの下位ページである1つ以上の第2ページのHTMLファイルを抽出し、抽出されたHTMLファイルを分析し、ウェブサイト管理モジュール203は、前記第2ページがスパムページであるかを判断し、前記第2ページの総個数とスパムページと判断された第2ページの個数を演算してスパムページの比率情報を算出し、前記スパムページの比率情報が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作する。
このように、1つ以上のウェブページで構成されるウェブサイトに対してスパムサイトであるかを判断する方法に対しては、図7aおよび図7bを参照して後述する。
上述した本発明の一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムを構成する各構成要素は、説明の便宜のために単純に機能的に区分されただけであって、各構成要素の実際の物理的位置とは無関係である。また、上述したモジュールは、ハードウェアで実装されたり、特定コードを用いたソフトウェアとして実装されたりしてよいことは当業者にとって自明である。
<スパムページ検出方法>
図3a乃至図3cは、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示す流れ図である。図3a乃至図3cに示された登録されたウェブサイトの管理方法は、登録されたウェブサイトの中から所定のスパムサイトを検出し、該当サイトの運営者に所定の措置を取るようにするものである。以下、図4aおよび図4b、および図7を参照して、図3a乃至図3cに示された本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法に対して詳述する。
図3aないし図3bに示された本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法は次のように実行される。所定のウェブサイトを検索エンジンに登録しようとする登録者は、登録を所望するウェブサイトに対する情報と共にウェブサイト登録申請をする(ステップ301)。前記ウェブサイトに対する情報は、ウェブサイト情報データベースに情報フィールド(登録者の名前、住所、電子メールアドレス、移動通信端末機番号など)別に分類されて記録され(ステップ302)、前記ウェブサイトは検索エンジンに登録される(ステップ303)。このような登録ステップ(ステップ303)はいくつかのルートを介して実行されるが、上述したように、ウェブサイト管理者が検索エンジンに自分のウェブサイトの登録を依頼することによって登録される場合と、検索ロボットがウェブ上を無作為に巡回しながら得たウェブサイト情報を用いてウェブサイトが検索エンジンに登録される場合とがある。前者の場合には、ウェブサイト登録者自身がウェブサイトの主題(例えば“ピカチュウ”、“弁理士試験”など)を決め、前記ウェブサイトの主題と最も近接したカテゴリにウェブサイトの登録を申請し、申請されたウェブサイトに対しては専門サーファの検収を経て所定の条件(ウェブサイトの完成度、登録費用を支払っていない場合には非商業的サイトの要件を充足するか否かなど)を満たすものであると判断される場合に検索エンジンに登録される。本発明による検索エンジンでウェブサイトの登録を管理するための方法においては、検索エンジンに登録されるルートを前記登録者の申請による場合に限定して説明しているが、本発明による検索エンジンでウェブサイトの登録を管理するための方法およびそのシステムは、検索エンジンにウェブサイトが登録される多種多様な方法に対しても同様に適用できる。
ウェブサイトが登録されると、検索エンジンは、検索ロボットを制御して登録されたウェブサイトのウェブページを構成するHTMLファイルを抽出し、抽出されたHTMLファイルを分析して前記HTMLファイルに含まれたポップアップウィンドウ生成を担当する関数を抽出する(ステップ304)。
本発明の一実施例による分析方法は、ウェブサイトのHTMLファイルを分析することによってポップアップウィンドウを生成するための関数を抽出する。
図4aおよび図4bは、図3aのステップ304で実行されるウェブサイトのHTMLファイルを分析し、HTMLファイルに含まれたポップアップウィンドウを生成するための関数を含む多様な一例を示す図である。以下、図4aおよび図4bを参照して、本発明による検索エンジンに登録されたウェブサイトを管理するための方法においてHTMLファイルの分析がどのように実行されるかに対して詳述する。
図4aは、所定のウェブサイトを出る場合にポップアップウィンドウが生成されるようにするスパムサイトのHTMLファイルの一例を示した図である。図4aを参照すると、スクリプト言語としては、JAVA(登録商標)スクリプト言語で表現されたHTMLファイルの一例が示されている。スクリプト内に定義されたleave()関数は、本HTMLファイルを含むウェブサイトを出る時、“www.yourserver.com/page−to−open.html”として特定されるポップアップウィンドウが生成されるようにする。関数内のtoolbar、menubar、location、height、widthなどの変数は、生成されるポップアップウィンドウのサイズまたは位置などを指定するためのものである。
図4bは、所定のウェブサイトを訪問した時、ポップアップウィンドウが生成されるようにするスパムサイトのHTMLファイルの一例を示した図である。図4bを参照すると、スクリプト言語としては、JAVA(登録商標)スクリプト言語で表現されたHTMLファイルの一例が示されている。スクリプト内に定義されたTripod Show Popup関数は、図4bに示されたHTMLファイルを含むウェブサイトを訪問した時、“http://jhkimg.hihome.com/”として特定されるポップアップウィンドウが生成されるようにする。関数内の各種変数は、生成されるポップアップウィンドウのサイズまたは位置を指定するためのものである。
図4aおよび図4bに示されたHTMLファイルの一例以外にも、多様な方法でポップアップウィンドウを生成することができる。すなわち、本発明による検索エンジンに登録されたウェブサイトを管理するための方法では、このように多様な方法でポップアップウィンドウを生成するためのHTMLファイルを分析することによって、図4aおよび図4bに示された一例以外のポップアップウィンドウ生成のためのHTMLファイルを抽出するように実装される。
ステップ304で、ポップアップウィンドウ生成関数を抽出すると共に、本発明の好ましい一実施例によると、多様な方法に分岐して所定のポップアップウィンドウを生成するウェブサイトを分析することができる。
ステップ304で、抽出されたポップアップウィンドウ生成関数を分析し、ポップアップウィンドウ生成関数に含まれているポップアップウィンドウURLを訪問し、前記ポップアップウィンドウのHTMLファイル(第2HTMLファイル)を抽出する(ステップ306)。抽出された第2HTMLファイルを分析して前記第2HTMLファイルに含まれたポップアップウィンドウ生成関数をさらに抽出する(ステップ307)。当業者であれば周知のように、ポップアップウィンドウの属性上、1つのウェブサイトで生成されたポップアップウィンドウが存在する場合、前記ポップアップウィンドウのHTMLファイルでさらに他のポップアップウィンドウを生成すると、ユーザにはこのような連鎖的なポップアップウィンドウがすべて表示されるようになる。従って、該当ウェブサイトで生成するポップアップウィンドウの個数と、前記ポップアップウィンドウによって生成される第2のポップアップウィンドウの個数をすべて含んだものがユーザに表示されるポップアップウィンドウの数となる。このように、該当ウェブサイトのHTMLファイルによって生成されるポップアップウィンドウの個数は勿論、前記ポップアップウィンドウのHTMLファイルによって生成されるポップアップウィンドウの個数をすべて合算し、合算されたポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させる(ステップ305)。
本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法においては、ステップ304で、登録されたHTMLファイルを分析して前記HTMLファイルに含まれたリダイレクト(redirection)タグを抽出し、前記リダイレクトタグに含まれたターゲットURLが生成するポップアップウィンドウの個数まで合算するように動作してもよい。ステップ304で、図3bに分岐して所定のウェブサイトのHTMLファイルに含まれたリダイレクトタグを抽出する(ステップ311)。このようなリダイレクトタグの一例は以下の図6aで詳述する。抽出されたリダイレクトタグを分析し、検索ロボットを制御して前記リダイレクトタグに含まれたターゲットURLの第3HTMLファイルを抽出する(ステップ312)。抽出された第3HTMLファイルを分析して前記第3HTMLファイルに含まれたポップアップウィンドウ生成関数を抽出し(ステップ313)、再び図3aのステップ305に戻る。
ステップ305では、上述したように、(1)該当ウェブサイトで生成されるポップアップウィンドウの個数と、(2)前記ポップアップウィンドウによって生成される第2のポップアップウィンドウの個数と、(3)前記該当のウェブサイトのHTMLファイルに含まれたリダイレクトタグによって移動するターゲットURLとして特定されるウェブサイトのHTMLファイルによって生成される第3のポップアップウィンドウの個数とをすべて合算し、前記合算されたポップアップウィンドウの個数によってカウンタ値を所定値だけ増加させる。
図3cは、本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において生成されるポップアップウィンドウの個数を測定するためのウェブサイトURLのツリー構造を示した面である。図3cを参照すると、所定のウェブサイトA(http://www.test_xxx.com)に連結されているウェブサイトBないしFの一例が示されている。ウェブサイトAのHTMLファイルにポップアップウィンドウであるウェブサイトB(http://www.test2.com)と、ウェブサイトAのHTMLファイルに含まれたリダイレクトタグのターゲットURLであるウェブサイトC(http://www.test3.com)が示されており、ウェブサイトBと連結されたウェブサイトD(http://www.test4.com)と、ウェブサイトDのHTMLファイルに含まれたリダイレクトタグのターゲットURLであるウェブサイトE(http://www.test5.com)と、ウェブサイトDのHTMLファイルに含まれたポップアップウィンドウ生成関数のポップアップウィンドウURLであるウェブサイトF(http://www.test6.com)がそれぞれ示されている。図3cに示されたように、本発明の一実施例によると、1つのウェブサイトAとリンクされたウェブサイトBないしFのHTMLファイルを分析し、ウェブサイトAの訪問時にユーザに表示されるすべてのポップアップウィンドウの個数を測定することが可能である。
ステップ305で、生成されるポップアップウィンドウの個数によってカウンタ値を所定値だけ増加させるようになると、該当カウンタ値が所定値以上であるかを判断する(ステップ308)。本発明の好ましい一実施例によると、前記所定値は3である。前記カウンタ値が所定値以上の場合、該当ウェブサイトは選定された個数以上のポップアップウィンドウを生成する、いわゆる“スパムサイト”と判断され、該当ウェブサイトに対しては図7に示された所定の制裁措置を取るように動作する(ステップ309)。
<アダルトページ検出方法>
図5aないし図5bは、本発明のさらに他の一実施例による検索エンジンで登録されたウェブサイトを管理するために変質ページを検出して該当変質ページに所定の制裁措置を取るための方法を示した流れ図である。
図5aには、このようなアダルトキーワードを選定して所定のアダルトキーワードデータベースを構築するための方法の一例が示されている。
所定のウェブサイトがアダルトサイトであるかを判断するための基準となるアダルトキーワードを選定してアダルトキーワードデータベースを構築する方法は次のステップを含む。まず、1つ以上のアダルトサイトが選定される(ステップ501)。アダルトサイトの選定は、本発明によるウェブサイト登録管理システムの管理者が直接選定したり、本発明によるシステムのデータベース手段で所定のウェブサイトカテゴリ情報フィールドを検索してアダルトサイトとして登録されたウェブサイトの中の1つ以上が自動的に選定されるように設定したりする。選定されたアダルトサイトのウェブページに含まれた文字列を抽出し(ステップ502)、抽出された文字列別に頻度数を記録する(ステップ503)。頻度数を記録するために、抽出された文字列をテーブル形態で記録し、該当文字列が一回抽出されるたびに前記テーブルの頻度数フィールド値を1つずつ増加させる方法を用いる。分析結果、検出された文字列を上述した頻度数に基づいて所定の周期(日別、週別、または月別)ごとに前記記録された文字列をソーティング(並べ替え:sorting)し(ステップ504)、上位に位置した文字列を抽出してこれらをアダルトキーワードとして選定し、これをアダルトキーワードデータベースに格納する(ステップ505)。また、本発明の他の一実施例によると、アダルトキーワード選定時においては、ソーティングをせずに検出された文字列をすべてアダルトキーワードとして選定するように設定することも可能である。この場合、アダルトキーワードではない文字列がアダルトキーワードとして選定される可能性があるが、ソーティングによるアダルトキーワード選定に必要なシステムの負荷加重を防止することができるという効果がある。
図5bおよび図5cには、図5aに示された方法を介して構築されたアダルトキーワードデータベースを用いて所定の変質サイトを検出するための方法の一例が示されている。
図5bに示された本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法は次のように実行される。所定のウェブサイトを検索エンジンに登録しようとする登録者は、登録を所望するウェブサイトに関する情報と共にウェブサイト登録申請をする(ステップ511)。前記ウェブサイトに関する情報は、ウェブサイト情報データベースに情報フィールド(登録者の名前、住所、電子メールアドレス、移動通信端末機番号など)別に分類されて記録され(ステップ512)、前記ウェブサイトは検索エンジンに登録される(ステップ513)。このステップ513は、図3aで詳述した登録ステップ(ステップ303)と同一である。
次に、所定のアダルトキーワードが記録されたアダルトキーワードデータベースを維持する(ステップ514)。前記アダルトキーワードデータベースは、上述した図5aに示された方法によって構築される。
ウェブサイトが登録されると、検索エンジンは検索ロボットを制御し、登録されたウェブサイトのウェブページを構成するHTMLファイルを抽出する(ステップ515)。抽出されたHTMLファイルを分析して前記HTMLファイルに含まれたリダイレクトタグを抽出する(ステップ516)。このようなリダイレクトタグの一例が図6aおよび図6bに示されている。
図6aないし図6bは、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たアダルトサイトのHTMLファイルの一例を示した図である。
図6aはリダイレクトページに含まれた文字列を用いる変質サイトに含まれたHTMLファイルの一例を示した図である。当業者であれば周知のように、リダイレクトは接続されたウェブサイトから新しいウェブサイトへの移動を設定するためのものであって、図6aに示されたHTMLファイルの形態で実装される。図6aの上端に示されたメタ(meta)タグを用いた一例を見ると、メタタグの中のhttp−equiv属性を用いている。前記メタタグは通常、決められた時間(図6aのcontent項目で指定される時間)が経過した後に自動的に他の文書に移動するように設定するためのものであって、主にホームページのアドレスが変更される場合、以前のアドレスに接続したユーザにアドレス変更案内を示しながら、所定時間が経過した時に自動的に新しいアドレスに移動するようにするのに用いられる。図6aの上段に示されたメタタグは“http;//www.sexhouse.com”にリダイレクトするように動作する。また、図6aの中段および下段の場合にも、それぞれself.locationタグおよびlocation.replaceタグなどを用いて現在のウェブページを“http://www.sexhouse.com”にリダイレクトするように動作する。
図6bには、このようなリダイレクトタグが含まれたHTMLファイルの一例が示されている。図6bに示されたHTMLファイルは、実際のアダルトサイトに含まれたHTMLファイルであって、上述したメタタグなどを用いて多数のアダルトサイトへのリダイレクトが実行されるように動作する。図6bに示されたHTMLファイルの一例によると、該当ウェブサイトは“http://www.sexhouse.com/rating.html”、“http://www.porno.com”、“http://www.hardcore.com”、および“http://www.pussy.com”にリダイレクトされる。
抽出されたリダイレクトタグに含まれたターゲットURLを抽出する(ステップ517)。本発明の好ましい一実施例によると、ステップ517で、抽出されたターゲットURLを用いて次の方法で変質サイトであるかを判別する。
まず、前記抽出されたターゲットURL自体に含まれた文字列を分析して変質サイトであるかを判別する。この場合、前記抽出されたターゲットURLの文字列を分析する(ステップ518)。図6aないし図6bに示された変質サイトのHTMLファイルの一例においては、抽出されたターゲットURLは“http://www.sexhouse.com”などであり、前記ターゲットURLで抽出された文字列としては“www”、“sex”または“sexhouse”などである。図6aおよび図6bに示されたHTMLファイルの一例においては、ターゲットURLの文字列として英語が記載されているが、このような文字列としてはハングル(ハングルドメインネーム)または数字である。また、本発明の好ましい一実施例によると、前記文字列は、本発明による検索エンジンに登録されたウェブサイトを管理するための方法が適用されるすべての国の母国語ドメインネームを含む。
次に、前記抽出されたターゲットURLとして特定されるウェブサイトに含まれたHTMLファイルの文字列を分析して変質サイトであるかを判別する。この場合は、ステップ517でターゲットURLを抽出した後、図5dに示された方法によって所定の文字列を抽出する。検索ロボットを制御し、ステップ517で抽出されたターゲットURLとして特定されるウェブサイトを訪問し、前記ウェブサイトに含まれたHTMLファイルを抽出するように制御する(ステップ543)。抽出されたHTMLファイルに含まれた文字列を分析し(ステップ544)、再び図5aのステップ519に戻る。
上述したように、前記ターゲットURL自体に含まれた文字列または前記ターゲットURLとして特定されるウェブサイトのHTMLファイルに含まれた文字列を抽出した後、前記アダルトキーワードデータベースを参照し(ステップ519)、前記アダルトキーワードデータベースに抽出された文字列に対応するアダルトキーワードが記録されているかを検索する(ステップ520)。検索結果、前記文字列に対応するアダルトキーワードがある場合には図5cに分岐し、ない場合には再びステップ515に戻る。本発明による変質サイト判別方法によると、変質サイトであるかを判別するために前記ターゲットURL自体に含まれた文字列を分析する方法を用いたり、前記ターゲットURLとして特定されるウェブサイトのHTMLファイルに含まれた文字列を分析する方法を用いたりして、両方法をハイブリッド方式で併用することによって所定のウェブサイトが変質サイトであるかを判別するように動作する。
図5cを参照すると、ステップ520で、前記文字列に対応するアダルトキーワードがある場合には、前記アダルトキーワードをターゲットURLの文字列に含んでいると判断されたウェブサイトが変質サイトであるかを判断するため、前記ウェブサイト情報データベースを参照して前記ウェブサイトの登録情報を検索する(ステップ522)。上述したように、変質サイトは、従来ウェブサイト登録当時には一般サイトとして登録されたウェブサイトが、登録以後にアダルトサイトに変質された場合を意味するためである。
ウェブサイト情報データベース手段に格納された前記ウェブサイトのウェブサイトカテゴリ情報を検索して前記ウェブサイトがアダルトサイトとして登録されているかを判断(ステップ523)し、アダルトサイトに登録されていないウェブサイトの場合には前記ウェブサイトを変質サイトとして判断する。
ステップ523で、該当ウェブサイトを変質サイトと判断した場合には図7に分岐(ステップ514)して前記ウェブサイトに対して所定の措置を取るようにし、変質サイトではない場合には図5bのステップ505に戻る。
本発明のさらに他の一実施例によると、本発明による検索エンジン管理システムで検索エンジンに登録されたウェブサイトを管理するための方法は、所定のウェブサイトを構成する1つ以上のウェブページに対して該当ウェブページの最上位ページがスパムページである場合、1つ以上の下位ページを含む該当ウェブサイトをスパムサイトと規定するように動作してもよい。これはスパムサイトを決定するための政策的な方法であって、通常、最上位ページがスパムページである場合、該当ウェブサイトがスパムサイトである可能性が高いという統計的な手法を介して得られた結論であり、通常、ユーザが検索エンジンを介して特定ウェブサイトを訪問する最初の画面が最上位ページである場合が多いため、このような最上位ページがスパムページの場合、該当ウェブサイトをスパムサイトと規定するように実装されることが可能である。
図7aは、本発明の一実施例による特定ウェブサイトが1つ以上の上位および下位ウェブページで構成された場合、該当ウェブサイトをスパムサイトと判断する方法を説明するためのウェブページ構成階層図である。
図7aを参照すると、特定ウェブサイト(ドメインネームwww.xxx.com)は4つのサーブページに分割され、各サーブページは1つ以上の下位ウェブページで構成されている。このうち、最上位ページであるwww.xxx.com/intro.htmlに対してHTML文章の抽出を介した本発明によるスパムページ検出方法によって該当ウェブページがスパムページであるかを判断する。この場合、最上位ページであるwww.xxx.com/intro.htmlが本発明によるスパムページ検出方法によってスパムページと判断される場合には、該当ウェブサイト(www.xxx.com)をスパムサイトと判断することができる。
また、本発明によると、最上位ページはスパムページではないが、最上位ページに付属する下位ページの中で一定の比率以上がスパムページの場合、該当ウェブサイトをスパムサイトと判断する。すなわち、www.xxx.comのサブページディレクトリである/adult、/login、/members、および/infoを構成する1つ以上の下位ページの中で選定された比率以上がスパムページの場合、該当ウェブサイトをスパムサイトと判断するように実装されることが可能である。一例として、前記の比率を70%と設定しておいた場合、最上位ページを除外した下位ページの個数が総20個であり、これらそれぞれに対するHTML文章の抽出を介した分析を介して総16個のページがスパムページである場合、前記比率は16/20=0.8となり、該当ウェブサイトは設定された比率である70%以上の下位ページがスパムページで構成されたスパムサイトと判断することが可能である。
このような本発明によるスパムページ判断方法を、添付した図7bを参照して詳しく説明する。
図7bは、本発明による登録されたウェブサイトを管理するための方法において、1つ以上のウェブページで構成されたウェブサイトに対する判断方法の一例を示した流れ図である。
図7bを参照すると、本発明によるスパムサイト判断方法は下記ステップを含んで実行される。
上述したように、ユーザは自分のウェブサイトを所定の検索エンジンに登録する(ステップ701)。本発明による登録ウェブサイト管理システムにおいては、登録されたウェブサイトに対するウェブサイト情報をデータベース手段でフィールド別に記録し格納する(ステップ702)。前記ウェブサイトのウェブページの中で最上位ページである第1ページのHTMLファイルを抽出し(ステップ703)、抽出されたHTMLファイルを分析する(ステップ704)。
前記抽出されたHTMLファイルを分析して前記第1ページがスパムページであるかを判断する(ステップ705)。ステップ705で、前記第1ページがスパムページであるかを判断する方法は、上述した図3aおよび図3bに示された方法を用いる。
ステップ705で、前記第1ページがスパムページであると判断された場合、該当ウェブサイトをスパムサイトと判断し(ステップ706)、図8に分岐して該当ウェブサイトに対する所定の処理を実行するように動作する。
ステップ705で、前記第1ページがスパムページではないと判断された場合、前記第1ページの下位ページである1つ以上の第2ページに対するHTMLファイルの抽出を実行する(ステップ707)。抽出された第2ページのHTMLファイルを分析して該当第2ページがスパムページであるかを判断し、スパムページと判断された第2ページの個数情報をカウントする(ステップ708)。前記第2ページの総個数と前記ステップ708でカウントされたスパムページと判断された第2ページの個数の比率情報を算出する(ステップ709)。算定された比率情報が選定された値以上であるかを判断し(ステップ710)、判断結果、前記比率情報が選定された値以上である場合には、該当ウェブサイトをスパムサイトと判断し(ステップ711)、図8に分岐して該当ウェブサイトに対する所定の処理を実行するように動作する。
ステップ710で、前記算出された比率情報が選定された値より小さい場合、該当ルーチンは、ステップ703に分岐して該当動作を反復するように実装される。
上述した方法を介して、1つ以上のウェブページで構成されたウェブサイトがスパムサイトであるか否かの判断を実行する。
<スパムサイトまたは変質サイトに対する制裁措置>
図8は、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、スパムまたは変質サイトと判別されたウェブサイトの登録者に所定の制裁措置を加える方法を示す流れ図である。
図8を参照すると、上述した図3aのステップ308でスパムサイトと判断された場合、または図5cのステップ523で変質サイトと判断された場合の自動制裁措置が示されている。スパムまたは変質サイトと判断された場合、ウェブサイト管理モジュールは、ウェブサイト情報データベースを検索して該当ウェブサイトの登録者の情報を獲得し(ステップ810)、ウェブサイト管理モジュールは、前記登録者の情報を受信する(ステップ820および850)。本発明の一実施例によると、ウェブサイト管理モジュールは、前記登録者情報から登録者の電子メールアドレスまたは移動通信端末機番号などの連絡情報を抽出し(ステップ830)、メールサーバまたはSMSサーバを制御して前記連絡情報に対して所定のメッセージを伝送するように動作する(ステップ840)。
本発明のさらに他の一実施例によると、ウェブサイト管理モジュールは、前記登録者情報から登録者のその他の登録ウェブサイト情報を抽出(ステップ860)し、同一の登録者名義で登録されたその他のウェブサイトに対する分析(ステップ870)を自動的に実行するように制御する。同一の登録者名義のウェブサイトであれば、同一または類似した方法によってスパムまたは変質サイトを運営する可能性が高いためである。本実施例の場合、その他のウェブサイトの分析結果がスパムまたは変質サイトと判断された場合には、図8のステップ810が反復される。
本発明の好ましい一実施例によると、所定のウェブサイトが上述した分析および判断方法によってスパムまたは変質サイトと判断された場合、前記ウェブサイトの登録者に自動的に電子メール、ショートメッセージなどを送信して該当ウェブサイトの問題点を指摘し、一定の猶予期間を置いて是正を要求するように動作する。また、一定の猶予期間の経過後、自動的に前記分析および判断プロセスを実行するように設定し、この時にも是正がなされていない場合には、登録取消などの制裁措置を取ることも可能である。また、本発明の他の一実施例によると、前記ウェブサイトの登録者が後に他のウェブページを登録しようとする場合、登録手順を厳密にするなどの制裁を加えることも可能である。
本発明の実施例は、多様なコンピュータで実装される動作を実行するためのプログラム命令を含むコンピュータ読み取り可能媒体を含む。前記コンピュータ読み取り可能媒体において、プログラム命令、データファイル、データ構造などを単独または組み合わせて含む。前記媒体は、プログラム命令は本発明のために特別に設計されて構成されたものであっても、コンピュータソフトウェア当業者に公知されて使用可能なものであってもよい。コンピュータ読み取り可能記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスクおよび磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような光磁気媒体(magneto−optical media)、およびロム(ROM)、ラム(RAM)、フラッシュメモリなどのようなプログラム命令を格納し実行するように特別に構成されたハードウェア装置が含まれる。前記媒体は、プログラム命令、データ構造などを指定する信号を伝送する搬送波を含む光または金属線、導波管などの伝送媒体であることもある。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
図9は、本発明による検索エンジンで登録されたウェブページを管理するための方法として採用される汎用コンピュータシステムの内部ブロック図である。
コンピュータシステムは、ラム(RAM:Random Access Memory)960とロム(ROM:Read Only Memory)970を含む主記憶装置と連結される1つ以上のプロセッサ940を含む。プロセッサ940は、中央処理装置(CPU)とも言われる。当業界で広く知られているように、ロム970はデータ(data)と命令(instruction)を単方向性でCPUに伝達する役割をし、ラム960は通常、データと命令を双方向性で伝達するのに用いられる。ラム960およびロム970は、コンピュータ読み取り可能媒体のいかなる適切な形態をも含む。大容量記憶装置(Mass Storage)910は、双方向性でプロセッサ940と連結して追加的なデータ格納能力を提供し、前記したコンピュータ読み取り可能記録媒体の中のいかなるものにも該当する。大容量記憶装置910は、プログラム、データなどを格納するのに用いられ、通常、主記憶装置より速度が遅いハードディスクのような補助記憶装置である。CDロム920のような特定大容量記憶装置が用いられることもある。プロセッサ940は、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチスクリーン型ディスプレイ、カード読み取り機、磁気または紙テープ読み取り機、音声または手書き文字認識機、ジョイスティック、またはその他の公知のコンピュータ入出力装置のような1つ以上の入出力インターフェイス930と連結される。最後に、プロセッサ940は、ネットワークインターフェイス950を介して有線または無線通信ネットワークに接続される。このようなネットワーク接続を介して前記した方法の手順を実行することができる。前記した装置および要素はコンピュータハードウェアおよびソフトウェア技術分野の当業者に広く知られている。
前記したハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして動作するように構成される。
以上のように、本発明は限定された実施例と図面によって説明されたが、本発明は前記の実施例に限定されるものでなく、これは本発明が属する分野で通常の知識を有する者にとっては、前記記載から多様な修正および変形が可能であろう。従って、本発明思想は添付の特許請求の範囲によってのみ把握されるべきであり、この均等または等価的変形すべては、本発明思想の範囲に属することは言うまでもない。
ウェブサイト検索エンジンサービスを提供するためのシステムの一例を示した構成ブロック図である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムを示した構成ブロック図である。 本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。 本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。 本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法で生成されるポップアップウィンドウの個数を測定するためのウェブサイトURLのツリー構造を示した図である。 本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たスパムサイトのHTMLファイルの一例を示した図である。 本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たスパムサイトのHTMLファイルの一例を示した図である。 本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。 本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。 本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。 本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。 本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たアダルトサイトのHTMLファイルの一例を示した図である。 本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たアダルトサイトのHTMLファイルの一例を示した図である。 本発明の一実施例による、特定ウェブサイトが1つ以上の上位および下位ウェブページで構成された場合、該当ウェブサイトをスパムサイトと判断する方法を説明するためのウェブページ構成階層図である。 本発明による登録されたウェブサイトを管理するための方法において、1つ以上のウェブページで構成されたウェブサイトに対する判断方法の一例を示した流れ図である。 本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法において、スパムまたはアダルトサイトと判別されたウェブサイトの登録者に所定の制裁措置を加える方法を示す流れ図である。 本発明による検索エンジンで登録されたウェブサイトを管理する方法で採用される汎用コンピュータシステムの内部ブロック図である。

Claims (18)

  1. 検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法であって、
    所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、
    前記ウェブサイトのウェブページを構成するHTMLファイルを抽出するステップと、
    抽出された前記HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
    前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、
    前記カウンタ値が選定された値以上であるかを判断するステップと、
    前記カウンタ値が選定された値以上である場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
    を含むことを特徴とする登録されたウェブサイトの管理方法。
  2. 前記所定の関数は、前記ウェブサイトから他のウェブサイトに移動する場合に新しいポップアップウィンドウを生成するようにする関数、または前記ウェブサイトに移動した場合に新しいポップアップウィンドウを生成するようにする関数であることを特徴とする請求項1に記載の登録されたウェブサイトの管理方法。
  3. 抽出された前記HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出する前記ステップは、
    前記関数に含まれたポップアップウィンドウのURLを訪問して前記URLのウェブページを構成する第2HTMLファイルを抽出するステップと、
    抽出された前記第2HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
    を含むことを特徴とする請求項1に記載の登録されたウェブサイトの管理方法。
  4. 前記抽出されたHTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出する前記ステップは、
    抽出された前記HTMLファイルを分析して前記HTMLファイルに含まれたリダイレクトタグを検出するステップと、
    検出された前記リダイレクトタグのターゲットURLのウェブサイトを構成するウェブページの第3HTMLファイルを抽出するステップと、
    抽出された前記第3HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
    を含むことを特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  5. 前記選定された値は3であることを特徴とする請求項1に記載の登録されたウェブサイトの管理方法。
  6. 検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法であって、
    所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、
    前記ウェブサイトの前記ウェブページの中で最上位ページである第1ページのHTMLファイルを抽出するステップと、
    前記第1ページから抽出されたHTMLファイルを分析して前記第1ページがスパムページであるかを判断するステップと、
    前記第1ページがスパムページと判断された場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
    を含み、
    前記第1ページがスパムページであるかを判断する前記ステップは、
    抽出された前記HTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
    前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、
    前記カウンタ値が選定された値以上であるかを判断するステップと、
    前記カウンタ値が選定された値以上である場合、前記第1ページをスパムページと判断するステップと、
    を含むことを特徴とする登録されたウェブサイトの管理方法。
  7. 前記第1ページがスパムページではないと判断された場合、前記第1ページの下位ページである1つ以上の第2ページのHTMLファイルを抽出するステップと、
    前記第2ページで抽出されたHTMLファイルを分析して前記第2ページがスパムページであるかを判断するステップと、
    前記第2ページの総個数とスパムページと判断された第2ページの個数を演算してスパムページの比率情報を算出するステップと、
    前記スパムページの比率情報が選定された値以上である場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
    をさらに含むことを特徴とする請求項6に記載の登録されたウェブサイトの管理方法。
  8. 検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法であって、
    所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、
    所定のアダルトキーワードが記録されているアダルトキーワードデータベースを維持するステップと、
    前記ウェブサイトのウェブページを構成するHTMLファイルを抽出するステップと、
    抽出された前記HTMLファイルを分析し、前記HTMLファイルに含まれたリダイレクトタグを抽出するステップと、
    抽出された前記リダイレクトタグのターゲットURLと関連する所定の文字列を抽出するステップと、
    前記アダルトキーワードデータベースを参照し、抽出された前記文字列に対応するアダルトキーワードがあるかを検索するステップと、
    前記アダルトキーワードがある場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
    を含むことを特徴とする登録されたウェブサイトの管理方法。
  9. 前記リダイレクトタグは、メタタグ形式であることを特徴とする請求項8に記載の登録されたウェブサイトの管理方法。
  10. 前記ターゲットURLと関連する所定の文字列は、前記ターゲットURL自体に含まれた文字列であることを特徴とする請求項8に記載の登録されたウェブサイトの管理方法。
  11. 前記ターゲットURLと関連する所定の文字列は、前記ターゲットURLとして特定されるウェブサイトのHTMLファイルに含まれた文字列であることを特徴とする請求項8に記載の登録されたウェブサイトの管理方法。
  12. 前記文字列は、英語、韓国語、または数字のいずれか1つ以上を含むことを特徴とする請求項8に記載の登録されたウェブサイトの管理方法。
  13. 前記データベース手段はウェブサイト登録者フィールドを含み、
    前記所定の処理を実行するように制御するステップは、
    前記データベース手段のウェブサイト登録者フィールドを検索して前記ウェブサイトの登録者情報を獲得し、前記ウェブサイトの登録者情報から前記登録者の連絡情報を抽出するステップと、
    前記抽出された連絡情報に対してメッセージを伝送するように所定のメッセージ伝送手段を制御するステップと、
    を含むことを特徴とする請求項1、6、8のいずれか一項に記載のウェブサイトの登録管理方法。
  14. 前記連絡情報は前記ウェブサイト登録者の電子メールアドレスまたは移動通信端末機番号であり、前記メッセージ送信手段は電子メールサーバまたはショートメッセージサービスサーバであることを特徴とする請求項13に記載の登録されたウェブサイトの管理方法。
  15. 請求項1ないし12のいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  16. 検索エンジンに登録されたウェブサイトを管理するためのシステムであって、
    1つ以上の端末機とデータ通信を実行するためのインターフェイスモジュールと、
    前記1つ以上の端末機から所定のウェブサイトの情報を含むウェブサイト登録申請を受信し、前記ウェブサイト情報を所定のフィールド別に分類するためのウェブサイト登録モジュールであって、前記ウェブサイト情報は前記ウェブサイトの登録者情報を含む、ウェブサイト登録モジュールと、
    前記ウェブサイト情報を分類して格納するためのデータベース手段と、
    前記ウェブサイトのウェブページを構成するHTMLファイルを抽出し、抽出されたHTMLファイルを分析するためのウェブサイト分析モジュールと、
    前記ウェブサイトがスパムサイトであるかを判断し、前記ウェブサイトがスパムサイトであると判断した場合、前記データベース手段を参照して前記ウェブサイト登録者情報を抽出し、前記ウェブサイト登録者情報に含まれた連絡情報を用いて前記ウェブサイトの登録者に所定のメッセージを伝送するように所定のメッセージ送信手段を制御するウェブサイト管理モジュールと、
    を含み、
    前記ウェブサイト管理モジュールは、前記抽出されたHTMLファイルを分析してポップアップウィンドウを生成させる所定の関数を検出し、前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させ、前記カウンタ値が選定された値以上であるかを判断し、前記カウンタ値が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作することを特徴とするウェブサイト登録管理システム。
  17. 前記ウェブサイト分析モジュールは前記ウェブページの中で最上位の第1ページのHTMLファイルを抽出し、前記ウェブサイト管理モジュールは、前記第1ページに対する前記カウンタ値が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作することを特徴とする請求項16に記載のウェブサイト登録管理システム。
  18. 前記ウェブサイト管理モジュールで前記第1ページに対する前記カウンタ値が前記選定された値以上でないと判断した場合、前記ウェブサイト分析モジュールは、前記第1ページの下位ページである1つ以上の第2ページのHTMLファイルを抽出し、抽出されたHTMLファイルを分析し、
    前記ウェブサイト管理モジュールは、前記第2ページがスパムページであるかを判断し、前記第2ページの総個数とスパムページと判断された第2ページの個数を演算してスパムページの比率情報を算出し、前記スパムページの比率情報が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作することを特徴とする請求項17に記載のウェブサイト登録管理システム。
JP2006508534A 2003-05-31 2004-05-31 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム Pending JP2007528520A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020030035044 2003-05-31
KR10-2004-0038426A KR100458458B1 (ko) 2003-05-31 2004-05-28 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
PCT/KR2004/001291 WO2004107213A1 (en) 2003-05-31 2004-05-31 A method of managing websites registered in search engine and a system thereof

Publications (1)

Publication Number Publication Date
JP2007528520A true JP2007528520A (ja) 2007-10-11

Family

ID=33492544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006508534A Pending JP2007528520A (ja) 2003-05-31 2004-05-31 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム

Country Status (3)

Country Link
US (2) US7664732B2 (ja)
JP (1) JP2007528520A (ja)
WO (1) WO2004107213A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011507104A (ja) * 2007-12-11 2011-03-03 マイクロソフト コーポレーション ウェブページ・ドメインの監視
JP2014519102A (ja) * 2011-05-20 2014-08-07 グーグル・インコーポレーテッド 自動提案型のコンテンツ・アイテム要求

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US20070038614A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Generating and presenting advertisements based on context data for programmable search engines
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
KR101048590B1 (ko) 2004-05-28 2011-07-12 엔에이치엔(주) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
JP2006155373A (ja) * 2004-11-30 2006-06-15 Ntt Docomo Inc サイト情報提供装置およびサイト情報提供方法
KR100819846B1 (ko) * 2005-04-08 2008-04-07 김동암 인터넷 검색결과 정보를 언어고리로 구성하여 제공하는방법
US8126866B1 (en) * 2005-09-30 2012-02-28 Google Inc. Identification of possible scumware sites by a search engine
US8095602B1 (en) * 2006-05-30 2012-01-10 Avaya Inc. Spam whitelisting for recent sites
US7634458B2 (en) * 2006-07-20 2009-12-15 Microsoft Corporation Protecting non-adult privacy in content page search
US8224816B2 (en) * 2006-12-15 2012-07-17 O'malley Matthew System and method for segmenting information
KR20080084388A (ko) * 2007-03-16 2008-09-19 삼성전자주식회사 데이터 관리 장치 및 방법
US20080244293A1 (en) * 2007-03-29 2008-10-02 Morris Robert P Methods, Systems, And Computer Program Products For Providing For Automatically Closing Application Widgets Based On Markup Language Elements
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US8117223B2 (en) * 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
KR100996311B1 (ko) * 2007-09-27 2010-11-23 야후! 인크. 스팸 ucc를 감지하기 위한 방법 및 시스템
US20110060730A1 (en) * 2008-05-06 2011-03-10 Rejean Desrosiers Reverse portal system and method
WO2010106446A1 (en) * 2009-03-18 2010-09-23 Turkcell Iletisim Hizmetleri Anonim Sirketi A method for querying a search word via sms and sending search engine results to mobile devices
US20110113068A1 (en) * 2009-11-12 2011-05-12 Xinfang Zhao System and method for managing multiple user registrations
JP5578544B2 (ja) * 2010-01-05 2014-08-27 株式会社Kddi研究所 文書情報の外形的特徴に基づく文書分類プログラム、サーバ及び方法
US8562161B2 (en) 2010-03-03 2013-10-22 Cree, Inc. LED based pedestal-type lighting structure
US8752171B2 (en) * 2010-09-03 2014-06-10 Mcafee, Inc. Behavioral tracking system, method, and computer program product for undoing events based on user input
US9009819B1 (en) * 2011-01-20 2015-04-14 Symantec Corporation Method and system for detecting rogue security software that displays frequent misleading warnings
US9111282B2 (en) * 2011-03-31 2015-08-18 Google Inc. Method and system for identifying business records
KR101524618B1 (ko) * 2013-11-12 2015-06-02 숭실대학교산학협력단 유해 사이트 수집 장치 및 방법
US9749352B2 (en) 2012-12-20 2017-08-29 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
CN104462284B (zh) * 2014-11-27 2018-04-13 百度在线网络技术(北京)有限公司 判定网页质量的方法及系统
US10853431B1 (en) * 2017-12-26 2020-12-01 Facebook, Inc. Managing distribution of content items including URLs to external websites
TWI765706B (zh) * 2021-05-11 2022-05-21 凌華科技股份有限公司 彈出視窗的非侵入式共享處理方法及系統

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615242B1 (en) * 1998-12-28 2003-09-02 At&T Corp. Automatic uniform resource locator-based message filter
JP3220104B2 (ja) 1999-02-16 2001-10-22 ケイディーディーアイ株式会社 Url階層構造を利用した情報自動フィルタリング方法および装置
US20010044800A1 (en) * 2000-02-22 2001-11-22 Sherwin Han Internet organizer
US6253198B1 (en) * 1999-05-11 2001-06-26 Search Mechanics, Inc. Process for maintaining ongoing registration for pages on a given search engine
US7747592B2 (en) * 1999-09-07 2010-06-29 Thomas C Douglass Method and system for monitoring domain name registrations
US7249315B2 (en) * 1999-11-23 2007-07-24 John Brent Moetteli System and method of creating and following URL tours
CA2394489A1 (en) * 1999-12-17 2001-06-21 Technology, Patents And Licensing, Inc. Electronic asset registration method
KR100329545B1 (ko) 2000-04-21 2002-04-01 김태주 유해사이트의 접속차단 서비스 제공장치 및 방법
KR20010105960A (ko) * 2000-05-19 2001-11-29 이동진 인터넷 유해정보 차단시스템
KR20010106666A (ko) * 2000-05-22 2001-12-07 복인근 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체
US7051285B1 (en) * 2000-06-28 2006-05-23 Intel Corporation Controlling the display of pup-up web browser windows
KR20020045419A (ko) 2000-12-11 2002-06-19 정영수 인터넷 광고 방법 및 시스템
KR100375989B1 (ko) * 2001-03-23 2003-03-15 장호석 과전류로 인한 부하의 파손을 방지하기 위한고속차단제어장치
US7010526B2 (en) * 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US7278114B2 (en) * 2002-12-30 2007-10-02 Viewspace Technologies Method and apparatus for managing display of popup windows
KR100485321B1 (ko) * 2003-04-04 2005-04-27 엔에이치엔(주) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
JP4549709B2 (ja) * 2004-03-23 2010-09-22 株式会社日立製作所 ストレージ装置
JP4488807B2 (ja) * 2004-06-25 2010-06-23 株式会社日立製作所 ボリューム提供システム及び方法
JP2007086972A (ja) * 2005-09-21 2007-04-05 Hitachi Ltd ストレージシステム、二重化制御方法、及びプログラム
KR100885772B1 (ko) * 2007-02-20 2009-02-26 야후! 인크. 제품 정보를 등록 및 검색하기 위한 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011507104A (ja) * 2007-12-11 2011-03-03 マイクロソフト コーポレーション ウェブページ・ドメインの監視
JP2014519102A (ja) * 2011-05-20 2014-08-07 グーグル・インコーポレーテッド 自動提案型のコンテンツ・アイテム要求

Also Published As

Publication number Publication date
US8326818B2 (en) 2012-12-04
US20080208858A1 (en) 2008-08-28
US7664732B2 (en) 2010-02-16
WO2004107213A1 (en) 2004-12-09
US20070055642A1 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
JP2007528520A (ja) 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US20060059133A1 (en) Hyperlink generation device, hyperlink generation method, and hyperlink generation program
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
US7216122B2 (en) Information processing device and method, recording medium, and program
JPWO2003046764A1 (ja) 情報解析方法及び装置
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
US20090083266A1 (en) Techniques for tokenizing urls
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
US20110270691A1 (en) Method and system for providing url possible new advertising
CN110533456A (zh) 一种优惠券信息推送方法、系统及服务器
US8521746B1 (en) Detection of bounce pad sites
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Gali et al. Extracting representative image from web page
CN115801455A (zh) 一种基于网站指纹的仿冒网站检测方法及装置
KR101048590B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR100458458B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR20040098889A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
Kaddu et al. To extract informative content from online web pages by using hybrid approach
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
KR100931772B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP4842921B2 (ja) 検索システムおよびその方法
CN105677827A (zh) 一种表单的获取方法及装置
KR20040098890A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080916