JP2007528520A

JP2007528520A - 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム

Info

Publication number: JP2007528520A
Application number: JP2006508534A
Authority: JP
Inventors: グァンキム、ヨン; ヨンペ、サン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2003-05-31
Filing date: 2004-05-31
Publication date: 2007-10-11
Also published as: US8326818B2; US20080208858A1; US7664732B2; WO2004107213A1; US20070055642A1

Abstract

本発明は、インターネット上で所定のウェブサイトに対する情報を提供する検索エンジンに関する。本発明の好ましい一実施例による検索エンジン管理システムにおける検索エンジンに登録されたウェブサイトを管理するための方法は、所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールは、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、前記ウェブサイトのウェブページを構成するＨＴＭＬファイルを抽出するステップと、抽出された前記ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、前記カウンタ値が選定された値以上であるかを判断するステップと、前記カウンタ値が選定された値以上の場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、を含むことを特徴とする。

Description

本発明は、インターネット上で所定のウェブサイトに対する情報を提供する検索エンジンに関し、さらに詳しくは、検索エンジンに登録されている所定のウェブサイトに対する情報を分析し、所定のスパムサイトまたはアダルトサイトを追跡することによって検索エンジンユーザに不必要な情報を提供しないようにするための登録されたウェブサイトを管理するための方法に関する。

アルタビスタ（登録商標）（ｈｔｔｐ：／／ｗｗｗ．ａｌｔａｖｉｓｔａ．ｃｏｍ）、ライコス（ｈｔｔｐ：／／ｗｗｗ．ｌｙｃｏｓ．ｃｏｍ）、ヤフー（登録商標）（ｈｔｔｐ：／／ｗｗｗ．ｙａｈｏｏ．ｃｏｍ）などのような通常の検索エンジンは、ウェブサイト情報を所定の基準に従って分類および格納して管理するためのデータベースと、ウェブ上を持続的に巡回しながら新しいウェブサイト情報を機械的に収集するためのソフトウェアで実装される検索ロボット（ｒｏｂｏｔ）と、収集されたデータをデータベース化して前記検索エンジンを用いる利用者が検索可能にする検索エンジンソフトウェアとから構成されている。

上述した検索エンジンサービスを提供するための全体システムのブロック図が図１に示されている。図１を参照すると、ユーザはユーザ端末機１１０を介し、インターネットを介して検索エンジンサーバ１５０に接続される。ユーザが所定の検索語を入力すると、検索エンジンサーバ１５０は、検索エンジンソフトウェア１４０に該当検索語に対するウェブサイト情報を問合せ（クエリ：ｑｕｅｒｙ）し、検索エンジンソフトウェア１４０は、該当データベース１３０を検索して所定のウェブサイト情報を知らせる。検索ロボット１２０は、前記で説明したように、ウェブ上を持続的に巡回しながらウェブサーバ１６０から新しいウェブサイト情報を機械的に収集するためのソフトウェアで実装されるエンティティ（ｅｎｔｉｔｙ）である。検索ロボット１２０は、ネットワーク上にてＨＴＭＬ（ハイパーテキストマークアップ言語：ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述された文章を探索し、記載されているリンク先を構文解析（ｐａｒｓｉｎｇ）してネットワーク上に存在する多数のウェブサイトからデータを収集する。このように、検索ロボット１２０によって収集されたデータはデータベース化される。ここで、データベース化とは、ウェブサイトに位置する所定の情報に対して形態素解析（ｍｏｒｐｈｏｌｏｇｉｃａｌａｎａｌｙｓｉｓ）を実行し、インデックステーブルを作成してデータベース１３０に格納する一連の手順を意味する。データベース１３０は、検索ロボット１２０によって収集されたすべてのウェブサイト情報を格納するためのものである。検索エンジンソフトウェア１４０は、検索結果をユーザに示す機能を有する。該ソフトウェアは、データベース１３０に格納された多数のページを検索し、特定アルゴリズムによって決定された配列手順に従って検索用語と一致する文字列を含んでいるウェブサイトのリストを検索サービス利用者に提供するように動作する。上記のような従来の検索エンジンは、次のような方法でウェブサイトに対する情報を検索エンジンに登録し、前記情報をユーザに提供する。

（１）上述したように、検索ロボットを用いて所定の情報を収集し、収集された情報を専門サーファ（ｓｕｒｆｅｒ）の検収を経て前記ウェブサイトを検索エンジンに登録する。
（２）登録しようとするウェブサイトの主題によって分類されたディレクトリを選択し、前記選択されたディレクトリに対して前記ウェブサイト登録申請をし、専門サーファの検収を経て検索エンジンに登録される。検索エンジンによるこのようなディレクトリ登録の場合には、所定の登録料を受けて登録に要される時間を削減するサービスを提供したりもする。

前記の方法などによって、検索エンジンに登録されたウェブサイトは、所定の情報を検索しようとするユーザの検索語入力によって統合ウェブ検索またはディレクトリ検索などの多様な検索方式に従って検索されてユーザに提供される。前記統合ウェブ検索は、他の用語で“単語別検索”とも言われる。この検索方法は、データベースにすべてのウェブサイトのユニフォーム・リソース・ロケータ（ＵＲＬ）を格納し、特定キーワード（ｋｅｙｗｏｒｄ）を入力することによって所望する情報を探す方法である。

上述した従来技術によるウェブサイトの検索サービス提供方法には次のような問題点がある。

（１）検索エンジンに登録されたウェブサイトの中で、初めに検索エンジンに登録される当時のウェブサイトに含まれたコンテンツと、登録以後にウェブサイトに含まれたコンテンツが異なる場合がある。例えば、初めの登録当時には所定のコンテンツを含んだウェブサイトであったが、時間の経過に伴って次第に毀損し、多数のポップアップウィンドウを生成するスパムサイトに変更するという問題点がある。このような多数のポップアップウィンドウを生成するスパムサイトの場合には、主にアダルトコンテンツを含んでいる場合が多く、該当ＵＲＬへの移動時は勿論、該当ＵＲＬを出る場合に同時多発的に数個から数十個のポップアップウィンドウを生成することによってユーザに多くの不便を与えている。

（２）また、大部分の検索エンジン運営業社においては、通常のキーワードに対する一般ウェブサイト登録費用とアダルトコンテンツに関連するキーワードに対するアダルトウェブサイト登録の場合、請求する登録費用を相違させる場合が多い。これは、一般ウェブサイトよりアダルトウェブサイトの場合が実定法違反の可能性が高いため、検索エンジン運営者の立場においてもこのようなアダルトウェブサイトの登録管理に対する負担を抱いているためであるが、このような点を悪用し、登録時に一般コンテンツと通常の一般キーワードを用いて検索エンジンに登録し、登録以後にウェブサイトのＨＴＭＬソースを変更して該当サイトでアダルトコンテンツを提供する場合は勿論、該当サイトとリンクされたサイトでアダルトコンテンツを提供するなどの問題点がある。このようなサイトを“変質サイト”と定義する。このような変質サイトは、検索エンジンユーザの不便申告または専門サーファなどの人為的な検索なしで発見されることは非常に困難であるという問題点がある。

上述した問題点を解決するための解決策として、ユーザの告発申告または専門サーファなどの専門人力を介した登録ウェブサイトの持続的なモニタリングが必要であるが、このような従来技術による解決方法は、上述した問題点に対する究極的な解決策にならないことは言うまでもなく、このような問題点をインターネット上で所定のアルゴリズムを介して自動的に実行される方法が導出されるとしたら、上述した問題点を一挙に解決することができる有用な手段となるであろう。

本発明による検索エンジンに登録されたウェブサイトを管理するための方法は、上述した従来技術の問題点を解決するためのものであって、上述した多数のポップアップウィンドウを生成するスパムサイトまたは変質サイトを所定のアルゴリズムを用いて自動的に検出できるようにすることによって、検索エンジンユーザに不便をもたらすことのない検索エンジンサービスを提供することをその目的とする。

また、スパムサイトまたは変質サイトを自動的に検出し、検出されたスパムサイトまたは変質サイト運営者に対する制裁措置を加えることによって、検索エンジンで登録されたウェブサイト自体の自浄が強化されるようにすることをさらに他の目的とする。

また、スパムサイトまたは変質サイトの検出および検出されたスパムサイトまたは変質サイトに対する警告などの制裁措置を所定のアルゴリズムによって自動的に実行することによって、上述したサイトの検出のために要される多数の人力資源を節約することをさらに他の目的とする。

本発明の好ましい一実施例による検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法は、所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールは、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、前記ウェブサイトのウェブページを構成するハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを抽出するステップと、抽出された前記ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、前記カウンタ値が選定された値以上であるかを判断するステップと、前記カウンタ値が選定された値以上の場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、を含むことを特徴とする。

また、所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、前記ウェブサイトの前記ウェブページの中で最上位ページである第１ページのハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを抽出するステップと、前記第１ページで抽出されたハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを分析して前記第１ページがスパムページであるかを判断するステップと、前記第１ページがスパムページと判断された場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、を含み、前記第１ページがスパムページであるかを判断する前記ステップは、抽出された前記ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、前記検出された関数によって生成されるポップアップウィンドウの個数によって所定のカウンタ値を所定値だけ増加させるステップと、前記カウンタ値が選定された値以上であるかを判断するステップと、前記カウンタ値が選定された値以上の場合、前記第１ページをスパムページと判断するステップと、を含むことを特徴とする。

本明細書にて用いられるスパムサイトとは、ウェブページのＨＴＭＬファイルなどに多様な方法で所定の関数などを挿入し、該当ＵＲＬを訪問する時または該当ＵＲＬを出る場合、所定の個数のポップアップウィンドウを生成するウェブサイトを意味する。また、ウェブサイトを構成する１つ以上のウェブページに対して、本発明によるスパムサイト判断方法によってスパムと判断されたウェブページをスパムページと命名する。

また、本明細書で用いられる変質サイトとは、所定のウェブページを介して提供されるコンテンツがアダルトコンテンツであるウェブサイトであって、登録時にアダルトサイトとして登録されない、すなわち登録以後にアダルトサイトに変質したウェブサイトを意味する。なお、アダルトサイトとは１９歳未満の青少年に非常に有害なコンテンツを含んでいるウェブサイトを意味する。

本発明による検索エンジンに登録されたウェブサイトを管理するための方法によると、多数のポップアップウィンドウを生成するスパムサイトまたは変質サイトを所定のアルゴリズムを用いて自動的に検出することができるため、エンジンユーザに不便をもたらすことのない検索エンジンサービスを提供することができるという効果を得ることができる。

また、スパムサイトまたは変質サイトを自動的に検出し、検出されたスパムサイトまたは変質サイト運営者に対する制裁措置を加えることができるため、検索エンジンで登録されたウェブサイト自体の自浄が強化されるという効果を得ることができる。

また、スパムサイトまたは変質サイトの検出および検出されたスパムサイトまたは変質サイトに対する警告などの制裁措置を所定のアルゴリズムによって自動的に実行されることによって、上述したサイトの検出のために要される多数の人力資源を節約することができるという効果を得ることができる。

以下、添付された図面を参照して、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理する方法およびそのシステムに対して詳述する。

図２は、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するためのシステムを示した構成ブロック図である。図２を参照すると、本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムは、インターフェイスモジュール２０１と、ウェブサイト登録モジュール２０２と、ウェブサイト管理モジュール２０３と、ウェブサイト情報データベース２０４と、ウェブサイト分析モジュール２０５と、検索ロボット２０７とから構成される。

また、本発明の好ましい一実施例によると、検索エンジンに登録されたウェブサイトを管理するためのシステムは、ウェブサイトの登録者に所定のメッセージを送信するためのメールサーバ２０８、またはＳＭＳ（ショートメッセージサービス）サーバ２０９を含む。このようなメールサーバ２０８とＳＭＳサーバ２０９は、検索エンジンサービス提供システム内に含まれたり、第３者が運営するシステム内に位置したりする。また、図２には、インターフェイスモジュール２０１、多種のモジュール、およびメールサーバ２０８またはＳＭＳサーバ２０９が別個のエンティティ（実体）であるように示されているが、これは説明の便宜のためにそうしただけであり、同一のエンティティであってよい。また、前記図２に示された構成要素は、物理的にも同一の場所に位置していてよく、他の実施例によると物理的に離隔しているものもある。

まず、インターフェイスモジュール２０１は、所定のウェブサイトを検索エンジンに登録しようとする登録者側に備えられたコンピュータ端末機と検索エンジンの登録管理システムとの間のデータ伝送および物理的伝送装備間のインターフェイス役割を担当するモジュールである。

ウェブサイト登録モジュール２０２は、前記登録者から所定のウェブサイトに対する登録申請を受信し、ウェブサイト登録申請に含まれたウェブサイトに対する情報データを収集および分類する機能を担当する。このようなウェブサイト登録モジュール２０２は、ウェブサイト登録に対する所定の課金を実行する課金モジュール（図示せず）をさらに含むこともあり、課金モジュールは、登録を所望するウェブサイトの種類（一般的な内容を含んでいる一般サイトまたはアダルトコンテンツを含んでいるアダルトサイト）によって、その課金内訳を相違して適用するように動作する。

ウェブサイト管理モジュール２０３は、本発明によるウェブサイトの登録管理を総括するモジュールであって、検索ロボット２０７が収集したウェブサイトに対する情報に基づいて前記ウェブサイトが選定された基準に適合して運営されているかを判断し、非正常的に運営されるウェブサイト、すなわちスパムまたは変質サイトであると判断される場合、前記登録者に対して所定の措置を自動的に取るように制御する機能を担当する。また、ウェブサイト管理モジュール２０３は、メールサーバ２０８やＳＭＳサーバ２０９と連動することによって、前記スパムまたは変質サイトの登録者に対して電子メールを送信したり、前記登録者の移動通信端末機にＳＭＳを伝送することによって、ウェブサイトの不正運営に対する警告をする。

ウェブサイト情報データベース２０４は、登録されたウェブサイトに対する情報を分類して記録する役割を担当する。ウェブサイト情報データベース２０４には、ウェブサイトのユニフォーム・リソース・ロケータ（ＵＲＬ）、該当ウェブサイトのキーワード、該当ウェブサイトの登録者情報（登録者の名前、住所、電子メールアドレス、移動通信端末機番号など）、該当ウェブサイトのディレクトリ情報などの多様な情報が各フィールド別に分類および格納されている。本発明によるウェブサイト情報データベース２０４に格納された情報は、システム管理者および前記ウェブサイトの登録者によって修正可能であり、ウェブサイトのコンテンツが変わる場合、登録者が直接修正しなくても検索ロボット２０７が収集したデータの分析結果（該当ウェブサイトのＵＲＬに対応する新しいキーワードなど）などによって自動的に該当情報が更新されるように動作する。

ウェブサイト分析モジュール２０５は、検索ロボット２０７が収集したウェブサイトの情報を分析する役割を担当する。検索ロボット２０７が収集するデータの種類と分析方法に関しては下記図３に対する説明と共に詳述する。

また、ウェブサイト分析モジュール２０５は、前記ウェブサイトを構成するウェブページの中で最上位の第１ページのＨＴＭＬファイルを抽出し、ウェブサイト管理モジュール２０３は、前記第１ページがスパムページの場合、前記ウェブサイトをスパムサイトと判断するように動作する。この時、前記第１ページがスパムページでないと判断された場合、ウェブサイト分析モジュール２０５は、前記第１ページの下位ページである１つ以上の第２ページのＨＴＭＬファイルを抽出し、抽出されたＨＴＭＬファイルを分析し、ウェブサイト管理モジュール２０３は、前記第２ページがスパムページであるかを判断し、前記第２ページの総個数とスパムページと判断された第２ページの個数を演算してスパムページの比率情報を算出し、前記スパムページの比率情報が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作する。

このように、１つ以上のウェブページで構成されるウェブサイトに対してスパムサイトであるかを判断する方法に対しては、図７ａおよび図７ｂを参照して後述する。

上述した本発明の一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムを構成する各構成要素は、説明の便宜のために単純に機能的に区分されただけであって、各構成要素の実際の物理的位置とは無関係である。また、上述したモジュールは、ハードウェアで実装されたり、特定コードを用いたソフトウェアとして実装されたりしてよいことは当業者にとって自明である。

＜スパムページ検出方法＞
図３ａ乃至図３ｃは、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示す流れ図である。図３ａ乃至図３ｃに示された登録されたウェブサイトの管理方法は、登録されたウェブサイトの中から所定のスパムサイトを検出し、該当サイトの運営者に所定の措置を取るようにするものである。以下、図４ａおよび図４ｂ、および図７を参照して、図３ａ乃至図３ｃに示された本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法に対して詳述する。

図３ａないし図３ｂに示された本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法は次のように実行される。所定のウェブサイトを検索エンジンに登録しようとする登録者は、登録を所望するウェブサイトに対する情報と共にウェブサイト登録申請をする（ステップ３０１）。前記ウェブサイトに対する情報は、ウェブサイト情報データベースに情報フィールド（登録者の名前、住所、電子メールアドレス、移動通信端末機番号など）別に分類されて記録され（ステップ３０２）、前記ウェブサイトは検索エンジンに登録される（ステップ３０３）。このような登録ステップ（ステップ３０３）はいくつかのルートを介して実行されるが、上述したように、ウェブサイト管理者が検索エンジンに自分のウェブサイトの登録を依頼することによって登録される場合と、検索ロボットがウェブ上を無作為に巡回しながら得たウェブサイト情報を用いてウェブサイトが検索エンジンに登録される場合とがある。前者の場合には、ウェブサイト登録者自身がウェブサイトの主題（例えば“ピカチュウ”、“弁理士試験”など）を決め、前記ウェブサイトの主題と最も近接したカテゴリにウェブサイトの登録を申請し、申請されたウェブサイトに対しては専門サーファの検収を経て所定の条件（ウェブサイトの完成度、登録費用を支払っていない場合には非商業的サイトの要件を充足するか否かなど）を満たすものであると判断される場合に検索エンジンに登録される。本発明による検索エンジンでウェブサイトの登録を管理するための方法においては、検索エンジンに登録されるルートを前記登録者の申請による場合に限定して説明しているが、本発明による検索エンジンでウェブサイトの登録を管理するための方法およびそのシステムは、検索エンジンにウェブサイトが登録される多種多様な方法に対しても同様に適用できる。

ウェブサイトが登録されると、検索エンジンは、検索ロボットを制御して登録されたウェブサイトのウェブページを構成するＨＴＭＬファイルを抽出し、抽出されたＨＴＭＬファイルを分析して前記ＨＴＭＬファイルに含まれたポップアップウィンドウ生成を担当する関数を抽出する（ステップ３０４）。

本発明の一実施例による分析方法は、ウェブサイトのＨＴＭＬファイルを分析することによってポップアップウィンドウを生成するための関数を抽出する。

図４ａおよび図４ｂは、図３ａのステップ３０４で実行されるウェブサイトのＨＴＭＬファイルを分析し、ＨＴＭＬファイルに含まれたポップアップウィンドウを生成するための関数を含む多様な一例を示す図である。以下、図４ａおよび図４ｂを参照して、本発明による検索エンジンに登録されたウェブサイトを管理するための方法においてＨＴＭＬファイルの分析がどのように実行されるかに対して詳述する。

図４ａは、所定のウェブサイトを出る場合にポップアップウィンドウが生成されるようにするスパムサイトのＨＴＭＬファイルの一例を示した図である。図４ａを参照すると、スクリプト言語としては、ＪＡＶＡ（登録商標）スクリプト言語で表現されたＨＴＭＬファイルの一例が示されている。スクリプト内に定義されたｌｅａｖｅ（）関数は、本ＨＴＭＬファイルを含むウェブサイトを出る時、“ｗｗｗ．ｙｏｕｒｓｅｒｖｅｒ．ｃｏｍ／ｐａｇｅ−ｔｏ−ｏｐｅｎ．ｈｔｍｌ”として特定されるポップアップウィンドウが生成されるようにする。関数内のｔｏｏｌｂａｒ、ｍｅｎｕｂａｒ、ｌｏｃａｔｉｏｎ、ｈｅｉｇｈｔ、ｗｉｄｔｈなどの変数は、生成されるポップアップウィンドウのサイズまたは位置などを指定するためのものである。

図４ｂは、所定のウェブサイトを訪問した時、ポップアップウィンドウが生成されるようにするスパムサイトのＨＴＭＬファイルの一例を示した図である。図４ｂを参照すると、スクリプト言語としては、ＪＡＶＡ（登録商標）スクリプト言語で表現されたＨＴＭＬファイルの一例が示されている。スクリプト内に定義されたＴｒｉｐｏｄＳｈｏｗＰｏｐｕｐ関数は、図４ｂに示されたＨＴＭＬファイルを含むウェブサイトを訪問した時、“ｈｔｔｐ：／／ｊｈｋｉｍｇ.ｈｉｈｏｍｅ．ｃｏｍ／”として特定されるポップアップウィンドウが生成されるようにする。関数内の各種変数は、生成されるポップアップウィンドウのサイズまたは位置を指定するためのものである。

図４ａおよび図４ｂに示されたＨＴＭＬファイルの一例以外にも、多様な方法でポップアップウィンドウを生成することができる。すなわち、本発明による検索エンジンに登録されたウェブサイトを管理するための方法では、このように多様な方法でポップアップウィンドウを生成するためのＨＴＭＬファイルを分析することによって、図４ａおよび図４ｂに示された一例以外のポップアップウィンドウ生成のためのＨＴＭＬファイルを抽出するように実装される。

ステップ３０４で、ポップアップウィンドウ生成関数を抽出すると共に、本発明の好ましい一実施例によると、多様な方法に分岐して所定のポップアップウィンドウを生成するウェブサイトを分析することができる。

ステップ３０４で、抽出されたポップアップウィンドウ生成関数を分析し、ポップアップウィンドウ生成関数に含まれているポップアップウィンドウＵＲＬを訪問し、前記ポップアップウィンドウのＨＴＭＬファイル（第２ＨＴＭＬファイル）を抽出する（ステップ３０６）。抽出された第２ＨＴＭＬファイルを分析して前記第２ＨＴＭＬファイルに含まれたポップアップウィンドウ生成関数をさらに抽出する（ステップ３０７）。当業者であれば周知のように、ポップアップウィンドウの属性上、１つのウェブサイトで生成されたポップアップウィンドウが存在する場合、前記ポップアップウィンドウのＨＴＭＬファイルでさらに他のポップアップウィンドウを生成すると、ユーザにはこのような連鎖的なポップアップウィンドウがすべて表示されるようになる。従って、該当ウェブサイトで生成するポップアップウィンドウの個数と、前記ポップアップウィンドウによって生成される第２のポップアップウィンドウの個数をすべて含んだものがユーザに表示されるポップアップウィンドウの数となる。このように、該当ウェブサイトのＨＴＭＬファイルによって生成されるポップアップウィンドウの個数は勿論、前記ポップアップウィンドウのＨＴＭＬファイルによって生成されるポップアップウィンドウの個数をすべて合算し、合算されたポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させる（ステップ３０５）。

本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法においては、ステップ３０４で、登録されたＨＴＭＬファイルを分析して前記ＨＴＭＬファイルに含まれたリダイレクト（ｒｅｄｉｒｅｃｔｉｏｎ）タグを抽出し、前記リダイレクトタグに含まれたターゲットＵＲＬが生成するポップアップウィンドウの個数まで合算するように動作してもよい。ステップ３０４で、図３ｂに分岐して所定のウェブサイトのＨＴＭＬファイルに含まれたリダイレクトタグを抽出する（ステップ３１１）。このようなリダイレクトタグの一例は以下の図６ａで詳述する。抽出されたリダイレクトタグを分析し、検索ロボットを制御して前記リダイレクトタグに含まれたターゲットＵＲＬの第３ＨＴＭＬファイルを抽出する（ステップ３１２）。抽出された第３ＨＴＭＬファイルを分析して前記第３ＨＴＭＬファイルに含まれたポップアップウィンドウ生成関数を抽出し（ステップ３１３）、再び図３ａのステップ３０５に戻る。

ステップ３０５では、上述したように、（１）該当ウェブサイトで生成されるポップアップウィンドウの個数と、（２）前記ポップアップウィンドウによって生成される第２のポップアップウィンドウの個数と、（３）前記該当のウェブサイトのＨＴＭＬファイルに含まれたリダイレクトタグによって移動するターゲットＵＲＬとして特定されるウェブサイトのＨＴＭＬファイルによって生成される第３のポップアップウィンドウの個数とをすべて合算し、前記合算されたポップアップウィンドウの個数によってカウンタ値を所定値だけ増加させる。

図３ｃは、本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において生成されるポップアップウィンドウの個数を測定するためのウェブサイトＵＲＬのツリー構造を示した面である。図３ｃを参照すると、所定のウェブサイトＡ（ｈｔｔｐ：／／ｗｗｗ．ｔｅｓｔ＿ｘｘｘ．ｃｏｍ）に連結されているウェブサイトＢないしＦの一例が示されている。ウェブサイトＡのＨＴＭＬファイルにポップアップウィンドウであるウェブサイトＢ（ｈｔｔｐ：／／ｗｗｗ．ｔｅｓｔ２．ｃｏｍ）と、ウェブサイトＡのＨＴＭＬファイルに含まれたリダイレクトタグのターゲットＵＲＬであるウェブサイトＣ（ｈｔｔｐ：／／ｗｗｗ．ｔｅｓｔ３．ｃｏｍ）が示されており、ウェブサイトＢと連結されたウェブサイトＤ（ｈｔｔｐ：／／ｗｗｗ．ｔｅｓｔ４．ｃｏｍ）と、ウェブサイトＤのＨＴＭＬファイルに含まれたリダイレクトタグのターゲットＵＲＬであるウェブサイトＥ（ｈｔｔｐ：／／ｗｗｗ．ｔｅｓｔ５．ｃｏｍ）と、ウェブサイトＤのＨＴＭＬファイルに含まれたポップアップウィンドウ生成関数のポップアップウィンドウＵＲＬであるウェブサイトＦ（ｈｔｔｐ：／／ｗｗｗ．ｔｅｓｔ６．ｃｏｍ）がそれぞれ示されている。図３ｃに示されたように、本発明の一実施例によると、１つのウェブサイトＡとリンクされたウェブサイトＢないしＦのＨＴＭＬファイルを分析し、ウェブサイトＡの訪問時にユーザに表示されるすべてのポップアップウィンドウの個数を測定することが可能である。

ステップ３０５で、生成されるポップアップウィンドウの個数によってカウンタ値を所定値だけ増加させるようになると、該当カウンタ値が所定値以上であるかを判断する（ステップ３０８）。本発明の好ましい一実施例によると、前記所定値は３である。前記カウンタ値が所定値以上の場合、該当ウェブサイトは選定された個数以上のポップアップウィンドウを生成する、いわゆる“スパムサイト”と判断され、該当ウェブサイトに対しては図７に示された所定の制裁措置を取るように動作する（ステップ３０９）。

＜アダルトページ検出方法＞
図５ａないし図５ｂは、本発明のさらに他の一実施例による検索エンジンで登録されたウェブサイトを管理するために変質ページを検出して該当変質ページに所定の制裁措置を取るための方法を示した流れ図である。

図５ａには、このようなアダルトキーワードを選定して所定のアダルトキーワードデータベースを構築するための方法の一例が示されている。

所定のウェブサイトがアダルトサイトであるかを判断するための基準となるアダルトキーワードを選定してアダルトキーワードデータベースを構築する方法は次のステップを含む。まず、１つ以上のアダルトサイトが選定される（ステップ５０１）。アダルトサイトの選定は、本発明によるウェブサイト登録管理システムの管理者が直接選定したり、本発明によるシステムのデータベース手段で所定のウェブサイトカテゴリ情報フィールドを検索してアダルトサイトとして登録されたウェブサイトの中の１つ以上が自動的に選定されるように設定したりする。選定されたアダルトサイトのウェブページに含まれた文字列を抽出し（ステップ５０２）、抽出された文字列別に頻度数を記録する（ステップ５０３）。頻度数を記録するために、抽出された文字列をテーブル形態で記録し、該当文字列が一回抽出されるたびに前記テーブルの頻度数フィールド値を１つずつ増加させる方法を用いる。分析結果、検出された文字列を上述した頻度数に基づいて所定の周期（日別、週別、または月別）ごとに前記記録された文字列をソーティング（並べ替え：ｓｏｒｔｉｎｇ）し（ステップ５０４）、上位に位置した文字列を抽出してこれらをアダルトキーワードとして選定し、これをアダルトキーワードデータベースに格納する（ステップ５０５）。また、本発明の他の一実施例によると、アダルトキーワード選定時においては、ソーティングをせずに検出された文字列をすべてアダルトキーワードとして選定するように設定することも可能である。この場合、アダルトキーワードではない文字列がアダルトキーワードとして選定される可能性があるが、ソーティングによるアダルトキーワード選定に必要なシステムの負荷加重を防止することができるという効果がある。

図５ｂおよび図５ｃには、図５ａに示された方法を介して構築されたアダルトキーワードデータベースを用いて所定の変質サイトを検出するための方法の一例が示されている。

図５ｂに示された本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法は次のように実行される。所定のウェブサイトを検索エンジンに登録しようとする登録者は、登録を所望するウェブサイトに関する情報と共にウェブサイト登録申請をする（ステップ５１１）。前記ウェブサイトに関する情報は、ウェブサイト情報データベースに情報フィールド（登録者の名前、住所、電子メールアドレス、移動通信端末機番号など）別に分類されて記録され（ステップ５１２）、前記ウェブサイトは検索エンジンに登録される（ステップ５１３）。このステップ５１３は、図３ａで詳述した登録ステップ（ステップ３０３）と同一である。

次に、所定のアダルトキーワードが記録されたアダルトキーワードデータベースを維持する（ステップ５１４）。前記アダルトキーワードデータベースは、上述した図５ａに示された方法によって構築される。

ウェブサイトが登録されると、検索エンジンは検索ロボットを制御し、登録されたウェブサイトのウェブページを構成するＨＴＭＬファイルを抽出する（ステップ５１５）。抽出されたＨＴＭＬファイルを分析して前記ＨＴＭＬファイルに含まれたリダイレクトタグを抽出する（ステップ５１６）。このようなリダイレクトタグの一例が図６ａおよび図６ｂに示されている。

図６ａないし図６ｂは、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たアダルトサイトのＨＴＭＬファイルの一例を示した図である。

図６ａはリダイレクトページに含まれた文字列を用いる変質サイトに含まれたＨＴＭＬファイルの一例を示した図である。当業者であれば周知のように、リダイレクトは接続されたウェブサイトから新しいウェブサイトへの移動を設定するためのものであって、図６ａに示されたＨＴＭＬファイルの形態で実装される。図６ａの上端に示されたメタ（ｍｅｔａ）タグを用いた一例を見ると、メタタグの中のｈｔｔｐ−ｅｑｕｉｖ属性を用いている。前記メタタグは通常、決められた時間（図６ａのｃｏｎｔｅｎｔ項目で指定される時間）が経過した後に自動的に他の文書に移動するように設定するためのものであって、主にホームページのアドレスが変更される場合、以前のアドレスに接続したユーザにアドレス変更案内を示しながら、所定時間が経過した時に自動的に新しいアドレスに移動するようにするのに用いられる。図６ａの上段に示されたメタタグは“ｈｔｔｐ；／／ｗｗｗ．ｓｅｘｈｏｕｓｅ．ｃｏｍ”にリダイレクトするように動作する。また、図６ａの中段および下段の場合にも、それぞれｓｅｌｆ．ｌｏｃａｔｉｏｎタグおよびｌｏｃａｔｉｏｎ．ｒｅｐｌａｃｅタグなどを用いて現在のウェブページを“ｈｔｔｐ：／／ｗｗｗ．ｓｅｘｈｏｕｓｅ．ｃｏｍ”にリダイレクトするように動作する。

図６ｂには、このようなリダイレクトタグが含まれたＨＴＭＬファイルの一例が示されている。図６ｂに示されたＨＴＭＬファイルは、実際のアダルトサイトに含まれたＨＴＭＬファイルであって、上述したメタタグなどを用いて多数のアダルトサイトへのリダイレクトが実行されるように動作する。図６ｂに示されたＨＴＭＬファイルの一例によると、該当ウェブサイトは“ｈｔｔｐ：／／ｗｗｗ．ｓｅｘｈｏｕｓｅ．ｃｏｍ／ｒａｔｉｎｇ．ｈｔｍｌ”、“ｈｔｔｐ：／／ｗｗｗ．ｐｏｒｎｏ．ｃｏｍ”、“ｈｔｔｐ：／／ｗｗｗ．ｈａｒｄｃｏｒｅ．ｃｏｍ”、および“ｈｔｔｐ：／／ｗｗｗ．ｐｕｓｓｙ．ｃｏｍ”にリダイレクトされる。

抽出されたリダイレクトタグに含まれたターゲットＵＲＬを抽出する（ステップ５１７）。本発明の好ましい一実施例によると、ステップ５１７で、抽出されたターゲットＵＲＬを用いて次の方法で変質サイトであるかを判別する。

まず、前記抽出されたターゲットＵＲＬ自体に含まれた文字列を分析して変質サイトであるかを判別する。この場合、前記抽出されたターゲットＵＲＬの文字列を分析する（ステップ５１８）。図６ａないし図６ｂに示された変質サイトのＨＴＭＬファイルの一例においては、抽出されたターゲットＵＲＬは“ｈｔｔｐ：／／ｗｗｗ．ｓｅｘｈｏｕｓｅ．ｃｏｍ”などであり、前記ターゲットＵＲＬで抽出された文字列としては“ｗｗｗ”、“ｓｅｘ”または“ｓｅｘｈｏｕｓｅ”などである。図６ａおよび図６ｂに示されたＨＴＭＬファイルの一例においては、ターゲットＵＲＬの文字列として英語が記載されているが、このような文字列としてはハングル（ハングルドメインネーム）または数字である。また、本発明の好ましい一実施例によると、前記文字列は、本発明による検索エンジンに登録されたウェブサイトを管理するための方法が適用されるすべての国の母国語ドメインネームを含む。

次に、前記抽出されたターゲットＵＲＬとして特定されるウェブサイトに含まれたＨＴＭＬファイルの文字列を分析して変質サイトであるかを判別する。この場合は、ステップ５１７でターゲットＵＲＬを抽出した後、図５ｄに示された方法によって所定の文字列を抽出する。検索ロボットを制御し、ステップ５１７で抽出されたターゲットＵＲＬとして特定されるウェブサイトを訪問し、前記ウェブサイトに含まれたＨＴＭＬファイルを抽出するように制御する（ステップ５４３）。抽出されたＨＴＭＬファイルに含まれた文字列を分析し（ステップ５４４）、再び図５ａのステップ５１９に戻る。

上述したように、前記ターゲットＵＲＬ自体に含まれた文字列または前記ターゲットＵＲＬとして特定されるウェブサイトのＨＴＭＬファイルに含まれた文字列を抽出した後、前記アダルトキーワードデータベースを参照し（ステップ５１９）、前記アダルトキーワードデータベースに抽出された文字列に対応するアダルトキーワードが記録されているかを検索する（ステップ５２０）。検索結果、前記文字列に対応するアダルトキーワードがある場合には図５ｃに分岐し、ない場合には再びステップ５１５に戻る。本発明による変質サイト判別方法によると、変質サイトであるかを判別するために前記ターゲットＵＲＬ自体に含まれた文字列を分析する方法を用いたり、前記ターゲットＵＲＬとして特定されるウェブサイトのＨＴＭＬファイルに含まれた文字列を分析する方法を用いたりして、両方法をハイブリッド方式で併用することによって所定のウェブサイトが変質サイトであるかを判別するように動作する。

図５ｃを参照すると、ステップ５２０で、前記文字列に対応するアダルトキーワードがある場合には、前記アダルトキーワードをターゲットＵＲＬの文字列に含んでいると判断されたウェブサイトが変質サイトであるかを判断するため、前記ウェブサイト情報データベースを参照して前記ウェブサイトの登録情報を検索する（ステップ５２２）。上述したように、変質サイトは、従来ウェブサイト登録当時には一般サイトとして登録されたウェブサイトが、登録以後にアダルトサイトに変質された場合を意味するためである。

ウェブサイト情報データベース手段に格納された前記ウェブサイトのウェブサイトカテゴリ情報を検索して前記ウェブサイトがアダルトサイトとして登録されているかを判断（ステップ５２３）し、アダルトサイトに登録されていないウェブサイトの場合には前記ウェブサイトを変質サイトとして判断する。

ステップ５２３で、該当ウェブサイトを変質サイトと判断した場合には図７に分岐（ステップ５１４）して前記ウェブサイトに対して所定の措置を取るようにし、変質サイトではない場合には図５ｂのステップ５０５に戻る。

本発明のさらに他の一実施例によると、本発明による検索エンジン管理システムで検索エンジンに登録されたウェブサイトを管理するための方法は、所定のウェブサイトを構成する１つ以上のウェブページに対して該当ウェブページの最上位ページがスパムページである場合、１つ以上の下位ページを含む該当ウェブサイトをスパムサイトと規定するように動作してもよい。これはスパムサイトを決定するための政策的な方法であって、通常、最上位ページがスパムページである場合、該当ウェブサイトがスパムサイトである可能性が高いという統計的な手法を介して得られた結論であり、通常、ユーザが検索エンジンを介して特定ウェブサイトを訪問する最初の画面が最上位ページである場合が多いため、このような最上位ページがスパムページの場合、該当ウェブサイトをスパムサイトと規定するように実装されることが可能である。

図７ａは、本発明の一実施例による特定ウェブサイトが１つ以上の上位および下位ウェブページで構成された場合、該当ウェブサイトをスパムサイトと判断する方法を説明するためのウェブページ構成階層図である。

図７ａを参照すると、特定ウェブサイト（ドメインネームｗｗｗ．ｘｘｘ．ｃｏｍ）は４つのサーブページに分割され、各サーブページは１つ以上の下位ウェブページで構成されている。このうち、最上位ページであるｗｗｗ．ｘｘｘ．ｃｏｍ／ｉｎｔｒｏ．ｈｔｍｌに対してＨＴＭＬ文章の抽出を介した本発明によるスパムページ検出方法によって該当ウェブページがスパムページであるかを判断する。この場合、最上位ページであるｗｗｗ．ｘｘｘ．ｃｏｍ／ｉｎｔｒｏ．ｈｔｍｌが本発明によるスパムページ検出方法によってスパムページと判断される場合には、該当ウェブサイト（ｗｗｗ．ｘｘｘ．ｃｏｍ）をスパムサイトと判断することができる。

また、本発明によると、最上位ページはスパムページではないが、最上位ページに付属する下位ページの中で一定の比率以上がスパムページの場合、該当ウェブサイトをスパムサイトと判断する。すなわち、ｗｗｗ．ｘｘｘ．ｃｏｍのサブページディレクトリである／ａｄｕｌｔ、／ｌｏｇｉｎ、／ｍｅｍｂｅｒｓ、および／ｉｎｆｏを構成する１つ以上の下位ページの中で選定された比率以上がスパムページの場合、該当ウェブサイトをスパムサイトと判断するように実装されることが可能である。一例として、前記の比率を７０％と設定しておいた場合、最上位ページを除外した下位ページの個数が総２０個であり、これらそれぞれに対するＨＴＭＬ文章の抽出を介した分析を介して総１６個のページがスパムページである場合、前記比率は１６／２０＝０．８となり、該当ウェブサイトは設定された比率である７０％以上の下位ページがスパムページで構成されたスパムサイトと判断することが可能である。

このような本発明によるスパムページ判断方法を、添付した図７ｂを参照して詳しく説明する。

図７ｂは、本発明による登録されたウェブサイトを管理するための方法において、１つ以上のウェブページで構成されたウェブサイトに対する判断方法の一例を示した流れ図である。

図７ｂを参照すると、本発明によるスパムサイト判断方法は下記ステップを含んで実行される。

上述したように、ユーザは自分のウェブサイトを所定の検索エンジンに登録する（ステップ７０１）。本発明による登録ウェブサイト管理システムにおいては、登録されたウェブサイトに対するウェブサイト情報をデータベース手段でフィールド別に記録し格納する（ステップ７０２）。前記ウェブサイトのウェブページの中で最上位ページである第１ページのＨＴＭＬファイルを抽出し（ステップ７０３）、抽出されたＨＴＭＬファイルを分析する（ステップ７０４）。

前記抽出されたＨＴＭＬファイルを分析して前記第１ページがスパムページであるかを判断する（ステップ７０５）。ステップ７０５で、前記第１ページがスパムページであるかを判断する方法は、上述した図３ａおよび図３ｂに示された方法を用いる。

ステップ７０５で、前記第１ページがスパムページであると判断された場合、該当ウェブサイトをスパムサイトと判断し（ステップ７０６）、図８に分岐して該当ウェブサイトに対する所定の処理を実行するように動作する。

ステップ７０５で、前記第１ページがスパムページではないと判断された場合、前記第１ページの下位ページである１つ以上の第２ページに対するＨＴＭＬファイルの抽出を実行する（ステップ７０７）。抽出された第２ページのＨＴＭＬファイルを分析して該当第２ページがスパムページであるかを判断し、スパムページと判断された第２ページの個数情報をカウントする（ステップ７０８）。前記第２ページの総個数と前記ステップ７０８でカウントされたスパムページと判断された第２ページの個数の比率情報を算出する（ステップ７０９）。算定された比率情報が選定された値以上であるかを判断し（ステップ７１０）、判断結果、前記比率情報が選定された値以上である場合には、該当ウェブサイトをスパムサイトと判断し（ステップ７１１）、図８に分岐して該当ウェブサイトに対する所定の処理を実行するように動作する。

ステップ７１０で、前記算出された比率情報が選定された値より小さい場合、該当ルーチンは、ステップ７０３に分岐して該当動作を反復するように実装される。

上述した方法を介して、１つ以上のウェブページで構成されたウェブサイトがスパムサイトであるか否かの判断を実行する。

＜スパムサイトまたは変質サイトに対する制裁措置＞
図８は、本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、スパムまたは変質サイトと判別されたウェブサイトの登録者に所定の制裁措置を加える方法を示す流れ図である。

図８を参照すると、上述した図３ａのステップ３０８でスパムサイトと判断された場合、または図５ｃのステップ５２３で変質サイトと判断された場合の自動制裁措置が示されている。スパムまたは変質サイトと判断された場合、ウェブサイト管理モジュールは、ウェブサイト情報データベースを検索して該当ウェブサイトの登録者の情報を獲得し（ステップ８１０）、ウェブサイト管理モジュールは、前記登録者の情報を受信する（ステップ８２０および８５０）。本発明の一実施例によると、ウェブサイト管理モジュールは、前記登録者情報から登録者の電子メールアドレスまたは移動通信端末機番号などの連絡情報を抽出し（ステップ８３０）、メールサーバまたはＳＭＳサーバを制御して前記連絡情報に対して所定のメッセージを伝送するように動作する（ステップ８４０）。

本発明のさらに他の一実施例によると、ウェブサイト管理モジュールは、前記登録者情報から登録者のその他の登録ウェブサイト情報を抽出（ステップ８６０）し、同一の登録者名義で登録されたその他のウェブサイトに対する分析（ステップ８７０）を自動的に実行するように制御する。同一の登録者名義のウェブサイトであれば、同一または類似した方法によってスパムまたは変質サイトを運営する可能性が高いためである。本実施例の場合、その他のウェブサイトの分析結果がスパムまたは変質サイトと判断された場合には、図８のステップ８１０が反復される。

本発明の好ましい一実施例によると、所定のウェブサイトが上述した分析および判断方法によってスパムまたは変質サイトと判断された場合、前記ウェブサイトの登録者に自動的に電子メール、ショートメッセージなどを送信して該当ウェブサイトの問題点を指摘し、一定の猶予期間を置いて是正を要求するように動作する。また、一定の猶予期間の経過後、自動的に前記分析および判断プロセスを実行するように設定し、この時にも是正がなされていない場合には、登録取消などの制裁措置を取ることも可能である。また、本発明の他の一実施例によると、前記ウェブサイトの登録者が後に他のウェブページを登録しようとする場合、登録手順を厳密にするなどの制裁を加えることも可能である。

本発明の実施例は、多様なコンピュータで実装される動作を実行するためのプログラム命令を含むコンピュータ読み取り可能媒体を含む。前記コンピュータ読み取り可能媒体において、プログラム命令、データファイル、データ構造などを単独または組み合わせて含む。前記媒体は、プログラム命令は本発明のために特別に設計されて構成されたものであっても、コンピュータソフトウェア当業者に公知されて使用可能なものであってもよい。コンピュータ読み取り可能記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスクおよび磁気テープのような磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびロム（ＲＯＭ）、ラム（ＲＡＭ）、フラッシュメモリなどのようなプログラム命令を格納し実行するように特別に構成されたハードウェア装置が含まれる。前記媒体は、プログラム命令、データ構造などを指定する信号を伝送する搬送波を含む光または金属線、導波管などの伝送媒体であることもある。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

図９は、本発明による検索エンジンで登録されたウェブページを管理するための方法として採用される汎用コンピュータシステムの内部ブロック図である。

コンピュータシステムは、ラム（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９６０とロム（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９７０を含む主記憶装置と連結される１つ以上のプロセッサ９４０を含む。プロセッサ９４０は、中央処理装置（ＣＰＵ）とも言われる。当業界で広く知られているように、ロム９７０はデータ（ｄａｔａ）と命令（ｉｎｓｔｒｕｃｔｉｏｎ）を単方向性でＣＰＵに伝達する役割をし、ラム９６０は通常、データと命令を双方向性で伝達するのに用いられる。ラム９６０およびロム９７０は、コンピュータ読み取り可能媒体のいかなる適切な形態をも含む。大容量記憶装置（ＭａｓｓＳｔｏｒａｇｅ）９１０は、双方向性でプロセッサ９４０と連結して追加的なデータ格納能力を提供し、前記したコンピュータ読み取り可能記録媒体の中のいかなるものにも該当する。大容量記憶装置９１０は、プログラム、データなどを格納するのに用いられ、通常、主記憶装置より速度が遅いハードディスクのような補助記憶装置である。ＣＤロム９２０のような特定大容量記憶装置が用いられることもある。プロセッサ９４０は、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチスクリーン型ディスプレイ、カード読み取り機、磁気または紙テープ読み取り機、音声または手書き文字認識機、ジョイスティック、またはその他の公知のコンピュータ入出力装置のような１つ以上の入出力インターフェイス９３０と連結される。最後に、プロセッサ９４０は、ネットワークインターフェイス９５０を介して有線または無線通信ネットワークに接続される。このようなネットワーク接続を介して前記した方法の手順を実行することができる。前記した装置および要素はコンピュータハードウェアおよびソフトウェア技術分野の当業者に広く知られている。

前記したハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして動作するように構成される。

以上のように、本発明は限定された実施例と図面によって説明されたが、本発明は前記の実施例に限定されるものでなく、これは本発明が属する分野で通常の知識を有する者にとっては、前記記載から多様な修正および変形が可能であろう。従って、本発明思想は添付の特許請求の範囲によってのみ把握されるべきであり、この均等または等価的変形すべては、本発明思想の範囲に属することは言うまでもない。

ウェブサイト検索エンジンサービスを提供するためのシステムの一例を示した構成ブロック図である。本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムを示した構成ブロック図である。本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。本発明の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法で生成されるポップアップウィンドウの個数を測定するためのウェブサイトＵＲＬのツリー構造を示した図である。本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たスパムサイトのＨＴＭＬファイルの一例を示した図である。本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たスパムサイトのＨＴＭＬファイルの一例を示した図である。本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。本発明のさらに他の一実施例による検索エンジンに登録されたウェブサイトを管理するための方法を示した流れ図である。本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たアダルトサイトのＨＴＭＬファイルの一例を示した図である。本発明の好ましい一実施例による検索エンジンに登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回して抽出し得たアダルトサイトのＨＴＭＬファイルの一例を示した図である。本発明の一実施例による、特定ウェブサイトが１つ以上の上位および下位ウェブページで構成された場合、該当ウェブサイトをスパムサイトと判断する方法を説明するためのウェブページ構成階層図である。本発明による登録されたウェブサイトを管理するための方法において、１つ以上のウェブページで構成されたウェブサイトに対する判断方法の一例を示した流れ図である。本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法において、スパムまたはアダルトサイトと判別されたウェブサイトの登録者に所定の制裁措置を加える方法を示す流れ図である。本発明による検索エンジンで登録されたウェブサイトを管理する方法で採用される汎用コンピュータシステムの内部ブロック図である。

Claims

検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法であって、
所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、
前記ウェブサイトのウェブページを構成するＨＴＭＬファイルを抽出するステップと、
抽出された前記ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、
前記カウンタ値が選定された値以上であるかを判断するステップと、
前記カウンタ値が選定された値以上である場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
を含むことを特徴とする登録されたウェブサイトの管理方法。
前記所定の関数は、前記ウェブサイトから他のウェブサイトに移動する場合に新しいポップアップウィンドウを生成するようにする関数、または前記ウェブサイトに移動した場合に新しいポップアップウィンドウを生成するようにする関数であることを特徴とする請求項１に記載の登録されたウェブサイトの管理方法。
抽出された前記ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出する前記ステップは、
前記関数に含まれたポップアップウィンドウのＵＲＬを訪問して前記ＵＲＬのウェブページを構成する第２ＨＴＭＬファイルを抽出するステップと、
抽出された前記第２ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
を含むことを特徴とする請求項１に記載の登録されたウェブサイトの管理方法。
前記抽出されたＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出する前記ステップは、
抽出された前記ＨＴＭＬファイルを分析して前記ＨＴＭＬファイルに含まれたリダイレクトタグを検出するステップと、
検出された前記リダイレクトタグのターゲットＵＲＬのウェブサイトを構成するウェブページの第３ＨＴＭＬファイルを抽出するステップと、
抽出された前記第３ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
を含むことを特徴とする請求項２に記載の登録されたウェブサイトの管理方法。
前記選定された値は３であることを特徴とする請求項１に記載の登録されたウェブサイトの管理方法。
検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法であって、
所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、
前記ウェブサイトの前記ウェブページの中で最上位ページである第１ページのＨＴＭＬファイルを抽出するステップと、
前記第１ページから抽出されたＨＴＭＬファイルを分析して前記第１ページがスパムページであるかを判断するステップと、
前記第１ページがスパムページと判断された場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
を含み、
前記第１ページがスパムページであるかを判断する前記ステップは、
抽出された前記ＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出するステップと、
前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させるステップと、
前記カウンタ値が選定された値以上であるかを判断するステップと、
前記カウンタ値が選定された値以上である場合、前記第１ページをスパムページと判断するステップと、
を含むことを特徴とする登録されたウェブサイトの管理方法。
前記第１ページがスパムページではないと判断された場合、前記第１ページの下位ページである１つ以上の第２ページのＨＴＭＬファイルを抽出するステップと、
前記第２ページで抽出されたＨＴＭＬファイルを分析して前記第２ページがスパムページであるかを判断するステップと、
前記第２ページの総個数とスパムページと判断された第２ページの個数を演算してスパムページの比率情報を算出するステップと、
前記スパムページの比率情報が選定された値以上である場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
をさらに含むことを特徴とする請求項６に記載の登録されたウェブサイトの管理方法。
検索エンジン管理システムにおいて検索エンジンに登録されたウェブサイトを管理するための方法であって、
所定のインターフェイスモジュールでウェブサイトに対する情報を受信し、ウェブサイト登録モジュールが、前記受信されたウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録するステップと、
所定のアダルトキーワードが記録されているアダルトキーワードデータベースを維持するステップと、
前記ウェブサイトのウェブページを構成するＨＴＭＬファイルを抽出するステップと、
抽出された前記ＨＴＭＬファイルを分析し、前記ＨＴＭＬファイルに含まれたリダイレクトタグを抽出するステップと、
抽出された前記リダイレクトタグのターゲットＵＲＬと関連する所定の文字列を抽出するステップと、
前記アダルトキーワードデータベースを参照し、抽出された前記文字列に対応するアダルトキーワードがあるかを検索するステップと、
前記アダルトキーワードがある場合、前記登録されたウェブサイトに対して所定の処理を実行するように制御するステップと、
を含むことを特徴とする登録されたウェブサイトの管理方法。
前記リダイレクトタグは、メタタグ形式であることを特徴とする請求項８に記載の登録されたウェブサイトの管理方法。
前記ターゲットＵＲＬと関連する所定の文字列は、前記ターゲットＵＲＬ自体に含まれた文字列であることを特徴とする請求項８に記載の登録されたウェブサイトの管理方法。
前記ターゲットＵＲＬと関連する所定の文字列は、前記ターゲットＵＲＬとして特定されるウェブサイトのＨＴＭＬファイルに含まれた文字列であることを特徴とする請求項８に記載の登録されたウェブサイトの管理方法。
前記文字列は、英語、韓国語、または数字のいずれか１つ以上を含むことを特徴とする請求項８に記載の登録されたウェブサイトの管理方法。
前記データベース手段はウェブサイト登録者フィールドを含み、
前記所定の処理を実行するように制御するステップは、
前記データベース手段のウェブサイト登録者フィールドを検索して前記ウェブサイトの登録者情報を獲得し、前記ウェブサイトの登録者情報から前記登録者の連絡情報を抽出するステップと、
前記抽出された連絡情報に対してメッセージを伝送するように所定のメッセージ伝送手段を制御するステップと、
を含むことを特徴とする請求項１、６、８のいずれか一項に記載のウェブサイトの登録管理方法。
前記連絡情報は前記ウェブサイト登録者の電子メールアドレスまたは移動通信端末機番号であり、前記メッセージ送信手段は電子メールサーバまたはショートメッセージサービスサーバであることを特徴とする請求項１３に記載の登録されたウェブサイトの管理方法。
請求項１ないし１２のいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
検索エンジンに登録されたウェブサイトを管理するためのシステムであって、
１つ以上の端末機とデータ通信を実行するためのインターフェイスモジュールと、
前記１つ以上の端末機から所定のウェブサイトの情報を含むウェブサイト登録申請を受信し、前記ウェブサイト情報を所定のフィールド別に分類するためのウェブサイト登録モジュールであって、前記ウェブサイト情報は前記ウェブサイトの登録者情報を含む、ウェブサイト登録モジュールと、
前記ウェブサイト情報を分類して格納するためのデータベース手段と、
前記ウェブサイトのウェブページを構成するＨＴＭＬファイルを抽出し、抽出されたＨＴＭＬファイルを分析するためのウェブサイト分析モジュールと、
前記ウェブサイトがスパムサイトであるかを判断し、前記ウェブサイトがスパムサイトであると判断した場合、前記データベース手段を参照して前記ウェブサイト登録者情報を抽出し、前記ウェブサイト登録者情報に含まれた連絡情報を用いて前記ウェブサイトの登録者に所定のメッセージを伝送するように所定のメッセージ送信手段を制御するウェブサイト管理モジュールと、
を含み、
前記ウェブサイト管理モジュールは、前記抽出されたＨＴＭＬファイルを分析してポップアップウィンドウを生成させる所定の関数を検出し、前記検出された関数によって生成されるポップアップウィンドウの個数に従って所定のカウンタ値を所定値だけ増加させ、前記カウンタ値が選定された値以上であるかを判断し、前記カウンタ値が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作することを特徴とするウェブサイト登録管理システム。
前記ウェブサイト分析モジュールは前記ウェブページの中で最上位の第１ページのＨＴＭＬファイルを抽出し、前記ウェブサイト管理モジュールは、前記第１ページに対する前記カウンタ値が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作することを特徴とする請求項１６に記載のウェブサイト登録管理システム。
前記ウェブサイト管理モジュールで前記第１ページに対する前記カウンタ値が前記選定された値以上でないと判断した場合、前記ウェブサイト分析モジュールは、前記第１ページの下位ページである１つ以上の第２ページのＨＴＭＬファイルを抽出し、抽出されたＨＴＭＬファイルを分析し、
前記ウェブサイト管理モジュールは、前記第２ページがスパムページであるかを判断し、前記第２ページの総個数とスパムページと判断された第２ページの個数を演算してスパムページの比率情報を算出し、前記スパムページの比率情報が選定された値以上である場合、前記ウェブサイトをスパムサイトと判断するように動作することを特徴とする請求項１７に記載のウェブサイト登録管理システム。