JP2006522382A - 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム - Google Patents

検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム Download PDF

Info

Publication number
JP2006522382A
JP2006522382A JP2006500663A JP2006500663A JP2006522382A JP 2006522382 A JP2006522382 A JP 2006522382A JP 2006500663 A JP2006500663 A JP 2006500663A JP 2006500663 A JP2006500663 A JP 2006500663A JP 2006522382 A JP2006522382 A JP 2006522382A
Authority
JP
Japan
Prior art keywords
website
registered
predetermined
information
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006500663A
Other languages
English (en)
Inventor
ギュン ナ、ソン
ジョン イ、ヒョン
ジョン チェ、ギ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2006522382A publication Critical patent/JP2006522382A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

インターネット上で所定のウェブサイトに対する情報を提供する検索エンジンにおいて、検索エンジンに登録される所定のウェブサイトに対する情報を分析し、ウェブサイトが含んでいるコンテンツの主題と相違した検索結果が提供されないよう、登録されたウェブサイトを管理するための方法およびそのシステムを開示する。該方法は、登録されたウェブサイトに対する情報を受信し、ウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録する。検索ロボットを制御して登録されたウェブサイトのウェブページを構成するソースファイルを読み出し、読み出されたソースファイルを分析する。所定の基準によってウェブサイトが詐欺サイトであるかを判断する。ウェブサイトが詐欺サイトであると判断される場合、登録されたウェブサイトに対して所定の処理を遂行するように制御する。好ましくは、ソースファイルはハイパーテキストマークアップ言語(HTML)文書である。

Description

本発明は、インターネット上で所定のウェブサイトに対する情報を提供する検索エンジンに関する。より詳しくは、検索エンジンに登録されている所定のウェブサイトに対する情報を分析し、ウェブサイトに含まれている実際コンテンツと相違した検索結果が提供されないよう、登録されたウェブサイトを管理するための方法に関する。
アルタビスタ(http://www.altavista.com)、ライコス(http://www.lycos.com)、ヤフー(http://www.yahoo.com)などの通常の検索エンジンは、普通、ウェブサイト情報を所定の基準によって分類および格納して管理するためのデータベースと、ウェブ上を持続的に巡回しながら新しいウェブサイト情報を機械的に収集するためのソフトウェアで具現される検索ロボット(robot)と、収集されたデータをデータベース化して前記検索エンジンを用いる利用者が検索可能なようにする検索エンジンソフトウェアとから構成される。
上述した検索エンジンサービスを提供するための全体システムのブロック図が図1aに示されている。図1aを参照すると、ユーザはユーザ端末機(110)を介し、インターネットを通じて検索エンジンサーバ(150)に接続する。ユーザが所定の検索語を入力すると、検索エンジンサーバ(150)は検索エンジンソフトウェア(140)に該当の検索語に対するウェブサイト情報をクエリー(query)し、検索エンジンソフトウェア(140)は該当のデータベース(130)を検索して所定のウェブサイト情報を知らせる。検索ロボット(120)は、上記で説明したように、ウェブ上を持続的に巡回しながらウェブサーバ(160)から新しいウェブサイト情報を機械的に収集するためのソフトウェアで具現されるエンティティ(entity)である。検索ロボット(120)は、ネットワーク上でHTML(HyperText Markup Language)で記述された文書を探索し、記載されているリンク先をパーシング(parsing)し、ネットワーク上に存在する多数のウェブサイトからデータを収集する。このように検索ロボット(120)によって収集されたデータはデータベース化される。ここで、データベース化とは、ウェブサイトに位置する所定の情報に対して形態素分析(morphological analysis)を遂行し、インデックステーブルを作成し、データベース(130)に格納する一連の手順を意味する。データベース(130)は、検索ロボット(120)によって収集されたすべてのウェブサイト情報を格納するためのものである。検索エンジンソフトウェア(140)は、検索結果をユーザに示す機能を行う。このソフトウェアは、データベース(130)に格納された複数のページを検索し、検索結果物を検索用語と一致する正確度の順に並べる。上記のような従来の検索エンジンは、次のような方法でウェブサイトに対する情報を検索エンジンに登録して前記情報をユーザに提供する。
(1)上述したように、検索ロボットを用いて所定の情報を収集し、収集された情報を専門サーファー(surfer)の検収を経て前記ウェブサイトを検索エンジンに登録する。
(2)登録しようとするウェブサイトの主題によって分類されたディレクトリを選択し、前記選択されたディレクトリに対して前記ウェブサイト登録申請をし、専門サーファーの検収を経て検索エンジンに登録される。検索エンジンによるこのようなディレクトリ登録の場合では、所定の登録料を受け、登録に要される時間を削減するサービスを提供したりする。
前記の方法で検索エンジンに登録されたウェブサイトは、所定の情報を検索しようとするユーザの検索語入力により、統合ウェブ検索またはディレクトリ検索などの多様な検索方式によって検索されてユーザに提供される。前記統合ウェブ検索は、他の用語で“単語
別検索”ともいわれる。この検索方法は、データベースにすべてのウェブサイトのユニフ
ォームリソースロケータ(URL)を格納し、特定キーワード(Keyword)を入力することによって所望する情報を探す方法をいう。また、前記ディレクトリ検索は、他の用語で“主題別検索”ともいわれる。この検索方法は、各分野別に分類されており、所望
する分野をリンクすると、その分野の詳細項目を詳しく見ることができる検索方法である。このように、ユーザが継続してリンクを行って詳細項目を検索すると、ユーザが所望する情報を探し出せるようになっている。例えば、2002年韓国ワールドカップにおいて、韓国チームの競技スコアを検索しようとする場合、スポーツ→球技種目→サッカー→ワールドカップ→韓国/日本2002年ワールドカップ→韓国チーム競技スコアなどの方法で検索することができる。図1bには、このようなディレクトリ検索方式の一例が出力された画面が示されている。“ワールドカップ”に対して検索されたディレクトリとして“
ワールドカップ”“2002FIFAワールドカップ韓国・日本”“ワールドカップの歴
史”などが出力され、ユーザは前記ディレクトリの中から自分が検索しようとする情報が
位置する可能性が高いディレクトリに移動することによって情報検索を遂行することができる。上述したウェブ統合検索方法を用いた代表的な検索エンジンとしては、カーネギーメロン大学のマイケル L.モールディンが開発したライコス(http://lycos.cs.cmu.edu)検索エンジンを挙げることができ、前記ディレクトリ検索方法を用いた代表的な検索エンジンとしては、ヤフー(http://www.yahoo.com)が挙げられる。現在、多数の検索エンジンは、上述した検索方法を共にサービスするハイブリッド(hybrid)方式のサービスを提供している。
上述した従来技術による検索エンジンでのウェブサイト登録方法と登録されたウェブサイトの検索方法においては、次のような問題点がある。
インターネットユーザが急増している中、所定の情報を検索しようとするユーザの数が増加するのに伴って、彼らが検索しようとする情報の種類も増加している。このようなユーザおよび検索しようとする情報の種類の増加に伴って出現頻度の高い検索語が生じるようになり、このような出現頻度の高い検索語(以下、“人気キーワード”とする)を自分
のウェブサイトに多様な方法で挿入することによって、前記検索語を用いて検索をしようとするユーザに全く無用なコンテンツが含まれたウェブサイト(以下、“詐欺サイト”と
する)に対する情報を提供するようになるという問題点がある。例えば、人気キーワードの中の1つである“ピカチュウ”に対する情報を検索しようとするユーザが“ピカチュウ
”を検索語として入力した場合、ウェブサイトに“ピカチュウ”が含まれている登録され
た全てのウェブサイト情報が前記ユーザに提供されるが、ウェブサイトの中でコンテンツはアダルト物に関するものでありながら、ウェブサイトの中には多様な(大部分の場合、悪意的な)方法で“ピカチュウ”テキストを挿入したウェブサイトが存在することがあり
、このようなアダルト物をコンテンツとしているウェブサイトの情報が上述した人気キーワードを挿入することによって、多様な年齢帯のユーザに露出される危険性を有するという問題点がある。
上述した問題点を解決するための解決策として、ユーザの告発・申告または専門サーファーなどの専門家による登録ウェブサイトの持続的なモニタリングが必要であるが、このような従来技術による解決方法が上述した問題点に対する窮極的な解決策となることができないのは自明であり、このような問題点をインターネット上で所定のアルゴリズムを介して自動的に遂行される方法が導出され得るとしたら、上述した問題点を一挙に解決することができる有用な手段となるはずである。
本発明による検索エンジンでウェブサイトの登録を管理するための方法は、上述した従来技術の問題点を解決するためのものであって、上述した詐欺サイトを所定のアルゴリズムを用いて自動的に検出可能にすることによって、検索エンジンユーザが検索しようとする情報を正確に検索することができる検索エンジンを提供することを目的とする。
また、前記詐欺サイトを自動的に検出し、検出された詐欺サイト運営者に対する制裁措置を加えることによって、検索エンジンに登録されるウェブサイト自体の自浄が強化されるようにすることを他の目的とする。
また、前記詐欺サイトの検出および検出された前記サイトに対する警告などの制裁措置を所定のアルゴリズムによって自動的に遂行することによって、上述した詐欺サイト検出のために要される多数の人力資源を節約することを他の目的とする。
上記の目的を達成するため、本発明による検索エンジンでウェブサイトの登録を管理するための方法は、前記登録されたウェブサイトに対する情報を受信し、前記ウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録する段階と、検索ロボットを制御して前記登録されたウェブサイトのウェブページを構成するソースファイルを読み出す段階と、前記読み出されたソースファイルを分析する段階と、所定の基準によって前記ウェブサイトが詐欺サイトであるかを判断する段階と、前記ウェブサイトが詐欺サイトであると判断される場合、前記登録されたウェブサイトに対して所定の処理を遂行するように制御する段階とを含むことを特徴とし、好ましくは、前記ソースファイルはハイパーテキストマークアップ言語(HTML)文書である。
また、1つ以上の端末機とデータ通信を遂行するためのインターフェイスモジュールと、前記1つ以上の端末機から所定のウェブサイトの情報を含むウェブサイト登録申請を受信して前記ウェブサイト情報を所定のフィールド別に分類するためのウェブサイト登録モジュールと、前記ウェブサイト情報および前記ウェブサイトに対応する所定のキーワードを分類して格納するためのデータベース手段と、前記ウェブサイトのウェブページを構成するソースファイルを抽出し、抽出されたソースファイルを分析するためのウェブサイト分析モジュールと、所定の基準によって前記ウェブサイトが詐欺サイトであるかを判断するためのウェブサイト管理モジュールをを含むことを特徴とする。
上述したように、本明細書で用いられる詐欺サイトとは、ウェブページのソースファイルなどに多様な方法で所定のキーワードなどを挿入し、検索語を介して検索される内容と実際ウェブサイトに含まれたコンテンツが完全に相違したウェブサイトを意味する。本発明の一実施例によると、前記ウェブページのソースファイルなどに挿入される所定のキーワードは人気キーワードである。
また、本明細書で用いられる人気キーワードとは、インターネットユーザが入力する検索語のうち、その出現頻度が非常に高い検索語を意味するが、このような人気キーワードは、その当時の社会状況とインターネットユーザの趣向によって持続的に変化する。このような人気キーワードには、社会的に有害な内容を内包している一種の有害キーワードが含まれることがあるが、このような有害キーワードの例としては“自殺”“いじめ”“ギ
ャンブル”“犯罪謀議”などが挙げられる。
以下、添付された図面を参照して、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理する方法に対して詳述する。
図2は、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するためのシステムを示した構成ブロック図である。図2を参照すると、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するためのシステムは、インターフェイスモジュール(201)、ウェブサイト登録モジュール(202)、ウェブサイト管理モジュール(203)、ウェブサイト情報データベース(204)、ウェブサイト分析モジュール(205)、および検索ロボット(207)から構成される。また、本発明の好ましい一実施例によると、検索エンジンでウェブサイトの登録を管理するためのシステムは、登録ウェブサイトの登録者に所定のメッセージを送信するためのメールサーバ(208)、またはSMSサーバ(209)を含む。このようなメールサーバ(208)とSMSサーバ(209)は、検索エンジンサービス提供システム内に含まれたり、第3者が運営するシステム内に位置したりする。また、図2には、インターフェイスモジュール(201)、多種モジュール、およびメールサーバ(208)またはSMSサーバ(209)が別個のエンティティであるかのように示されているが、これは説明の便宜によるためだけであり、同一のエンティティである。また、前記図2に示された構成要素は、物理的にも同一の場所に位置するものや、他の実施例によると物理的に離隔されているものがある。
まず、インターフェイスモジュール(201)は、所定のウェブサイトを検索エンジンに登録しようとする登録者側に備えられたコンピュータ端末機と検索エンジンの登録管理システムの間のデータ伝送および物理的伝送装備の間のインターフェイス役割を担うモジュールである。
ウェブサイト登録モジュール(202)は、前記登録者から所定のウェブサイトに対する登録申請を受信し、ウェブサイト登録申請に含まれたウェブサイトに対する情報データを収集および分類する機能を担う。このようなウェブサイト登録モジュール(202)は、ウェブサイト登録に対する所定の課金を遂行する課金モジュール(未図示)をさらに含み、課金モジュールは、登録を所望するウェブサイトの種類(一般的な内容を含んでいる一般サイトまたはアダルトコンテンツを含んでいるアダルトサイト)によって、その課金内訳が異なって適用されるように作動する。
ウェブサイト管理モジュール(203)は、本発明によるウェブサイトの登録管理を総括するモジュールであって、検索ロボット(207)が収集したウェブサイトに対する情報に基づき、前記ウェブサイトが選定された基準に適合して運営されているかを判断し、不適当に運営されるウェブサイト、すなわち詐欺サイトであると判断される場合、前記登録者に対して所定の措置を自動的に取るように制御する機能を担う。また、ウェブサイト管理モジュール(203)は、メールサーバ(208)やショートメッセージサービス(SMS)サーバ(209)と連動することによって、前記詐欺サイトの登録者に対して電子メールを送信したり、前記登録者の移動通信端末機にSMSを送信することで、ウェブサイトの不正運営に対する警告をすることができる。
ウェブサイト情報データベース(204)は、登録されたウェブサイトに対する情報を分類して記録する役割を担当する。ウェブサイト情報データベース(204)には、ウェブサイトのユニフォームリソースロケータ(URL)、該当ウェブサイトのキーワード、該当ウェブサイトの登録者情報(登録者氏名、住所、電子メールアドレス、移動通信端末機番号など)、該当ウェブサイトのディレクトリ情報など、多様な情報が各フィールド別に分類および格納されている。
本発明によるウェブサイト情報データベース(204)に格納された情報は、システム管理者および前記ウェブサイトの登録者によって修正されたり、ウェブサイトのコンテンツが変化する場合、登録者が直接修正しなくても、検索ロボット(207)が収集したデータの分析結果(該当ウェブサイトのURLに対応する新しいキーワードなど)などによって自動的に該当情報が更新されるように作動したりする。
ウェブサイト分析モジュール(205)は、検索ロボット(207)が収集したウェブサイトの情報を分析する役割を担う。検索ロボット(207)が収集するデータの種類と分析方法に対しては、下記の図3に対する説明と共に詳述する。
上述した本発明の一実施例による検索エンジンでウェブサイトの登録を管理するためのシステムを構成する各構成要素は、説明の便宜のために単純に機能的に区分しただけで、各構成要素の実際の物理的位置とは無関係である。また、上述したモジュールは、ハードウェアで具現されたり、特定コードを用いたソフトウェアで具現されたりすることは、当業者にとって自明である。
図3は、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法を示す流れ図である。以下、図4aないし図4k、および図6を参照して、図3に示された本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法に対して詳述する。
図3に示された本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法は、次のように遂行される。所定のウェブサイトを検索エンジンに登録しようとする登録者は、登録を所望するウェブサイトに対する情報と共にウェブサイト登録申請を行う(段階305)。前記ウェブサイトに対する情報は、ウェブサイト情報データベースに情報フィールド(登録者氏名、住所、電子メールアドレス、移動通信端末機番号など)別に分類されて記録され(段階310)、前記ウェブサイトは検索エンジンに登録される(段階315)。このような登録段階(段階315)は、いくつかのルートを介して遂行されるが、上述したように、ウェブサイト管理者が検索エンジンに自分のウェブサイトの登録を依頼することによって登録される場合と、検索ロボットがウェブ上を無作為に巡回しながら得たウェブサイト情報を用いてウェブサイトが検索エンジンに登録される場合とがある。前者の場合には、ウェブサイト登録者が自分のウェブサイトの主題(例えば、“ピカチュウ”“弁理士試験”など)を定め、前記ウェブサイトの主題と最も近
接したカテゴリにウェブサイトの登録を申請し、申請されたウェブサイトに対しては、専門サーファーの検収を経て所定の条件(ウェブサイトの完成度、登録費用を支払っていない場合には非商業的サイト要件の充足可否など)を満たすものと判断される場合に検索エンジンに登録される。本発明による検索エンジンでウェブサイトの登録を管理するための方法においては、検索エンジンに登録されるルートを前記登録者の申請による場合に限定して説明しているが、本発明による検索エンジンでウェブサイトの登録を管理するための方法およびそのシステムは、検索エンジンにウェブサイトが登録される多種多様な方法に対しても同様に適用される。
ウェブサイトが登録されると、検索エンジンは検索ロボットを制御し、登録されたウェブサイトのウェブページを構成するソースファイルを読み出し、読み出されたソースファイルを分析する(段階320)。
本発明の一実施例による分析方法は、ハイパーテキストマークアップ言語(HyperText Markup Language; HTML)文書を分析する方法である。さらに詳しくは、ウェブサイトのHTML文書内のタグを分析することによって、出現頻度が高い検索語、すなわち人気キーワードを自分のウェブサイトを構成するHTML文書に挿入したウェブサイト、すなわち詐欺サイトであるかを判断することができる。当業者であれば周知のとおり、HTML文書はタグという一種の命令語と共に構成されており、ウェブサイトを作成するウェブデザイナーなどは、このようなタグを介してウェブサイトを構成して、自分のウェブサイトで提供しようとするコンテンツを自分のウェブサイトに含ませる。
図4aないし図4kは、図3aの段階320にて遂行される、ウェブサイトのハイパーテキストマークアップ言語文書を分析し、HTML文書に含まれたタグに詐欺サイトとして判断することができる素地がある文字列を含む多様な実施例を示す図であって、さらに詳しくは、ウェブサイトのHTML文書タグを分析し、多様な方式の詐欺サイトを検出する多様な類型を示した図である。以下、図4aないし図4kを参照して、本発明による検索エンジンでウェブサイトの登録を管理するための方法において、HTML文書の分析がどのように遂行されるのかに対して詳述する。
(1)背景色と同一色の文字列を用いた詐欺サイト
図4aは、ウェブサイトの背景色と同一色の文字列をタグとして含んでいる詐欺サイトの一例を示した図である。左側の図はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。図4aの上段に示されたソースファイルを見ると、バックグラウンドカラー(bgcolor)として#FFFFFFが指定されており、テキストのカラーも#FFFFFFで指定されていて、テキストである“スタークラフト”と“ゾラマン(韓
国で人気のキャラクター)”がウェブサイトの画面には表示されていない。図4aの下段
に示された一例も同様に、バックグラウンドカラーとして白色を意味する#FFFFFFが指定されており、テキストのカラーも白色(white)で指定されていて、テキストである“スタークラフト”と“ゾラマン”がウェブサイトの画面には表示されていない。
図4aのソースファイルに示された<body>タグは、当業者であれば周知のように、ウェブブラウザに表示される背景またはテキストの様々な属性を設定できるようにするものである。タグは大きく、スタートタグとエンドタグから構成されるタグ(図4aに示された<body></body>または<font></font>タグ)と、エンドタグの必要がない単独タグに区分され、このようなタグを用いてウェブサイトを多様な方式で構成することができる。前記のように背景色と文字列の色が同一であれば、このようなウェブサイトは所定の人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされる。
(2)リダイレクト(redirection)ページに含まれた文字列を用いた詐欺サイト
図4bは、リダイレクトページに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図は左側にディスプレイされるウェブサイトのHTMLソースファイルである。当業者であれば周知のように、リダイレクトは、接続されたウェブサイトから新しいウェブサイトへの移動を設定するためのものであって、図4bの右側に示されたソースファイルの形態で具現される。右側のソースファイルの中で上段のメタタグを用いた一例を見ると、メタタグの中でhttp−equiv属性を用いている。前記メタタグは通常、決められた時間(図4bのcontent項目で指定される時間)の経過後に自動で他の文書に移動するように設定するためのものであって、主にホームページのアドレスが変更する場合、昔のアドレスに接続したユーザにアドレス変更案内を示し、所定の時間が経過した時、自動的に新しいアドレスに移動するようにするのに用いられる。また、図4b右側中段および下段の場合にも、それぞれself.locationタグおよびlocation.replaceタグなどを用いて現在のウェブページを“http://www.
naver.com”にリダイレクトするように作動する。
図4bに示されたリダイレクトページを用いた詐欺サイトの一例として、右側上段のメタタグの場合はリダイレクト命令の後に、中段および下段の場合は</script>タグの後に所定の人気キーワード(“スタークラフト”“ゾラマン”)を挿入している。
このようなリダイレクトページの場合には、タグ自体が他のウェブサイトの移動を命令しているため、タグ以後に付加されるテキストは何の役割も行わない代わりに、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と相違して判断することがある。従って、前記のようにリダイレクトページに文字列が含まれていると、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(3)タイトルタグを用いた文字列を用いた詐欺サイト
図4cは、タイトルタグに含まれる文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。当業者であれば周知のように、タイトルタグは、ウェブブラウザの上段にウェブサイトの主題を簡略にディスプレイするために用いるタグであって、図4cの右側に示されたソースファイルの形態で具現される。右側のソースファイルの中で上段のタイトルタグを用いた一例を見ると、タイトルタグ内に“スタークラフト”や“ゾラマン”などの人気キーワー
ドが多数含まれており、このタグによって左側のウェブブラウザのように出力される。また、図4cの下段図面に示された場合においては、複数のタイトルタグを用いている。下段図面のソースファイルには<title>および</title>タグの間に“ヒディ
ンク”“スタークラフト”“ゾラマン”など、多数の人気キーワードが含まれている。
このようなタイトルタグの場合は、タイトルタグ内にどんなに多くの文字列を含んでいたとしても、ウェブブラウザにはディスプレイされない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記タイトルタグに含まれた文字列によって前記ウェブサイトの主題を元主題と相違して判断することがある。従って、前記のようにタイトルタグに含まれた文字列の長さが所定値以上であったり、タイトルタグの数が複数であれば、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(4)メタタグ(meta tag)に含まれる文字列を用いた詐欺サイト
図4dは、メタタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。
当業者であれば周知のように、メタタグは、該当のHTML文書の作成者、作成日、キーワードなど、ウェブブラウザの本文にディスプレイされないHTML文書に対する一般的な情報を表現しようとする場合に用いるものである。図4dの右側ソースファイルを見ると、メタタグ内での文書名(name)はdescriptionであり、文書の内容(content)は“スタークラフト”や“ゾラマン”など、人気キーワードを多数含
んでいる。この場合、メタタグに含まれた前記人気キーワードである文字列はウェブブラウザに表示されない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と相違して判断されることがある。従って、前記のようにメタタグ内に文字列を含んでおり、前記文字列の長さが所定値以上であれば、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(5)フレームタグに位置した文字列を用いた詐欺サイト
図4eは、フレームタグに位置した文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。当業者であれば周知のように、フレームタグは、ウェブブラウザに表示される画面を2つまたはそれ以上に分割しようとする場合に用いるものである。図4eの右側ソースファイルを見ると、フレームタグ<FRAMESET ROWS=“ ”>は、画面を横に分割するためのタグであり、“ ”内には画面を分ける割り当て情報が挿入される。このようなフレームタグの終了(</FRAMESET>)タグ以後に位置する文字列は、“スタークラフト”や“ゾルマン”など、人気キーワードを多数含んでいる。この場合、フレームタグの終了タグ以後に位置する前記人気キーワードである文字列は、ウェブブラウザの画面分割とは何の関係も持たない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元来の主題と相違して判断されることがある。従って、前記のようにフレームタグに文字列が位置し、前記文字列の長さが所定値以上であれば、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(6)フォームタグに含まれた文字列を用いた詐欺サイト
図4fは、フォームタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。当業者であれば周知のように、フォームタグは、ウェブブラウザに出力される所定のフォームを定義するために用いられるものである。図4fの右側ソースファイルを見ると、フォームタグは“<form><input type=“ボタン種類”value=“表示される文字”></form>の形式で構成される。従って、図4fの右側に示されたソ
ースファイルの場合は、ボタン種類が“hidden”であるため、ボタンにいかなる文
字も見えないように設定されたものであり、見える文字、すなわち実際にはウェブブラウザに表示されない文字列には、“スタークラフト”や“ゾルマン”など、人気キーワード
が多数含まれている。この場合、フォームタグに含まれた前記人気キーワードである文字列は、ウェブブラウザのフォームを定義することとは何の関係も持たない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と相違して判断されることがある。従って、前記のようにフォームタグに含まれた文字列の長さが所定値以上であれば、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(7)Divタグに含まれた文字列を用いた詐欺サイト
図4gは、divタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を図示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。当業者であれば周知のように、divタグは通常、IDとクラス属性を用いてスタイルシートと共に用いるものである。図4gの右側ソースファイルを見ると、divタグは“<d
iv style=“display:none;…”>と記載されている。この場合、
ウェブブラウザに出力される文字列の属性(style)がディスプレイ(display)なし(none)であるため、以後に登場する文字列はウェブブラウザに表示されない。この場合、divタグに含まれた前記人気キーワードである文字列は、ウェブブラウザの画面ディスプレイとは何の関係も持たない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と相違して判断されることがある。従って、前記のようにdivタグに含まれた文字列の長さが所定値以上である場合、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(8)a hrefタグに含まれた文字列を用いた詐欺サイト
図4hは、a hrefタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。当業者であれば周知のように、a hrefタグは、ある文書内から他の文書や他のウェブサイトに容易に移動するために、文書内に特定文字やイメージに移動するアドレスを連結するために用いるものである。図4hの右側ソースファイルを見ると、a hrefタグは“<a href=“#移動する位置またはアドレス”>リンク表示対象</a>
”の形式で構成される。図4hの右側に示されたソースファイルを参照すると、移動する
位置およびリンクの表示対象が全く指定されていないため、このようなa hrefタグはウェブブラウザ上での表示はもちろん、実行もされないタグである。このような実行されないタグに含まれた文字列に“スタークラフト”や“ゾルマン”など、人気キーワード
が多数含まれている。この場合、a hrefタグに含まれた前記人気キーワードである文字列は、ウェブブラウザの画面出力またはリンク実行とは何の関係も持たない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と相違して判断されることがある。従って、前記のようにa hrefタグに含まれた文字列の長さが所定値以上である場合、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(9)リンクファーム(link farm)を用いた詐欺サイト
図4iは、a hrefタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。当業者であれば周知のように、リンクファームは、自分のウェブサイト内のウェブページを相互リンクし、検索ロボットに継続して前記ウェブサイトを検索することにより、窮極的にはウェブページの順位を高めるための手段として用いられる場合が多い。このようなリンクファームは、上述したa hrefタグを用いて具現される。
このようなリンクファームを用いるウェブサイトは、直接的に詐欺サイトとして判断するには困難であるが、リンクファームを一定数以上、過多に用いる場合であれば、検索エンジンがウェブページ内の人気キーワードを持続的に検索するようにする方法を用いる場合は詐欺サイトである可能性が高いため、これを検出する必要がある。
(10)fontタグに含まれた文字列を用いた詐欺サイト
図4jは、fontタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。
当業者であれば主旨のように、fontタグは、ウェブブラウザに表示される文字列のサイズなどを指定するために用いられるものであって、図4jに示されたソースファイルには、フォントサイズ(font size)が0で設定されている。従って、このようなfontタグに含まれた文字列は、ウェブブラウザ上で全く表示されない。このように、フォントサイズが0であるために表示されない文字列に“スタークラフト”や“ゾルマ
ン”など、人気キーワードが多数含まれている場合、fontタグに含まれた前記人気キ
ーワードである文字列は、ウェブブラウザの画面出力とは何の関係も持たない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と相違して判断されることがある。従って、前記のようにfontタグに含まれた文字列のサイズが0である場合、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
(11)イメージタグに含まれた文字列を用いた詐欺サイト
図4kは、imgタグに含まれた文字列を用いる詐欺サイトの一例を示した図である。左側の図面はユーザにディスプレイされるウェブサイトの画面を示したものであり、右側の図面は左側にディスプレイされるウェブサイトのHTMLソースファイルである。
当業者であれば周知のように、imgタグは、文書に所定のイメージを挿入するために用いられるものであって、図4kに示されたソースファイルには挿入しようとするイメージファイルが“a.gif”で指定されている。imgタグでは、挿入されるイメージが
指定された後、前記イメージの位置、整列方式などの属性を指定するようになるが、図4kの場合にはこのような属性を文字列で指定している。この場合、ウェブブラウザ上に前記イメージがディスプレイされる場合、文字列で指定された属性は前記イメージディスプレイにいかなる影響も与えることができない。このように、イメージの属性に影響を及ぼさない文字列に“スタークラフト”や“ゾルマン”など、人気キーワードが多数含まれて
いる場合、imgタグに含まれた前記人気キーワードである文字列は、ウェブブラウザの画面出力とは何の関係も持たない一方、検索ロボットの検索結果はウェブサイト内での文字列の出現頻度によって決められるため、前記ウェブサイトの主題を元主題と異なるように判断されることがある。従って、前記のようにimgタグに含まれた文字列の長さが所定値以上である場合、このようなウェブサイトは人気キーワードのおかげで、前記人気キーワードと無関係なコンテンツを含んでいるにもかかわらず、検索結果画面にディスプレイされることがある。
段階320は、上述した実施例のように、HTML文書内に含まれたタグを分析し、タグに記載された文字列の長さなどを測定する段階である。このような測定結果を基に、段階325で測定結果に基づいて所定の基準によって前記ウェブサイトが詐欺サイトであるかを判断する。
段階325で、分析されたウェブサイトが詐欺サイトであるかを判断するための所定の基準の例は、図4aないし図4kで詳述したとおりである。一例として、前記所定の基準は前記ハイパーテキストマークアップ言語文書の中に前記ウェブページの背景色と同一色の文字列が含まれているか、または前記所定の基準は前記ハイパーテキストマークアップ言語文書の中のリダイレクト(redirection)タグに文字列が含まれているかである。
本発明の好ましい一実施例によると、段階325の所定の基準は、上述した(1)ないし(11)の詐欺サイト類型で説明した分析内容をハイブリッド(hybrid)方式で適用し、所定の基準を越す場合、詐欺サイトとして判断する方法を用いる。一例として、タイトルタグ内に含まれたタイトル文字列の数が2つ以上である場合から、1つ当り10点を加算して最大70点まで加算できると設定する。また、リダイレクトページに含まれた文字列がある場合は、数にかかわらず70点を加算し、リンクファームの場合は、リンク50個当り4点ずつ最大80点まで加算することと設定する。また、サイズが0である文字列がある場合は、文字列の長さ100byte当り5点ずつ加算して最大70点まで加算することと設定する。このように、ウェブページを構成するソースファイルを分析し、上述した様々な基準によるそれぞれのポイントとポイント加重値を考慮し、計算した総合計が100点を超す場合、該当のウェブサイトは詐欺サイトと判断される可能性がある。このような総合的な判断方法を用いる場合、1つの類型に基づいた判断(例えば、タイトルタグに含まれた文字列の数が50個であるため、詐欺サイトと判断)の場合、その判断にエラーのある可能性が高いため、前記のように総合的に判断して詐欺サイトであるかを判断するのが好ましい。
また、本発明の好ましい一実施例によると、前記所定の基準は、検索ロボットによるウェブ検索方式によって登録されたウェブサイトと所定のディレクトリ指定方式によって登録されたウェブサイトの場合は、差等的に適用することができる。一例として、検索ロボットによるウェブ検索方式で登録されたウェブサイトの場合、ウェブページのソースファイル分析結果、上述した11種の類型の中で3つの類型に該当する場合は詐欺サイトであると判断すると、後者の方式で登録されたウェブサイトの場合には1つの類型に該当する場合でも詐欺サイトと判断するなどの方法を用いることがある。これは、後者の登録方式の場合、大部分の検索エンジン運営会社が所定の登録費用をウェブサイトの登録者から受けるため、無料で登録されている前者の場合よりは、ある程度の好意を施す必要があるためである。
段階325で、詐欺サイトと判断された場合、前記データベース手段のウェブサイト登録者フィールドを検索して前記ウェブサイトの登録者情報を獲得する(段階330)。前記ウェブサイトの登録者情報から前記登録者の連絡情報を抽出し(段階335)、抽出された連絡情報を用いて前記ウェブサイトの登録者に対して電子メールの送信またはショートメッセージの送信などの所定の警告措置が遂行される(段階340)。このような警告措置に対しては、後述する図5に対する説明で詳述する。
本発明のさらに他の一実施例によると、段階320で分析されるものは、タグに記載されたイメージであることがある。例えば、イメージの画素を分析して画素を構成するRGBコンポーネントを抽出し、抽出結果、特定カラー(黄色など)の画素が所定の基準(例えば、総画素数の50%以上)を超過する場合には、一応、該当のサイトが淫乱物コンテンツを掲示しているサイトであると推測することができ、これに基づいて詐欺サイトであるかを判断することができるはずである。
図5は、本発明の好ましい一実施例による検索エンジンでウェブサイトの登録を管理するための方法において、詐欺または変質サイトと判別されたウェブサイトの登録者に所定の制裁措置を加える方法を示する流れ図である。
図5を参照すると、上述した図3の段階325にて詐欺サイトと判断された場合の自動制裁措置が示されている。詐欺サイトと判断された場合、ウェブサイト管理モジュールはウェブサイト情報データベースを検索して該当のウェブサイトの登録者の情報を獲得し(段階510)、ウェブサイト管理モジュールは前記登録者の情報を受信する(段階520および550)。本発明の一実施例によると、ウェブサイト管理モジュールは、前記登録者情報から登録者の電子メールアドレスまたは移動通信端末機番号などの連絡情報を抽出し(段階530)、メールサーバまたはSMSサーバを制御して前記連絡情報に所定のメッセージを送信するように作動する(段階540)。
本発明のさらに他の一実施例によると、ウェブサイト管理モジュールは、前記登録者情報から登録者のその他の登録ウェブサイト情報を抽出(段階560)し、同一登録者の名義で登録されたその他のウェブサイトに対する分析(段階570)を自動的に遂行するように制御する。同一登録者名義のウェブサイトであれば、同一または類似した方法で詐欺サイトを運営する可能性が高いためである。本実施例の場合、その他のウェブサイトの分析結果が詐欺サイトと判断された場合には、図5の段階510が反復される。
本発明の好ましい一実施例によると、所定のウェブサイトが上述した分析および判断方法によって詐欺サイトと判断された場合、前記ウェブサイトの登録者に自動的に電子メール、ショートメッセージなどを送信して該当のウェブサイトの問題点を指摘し、一定した猶予期間を置いて是正を要求するように作動する。また、一定した猶予期間の経過後、自動的に前記分析および判断プロセスを遂行するように設定し、この場合にも是正されていない場合には、登録取り消しなどの制裁措置を取ることも可能である。また、本発明の他の一実施例によると、前記ウェブサイトの登録者には、さらに他のウェブページを登録しようとする場合、登録手続きを厳重にするなどの制裁を加えることも可能である。
本発明の実施例は、多様なコンピュータで具現される動作を遂行するためのプログラム命令を含むコンピュータ読み取り可能媒体を含む。前記コンピュータ読み取り可能媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含む。前記媒体は、プログラム命令は本発明のために特別に設計されて構成されたものであったり、コンピュータソフトウェア当業者に公知されて使用可能なものであったりする。コンピュータ読み取り可能記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスクおよび磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、およびロム(ROM)、ラム(RAM)、フラッシュメモリなどのようなプログラム命令を格納して遂行するように特別に構成されたハードウェア装置が含まれる。前記媒体は、プログラム命令、データ構造などを指定する信号を伝送する搬送波を含む光または金属線、導波管などの伝送媒体であることもある。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
図6は、本発明による検索エンジンで登録されたウェブページを管理するのに用いられる汎用コンピュータシステムの内部ブロック図である。
コンピュータシステムは、ラム(RAM:Random Access Memory)(660)と、ロム(ROM:Read Only Memory)(670)を含む主記憶装置と連結される1つ以上のプロセッサ(640)を含む。プロセッサ(640)は、中央処理装置(CPU)ともいわれる。当業界にて広く知られているように、ロム(670)はデータ(data)と命令(instruction)を単方向性でCPUに伝達する役割をし、ラム(660)は通常、データと命令を両方向性で伝達するのに用いられる。ラム(660)およびロム(670)は、コンピュータ読み取り可能媒体のいかなる適切な形態をも含む。大容量記憶装置(Mass Storage)(610)は、両方向性でプロセッサ(640)と連結されて追加的なデータ格納能力を提供し、上記したコンピュータ読み取り可能記録媒体の中のいかなるものにも該当する。大容量記憶装置(610)は、プログラム、データなどを格納するのに用いられ、通常、主記憶装置よりも速度が遅いハードディスクのような補助記憶装置である。CDロム(620)のような特定大容量記憶装置が用いられることもある。プロセッサ(640)は、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチスクリーン型ディスプレイ、カード読み取り機、磁気または紙テープ読み取り機、音声または手書き文字認識機、ジョイスティック、またはその他の公知されたコンピュータ入出力装置のような1つ以上の入出力インターフェイス(630)と連結される。最後に、プロセッサ(640)は、ネットワークインターフェイス(650)を介して有線または無線通信ネットワークに連結される。このようなネットワーク連結を介して、上記した方法の手順を遂行することができる。上記した装置および道具は、コンピュータハードウェアおよびソフトウェア技術分野の当業者に広く知られている。
前記したハードウェア装置は、本発明の動作を遂行するために1つ以上のソフトウェアモジュールとして作動するように構成される。
本発明による検索エンジンでウェブサイトの登録を管理するための方法によると、上述した詐欺サイトを所定のアルゴリズムを用いて自動的に検出可能にすることによって、検索エンジンユーザが検索しようとする情報を正確に検索することができる検索エンジンを提供することができるという技術的效果を得ることができる。
また、本発明による検索エンジンでウェブサイトの登録を管理するための方法によると、前記詐欺サイトを自動的に検出し、検出された詐欺サイト運営者に対する制裁措置を加えようとすることによって、検索エンジンに登録されるウェブサイト自体の自浄を強化することができるという技術的效果を得ることができる。
また、本発明による検索エンジンでウェブサイトの登録を管理するための方法によると、前記詐欺サイトの検出および検出された前記サイトに対する警告などの制裁措置を所定のアルゴリズムによって自動的に遂行可能にすることによって、上述した詐欺サイト検出のために要されていた多数の人力資源を節約することができるという技術的效果を得ることができる。
以上のように、限定された実施例と図面によって説明されたが、本発明はこれに限定されるものでなく、本発明が属する分野において通常の知識を有する者にとって、前記記載から多様な修正および変形が可能であることは言うまでもない。よって、本発明の思想は、添付の特許請求の範囲によってのみ把握されるべきであり、この均等または等価的変形のすべては、本発明思想の範囲に属するであろう。
ウェブサイト検索エンジンサービスを提供するための従来のシステムを示す構成ブロック図である。 ウェブサイト検索エンジンサービス方式の中でディレクトリ検索方式の一例を示す図である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するためのシステムを示す構成ブロック図である。 本発明の一実施例による検索エンジンで登録されたウェブサイトを管理するための方法を示す流れ図である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、検索ロボットがウェブサイトを巡回しながら読み出して得た詐欺サイトの情報類型を示す図面である。 本発明の好ましい一実施例による検索エンジンで登録されたウェブサイトを管理するための方法において、詐欺サイトと判別されたウェブサイトの登録者に所定の制裁措置を加える方法を示す流れ図である。 本発明による検索エンジンでウェブサイトの登録を管理するのに用いられる汎用コンピュータシステムの内部ブロック図である。

Claims (21)

  1. エンジンで登録されたウェブサイトを管理するための方法において、
    前記登録されたウェブサイトに対する情報を受信し、前記ウェブサイト情報をデータベース手段に所定のフィールド別に分類して記録する段階と、
    前記登録されたウェブサイトのウェブページを構成するソースファイルを読み出す段階と、
    前記読み出されたソースファイルを分析する段階と、
    所定の基準によって前記ウェブサイトが詐欺サイトであるかを判断する段階と、
    前記ウェブサイトが詐欺サイトであると判断される場合、前記登録されたウェブサイトに対して所定の処理を遂行するように制御する段階とを含むことを特徴とする登録されたウェブサイトの管理方法。
  2. 前記ソースファイルは、ハイパーテキストマークアップ言語(Hypertext Markup Language)文書であることを特徴とする請求項1に記載の登録されたウェブサイトの管理方法。
  3. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中に前記ウェブページの背景色と同一色の文字列が含まれているかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  4. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のリダイレクト(redirection)タグに文字列が含まれているかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  5. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書に含まれたタイトル(title)タグの長さが所定値以上であるか、またはタイトルタグの個数が2つ以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  6. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書に含まれたメタ(meta)タグ内の文字列の長さが所定値以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  7. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のフレーム(frame)タグに文字列があるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  8. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のフォーム(form)タグに含まれた文字列の長さが所定値以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  9. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のDivタグに同一の文字列の長さが所定値以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  10. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のA hrefタグにユニフォームリソースロケータでない文字列が含まれているかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  11. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書で同一のウェブサイト内のウェブページをリンクするリンクの数が所定の数以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  12. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書でフォント(font)のサイズが0である文字列が含まれているかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  13. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のImgタグに含まれた文字列の長さが所定値以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  14. 前記所定の基準は、請求項3ないし13に記載された前記基準の中で少なくとも2つ以上を含むことを特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  15. 前記詐欺サイトであるかを判断する段階は、
    前記基準による所定の加重値を維持する段階と、
    前記基準それぞれによる所定のポイント計算方法によって前記基準それぞれに対するポイントを計算する段階と、
    前記基準それぞれに対して計算された前記ポイントと前記ポイントに対応する基準による加重値を乗算して前記基準それぞれに対する中間値を算定する段階と、
    前記算定された前記基準それぞれに対する中間値を合算する段階と、
    前記合算された中間値が所定値以上であるかを判断し、前記所定値以上の場合、前記ウェブサイトを詐欺サイトと判断する段階とを含むことを特徴とする請求項14に記載の登録されたウェブサイトの管理方法。
  16. 前記所定の基準は、前記ハイパーテキストマークアップ言語文書の中のImgタグに含まれたイメージファイルに含まれた画素の特定RGB(Red、Green、Blue)の組み合わせが所定の値以上であるかの可否を特徴とする請求項2に記載の登録されたウェブサイトの管理方法。
  17. 前記データベース手段は、ウェブサイト登録者フィールドを含み、
    前記所定の処理を遂行するように制御する段階は、
    前記データベース手段のウェブサイト登録者フィールドを検索して前記ウェブサイトの登録者情報を獲得する段階と、
    前記ウェブサイトの登録者情報から前記登録者の連絡情報を抽出する段階と、
    抽出された前記連絡情報にメッセージを送信する段階とを含むことを特徴とする請求項1に記載のウェブサイトの登録管理方法。
  18. 前記連絡情報は、前記ウェブサイト登録者の電子メールアドレスまたは移動通信端末機番号であることを特徴とし、
    前記メッセージを送信する段階は、
    電子メールサーバを制御して前記電子メールアドレスに電子メールを送信するようにする段階、またはショートメッセージサービスサーバを制御して前記移動通信端末機番号にショートメッセージを送信するようにする段階を含むことを特徴とする請求項17に記載の登録されたウェブサイトの管理方法。
  19. 前記データベース手段は、ウェブサイト登録者フィールドを含み、
    前記所定の処理を遂行するように制御する段階は、
    前記データベース手段のウェブサイト登録者フィールドを検索して前記ウェブサイトの登録者情報を獲得する段階と、
    前記ウェブサイトの登録者情報から前記登録者が登録した他のウェブサイトのユニフォームリソースロケータ(URL)情報を抽出する段階と、
    前記ユニフォームリススロケータ(URL)を介して接続されるウェブサイトのウェブページを構成するソースファイルを読み出す段階と、
    前記読み出されたソースファイルを分析する段階と、
    所定の基準によって前記ウェブサイトが詐欺サイトであるかを判断する段階と、
    前記ウェブサイトが詐欺サイトであると判断される場合、前記登録されたウェブサイトに対して所定の処理を遂行するように制御する段階とを含むことを特徴とする請求項1に記載の登録されたウェブサイトの管理方法。
  20. 請求項1ないし19のいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  21. 登録されたウェブサイトを管理するためのシステムにおいて、
    1つ以上の端末機とデータ通信を遂行するためのインターフェイスモジュールと、
    前記1つ以上の端末機から所定のウェブサイトの情報を含むウェブサイト登録申請を受信し、前記ウェブサイト情報を所定のフィールド別に分類するためのウェブサイト登録モジュールと、
    前記ウェブサイト情報および前記ウェブサイトに対応する所定のキーワードを分類して格納するためのデータベース手段と、
    前記ウェブサイトのウェブページを構成するソースファイルを抽出し、抽出されたソースファイルを分析するためのウェブサイト分析モジュールと、
    所定の基準によって前記ウェブサイトが詐欺サイトであるかを判断するためのウェブサイト管理モジュールとを含むことを特徴とするウェブサイト登録管理システム。
JP2006500663A 2003-04-04 2004-03-25 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム Pending JP2006522382A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2003-0021482A KR100485321B1 (ko) 2003-04-04 2003-04-04 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
PCT/KR2004/000664 WO2004088541A1 (en) 2003-04-04 2004-03-25 A method of managing web sites registered in search engine and a system thereof

Publications (1)

Publication Number Publication Date
JP2006522382A true JP2006522382A (ja) 2006-09-28

Family

ID=33128959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006500663A Pending JP2006522382A (ja) 2003-04-04 2004-03-25 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム

Country Status (4)

Country Link
US (1) US7421416B2 (ja)
JP (1) JP2006522382A (ja)
KR (1) KR100485321B1 (ja)
WO (1) WO2004088541A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009533752A (ja) * 2006-04-12 2009-09-17 チョン ベン ヤップ, モバイル情報提供及び取引システム
JP2018107769A (ja) * 2016-12-28 2018-07-05 日本電気株式会社 犯罪判定装置、中継システム、電話システム、犯罪判定方法及びプログラム
JP2021068475A (ja) * 2015-06-18 2021-04-30 Line株式会社 サーバ、プログラム及び情報処理方法
JP2022542073A (ja) * 2019-07-26 2022-09-29 ロブロックス・コーポレーション 悪意のあるゲームの検出
JP2022547870A (ja) * 2019-09-06 2022-11-16 ロブロックス・コーポレーション 開発者エンゲージメント指標に基づく電子ゲームの品質の判定

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664732B2 (en) * 2003-05-31 2010-02-16 Nhn Corporation Method of managing websites registered in search engine and a system thereof
US7992090B2 (en) * 2003-09-25 2011-08-02 International Business Machines Corporation Reciprocal link tracking
JP2006155373A (ja) * 2004-11-30 2006-06-15 Ntt Docomo Inc サイト情報提供装置およびサイト情報提供方法
US7478325B2 (en) * 2005-04-22 2009-01-13 Microsoft Corporation Methods for providing an accurate visual rendition of a text element formatted with an unavailable font
US20060271514A1 (en) * 2005-04-27 2006-11-30 Inventec Corporation Structure of customized web services
KR101152664B1 (ko) * 2005-06-22 2012-06-15 주식회사 비즈모델라인 웹사이트 저장(백업) 방법과 시스템 및 서버 이를 위한기록매체
US20080249989A1 (en) * 2007-04-05 2008-10-09 Microsoft Corporation Integrating a hosted services system and a search system
US8145747B2 (en) * 2007-12-11 2012-03-27 Microsoft Corporation Webpage domain monitoring
US8037073B1 (en) 2007-12-31 2011-10-11 Google Inc. Detection of bounce pad sites
US20090199106A1 (en) * 2008-02-05 2009-08-06 Sony Ericsson Mobile Communications Ab Communication terminal including graphical bookmark manager
US20110196854A1 (en) * 2010-02-05 2011-08-11 Sarkar Zainul A Providing a www access to a web page
KR101152687B1 (ko) * 2010-06-22 2012-06-15 주식회사 비즈모델라인 웹사이트 저장(백업) 서버
AU2012331275A1 (en) * 2011-11-02 2014-04-03 Boehringer Ingelheim International Gmbh Novel process for the preparation of acylguanidines and acylthioureas
US20180189799A1 (en) * 2016-12-30 2018-07-05 Marketo, Inc. Scheduling expiration of program assets
CN107169026B (zh) * 2017-04-12 2020-03-24 深圳充电网科技有限公司 一种网站页面显示的方法及装置
CN113239256B (zh) * 2021-05-14 2024-02-23 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132893A (ja) * 2000-10-27 2002-05-10 Work Supply:Kk 不動産情報提供システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100240829B1 (ko) * 1997-09-13 2000-01-15 전주범 인터넷 기능을 갖는 텔레비전에서의 성인 사이트 오픈 방지 장치
US6607136B1 (en) * 1998-09-16 2003-08-19 Beepcard Inc. Physical presence digital authentication system
KR20010025209A (ko) * 2000-10-20 2001-04-06 고진선 통신 네트워크를 이용한 유해 정보 차단 서비스 사업 방법및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로 읽을수 있는 기록매체
KR20020081774A (ko) * 2001-04-19 2002-10-30 주식회사 플랜티넷 유해사이트 데이터베이스 현행화 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132893A (ja) * 2000-10-27 2002-05-10 Work Supply:Kk 不動産情報提供システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
原田昌紀: "サーチエンジンにおける検索結果のランキング", BIT, vol. 第32巻、第8号, JPN6008047944, 1 August 2000 (2000-08-01), JP, pages 8 - 14, ISSN: 0001139311 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009533752A (ja) * 2006-04-12 2009-09-17 チョン ベン ヤップ, モバイル情報提供及び取引システム
JP2021068475A (ja) * 2015-06-18 2021-04-30 Line株式会社 サーバ、プログラム及び情報処理方法
JP7189241B2 (ja) 2015-06-18 2022-12-13 Line株式会社 サーバ、プログラム及び情報処理方法
JP2018107769A (ja) * 2016-12-28 2018-07-05 日本電気株式会社 犯罪判定装置、中継システム、電話システム、犯罪判定方法及びプログラム
JP2022542073A (ja) * 2019-07-26 2022-09-29 ロブロックス・コーポレーション 悪意のあるゲームの検出
JP7352009B2 (ja) 2019-07-26 2023-09-27 ロブロックス・コーポレーション 悪意のあるゲームの検出
JP2022547870A (ja) * 2019-09-06 2022-11-16 ロブロックス・コーポレーション 開発者エンゲージメント指標に基づく電子ゲームの品質の判定
JP7374303B2 (ja) 2019-09-06 2023-11-06 ロブロックス・コーポレーション 開発者エンゲージメント指標に基づく電子ゲームの品質の判定

Also Published As

Publication number Publication date
WO2004088541A1 (en) 2004-10-14
US20060218168A1 (en) 2006-09-28
KR100485321B1 (ko) 2005-04-27
KR20040087205A (ko) 2004-10-13
US7421416B2 (en) 2008-09-02

Similar Documents

Publication Publication Date Title
JP2006522382A (ja) 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム
US10929487B1 (en) Customization of search results for search queries received from third party sites
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
US8326818B2 (en) Method of managing websites registered in search engine and a system thereof
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US8024384B2 (en) Techniques for crawling dynamic web content
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
KR101523450B1 (ko) 관련어 등록 장치, 관련어 등록 방법, 기록 매체 및, 관련어 등록 시스템
JP2007334502A (ja) 検索装置、方法およびプログラム
CN103838862B (zh) 一种视频搜索的方法、装置及终端
JP2010128928A (ja) 検索システム及び検索方法
EP1293913A2 (en) Information retrieving method
JP2009086944A (ja) 情報処理装置および情報処理プログラム
WO2004102426A1 (en) A method of providing website searching service and a system thereof
JP2008171110A (ja) サイト検索システム、検索サーバ、プログラム
KR20040086732A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
JP2012103924A (ja) 関連語登録装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム
KR101048590B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR100458458B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR101003084B1 (ko) 블로그 생성 및 블로그 정보 검색 서비스 시스템 및 방법
JP2006338346A (ja) 検索サーバ
KR20060038486A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR20040103763A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법
KR20100115411A (ko) 컨텐츠 관련 정보 제공 방법 및 시스템과 이를 위한 사용자 단말 및 기록매체
KR20040086733A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090127