JP2011248500A

JP2011248500A - Ｗｅｂページ収集装置、方法及びプログラム

Info

Publication number: JP2011248500A
Application number: JP2010119109A
Authority: JP
Inventors: Hajime Hattori; 元服部; Kazunori Matsumoto; 一則松本; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI R&D Laboratories Inc
Current assignee: KDDI Research Inc
Priority date: 2010-05-25
Filing date: 2010-05-25
Publication date: 2011-12-08
Anticipated expiration: 2030-05-25
Also published as: JP5462713B2

Abstract

【課題】違法又は有害情報を含むＷｅｂページのリストを作成するためのデータを精度良く効率的に収集できるＷｅｂページ収集装置、方法及びプログラムを提供すること。
【解決手段】Ｗｅｂページ収集装置１は、ＵＲＬを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部１２と、サーバ関連情報に含まれる文字列と、Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用ＤＢ１３と、サーバ関連情報を判定用データと照合し、サーバ関連情報を取得した際の入力であるＵＲＬにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部１４と、判定された優先度を、ＵＲＬと対応付けて記憶する巡回優先度ＤＢ１５と、を備える。
【選択図】図１

Description

本発明は、違法又は有害情報を含むＷｅｂページを収集するＷｅｂページ収集装置、方法及びプログラムに関する。

従来、インターネット上では、様々なＷｅｂページが公開されているが、中には違法又は有害情報を含むＷｅｂページも存在する。そこで、閲覧者が誤ってこのような違法又は有害情報を含むＷｅｂページへアクセスしないように、特定のＷｅｂページへのアクセスを禁止するフィルタリングサービスが提供されている。

このフィルタリングサービスでは、アクセスを禁止するＷｅｂページのＵＲＬ（ブラックリスト）が予め登録されていることが必要であり、このＵＲＬを効率的に収集する技術が提案されている。例えば、特許文献１には、不正な仮想店舗を容易に発見するために、Ｗｅｂページに含まれるリンクを辿って、自動的にＷｅｂページを収集する方法が示されている。また、特許文献２には、提供している情報が不適切な内容を含むＵＲＬであるか否かの判定に上位ＵＲＬを用いることで、正解率及び再現率を向上させる方法が示されている。

特開２００７−１４０７０９号公報特開２０００−２３５５４０号公報

しかしながら、特許文献１の方法では、Ｗｅｂページ内のコンテンツに基づいて違法又は有害情報を含むＷｅｂページであるか否かを判定するため、評価対象の全てのＷｅｂページを取得する必要がある。すなわち、評価結果にかかわらず、コンテンツデータ（ＨＴＭＬ）の取得処理及びコンテンツデータのテキスト解析処理の負荷が生じていた。

また、特許文献２のように、一部のＵＲＬ（上位ＵＲＬ）の判定結果により、関連したＵＲＬ（下位ＵＲＬ）のＷｅｂページが違法又は有害情報を含むか否かを判定する場合、一部のＷｅｂページのみが不適切であると、適切なＷｅｂページを誤って不適切と判定されるおそれがあった。

本発明は、違法又は有害情報を含むＷｅｂページのリストを作成するためのデータを精度良く効率的に収集できるＷｅｂページ収集装置、方法及びプログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）Ｗｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集するＷｅｂページ収集装置であって、インターネット上の所定のサービスにより、Ｗｅｂページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部と、前記サーバ関連情報に含まれる文字列と、前記Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶部と、前記サーバ関連情報取得部により取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部と、前記優先度判定部により判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶部と、を備えるＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、Ｗｅｂページの所在を示すアドレス（例えば、ＵＲＬ）からサーバ関連情報（例えば、サーバ名、ルータ名）を取得する。違法又は有害情報を含むＷｅｂページは、このサーバ関連情報に偏りがあるため、Ｗｅｂページ収集装置は、サーバ関連情報と予め対応付けて記憶されている違法又は有害情報を含む可能性の高さを示す値に基づいて、判定対象として巡回する優先度を判定して記憶する。

したがって、Ｗｅｂページ収集装置は、記憶されている巡回の優先度に従って、違法又は有害情報を含む可能性の高いＷｅｂページから順に、効率的に違法又は有害性を判定することができる。その結果、Ｗｅｂページ収集装置は、違法又は有害情報を含むＷｅｂページのリストを作成するためのデータを精度良く効率的に収集できる。

（２）前記優先度記憶部に記憶されている前記優先度の高い順に前記アドレスを選択し、当該アドレスにより示されるＷｅｂページを順に巡回してコンテンツデータを取得する巡回部と、前記巡回部により取得された前記コンテンツデータに基づいて、前記Ｗｅｂページが違法又は有害情報を含むか否かのカテゴリを判定するカテゴリ判定部と、前記カテゴリ判定部による判定結果を、前記アドレスと対応付けて記憶する判定結果記憶部と、をさらに備える（１）に記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、優先度の高い順に、アドレスにより示されるＷｅｂページを巡回してコンテンツデータを取得してカテゴリを判定する。したがって、Ｗｅｂページ収集装置は、違法又は有害情報を含む可能性の高いコンテンツデータを優先的に取得するので、通信量及び処理量を低減することができる。

（３）前記カテゴリ判定部は、前記コンテンツデータ、及び前記優先度記憶部に記憶されている前記優先度に基づいて、前記Ｗｅｂページが違法又は有害情報を含むか否かのカテゴリを判定する（２）に記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、Ｗｅｂページのコンテンツデータに加えて、巡回の優先度に基づいて、違法又は有害情報を含むか否かのカテゴリを判定する。したがって、Ｗｅｂページ収集装置は、サーバ関連情報に基づく判定基準を加味してカテゴリ判定の精度を向上できる可能性がある。

（４）前記優先度記憶部は、前記優先度判定部により前記判定用データと照合された前記文字列を、前記アドレスと対応付けてさらに記憶し、前記判定結果記憶部に記憶された前記アドレス、及び当該アドレスに対応付けられている前記判定結果に基づいて、当該アドレスと対応付けて前記優先度記憶部に記憶されている前記文字列を取得し、当該文字列に対応して前記判定用データ記憶部に記憶されている前記判定用データを更新する更新部をさらに備える（２）又は（３）に記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、Ｗｅｂページが違法又は有害情報を含むか否かの判定結果に基づいて、巡回の優先度を判定するための判定用データを更新する。したがって、Ｗｅｂページ収集装置は、判定結果の蓄積に従って、判定用データの精度を向上できるので、違法又は有害情報を含むＷｅｂページの収集をより効率化できる。

（５）前記サーバ関連情報を取得する際の入力である前記アドレスの候補データを記憶する収集候補記憶部をさらに備え、前記巡回部は、前記Ｗｅｂページに含まれるリンク情報から新たなアドレスを抽出し、前記収集候補記憶部に記憶する（２）から（４）のいずれかに記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、判定対象のＷｅｂページに含まれるリンク情報から、さらに収集候補のアドレス（ＵＲＬ）を取得できる。したがって、Ｗｅｂページ収集装置は、収集候補のアドレスを自動的に追加できるので、違法又は有害情報を含むＷｅｂページの収集をより効率化できる。

（６）前記サーバ関連情報は、前記アドレスから得られるＩＰアドレスを含む（１）から（５）のいずれかに記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、アドレス（ＵＲＬ）から得られるサーバのＩＰアドレスに応じて、巡回の優先度を判定できる。

（７）前記サーバ関連情報は、前記ＩＰアドレスから得られるサーバ名をさらに含む（６）に記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、ＩＰアドレスから得られるサーバ名に応じて、巡回の優先度を判定できる。

（８）前記サーバ関連情報は、前記アドレスが示すサーバに直結するルータ名又は当該ルータのＩＰアドレスを含む（１）から（７）のいずれかに記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、アドレス（ＵＲＬ）から得られるサーバに直結するルータ名又はルータのＩＰアドレスに応じて、巡回の優先度を判定できる。

（９）前記判定用データは、前記サーバ関連情報の項目値ごとに、当該項目値が取得されるＷｅｂページが違法又は有害情報を含む可能性を統計的に算出したデータである（６）から（８）のいずれかに記載のＷｅｂページ収集装置。

このような構成によれば、Ｗｅｂページ収集装置は、サーバ関連情報のそれぞれについて、違法又は有害情報を含む可能性を統計的に算出する。したがって、Ｗｅｂページ収集装置は、違法又は有害の可能性として信頼性の高い判定用データに基づいて、巡回の優先度を精度良く判定できる。

（１０）コンピュータがＷｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集するＷｅｂページ収集方法であって、インターネット上の所定のサービスにより、Ｗｅｂページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、前記サーバ関連情報に含まれる文字列と、前記Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を含むＷｅｂページ収集方法。

このような構成によれば、Ｗｅｂページ収集方法をコンピュータが実行することにより、（１）と同様の効果が期待できる。

（１１）コンピュータに、Ｗｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集させるＷｅｂページ収集プログラムであって、インターネット上の所定のサービスにより、Ｗｅｂページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、前記サーバ関連情報に含まれる文字列と、前記Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を実行させるＷｅｂページ収集プログラム。

このような構成によれば、Ｗｅｂページ収集プログラムをコンピュータに実行させることにより、（１）と同様の効果が期待できる。

本発明によれば、違法又は有害情報を含むＷｅｂページのリストを作成するためのデータを精度良く効率的に収集できる。

第１実施形態に係るＷｅｂページ収集装置の機能構成を示すブロック図である。第１実施形態に係る判定用データの一例を示す図である。第１実施形態に係る巡回優先度付きＵＲＬリストの一例を示す図である。第１実施形態に係る判定結果ＵＲＬリストの一例を示す図である。第１実施形態に係る巡回優先度付きＵＲＬリストを生成する処理を示すフローチャートである。第１実施形態に係る判定結果ＵＲＬリストを生成する処理を示すフローチャートである。第１実施形態に係る判定用データを更新する処理を示すフローチャートである。第２実施形態に係るＷｅｂページ収集装置の機能構成を示すブロック図である。

＜第１実施形態＞
以下、本発明の第１実施形態について説明する。
本実施形態に係るＷｅｂページ収集装置１は、Ｗｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集する装置である。ここで、違法又は有害情報を含むＷｅｂページは、例えば、成人向けサイトや違法薬物に関する情報提供サイトや、不正な仮想店舗、誹謗中傷記事を含むサイト等を含む。このようなＷｅｂページは、管理者がＷｅｂサーバを設置するネットワーク上の論理位置や設定に関する情報が一定の偏りを持つことが多い。Ｗｅｂページ収集装置１は、この偏りの性質を利用して、Ｗｅｂページが違法又は有害情報を含む可能性を判定する。

なお、Ｗｅｂページ収集装置１は、サーバ装置やＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等、様々な情報処理装置（コンピュータ）であってよい。また、Ｗｅｂページ収集装置１は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶部に記憶されているプログラムを、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が読み出して実行することにより、本実施形態に係る各種機能を実現する。

図１は、本実施形態に係るＷｅｂページ収集装置１の機能構成を示すブロック図である。
Ｗｅｂページ収集装置１は、情報提供サーバ２、及び判定対象のＷｅｂページを管理しているＷｅｂサーバ３とネットワーク（例えば、インターネット）を介して接続されている。ここで、情報提供サーバ２は、ネットワーク上のサービスとして、Ｗｅｂページの所在を示すアドレス（ＵＲＬ）を入力にして、インターネット上の通信を成立させる情報であるサーバ関連情報を提供する。

情報提供サーバ２は、例えば、ＤＮＳ（ＤｏｍａｉｎＮａｍｅＳｅｒｖｉｃｅ）又はトレースルートサービスを提供するサーバである。
ＤＮＳにより提供されるサーバ関連情報とは、ＵＲＬを入力として得られるＩＰアドレス、さらに、このＩＰアドレスを入力として得られるサーバ名である。また、トレースルートサービスにより提供されるサーバ関連情報とは、ＵＲＬが示すサーバに直結するルータのルータ名又はＩＰアドレスである。

ここで、違法又は有害情報を含むＷｅｂページを管理しているＷｅｂサーバ３は、前述のように、ネットワーク上の論理位置（例えば、ＤＮＳにより提供されるＩＰアドレス、トレースルートサービスにより提供されるルータ名等）や、設定に関する情報（例えば、ＤＮＳにより提供されるサーバ名）が一定の偏りを持つことが多い。したがって、違法又は有害情報を含むＷｅｂページと、これらのサーバ関連情報が共通しているＷｅｂページは、同様に違法又は有害情報を含む可能性が高い。

また、Ｗｅｂページ収集装置１は、判定対象のＷｅｂページの巡回優先度を決定する優先度生成モジュール１０と、巡回優先度に従ってＷｅｂページを巡回する巡回モジュール２０とを備える。

さらに、優先度生成モジュール１０は、収集候補ＤＢ１１と、サーバ関連情報取得部１２と、判定用ＤＢ１３と、優先度判定部１４と、巡回優先度ＤＢ１５と、更新部１６とを備える。また、巡回モジュール２０は、巡回部２１と、カテゴリ判定部２２と、判定結果ＤＢ２３とを備える。

収集候補ＤＢ１１は、違法又は有害情報を含むか否かを判定する対象のＵＲＬの候補データを記憶する。この候補データは、データベースやファイル形式で予め与えられており、さらに、巡回部２１により追加更新される。

サーバ関連情報取得部１２は、収集候補ＤＢ１１から判定対象のＵＲＬを１つ抽出し、情報提供サーバ２から、抽出したＵＲＬに関するサーバ関連情報を取得する。

判定用ＤＢ１３は、サーバ関連情報に含まれる文字列（例えば、サーバ名やルータ名等）と、Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値（スコア）とを対応付けた判定用データを記憶する。

図２は、本実施形態に係る判定用ＤＢ１３に格納される判定用データの一例を示す図である。
この例では、ＤＮＳにより取得されるサーバ名とスコアとが対応づけられ（ａ）、トレースルートサービスにより取得されるルータ名とスコアとが対応付けられて（ｂ）、それぞれテーブルに記憶されている。

各レコードには、サーバ名又はルータ名に対応するＷｅｂページが違法又は有害情報を含む（カテゴリに合致する）か否（カテゴリに合致しない）かの判定結果の件数がさらに記憶されており、カテゴリへの合致度であるスコアは、この判定結果の件数に基づいて後述の更新部１６により算出される。

優先度判定部１４は、サーバ関連情報取得部１２により取得されたサーバ関連情報を判定用ＤＢ１３の判定用データ（図２）と照合する。そして、優先度判定部１４は、判定対象のＵＲＬにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さ、すなわち照合されたサーバ関連情報（サーバ名又はルータ名）ごとに対応づけられているスコアに基づいて、巡回の優先度を判定する。なお、巡回の優先度が高いＵＲＬは、違法又は有害情報を含む可能性が高く、巡回モジュール２０により優先的に巡回してカテゴリが判定される。

具体的には、優先度判定部１４は、サーバ名を照合して得られたスコア（ｘ）と、ルータ名を照合して得られたスコア（ｙ）とを用いて所定の演算によりトータルスコアを算出し、このトータルスコアを優先度として判定する。なお、所定の演算方法は、加算（トータルスコア＝ｘ＋ｙ）や乗算（トータルスコア＝ｘ×ｙ）等、予め設定されていてよい。

巡回優先度ＤＢ１５は、優先度判定部１４により判定された優先度を、ＵＲＬと対応付けて記憶する。

図３は、本実施形態に係る巡回優先度ＤＢ１５に格納される巡回優先度付きＵＲＬリストの一例を示す図である。
巡回優先度付きＵＲＬリストには、判定対象のＵＲＬと、巡回の優先度とが対応付けて記憶されている。さらに、巡回優先度付きＵＲＬリストには、巡回モジュール２０により判定されたか否かを示すフラグデータ（例えば、「Ｙ：判定済み」、「Ｎ：未判定」）が記憶されており、未判定のＵＲＬが巡回モジュール２０により抽出される。

また、巡回優先度付きＵＲＬリストには、優先度判定部１４により判定用データと照合されたサーバ関連情報（サーバ名及びルータ名）がＵＲＬと対応付けてさらに記憶され、更新部１６により参照される。

更新部１６は、後述の巡回による判定結果に基づいて、ＵＲＬと対応付けて巡回優先度ＤＢ１５に記憶されているサーバ関連情報（サーバ名及びルータ名）を取得し、このサーバ関連情報に対応して判定用ＤＢ１３に記憶されている判定用データを更新する。

具体的には、更新部１６は、判定用データ（図２）のサーバ関連情報（サーバ名及びルータ名）ごとに、判定結果（カテゴリに合致するか否か）の件数を更新し、カテゴリに合致する割合であるスコアを再計算して更新する。このように、より多くの判定結果により判定用データが更新されていくことにより、優先度判定部１４による優先度判定の精度が向上することが期待できる。

なお、判定用データのスコアは、サーバ関連情報の項目値ごとに、この項目値が取得されるＷｅｂページが違法又は有害情報を含む可能性を統計的に算出したデータであるが、スコアの計算方法は、上述のカテゴリに合致する割合には限られない。例えば、判定結果を学習データとし、所定の分類器として、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）やＣ４．５等のアルゴリズムを適用してもよい。

巡回部２１は、巡回優先度ＤＢ１５の優先度付きＵＲＬリスト（図３）に記憶されている優先度の高い順にＵＲＬを選択し、このＵＲＬにより示されるＷｅｂページを順に巡回してコンテンツデータを取得する。また、巡回部２１は、Ｗｅｂページに含まれるリンク情報から新たなＵＲＬを抽出し、収集候補ＤＢ１１に追加して記憶する。

カテゴリ判定部２２は、巡回部２１により取得されたコンテンツデータに基づいて、Ｗｅｂページが違法又は有害情報を含むか否かのカテゴリを判定する。具体的には、カテゴリ判定部２２は、コンテンツデータに含まれる違法又は有害情報に関する所定の単語の出現頻度に基づく既存の技術により、カテゴリを判定することとしてよい。

判定結果ＤＢ２３は、カテゴリ判定部２２による判定結果を、判定対象のＵＲＬと対応付けて記憶する。

図４は、本実施形態に係る判定結果ＤＢ２３に格納される判定結果ＵＲＬリストの一例を示す図である。
判定結果ＵＲＬリスには、判定対象のＵＲＬ、判定結果、及び更新部１６による更新対象となったか否かを示す更新済フラグデータ（例えば、「Ｙ：更新済み」、「Ｎ：未更新」）が記憶されている。

次に、Ｗｅｂページ収集装置１における処理の流れを説明する。
図５は、本実施形態に係る巡回優先度付きＵＲＬリストを生成する処理を示すフローチャートである。

ステップＳ１では、サーバ関連情報取得部１２は、収集候補ＤＢ１１から抽出したＵＲＬのサーバ関連情報を、情報提供サーバ２から取得する。

ステップＳ２では、優先度判定部１４は、ステップＳ１で取得されたサーバ関連情報を、判定用ＤＢ１３の判定用データと照合し、サーバ関連情報の各項目値（サーバ名及びルータ名）に対応するスコアに基づいて、巡回の優先度を算出する。

ステップＳ３では、巡回優先度ＤＢ１５は、ステップＳ２で算出された優先度を、巡回優先度付きＵＲＬリストに記憶する。
なお、巡回優先度付きＵＲＬリストは、優先度の高い順に整列して記憶されてもよいが、巡回部２１が並べ替えて抽出してもよい。

図６は、本実施形態に係る判定結果ＵＲＬリストを生成する処理を示すフローチャートである。なお、本処理は、予め設定されている所定のタイミングで開始される。具体的には、所定のタイミングは、巡回優先度付きＵＲＬリストに未判定のＵＲＬが所定以上蓄積されたとき、所定時間周期、又はＷｅｂページ収集装置１の管理者から実行指示入力を受け付けたとき等であってよい。

ステップＳ１１では、巡回部２１は、巡回優先度付きＵＲＬリスト（図３）中の新しく更新されたＵＲＬ、すなわち判定済フラグが「Ｎ」であるＵＲＬの優先度が閾値以上か否かを判定する。巡回部２１は、この判定がＹＥＳの場合、処理をステップＳ１２に移し、判定がＮＯの場合、ステップＳ１１を継続して、巡回優先度付きＵＲＬリストが更新されるのを待機する。

ステップＳ１２では、巡回部２１は、優先度が閾値以上であり、違法又は有害情報を含む可能性が高いＵＲＬについて、Ｗｅｂサーバ３にアクセスし、ＷｅｂページのＨＴＭＬデータを取得する。

ステップＳ１３では、巡回部２１は、ステップＳ１２で取得されたＨＴＭＬデータの中から、他のＷｅｂページへのリンクを検出し、リンク先のＵＲＬを抽出する。

ステップＳ１４では、巡回部２１は、ステップＳ１３で抽出されたＵＲＬの中に、収集候補ＵＲＬリストにないＵＲＬがあるか否かを判定する。巡回部２１は、この判定がＹＥＳの場合、処理をステップＳ１５に移し、判定がＮＯの場合、処理をステップＳ１６に移す。

ステップＳ１５では、巡回部２１は、ステップＳ１４で、収集候補ＵＲＬリストにないと判定されたＵＲＬを、このリストに追加し、判定対象のＵＲＬを増加させる。

ステップＳ１６では、カテゴリ判定部２２は、ステップＳ１２で取得されたＨＴＭＬを解析し、Ｗｅｂページの違法又は有害性を判定する。そして、カテゴリ判定部２２は、判定結果を、判定結果ＤＢ２３の判定結果ＵＲＬリストに記憶させる。

図７は、本実施形態に係る判定用データを更新する処理を示すフローチャートである。なお、本処理は、予め設定されている所定のタイミングで開始される。具体的には、所定のタイミングは、判定結果ＵＲＬリストに未更新のＵＲＬが所定以上蓄積されたとき、所定時間周期、又はＷｅｂページ収集装置１の管理者から実行指示入力を受け付けたとき等であってよい。

ステップＳ２１では、更新部１６は、判定結果ＤＢ２３の判定結果ＵＲＬリスト（図４）に更新があるか否か、すなわち、更新済フラグが「Ｎ」であるＵＲＬが存在するか否かを判定する。更新部１６は、この判定がＹＥＳの場合、処理をステップＳ２２に移し、判定がＮＯの場合、ステップＳ２１を継続して、判定結果ＵＲＬリストが更新されるのを待機する。

ステップＳ２２では、更新部１６は、ステップＳ２１で未更新と判定されたＵＲＬについて、判定結果に基づいて、対応するサーバ関連情報の判定データを更新する。

本実施形態においては、判定用ＤＢ１３に予め判定用データが格納されているものとして説明したが、この判定用データの初期値に関しても、Ｗｅｂページ収集装置１により生成可能である。

優先度判定部１４は、判定用ＤＢ１３に所定以上の判定データが蓄積されていない場合、優先度を判定することなく、巡回優先度付きＵＲＬリストにＵＲＬ及びサーバ関連情報を記憶する。すると、更新部１６は、巡回モジュール２０によって判定された判定結果とサーバ関連情報とに基づいて、判定用ＤＢ１３に初期値としての判定用データを生成していく。なお、判定用データの初期値生成用にＵＲＬ及びサーバ関連情報を記憶する先は、巡回優先度付きＵＲＬリストとは別のリスト（テーブル）であってもよい。

以上のように、本実施形態によれば、Ｗｅｂページ収集装置１は、違法又は有害情報を含むＷｅｂページの場合に偏りがあるサーバ関連情報に基づいて、巡回の優先度を判定する。そして、Ｗｅｂページ収集装置１は、この優先度に従って、違法又は有害情報を含む可能性の高いＷｅｂページから順に、効率的に違法又は有害性を判定することができる。したがって、Ｗｅｂページ収集装置１は、一定時間内に収集できる違法又は有害情報を含むＷｅｂページ数を増加できるので、違法又は有害情報を含むＷｅｂページのリスト（ブラックリスト）を作成するためのデータを精度良く効率的に収集できる。

また、優先度の判定には、コンテンツデータ（ＨＴＭＬ）の受信が不要である。そして、Ｗｅｂページ収集装置１は、優先度の高い順に、Ｗｅｂページを巡回してコンテンツデータを取得してカテゴリを判定する。したがって、Ｗｅｂページ収集装置は、違法又は有害情報を含む可能性の高いコンテンツデータを優先的に取得するので、違法又は有害情報を含む可能性が低いＷｅｂページに対しての、通信量、メモリ容量及び処理量を低減することができる。

また、Ｗｅｂページ収集装置１は、Ｗｅｂページが違法又は有害情報を含むか否かの判定結果に基づいて、巡回の優先度を判定するための判定用データを自動的に更新する。したがって、Ｗｅｂページ収集装置１は、判定結果の蓄積に従って、判定用データの精度を向上できる。その結果、Ｗｅｂページ収集装置１は、信頼性の高い判定用データに基づいて、巡回の優先度を精度良く判定し、違法又は有害情報を含むＷｅｂページの収集をより効率化できる。

また、Ｗｅｂページ収集装置１は、判定対象のＷｅｂページに含まれるリンク情報から、さらに収集候補のＵＲＬを取得できる。したがって、Ｗｅｂページ収集装置１は、収集候補のＵＲＬを自動的に追加できるので、違法又は有害情報を含むＷｅｂページの収集をより効率化できる。

さらに、Ｗｅｂページ収集装置１は、コンテンツデータ（ＨＴＭＬ）を優先度の判定に用いないので、テキスト抽出が困難な表現方法（例えば、新たな動画フォーマット、画像に埋め込まれたテキスト）が用いられたとしても、優先度の判定方法を改修することなく、同様の効果を維持できる。

＜第２実施形態＞
以下、本発明の第２実施形態について説明する。なお、第１実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。

図８は、本実施形態に係るＷｅｂページ収集装置１ａの機能構成を示すブロック図である。本実施形態では、巡回モジュール２０ａのカテゴリ判定部２２ａが第１実施形態と異なる。

カテゴリ判定部２２ａは、Ｗｅｂページのコンテンツデータ、及び巡回優先度ＤＢ１５に記憶されているＵＲＬの優先度に基づいて、カテゴリ判定値を算出し、このカテゴリ判定値によりＷｅｂページが違法又は有害情報を含むか否かのカテゴリを判定する。

具体的には、カテゴリ判定部２２ａは、例えば、違法又は有害情報に関する所定の単語の出現頻度に基づくカテゴリ関連度に、優先度（第１実施形態のトータルスコア）を乗じて、カテゴリ判定値を算出する。あるいは、カテゴリ判定部２２ａは、違法又は有害情報に関する所定の単語の出現頻度に基づくカテゴリ関連度を、優先度の順位（優先度が高いほど小さい値）で除することにより、カテゴリ判定値を算出してもよい。

本実施形態によれば、Ｗｅｂページ収集装置１は、Ｗｅｂページのコンテンツデータに加えて、巡回の優先度に基づいて、違法又は有害情報を含むか否かのカテゴリを判定する。したがって、Ｗｅｂページ収集装置１は、サーバ関連情報に基づく判定基準を加味してカテゴリ判定の精度を向上できる可能性がある。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。

例えば、サーバ関連情報は、前述のサーバ名（又はＩＰアドレス）及びルータ名（又はＩＰアドレス）には限られない。
例えば、ルータは、ＵＲＬが示すサーバに最も近い１つには限られず、１〜３番目等、複数又はその組合せであってもよい。
また、サーバ名は、ＵＲＬが示す第１のサーバ名と、ＤＮＳにより得られた第２のサーバ名との双方であってもよい。さらに、サーバ関連情報は、第１のサーバ名と第２のサーバ名とが一致するか否かの情報を含んでもよい。

また、前述の実施形態では、Ｗｅｂページが違法又は有害情報を含むか否かのカテゴリを判定したが、本発明は、他のカテゴリにも適用可能であり、特に、Ｗｅｂサーバの論理位置や設定等に関する情報に偏りが見られるカテゴリに好適である。

１、１ａＷｅｂページ収集装置
１０優先度生成モジュール
１１収集候補ＤＢ（収集候補記憶部）
１２サーバ関連情報取得部
１３判定用ＤＢ（判定用データ記憶部）
１４優先度判定部
１５巡回優先度ＤＢ（優先度記憶部）
１６更新部
２０、２０ａ巡回モジュール
２１巡回部
２２、２２ａカテゴリ判定部
２３判定結果ＤＢ（判定結果記憶部）

Claims

Ｗｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集するＷｅｂページ収集装置であって、
インターネット上の所定のサービスにより、Ｗｅｂページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部と、
前記サーバ関連情報に含まれる文字列と、前記Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶部と、
前記サーバ関連情報取得部により取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部と、
前記優先度判定部により判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶部と、を備えるＷｅｂページ収集装置。
前記優先度記憶部に記憶されている前記優先度の高い順に前記アドレスを選択し、当該アドレスにより示されるＷｅｂページを順に巡回してコンテンツデータを取得する巡回部と、
前記巡回部により取得された前記コンテンツデータに基づいて、前記Ｗｅｂページが違法又は有害情報を含むか否かのカテゴリを判定するカテゴリ判定部と、
前記カテゴリ判定部による判定結果を、前記アドレスと対応付けて記憶する判定結果記憶部と、をさらに備える請求項１に記載のＷｅｂページ収集装置。
前記カテゴリ判定部は、前記コンテンツデータ、及び前記優先度記憶部に記憶されている前記優先度に基づいて、前記Ｗｅｂページが違法又は有害情報を含むか否かのカテゴリを判定する請求項２に記載のＷｅｂページ収集装置。
前記優先度記憶部は、前記優先度判定部により前記判定用データと照合された前記文字列を、前記アドレスと対応付けてさらに記憶し、
前記判定結果記憶部に記憶された前記アドレス、及び当該アドレスに対応付けられている前記判定結果に基づいて、当該アドレスと対応付けて前記優先度記憶部に記憶されている前記文字列を取得し、当該文字列に対応して前記判定用データ記憶部に記憶されている前記判定用データを更新する更新部をさらに備える請求項２又は請求項３に記載のＷｅｂページ収集装置。
前記サーバ関連情報を取得する際の入力である前記アドレスの候補データを記憶する収集候補記憶部をさらに備え、
前記巡回部は、前記Ｗｅｂページに含まれるリンク情報から新たなアドレスを抽出し、前記収集候補記憶部に記憶する請求項２から請求項４のいずれかに記載のＷｅｂページ収集装置。
前記サーバ関連情報は、前記アドレスから得られるＩＰアドレスを含む請求項１から請求項５のいずれかに記載のＷｅｂページ収集装置。
前記サーバ関連情報は、前記ＩＰアドレスから得られるサーバ名をさらに含む請求項６に記載のＷｅｂページ収集装置。
前記サーバ関連情報は、前記アドレスが示すサーバに直結するルータ名又は当該ルータのＩＰアドレスを含む請求項１から請求項７のいずれかに記載のＷｅｂページ収集装置。
前記判定用データは、前記サーバ関連情報の項目値ごとに、当該項目値が取得されるＷｅｂページが違法又は有害情報を含む可能性を統計的に算出したデータである請求項６から請求項８のいずれかに記載のＷｅｂページ収集装置。
コンピュータがＷｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集するＷｅｂページ収集方法であって、
インターネット上の所定のサービスにより、Ｗｅｂページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、
前記サーバ関連情報に含まれる文字列と、前記Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を含むＷｅｂページ収集方法。
コンピュータに、Ｗｅｂページを巡回して違法又は有害情報を含むＷｅｂページを収集させるＷｅｂページ収集プログラムであって、
インターネット上の所定のサービスにより、Ｗｅｂページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、
前記サーバ関連情報に含まれる文字列と、前記Ｗｅｂページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるＷｅｂページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を実行させるＷｅｂページ収集プログラム。