JP2011248500A - Webページ収集装置、方法及びプログラム - Google Patents

Webページ収集装置、方法及びプログラム Download PDF

Info

Publication number
JP2011248500A
JP2011248500A JP2010119109A JP2010119109A JP2011248500A JP 2011248500 A JP2011248500 A JP 2011248500A JP 2010119109 A JP2010119109 A JP 2010119109A JP 2010119109 A JP2010119109 A JP 2010119109A JP 2011248500 A JP2011248500 A JP 2011248500A
Authority
JP
Japan
Prior art keywords
web page
server
priority
related information
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010119109A
Other languages
English (en)
Other versions
JP5462713B2 (ja
Inventor
Hajime Hattori
元 服部
Kazunori Matsumoto
一則 松本
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2010119109A priority Critical patent/JP5462713B2/ja
Publication of JP2011248500A publication Critical patent/JP2011248500A/ja
Application granted granted Critical
Publication of JP5462713B2 publication Critical patent/JP5462713B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】違法又は有害情報を含むWebページのリストを作成するためのデータを精度良く効率的に収集できるWebページ収集装置、方法及びプログラムを提供すること。
【解決手段】Webページ収集装置1は、URLを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部12と、サーバ関連情報に含まれる文字列と、Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用DB13と、サーバ関連情報を判定用データと照合し、サーバ関連情報を取得した際の入力であるURLにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部14と、判定された優先度を、URLと対応付けて記憶する巡回優先度DB15と、を備える。
【選択図】図1

Description

本発明は、違法又は有害情報を含むWebページを収集するWebページ収集装置、方法及びプログラムに関する。
従来、インターネット上では、様々なWebページが公開されているが、中には違法又は有害情報を含むWebページも存在する。そこで、閲覧者が誤ってこのような違法又は有害情報を含むWebページへアクセスしないように、特定のWebページへのアクセスを禁止するフィルタリングサービスが提供されている。
このフィルタリングサービスでは、アクセスを禁止するWebページのURL(ブラックリスト)が予め登録されていることが必要であり、このURLを効率的に収集する技術が提案されている。例えば、特許文献1には、不正な仮想店舗を容易に発見するために、Webページに含まれるリンクを辿って、自動的にWebページを収集する方法が示されている。また、特許文献2には、提供している情報が不適切な内容を含むURLであるか否かの判定に上位URLを用いることで、正解率及び再現率を向上させる方法が示されている。
特開2007−140709号公報 特開2000−235540号公報
しかしながら、特許文献1の方法では、Webページ内のコンテンツに基づいて違法又は有害情報を含むWebページであるか否かを判定するため、評価対象の全てのWebページを取得する必要がある。すなわち、評価結果にかかわらず、コンテンツデータ(HTML)の取得処理及びコンテンツデータのテキスト解析処理の負荷が生じていた。
また、特許文献2のように、一部のURL(上位URL)の判定結果により、関連したURL(下位URL)のWebページが違法又は有害情報を含むか否かを判定する場合、一部のWebページのみが不適切であると、適切なWebページを誤って不適切と判定されるおそれがあった。
本発明は、違法又は有害情報を含むWebページのリストを作成するためのデータを精度良く効率的に収集できるWebページ収集装置、方法及びプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1)Webページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集装置であって、インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部と、前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶部と、前記サーバ関連情報取得部により取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部と、前記優先度判定部により判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶部と、を備えるWebページ収集装置。
このような構成によれば、Webページ収集装置は、Webページの所在を示すアドレス(例えば、URL)からサーバ関連情報(例えば、サーバ名、ルータ名)を取得する。違法又は有害情報を含むWebページは、このサーバ関連情報に偏りがあるため、Webページ収集装置は、サーバ関連情報と予め対応付けて記憶されている違法又は有害情報を含む可能性の高さを示す値に基づいて、判定対象として巡回する優先度を判定して記憶する。
したがって、Webページ収集装置は、記憶されている巡回の優先度に従って、違法又は有害情報を含む可能性の高いWebページから順に、効率的に違法又は有害性を判定することができる。その結果、Webページ収集装置は、違法又は有害情報を含むWebページのリストを作成するためのデータを精度良く効率的に収集できる。
(2)前記優先度記憶部に記憶されている前記優先度の高い順に前記アドレスを選択し、当該アドレスにより示されるWebページを順に巡回してコンテンツデータを取得する巡回部と、前記巡回部により取得された前記コンテンツデータに基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定するカテゴリ判定部と、前記カテゴリ判定部による判定結果を、前記アドレスと対応付けて記憶する判定結果記憶部と、をさらに備える(1)に記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、優先度の高い順に、アドレスにより示されるWebページを巡回してコンテンツデータを取得してカテゴリを判定する。したがって、Webページ収集装置は、違法又は有害情報を含む可能性の高いコンテンツデータを優先的に取得するので、通信量及び処理量を低減することができる。
(3)前記カテゴリ判定部は、前記コンテンツデータ、及び前記優先度記憶部に記憶されている前記優先度に基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定する(2)に記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、Webページのコンテンツデータに加えて、巡回の優先度に基づいて、違法又は有害情報を含むか否かのカテゴリを判定する。したがって、Webページ収集装置は、サーバ関連情報に基づく判定基準を加味してカテゴリ判定の精度を向上できる可能性がある。
(4)前記優先度記憶部は、前記優先度判定部により前記判定用データと照合された前記文字列を、前記アドレスと対応付けてさらに記憶し、前記判定結果記憶部に記憶された前記アドレス、及び当該アドレスに対応付けられている前記判定結果に基づいて、当該アドレスと対応付けて前記優先度記憶部に記憶されている前記文字列を取得し、当該文字列に対応して前記判定用データ記憶部に記憶されている前記判定用データを更新する更新部をさらに備える(2)又は(3)に記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、Webページが違法又は有害情報を含むか否かの判定結果に基づいて、巡回の優先度を判定するための判定用データを更新する。したがって、Webページ収集装置は、判定結果の蓄積に従って、判定用データの精度を向上できるので、違法又は有害情報を含むWebページの収集をより効率化できる。
(5)前記サーバ関連情報を取得する際の入力である前記アドレスの候補データを記憶する収集候補記憶部をさらに備え、前記巡回部は、前記Webページに含まれるリンク情報から新たなアドレスを抽出し、前記収集候補記憶部に記憶する(2)から(4)のいずれかに記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、判定対象のWebページに含まれるリンク情報から、さらに収集候補のアドレス(URL)を取得できる。したがって、Webページ収集装置は、収集候補のアドレスを自動的に追加できるので、違法又は有害情報を含むWebページの収集をより効率化できる。
(6)前記サーバ関連情報は、前記アドレスから得られるIPアドレスを含む(1)から(5)のいずれかに記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、アドレス(URL)から得られるサーバのIPアドレスに応じて、巡回の優先度を判定できる。
(7)前記サーバ関連情報は、前記IPアドレスから得られるサーバ名をさらに含む(6)に記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、IPアドレスから得られるサーバ名に応じて、巡回の優先度を判定できる。
(8)前記サーバ関連情報は、前記アドレスが示すサーバに直結するルータ名又は当該ルータのIPアドレスを含む(1)から(7)のいずれかに記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、アドレス(URL)から得られるサーバに直結するルータ名又はルータのIPアドレスに応じて、巡回の優先度を判定できる。
(9)前記判定用データは、前記サーバ関連情報の項目値ごとに、当該項目値が取得されるWebページが違法又は有害情報を含む可能性を統計的に算出したデータである(6)から(8)のいずれかに記載のWebページ収集装置。
このような構成によれば、Webページ収集装置は、サーバ関連情報のそれぞれについて、違法又は有害情報を含む可能性を統計的に算出する。したがって、Webページ収集装置は、違法又は有害の可能性として信頼性の高い判定用データに基づいて、巡回の優先度を精度良く判定できる。
(10)コンピュータがWebページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集方法であって、インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を含むWebページ収集方法。
このような構成によれば、Webページ収集方法をコンピュータが実行することにより、(1)と同様の効果が期待できる。
(11)コンピュータに、Webページを巡回して違法又は有害情報を含むWebページを収集させるWebページ収集プログラムであって、インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を実行させるWebページ収集プログラム。
このような構成によれば、Webページ収集プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
本発明によれば、違法又は有害情報を含むWebページのリストを作成するためのデータを精度良く効率的に収集できる。
第1実施形態に係るWebページ収集装置の機能構成を示すブロック図である。 第1実施形態に係る判定用データの一例を示す図である。 第1実施形態に係る巡回優先度付きURLリストの一例を示す図である。 第1実施形態に係る判定結果URLリストの一例を示す図である。 第1実施形態に係る巡回優先度付きURLリストを生成する処理を示すフローチャートである。 第1実施形態に係る判定結果URLリストを生成する処理を示すフローチャートである。 第1実施形態に係る判定用データを更新する処理を示すフローチャートである。 第2実施形態に係るWebページ収集装置の機能構成を示すブロック図である。
<第1実施形態>
以下、本発明の第1実施形態について説明する。
本実施形態に係るWebページ収集装置1は、Webページを巡回して違法又は有害情報を含むWebページを収集する装置である。ここで、違法又は有害情報を含むWebページは、例えば、成人向けサイトや違法薬物に関する情報提供サイトや、不正な仮想店舗、誹謗中傷記事を含むサイト等を含む。このようなWebページは、管理者がWebサーバを設置するネットワーク上の論理位置や設定に関する情報が一定の偏りを持つことが多い。Webページ収集装置1は、この偏りの性質を利用して、Webページが違法又は有害情報を含む可能性を判定する。
なお、Webページ収集装置1は、サーバ装置やPC(Personal Computer)等、様々な情報処理装置(コンピュータ)であってよい。また、Webページ収集装置1は、HDD(Hard Disk Drive)等の記憶部に記憶されているプログラムを、CPU(Central Processing Unit)が読み出して実行することにより、本実施形態に係る各種機能を実現する。
図1は、本実施形態に係るWebページ収集装置1の機能構成を示すブロック図である。
Webページ収集装置1は、情報提供サーバ2、及び判定対象のWebページを管理しているWebサーバ3とネットワーク(例えば、インターネット)を介して接続されている。ここで、情報提供サーバ2は、ネットワーク上のサービスとして、Webページの所在を示すアドレス(URL)を入力にして、インターネット上の通信を成立させる情報であるサーバ関連情報を提供する。
情報提供サーバ2は、例えば、DNS(Domain Name Service)又はトレースルートサービスを提供するサーバである。
DNSにより提供されるサーバ関連情報とは、URLを入力として得られるIPアドレス、さらに、このIPアドレスを入力として得られるサーバ名である。また、トレースルートサービスにより提供されるサーバ関連情報とは、URLが示すサーバに直結するルータのルータ名又はIPアドレスである。
ここで、違法又は有害情報を含むWebページを管理しているWebサーバ3は、前述のように、ネットワーク上の論理位置(例えば、DNSにより提供されるIPアドレス、トレースルートサービスにより提供されるルータ名等)や、設定に関する情報(例えば、DNSにより提供されるサーバ名)が一定の偏りを持つことが多い。したがって、違法又は有害情報を含むWebページと、これらのサーバ関連情報が共通しているWebページは、同様に違法又は有害情報を含む可能性が高い。
また、Webページ収集装置1は、判定対象のWebページの巡回優先度を決定する優先度生成モジュール10と、巡回優先度に従ってWebページを巡回する巡回モジュール20とを備える。
さらに、優先度生成モジュール10は、収集候補DB11と、サーバ関連情報取得部12と、判定用DB13と、優先度判定部14と、巡回優先度DB15と、更新部16とを備える。また、巡回モジュール20は、巡回部21と、カテゴリ判定部22と、判定結果DB23とを備える。
収集候補DB11は、違法又は有害情報を含むか否かを判定する対象のURLの候補データを記憶する。この候補データは、データベースやファイル形式で予め与えられており、さらに、巡回部21により追加更新される。
サーバ関連情報取得部12は、収集候補DB11から判定対象のURLを1つ抽出し、情報提供サーバ2から、抽出したURLに関するサーバ関連情報を取得する。
判定用DB13は、サーバ関連情報に含まれる文字列(例えば、サーバ名やルータ名等)と、Webページが違法又は有害情報を含む可能性の高さを示す値(スコア)とを対応付けた判定用データを記憶する。
図2は、本実施形態に係る判定用DB13に格納される判定用データの一例を示す図である。
この例では、DNSにより取得されるサーバ名とスコアとが対応づけられ(a)、トレースルートサービスにより取得されるルータ名とスコアとが対応付けられて(b)、それぞれテーブルに記憶されている。
各レコードには、サーバ名又はルータ名に対応するWebページが違法又は有害情報を含む(カテゴリに合致する)か否(カテゴリに合致しない)かの判定結果の件数がさらに記憶されており、カテゴリへの合致度であるスコアは、この判定結果の件数に基づいて後述の更新部16により算出される。
優先度判定部14は、サーバ関連情報取得部12により取得されたサーバ関連情報を判定用DB13の判定用データ(図2)と照合する。そして、優先度判定部14は、判定対象のURLにより示されるWebページが違法又は有害情報を含む可能性の高さ、すなわち照合されたサーバ関連情報(サーバ名又はルータ名)ごとに対応づけられているスコアに基づいて、巡回の優先度を判定する。なお、巡回の優先度が高いURLは、違法又は有害情報を含む可能性が高く、巡回モジュール20により優先的に巡回してカテゴリが判定される。
具体的には、優先度判定部14は、サーバ名を照合して得られたスコア(x)と、ルータ名を照合して得られたスコア(y)とを用いて所定の演算によりトータルスコアを算出し、このトータルスコアを優先度として判定する。なお、所定の演算方法は、加算(トータルスコア=x+y)や乗算(トータルスコア=x×y)等、予め設定されていてよい。
巡回優先度DB15は、優先度判定部14により判定された優先度を、URLと対応付けて記憶する。
図3は、本実施形態に係る巡回優先度DB15に格納される巡回優先度付きURLリストの一例を示す図である。
巡回優先度付きURLリストには、判定対象のURLと、巡回の優先度とが対応付けて記憶されている。さらに、巡回優先度付きURLリストには、巡回モジュール20により判定されたか否かを示すフラグデータ(例えば、「Y:判定済み」、「N:未判定」)が記憶されており、未判定のURLが巡回モジュール20により抽出される。
また、巡回優先度付きURLリストには、優先度判定部14により判定用データと照合されたサーバ関連情報(サーバ名及びルータ名)がURLと対応付けてさらに記憶され、更新部16により参照される。
更新部16は、後述の巡回による判定結果に基づいて、URLと対応付けて巡回優先度DB15に記憶されているサーバ関連情報(サーバ名及びルータ名)を取得し、このサーバ関連情報に対応して判定用DB13に記憶されている判定用データを更新する。
具体的には、更新部16は、判定用データ(図2)のサーバ関連情報(サーバ名及びルータ名)ごとに、判定結果(カテゴリに合致するか否か)の件数を更新し、カテゴリに合致する割合であるスコアを再計算して更新する。このように、より多くの判定結果により判定用データが更新されていくことにより、優先度判定部14による優先度判定の精度が向上することが期待できる。
なお、判定用データのスコアは、サーバ関連情報の項目値ごとに、この項目値が取得されるWebページが違法又は有害情報を含む可能性を統計的に算出したデータであるが、スコアの計算方法は、上述のカテゴリに合致する割合には限られない。例えば、判定結果を学習データとし、所定の分類器として、SVM(Support Vector Machine)やC4.5等のアルゴリズムを適用してもよい。
巡回部21は、巡回優先度DB15の優先度付きURLリスト(図3)に記憶されている優先度の高い順にURLを選択し、このURLにより示されるWebページを順に巡回してコンテンツデータを取得する。また、巡回部21は、Webページに含まれるリンク情報から新たなURLを抽出し、収集候補DB11に追加して記憶する。
カテゴリ判定部22は、巡回部21により取得されたコンテンツデータに基づいて、Webページが違法又は有害情報を含むか否かのカテゴリを判定する。具体的には、カテゴリ判定部22は、コンテンツデータに含まれる違法又は有害情報に関する所定の単語の出現頻度に基づく既存の技術により、カテゴリを判定することとしてよい。
判定結果DB23は、カテゴリ判定部22による判定結果を、判定対象のURLと対応付けて記憶する。
図4は、本実施形態に係る判定結果DB23に格納される判定結果URLリストの一例を示す図である。
判定結果URLリスには、判定対象のURL、判定結果、及び更新部16による更新対象となったか否かを示す更新済フラグデータ(例えば、「Y:更新済み」、「N:未更新」)が記憶されている。
次に、Webページ収集装置1における処理の流れを説明する。
図5は、本実施形態に係る巡回優先度付きURLリストを生成する処理を示すフローチャートである。
ステップS1では、サーバ関連情報取得部12は、収集候補DB11から抽出したURLのサーバ関連情報を、情報提供サーバ2から取得する。
ステップS2では、優先度判定部14は、ステップS1で取得されたサーバ関連情報を、判定用DB13の判定用データと照合し、サーバ関連情報の各項目値(サーバ名及びルータ名)に対応するスコアに基づいて、巡回の優先度を算出する。
ステップS3では、巡回優先度DB15は、ステップS2で算出された優先度を、巡回優先度付きURLリストに記憶する。
なお、巡回優先度付きURLリストは、優先度の高い順に整列して記憶されてもよいが、巡回部21が並べ替えて抽出してもよい。
図6は、本実施形態に係る判定結果URLリストを生成する処理を示すフローチャートである。なお、本処理は、予め設定されている所定のタイミングで開始される。具体的には、所定のタイミングは、巡回優先度付きURLリストに未判定のURLが所定以上蓄積されたとき、所定時間周期、又はWebページ収集装置1の管理者から実行指示入力を受け付けたとき等であってよい。
ステップS11では、巡回部21は、巡回優先度付きURLリスト(図3)中の新しく更新されたURL、すなわち判定済フラグが「N」であるURLの優先度が閾値以上か否かを判定する。巡回部21は、この判定がYESの場合、処理をステップS12に移し、判定がNOの場合、ステップS11を継続して、巡回優先度付きURLリストが更新されるのを待機する。
ステップS12では、巡回部21は、優先度が閾値以上であり、違法又は有害情報を含む可能性が高いURLについて、Webサーバ3にアクセスし、WebページのHTMLデータを取得する。
ステップS13では、巡回部21は、ステップS12で取得されたHTMLデータの中から、他のWebページへのリンクを検出し、リンク先のURLを抽出する。
ステップS14では、巡回部21は、ステップS13で抽出されたURLの中に、収集候補URLリストにないURLがあるか否かを判定する。巡回部21は、この判定がYESの場合、処理をステップS15に移し、判定がNOの場合、処理をステップS16に移す。
ステップS15では、巡回部21は、ステップS14で、収集候補URLリストにないと判定されたURLを、このリストに追加し、判定対象のURLを増加させる。
ステップS16では、カテゴリ判定部22は、ステップS12で取得されたHTMLを解析し、Webページの違法又は有害性を判定する。そして、カテゴリ判定部22は、判定結果を、判定結果DB23の判定結果URLリストに記憶させる。
図7は、本実施形態に係る判定用データを更新する処理を示すフローチャートである。なお、本処理は、予め設定されている所定のタイミングで開始される。具体的には、所定のタイミングは、判定結果URLリストに未更新のURLが所定以上蓄積されたとき、所定時間周期、又はWebページ収集装置1の管理者から実行指示入力を受け付けたとき等であってよい。
ステップS21では、更新部16は、判定結果DB23の判定結果URLリスト(図4)に更新があるか否か、すなわち、更新済フラグが「N」であるURLが存在するか否かを判定する。更新部16は、この判定がYESの場合、処理をステップS22に移し、判定がNOの場合、ステップS21を継続して、判定結果URLリストが更新されるのを待機する。
ステップS22では、更新部16は、ステップS21で未更新と判定されたURLについて、判定結果に基づいて、対応するサーバ関連情報の判定データを更新する。
本実施形態においては、判定用DB13に予め判定用データが格納されているものとして説明したが、この判定用データの初期値に関しても、Webページ収集装置1により生成可能である。
優先度判定部14は、判定用DB13に所定以上の判定データが蓄積されていない場合、優先度を判定することなく、巡回優先度付きURLリストにURL及びサーバ関連情報を記憶する。すると、更新部16は、巡回モジュール20によって判定された判定結果とサーバ関連情報とに基づいて、判定用DB13に初期値としての判定用データを生成していく。なお、判定用データの初期値生成用にURL及びサーバ関連情報を記憶する先は、巡回優先度付きURLリストとは別のリスト(テーブル)であってもよい。
以上のように、本実施形態によれば、Webページ収集装置1は、違法又は有害情報を含むWebページの場合に偏りがあるサーバ関連情報に基づいて、巡回の優先度を判定する。そして、Webページ収集装置1は、この優先度に従って、違法又は有害情報を含む可能性の高いWebページから順に、効率的に違法又は有害性を判定することができる。したがって、Webページ収集装置1は、一定時間内に収集できる違法又は有害情報を含むWebページ数を増加できるので、違法又は有害情報を含むWebページのリスト(ブラックリスト)を作成するためのデータを精度良く効率的に収集できる。
また、優先度の判定には、コンテンツデータ(HTML)の受信が不要である。そして、Webページ収集装置1は、優先度の高い順に、Webページを巡回してコンテンツデータを取得してカテゴリを判定する。したがって、Webページ収集装置は、違法又は有害情報を含む可能性の高いコンテンツデータを優先的に取得するので、違法又は有害情報を含む可能性が低いWebページに対しての、通信量、メモリ容量及び処理量を低減することができる。
また、Webページ収集装置1は、Webページが違法又は有害情報を含むか否かの判定結果に基づいて、巡回の優先度を判定するための判定用データを自動的に更新する。したがって、Webページ収集装置1は、判定結果の蓄積に従って、判定用データの精度を向上できる。その結果、Webページ収集装置1は、信頼性の高い判定用データに基づいて、巡回の優先度を精度良く判定し、違法又は有害情報を含むWebページの収集をより効率化できる。
また、Webページ収集装置1は、判定対象のWebページに含まれるリンク情報から、さらに収集候補のURLを取得できる。したがって、Webページ収集装置1は、収集候補のURLを自動的に追加できるので、違法又は有害情報を含むWebページの収集をより効率化できる。
さらに、Webページ収集装置1は、コンテンツデータ(HTML)を優先度の判定に用いないので、テキスト抽出が困難な表現方法(例えば、新たな動画フォーマット、画像に埋め込まれたテキスト)が用いられたとしても、優先度の判定方法を改修することなく、同様の効果を維持できる。
<第2実施形態>
以下、本発明の第2実施形態について説明する。なお、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
図8は、本実施形態に係るWebページ収集装置1aの機能構成を示すブロック図である。本実施形態では、巡回モジュール20aのカテゴリ判定部22aが第1実施形態と異なる。
カテゴリ判定部22aは、Webページのコンテンツデータ、及び巡回優先度DB15に記憶されているURLの優先度に基づいて、カテゴリ判定値を算出し、このカテゴリ判定値によりWebページが違法又は有害情報を含むか否かのカテゴリを判定する。
具体的には、カテゴリ判定部22aは、例えば、違法又は有害情報に関する所定の単語の出現頻度に基づくカテゴリ関連度に、優先度(第1実施形態のトータルスコア)を乗じて、カテゴリ判定値を算出する。あるいは、カテゴリ判定部22aは、違法又は有害情報に関する所定の単語の出現頻度に基づくカテゴリ関連度を、優先度の順位(優先度が高いほど小さい値)で除することにより、カテゴリ判定値を算出してもよい。
本実施形態によれば、Webページ収集装置1は、Webページのコンテンツデータに加えて、巡回の優先度に基づいて、違法又は有害情報を含むか否かのカテゴリを判定する。したがって、Webページ収集装置1は、サーバ関連情報に基づく判定基準を加味してカテゴリ判定の精度を向上できる可能性がある。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
例えば、サーバ関連情報は、前述のサーバ名(又はIPアドレス)及びルータ名(又はIPアドレス)には限られない。
例えば、ルータは、URLが示すサーバに最も近い1つには限られず、1〜3番目等、複数又はその組合せであってもよい。
また、サーバ名は、URLが示す第1のサーバ名と、DNSにより得られた第2のサーバ名との双方であってもよい。さらに、サーバ関連情報は、第1のサーバ名と第2のサーバ名とが一致するか否かの情報を含んでもよい。
また、前述の実施形態では、Webページが違法又は有害情報を含むか否かのカテゴリを判定したが、本発明は、他のカテゴリにも適用可能であり、特に、Webサーバの論理位置や設定等に関する情報に偏りが見られるカテゴリに好適である。
1、1a Webページ収集装置
10 優先度生成モジュール
11 収集候補DB(収集候補記憶部)
12 サーバ関連情報取得部
13 判定用DB(判定用データ記憶部)
14 優先度判定部
15 巡回優先度DB(優先度記憶部)
16 更新部
20、20a 巡回モジュール
21 巡回部
22、22a カテゴリ判定部
23 判定結果DB(判定結果記憶部)

Claims (11)

  1. Webページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集装置であって、
    インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部と、
    前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶部と、
    前記サーバ関連情報取得部により取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部と、
    前記優先度判定部により判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶部と、を備えるWebページ収集装置。
  2. 前記優先度記憶部に記憶されている前記優先度の高い順に前記アドレスを選択し、当該アドレスにより示されるWebページを順に巡回してコンテンツデータを取得する巡回部と、
    前記巡回部により取得された前記コンテンツデータに基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定するカテゴリ判定部と、
    前記カテゴリ判定部による判定結果を、前記アドレスと対応付けて記憶する判定結果記憶部と、をさらに備える請求項1に記載のWebページ収集装置。
  3. 前記カテゴリ判定部は、前記コンテンツデータ、及び前記優先度記憶部に記憶されている前記優先度に基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定する請求項2に記載のWebページ収集装置。
  4. 前記優先度記憶部は、前記優先度判定部により前記判定用データと照合された前記文字列を、前記アドレスと対応付けてさらに記憶し、
    前記判定結果記憶部に記憶された前記アドレス、及び当該アドレスに対応付けられている前記判定結果に基づいて、当該アドレスと対応付けて前記優先度記憶部に記憶されている前記文字列を取得し、当該文字列に対応して前記判定用データ記憶部に記憶されている前記判定用データを更新する更新部をさらに備える請求項2又は請求項3に記載のWebページ収集装置。
  5. 前記サーバ関連情報を取得する際の入力である前記アドレスの候補データを記憶する収集候補記憶部をさらに備え、
    前記巡回部は、前記Webページに含まれるリンク情報から新たなアドレスを抽出し、前記収集候補記憶部に記憶する請求項2から請求項4のいずれかに記載のWebページ収集装置。
  6. 前記サーバ関連情報は、前記アドレスから得られるIPアドレスを含む請求項1から請求項5のいずれかに記載のWebページ収集装置。
  7. 前記サーバ関連情報は、前記IPアドレスから得られるサーバ名をさらに含む請求項6に記載のWebページ収集装置。
  8. 前記サーバ関連情報は、前記アドレスが示すサーバに直結するルータ名又は当該ルータのIPアドレスを含む請求項1から請求項7のいずれかに記載のWebページ収集装置。
  9. 前記判定用データは、前記サーバ関連情報の項目値ごとに、当該項目値が取得されるWebページが違法又は有害情報を含む可能性を統計的に算出したデータである請求項6から請求項8のいずれかに記載のWebページ収集装置。
  10. コンピュータがWebページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集方法であって、
    インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、
    前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
    前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
    前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を含むWebページ収集方法。
  11. コンピュータに、Webページを巡回して違法又は有害情報を含むWebページを収集させるWebページ収集プログラムであって、
    インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、
    前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
    前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
    前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を実行させるWebページ収集プログラム。
JP2010119109A 2010-05-25 2010-05-25 Webページ収集装置、方法及びプログラム Expired - Fee Related JP5462713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010119109A JP5462713B2 (ja) 2010-05-25 2010-05-25 Webページ収集装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010119109A JP5462713B2 (ja) 2010-05-25 2010-05-25 Webページ収集装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011248500A true JP2011248500A (ja) 2011-12-08
JP5462713B2 JP5462713B2 (ja) 2014-04-02

Family

ID=45413702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010119109A Expired - Fee Related JP5462713B2 (ja) 2010-05-25 2010-05-25 Webページ収集装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5462713B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101583188B1 (ko) * 2014-10-13 2016-01-11 부산대학교 산학협력단 문제 사이트 발굴 방법 및 문제 사이트 발굴 시스템
WO2019187919A1 (ja) * 2018-03-27 2019-10-03 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
US11409888B2 (en) 2018-01-22 2022-08-09 Nec Corporation Security information processing device, information processing method, and recording medium

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235540A (ja) * 1999-02-16 2000-08-29 Kdd Corp Url階層構造を利用した情報自動フィルタリング方法および装置
JP2005070961A (ja) * 2003-08-21 2005-03-17 Nippon Telegr & Teleph Corp <Ntt> Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体
JP2005135024A (ja) * 2003-10-28 2005-05-26 Kazunori Ando 迷惑メール遮断方法及び迷惑メール遮断プログラム
JP2007140709A (ja) * 2005-11-15 2007-06-07 Csk Holdings Corp Webページ巡回装置及びWebページ巡回プログラム
JP2008116998A (ja) * 2006-10-31 2008-05-22 Fujitsu Ltd 端末装置管理システム、データ中継装置、ネットワーク間接続装置、および端末装置の検疫方法
JP2008250597A (ja) * 2007-03-30 2008-10-16 Kddi Corp コンピュータシステム
JP2009048380A (ja) * 2007-08-17 2009-03-05 Yahoo Japan Corp 検索システム、検索装置、および検索方法
JP2009110196A (ja) * 2007-10-29 2009-05-21 Mitsubishi Electric Corp Webサーバアクセススケジューリングシステム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235540A (ja) * 1999-02-16 2000-08-29 Kdd Corp Url階層構造を利用した情報自動フィルタリング方法および装置
JP2005070961A (ja) * 2003-08-21 2005-03-17 Nippon Telegr & Teleph Corp <Ntt> Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体
JP2005135024A (ja) * 2003-10-28 2005-05-26 Kazunori Ando 迷惑メール遮断方法及び迷惑メール遮断プログラム
JP2007140709A (ja) * 2005-11-15 2007-06-07 Csk Holdings Corp Webページ巡回装置及びWebページ巡回プログラム
JP2008116998A (ja) * 2006-10-31 2008-05-22 Fujitsu Ltd 端末装置管理システム、データ中継装置、ネットワーク間接続装置、および端末装置の検疫方法
JP2008250597A (ja) * 2007-03-30 2008-10-16 Kddi Corp コンピュータシステム
JP2009048380A (ja) * 2007-08-17 2009-03-05 Yahoo Japan Corp 検索システム、検索装置、および検索方法
JP2009110196A (ja) * 2007-10-29 2009-05-21 Mitsubishi Electric Corp Webサーバアクセススケジューリングシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101583188B1 (ko) * 2014-10-13 2016-01-11 부산대학교 산학협력단 문제 사이트 발굴 방법 및 문제 사이트 발굴 시스템
US11409888B2 (en) 2018-01-22 2022-08-09 Nec Corporation Security information processing device, information processing method, and recording medium
WO2019187919A1 (ja) * 2018-03-27 2019-10-03 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
US11947635B2 (en) 2018-03-27 2024-04-02 Nippon Telegraph And Telephone Corporation Illegal content search device, illegal content search method, and program

Also Published As

Publication number Publication date
JP5462713B2 (ja) 2014-04-02

Similar Documents

Publication Publication Date Title
US8738656B2 (en) Method and system for processing a group of resource identifiers
JP4694215B2 (ja) 検索を容易にするシステム及び焦点を絞った検索を行う方法
US9448999B2 (en) Method and device to detect similar documents
US8626835B1 (en) Social identity clustering
JP4322887B2 (ja) スレッド順位付け装置及び方法
JP6167493B2 (ja) 情報を管理するための方法、コンピュータプログラム、記憶媒体及びシステム
US20150033331A1 (en) System and method for webpage analysis
JP5513434B2 (ja) パーペチュアルカレンダページを含むウェブページのトラップ検出及びこれを用いた検索データベース構築方法、システム及びコンピュータ読取可能な記録媒体
US7860971B2 (en) Anti-spam tool for browser
US20110307436A1 (en) Pattern tree-based rule learning
US20120023127A1 (en) Method and system for processing a uniform resource locator
US20100262610A1 (en) Identifying Subject Matter Experts
US20080270549A1 (en) Extracting link spam using random walks and spam seeds
US20100161785A1 (en) Method and system for mining websites
US20130198240A1 (en) Social Network Analysis
Srivastava et al. Preprocessing techniques in web usage mining: A survey
US20160350379A1 (en) Search results based on a search history
JP5462713B2 (ja) Webページ収集装置、方法及びプログラム
US20090204889A1 (en) Adaptive sampling of web pages for extraction
JP2009230520A (ja) 目的コンテンツ探索支援プログラム、目的コンテンツ探索支援方法、及び目的コンテンツ探索支援装置
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US9756064B2 (en) Apparatus and method for collecting harmful website information
JP5513251B2 (ja) Id割当装置、方法及びプログラム
JP6960274B2 (ja) データ収集装置、データ収集方法、およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140117

R150 Certificate of patent or registration of utility model

Ref document number: 5462713

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees