JP2011248500A - Webページ収集装置、方法及びプログラム - Google Patents
Webページ収集装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2011248500A JP2011248500A JP2010119109A JP2010119109A JP2011248500A JP 2011248500 A JP2011248500 A JP 2011248500A JP 2010119109 A JP2010119109 A JP 2010119109A JP 2010119109 A JP2010119109 A JP 2010119109A JP 2011248500 A JP2011248500 A JP 2011248500A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- server
- priority
- related information
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】Webページ収集装置1は、URLを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部12と、サーバ関連情報に含まれる文字列と、Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用DB13と、サーバ関連情報を判定用データと照合し、サーバ関連情報を取得した際の入力であるURLにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部14と、判定された優先度を、URLと対応付けて記憶する巡回優先度DB15と、を備える。
【選択図】図1
Description
以下、本発明の第1実施形態について説明する。
本実施形態に係るWebページ収集装置1は、Webページを巡回して違法又は有害情報を含むWebページを収集する装置である。ここで、違法又は有害情報を含むWebページは、例えば、成人向けサイトや違法薬物に関する情報提供サイトや、不正な仮想店舗、誹謗中傷記事を含むサイト等を含む。このようなWebページは、管理者がWebサーバを設置するネットワーク上の論理位置や設定に関する情報が一定の偏りを持つことが多い。Webページ収集装置1は、この偏りの性質を利用して、Webページが違法又は有害情報を含む可能性を判定する。
Webページ収集装置1は、情報提供サーバ2、及び判定対象のWebページを管理しているWebサーバ3とネットワーク(例えば、インターネット)を介して接続されている。ここで、情報提供サーバ2は、ネットワーク上のサービスとして、Webページの所在を示すアドレス(URL)を入力にして、インターネット上の通信を成立させる情報であるサーバ関連情報を提供する。
DNSにより提供されるサーバ関連情報とは、URLを入力として得られるIPアドレス、さらに、このIPアドレスを入力として得られるサーバ名である。また、トレースルートサービスにより提供されるサーバ関連情報とは、URLが示すサーバに直結するルータのルータ名又はIPアドレスである。
この例では、DNSにより取得されるサーバ名とスコアとが対応づけられ(a)、トレースルートサービスにより取得されるルータ名とスコアとが対応付けられて(b)、それぞれテーブルに記憶されている。
巡回優先度付きURLリストには、判定対象のURLと、巡回の優先度とが対応付けて記憶されている。さらに、巡回優先度付きURLリストには、巡回モジュール20により判定されたか否かを示すフラグデータ(例えば、「Y:判定済み」、「N:未判定」)が記憶されており、未判定のURLが巡回モジュール20により抽出される。
判定結果URLリスには、判定対象のURL、判定結果、及び更新部16による更新対象となったか否かを示す更新済フラグデータ(例えば、「Y:更新済み」、「N:未更新」)が記憶されている。
図5は、本実施形態に係る巡回優先度付きURLリストを生成する処理を示すフローチャートである。
なお、巡回優先度付きURLリストは、優先度の高い順に整列して記憶されてもよいが、巡回部21が並べ替えて抽出してもよい。
以下、本発明の第2実施形態について説明する。なお、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
例えば、ルータは、URLが示すサーバに最も近い1つには限られず、1〜3番目等、複数又はその組合せであってもよい。
また、サーバ名は、URLが示す第1のサーバ名と、DNSにより得られた第2のサーバ名との双方であってもよい。さらに、サーバ関連情報は、第1のサーバ名と第2のサーバ名とが一致するか否かの情報を含んでもよい。
10 優先度生成モジュール
11 収集候補DB(収集候補記憶部)
12 サーバ関連情報取得部
13 判定用DB(判定用データ記憶部)
14 優先度判定部
15 巡回優先度DB(優先度記憶部)
16 更新部
20、20a 巡回モジュール
21 巡回部
22、22a カテゴリ判定部
23 判定結果DB(判定結果記憶部)
Claims (11)
- Webページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集装置であって、
インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得部と、
前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶部と、
前記サーバ関連情報取得部により取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部と、
前記優先度判定部により判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶部と、を備えるWebページ収集装置。 - 前記優先度記憶部に記憶されている前記優先度の高い順に前記アドレスを選択し、当該アドレスにより示されるWebページを順に巡回してコンテンツデータを取得する巡回部と、
前記巡回部により取得された前記コンテンツデータに基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定するカテゴリ判定部と、
前記カテゴリ判定部による判定結果を、前記アドレスと対応付けて記憶する判定結果記憶部と、をさらに備える請求項1に記載のWebページ収集装置。 - 前記カテゴリ判定部は、前記コンテンツデータ、及び前記優先度記憶部に記憶されている前記優先度に基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定する請求項2に記載のWebページ収集装置。
- 前記優先度記憶部は、前記優先度判定部により前記判定用データと照合された前記文字列を、前記アドレスと対応付けてさらに記憶し、
前記判定結果記憶部に記憶された前記アドレス、及び当該アドレスに対応付けられている前記判定結果に基づいて、当該アドレスと対応付けて前記優先度記憶部に記憶されている前記文字列を取得し、当該文字列に対応して前記判定用データ記憶部に記憶されている前記判定用データを更新する更新部をさらに備える請求項2又は請求項3に記載のWebページ収集装置。 - 前記サーバ関連情報を取得する際の入力である前記アドレスの候補データを記憶する収集候補記憶部をさらに備え、
前記巡回部は、前記Webページに含まれるリンク情報から新たなアドレスを抽出し、前記収集候補記憶部に記憶する請求項2から請求項4のいずれかに記載のWebページ収集装置。 - 前記サーバ関連情報は、前記アドレスから得られるIPアドレスを含む請求項1から請求項5のいずれかに記載のWebページ収集装置。
- 前記サーバ関連情報は、前記IPアドレスから得られるサーバ名をさらに含む請求項6に記載のWebページ収集装置。
- 前記サーバ関連情報は、前記アドレスが示すサーバに直結するルータ名又は当該ルータのIPアドレスを含む請求項1から請求項7のいずれかに記載のWebページ収集装置。
- 前記判定用データは、前記サーバ関連情報の項目値ごとに、当該項目値が取得されるWebページが違法又は有害情報を含む可能性を統計的に算出したデータである請求項6から請求項8のいずれかに記載のWebページ収集装置。
- コンピュータがWebページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集方法であって、
インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、
前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を含むWebページ収集方法。 - コンピュータに、Webページを巡回して違法又は有害情報を含むWebページを収集させるWebページ収集プログラムであって、
インターネット上の所定のサービスにより、Webページの所在を示すアドレスを入力として、インターネット上の通信を成立させる情報であるサーバ関連情報を取得するサーバ関連情報取得ステップと、
前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を実行させるWebページ収集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010119109A JP5462713B2 (ja) | 2010-05-25 | 2010-05-25 | Webページ収集装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010119109A JP5462713B2 (ja) | 2010-05-25 | 2010-05-25 | Webページ収集装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248500A true JP2011248500A (ja) | 2011-12-08 |
JP5462713B2 JP5462713B2 (ja) | 2014-04-02 |
Family
ID=45413702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010119109A Expired - Fee Related JP5462713B2 (ja) | 2010-05-25 | 2010-05-25 | Webページ収集装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5462713B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101583188B1 (ko) * | 2014-10-13 | 2016-01-11 | 부산대학교 산학협력단 | 문제 사이트 발굴 방법 및 문제 사이트 발굴 시스템 |
WO2019187919A1 (ja) * | 2018-03-27 | 2019-10-03 | 日本電信電話株式会社 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
US11409888B2 (en) | 2018-01-22 | 2022-08-09 | Nec Corporation | Security information processing device, information processing method, and recording medium |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000235540A (ja) * | 1999-02-16 | 2000-08-29 | Kdd Corp | Url階層構造を利用した情報自動フィルタリング方法および装置 |
JP2005070961A (ja) * | 2003-08-21 | 2005-03-17 | Nippon Telegr & Teleph Corp <Ntt> | Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体 |
JP2005135024A (ja) * | 2003-10-28 | 2005-05-26 | Kazunori Ando | 迷惑メール遮断方法及び迷惑メール遮断プログラム |
JP2007140709A (ja) * | 2005-11-15 | 2007-06-07 | Csk Holdings Corp | Webページ巡回装置及びWebページ巡回プログラム |
JP2008116998A (ja) * | 2006-10-31 | 2008-05-22 | Fujitsu Ltd | 端末装置管理システム、データ中継装置、ネットワーク間接続装置、および端末装置の検疫方法 |
JP2008250597A (ja) * | 2007-03-30 | 2008-10-16 | Kddi Corp | コンピュータシステム |
JP2009048380A (ja) * | 2007-08-17 | 2009-03-05 | Yahoo Japan Corp | 検索システム、検索装置、および検索方法 |
JP2009110196A (ja) * | 2007-10-29 | 2009-05-21 | Mitsubishi Electric Corp | Webサーバアクセススケジューリングシステム |
-
2010
- 2010-05-25 JP JP2010119109A patent/JP5462713B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000235540A (ja) * | 1999-02-16 | 2000-08-29 | Kdd Corp | Url階層構造を利用した情報自動フィルタリング方法および装置 |
JP2005070961A (ja) * | 2003-08-21 | 2005-03-17 | Nippon Telegr & Teleph Corp <Ntt> | Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体 |
JP2005135024A (ja) * | 2003-10-28 | 2005-05-26 | Kazunori Ando | 迷惑メール遮断方法及び迷惑メール遮断プログラム |
JP2007140709A (ja) * | 2005-11-15 | 2007-06-07 | Csk Holdings Corp | Webページ巡回装置及びWebページ巡回プログラム |
JP2008116998A (ja) * | 2006-10-31 | 2008-05-22 | Fujitsu Ltd | 端末装置管理システム、データ中継装置、ネットワーク間接続装置、および端末装置の検疫方法 |
JP2008250597A (ja) * | 2007-03-30 | 2008-10-16 | Kddi Corp | コンピュータシステム |
JP2009048380A (ja) * | 2007-08-17 | 2009-03-05 | Yahoo Japan Corp | 検索システム、検索装置、および検索方法 |
JP2009110196A (ja) * | 2007-10-29 | 2009-05-21 | Mitsubishi Electric Corp | Webサーバアクセススケジューリングシステム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101583188B1 (ko) * | 2014-10-13 | 2016-01-11 | 부산대학교 산학협력단 | 문제 사이트 발굴 방법 및 문제 사이트 발굴 시스템 |
US11409888B2 (en) | 2018-01-22 | 2022-08-09 | Nec Corporation | Security information processing device, information processing method, and recording medium |
WO2019187919A1 (ja) * | 2018-03-27 | 2019-10-03 | 日本電信電話株式会社 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
US11947635B2 (en) | 2018-03-27 | 2024-04-02 | Nippon Telegraph And Telephone Corporation | Illegal content search device, illegal content search method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5462713B2 (ja) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8738656B2 (en) | Method and system for processing a group of resource identifiers | |
JP4694215B2 (ja) | 検索を容易にするシステム及び焦点を絞った検索を行う方法 | |
US9448999B2 (en) | Method and device to detect similar documents | |
US8626835B1 (en) | Social identity clustering | |
JP4322887B2 (ja) | スレッド順位付け装置及び方法 | |
JP6167493B2 (ja) | 情報を管理するための方法、コンピュータプログラム、記憶媒体及びシステム | |
US20150033331A1 (en) | System and method for webpage analysis | |
JP5513434B2 (ja) | パーペチュアルカレンダページを含むウェブページのトラップ検出及びこれを用いた検索データベース構築方法、システム及びコンピュータ読取可能な記録媒体 | |
US7860971B2 (en) | Anti-spam tool for browser | |
US20110307436A1 (en) | Pattern tree-based rule learning | |
US20120023127A1 (en) | Method and system for processing a uniform resource locator | |
US20100262610A1 (en) | Identifying Subject Matter Experts | |
US20080270549A1 (en) | Extracting link spam using random walks and spam seeds | |
US20100161785A1 (en) | Method and system for mining websites | |
US20130198240A1 (en) | Social Network Analysis | |
Srivastava et al. | Preprocessing techniques in web usage mining: A survey | |
US20160350379A1 (en) | Search results based on a search history | |
JP5462713B2 (ja) | Webページ収集装置、方法及びプログラム | |
US20090204889A1 (en) | Adaptive sampling of web pages for extraction | |
JP2009230520A (ja) | 目的コンテンツ探索支援プログラム、目的コンテンツ探索支援方法、及び目的コンテンツ探索支援装置 | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
US9756064B2 (en) | Apparatus and method for collecting harmful website information | |
JP5513251B2 (ja) | Id割当装置、方法及びプログラム | |
JP6960274B2 (ja) | データ収集装置、データ収集方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120803 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5462713 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |