JP5462713B2 - Webページ収集装置、方法及びプログラム - Google Patents
Webページ収集装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5462713B2 JP5462713B2 JP2010119109A JP2010119109A JP5462713B2 JP 5462713 B2 JP5462713 B2 JP 5462713B2 JP 2010119109 A JP2010119109 A JP 2010119109A JP 2010119109 A JP2010119109 A JP 2010119109A JP 5462713 B2 JP5462713 B2 JP 5462713B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- server
- priority
- determination
- related information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明の第1実施形態について説明する。
本実施形態に係るWebページ収集装置1は、Webページを巡回して違法又は有害情報を含むWebページを収集する装置である。ここで、違法又は有害情報を含むWebページは、例えば、成人向けサイトや違法薬物に関する情報提供サイトや、不正な仮想店舗、誹謗中傷記事を含むサイト等を含む。このようなWebページは、管理者がWebサーバを設置するネットワーク上の論理位置や設定に関する情報が一定の偏りを持つことが多い。Webページ収集装置1は、この偏りの性質を利用して、Webページが違法又は有害情報を含む可能性を判定する。
Webページ収集装置1は、情報提供サーバ2、及び判定対象のWebページを管理しているWebサーバ3とネットワーク(例えば、インターネット)を介して接続されている。ここで、情報提供サーバ2は、ネットワーク上のサービスとして、Webページの所在を示すアドレス(URL)を入力にして、インターネット上の通信を成立させる情報であるサーバ関連情報を提供する。
DNSにより提供されるサーバ関連情報とは、URLを入力として得られるIPアドレス、さらに、このIPアドレスを入力として得られるサーバ名である。また、トレースルートサービスにより提供されるサーバ関連情報とは、URLが示すサーバに直結するルータのルータ名又はIPアドレスである。
この例では、DNSにより取得されるサーバ名とスコアとが対応づけられ(a)、トレースルートサービスにより取得されるルータ名とスコアとが対応付けられて(b)、それぞれテーブルに記憶されている。
巡回優先度付きURLリストには、判定対象のURLと、巡回の優先度とが対応付けて記憶されている。さらに、巡回優先度付きURLリストには、巡回モジュール20により判定されたか否かを示すフラグデータ(例えば、「Y:判定済み」、「N:未判定」)が記憶されており、未判定のURLが巡回モジュール20により抽出される。
判定結果URLリスには、判定対象のURL、判定結果、及び更新部16による更新対象となったか否かを示す更新済フラグデータ(例えば、「Y:更新済み」、「N:未更新」)が記憶されている。
図5は、本実施形態に係る巡回優先度付きURLリストを生成する処理を示すフローチャートである。
なお、巡回優先度付きURLリストは、優先度の高い順に整列して記憶されてもよいが、巡回部21が並べ替えて抽出してもよい。
以下、本発明の第2実施形態について説明する。なお、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
例えば、ルータは、URLが示すサーバに最も近い1つには限られず、1〜3番目等、複数又はその組合せであってもよい。
また、サーバ名は、URLが示す第1のサーバ名と、DNSにより得られた第2のサーバ名との双方であってもよい。さらに、サーバ関連情報は、第1のサーバ名と第2のサーバ名とが一致するか否かの情報を含んでもよい。
10 優先度生成モジュール
11 収集候補DB(収集候補記憶部)
12 サーバ関連情報取得部
13 判定用DB(判定用データ記憶部)
14 優先度判定部
15 巡回優先度DB(優先度記憶部)
16 更新部
20、20a 巡回モジュール
21 巡回部
22、22a カテゴリ判定部
23 判定結果DB(判定結果記憶部)
Claims (8)
- Webページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集装置であって、
インターネット上の所定のサービスにより、Webページの所在を示すURLを入力として、インターネット上の通信を成立させるサーバ関連情報である、サーバ名、当該サーバのIPアドレス、ルータ名、当該ルータのIPアドレスのうちのいずれかを取得するサーバ関連情報取得部と、
前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶部と、
前記サーバ関連情報取得部により取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定部と、
前記優先度判定部により判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶部と、を備えるWebページ収集装置。 - 前記優先度記憶部に記憶されている前記優先度の高い順に前記アドレスを選択し、当該アドレスにより示されるWebページを順に巡回してコンテンツデータを取得する巡回部と、
前記巡回部により取得された前記コンテンツデータに基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定するカテゴリ判定部と、
前記カテゴリ判定部による判定結果を、前記アドレスと対応付けて記憶する判定結果記憶部と、をさらに備える請求項1に記載のWebページ収集装置。 - 前記カテゴリ判定部は、前記コンテンツデータ、及び前記優先度記憶部に記憶されている前記優先度に基づいて、前記Webページが違法又は有害情報を含むか否かのカテゴリを判定する請求項2に記載のWebページ収集装置。
- 前記優先度記憶部は、前記優先度判定部により前記判定用データと照合された前記文字列を、前記アドレスと対応付けてさらに記憶し、
前記判定結果記憶部に記憶された前記アドレス、及び当該アドレスに対応付けられている前記判定結果に基づいて、当該アドレスと対応付けて前記優先度記憶部に記憶されている前記文字列を取得し、当該文字列に対応して前記判定用データ記憶部に記憶されている前記判定用データを更新する更新部をさらに備える請求項2又は請求項3に記載のWebページ収集装置。 - 前記サーバ関連情報を取得する際の入力である前記アドレスの候補データを記憶する収集候補記憶部をさらに備え、
前記巡回部は、前記Webページに含まれるリンク情報から新たなアドレスを抽出し、前記収集候補記憶部に記憶する請求項2から請求項4のいずれかに記載のWebページ収集装置。 - 前記判定用データは、前記サーバ関連情報の項目値ごとに、当該項目値が取得されるWebページが違法又は有害情報を含む可能性を統計的に算出したデータである請求項1から請求項5のいずれかに記載のWebページ収集装置。
- コンピュータがWebページを巡回して違法又は有害情報を含むWebページを収集するWebページ収集方法であって、
インターネット上の所定のサービスにより、Webページの所在を示すURLを入力として、インターネット上の通信を成立させるサーバ関連情報である、サーバ名、当該サーバのIPアドレス、ルータ名、当該ルータのIPアドレスのうちのいずれかを取得するサーバ関連情報取得ステップと、
前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を含むWebページ収集方法。 - コンピュータに、Webページを巡回して違法又は有害情報を含むWebページを収集させるWebページ収集プログラムであって、
インターネット上の所定のサービスにより、Webページの所在を示すURLを入力として、インターネット上の通信を成立させるサーバ関連情報である、サーバ名、当該サーバのIPアドレス、ルータ名、当該ルータのIPアドレスのうちのいずれかを取得するサーバ関連情報取得ステップと、
前記サーバ関連情報に含まれる文字列と、前記Webページが違法又は有害情報を含む可能性の高さを示す値とを対応付けた判定用データを記憶する判定用データ記憶ステップと、
前記サーバ関連情報取得ステップにおいて取得されたサーバ関連情報を前記判定用データと照合し、当該サーバ関連情報を取得した際の入力である前記アドレスにより示されるWebページが違法又は有害情報を含む可能性の高さにより、巡回の優先度を判定する優先度判定ステップと、
前記優先度判定ステップにおいて判定された前記優先度を、前記アドレスと対応付けて記憶する優先度記憶ステップと、を実行させるWebページ収集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010119109A JP5462713B2 (ja) | 2010-05-25 | 2010-05-25 | Webページ収集装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010119109A JP5462713B2 (ja) | 2010-05-25 | 2010-05-25 | Webページ収集装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248500A JP2011248500A (ja) | 2011-12-08 |
JP5462713B2 true JP5462713B2 (ja) | 2014-04-02 |
Family
ID=45413702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010119109A Expired - Fee Related JP5462713B2 (ja) | 2010-05-25 | 2010-05-25 | Webページ収集装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5462713B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101583188B1 (ko) * | 2014-10-13 | 2016-01-11 | 부산대학교 산학협력단 | 문제 사이트 발굴 방법 및 문제 사이트 발굴 시스템 |
JP7040535B2 (ja) | 2018-01-22 | 2022-03-23 | 日本電気株式会社 | セキュリティ情報処理装置、情報処理方法及びプログラム |
JP6760987B2 (ja) * | 2018-03-27 | 2020-09-23 | 日本電信電話株式会社 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3220104B2 (ja) * | 1999-02-16 | 2001-10-22 | ケイディーディーアイ株式会社 | Url階層構造を利用した情報自動フィルタリング方法および装置 |
JP2005070961A (ja) * | 2003-08-21 | 2005-03-17 | Nippon Telegr & Teleph Corp <Ntt> | Webパトロールシステム、Webパトロール方法、Webパトロール用プログラム、及び、Webパトロール用記録媒体 |
JP4445243B2 (ja) * | 2003-10-28 | 2010-04-07 | 一憲 安藤 | 迷惑メール遮断方法 |
JP4286828B2 (ja) * | 2005-11-15 | 2009-07-01 | 株式会社Cskホールディングス | Webページ巡回装置及びWebページ巡回プログラム |
JP4931553B2 (ja) * | 2006-10-31 | 2012-05-16 | 富士通株式会社 | ネットワーク間接続装置 |
JP2008250597A (ja) * | 2007-03-30 | 2008-10-16 | Kddi Corp | コンピュータシステム |
JP4868245B2 (ja) * | 2007-08-17 | 2012-02-01 | ヤフー株式会社 | 検索システム、検索装置、および検索方法 |
JP4948361B2 (ja) * | 2007-10-29 | 2012-06-06 | 三菱電機株式会社 | Webサーバアクセススケジューリングシステム |
-
2010
- 2010-05-25 JP JP2010119109A patent/JP5462713B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011248500A (ja) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9614862B2 (en) | System and method for webpage analysis | |
US8429110B2 (en) | Pattern tree-based rule learning | |
US8738656B2 (en) | Method and system for processing a group of resource identifiers | |
US9064002B1 (en) | Social identity clustering | |
US7908234B2 (en) | Systems and methods of predicting resource usefulness using universal resource locators including counting the number of times URL features occur in training data | |
JP5513434B2 (ja) | パーペチュアルカレンダページを含むウェブページのトラップ検出及びこれを用いた検索データベース構築方法、システム及びコンピュータ読取可能な記録媒体 | |
JP4322887B2 (ja) | スレッド順位付け装置及び方法 | |
US20120023127A1 (en) | Method and system for processing a uniform resource locator | |
US20080270549A1 (en) | Extracting link spam using random walks and spam seeds | |
US20090216868A1 (en) | Anti-spam tool for browser | |
US20160350370A1 (en) | Search results based on a search history | |
WO2009059480A1 (en) | Url and anchor text analysis for focused crawling | |
CN105302815B (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
WO2013110357A1 (en) | Social network analysis | |
JP5462713B2 (ja) | Webページ収集装置、方法及びプログラム | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
KR101556714B1 (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
JP5135174B2 (ja) | 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム | |
CN113806647A (zh) | 识别开发框架的方法及相关设备 | |
KR101508190B1 (ko) | 유해 사이트 수집 장치 및 방법 | |
JP6960274B2 (ja) | データ収集装置、データ収集方法、およびプログラム | |
JP7188461B2 (ja) | セキュリティ情報分析装置、システム、方法およびプログラム | |
JP6749865B2 (ja) | 情報収集装置、および、情報収集方法 | |
CN103530418B (zh) | 信息搜索与发布方法与系统 | |
JP6985189B2 (ja) | データ収集装置、データ収集方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120803 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5462713 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |