JP5084820B2 - クロールシステム、サーバ及び有害urlリスト更新方法 - Google Patents
クロールシステム、サーバ及び有害urlリスト更新方法 Download PDFInfo
- Publication number
- JP5084820B2 JP5084820B2 JP2009295307A JP2009295307A JP5084820B2 JP 5084820 B2 JP5084820 B2 JP 5084820B2 JP 2009295307 A JP2009295307 A JP 2009295307A JP 2009295307 A JP2009295307 A JP 2009295307A JP 5084820 B2 JP5084820 B2 JP 5084820B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- harmful
- crawl
- web page
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000004044 response Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 description 8
- 230000009193 crawling Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010923 batch production Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記複数の端末の各々は、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録する端末有害URLリスト登録手段と、
前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するURL送信手段と、
を備え、
前記クロールサーバは、
前記端末から送信された前記URLを受信するURL受信手段と、
前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
を備える、
クロールシステム。
前記複数の端末の各々は、受け付けたクエリに含まれるURLが、前記クロールサーバから受信した前記有害URLリストに含まれる場合に、前記URLが示すWebページが有害であると判定する有害URL判定手段を備える、
(1)に記載のクロールシステム。
(1)又は(2)に記載のクロールシステム。
前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
を備える、
クロールサーバ。
前記複数の端末の各々が、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録するステップと、
前記複数の端末の各々が、前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するステップと、
前記クロールサーバが、前記端末から送信された前記URLを受信するステップと、
前記クロールサーバが、前記URLを受信したことに応じて、前記URLをクロール先リストに登録するステップと、
前記クロールサーバが、所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するステップと、
前記クロールサーバが、取得した前記Webページが有害であるか否かを判定するステップと、
前記クロールサーバが、有害であると判定した前記Webページを示すURLを有害URLリストに登録するステップと、
を含む、
有害URLリスト更新方法。
[クロールシステム100の全体構成並びにクロールサーバ1及びユーザ端末3の機能構成]
図1は、本実施形態に係るクロールシステム100の全体構成並びにクロールサーバ1及びユーザ端末3の機能構成を示す図である。図2は、本実施形態に係るクロール先リスト21、有害URLリスト23及び有害URLリスト41の例を示す図である。
次に、クロールシステム100の処理について説明する。ここでは、ユーザ端末3及びクロールサーバ1の処理について、ユーザ端末3でURLを指定したクエリ要求を受け付けた都度、即時に実行するオンライン処理と、所定の時間間隔で定期的に実行するバッチ処理とに分けて説明する。図3は、本実施形態に係るクロールシステム100のオンライン処理のフローチャートである。図4は、本実施形態に係るURLの例を示す図である。図5は、本実施形態に係るクロールシステム100のバッチ処理のフローチャートである。
本実施形態は、クロールサーバでの処理を、オンライン処理とバッチ処理とに分けて説明した。これは、発明時点でのクロールサーバ(Webサーバ)での処理に要する時間や負荷を考慮したものであるが、すべてをリアルタイムに処理してもよい。リアルタイムで処理をすることで、ユーザ端末においてクエリ要求に含まれるURLが示すWebページが一般的に有害であるか否かの判定を、クロールサーバ側でより早く確認し、その結果をその他のユーザ端末にもより速く配信することができる。
3 ユーザ端末
5 Webサーバ
10,30 制御部
11 URL受信手段
12 クロール登録手段
13 クロール手段
14 有害判定手段
15 有害URLリスト登録手段
16 有害URLリスト配信手段
20,40 記憶部
21 クロール先リスト
22,42 有害キーワードDB
23,41 有害URLリスト
31 有害URL判定手段
32 Webページ取得手段
33 キーワード有害判定手段
34 端末有害URLリスト登録手段
35 URL送信手段
Claims (5)
- 複数の端末とクロールサーバとが通信ネットワークを介して接続されたクロールシステムであって、
前記複数の端末の各々は、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録する端末有害URLリスト登録手段と、
前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するURL送信手段と、
を備え、
前記クロールサーバは、
前記端末から送信された前記URLを受信するURL受信手段と、
前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
を備える、
クロールシステム。 - 前記クロールサーバは、前記有害URLリスト登録手段により登録された前記URLを含む前記有害URLリストを前記複数の端末に配信する有害URLリスト配信手段を備え、
前記複数の端末の各々は、受け付けたクエリに含まれるURLが、前記クロールサーバから受信した前記有害URLリストに含まれる場合に、前記URLが示すWebページが有害であると判定する有害URL判定手段を備える、
請求項1に記載のクロールシステム。 - 前記クロールサーバの前記有害判定手段は、前記Webページが有害であることを示す所定のキーワードを所定量以上含む場合に、前記Webページが有害であると判定する、
請求項1又は請求項2に記載のクロールシステム。 - 端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリによりWebページを取得する前記端末が送信した、前記Webページを示すURLを受信するURL受信手段と、
前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
を備える、
クロールサーバ。 - 複数の端末と、前記複数の端末の各々に対して通信ネットワークを介して接続されたクロールサーバとの連携によって有害URLリストを更新する有害URLリスト更新方法であって、
前記複数の端末の各々が、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録するステップと、
前記複数の端末の各々が、前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するステップと、
前記クロールサーバが、前記端末から送信された前記URLを受信するステップと、
前記クロールサーバが、前記URLを受信したことに応じて、前記URLをクロール先リストに登録するステップと、
前記クロールサーバが、所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するステップと、
前記クロールサーバが、取得した前記Webページが有害であるか否かを判定するステップと、
前記クロールサーバが、有害であると判定した前記Webページを示すURLを有害URLリストに登録するステップと、
を含む、
有害URLリスト更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009295307A JP5084820B2 (ja) | 2009-12-25 | 2009-12-25 | クロールシステム、サーバ及び有害urlリスト更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009295307A JP5084820B2 (ja) | 2009-12-25 | 2009-12-25 | クロールシステム、サーバ及び有害urlリスト更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011134254A JP2011134254A (ja) | 2011-07-07 |
JP5084820B2 true JP5084820B2 (ja) | 2012-11-28 |
Family
ID=44346884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009295307A Active JP5084820B2 (ja) | 2009-12-25 | 2009-12-25 | クロールシステム、サーバ及び有害urlリスト更新方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5084820B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018163535A (ja) * | 2017-03-27 | 2018-10-18 | サクサ株式会社 | Webページ監視装置および方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10275157A (ja) * | 1997-03-31 | 1998-10-13 | Sanyo Electric Co Ltd | データ処理装置 |
JPH11306113A (ja) * | 1998-04-21 | 1999-11-05 | Yazaki Corp | 画像処理装置及び画像処理方法 |
JP2002132633A (ja) * | 2000-10-30 | 2002-05-10 | Nec Aerospace Syst Ltd | ホームページ閲覧制御装置およびホームページ閲覧制御方法 |
JP2002259339A (ja) * | 2001-02-26 | 2002-09-13 | Toshiba Tec Corp | ネット上資源アクセス制限処理プログラム及びネット上資源アクセス制限処理方法並びに装置 |
JP2002366531A (ja) * | 2001-06-06 | 2002-12-20 | Japan Science & Technology Corp | 著作権管理システム |
JP3571708B2 (ja) * | 2002-06-26 | 2004-09-29 | コナミ株式会社 | サーバ装置及びプログラム |
JP4859779B2 (ja) * | 2007-08-01 | 2012-01-25 | ヤフー株式会社 | 有害コンテンツの評価付与装置、プログラム及び方法 |
-
2009
- 2009-12-25 JP JP2009295307A patent/JP5084820B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011134254A (ja) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105843815B (zh) | 页面评论处理方法、装置和浏览器 | |
US20060036685A1 (en) | Suggesting a discussion group based on indexing of the posts within that discussion group | |
JP2008146412A (ja) | ネットワーク管理システム、ネットワーク管理プログラムおよびネットワーク管理方法 | |
JP2013037624A (ja) | 情報処理システム、情報処理方法、プログラム及び情報記憶媒体 | |
CN102667754A (zh) | 用于增强数字内容的系统和方法 | |
JP2012014652A (ja) | コンテンツ配信システム及びコンテンツ配信方法 | |
KR20130116032A (ko) | 참조 웹 크롤의 도움에 의한 웹 코퍼스의 구축 | |
US20100211674A1 (en) | Community generation support system, community generation support method, and community generation support program | |
JP5119085B2 (ja) | 共同購入支援装置 | |
JP2008176570A (ja) | 配信システム、口コミ情報管理サーバ、配信サーバ、ユーザ端末及び配信方法 | |
JP2013011999A (ja) | トピック変化検出装置及び方法 | |
JP5084820B2 (ja) | クロールシステム、サーバ及び有害urlリスト更新方法 | |
JP5271952B2 (ja) | サーバ装置、評価方法、及び評価プログラム | |
JP2011191980A (ja) | レシピ提供システム及び方法 | |
JP6539772B1 (ja) | 情報処理装置、情報処理方法、プログラム、記憶媒体 | |
JP2009099007A (ja) | サービスサーバ、更新情報管理サーバ、サービスシステム、サービスプログラム及び更新情報管理プログラム | |
JP2007140709A (ja) | Webページ巡回装置及びWebページ巡回プログラム | |
JP5020170B2 (ja) | ユーザに固有のイベントを判定する情報管理装置、情報管理方法及びプログラム | |
JP2013084068A (ja) | 情報表示装置、サーバ、プログラム、情報表示方法及び情報表示システム | |
JP2004318389A (ja) | Webサイト誘導方法、システムおよびプログラム | |
JP2007257625A (ja) | 配信システム、配信方法、及びプログラム | |
JP2007102635A (ja) | Blogコミュニティ推薦方法及びシステム及びプログラム | |
JP5230717B2 (ja) | 情報処理システム、情報処理方法、プログラム | |
JP5028499B2 (ja) | サーバ、方法及びプログラム | |
JP2011164960A (ja) | ページ生成装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5084820 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |