JP5084820B2 - クロールシステム、サーバ及び有害urlリスト更新方法 - Google Patents

クロールシステム、サーバ及び有害urlリスト更新方法 Download PDF

Info

Publication number
JP5084820B2
JP5084820B2 JP2009295307A JP2009295307A JP5084820B2 JP 5084820 B2 JP5084820 B2 JP 5084820B2 JP 2009295307 A JP2009295307 A JP 2009295307A JP 2009295307 A JP2009295307 A JP 2009295307A JP 5084820 B2 JP5084820 B2 JP 5084820B2
Authority
JP
Japan
Prior art keywords
url
harmful
crawl
web page
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009295307A
Other languages
English (en)
Other versions
JP2011134254A (ja
Inventor
茂 竹内
真大 日吉
良昇 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009295307A priority Critical patent/JP5084820B2/ja
Publication of JP2011134254A publication Critical patent/JP2011134254A/ja
Application granted granted Critical
Publication of JP5084820B2 publication Critical patent/JP5084820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネット上のWebページを取得するクロールシステム、サーバ及び有害URLリスト更新方法に関する。
従来、端末からWebページの送信要求情報を受信したWebサーバは、原則的に送信要求情報に含まれるURL(Uniform Resource Locator)に対応付けられているWebページを端末に送信する。しかし、Webページには、わいせつな画像データ、暴力的な表現を含んだ情報、犯罪に関する情報等の不良なデータ又は有害なデータが含まれている場合がある。
そこで、Webサーバと端末(クライアント装置)とを中継する管理サーバにおいて、有害なデータに含まれるキーワードを予め設定しておき、キーワードを含むWebサイトを検索サーバに検索させ、検索結果を取得してそこから抽出したURLを不良URLとして登録する管理サーバが示されている(例えば、特許文献1参照)。特許文献1に記載の管理サーバでは、端末からコンテンツに対する送信要求の際に、要求のURLが不良URLであるか否かを判定している。
特開2004−46739号公報
しかし、特許文献1に記載の管理サーバを使用する場合には、端末で有害か否かを判定しない。つまり、端末のユーザごとに有害であるか否かのレベルが異なる場合であっても、特許文献1に記載の管理サーバを使用する場合には、一律の判断しかできない。
また、特許文献1に記載の管理サーバは、端末からコンテンツの送信要求を受信して有害なWebページであるか否かを判断するので、管理サーバに処理が集中して管理サーバに負荷がかかる場合等、端末とのレスポンスが遅延することが懸念される。
本発明は、端末ごとに有害判定を行いつつ、迅速なレスポンスをも考慮したクロールシステム、サーバ及び有害URLリスト更新方法を提供することを目的とする。
本発明者らは、端末から送信されたURLに基づき、そのURLが示すWebページが有害か否かを判定して、その結果を有害URLリストとして端末に送信し、端末に判断させることで端末での迅速性を担保しつつ、端末でも独自の有害判定をさせることを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) 複数の端末とクロールサーバとが通信ネットワークを介して接続されたクロールシステムであって、
前記複数の端末の各々は、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録する端末有害URLリスト登録手段と、
前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するURL送信手段と、
を備え、
前記クロールサーバは、
前記端末から送信された前記URLを受信するURL受信手段と、
前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
を備える、
クロールシステム。
本発明のこのような構成によれば、端末又は端末のユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリによりWebページを取得した端末からそのWebページを示すURLを受信してクロール先リストに登録し、クロール先リストのURLの端末ユーザ属性情報を含まないクエリによってWebページを取得してこのWebページが有害であるか否かを判定し、有害と判定された場合には、そのWebページを示すURLを有害URLリストに登録する。
よって、クロールサーバは、端末から送信されたURLをクロール対象にして、端末ユーザ属性情報を除いたURLが示すWebページが有害か否かを判定するので、ユーザや端末に依存しない一般的な基準により有害か否かの判定を行うことができる。
また、本発明のこのような構成によれば、端末は、端末ユーザ属性情報を含んだクエリを用いて当該端末ユーザ属性情報に即した有害判定を行いつつ、その判定の対象になったURLについて、クロールサーバは、端末ユーザ属性情報を含まないクエリを用いて当該端末ユーザ属性情報の影響を排除して当該有害判定を行うことができるので、端末とクロールサーバとがそれぞれ異なる目的に応じた有害判定を効果的かつ効率的に行うことができる。
(2) 前記クロールサーバは、前記有害URLリスト登録手段により登録された前記URLを含む前記有害URLリストを前記複数の端末に配信する有害URLリスト配信手段を備え、
前記複数の端末の各々は、受け付けたクエリに含まれるURLが、前記クロールサーバから受信した前記有害URLリストに含まれる場合に、前記URLが示すWebページが有害であると判定する有害URL判定手段を備える、
(1)に記載のクロールシステム。
本発明のこのような構成によれば、端末においてURLが有害であるか否かを判定するために有害URLリストを配信するので、一般的な基準により有害か否かの判定するURLを配信することで、端末では、配信された有害URLリストを受信して、有害判定が必要なURLについて、受信した有害URLリストに当該URLが含まれていれば、そのURLが示すWebページを有害であると判定することができる。また、この配信された有害URLリストを用いた判定を、当該URLが示すWebページの内容を確認する前の段階で行うことで、端末での迅速性を担保することができる。
(3) 前記クロールサーバの前記有害判定手段は、前記Webページが有害であることを示す所定のキーワードを所定量以上含む場合に、前記Webページが有害であると判定する、
(1)又は(2)に記載のクロールシステム。
本発明のこのような構成によれば、Webページが有害であるか否かを、例えば、卑猥な単語等を含む所定のキーワードを所定量以上含む場合に、そのWebページが有害であると判定できる。
(4) 端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリによりWebページを取得する前記端末が送信した、前記Webページを示すURLを受信するURL受信手段と、
前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
を備える、
クロールサーバ。
(5) 複数の端末と、前記複数の端末の各々に対して通信ネットワークを介して接続されたクロールサーバとの連携によって有害URLリストを更新する有害URLリスト更新方法であって、
前記複数の端末の各々が、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録するステップと、
前記複数の端末の各々が、前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するステップと、
前記クロールサーバが、前記端末から送信された前記URLを受信するステップと、
前記クロールサーバが、前記URLを受信したことに応じて、前記URLをクロール先リストに登録するステップと、
前記クロールサーバが、所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するステップと、
前記クロールサーバが、取得した前記Webページが有害であるか否かを判定するステップと、
前記クロールサーバが、有害であると判定した前記Webページを示すURLを有害URLリストに登録するステップと、
を含む、
有害URLリスト更新方法。
本発明によれば、クロールサーバは、端末から送信されたURLをクロール対象にして、端末ユーザ属性情報を除いたURLが示すWebページが有害か否かを判定するので、クロールシステムは、ユーザや端末に依存しない一般的な基準により有害か否かの判定を行うことができる。
本実施形態に係るクロールシステムの全体構成並びにクロールサーバ及びユーザ端末の機能構成を示す図である。 本実施形態に係るクロール先リスト並びにクロールサーバ及び端末の有害URLリストの例を示す図である。 本実施形態に係るクロールシステムのオンライン処理のフローチャートである。 本実施形態に係るURLの例を示す図である。 本実施形態に係るクロールシステムのバッチ処理のフローチャートである。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
[クロールシステム100の全体構成並びにクロールサーバ1及びユーザ端末3の機能構成]
図1は、本実施形態に係るクロールシステム100の全体構成並びにクロールサーバ1及びユーザ端末3の機能構成を示す図である。図2は、本実施形態に係るクロール先リスト21、有害URLリスト23及び有害URLリスト41の例を示す図である。
図1に示すクロールシステム100は、クロールサーバ1と、複数のユーザ端末3と、Webサーバ5と、通信ネットワーク9とにより構成される。
クロールサーバ1は、ユーザ端末3から受信したURL(Uniform Resource Locator)を含むクロール先リスト21(後述する)に基づいて、Webサーバ5を定期的に巡回してWebページを取得(クロール)する。そして、クロールサーバ1は、その取得したWebページが有害なWebページであるか否かを判定するサーバである。クロールサーバ1は、制御部10と、記憶部20とを備える。
制御部10は、URL受信手段11と、クロール登録手段12と、クロール手段13と、有害判定手段14と、有害URLリスト登録手段15と、有害URLリスト配信手段16とを備える。
URL受信手段11は、有害なWebページであるかのチェック対象であるWebページを示すURLをユーザ端末3から受信する制御部である。チェック対象のWebページとは、ユーザ端末3において、対象のWebページが記憶されたWebサーバ5のURLの後ろに端末ユーザ属性情報を追加したクエリによって取得されたWebページをいう。また、端末ユーザ属性情報とは、端末ID(identifier)等の、そのユーザ端末3を特定する情報又はユーザID等のユーザ端末3を使用するユーザを特定する情報の少なくともいずれかを含むものをいう。なお、URL受信手段11が受信するチェック対象のWebページを示すURLには、追加された端末ユーザ属性情報を含まない。
クロール登録手段12は、URL受信手段11によって受信したチェック対象のWebページを示すURLを、クロール先リスト21に登録する制御部である。クロール登録手段12は、オンライン処理にて行われ、ユーザ端末3の各々からURLを受信した都度記憶する。
クロール手段13は、クロール先リスト21を参照して、該当のURLのWebページを記憶するWebサーバ5に対してアクセスし、Webページを取得する制御部である。
有害判定手段14は、クロール手段13で取得したWebページが有害なキーワードを含むか否かを、有害キーワードDB22(DB:データベース)を参照して判定する制御部である。有害判定手段14は、有害なキーワードを所定数(所定量)以上含む場合に、そのWebページが有害であると判定する。
有害URLリスト登録手段15は、有害判定手段14において有害であると判定されたWebページを示すURLを、有害URLリスト23に追加登録する制御部である。
有害URLリスト配信手段16は、有害URLリスト23に追加登録されたURLを、ユーザ端末3に対して送信する制御部である。クロール手段13、有害判定手段14、有害URLリスト登録手段15及び有害URLリスト配信手段16は、バッチ処理にて所定の時間間隔で行われる。
記憶部20は、クロール先リスト21と、有害キーワードDB22と、有害URLリスト23とを備える。
クロール先リスト21は、ユーザ端末3から受信したチェック対象であるWebページを示すURLを登録する記憶領域である。図2(a)に一例を示すように、クロール先リスト21は、URL21aと、格納日21bと、チェック済フラグ21cとを備える。URL21aには、ユーザ端末3から受信したURLを格納する。格納日21bには、クロール先リスト21に登録した日付を格納する。チェック済フラグ21cには、クロール手段13によってクロールしたか否かのフラグを格納するが、「0」がクロール未済、「1」がクロール済を示す。なお、クロール先リスト21は、チェック済フラグ21cを有さずに、クロール手段13による処理の後に、そのクロール対象のURLを削除してもよい。
有害キーワードDB22は、例えば、誹謗中傷や卑猥な単語、語句を含む、有害なWebページ特有のキーワードを記憶するDBである。この有害キーワードDB22には、一般的に有害と認められるキーワードを記憶する。
有害URLリスト23は、有害であると判定されたWebページを示すURLを追加登録する記憶領域である。図2(b)は、有害URLリスト23の一例を示したものである。有害URLリスト23は、URL23aと、登録日23bとを備える。URL23aには、有害であると判定されたWebページを示すURLを格納する。登録日23bには、有害URLリスト23にURLを登録した日付を格納する。そして、有害URLリスト23に追加登録されたURLは、有害URLリスト配信手段16によって、例えば、ツールバーのプログラムに有害URLリストとして含んで、各々のユーザ端末3に送信される。
本実施形態のクロールサーバ1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、クロールサーバ1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
ユーザ端末3は、例えば、パーソナルコンピュータ(PC)や、携帯電話機等の携帯端末である。ユーザ端末3は、通信機能を有し、Webブラウザを搭載してWebページが閲覧できる端末であれば、どのような装置であってもよい。ユーザ端末3は、制御部30と、記憶部40とを備える。
制御部30は、有害URL判定手段31と、Webページ取得手段32と、キーワード有害判定手段33と、端末有害URLリスト登録手段34と、URL送信手段35とを備える。
有害URL判定手段31は、ユーザ端末3が受け付けたクエリに含まれるURLが、有害URLリスト41に登録されているか否かを判定する制御部である。有害URLリスト41に登録されている場合には、そのURLが示すWebページは有害なWebページであると判定して、ユーザ端末3は、Webサーバ5に対してWebページの取得をせずに処理を終了する。
Webページ取得手段32は、有害URL判定手段31においてURLが有害URLリスト41に登録されていないと判定された場合に、そのURLに基づきWebサーバ5に対してWebページを取得する制御部である。この場合には、Webページ取得手段32は、URLに端末ユーザ属性情報を含んだWebページの取得要求によって、Webページを取得する。
キーワード有害判定手段33は、Webページ取得手段32により取得したWebページが有害なキーワードを含むか否かを、有害キーワードDB42を参照して判定する制御部である。
端末有害URLリスト登録手段34は、キーワード有害判定手段33によってWebページが有害なキーワードを含むと判定した場合に、そのWebページを示すURLを有害URLリスト41に登録する制御部である。
URL送信手段35は、キーワード有害判定手段33における判定に関係なく、Webページ取得手段32によって取得されたWebページを示すURLをクロールサーバ1に対して送信する制御部である。この場合、クロールサーバ1に対して送信するURLには、Webページ取得手段32にてWebページを取得する際に含んだ端末ユーザ属性情報を含まない。
記憶部40は、有害URLリスト41と、有害キーワードDB42とを備える。
有害URLリスト41は、有害なWebページを示すURLを記憶する記憶領域である。クロールサーバ1から有害URLリスト23に追加登録された対象のURLを含む有害URLリストが、例えば、Webブラウザのツールバーのプログラムに含んで配信されることで、ユーザ端末3は、受信した都度有害URLリスト41を更新する。また、有害URLリスト41は、端末有害URLリスト登録手段34によって登録されるURLを含む。
図2(c)は、有害URLリスト41の一例を示したものである。有害URLリスト41に含む項目は、クロールサーバ1の有害URLリスト23と同様である。レコード41xは、クロールサーバ1の有害URLリスト23に記憶されているものと同じである。レコード41yは、端末有害URLリスト登録手段34によって登録されたものであり、各ユーザ端末3に独自のものである。よって、有害URLリスト41は、クロールサーバ1の有害URLリスト23に有するURLと、ユーザ端末3で独自に登録したURLとを含む。
有害キーワードDB42は、例えば、誹謗中傷や卑猥な単語、語句を含む有害なWebページ特有のキーワードを記憶するDBである。有害キーワードDB42は、ユーザ端末3のユーザごとに、有害であると判断する有害キーワードをカスタマイズすることができる。よって、有害キーワードDB42は、ユーザ端末3ごとにその内容が異なる。また、有害キーワードDB42と、クロールサーバ1の有害キーワードDB22とは、内容が異なるものになる。
Webサーバ5は、ユーザ端末3から閲覧可能な複数のWebページを格納するサーバであり、Webページを記憶する記憶部と、Webサーバ5の全体を制御する制御部とを備える。Webサーバ5のハードウェアは、一般的なコンピュータによって構成してよい。
通信ネットワーク9は、クロールサーバ1と、ユーザ端末3と、Webサーバ5との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
[クロールシステム100の処理]
次に、クロールシステム100の処理について説明する。ここでは、ユーザ端末3及びクロールサーバ1の処理について、ユーザ端末3でURLを指定したクエリ要求を受け付けた都度、即時に実行するオンライン処理と、所定の時間間隔で定期的に実行するバッチ処理とに分けて説明する。図3は、本実施形態に係るクロールシステム100のオンライン処理のフローチャートである。図4は、本実施形態に係るURLの例を示す図である。図5は、本実施形態に係るクロールシステム100のバッチ処理のフローチャートである。
図3のオンライン処理は、ユーザ端末3がWebブラウザを起動した状態で、クエリ要求を受け付けたことで開始する。
図3のS1:ユーザ端末3の制御部30(有害URL判定手段31)は、クエリ要求に含まれるURLが有害URLリスト41に存在するかか否かを判定する。クエリ要求に含まれるURLが有害URLリスト41に存在する場合(S1:YES)には、制御部30は、処理をS2に移し、クエリ要求に含まれるURLが示すWebページは有害であると判定する。そして、制御部30は、例えば、ユーザ端末3に有害なWebページのために閲覧できない旨を表示して、本処理を終了する。他方、クエリ要求に含まれるURLが有害URLリスト41に存在しない場合(S1:NO)には、制御部30は、処理をS3に移す。
S3:制御部30(Webページ取得手段32)は、Webサーバ5に対してWebページの取得要求を行う。Webページの取得要求は、端末ユーザ属性情報を含んだURLを送信することで、ユーザ端末3が所望のWebページを取得できる。図4(a)に示すURL50は、端末ユーザ属性情報51を含んでいる。そして、Webページ取得手段32は、Webサーバ5から該当のWebページを取得する。
S4:制御部30(キーワード有害判定手段33)は、有害キーワードDB42を参照して、取得したWebページが有害なキーワードを所定数以上含むか否かを判定する。取得したWebページが有害なキーワードを所定数以上含む場合(S4:YES)には、制御部30は、処理をS5に移し、当該Webページは有害であると判定する。その後、制御部30は、処理をS6に移す。他方、取得したWebページが有害なキーワードを含まない場合(S4:NO)には、制御部30は、当該Webページは有害ではないと判定する。そして、制御部30は、処理をS7に移す。
S6:制御部30(端末有害URLリスト登録手段34)は、有害であると判定したWebページを示すURLを、有害URLリスト41に登録する。
S7:制御部30(URL送信手段35)は、有害判定の対象になったWebページを示すURLを、クロールサーバ1に対して送信する。ここで、クロールサーバ1に送信するURLは、端末ユーザ属性情報を含まない。図4(b)に示すURL52は、クロールサーバ1に送信するURLの一例であり、端末ユーザ属性情報51が除かれたものである。
S7の処理では、ユーザ端末3で有害であると判定したWebページも、有害ではないと判定したWebページも、いずれの場合もそのWebページのURLをクロールサーバ1に送信している。これは、ユーザ端末3で取得したWebページは、ユーザ端末3の属性等を含んで取得したものであり、ユーザ端末3での判定結果が無害であっても、一般的に無害とは限らないからである。また、有害か無害かの判定は、グレーゾーンもあり、クロールサーバ1での判断基準とユーザ端末3での判断基準とは異なることが想定されるからである。
S11:クロールサーバ1の制御部10(URL受信手段11)は、ユーザ端末3からWebページを示すURLを受信する。
S12:制御部10(クロール登録手段12)は、受信したURLをクロール先リスト21に登録する。その後、制御部10は、処理を終了する。
次に、バッチ処理について説明する。図5のバッチ処理は、クロールサーバ1において、スケジューリングにあわせて、例えば、毎週末や3日おき等、定期的に実行される。
S21:クロールサーバ1の制御部10(クロール手段13)は、クロール処理を行う。具体的には、クロール手段13は、クロール先リスト21に格納されたURLが示すWebサーバ5をクロール(巡回)することで、Webページを取得する。
S22:制御部10(有害判定手段14)は、Webページを取得するごとに、取得したWebページが有害なキーワードを所定数以上含むか否かを判定する。Webページが有害なキーワードを所定数以上含む場合(S22:YES)には、制御部10は、処理をS23に移す。他方、Webページが有害なキーワードを所定数以上は含まない場合(S22:NO)には、制御部10は、処理をS24に移す。
S23:制御部10(有害URLリスト登録手段15)は、該当のWebページを示すURLを、有害URLリスト23に登録する。
S24:制御部10は、取得したすべてのWebページについて有害判定を行ったか否かを判定する。取得したすべてのWebページについて有害判定を行った場合(S24:YES)には、制御部10は、処理をS25に移す。他方、すべてのWebページについて有害判定を行っていない場合(S24:NO)には、制御部10は、処理をS22に移す。
S25:制御部10(有害URLリスト配信手段16)は、有害URLリスト23に追加されたWebページを示すURLを抽出した有害URLリストを、ユーザ端末3の各々に配信する。
S31:ユーザ端末3の制御部30は、クロールサーバ1から送信された有害URLリストを受信して、有害URLリスト41に追加登録する。その後、制御部30は、本処理を終了する。
このように、クロールシステム100は、クロールサーバ1がユーザ端末3から送信されたURLをクロール対象にして、端末ユーザ属性情報を除いたURLが示すWebページが有害か否かを判定するので、ユーザやユーザ端末3に依存しない一般的な基準による有害か否かの判定を行うことができる。そして、クロールサーバ1は、ユーザ端末3においてURLが有害であるか否かを判定するために有害URLリストを配信するので、一般的な基準により有害か否かの判定するURLを配信することで、ユーザ端末3では、配信されたURLを受信して、そのURLが示すWebページを有害であると判定することができる。また、ユーザ端末3は、この配信された有害URLリストを用いた判定をWebページの内容を確認する前の段階で行うことで、ユーザ端末3での迅速性を担保することができる。
また、クロールシステム100は、ユーザ端末3では、端末ユーザ属性情報を含んだクエリを用い、クロールサーバ1では、端末ユーザ属性情報を含まないクエリを用いるので、ユーザ端末3とクロールサーバ1とがそれぞれ異なる目的に応じて、有害なWebページであるか否かの判定を効果的かつ効率的に行うことができる。
(変形形態)
本実施形態は、クロールサーバでの処理を、オンライン処理とバッチ処理とに分けて説明した。これは、発明時点でのクロールサーバ(Webサーバ)での処理に要する時間や負荷を考慮したものであるが、すべてをリアルタイムに処理してもよい。リアルタイムで処理をすることで、ユーザ端末においてクエリ要求に含まれるURLが示すWebページが一般的に有害であるか否かの判定を、クロールサーバ側でより早く確認し、その結果をその他のユーザ端末にもより速く配信することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 クロールサーバ
3 ユーザ端末
5 Webサーバ
10,30 制御部
11 URL受信手段
12 クロール登録手段
13 クロール手段
14 有害判定手段
15 有害URLリスト登録手段
16 有害URLリスト配信手段
20,40 記憶部
21 クロール先リスト
22,42 有害キーワードDB
23,41 有害URLリスト
31 有害URL判定手段
32 Webページ取得手段
33 キーワード有害判定手段
34 端末有害URLリスト登録手段
35 URL送信手段

Claims (5)

  1. 複数の端末とクロールサーバとが通信ネットワークを介して接続されたクロールシステムであって、
    前記複数の端末の各々は、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録する端末有害URLリスト登録手段と、
    前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するURL送信手段と、
    を備え、
    前記クロールサーバは、
    前記端末から送信された前記URLを受信するURL受信手段と、
    前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
    前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
    前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
    前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
    を備える、
    クロールシステム。
  2. 前記クロールサーバは、前記有害URLリスト登録手段により登録された前記URLを含む前記有害URLリストを前記複数の端末に配信する有害URLリスト配信手段を備え、
    前記複数の端末の各々は、受け付けたクエリに含まれるURLが、前記クロールサーバから受信した前記有害URLリストに含まれる場合に、前記URLが示すWebページが有害であると判定する有害URL判定手段を備える、
    請求項1に記載のクロールシステム。
  3. 前記クロールサーバの前記有害判定手段は、前記Webページが有害であることを示す所定のキーワードを所定量以上含む場合に、前記Webページが有害であると判定する、
    請求項1又は請求項2に記載のクロールシステム。
  4. 端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリによりWebページを取得する前記端末が送信した、前記Webページを示すURLを受信するURL受信手段と、
    前記URL受信手段が前記URLを受信したことに応じて、前記URLをクロール先リストに登録するクロール登録手段と、
    前記クロール登録手段が所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するクロール手段と、
    前記クロール手段により取得した前記Webページが有害であるか否かを判定する有害判定手段と、
    前記有害判定手段により有害であると判定されたことに応じて、前記Webページを示すURLを有害URLリストに登録する有害URLリスト登録手段と、
    を備える、
    クロールサーバ。
  5. 複数の端末と、前記複数の端末の各々に対して通信ネットワークを介して接続されたクロールサーバとの連携によって有害URLリストを更新する有害URLリスト更新方法であって、
    前記複数の端末の各々が、前記端末又は前記端末を使用するユーザの少なくともいずれかに関する端末ユーザ属性情報を含んだクエリにより取得したWebページが有害であるか否かを判定し、有害であると判定した場合に、前記Webページを示すURLを端末有害URLリストに登録するステップと、
    前記複数の端末の各々が、前記端末ユーザ属性情報を含んだクエリにより取得した前記Webページを示すURLを前記クロールサーバに送信するステップと、
    前記クロールサーバが、前記端末から送信された前記URLを受信するステップと、
    前記クロールサーバが、前記URLを受信したことに応じて、前記URLをクロール先リストに登録するステップと、
    前記クロールサーバが、所定の期間内に登録した前記URLを前記クロール先リストから読み出して、前記端末ユーザ属性情報を含まないクエリにより、読み出した前記URLが示すWebページを取得するステップと、
    前記クロールサーバが、取得した前記Webページが有害であるか否かを判定するステップと、
    前記クロールサーバが、有害であると判定した前記Webページを示すURLを有害URLリストに登録するステップと、
    を含む、
    有害URLリスト更新方法。
JP2009295307A 2009-12-25 2009-12-25 クロールシステム、サーバ及び有害urlリスト更新方法 Active JP5084820B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009295307A JP5084820B2 (ja) 2009-12-25 2009-12-25 クロールシステム、サーバ及び有害urlリスト更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009295307A JP5084820B2 (ja) 2009-12-25 2009-12-25 クロールシステム、サーバ及び有害urlリスト更新方法

Publications (2)

Publication Number Publication Date
JP2011134254A JP2011134254A (ja) 2011-07-07
JP5084820B2 true JP5084820B2 (ja) 2012-11-28

Family

ID=44346884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009295307A Active JP5084820B2 (ja) 2009-12-25 2009-12-25 クロールシステム、サーバ及び有害urlリスト更新方法

Country Status (1)

Country Link
JP (1) JP5084820B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018163535A (ja) * 2017-03-27 2018-10-18 サクサ株式会社 Webページ監視装置および方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10275157A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd データ処理装置
JPH11306113A (ja) * 1998-04-21 1999-11-05 Yazaki Corp 画像処理装置及び画像処理方法
JP2002132633A (ja) * 2000-10-30 2002-05-10 Nec Aerospace Syst Ltd ホームページ閲覧制御装置およびホームページ閲覧制御方法
JP2002259339A (ja) * 2001-02-26 2002-09-13 Toshiba Tec Corp ネット上資源アクセス制限処理プログラム及びネット上資源アクセス制限処理方法並びに装置
JP2002366531A (ja) * 2001-06-06 2002-12-20 Japan Science & Technology Corp 著作権管理システム
JP3571708B2 (ja) * 2002-06-26 2004-09-29 コナミ株式会社 サーバ装置及びプログラム
JP4859779B2 (ja) * 2007-08-01 2012-01-25 ヤフー株式会社 有害コンテンツの評価付与装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2011134254A (ja) 2011-07-07

Similar Documents

Publication Publication Date Title
CN105843815B (zh) 页面评论处理方法、装置和浏览器
US20060036685A1 (en) Suggesting a discussion group based on indexing of the posts within that discussion group
JP2008146412A (ja) ネットワーク管理システム、ネットワーク管理プログラムおよびネットワーク管理方法
JP2013037624A (ja) 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
CN102667754A (zh) 用于增强数字内容的系统和方法
JP2012014652A (ja) コンテンツ配信システム及びコンテンツ配信方法
KR20130116032A (ko) 참조 웹 크롤의 도움에 의한 웹 코퍼스의 구축
US20100211674A1 (en) Community generation support system, community generation support method, and community generation support program
JP5119085B2 (ja) 共同購入支援装置
JP2008176570A (ja) 配信システム、口コミ情報管理サーバ、配信サーバ、ユーザ端末及び配信方法
JP2013011999A (ja) トピック変化検出装置及び方法
JP5084820B2 (ja) クロールシステム、サーバ及び有害urlリスト更新方法
JP5271952B2 (ja) サーバ装置、評価方法、及び評価プログラム
JP2011191980A (ja) レシピ提供システム及び方法
JP6539772B1 (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2009099007A (ja) サービスサーバ、更新情報管理サーバ、サービスシステム、サービスプログラム及び更新情報管理プログラム
JP2007140709A (ja) Webページ巡回装置及びWebページ巡回プログラム
JP5020170B2 (ja) ユーザに固有のイベントを判定する情報管理装置、情報管理方法及びプログラム
JP2013084068A (ja) 情報表示装置、サーバ、プログラム、情報表示方法及び情報表示システム
JP2004318389A (ja) Webサイト誘導方法、システムおよびプログラム
JP2007257625A (ja) 配信システム、配信方法、及びプログラム
JP2007102635A (ja) Blogコミュニティ推薦方法及びシステム及びプログラム
JP5230717B2 (ja) 情報処理システム、情報処理方法、プログラム
JP5028499B2 (ja) サーバ、方法及びプログラム
JP2011164960A (ja) ページ生成装置及び方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120904

R150 Certificate of patent or registration of utility model

Ref document number: 5084820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350