JP2011154557A - 有害文書判定方法及び装置 - Google Patents

有害文書判定方法及び装置 Download PDF

Info

Publication number
JP2011154557A
JP2011154557A JP2010015961A JP2010015961A JP2011154557A JP 2011154557 A JP2011154557 A JP 2011154557A JP 2010015961 A JP2010015961 A JP 2010015961A JP 2010015961 A JP2010015961 A JP 2010015961A JP 2011154557 A JP2011154557 A JP 2011154557A
Authority
JP
Japan
Prior art keywords
harmful
document
url
determination
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010015961A
Other languages
English (en)
Other versions
JP5165704B2 (ja
Inventor
Iori Nishida
衣織 西田
Shigeru Takeuchi
茂 竹内
Masahiro Hiyoshi
真大 日吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010015961A priority Critical patent/JP5165704B2/ja
Publication of JP2011154557A publication Critical patent/JP2011154557A/ja
Application granted granted Critical
Publication of JP5165704B2 publication Critical patent/JP5165704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】URL内のテキストの検索を効率的に行い端末側のレスポンスを考慮した有害文書判定方法及び装置を提供する。
【解決手段】有害文書判定装置1は、文書を解析して文書が有害であるか否かを判定する文書有害判定手段13と、文書にURLが記載されている場合にURLが有害URLデータベースに登録されていることを条件に、文書有害判定手段13において有害ではないと判定した場合においても、文書が有害であると判定する有害URL判定手段15と、URLが登録されていないと判定したことに応じて判定したURLが示す文書について有害であるか否かをさらに判定し、URLが示す文書が有害である場合に文書が有害であると判定する総合判定手段18とを備える。
【選択図】図1

Description

本発明は、有害文書判定方法及び装置に関する。
従来、インターネット上のWebページや、電子メールの本文のテキスト等のコンテンツには、誹謗中傷や卑猥な文言等のユーザに有害な情報が掲載されたものが存在する。このような有害な情報が含まれているページを表示させないようにするネットワーク上のフィルタリング装置が開示されている(例えば、特許文献1)。
特許文献1に記載のフィルタリング装置は、端末からURL(Uniform Resource Locator)等の指定があった場合に、そのURL内のテキストを検索する。そして、フィルタリング対象の文字列を見つけた場合には、フィルタリング装置は、URLが示すWebページをフィルタリングすることで有害な情報を表示しない。
特開2002−14991号公報
しかし、特許文献1に記載のフィルタリング装置は、端末からURLの指定があった場合に、その都度URL内のテキストを検索するものである。フィルタリング装置は、同じURLの指定でも、その都度毎回検索処理を行うため、処理が煩雑である。また、フィルタリング装置は、端末からURLの指定があるごとに判定をするので、端末側でのレスポンスの悪化が懸念される。
本発明は、URL内のテキストの検索を効率的に行い端末側のレスポンスを考慮した有害文書判定方法及び装置を提供することを目的とする。
本発明者らは、有害な情報が含まれるWebページのURLをリスト化し、さらにURLの階層を辿って有害な情報がWebページに含まれるか否かをチェックする方法を見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) コンピュータによって文書が有害であるか否かを判定する有害文書判定方法であって、コンピュータが、前記文書を解析して前記文書が有害であるか否かを判定する文書有害判定ステップと、コンピュータが、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に、前記文書有害判定ステップにおいて有害ではないと判定した場合においても、前記文書が有害であると判定する有害URL判定ステップと、コンピュータが、前記有害URL判定ステップにより前記URLが登録されていないと判定したことに応じて、判定した前記URLが示す文書について有害であるか否かをさらに判定し、前記URLが示す文書が有害である場合に、前記文書が有害であると判定する総合判定ステップと、を含む、有害文書判定方法。
本発明のこのような構成によれば、有害文書判定方法は、文書が有害であるか否かの判定を、文書を解析して、例えば、文書に含まれる語句の評価により、文書に含むURLが有害URLデータベースに記憶されているか否か、文書が有害URLデータベースに記憶されていないURLを含む場合に、そのURLが示す文書を解析することによって、文書が有害であるか否かを判定する。よって、有害文書判定方法は、文書に含むURLが有害URLデータベースに記憶されている場合には、URLが示す文書の検索を行わないので、効率的に処理をすることができる。また、有害文書判定方法は、文書に未知のURLが含まれる場合であっても、そのURLが示す文書が有害であるか否かまでを判断して、文書が有害であるか否かを判定するので、ユーザが有害な文書にふれる機会を減らすことができる。
(2) コンピュータによって文書が有害であるか否かを判定する有害文書判定方法であって、文書有害判定ステップと、有害URL判定ステップと、再帰実行ステップと、総合判定ステップとを含み、前記文書有害判定ステップにおいて、前記コンピュータが、前記文書を解析し、前記文書が有害であるか否かを判定し、前記有害URL判定ステップにおいて、前記コンピュータが、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に前記文書が有害であると判定し、前記再帰実行ステップにおいて、前記コンピュータが、前記有害URL判定ステップにおいて前記文書が有害ではないと判定した場合に、前記有害URL判定ステップが判定した前記URLが示す文書を前記有害文書判定方法の処理対象の文書として、前記有害文書判定方法に含まれる全てのステップを再帰的に実行し、前記総合判定ステップにおいて、前記コンピュータが、前記文書有害判定ステップ若しくは前記有害URL判定ステップ又は前記再帰実行ステップにおいて実行した前記総合判定ステップにおいて対象文書を有害であると判定した場合に、前記文書を有害であると判定する、有害文書判定方法。
本発明のこのような構成によれば、文書が有害であるか否かの判定を、文書を解析して、例えば、文書に含まれる語句の評価によって、若しくは文書に記載されたURLが有害URLデータベースに登録されているか否かによって、又は文書が有害URLデータベースに記憶されていないURLを含む場合に、そのURLが示す文書を有害文書判定方法の処理対象にして再帰実行することによって行う。よって、URL内のテキスト等の文書に含むURLが有害URLデータベースに登録されている場合には、URLが示す文書に関する処理を行わないので、文書が有害であるか否かの判定を効率的に行うことができる。また、文書に未知のURLが含まれる場合であっても、そのURLが示す文書が有害であるか否かを再帰実行することで判断して、文書が有害であるか否かを判定するので、ユーザが有害な文書に直面する機会をさらに減らすことができる。
また、本発明のこのような構成によれば、有害文書判定方法は、当該有害文書判定方法の処理を再帰実行する構成にすることにより、文書にURLを含む場合に、繰り返し行う総合判定ステップによる判定処理をよりシンプルなプログラムコードに基づいて効果的に実行することができる。
(3) 前記コンピュータが、前記総合判定ステップにおいて有害であると判定した前記URLが示す文書又は前記対象文書がWebページである場合に、そのWebページのURLを前記有害URLデータベースに登録する有害URL登録ステップを含む、(1)又は(2)に記載の有害文書判定方法。
本発明のこのような構成によれば、有害と判定した文書がWebページである場合に、そのWebページのURLを有害URLデータベースに登録するので、未知のURLに対して効率的に有害URLデータベースを更新することができ、次回以降に同一のURLに対する有害文書判定が生じた場合において、コンピュータの処理負担を少なくすることができる。
(4) 前記コンピュータが、判定の対象となる文書を受け付ける文書受付ステップと、前記コンピュータが、前記総合判定ステップによる判定結果を出力する判定結果出力ステップと、をさらに含む、(1)から(3)までのいずれかに記載の有害文書判定方法。
本発明のこのような構成によれば、判定の対象となる文書を受け付けて、判定結果を出力することができる。
(5) 前記総合判定ステップは、前記有害URL判定ステップにより前記URLが登録されていないと判定したことに応じて、前記URLをクロール先リストに登録し、登録された前記クロール先リストの前記URLを読み出して、読み出した前記URLが示す文書を取得し、取得した前記文書がURLを含み、そのURLが前記有害URLデータベースに含まれておらず、かつ、前記URLが示す文書が有害か否かをさらに判定し、前記URLが示す文書が有害である場合に、取得した前記文書のURLを前記有害URLデータベースに登録する、(1)に記載の有害文書判定方法。
本発明のこのような構成によれば、有害URLデータベースに記憶されていない未知のURLをクロール先リストに登録して、クロール処理を行うことでURLに対応する文書を取得して、その文書が有害である場合にURLを有害URLデータベースに登録するので、文書を取得して判定する時間のかかる処理を別処理とすることで、端末側のレスポンスを考慮してクロール処理による文書の有害判定を待つことなく有害判定を行いつつ、当該クロール処理により確実に次回以降の同一URLの有害判定を、より処理負担の小さい方法によって行うことができる。
(6) 文書が有害であるか否かを判定する有害文書判定装置であって、前記文書を解析して前記文書が有害であるか否かを判定する文書有害判定手段と、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に、前記文書有害判定手段において有害ではないと判定した場合においても、前記文書が有害であると判定する有害URL判定手段と、前記有害URL判定手段により前記URLが登録されていないと判定したことに応じて、判定した前記URLが示す文書について有害であるか否かをさらに判定し、前記URLが示す文書が有害である場合に、前記文書が有害であると判定する総合判定手段と、を備える、有害文書判定装置。
(7) 文書が有害であるか否かを判定する有害文書判定装置であって、文書有害判定手段と、有害URL判定手段と、再帰実行手段と、総合判定手段とを備え、前記文書有害判定手段は、前記文書を解析し、前記文書が有害であるか否かを判定し、前記有害URL判定手段は、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に前記文書が有害であると判定し、前記再帰実行手段は、前記有害URL判定手段により前記文書が有害ではないと判定した場合に、前記有害URL判定手段が判定した前記URLが示す文書を前記有害文書判定装置による処理対象の文書として、前記有害文書判定装置が備える全ての手段を再帰的に実行し、前記総合判定手段は、前記文書有害判定手段若しくは前記有害URL判定手段又は前記再帰実行手段により実行した前記総合判定手段により対象文書を有害であると判定した場合に、前記文書を有害であると判定する、有害文書判定装置。
(8) 前記総合判定手段は、前記有害URL判定手段により前記URLが登録されていないと判定したことに応じて、前記URLをクロール先リストに登録するクロール先登録手段と、前記クロール先登録手段により登録された前記クロール先リストの前記URLを読み出して、読み出した前記URLが示す文書を取得するクロール手段と、前記クロール手段により取得した前記文書がURLを含み、そのURLが前記有害URLデータベースに含まれておらず、かつ、前記URLが示す文書が有害か否かをさらに判定し、前記URLが示す文書が有害である場合に、取得した前記文書のURLを前記有害URLデータベースに登録する有害URL登録手段と、を有する、(6)に記載の有害文書判定装置。
本発明によれば、文書が有害であるか否かの判定を、文書を解析して、例えば、文書に含まれる語句の評価により、文書に含むURLが有害URLデータベースに記憶されているか否か、文書が有害URLデータベースに記憶されていないURLを含む場合に、そのURLが示す文書を解析することによって、文書が有害であるか否かを判定することができる。
第1実施形態に係る有害文書判定システムの全体構成及び有害文書判定装置の機能構成を示す図である。 第1実施形態に係るWebページ及び電子メール本文の例を示す図である。 第1実施形態に係る有害URLDBの例を示す図である。 第1実施形態に係る有害文書判定装置のメイン処理のフローチャートである。 第2実施形態に係る有害文書判定システムの全体構成及び有害文書判定装置の機能構成を示す図である。 第2実施形態に係る有害文書判定装置のオンライン処理のフローチャートである。 第2実施形態に係る有害文書判定装置のバッチ処理のフローチャートである。 第2実施形態に係る有害文書判定装置の他のバッチ処理のフローチャートである。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1実施形態)
[有害文書判定システム100の全体構成及び有害文書判定装置1の機能構成]
図1は、第1実施形態に係る有害文書判定システム100の全体構成及び有害文書判定装置1の機能構成を示す図である。図2は、第1実施形態に係るWebページ40及び電子メール本文45の例を示す図である。図3は、第1実施形態に係る有害URLDB31の例を示す図である。
図1に示す有害文書判定システム100は、有害文書判定装置1と、ユーザ端末4と、通信ネットワーク9とにより構成される。
有害文書判定装置1は、ユーザ端末4の利用者が閲覧したいWebページ(文書)が有害なものであるか否かを判定するサーバである。そして、有害文書判定装置1は、ユーザ端末4の利用者に有害なWebページを見せないようにするサーバである。Webブラウザに表示されたWebページにリンクされたURL(Uniform Resource Locator)をユーザ端末4の利用者が指定したり、電子メールに掲載されたハイパーテキストをユーザ端末4の利用者が選択したりすることで、有害文書判定装置1は、閲覧対象のWebページを受け付けて処理を行う。そして、そのWebページが有害なものでなければ、有害文書判定装置1は、そのWebページをユーザ端末4に送信する。有害文書判定装置1は、制御部10と、記憶部30とを備える。
制御部10は、文書受付手段11と、文書有害判定手段13と、有害URL判定手段15と、総合判定手段18と、有害URL登録手段23と、判定結果出力手段27とを備える。また、総合判定手段18は、文書有害判定手段13及び有害URL判定手段15を含む再帰実行手段17を備える。
文書受付手段11は、ユーザ端末4から送信された有害判定の対象の文書を受け付ける制御部である。文書は、例えば、Webページや、電子メールの本文等である。文書は、その他Webページに投稿する一部のテキストであってもよい。
図2に文書の例を示す。図2(a)はWebページ40の例である。Webページ40は、本文の他に、他のWebページへのリンクであるURL41を含む。Webページ40は、有害な語句である用語43を含む。例えば、Webページ40に含む有害な語句は、用語43の1つのみであるので、Webページ40が有害ではないと判定される場合であっても、URL41が示すWebページが有害な語句を含んで有害であると判定される場合がある。また、図2(b)は、電子メール本文45の例である。電子メール本文45にも、WebページへのリンクであるURL46を含む。そして、URL46が示すWebページが、例えば、正規の電子メールを装って情報を詐取するフィッシングサイトである場合がある。
図1に戻り、文書有害判定手段13は、文書を、例えば、文書に含まれる語句の評価に基づいて解析し、文書が有害であるか否かを判定する制御部である。文書有害判定手段13は、例えば、有害なキーワードを記憶した有害キーワードDB32(DB:データベース)に基づいて、例えば、文書に有害なキーワードが所定数以上含まれることによって、その文書が有害であると判定できる。
有害URL判定手段15は、文書がURLを含む場合に、そのURLが有害URLDB31に記憶されているか否かを確認して、記憶されている場合にそのURLを含む文書を有害であると判定する制御部である。文書自体が有害なキーワード等を所定数以上有していない場合でも、その文書に掲載されたURLが選択されることで、有害なWebページに遷移するので、有害URL判定手段15は、その場合にも、文書が有害であると判定する。有害URLDB31は、そのURLが示すWebページが有害なキーワードを所定数以上含むために有害であると判定された場合に、そのWebページのURLを記憶する。
図3に示す有害URLDB31は、有害なWebページであると判定されたWebページのURLを格納するURL31aと、有害URLDB31にそのURLを登録した登録日31bとからなる。
図1に戻り、再帰実行手段17は、有害URL判定手段15によりURLが有害URLDB31に記憶されていないと判定された場合に、そのURLが示すWebページについて語句の評価を行って有害であるか否かを判定する制御部である。また、再帰実行手段17は、WebページにURLを含む場合に、URLが示すWebページに対して文書有害判定手段13と、有害URL判定手段15とを実行し、WebページにURLを含まなくなった場合又は文書が有害であると判定された場合のいずれかを満たすまで再帰実行をする制御部である。再帰実行手段17により、WebページにURLを含む限りにおいて有害な文書が検索されるまで、URLの階層を辿ることができる。
総合判定手段18は、URLが示すWebページを有害であると判定した場合に、そのURLを含む文書を有害であると判定する制御部である。また、総合判定手段18は、再帰実行手段17を含み、文書が有害であるか否かを判定する。また、総合判定手段18は、再帰実行手段17による処理が終了したことに応じて、その回の再帰実行において文書が有害であると判定した場合に、その前に実行した処理において有害ではないと判定した場合においても、その前回の文書が有害であると判定する制御部である。
有害URL登録手段23は、有害であると判定された文書がWebページである場合に、そのWebページを示すURLを有害URLDB31に登録する制御部である。
判定結果出力手段27は、文書が有害であるか否かの判定結果を、有害である判定を優先させて出力する制御部である。
記憶部30は、有害URLDB31と、有害キーワードDB32とを備える。
有害URLDB31は、上述の図3で説明したように、有害なWebページを示すURLを記憶するDBである。また、有害キーワードDB32は、有害なキーワードを記憶するDBである。有害なキーワードとは、例えば、アダルト表現、出会い系、交際誘引、誹謗中傷、差別、自殺や暴力、薬物、射幸心を煽るもの等に関する語句をいい、予め有害キーワードDB32に登録されている。有害キーワードDB32は、文書に含まれる語句が有害なキーワードを含むか否かを判定するために用いる。
第1実施形態の有害文書判定装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部30として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、有害文書判定装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
ユーザ端末4は、例えば、パーソナルコンピュータ(PC)や、携帯電話機等の携帯端末である。ユーザ端末4は、通信機能を有し、Webブラウザを搭載してWebページが閲覧できる端末であれば、どのような装置でもよい。
通信ネットワーク9は、有害文書判定装置1と、ユーザ端末4との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
[有害文書判定装置1の処理]
次に、有害文書判定装置1での処理について説明する。図4は、第1実施形態に係る有害文書判定装置1のメイン処理のフローチャートである。
S1:制御部10(文書受付手段11)は、ユーザ端末4から送信された文書を受け付ける文書の受付処理を行う。
S2:制御部10(文書有害判定手段13)は、有害キーワードDB32を参照して文書に有害な語句を所定数以上含み、文書が有害であるか否かを判断する。文書が有害であると判断した場合(S2:YES)には、制御部10は、処理をS9に移す。他方、文書が有害ではないと判断した場合(S2:NO)には、制御部10は、処理をS3に移す。
S3:制御部10(有害URL判定手段15)は、文書がURLを含むか否かを判断する。文書がURLを含む場合(S3:YES)には、制御部10は、処理をS4に移す。他方、文書がURLを含まない場合(S3:NO)には、制御部10は、処理をS9に移す。文書がURLを含まない場合は、文書自体が有害ではなく、その文書にはURLを含まないので、文書は有害ではない、という判定結果になる。
S4:制御部10(有害URL判定手段15)は、文書に含まれるURLが有害URLDB31に存在するか否かを判断する。URLが有害URLDB31に存在する場合(S4:YES)には、制御部10は、処理をS5に移し、S5において有害URL判定手段15は、文書を有害と判定して処理をS9に移す。他方、URLが有害URLDB31に存在しない場合(S4:NO)には、制御部10は、処理をS6に移す。
S6:制御部10(再帰実行手段17)は、URLが示すWebページを取得し、そのWebページを処理対象の文書とする。
S7:制御部10(再帰実行手段17)は、S6で文書としたWebページが有害な語句を所定数以上含むために文書が有害であるか否かを判断する。文書が有害であると判断した場合(S7:YES)には、制御部10は、再帰処理を終了して処理をS8に移す。他方、文書が有害ではないと判断した場合(S7:NO)には、制御部10は、処理をS3に移す。以降、再帰実行手段17は、文書がURLを含まなくなった場合又は文書を有害と判定した場合のいずれかを満たすまで、処理を繰返す再帰処理を行う。
S8:制御部10(有害URL登録手段23)は、有害と判断された文書が示すWebページのURLを有害URLDB31に登録する。
S9:制御部10(総合判定手段18、判定結果出力手段27)は、判定結果を出力する。判定結果の出力は、例えば、文書が有害ではないとの判定結果の場合には、ユーザ端末4が要求した文書を、文書が有害であるとの判定結果の場合には、有害な文書である旨を、それぞれユーザ端末4に対して送信する。このとき、制御部10(総合判定手段18)は、文書がURLを含まなくなった場合又は文書を有害と判定した場合のいずれかを満たしたことにより、制御部10(再帰実行手段17)の処理が終了した際に、最後の再帰実行における判定結果が有害である場合には、それ以前の再帰実行の判定結果が無害であっても、有害に変更してユーザ端末4に有害である旨を送信する。その後、制御部10は、本処理を終了する。
このように、有害文書判定装置1は、文書にURLを含む場合に、URLが示すWebページを取得して、有害な語句を含むか否か、そのWebページにさらにURLが存在して、そのURLが有害URLDB31に記憶されたものであるか、という処理を再帰実行することで、URLが示すWebページを順に辿って有害なWebページが存在するか否かを判定することができる。また、有害文書判定装置1は、有害と判定されたWebページのURLを有害URLDB31に登録するので、未知のURLに対して効率的に有害URLDB31を更新することができる。
(第2実施形態)
次に、本発明を適用した第2実施形態について説明する。第2実施形態は、オンライン処理とバッチ処理とに分けて、即時に行える簡易な判定をオンライン処理で行うことでユーザ端末に即時に結果を送信し、URLが示すWebページを取得して判定を行う処理をバッチ処理にて行うものである。なお、以下の説明及び図面において、上述した第1実施形態と同様の機能を果たす部分には、同一の符号又は末尾に同一の符号を付して、重複する説明を適宜省略する。
[有害文書判定システム200の全体構成及び有害文書判定装置201の機能構成]
図5は、第2実施形態に係る有害文書判定システム200の全体構成及び有害文書判定装置201の機能構成を示す図である。
有害文書判定装置201の制御部210は、文書受付手段11と、文書有害判定手段13と、有害URL判定手段15と、判定結果出力手段27(総合判定手段)とを備える他に、総合判定手段218を備える。
総合判定手段218は、クロール先登録手段221と、クロール手段222と、有害URL登録手段223とを備える。
クロール先登録手段221は、有害URL判定手段15によりURLが有害URLDB31に記憶されていないと判定した場合に、そのURLが示すWebページをクロール先リスト233に登録する制御部である。
クロール手段222は、クロール先リスト233に登録されたURLが示すWebページを、通信ネットワーク9を介して接続された外部のWebサーバ等のWebページが記憶されている装置から取得する制御部である。
有害URL登録手段223は、クロール手段222によって取得したWebページがURLを含み、そのURLが有害URLDB31に記憶されておらず、かつ、Webページが有害か否かを判定した結果、Webページが有害と判定された場合に、そのWebページのURLを有害URLDB31に登録する制御部である。
有害文書判定装置201の記憶部230は、有害URLDB31と、有害キーワードDB32とを備える他、クロール先リスト233を備える。
クロール先リスト233は、クロール先登録手段221によって、有害URLDB31に記憶されていないURLを登録する記憶領域である。
[有害文書判定装置201の処理]
次に、有害文書判定装置201での処理について説明する。図6は、第2実施形態に係る有害文書判定装置201のオンライン処理のフローチャートである。図7は、第2実施形態に係る有害文書判定装置201のバッチ処理のフローチャートである。図8は、第2実施形態に係る有害文書判定装置201の他のバッチ処理のフローチャートである。
図6のS21〜S23:図4のS1〜S3と同様である。
S24:制御部210(有害URL判定手段15)は、文書に含まれるURLが有害URLDB31に存在するか否かを判断する。URLが有害URLDB31に存在する場合(S24:YES)には、制御部210は、処理をS25に移し、S25において有害URL判定手段15は、文書を有害と判定して処理をS26に移す。他方、URLが有害URLDB31に存在しない場合(S24:NO)には、制御部210は、処理をS27に移す。
S26:制御部210(判定結果出力手段27)は、判定結果を出力する。その後、制御部210は、本処理を終了する。
S27:制御部210(総合判定手段218、クロール先登録手段221)は、URLをクロール先リスト233に登録する。その後、制御部210は、本処理を終了する。
図7のS31:制御部210(総合判定手段218、クロール手段222)は、クロール先リスト233に登録されたURLに基づき、そのURLが示すWebページを取得するクロール処理を行う。
S32:制御部210(総合判定手段218、有害URL登録手段223)は、取得したWebページに含まれるURLが有害URLDB31に登録されていないか否かを判断する。URLが登録されていない場合(S32:YES)には、制御部210は、処理をS33に移す。他方、URLが登録されている場合(S32:NO)には、制御部210は、本処理を終了する。
S33:制御部210(総合判定手段218、有害URL登録手段223)は、URLが示すWebページが有害であるか否かを判断する。Webページが有害であるか否かは、Webページに有害キーワードDB32の語句が所定数以上含まれるか否かにより、そのWebページが有害であるか否かを判断する。URLが示すWebページが有害であると判断した場合(S33:YES)には、制御部210は、処理をS34に移す。他方、URLが示すWebページが有害ではないと判断した場合(S33:NO)には、制御部210は、本処理を終了する。
なお、図8に示す他のバッチ処理の実施形態においては、URLが示すWebページが有害ではないと判断した場合(S33:NO)に、当該WebページがさらにURLを含むか否かを判断し(S35)、さらにURLを含む場合(S35:YES)に、制御部210(再帰実行手段)は、S32に処理を戻し、当該URLが示すWebページを取得して、そのWebページが有害であるか否かを判断し、当該WebページがさらにURLを含まなくなるまでS32、S33及びS35を繰り返し実施してもよい。
S34:制御部210(総合判定手段218、有害URL登録手段223)は、有害であると判断したWebページを示すURLを有害URLDB31に登録する。その後、制御部210は、本処理を終了する。
なお、上記で示した図8に示す他のバッチ処理の実施形態においては、最後の繰り返しにおいて当該URLが示すWebページが有害である場合、制御部210(総合判定手段218、有害URL登録手段223)は、当該最後の繰り返しにおいて有害と判断したWebページを示すURLを有害URLDB31に登録する(S34)と共に、それまでの繰り返しにおいて有害判断したWebページを示すURLの全てを有害URLDB31に登録してもよい。
このように、有害文書判定装置201は、有害URLDB31に記憶されていない未知のURLをクロール先リスト233に登録して、クロール処理を行うことでURLに対応するWebページを取得して、そのWebページが有害である場合にURLを有害URLDB31に登録する。よって、Webページを取得して判定する時間のかかる処理を別処理とすることで、ユーザ端末4のレスポンスを考慮してクロール処理によるWebページの有害判定を待つことなく有害判定を行いつつ、当該クロール処理により確実に次回以降の同一URLの有害判定を、より処理負担の小さい有害URL判定手段15により行うことができる。
(変形形態)
各実施形態は、有害文書判定システムとして、ユーザ端末から有害文書判定装置が直接データの送受信を行うものとして説明したが、これに限らない。例えば、ユーザ端末と有害文書判定装置との間に投稿サーバを設け、投稿サーバが、ユーザ端末と有害文書判定装置との間で処理を行ってもよい。
各実施形態は、受け付けた文書が有害な語句を有する有害な文書である場合に、有害であると判定して判定結果を出力するものであった。しかし、これに限らず、判定結果を出力する前に、受け付けた文書がWebページであるか否かを判断し、Webページである場合には、そのWebページのURLを有害URLDBに登録してもよい。これにより、有害と判断されたWebページを全て有害URLDBに登録することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1,201 有害文書判定装置
4 ユーザ端末
10,210 制御部
11 文書受付手段
13 文書有害判定手段
15 有害URL判定手段
17 再帰実行手段
18,218 有害判定手段
23,223 有害URL登録手段
27 判定結果出力手段
30,230 記憶部
31 有害URLDB
32 有害キーワードDB
100,200 有害文書判定システム
221 クロール先登録手段
222 クロール手段
233 クロール先リスト

Claims (8)

  1. コンピュータによって文書が有害であるか否かを判定する有害文書判定方法であって、
    コンピュータが、前記文書を解析して前記文書が有害であるか否かを判定する文書有害判定ステップと、
    コンピュータが、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に、前記文書有害判定ステップにおいて有害ではないと判定した場合においても、前記文書が有害であると判定する有害URL判定ステップと、
    コンピュータが、前記有害URL判定ステップにより前記URLが登録されていないと判定したことに応じて、判定した前記URLが示す文書について有害であるか否かをさらに判定し、前記URLが示す文書が有害である場合に、前記文書が有害であると判定する総合判定ステップと、
    を含む、
    有害文書判定方法。
  2. コンピュータによって文書が有害であるか否かを判定する有害文書判定方法であって、
    文書有害判定ステップと、有害URL判定ステップと、再帰実行ステップと、総合判定ステップとを含み、
    前記文書有害判定ステップにおいて、前記コンピュータが、前記文書を解析し、前記文書が有害であるか否かを判定し、
    前記有害URL判定ステップにおいて、前記コンピュータが、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に前記文書が有害であると判定し、
    前記再帰実行ステップにおいて、前記コンピュータが、前記有害URL判定ステップにおいて前記文書が有害ではないと判定した場合に、前記有害URL判定ステップが判定した前記URLが示す文書を前記有害文書判定方法の処理対象の文書として、前記有害文書判定方法に含まれる全てのステップを再帰的に実行し、
    前記総合判定ステップにおいて、前記コンピュータが、前記文書有害判定ステップ若しくは前記有害URL判定ステップ又は前記再帰実行ステップにおいて実行した前記総合判定ステップにおいて対象文書を有害であると判定した場合に、前記文書を有害であると判定する、
    有害文書判定方法。
  3. 前記コンピュータが、前記総合判定ステップにおいて有害であると判定した前記URLが示す文書又は前記対象文書がWebページである場合に、そのWebページのURLを前記有害URLデータベースに登録する有害URL登録ステップを含む、
    請求項1又は請求項2に記載の有害文書判定方法。
  4. 前記コンピュータが、判定の対象となる文書を受け付ける文書受付ステップと、
    前記コンピュータが、前記総合判定ステップによる判定結果を出力する判定結果出力ステップと、
    をさらに含む、
    請求項1から請求項3までのいずれかに記載の有害文書判定方法。
  5. 前記総合判定ステップは、
    前記有害URL判定ステップにより前記URLが登録されていないと判定したことに応じて、前記URLをクロール先リストに登録し、
    登録された前記クロール先リストの前記URLを読み出して、読み出した前記URLが示す文書を取得し、
    取得した前記文書がURLを含み、そのURLが前記有害URLデータベースに含まれておらず、かつ、前記URLが示す文書が有害か否かをさらに判定し、前記URLが示す文書が有害である場合に、取得した前記文書のURLを前記有害URLデータベースに登録する、
    請求項1に記載の有害文書判定方法。
  6. 文書が有害であるか否かを判定する有害文書判定装置であって、
    前記文書を解析して前記文書が有害であるか否かを判定する文書有害判定手段と、
    前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に、前記文書有害判定手段において有害ではないと判定した場合においても、前記文書が有害であると判定する有害URL判定手段と、
    前記有害URL判定手段により前記URLが登録されていないと判定したことに応じて、判定した前記URLが示す文書について有害であるか否かをさらに判定し、前記URLが示す文書が有害である場合に、前記文書が有害であると判定する総合判定手段と、
    を備える、
    有害文書判定装置。
  7. 文書が有害であるか否かを判定する有害文書判定装置であって、
    文書有害判定手段と、有害URL判定手段と、再帰実行手段と、総合判定手段とを備え、
    前記文書有害判定手段は、前記文書を解析し、前記文書が有害であるか否かを判定し、
    前記有害URL判定手段は、前記文書にURLが記載されている場合に、前記URLが有害URLデータベースに登録されていることを条件に前記文書が有害であると判定し、
    前記再帰実行手段は、前記有害URL判定手段により前記文書が有害ではないと判定した場合に、前記有害URL判定手段が判定した前記URLが示す文書を前記有害文書判定装置による処理対象の文書として、前記有害文書判定装置が備える全ての手段を再帰的に実行し、
    前記総合判定手段は、前記文書有害判定手段若しくは前記有害URL判定手段又は前記再帰実行手段により実行した前記総合判定手段により対象文書を有害であると判定した場合に、前記文書を有害であると判定する、
    有害文書判定装置。
  8. 前記総合判定手段は、
    前記有害URL判定手段により前記URLが登録されていないと判定したことに応じて、前記URLをクロール先リストに登録するクロール先登録手段と、
    前記クロール先登録手段により登録された前記クロール先リストの前記URLを読み出して、読み出した前記URLが示す文書を取得するクロール手段と、
    前記クロール手段により取得した前記文書がURLを含み、そのURLが前記有害URLデータベースに含まれておらず、かつ、前記URLが示す文書が有害か否かをさらに判定し、前記URLが示す文書が有害である場合に、取得した前記文書のURLを前記有害URLデータベースに登録する有害URL登録手段と、
    を有する、
    請求項6に記載の有害文書判定装置。
JP2010015961A 2010-01-27 2010-01-27 有害文書判定方法、有害文書判定装置および有害文書判定プログラム Active JP5165704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010015961A JP5165704B2 (ja) 2010-01-27 2010-01-27 有害文書判定方法、有害文書判定装置および有害文書判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010015961A JP5165704B2 (ja) 2010-01-27 2010-01-27 有害文書判定方法、有害文書判定装置および有害文書判定プログラム

Publications (2)

Publication Number Publication Date
JP2011154557A true JP2011154557A (ja) 2011-08-11
JP5165704B2 JP5165704B2 (ja) 2013-03-21

Family

ID=44540464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010015961A Active JP5165704B2 (ja) 2010-01-27 2010-01-27 有害文書判定方法、有害文書判定装置および有害文書判定プログラム

Country Status (1)

Country Link
JP (1) JP5165704B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002447A (ja) * 2012-06-15 2014-01-09 Nippon Telegraph & Telephone West Corp 通信装置及びurl評価システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014991A (ja) * 2000-06-28 2002-01-18 Hitachi Ltd ネットワーク上の情報フィルタリング装置
JP2005056048A (ja) * 2003-08-01 2005-03-03 Fact-Real:Kk 電子メール監視システム、電子メール監視プログラム及び電子メール監視方法
JP2005327016A (ja) * 2004-05-13 2005-11-24 Matsushita Electric Ind Co Ltd セキュリティ情報提供システム
JP2008250597A (ja) * 2007-03-30 2008-10-16 Kddi Corp コンピュータシステム
JP2009289245A (ja) * 2008-05-27 2009-12-10 Yahoo Japan Corp メッセージ判定装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014991A (ja) * 2000-06-28 2002-01-18 Hitachi Ltd ネットワーク上の情報フィルタリング装置
JP2005056048A (ja) * 2003-08-01 2005-03-03 Fact-Real:Kk 電子メール監視システム、電子メール監視プログラム及び電子メール監視方法
JP2005327016A (ja) * 2004-05-13 2005-11-24 Matsushita Electric Ind Co Ltd セキュリティ情報提供システム
JP2008250597A (ja) * 2007-03-30 2008-10-16 Kddi Corp コンピュータシステム
JP2009289245A (ja) * 2008-05-27 2009-12-10 Yahoo Japan Corp メッセージ判定装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002447A (ja) * 2012-06-15 2014-01-09 Nippon Telegraph & Telephone West Corp 通信装置及びurl評価システム

Also Published As

Publication number Publication date
JP5165704B2 (ja) 2013-03-21

Similar Documents

Publication Publication Date Title
US20080086555A1 (en) System and Method for Search and Web Spam Filtering
WO2008062552A1 (fr) Dispositif d'affichage d'informations, programme d'affichage d'informations, et système d'affichage d'informations
US10242033B2 (en) Extrapolative search techniques
US20120254233A1 (en) Information processing system, information processor, and computer program product
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
US20110072045A1 (en) Creating Vertical Search Engines for Individual Search Queries
JP5179564B2 (ja) クエリセグメント位置決定装置
KR101377385B1 (ko) 정보 처리 장치
JP5165704B2 (ja) 有害文書判定方法、有害文書判定装置および有害文書判定プログラム
JP2006243861A (ja) 履歴作成装置、活動履歴作成方法、及び活動履歴作成プログラム
JP4885678B2 (ja) コンテンツ作成装置及びコンテンツ作成方法
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP5084859B2 (ja) 情報処理装置、データ抽出方法、及びプログラム
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP2008250893A (ja) 情報検索装置、情報検索方法およびそのプログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP2014089692A (ja) 情報提供サーバ
US20160373554A1 (en) Computer-readable recording medium, web access method, and web access device
JP5108707B2 (ja) 検索サーバ装置、検索方法及びプログラム
JP2008171110A (ja) サイト検索システム、検索サーバ、プログラム
JP5324500B2 (ja) ファイル共有装置
JP2011086273A (ja) 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2010086422A (ja) 検索サーバ、方法及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350