JP4926130B2

JP4926130B2 - メッセージ判定装置、方法及びプログラム

Info

Publication number: JP4926130B2
Application number: JP2008163805A
Authority: JP
Inventors: 哲也水上; 寿夫原口; 衣織西田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2008-05-27
Filing date: 2008-05-27
Publication date: 2012-05-09
Anticipated expiration: 2028-05-27
Also published as: JP2009289246A

Description

本発明は、ブログなどへの投稿メッセージに含まれるＵＲＬに対応するウェブページの有害性を判定する技術の改良に関するものである。

近年、インターネットとともに、インターネット経由の各種メッセージサービスも急速に普及・多様化した。メッセージサービスは、インターネットや携帯電話ネットワークなどの通信ネットワーク経由で、文字を主とするさまざまなメッセージについて利用者間での交換を可能とするサービスで、例えば、電子掲示板、ブログ、電子メールなどが挙げられる。

このようなメッセージサービスにおいては、ブログ記事へのコメントやトラックバック、電子掲示板への新規投稿（親記事）やレスポンス（子記事）などを装って、アダルトサイトなど有害とされるＵＲＬを含むメッセージを投稿する、いわゆるスパム（ＳＰＡＭ）が横行し、それを検出し対策を行う技術が提案されている。

その一例として、本出願人による特許文献１の技術では、メッセージ内のＵＲＬが、予め用意した有害ＵＲＬリストに未登録でも、そのＵＲＬが表すウェブページが、有害判定辞書すなわち禁止語リストの収録語を含む場合はそのメッセージを破棄している。
特開２００７−２６５３６８号公報

しかし、語句表現は、ウェブページの作成目的や対象とする端末の種類に応じて異なり、例えば、パソコン向けのページでは「ヘア無修正」のような表現が、携帯電話端末向けのページでは「無修正」のように短縮される傾向があり、パソコン向けであっても画像主体で文字の少ないページでは同様の短縮傾向が見られる。

また、有害判定辞書の収録語との一致数を基準に、ウェブページが有害か否かを判定する場合、そのウェブページの情報量が大幅に異なれば、適切な一致数は異なる。例えば、電子掲示板（ＢＢＳ）のメッセージ表示数が一画面あたり数十件程度の場合、疑わしい単語を数語含んでいるか否かを基準にできても、同じ基準を、一画面あたり一千件近いメッセージを含むページに適用すれば、有害と判定される場合が多過ぎて過剰規制となり、実用性が低下しかねない。

以上のように多様な側面を持つ多数のウェブページを、従来のように単一の有害判定辞書や一律の判定基準で適切に判定することは困難であり、判定精度を改善する技術が求められていた。

本発明は、上記のような従来技術の課題を解決するもので、その目的は、ブログなどへの投稿メッセージ内ＵＲＬのウェブページの有害性を単語辞書等で判定する際、ＨＴＭＬなどページ記述ファイル容量に応じて異なる有害判定手段を適用することにより、判定精度を改善することである。

本発明の一態様は、メッセージ判定装置において、ウェブページの有害性を判定する複数の有害判定手段と、メッセージサービスのメッセージ内に含まれるＵＲＬに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込手段と、読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定手段と、判定された前記データ容量範囲に応じて、前記複数の有害判定手段のうち一又は二以上を選択することにより、そのウェブページの有害性を判定させる、選択手段と、をコンピュータにより実現する。

このように、ＨＴＭＬなどのデータ容量に応じて、複数の有害判定手段のどれを適用するかを変化させることにより、パソコン向けか携帯電話端末向けかなどに応じたウェブページの用途や長短などに適合した高精度な有害判定が可能となる。

本発明の他の態様は、上記いずれかの態様において、前記複数の有害判定手段のうち少なくとも一部は、前記データ容量範囲に対応し、互いに異なる有害語句群を収録語とした有害判定辞書を有し、前記ＵＲＬに対応する前記ウェブページ記述ファイルの内容について、前記有害判定辞書と照合し前記収録語との一致に基づいて有害か否かを判定することを特徴とする。

このように、有害判定辞書の収録語との照合という簡明な有害判定手法の採用とともに、使用する有害辞書を切り替えたり組み合わせるなど、変化させることにより、判定対象とするウェブページのデータ容量に応じて、容易かつ確実に有害判定の内容を変更可能となる。

本発明の他の態様は、上記いずれかの態様において、前記選択手段は、前記有害判定辞書の収録語との一致語数を含む複数の有害判定基準について、判定された前記データ容量範囲に応じ、一又は二以上を選択するとともにＡＮＤもしくはＯＲの論理演算により適用するように構成されたことを特徴とする。

このように、ＨＴＭＬファイルデータ容量に応じて、語数などの有害判定基準も切り替えるとともに、複数の有害判定基準をＡＮＤやＯＲの関係で適用することにより、対象や状況などの事情に応じ、有害判定精度が一層改善可能となる。

本発明の他の態様は、上記いずれかの態様において、前記有害判定辞書を有する前記有害判定手段は、前記有害判定辞書として、有害度の違いに応じたブラックワード辞書とグレーワード辞書を有し、予め定められた前記有害判定基準として、前記データ容量範囲ごとに、前記ブラックワード辞書での一致語数と、前記グレーワード辞書での一致語数、の一方又は双方を用いることを特徴とする。

このように、有害判定基準の一致語数を、有害度に応じたブラックワード辞書とグレーワード辞書ごとに、かつ、ページのデータ容量範囲との組合せで定めることにより、判定精度が一層改善される。

また、以上各態様との組合せが可能な他の好ましい追加の態様として、ブログなどへの投稿内のＵＲＬが有害ＵＲＬリストに無く未知の場合、その有害性チェックを、ＵＲＬ末尾側の階層を除去した状態でも行うことにより、ショートＵＲＬの過剰規制を回避しつつ、末尾に無意味な文字列を付加して偽装した有害ＵＲＬも優れた精度で検出する例を示す。

すなわち、本発明の一態様は、メッセージ判定装置において、有害とするウェブページのＵＲＬを記録した有害ＵＲＬリストと、メッセージサービスへ入力されたメッセージ内に含まれるＵＲＬについて、前記有害ＵＲＬリストと照合し一致するものがあれば有害と判定する有害判定を行う、ＵＲＬ判定手段と、前記ＵＲＬ判定手段が有害と判定しなかった前記ＵＲＬを未知ＵＲＬとして、この未知ＵＲＬに対応するウェブページについて通信ネットワークを経てページ読込みを行うページ読込手段と、読み込んだ前記ウェブページについて、有害か否かの有害判定を行う、有害判定手段と、前記有害判定手段が有害と判定した前記ウェブページに対応する前記未知ＵＲＬについて、所定の階層区切り記号で区切られた末尾側の文字列を一又は二以上の階層分除去する、末尾除去手段と、末尾を除去した前記未知ＵＲＬについても、前記ページ読込み及び前記有害判定を行わせ、有害と判定された場合に、その除去した未知ＵＲＬについて、前記有害ＵＲＬリストへの登録を行う、末尾判定登録手段と、をコンピュータにより実現することを特徴とする。

このように、メッセージ内のＵＲＬが有害ＵＲＬリストに無く未知で、ページを読込んで有害と判定した場合、「／」「？」などで区切られたＵＲＬ末尾の下位層をカットしたＵＲＬについても有害判定することにより、下位層を付加して偽装したショートＵＲＬについても検出と有害ＵＲＬ登録が可能となり、判定精度が効果的に改善できる。

なお、本発明は、専用の電子回路によるほか、所定のコンピュータ・プログラムが、上記各手段に対応する各処理のステップを、メモリや入出力手段などのハードウェアを持つコンピュータの演算制御部に実行させることで実現可能である。そのような各処理を有する方法（例えば、メッセージ判定方法）と、そのような前記コンピュータ・プログラム（メッセージ判定プログラム）についても、上記及び下記の各態様に準じ、本発明の態様である。

本発明の他の態様として、上記いずれかの態様において、前記有害判定手段について、有害とする語を収録語として記憶した有害判定辞書を設け、前記ＵＲＬに対応する前記ウェブページから読み込んだウェブページ記述ファイルの内容について、前記有害判定辞書と照合し前記収録語との一致に基づいて有害か否かを判定する構成をとれば、辞書収録語との照合という簡明な手法で容易に有害判定が実施できる。なお、末尾の除去は、一階層について行えば多くの場合に効果的と思われるが、複数の階層について行う場合は、次のような処理手順が特に適する。

本発明の他の態様は、上記いずれかの態様において、前記未知ＵＲＬについて、（１）そのＵＲＬの指すウェブページを前記ページ読込手段で読み込み、（２）読み込んだウェブページについて前記有害判定手段で有害か無害か判定し、（３）有害と判定した場合は、前記末尾除去手段で、そのＵＲＬを所定の記憶領域に一時記憶するとともに、ＵＲＬ末尾における所定の階層区切り記号以降の一階層分の文字列をカットすることにより、残る上位階層部分のＵＲＬに加工したうえ、加工したＵＲＬについて再度前記（１）からの処理を行わせるが、（４）無害と判定し、かつ、有害と判定したＵＲＬが前記一時記憶されている場合は、前記末尾判定登録手段で、その一時記憶されているＵＲＬを前記有害ＵＲＬリストに登録することを特徴とする。

このように、有害と判定したＵＲＬについて、末尾を除去のうえ再チェックを繰り返し、有害でなくなった場合は、最後に有害だったＵＲＬを有害ＵＲＬリストへ登録するという単純な再帰処理によって、有害なページにリダイレクトされるもっとも短いＵＲＬを特定・登録可能となり、偽装的な冗長文字列の階層数がいくつであっても、高精度な判定が実現できる。

本発明の他の態様は、上記いずれかの態様において、各々サービスを実現し呼び出し元となる情報処理のプロセスもしくはシステムから、入力されたメッセージをパラメータに含むＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）の呼出しを受け付けるとともに、前記呼出しに対するＡＰＩの返り値として前記呼び出し元に対し、前記有害判定の結果を返信する、ＡＰＩ受渡し手段（ＡＰＩインターフェース部）を、前記コンピュータで実現することを特徴とする。

このように、多様なサービスからの呼出し利用をＡＰＩ経由で可能とすることにより、より多数の判定例が基礎となるため有害ＵＲＬの情報蓄積が充実して判定精度が一層改善でき、また、そのように蓄積した情報に基づく高精度な判定を、より多くのサービスから幅広く活用可能となる。

以上のように、本発明によれば、ブログなどへの投稿メッセージ内ＵＲＬのウェブページの有害性を単語辞書等で判定する際、ＨＴＭＬなどページ記述ファイル容量に応じて異なる有害判定手段を適用することにより、判定精度を改善することが可能となる。

続いて、本発明を実施するための最良の形態（以下「実施形態」と呼ぶ）について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。

〔１．構成〕
本実施形態は、図１の機能ブロック図に示すように、ブログや電子掲示板などのメッセージサービスを実現する機能部やサーバ（１ほか）などに対し、投稿者Ａ１やＡ２などから入力されたメッセージの有害性を判定する機能を提供するメッセージ判定装置２（以下「本装置」と呼ぶ）に関するもので、本装置に対応する方法及びコンピュータプログラムとしても把握可能である。

本装置２が、メッセージの有害性判定の機能を提供する経路は二つ考えられ、両方に同時に対応する実装は必須ではないが、その一つは、ブログの機能部又はサーバ１から直接、有害性判定依頼をＵＲＬ判定手段１５宛てに受け付け、判定結果は専用の有害通知手段６５から電子メールなどでブログの管理者Ｂなどへ、有害書込みの確認や削除の勧告などの形で出力するものである。

他の一つは、複数のサービスのプロセスもしくはシステム（機能部、サーバなど）から、所定の標準化されたＡＰＩインタフェースを介して、判定依頼と結果回答を行うもので、これについては後述する。

このような本装置２は、図示はしないが、ＣＰＵなどの演算制御部、主メモリや外部記憶装置（ＨＤＤなど）といった記憶装置、入出力手段などのハードウェアを持つコンピュータに、所定のコンピュータ・プログラムを予め導入することにより、サーバコンピュータなどとして実現され、図１に示す各要素１０〜８０を有する。

これら各要素１０〜８０のうち、リストや辞書などの情報群については、対応する情報をファイルなどとして前記記憶装置上に格納することで実現する。また、それ以外の各手段は、各手段に対応する情報処理のステップを、前記コンピュータ・プログラムが前記演算制御部に実行させることで実現している。もっとも、各要素の一部又は全部は、技術的条件や実装態様などに応じて、ワイヤードロジックなど電子的回路によって実現してもよい。

上記のように構成された本実施形態の特徴は二つの概要に大別でき、第一の概要は、ショートＵＲＬの末尾偽装への対応であり、第二の概要は、ウェブページのデータ容量に応じた有害判定手段の使い分けである。

〔２．第一の概要〕
まず、第一の概要について説明する。すなわち、本装置２において、有害ＵＲＬリスト１０は、予め判明していて有害とするウェブページのＵＲＬを記録したものである。そして、ＵＲＬ判定手段１５は、メッセージサービス（ブログ、電子掲示板、電子メール、メッセンジャーなど）で入力（新規投稿や発信だけでなく到着や受信も含む）されたメッセージ（コメント、投稿、メールなど）内に含まれるＵＲＬについて、有害ＵＲＬリスト１０と照合し一致するものがあれば有害と判定する有害判定を行う（この処理を方法の観点から「ＵＲＬ判定処理」と呼ぶ。以下同様）。

そして、ページ読込手段２０は、ＵＲＬ判定手段１０が有害と判定しなかったＵＲＬを未知ＵＲＬとして、この未知ＵＲＬに対応するウェブページについて、通信ネットワーク（インターネットや携帯電話ネットワークなど）を経てページ読込み（クロール）を行い（ページ読込処理）、このように読み込んだウェブページについて有害判定手段３０が、有害かの有害判定を行う（有害判定処理）。

この際、有害判定手段３０が有害と判定したウェブページに対応する未知ＵＲＬについては、末尾除去手段５０が、所定の階層区切り記号（「／」「？」など）で区切られた末尾側の文字列を一又は二以上の階層分除去し（末尾除去処理）、このように末尾を除去した未知ＵＲＬについても、末尾判定登録手段６０が、ページ読込手段２０及び有害判定手段３０に上述のページ読込み及び有害判定を行わせ、有害と判定された場合、その除去した未知ＵＲＬについて、有害ＵＲＬリスト１０への登録を行う（末尾判定登録処理）。

単純な例を示せば、未知ＵＲＬ「ｓｈｏｒｔ○○．ｃｏｍ／ａａ／ｘｘ１」が有害と判定された場合、末尾側の最初の階層区切り記号「／」以降の部分「／ｘｘ１」を除去して短縮し「ｓｈｏｒｔ○○．ｃｏｍ／ａａ」としても有害と判定されれば、この短縮した状態で有害ＵＲＬ登録する。以降、「ｓｈｏｒｔ○○．ｃｏｍ／ａａ／ｙｙ２」のような他の偽装部分を結合したＵＲＬについても、有害ＵＲＬリストに登録済みの「ｓｈｏｒｔ○○．ｃｏｍ／ａａ」の部分との一致判定により有害判定可能となる。

なお、本発明及び本実施形態において、有害判定手段は、ＳＶＭ（サポート・ベクター・マシン）等の機械学習によって実現可能であるが、有害判定手段は、有害とする語を収録語として記憶した有害判定辞書を設け、ＵＲＬに対応するウェブページ記述ファイルの内容について、前記有害判定辞書と照合しその収録語との一致の有無や数に基づいて有害か否かを判定するように構成することにより、辞書収録語との照合という簡明な手法で容易に有害判定が実施できる。

また、末尾の除去は、一階層について行えば多くの場合に効果的と思われるが、複数の階層について行う場合は、以下のような再帰的処理手順が特に適する。

〔３．再帰的処理手順〕
すなわち、この再帰的処理手順は、制御ルーチンなどの制御手段８０による制御に基づいて、未知ＵＲＬについて、
（１）そのＵＲＬの指すウェブページをページ読込手段２０が読み込み、
（２）読み込んだウェブページについて有害判定手段３０が有害か無害か判定し、
（３）有害と判定した場合は、末尾除去手段５０が、そのＵＲＬを所定の記憶領域に一時記憶するとともに、ＵＲＬ末尾における所定の階層区切り記号以降の一階層分の文字列をカットすることにより、残る上位階層部分のＵＲＬに加工したうえ、加工したＵＲＬについて再度前記（１）からの処理を行わせるが、
（４）無害と判定し、かつ、有害と判定したＵＲＬが前記一時記憶されている場合は、前記末尾判定登録手段が、その一時記憶されているＵＲＬを前記有害ＵＲＬリストに登録する。

一例として、図２に示すように、状態１のＵＲＬ（ｓｈｏｒｔ○○．ｃｏｍ／ａａ／ｂｂ／ｃｃ？＝１２３４）が有害と判定された場合、末尾側の最初の階層区切り記号「？」以降の部分「？＝１２３４」を除去して状態２とする。それも有害なら同様に、次の階層区切り記号「／」以降の部分「／ｃｃ」を除去して状態３、さらに状態４と判定し、状態４で初めて無害と判定されれば、最後に有害だった状態３のＵＲＬ「ｓｈｏｒｔ○○．ｃｏｍ／ａａ／ｂｂ」を有害ＵＲＬ登録する。

〔４．全体の処理手順の例〕
ここで、第一の概要を上記のような再帰的処理手順で実現する場合の処理手順を、図３のフローチャートに示す。この例は、ブログなどに投稿されたコメントのチェック時には応答の迅速性を優先して有害ＵＲＬリストとの照合だけ行い（図３（１））、有害ＵＲＬリストと一致がなく無害と回答した未知ＵＲＬのチェックを、バッチなどで別途まとめて処理するものである（図３（２））。

すなわち、ＵＲＬ判定手段１５は、チェックが必要となったコメントなどのメッセージ内にＵＲＬが無ければ（ステップＳ５１）無害である旨を回答するが（ステップＳ５６）、ＵＲＬが有った場合は（ステップＳ５１）有害ＵＲＬリスト１０と照合し（ステップＳ５２）、リスト内のいずれかの有害ＵＲＬを含むという意味で一致すれば（ステップＳ５３）有害である旨を回答する（ステップＳ５４）。有害ＵＲＬリスト１５との照合で一致した有害ＵＲＬが無ければ（ステップＳ５３）、そのＵＲＬをチェック対象とする未知ＵＲＬとして記憶しておく（ステップＳ５５）。

その後、所定間隔（数十分ごと〜毎夜間など）でのバッチ処理などにおいて（図３（２））、上記のように記憶しておいたチェック対象の各ＵＲＬについて、その指し示すウェブページをページ読込手段２０が実際に参照して読み込み（ステップＳ６１）、有害判定手段３０が、有害判定辞書などを用いて有害ＵＲＬか否かの判定すなわち有害判定を行う（ステップＳ６２）。

この結果、有害と判定した場合（ステップＳ６３）、現状のＵＲＬのトップドメイン部分よりも末尾側に、まだ「／」「？」などの階層区切り記号が有れば（ステップＳ６４）、末尾除去手段５０が現状のＵＲＬから最後の区切り記号以降の部分を削除したうえ（ステップＳ６６）、ページ読込（ステップＳ６１）からの処理を繰り返すが、この削除（ステップＳ６６）に先立って、削除直前のＵＲＬを所定の記憶領域に一時記憶しておく（ステップＳ６５）。

また、有害と判定したＵＲＬに（ステップＳ６３）もう区切り記号が無ければ（ステップＳ６４）、トップドメイン自体が有害ＵＲＬであるから、末尾判定登録手段６０が、現在のＵＲＬすなわちトップドメインを有害ＵＲＬリスト１０に追加し（ステップＳ６７）、そのＵＲＬについては処理を終了し、次の未知ＵＲＬを処理対象とする。

有害判定（ステップＳ６２）で無害と判定された場合において（ステップＳ６３）、削除直前のＵＲＬが一時記憶されているときは（ステップＳ６８）、直前のＵＲＬが有害で（ステップＳ６３）末尾を削除した結果（ステップＳ６６）、ショートＵＲＬサービスのトップドメインなど有害でない階層まで辿り着いた場合であるから、末尾判定登録手段６０は、有害であった直前のＵＲＬを有害ＵＲＬリスト１５に追加し（ステップＳ６９）、そのＵＲＬについては処理を終了し、次の未知ＵＲＬを処理対象とする。

なお、ＵＲＬの末尾を除去した一階層上のＵＲＬについて、アクセスすなわち読み込みがエラーとなって不可能な場合は、有害ＵＲＬでない場合として（ステップＳ６３）、除去前のＵＲＬを有害ＵＲＬとして登録する（ステップＳ６９）。

〔５．処理手順の他の例〕
また、ショートＵＲＬにおけるリダイレクト元とリダイレクト先を関連付けるとともに、末尾の除去を一階層に限定して効率よく有害登録する処理手順の例を図４のフローチャートに示す。

この例では、チェック対象ＵＲＬについて、読み込み時のリターンコードなどによりリダイレクトＵＲＬか否か判別し（ステップＳ２１）、リダイレクトＵＲＬでない場合（ステップＳ２１）、ページ読込手段２０がページを読み込み有害判定手段３０が有害と判定すると（ステップＳ２２）、そのＵＲＬを末尾判定登録手段６０が有害ＵＲＬリスト１０に登録する（ステップＳ２３）。

一方、チェック対象ＵＲＬがリダイレクトＵＲＬの場合（ステップＳ２１）、ＵＲＬ判定手段１５が有害ＵＲＬリスト１０と照合した結果、未登録で（ステップＳ２４）、ページ読込手段２０がページを読み込み有害判定手段３０が有害と判定した場合に（ステップＳ２２）、末尾判定登録手段６０は、リダイレクト元ＵＲＬとリダイレクト先ＵＲＬを有害ＵＲＬリスト１０に登録するが（ステップＳ２９）、この際、複数回リダイレクトさせるＵＲＬであった場合、一番初めのリダイレクト元ＵＲＬと最終的なリダイレクト先ＵＲＬを登録する。

そのうえで末尾判定登録手段６０は、リダイレクト元ＵＲＬの一階層上のＵＲＬ（「上位階層ＵＲＬ」と呼ぶ）があれば（ステップＳ３０）、その上位階層ＵＲＬについてページ読込手段２０と有害判定手段３０にページ読み込みのうえ有害判定させ、それも有害サイトであるときにはもとのＵＲＬに代え、上位階層ＵＲＬを登録し（ステップＳ２７）、次のＵＲＬの処理に進む（ステップＳ２１〜）。

なお、この例では、「一階層上」のＵＲＬとは、ＵＲＬの最も右側にある『／』記号または『？』記号を探し、『／』であればその右側を削除したＵＲＬ、『？』であればその記号を含む右側を削除したＵＲＬであるが、階層区切り記号の種類やその取り扱いについては適宜変更実施可能である。

リダイレクトＵＲＬについて（ステップＳ２１）、ＵＲＬ判定手段１５が有害ＵＲＬリスト１０と照合した結果、リダイレクト先ＵＲＬが有害サイトすなわち有害ＵＲＬだった場合は（ステップＳ２４）、末尾判定登録手段６０は、リダイレクト元ＵＲＬを有害ＵＲＬリスト１０に登録したうえ（ステップＳ２５）、一階層上のＵＲＬについて（ステップＳ２６）上記と同様の処理を行う（ステップＳ２７）。

このように、リダイレクト先ＵＲＬの登録状態と有害性に応じて、リダイレクト元のみ、もしくはリダイレクト元とリダイレクト先のＵＲＬを有害ＵＲＬリスト１０に有害登録するとともに、末尾の除去をリダイレクト元ＵＲＬの一階層上までに限定することにより、処理が効率化され処理負荷が軽減される。

〔６．第二の概要〕
第二の概要は、個々のＵＲＬに対応するウェブページの有害性判定において、ウェブページのデータ容量に応じた有害判定手段を利用するものである。

すなわち、ウェブページの有害性を判定する複数の有害判定手段３１，３２，３３（図１）を用い、ページ読込手段２０が読み込んだウェブページのウェブページ記述ファイル（ＨＴＭＬファイルなど）のデータ容量範囲を、容量判定手段４５が、一又は二以上の基準値に基づいて判定し（容量判定処理）、ここで判定されたデータ容量範囲に応じて、選択手段４７が、複数の有害判定手段３１，３２，３３のうち一又は二以上を選択することにより、そのウェブページの有害性を判定させる（選択処理）。

〔７．辞書と基準の多様化〕
上記のように用いる複数の有害判定手段は、既に述べたＳＶＭなど機械学習に基づくもの（例えば有害判定手段３３）を利用可能であるが、図１に示すように、少なくとも一部の有害判定手段（例えば３１，３２）としては、データ容量範囲に対応し、互いに異なる有害語句群を収録語とした有害判定辞書Ｄ１，Ｄ２を設け、ＵＲＬに対応するウェブページ記述ファイルの内容について、有害判定辞書Ｄ１又はＤ２と照合しその収録語との一致に基づいて有害か否かを判定するように構成することができる。

このように、有害判定辞書の収録語との照合という簡明な有害判定手法の採用とともに、使用する有害辞書を切り替えたり組み合わせるなど、変化させることは、必須ではなく省略も可能ではあるが、その採用により、判定対象とするウェブページのデータ容量に応じて、容易かつ確実に有害判定の内容を変更可能となる。

〔８．判定基準の組合せ〕
また、上記のような複数の有害判定手段は、択一的な選択には限定されず、例えば、複数の有害判定手段や有害判定基準を用いて、双方で有害と判定されるＡＮＤ条件でＵＲＬを有害としたり、いずれか一方で有害と判定されれば有害とする（ＯＲ条件）など、自由に定めることができる。

また、データ容量に応じ、複数ある有害判定手段や複数ある有害判定辞書の使い分けだけでなく、ウェブページあたり単語などが何語ヒットすれば有害と判定するかの判定基準についても、複数ある中から選択的もしくはＡＮＤやＯＲなどの論理演算による組合せにより、適用してもよい。

この場合、選択手段４７が、有害判定辞書の収録語との一致語数を含む複数の有害判定基準について、判定されたデータ容量範囲に応じ、一又は二以上を選択するとともに、それらをＡＮＤもしくはＯＲの論理演算により適用する。このように、ＨＴＭＬファイルデータ容量に応じて、語数などの有害判定基準も切り替えるとともに、複数の有害判定基準をＡＮＤやＯＲの関係で適用することにより、対象や状況などの事情に応じ、有害判定精度が一層改善可能となる。

特に望ましい態様は、有害判定辞書を有する有害判定手段において、有害判定辞書又はその収録語の分類として、有害度の違いに応じてブラックワードすなわちブラック語句と、グレーワードすなわちグレー語句に分け、それぞれをブラックワード辞書（ブラックワード群）とグレーワード辞書（グレーワード群）とし、予め定められた有害判定基準として、データ容量範囲ごとに、ブラックワード辞書での一致語数と、グレーワード辞書での一致語数、の一方又は双方を用いることである。

一例として、図５（データ構造の概念図）に示すように、一般ページ用のブラックワード辞書の収録語は、例えば「素人性感」「１８歳未満の閲覧を禁じます」「全裸露出」「アダルトビデオ情報」などが考えられ、一般ページ用のグレーワード辞書の収録語は例えば、「露出系」「あなたは、１８歳以上ですか」「極上素人」「アダルト動画」などが考えられる。

また、低容量向けの有害判定辞書では、半角カタカナを用いるなど簡略な表現を多く収録し、例えば、ブラックワード辞書の収録語として「露出動画」「１８歳以上？」「極上素人」「アダルト動画」などが考えられ、であり、低容量向けのグレーワード辞書の収録語の例は、「露出」「１８歳以上」「素人」「アダルト動画」などである。なお、本出願ではカタカナを全角文字で表すが、低容量向けの場合、カタカナは半角文字を基準としたり、全角と半角を区別せず照合する。

また、辞書の数は、ブラックとグレーのように２つには限定されず、例えば、１語で有害と判定するブラックワード辞書のほかに、２語で有害と判定するグレーワード辞書と、３語で有害と判定するグレーワード辞書、といった具合に、互いに異なった有害判定基準語数を設定した複数の辞書について順次有害判定を行い、いずれかの辞書について基準語数を満たせば有害と判定する構成とすれば、よりきめ細かな有害判定基準による優れた判定精度が実現可能となる。

〔９．容量に応じた判定手順の例〕
上記のように、データ容量に応じて有害判定手段や基準を使い分ける処理手順の一例を、図６のフローチャートに例示する。このフローチャートは、図３（２）のステップＳ６２に対応するものである。

すなわち、容量判定手段４５が、有害判定の対象とするウェブページのＨＴＭＬファイル（他の規格のマークアップ言語によるウェブページ記述ファイルでもよい）について容量を取得し（ステップＳ７１）、携帯端末向けなど１２ＫＢ（キロバイト）以下の低容量ページについては（ステップＳ７２）、低容量ページ用の有害判定辞書Ｄ１を用い、ブラック１語又はグレー２語のような低容量ページ用判定基準Ｊ１を適用することにより、有害判定を行う（ステップＳ８１）。

また、１２ＫＢ超〜３０ＫＢ未満の一般ページ用については（ステップＳ７２，Ｓ７３）、一般ページ用の有害判定辞書Ｄ２を用い、グレー４語のような一般ページ用判定基準Ｊ２を適用することにより、有害判定を行う（ステップＳ８２）。さらに、３０ＫＢ以上の容量の大きなページについては（ステップＳ７３）、少ない語数を基準とすれば過剰規制になるため、単語数ではなく、ＳＶＭ分類器に基づく機械学習判定器を用いるなど、類似ページとの関係においても判定する（ステップＳ８３）。

〔１０．ＡＰＩによる利用〕
また、本装置は、ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）により多様なサービスからの呼出し利用が可能である。すなわち、ＡＰＩ受渡し手段７０（ＡＰＩインターフェース部）が、各々サービスを実現し呼び出し元となるプロセスもしくはシステム（図１に示す電子掲示板などの機能部又はサーバなど）から、入力されたメッセージをパラメータに含むＡＰＩの呼出しを受け付けるとともに、呼出しに対するＡＰＩの返り値として呼び出し元に対し、有害判定の結果を返信する（ＡＰＩ受渡し処理）。

この場合、例えば、ＡＰＩの返り値を、
（１）有害サイトＵＲＬとの一致
（２）有害判定：アダルト表現、出会い系
（３）有害判定：誹謗・中傷・差別
（４）有害判定：自殺や暴力、薬物乱用の肯定と助長
（５）有害判定：射幸心をあおるビジネス情報
のような有害の類型にそれぞれ対応する複数のパラメータの組合せとし、各パラメータごとに、その項目に関する有害判定辞書収録語との一致数に応じたポイントなどパラメータ値の組合せを返すようにしてもよい。この場合、個々のパラメータごとに１００ポイントを満点として、あるウェブページはアダルト表現という観点のパラメータは５０ポイント、ビジネス情報の観点のパラメータは３４ポイント、のようなパターンが考えられる。

このような実装形態の場合、各サービスのプロセスやシステムが、各々の機能やポリシーに応じて、上記の返り値に応じ、投稿の拒否や、管理者への削除勧告などを行う。

このように、多様なサービスからの呼出し利用をＡＰＩ経由で可能とする構成（ＡＰＩ受渡し手段７０）は、必須ではなく省略も可能ではあるが、その採用により、より多数の判定例が基礎となるため有害ＵＲＬの情報蓄積が充実して判定精度が一層改善でき、また、そのように蓄積した情報に基づく高精度な判定を、より多くのサービスから幅広く活用可能となる。

〔１１．他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、上記実施形態に限定されるものではないので、次に例示するような例やさらに他の例も含むものである。例えば、メッセージ判定装置は、上記各手段などの各機能を担当する複数のコンピュータやサーバの組合せ・連携により実現してもよい。

また、有害判定をどのようなタイミングで行うかは実装上自由であり、例えば、メッセージの入力時点では有害判定をせず、ブログの機能部又はサーバ１にホストされる各ユーザのブログのうち、事前に登録したものもしくは所定の画像などの要素（ブログパーツ）を設置しているものの新規投稿を、所定の時間周期や時刻などで巡回し有害なスパムなどを検出することができる。

また、有害判定の対象は、メッセージ本文内のＵＲＬに限らず、名前やプロフィールに関する表示のリンク先ＵＲＬなど、メッセージに伴って閲覧者に露出される入力内容に含まれるＵＲＬも含まれる。

また、上記実施形態では、有害ＵＲＬリスト１０と一致しなかった未知ＵＲＬについては、有害である旨の回答をその場では返さず、辞書などを用いた有害判定は事後的にまとめて行う例を示したが（図３）、そのような有害判定まで投稿時点で行う例も考えられる。

そのような例における処理手順を図７に示す。この例では、有害ＵＲＬリストとの照合で一致が無くとも（ステップＳ５３）、その場で続けて、図３（２）に準じて末尾を除去しながら（ステップＳ６５）有害判定辞書に基づく有害判定を行い（ステップＳ６２）、有害と判定できれば（ステップＳ６３）、有害ＵＲＬリストへの追加登録（ステップＳ６７，Ｓ６９）だけでなく、有害である旨の回答までを行う（ステップＳ５４）。

また、有害判定結果のサービスへの反映の仕方として、投稿内容はブログに即時反映させる一方、有害判定の結果、有害と判定したメッセージについては、投稿されたブログの管理者へ電子メールなどで通知し削除勧告を行う運用を想定できるが、これにはとどまらず、投稿を反映する前や投稿後でも有害と判定できれば、管理者の操作を待たずメッセージの投稿を拒絶したりメッセージを削除するなどの例も可能である。

例えば、図８の概念図に示す例では、ブログの機能部又はサーバ１は、メッセージの投稿があると（ステップＳ１１）、図１に示したと同様なメッセージ判定装置２にチェック依頼を送信し（ステップＳ１３）、有害との回答を受領すると（ステップＳ１４，Ｓ１５）、投稿を削除し又はブログ掲載を回避する（ステップＳ１６）。

本発明の実施形態の構成を示す図。本発明の実施形態におけるＵＲＬ登録の例を示す図。本発明の実施形態における全体の処理手順を示すフローチャート。本発明の実施形態における全体的処理手順の他の例を示すフローチャート。本発明の実施形態における有害判定辞書の一例を示す図。本発明の実施形態において、データ容量に応じ有害判定手段を使い分ける処理手順を示すフローチャート。本発明の他の実施形態を示す図。本発明の他の実施形態を示す図。

符号の説明

Ａ（Ａ１，Ａ２）投稿者
Ｂブログの管理者
１ブログの機能部又はサーバ
２メッセージ判定装置
１０有害ＵＲＬリスト
１５ＵＲＬ判定手段
２０ページ読込手段
３０（３１，３２，３３）有害判定手段
Ｄ（Ｄ１，Ｄ２）有害判定手段
４５容量判定手段
４７選択手段
５０末尾除去手段
６０末尾判定登録手段
６５有害通知手段
７０ＡＰＩ受渡し手段
８０制御手段

Claims

ウェブページの有害性を判定する複数の有害判定手段と、
メッセージサービスに入力されたメッセージ内に含まれるＵＲＬに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込手段と、
読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定手段と、
判定された前記データ容量範囲に応じて、前記複数の有害判定手段のうちいずれかを選択することにより、そのウェブページの有害性を判定させる、選択手段と、
をコンピュータにより実現し、
前記複数の有害判定手段は、低容量向けの有害判定辞書を有する有害判定手段と、一般ページ用の有害判定辞書を有する有害判定手段であって、前記低容量向けの有害判定辞書と一般ページ用の有害判定辞書は互いに異なる有害語句群を収録語とし、
いずれの前記有害判定辞書もそれぞれ、有害度の違いに応じたブラックワード辞書とグレーワード辞書とを有し、
前記複数の有害判定手段は、前記ＵＲＬに対応する前記ウェブページ記述ファイルの内容について、それぞれの前記有害判定辞書におけるブラックワード辞書及びグレーワード辞書と照合しその収録語との一致に基づいて有害か否かを判定するにあたり、前記ブラックワード辞書の収録語については１語でも一致すれば前記ＵＲＬを有害と判定し、前記グレーワード辞書の収録語については予め定められた数の語が一致すれば前記ＵＲＬを有害と判定し、
低容量向けの前記有害判定手段の前記有害判定辞書は半角カタカナを含むことを特徴とするメッセージ判定装置。
呼び出し元となる情報処理のプロセスもしくはシステムから、入力されたメッセージをパラメータに含むＡＰＩ（Application Program Interface）の呼出しを受け付けるとともに、前記呼出しに対するＡＰＩの返り値として前記呼び出し元に対し、前記有害判定の結果を返信する、ＡＰＩ受渡し手段を、前記コンピュータで実現し、
前記ＡＰＩ受渡し手段は、前記ＡＰＩの返り値を、有害の類型にそれぞれ対応する複数のパラメータの組合せとし、各パラメータごとに、その項目に関する有害判定辞書収録語との一致数に応じたパラメータ値の組合せを返すことを特徴とする請求項１記載のメッセージ判定装置。
メッセージサービスに入力されたメッセージ内に含まれるＵＲＬに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込処理と、
読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定処理と、
判定された前記データ容量範囲に応じて、ウェブページの有害性を判定する互いに異なる複数の有害判定処理のうち一又は二以上を、選択することにより、そのウェブページの有害性を判定させる、選択処理と、
をコンピュータにより実行し、
前記複数の有害判定処理は、低容量向けの有害判定辞書を用いる有害判定処理と、一般ページ用の有害判定辞書を用いる有害判定処理であって、前記低容量向けの有害判定辞書と一般ページ用の有害判定辞書は互いに異なる有害語句群を収録語とし、
いずれの前記有害判定辞書もそれぞれ、有害度の違いに応じたブラックワード辞書とグレーワード辞書とを有し、
前記複数の有害判定処理は、前記ＵＲＬに対応する前記ウェブページ記述ファイルの内容について、それぞれの前記有害判定辞書におけるブラックワード辞書及びグレーワード辞書と照合しその収録語との一致に基づいて有害か否かを判定するにあたり、前記ブラックワード辞書の収録語については１語でも一致すれば前記ＵＲＬを有害と判定し、前記グレーワード辞書の収録語については予め定められた数の語が一致すれば前記ＵＲＬを有害と判定し、
低容量向けの前記有害判定処理の前記有害判定辞書は半角カタカナを含むことを特徴とするメッセージ判定方法。
コンピュータを制御することにより、
メッセージサービスに入力されたメッセージ内に含まれるＵＲＬに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込処理と、
読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定処理と、
判定された前記データ容量範囲に応じて、ウェブページの有害性を判定する互いに異なる複数の有害判定処理のうち一又は二以上を、選択することにより、そのウェブページの有害性を判定させる、選択処理と、
を実行させ、
前記複数の有害判定処理は、低容量向けの有害判定辞書を用いる有害判定処理と、一般ページ用の有害判定辞書を用いる有害判定処理であって、前記低容量向けの有害判定辞書と一般ページ用の有害判定辞書は互いに異なる有害語句群を収録語とし、
いずれの前記有害判定辞書もそれぞれ、有害度の違いに応じたブラックワード辞書とグレーワード辞書とを有し、
前記複数の有害判定処理は、
前記ＵＲＬに対応する前記ウェブページ記述ファイルの内容について、それぞれの前記有害判定辞書におけるブラックワード辞書及びグレーワード辞書と照合しその収録語との一致に基づいて有害か否かを判定するにあたり、前記ブラックワード辞書の収録語については１語でも一致すれば前記ＵＲＬを有害と判定し、前記グレーワード辞書の収録語については予め定められた数の語が一致すれば前記ＵＲＬを有害と判定し、
低容量向けの前記有害判定処理の前記有害判定辞書は半角カタカナを含むことを特徴とするメッセージ判定プログラム。