JP4926130B2 - メッセージ判定装置、方法及びプログラム - Google Patents

メッセージ判定装置、方法及びプログラム Download PDF

Info

Publication number
JP4926130B2
JP4926130B2 JP2008163805A JP2008163805A JP4926130B2 JP 4926130 B2 JP4926130 B2 JP 4926130B2 JP 2008163805 A JP2008163805 A JP 2008163805A JP 2008163805 A JP2008163805 A JP 2008163805A JP 4926130 B2 JP4926130 B2 JP 4926130B2
Authority
JP
Japan
Prior art keywords
harmful
url
dictionary
determination
judgment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008163805A
Other languages
English (en)
Other versions
JP2009289246A (ja
Inventor
哲也 水上
寿夫 原口
衣織 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008163805A priority Critical patent/JP4926130B2/ja
Publication of JP2009289246A publication Critical patent/JP2009289246A/ja
Application granted granted Critical
Publication of JP4926130B2 publication Critical patent/JP4926130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Description

本発明は、ブログなどへの投稿メッセージに含まれるURLに対応するウェブページの有害性を判定する技術の改良に関するものである。
近年、インターネットとともに、インターネット経由の各種メッセージサービスも急速に普及・多様化した。メッセージサービスは、インターネットや携帯電話ネットワークなどの通信ネットワーク経由で、文字を主とするさまざまなメッセージについて利用者間での交換を可能とするサービスで、例えば、電子掲示板、ブログ、電子メールなどが挙げられる。
このようなメッセージサービスにおいては、ブログ記事へのコメントやトラックバック、電子掲示板への新規投稿(親記事)やレスポンス(子記事)などを装って、アダルトサイトなど有害とされるURLを含むメッセージを投稿する、いわゆるスパム(SPAM)が横行し、それを検出し対策を行う技術が提案されている。
その一例として、本出願人による特許文献1の技術では、メッセージ内のURLが、予め用意した有害URLリストに未登録でも、そのURLが表すウェブページが、有害判定辞書すなわち禁止語リストの収録語を含む場合はそのメッセージを破棄している。
特開2007−265368号公報
しかし、語句表現は、ウェブページの作成目的や対象とする端末の種類に応じて異なり、例えば、パソコン向けのページでは「ヘア無修正」のような表現が、携帯電話端末向けのページでは「無修正」のように短縮される傾向があり、パソコン向けであっても画像主体で文字の少ないページでは同様の短縮傾向が見られる。
また、有害判定辞書の収録語との一致数を基準に、ウェブページが有害か否かを判定する場合、そのウェブページの情報量が大幅に異なれば、適切な一致数は異なる。例えば、電子掲示板(BBS)のメッセージ表示数が一画面あたり数十件程度の場合、疑わしい単語を数語含んでいるか否かを基準にできても、同じ基準を、一画面あたり一千件近いメッセージを含むページに適用すれば、有害と判定される場合が多過ぎて過剰規制となり、実用性が低下しかねない。
以上のように多様な側面を持つ多数のウェブページを、従来のように単一の有害判定辞書や一律の判定基準で適切に判定することは困難であり、判定精度を改善する技術が求められていた。
本発明は、上記のような従来技術の課題を解決するもので、その目的は、ブログなどへの投稿メッセージ内URLのウェブページの有害性を単語辞書等で判定する際、HTMLなどページ記述ファイル容量に応じて異なる有害判定手段を適用することにより、判定精度を改善することである。
本発明の一態様は、メッセージ判定装置において、ウェブページの有害性を判定する複数の有害判定手段と、メッセージサービスのメッセージ内に含まれるURLに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込手段と、読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定手段と、判定された前記データ容量範囲に応じて、前記複数の有害判定手段のうち一又は二以上を選択することにより、そのウェブページの有害性を判定させる、選択手段と、をコンピュータにより実現する。
このように、HTMLなどのデータ容量に応じて、複数の有害判定手段のどれを適用するかを変化させることにより、パソコン向けか携帯電話端末向けかなどに応じたウェブページの用途や長短などに適合した高精度な有害判定が可能となる。
本発明の他の態様は、上記いずれかの態様において、前記複数の有害判定手段のうち少なくとも一部は、前記データ容量範囲に対応し、互いに異なる有害語句群を収録語とした有害判定辞書を有し、前記URLに対応する前記ウェブページ記述ファイルの内容について、前記有害判定辞書と照合し前記収録語との一致に基づいて有害か否かを判定することを特徴とする。
このように、有害判定辞書の収録語との照合という簡明な有害判定手法の採用とともに、使用する有害辞書を切り替えたり組み合わせるなど、変化させることにより、判定対象とするウェブページのデータ容量に応じて、容易かつ確実に有害判定の内容を変更可能となる。
本発明の他の態様は、上記いずれかの態様において、前記選択手段は、前記有害判定辞書の収録語との一致語数を含む複数の有害判定基準について、判定された前記データ容量範囲に応じ、一又は二以上を選択するとともにANDもしくはORの論理演算により適用するように構成されたことを特徴とする。
このように、HTMLファイルデータ容量に応じて、語数などの有害判定基準も切り替えるとともに、複数の有害判定基準をANDやORの関係で適用することにより、対象や状況などの事情に応じ、有害判定精度が一層改善可能となる。
本発明の他の態様は、上記いずれかの態様において、前記有害判定辞書を有する前記有害判定手段は、前記有害判定辞書として、有害度の違いに応じたブラックワード辞書とグレーワード辞書を有し、予め定められた前記有害判定基準として、前記データ容量範囲ごとに、前記ブラックワード辞書での一致語数と、前記グレーワード辞書での一致語数、の一方又は双方を用いることを特徴とする。
このように、有害判定基準の一致語数を、有害度に応じたブラックワード辞書とグレーワード辞書ごとに、かつ、ページのデータ容量範囲との組合せで定めることにより、判定精度が一層改善される。
また、以上各態様との組合せが可能な他の好ましい追加の態様として、ブログなどへの投稿内のURLが有害URLリストに無く未知の場合、その有害性チェックを、URL末尾側の階層を除去した状態でも行うことにより、ショートURLの過剰規制を回避しつつ、末尾に無意味な文字列を付加して偽装した有害URLも優れた精度で検出する例を示す。
すなわち、本発明の一態様は、メッセージ判定装置において、有害とするウェブページのURLを記録した有害URLリストと、メッセージサービスへ入力されたメッセージ内に含まれるURLについて、前記有害URLリストと照合し一致するものがあれば有害と判定する有害判定を行う、URL判定手段と、前記URL判定手段が有害と判定しなかった前記URLを未知URLとして、この未知URLに対応するウェブページについて通信ネットワークを経てページ読込みを行うページ読込手段と、読み込んだ前記ウェブページについて、有害か否かの有害判定を行う、有害判定手段と、前記有害判定手段が有害と判定した前記ウェブページに対応する前記未知URLについて、所定の階層区切り記号で区切られた末尾側の文字列を一又は二以上の階層分除去する、末尾除去手段と、末尾を除去した前記未知URLについても、前記ページ読込み及び前記有害判定を行わせ、有害と判定された場合に、その除去した未知URLについて、前記有害URLリストへの登録を行う、末尾判定登録手段と、をコンピュータにより実現することを特徴とする。
このように、メッセージ内のURLが有害URLリストに無く未知で、ページを読込んで有害と判定した場合、「/」「?」などで区切られたURL末尾の下位層をカットしたURLについても有害判定することにより、下位層を付加して偽装したショートURLについても検出と有害URL登録が可能となり、判定精度が効果的に改善できる。
なお、本発明は、専用の電子回路によるほか、所定のコンピュータ・プログラムが、上記各手段に対応する各処理のステップを、メモリや入出力手段などのハードウェアを持つコンピュータの演算制御部に実行させることで実現可能である。そのような各処理を有する方法(例えば、メッセージ判定方法)と、そのような前記コンピュータ・プログラム(メッセージ判定プログラム)についても、上記及び下記の各態様に準じ、本発明の態様である。
本発明の他の態様として、上記いずれかの態様において、前記有害判定手段について、有害とする語を収録語として記憶した有害判定辞書を設け、前記URLに対応する前記ウェブページから読み込んだウェブページ記述ファイルの内容について、前記有害判定辞書と照合し前記収録語との一致に基づいて有害か否かを判定する構成をとれば、辞書収録語との照合という簡明な手法で容易に有害判定が実施できる。なお、末尾の除去は、一階層について行えば多くの場合に効果的と思われるが、複数の階層について行う場合は、次のような処理手順が特に適する。
本発明の他の態様は、上記いずれかの態様において、前記未知URLについて、(1)そのURLの指すウェブページを前記ページ読込手段で読み込み、(2)読み込んだウェブページについて前記有害判定手段で有害か無害か判定し、(3)有害と判定した場合は、前記末尾除去手段で、そのURLを所定の記憶領域に一時記憶するとともに、URL末尾における所定の階層区切り記号以降の一階層分の文字列をカットすることにより、残る上位階層部分のURLに加工したうえ、加工したURLについて再度前記(1)からの処理を行わせるが、(4)無害と判定し、かつ、有害と判定したURLが前記一時記憶されている場合は、前記末尾判定登録手段で、その一時記憶されているURLを前記有害URLリストに登録することを特徴とする。
このように、有害と判定したURLについて、末尾を除去のうえ再チェックを繰り返し、有害でなくなった場合は、最後に有害だったURLを有害URLリストへ登録するという単純な再帰処理によって、有害なページにリダイレクトされるもっとも短いURLを特定・登録可能となり、偽装的な冗長文字列の階層数がいくつであっても、高精度な判定が実現できる。
本発明の他の態様は、上記いずれかの態様において、各々サービスを実現し呼び出し元となる情報処理のプロセスもしくはシステムから、入力されたメッセージをパラメータに含むAPI(Application Program Interface)の呼出しを受け付けるとともに、前記呼出しに対するAPIの返り値として前記呼び出し元に対し、前記有害判定の結果を返信する、API受渡し手段(APIインターフェース部)を、前記コンピュータで実現することを特徴とする。
このように、多様なサービスからの呼出し利用をAPI経由で可能とすることにより、より多数の判定例が基礎となるため有害URLの情報蓄積が充実して判定精度が一層改善でき、また、そのように蓄積した情報に基づく高精度な判定を、より多くのサービスから幅広く活用可能となる。
以上のように、本発明によれば、ブログなどへの投稿メッセージ内URLのウェブページの有害性を単語辞書等で判定する際、HTMLなどページ記述ファイル容量に応じて異なる有害判定手段を適用することにより、判定精度を改善することが可能となる。
続いて、本発明を実施するための最良の形態(以下「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
〔1.構成〕
本実施形態は、図1の機能ブロック図に示すように、ブログや電子掲示板などのメッセージサービスを実現する機能部やサーバ(1ほか)などに対し、投稿者A1やA2などから入力されたメッセージの有害性を判定する機能を提供するメッセージ判定装置2(以下「本装置」と呼ぶ)に関するもので、本装置に対応する方法及びコンピュータプログラムとしても把握可能である。
本装置2が、メッセージの有害性判定の機能を提供する経路は二つ考えられ、両方に同時に対応する実装は必須ではないが、その一つは、ブログの機能部又はサーバ1から直接、有害性判定依頼をURL判定手段15宛てに受け付け、判定結果は専用の有害通知手段65から電子メールなどでブログの管理者Bなどへ、有害書込みの確認や削除の勧告などの形で出力するものである。
他の一つは、複数のサービスのプロセスもしくはシステム(機能部、サーバなど)から、所定の標準化されたAPIインタフェースを介して、判定依頼と結果回答を行うもので、これについては後述する。
このような本装置2は、図示はしないが、CPUなどの演算制御部、主メモリや外部記憶装置(HDDなど)といった記憶装置、入出力手段などのハードウェアを持つコンピュータに、所定のコンピュータ・プログラムを予め導入することにより、サーバコンピュータなどとして実現され、図1に示す各要素10〜80を有する。
これら各要素10〜80のうち、リストや辞書などの情報群については、対応する情報をファイルなどとして前記記憶装置上に格納することで実現する。また、それ以外の各手段は、各手段に対応する情報処理のステップを、前記コンピュータ・プログラムが前記演算制御部に実行させることで実現している。もっとも、各要素の一部又は全部は、技術的条件や実装態様などに応じて、ワイヤードロジックなど電子的回路によって実現してもよい。
上記のように構成された本実施形態の特徴は二つの概要に大別でき、第一の概要は、ショートURLの末尾偽装への対応であり、第二の概要は、ウェブページのデータ容量に応じた有害判定手段の使い分けである。
〔2.第一の概要〕
まず、第一の概要について説明する。すなわち、本装置2において、有害URLリスト10は、予め判明していて有害とするウェブページのURLを記録したものである。そして、URL判定手段15は、メッセージサービス(ブログ、電子掲示板、電子メール、メッセンジャーなど)で入力(新規投稿や発信だけでなく到着や受信も含む)されたメッセージ(コメント、投稿、メールなど)内に含まれるURLについて、有害URLリスト10と照合し一致するものがあれば有害と判定する有害判定を行う(この処理を方法の観点から「URL判定処理」と呼ぶ。以下同様)。
そして、ページ読込手段20は、URL判定手段10が有害と判定しなかったURLを未知URLとして、この未知URLに対応するウェブページについて、通信ネットワーク(インターネットや携帯電話ネットワークなど)を経てページ読込み(クロール)を行い(ページ読込処理)、このように読み込んだウェブページについて有害判定手段30が、有害かの有害判定を行う(有害判定処理)。
この際、有害判定手段30が有害と判定したウェブページに対応する未知URLについては、末尾除去手段50が、所定の階層区切り記号(「/」「?」など)で区切られた末尾側の文字列を一又は二以上の階層分除去し(末尾除去処理)、このように末尾を除去した未知URLについても、末尾判定登録手段60が、ページ読込手段20及び有害判定手段30に上述のページ読込み及び有害判定を行わせ、有害と判定された場合、その除去した未知URLについて、有害URLリスト10への登録を行う(末尾判定登録処理)。
単純な例を示せば、未知URL「short○○.com/aa/xx1」が有害と判定された場合、末尾側の最初の階層区切り記号「/」以降の部分「/xx1」を除去して短縮し「short○○.com/aa」としても有害と判定されれば、この短縮した状態で有害URL登録する。以降、「short○○.com/aa/yy2」のような他の偽装部分を結合したURLについても、有害URLリストに登録済みの「short○○.com/aa」の部分との一致判定により有害判定可能となる。
このように、メッセージ内のURLが有害URLリストに無く未知で、ページを読込んで有害と判定した場合、「/」「?」などで区切られたURL末尾の下位層をカットしたURLについても有害判定することにより、下位層を付加して偽装したショートURLについても検出と有害URL登録が可能となり、判定精度が効果的に改善できる。
なお、本発明及び本実施形態において、有害判定手段は、SVM(サポート・ベクター・マシン)等の機械学習によって実現可能であるが、有害判定手段は、有害とする語を収録語として記憶した有害判定辞書を設け、URLに対応するウェブページ記述ファイルの内容について、前記有害判定辞書と照合しその収録語との一致の有無や数に基づいて有害か否かを判定するように構成することにより、辞書収録語との照合という簡明な手法で容易に有害判定が実施できる。
また、末尾の除去は、一階層について行えば多くの場合に効果的と思われるが、複数の階層について行う場合は、以下のような再帰的処理手順が特に適する。
〔3.再帰的処理手順〕
すなわち、この再帰的処理手順は、制御ルーチンなどの制御手段80による制御に基づいて、未知URLについて、
(1)そのURLの指すウェブページをページ読込手段20が読み込み、
(2)読み込んだウェブページについて有害判定手段30が有害か無害か判定し、
(3)有害と判定した場合は、末尾除去手段50が、そのURLを所定の記憶領域に一時記憶するとともに、URL末尾における所定の階層区切り記号以降の一階層分の文字列をカットすることにより、残る上位階層部分のURLに加工したうえ、加工したURLについて再度前記(1)からの処理を行わせるが、
(4)無害と判定し、かつ、有害と判定したURLが前記一時記憶されている場合は、前記末尾判定登録手段が、その一時記憶されているURLを前記有害URLリストに登録する。
一例として、図2に示すように、状態1のURL(short○○.com/aa/bb/cc?=1234)が有害と判定された場合、末尾側の最初の階層区切り記号「?」以降の部分「?=1234」を除去して状態2とする。それも有害なら同様に、次の階層区切り記号「/」以降の部分「/cc」を除去して状態3、さらに状態4と判定し、状態4で初めて無害と判定されれば、最後に有害だった状態3のURL「short○○.com/aa/bb」を有害URL登録する。
このように、有害と判定したURLについて、末尾を除去のうえ再チェックを繰り返し、有害でなくなった場合は、最後に有害だったURLを有害URLリストへ登録するという単純な再帰処理によって、有害なページにリダイレクトされるもっとも短いURLを特定・登録可能となり、偽装的な冗長文字列の階層数がいくつであっても、高精度な判定が実現できる。
〔4.全体の処理手順の例〕
ここで、第一の概要を上記のような再帰的処理手順で実現する場合の処理手順を、図3のフローチャートに示す。この例は、ブログなどに投稿されたコメントのチェック時には応答の迅速性を優先して有害URLリストとの照合だけ行い(図3(1))、有害URLリストと一致がなく無害と回答した未知URLのチェックを、バッチなどで別途まとめて処理するものである(図3(2))。
すなわち、URL判定手段15は、チェックが必要となったコメントなどのメッセージ内にURLが無ければ(ステップS51)無害である旨を回答するが(ステップS56)、URLが有った場合は(ステップS51)有害URLリスト10と照合し(ステップS52)、リスト内のいずれかの有害URLを含むという意味で一致すれば(ステップS53)有害である旨を回答する(ステップS54)。有害URLリスト15との照合で一致した有害URLが無ければ(ステップS53)、そのURLをチェック対象とする未知URLとして記憶しておく(ステップS55)。
その後、所定間隔(数十分ごと〜毎夜間など)でのバッチ処理などにおいて(図3(2))、上記のように記憶しておいたチェック対象の各URLについて、その指し示すウェブページをページ読込手段20が実際に参照して読み込み(ステップS61)、有害判定手段30が、有害判定辞書などを用いて有害URLか否かの判定すなわち有害判定を行う(ステップS62)。
この結果、有害と判定した場合(ステップS63)、現状のURLのトップドメイン部分よりも末尾側に、まだ「/」「?」などの階層区切り記号が有れば(ステップS64)、末尾除去手段50が現状のURLから最後の区切り記号以降の部分を削除したうえ(ステップS66)、ページ読込(ステップS61)からの処理を繰り返すが、この削除(ステップS66)に先立って、削除直前のURLを所定の記憶領域に一時記憶しておく(ステップS65)。
また、有害と判定したURLに(ステップS63)もう区切り記号が無ければ(ステップS64)、トップドメイン自体が有害URLであるから、末尾判定登録手段60が、現在のURLすなわちトップドメインを有害URLリスト10に追加し(ステップS67)、そのURLについては処理を終了し、次の未知URLを処理対象とする。
有害判定(ステップS62)で無害と判定された場合において(ステップS63)、削除直前のURLが一時記憶されているときは(ステップS68)、直前のURLが有害で(ステップS63)末尾を削除した結果(ステップS66)、ショートURLサービスのトップドメインなど有害でない階層まで辿り着いた場合であるから、末尾判定登録手段60は、有害であった直前のURLを有害URLリスト15に追加し(ステップS69)、そのURLについては処理を終了し、次の未知URLを処理対象とする。
なお、URLの末尾を除去した一階層上のURLについて、アクセスすなわち読み込みがエラーとなって不可能な場合は、有害URLでない場合として(ステップS63)、除去前のURLを有害URLとして登録する(ステップS69)。
〔5.処理手順の他の例〕
また、ショートURLにおけるリダイレクト元とリダイレクト先を関連付けるとともに、末尾の除去を一階層に限定して効率よく有害登録する処理手順の例を図4のフローチャートに示す。
この例では、チェック対象URLについて、読み込み時のリターンコードなどによりリダイレクトURLか否か判別し(ステップS21)、リダイレクトURLでない場合(ステップS21)、ページ読込手段20がページを読み込み有害判定手段30が有害と判定すると(ステップS22)、そのURLを末尾判定登録手段60が有害URLリスト10に登録する(ステップS23)。
一方、チェック対象URLがリダイレクトURLの場合(ステップS21)、URL判定手段15が有害URLリスト10と照合した結果、未登録で(ステップS24)、ページ読込手段20がページを読み込み有害判定手段30が有害と判定した場合に(ステップS22)、末尾判定登録手段60は、リダイレクト元URLとリダイレクト先URLを有害URLリスト10に登録するが(ステップS29)、この際、複数回リダイレクトさせるURLであった場合、一番初めのリダイレクト元URLと最終的なリダイレクト先URLを登録する。
そのうえで末尾判定登録手段60は、リダイレクト元URLの一階層上のURL(「上位階層URL」と呼ぶ)があれば(ステップS30)、その上位階層URLについてページ読込手段20と有害判定手段30にページ読み込みのうえ有害判定させ、それも有害サイトであるときにはもとのURLに代え、上位階層URLを登録し(ステップS27)、次のURLの処理に進む(ステップS21〜)。
なお、この例では、「一階層上」のURLとは、URLの最も右側にある『/』記号または『?』記号を探し、『/』であればその右側を削除したURL、『?』であればその記号を含む右側を削除したURLであるが、階層区切り記号の種類やその取り扱いについては適宜変更実施可能である。
リダイレクトURLについて(ステップS21)、URL判定手段15が有害URLリスト10と照合した結果、リダイレクト先URLが有害サイトすなわち有害URLだった場合は(ステップS24)、末尾判定登録手段60は、リダイレクト元URLを有害URLリスト10に登録したうえ(ステップS25)、一階層上のURLについて(ステップS26)上記と同様の処理を行う(ステップS27)。
このように、リダイレクト先URLの登録状態と有害性に応じて、リダイレクト元のみ、もしくはリダイレクト元とリダイレクト先のURLを有害URLリスト10に有害登録するとともに、末尾の除去をリダイレクト元URLの一階層上までに限定することにより、処理が効率化され処理負荷が軽減される。
〔6.第二の概要〕
第二の概要は、個々のURLに対応するウェブページの有害性判定において、ウェブページのデータ容量に応じた有害判定手段を利用するものである。
すなわち、ウェブページの有害性を判定する複数の有害判定手段31,32,33(図1)を用い、ページ読込手段20が読み込んだウェブページのウェブページ記述ファイル(HTMLファイルなど)のデータ容量範囲を、容量判定手段45が、一又は二以上の基準値に基づいて判定し(容量判定処理)、ここで判定されたデータ容量範囲に応じて、選択手段47が、複数の有害判定手段31,32,33のうち一又は二以上を選択することにより、そのウェブページの有害性を判定させる(選択処理)。
このように、HTMLなどのデータ容量に応じて、複数の有害判定手段のどれを適用するかを変化させることにより、パソコン向けか携帯電話端末向けかなどに応じたウェブページの用途や長短などに適合した高精度な有害判定が可能となる。
〔7.辞書と基準の多様化〕
上記のように用いる複数の有害判定手段は、既に述べたSVMなど機械学習に基づくもの(例えば有害判定手段33)を利用可能であるが、図1に示すように、少なくとも一部の有害判定手段(例えば31,32)としては、データ容量範囲に対応し、互いに異なる有害語句群を収録語とした有害判定辞書D1,D2を設け、URLに対応するウェブページ記述ファイルの内容について、有害判定辞書D1又はD2と照合しその収録語との一致に基づいて有害か否かを判定するように構成することができる。
このように、有害判定辞書の収録語との照合という簡明な有害判定手法の採用とともに、使用する有害辞書を切り替えたり組み合わせるなど、変化させることは、必須ではなく省略も可能ではあるが、その採用により、判定対象とするウェブページのデータ容量に応じて、容易かつ確実に有害判定の内容を変更可能となる。
〔8.判定基準の組合せ〕
また、上記のような複数の有害判定手段は、択一的な選択には限定されず、例えば、複数の有害判定手段や有害判定基準を用いて、双方で有害と判定されるAND条件でURLを有害としたり、いずれか一方で有害と判定されれば有害とする(OR条件)など、自由に定めることができる。
また、データ容量に応じ、複数ある有害判定手段や複数ある有害判定辞書の使い分けだけでなく、ウェブページあたり単語などが何語ヒットすれば有害と判定するかの判定基準についても、複数ある中から選択的もしくはANDやORなどの論理演算による組合せにより、適用してもよい。
この場合、選択手段47が、有害判定辞書の収録語との一致語数を含む複数の有害判定基準について、判定されたデータ容量範囲に応じ、一又は二以上を選択するとともに、それらをANDもしくはORの論理演算により適用する。このように、HTMLファイルデータ容量に応じて、語数などの有害判定基準も切り替えるとともに、複数の有害判定基準をANDやORの関係で適用することにより、対象や状況などの事情に応じ、有害判定精度が一層改善可能となる。
特に望ましい態様は、有害判定辞書を有する有害判定手段において、有害判定辞書又はその収録語の分類として、有害度の違いに応じてブラックワードすなわちブラック語句と、グレーワードすなわちグレー語句に分け、それぞれをブラックワード辞書(ブラックワード群)とグレーワード辞書(グレーワード群)とし、予め定められた有害判定基準として、データ容量範囲ごとに、ブラックワード辞書での一致語数と、グレーワード辞書での一致語数、の一方又は双方を用いることである。
一例として、図5(データ構造の概念図)に示すように、一般ページ用のブラックワード辞書の収録語は、例えば「素人性感」「18歳未満の閲覧を禁じます」「全裸露出」「アダルトビデオ情報」などが考えられ、一般ページ用のグレーワード辞書の収録語は例えば、「露出系」「あなたは、18歳以上ですか」「極上素人」「アダルト動画」などが考えられる。
また、低容量向けの有害判定辞書では、半角カタカナを用いるなど簡略な表現を多く収録し、例えば、ブラックワード辞書の収録語として「露出動画」「18歳以上?」「極上素人」「アダルト動画」などが考えられ、であり、低容量向けのグレーワード辞書の収録語の例は、「露出」「18歳以上」「素人」「アダルト動画」などである。なお、本出願ではカタカナを全角文字で表すが、低容量向けの場合、カタカナは半角文字を基準としたり、全角と半角を区別せず照合する。
このように、有害判定基準の一致語数を、有害度に応じたブラックワード辞書とグレーワード辞書ごとに、かつ、ページのデータ容量範囲との組合せで定めることにより、判定精度が一層改善される。
また、辞書の数は、ブラックとグレーのように2つには限定されず、例えば、1語で有害と判定するブラックワード辞書のほかに、2語で有害と判定するグレーワード辞書と、3語で有害と判定するグレーワード辞書、といった具合に、互いに異なった有害判定基準語数を設定した複数の辞書について順次有害判定を行い、いずれかの辞書について基準語数を満たせば有害と判定する構成とすれば、よりきめ細かな有害判定基準による優れた判定精度が実現可能となる。
〔9.容量に応じた判定手順の例〕
上記のように、データ容量に応じて有害判定手段や基準を使い分ける処理手順の一例を、図6のフローチャートに例示する。このフローチャートは、図3(2)のステップS62に対応するものである。
すなわち、容量判定手段45が、有害判定の対象とするウェブページのHTMLファイル(他の規格のマークアップ言語によるウェブページ記述ファイルでもよい)について容量を取得し(ステップS71)、携帯端末向けなど12KB(キロバイト)以下の低容量ページについては(ステップS72)、低容量ページ用の有害判定辞書D1を用い、ブラック1語又はグレー2語のような低容量ページ用判定基準J1を適用することにより、有害判定を行う(ステップS81)。
また、12KB超〜30KB未満の一般ページ用については(ステップS72,S73)、一般ページ用の有害判定辞書D2を用い、グレー4語のような一般ページ用判定基準J2を適用することにより、有害判定を行う(ステップS82)。さらに、30KB以上の容量の大きなページについては(ステップS73)、少ない語数を基準とすれば過剰規制になるため、単語数ではなく、SVM分類器に基づく機械学習判定器を用いるなど、類似ページとの関係においても判定する(ステップS83)。
〔10.APIによる利用〕
また、本装置は、API(Application Program Interface)により多様なサービスからの呼出し利用が可能である。すなわち、API受渡し手段70(APIインターフェース部)が、各々サービスを実現し呼び出し元となるプロセスもしくはシステム(図1に示す電子掲示板などの機能部又はサーバなど)から、入力されたメッセージをパラメータに含むAPIの呼出しを受け付けるとともに、呼出しに対するAPIの返り値として呼び出し元に対し、有害判定の結果を返信する(API受渡し処理)。
この場合、例えば、APIの返り値を、
(1)有害サイトURLとの一致
(2)有害判定:アダルト表現、出会い系
(3)有害判定:誹謗・中傷・差別
(4)有害判定:自殺や暴力、薬物乱用の肯定と助長
(5)有害判定:射幸心をあおるビジネス情報
のような有害の類型にそれぞれ対応する複数のパラメータの組合せとし、各パラメータごとに、その項目に関する有害判定辞書収録語との一致数に応じたポイントなどパラメータ値の組合せを返すようにしてもよい。この場合、個々のパラメータごとに100ポイントを満点として、あるウェブページはアダルト表現という観点のパラメータは50ポイント、ビジネス情報の観点のパラメータは34ポイント、のようなパターンが考えられる。
このような実装形態の場合、各サービスのプロセスやシステムが、各々の機能やポリシーに応じて、上記の返り値に応じ、投稿の拒否や、管理者への削除勧告などを行う。
このように、多様なサービスからの呼出し利用をAPI経由で可能とする構成(API受渡し手段70)は、必須ではなく省略も可能ではあるが、その採用により、より多数の判定例が基礎となるため有害URLの情報蓄積が充実して判定精度が一層改善でき、また、そのように蓄積した情報に基づく高精度な判定を、より多くのサービスから幅広く活用可能となる。
〔11.他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、上記実施形態に限定されるものではないので、次に例示するような例やさらに他の例も含むものである。例えば、メッセージ判定装置は、上記各手段などの各機能を担当する複数のコンピュータやサーバの組合せ・連携により実現してもよい。
また、有害判定をどのようなタイミングで行うかは実装上自由であり、例えば、メッセージの入力時点では有害判定をせず、ブログの機能部又はサーバ1にホストされる各ユーザのブログのうち、事前に登録したものもしくは所定の画像などの要素(ブログパーツ)を設置しているものの新規投稿を、所定の時間周期や時刻などで巡回し有害なスパムなどを検出することができる。
また、有害判定の対象は、メッセージ本文内のURLに限らず、名前やプロフィールに関する表示のリンク先URLなど、メッセージに伴って閲覧者に露出される入力内容に含まれるURLも含まれる。
また、上記実施形態では、有害URLリスト10と一致しなかった未知URLについては、有害である旨の回答をその場では返さず、辞書などを用いた有害判定は事後的にまとめて行う例を示したが(図3)、そのような有害判定まで投稿時点で行う例も考えられる。
そのような例における処理手順を図7に示す。この例では、有害URLリストとの照合で一致が無くとも(ステップS53)、その場で続けて、図3(2)に準じて末尾を除去しながら(ステップS65)有害判定辞書に基づく有害判定を行い(ステップS62)、有害と判定できれば(ステップS63)、有害URLリストへの追加登録(ステップS67,S69)だけでなく、有害である旨の回答までを行う(ステップS54)。
また、有害判定結果のサービスへの反映の仕方として、投稿内容はブログに即時反映させる一方、有害判定の結果、有害と判定したメッセージについては、投稿されたブログの管理者へ電子メールなどで通知し削除勧告を行う運用を想定できるが、これにはとどまらず、投稿を反映する前や投稿後でも有害と判定できれば、管理者の操作を待たずメッセージの投稿を拒絶したりメッセージを削除するなどの例も可能である。
例えば、図8の概念図に示す例では、ブログの機能部又はサーバ1は、メッセージの投稿があると(ステップS11)、図1に示したと同様なメッセージ判定装置2にチェック依頼を送信し(ステップS13)、有害との回答を受領すると(ステップS14,S15)、投稿を削除し又はブログ掲載を回避する(ステップS16)。
本発明の実施形態の構成を示す図。 本発明の実施形態におけるURL登録の例を示す図。 本発明の実施形態における全体の処理手順を示すフローチャート。 本発明の実施形態における全体的処理手順の他の例を示すフローチャート。 本発明の実施形態における有害判定辞書の一例を示す図。 本発明の実施形態において、データ容量に応じ有害判定手段を使い分ける処理手順を示すフローチャート。 本発明の他の実施形態を示す図。 本発明の他の実施形態を示す図。
符号の説明
A(A1,A2) 投稿者
B ブログの管理者
1 ブログの機能部又はサーバ
2 メッセージ判定装置
10 有害URLリスト
15 URL判定手段
20 ページ読込手段
30(31,32,33) 有害判定手段
D(D1,D2) 有害判定手段
45 容量判定手段
47 選択手段
50 末尾除去手段
60 末尾判定登録手段
65 有害通知手段
70 API受渡し手段
80 制御手段

Claims (4)

  1. ウェブページの有害性を判定する複数の有害判定手段と、
    メッセージサービスに入力されたメッセージ内に含まれるURLに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込手段と、
    読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定手段と、
    判定された前記データ容量範囲に応じて、前記複数の有害判定手段のうちいずれかを選択することにより、そのウェブページの有害性を判定させる、選択手段と、
    をコンピュータにより実現し、
    前記複数の有害判定手段は、低容量向けの有害判定辞書を有する有害判定手段と、一般ページ用の有害判定辞書を有する有害判定手段であって、前記低容量向けの有害判定辞書と一般ページ用の有害判定辞書は互いに異なる有害語句群を収録語とし、
    いずれの前記有害判定辞書もそれぞれ、有害度の違いに応じたブラックワード辞書とグレーワード辞書とを有し、
    前記複数の有害判定手段は、前記URLに対応する前記ウェブページ記述ファイルの内容について、それぞれの前記有害判定辞書におけるブラックワード辞書及びグレーワード辞書と照合しその収録語との一致に基づいて有害か否かを判定するにあたり、前記ブラックワード辞書の収録語については1語でも一致すれば前記URLを有害と判定し、前記グレーワード辞書の収録語については予め定められた数の語が一致すれば前記URLを有害と判定し、
    低容量向けの前記有害判定手段の前記有害判定辞書は半角カタカナを含むことを特徴とするメッセージ判定装置。
  2. 呼び出し元となる情報処理のプロセスもしくはシステムから、入力されたメッセージをパラメータに含むAPI(Application Program Interface)の呼出しを受け付けるとともに、前記呼出しに対するAPIの返り値として前記呼び出し元に対し、前記有害判定の結果を返信する、API受渡し手段を、前記コンピュータで実現し、
    前記API受渡し手段は、前記APIの返り値を、有害の類型にそれぞれ対応する複数のパラメータの組合せとし、各パラメータごとに、その項目に関する有害判定辞書収録語との一致数に応じたパラメータ値の組合せを返すことを特徴とする請求項1記載のメッセージ判定装置。
  3. メッセージサービスに入力されたメッセージ内に含まれるURLに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込処理と、
    読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定処理と、
    判定された前記データ容量範囲に応じて、ウェブページの有害性を判定する互いに異なる複数の有害判定処理のうち一又は二以上を、選択することにより、そのウェブページの有害性を判定させる、選択処理と、
    をコンピュータにより実行し、
    前記複数の有害判定処理は、低容量向けの有害判定辞書を用いる有害判定処理と、一般ページ用の有害判定辞書を用いる有害判定処理であって、前記低容量向けの有害判定辞書と一般ページ用の有害判定辞書は互いに異なる有害語句群を収録語とし、
    いずれの前記有害判定辞書もそれぞれ、有害度の違いに応じたブラックワード辞書とグレーワード辞書とを有し、
    前記複数の有害判定処理は、前記URLに対応する前記ウェブページ記述ファイルの内容について、それぞれの前記有害判定辞書におけるブラックワード辞書及びグレーワード辞書と照合しその収録語との一致に基づいて有害か否かを判定するにあたり、前記ブラックワード辞書の収録語については1語でも一致すれば前記URLを有害と判定し、前記グレーワード辞書の収録語については予め定められた数の語が一致すれば前記URLを有害と判定し、
    低容量向けの前記有害判定処理の前記有害判定辞書は半角カタカナを含むことを特徴とするメッセージ判定方法。
  4. コンピュータを制御することにより、
    メッセージサービスに入力されたメッセージ内に含まれるURLに基づいて、対応するウェブページを通信ネットワークを経て読み込むページ読込処理と、
    読み込んだ前記ウェブページのウェブページ記述ファイルのデータ容量範囲を、一又は二以上の基準値に基づいて判定する容量判定処理と、
    判定された前記データ容量範囲に応じて、ウェブページの有害性を判定する互いに異なる複数の有害判定処理のうち一又は二以上を、選択することにより、そのウェブページの有害性を判定させる、選択処理と、
    を実行させ
    前記複数の有害判定処理は、低容量向けの有害判定辞書を用いる有害判定処理と、一般ページ用の有害判定辞書を用いる有害判定処理であって、前記低容量向けの有害判定辞書と一般ページ用の有害判定辞書は互いに異なる有害語句群を収録語とし、
    いずれの前記有害判定辞書もそれぞれ、有害度の違いに応じたブラックワード辞書とグレーワード辞書とを有し、
    前記複数の有害判定処理は、
    前記URLに対応する前記ウェブページ記述ファイルの内容について、それぞれの前記有害判定辞書におけるブラックワード辞書及びグレーワード辞書と照合しその収録語との一致に基づいて有害か否かを判定するにあたり、前記ブラックワード辞書の収録語については1語でも一致すれば前記URLを有害と判定し、前記グレーワード辞書の収録語については予め定められた数の語が一致すれば前記URLを有害と判定し、
    低容量向けの前記有害判定処理の前記有害判定辞書は半角カタカナを含むことを特徴とするメッセージ判定プログラム。
JP2008163805A 2008-05-27 2008-05-27 メッセージ判定装置、方法及びプログラム Expired - Fee Related JP4926130B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008163805A JP4926130B2 (ja) 2008-05-27 2008-05-27 メッセージ判定装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008163805A JP4926130B2 (ja) 2008-05-27 2008-05-27 メッセージ判定装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009289246A JP2009289246A (ja) 2009-12-10
JP4926130B2 true JP4926130B2 (ja) 2012-05-09

Family

ID=41458364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008163805A Expired - Fee Related JP4926130B2 (ja) 2008-05-27 2008-05-27 メッセージ判定装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4926130B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5492270B2 (ja) * 2012-09-21 2014-05-14 ヤフー株式会社 情報処理装置及び方法
CN104991896A (zh) * 2015-05-26 2015-10-21 百度在线网络技术(北京)有限公司 一种解析二维码的方法与装置
JP2019053784A (ja) * 2018-12-28 2019-04-04 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519668B2 (en) * 2003-06-20 2009-04-14 Microsoft Corporation Obfuscation of spam filter
JP4500285B2 (ja) * 2006-03-02 2010-07-14 ヤフー株式会社 スパム除去方法

Also Published As

Publication number Publication date
JP2009289246A (ja) 2009-12-10

Similar Documents

Publication Publication Date Title
JP6744480B2 (ja) ネットワークベースの広告データトラフィックレイテンシ削減
JP5600160B2 (ja) フィッシング疑惑ウェブサイトを識別するための方法及びシステム
US20180351995A1 (en) Fake web addresses and hyperlinks
JP4395848B2 (ja) 廃棄可能なeメールアドレスを生成し、処理するための方法、システム、及びコンピュータ・プログラム
US8132151B2 (en) Action tags
US6832245B1 (en) System and method for analyzing communications of user messages to rank users and contacts based on message content
JP4824352B2 (ja) 外向き通信が特定の内容を含む時を検出する方法およびシステム
US8615802B1 (en) Systems and methods for detecting potential communications fraud
US8732614B2 (en) Toolbar document content sharing
US9369418B2 (en) Determining additional information associated with geographic location information
US20050198180A1 (en) Method and system for providing automatic email address book
CN113692597B (zh) 电子邮件内容修改系统
JP2010511217A (ja) 単語予測
CN101194277A (zh) 在基于对话的电子邮件系统中显示对话
US20140047315A1 (en) Method for identifying potential defects in a block of text using socially contributed pattern/message rules
JP4500285B2 (ja) スパム除去方法
JP4926130B2 (ja) メッセージ判定装置、方法及びプログラム
JP4979643B2 (ja) メッセージ判定装置、方法及びプログラム
JP6721314B2 (ja) ネットワークシステム、サーバ、および端末
JP5676522B2 (ja) 文字列変換方法及びプログラム
JP4564916B2 (ja) フィッシング詐欺対策方法、端末、サーバ及びプログラム
CN106485520A (zh) 跨渠道通讯控制方法及服务器
JP2009093325A (ja) 情報編集装置及びプログラム
US20170171128A1 (en) Method and electronic device for email processing
JP5178077B2 (ja) 議論状況把握支援装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4926130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350