JP4686724B2

JP4686724B2 - 迷惑メールのフィルタ機能を有する電子メールシステム

Info

Publication number: JP4686724B2
Application number: JP2006320004A
Authority: JP
Inventors: 学杉井; 浩嗣松野
Original assignee: NATIONAL UNIVERSITY CORPORATION YAMAGUCHI UNIVERSITY
Current assignee: NATIONAL UNIVERSITY CORPORATION YAMAGUCHI UNIVERSITY
Priority date: 2006-11-28
Filing date: 2006-11-28
Publication date: 2011-05-25
Anticipated expiration: 2026-11-28
Also published as: JP2008135926A

Description

本発明は、学習型の決定木アルゴリズムを用いた、迷惑メールのフィルタ機能を有する電子メールシステム及びプログラムに関する。

インターネット上を流れる迷惑メールの割合は、全電子メール中の６０％を越えると言われており、現在では、迷惑メール対策として、さまざまな自動分類方法が用いられている。開発初期のもっとも単純な方法に、メールヘッダに記述される特定の迷惑メール送信サーバやメールのＦｒｏｍ行記載のメールアドレスを、管理者やユーザがひとつひとつ登録し、合致するメールを排除する方法がある。しかし迷惑メール送信者は、このような対策をかいくぐる新しい方法で次々に迷惑メールを送信してくるため、手作業で分類やアドレスの登録などを行うには作業コストが大きすぎ、現実的ではなくなってきている。また、これまでの方法では、通常の電子メールを迷惑メールと間違えて判断するケースおよびその逆のケースも増えている。近年、メール本文などの単語の出現頻度による特徴を分類に役立てるベイズ理論を応用した方法が注目されているが、未だ利用者および管理者の作業コストは大きく、分類精度もそれほど高くない。

従来技術として、特許文献１乃至３が挙げられる。
特許文献１には、文字列の一部をわざと間違えたり文字間に無意味な記号を挿入した電子メールであっても、迷惑メール等の電子メールを効果的に分類できる電子メール処理装置が記載されている。電子メールに含まれる単語について単語情報データベース内の迷惑メール対象文字列と相同性検索をすることによって迷惑メールの判定を行っている。
特許文献２には、電子メールのヘッダ情報に含まれるメール中継装置によって、該当電子メールが迷惑メールか否かをベイズ確率モデルを用いて判定する電子メールフィルタリングシステムが記載されている。
特許文献３には、ユーザが通常メールと迷惑メールとを分類し、その分類された内容を分析してフィルタルールを追加する電子メールフィルタリングシステムが記載されている。
特許文献１乃至３のいずれにも、迷惑メールの判定に学習型の決定木アルゴリズムを用いることついて記載されていない。
特開２００６−２９３５７３号公報特開２００６−２６０５１５号公報特開２００６−２４５８１３号公報

本発明は、学習型の決定木アルゴリズムを用いて、迷惑メールを正確に効率良くフィルタリングする電子メールシステムを提供することを目的とする。

前記目的を達成するため、本発明は以下の構成を有する。
外部からの電子メールを受信する電子メール受信部と、前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、を有する電子メールシステム及びプログラムであって、前記迷惑メール判定部は、決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、を有し、前記決定木学習部は、前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、を有し、前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理することを特徴とする電子メールシステム及びプログラム。

また、以下の実施態様を有する。
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する。
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第２の符号に変換する機能を有する。
前記学習部に、ＢＯＮＳＡＩプログラムを用いる。

学習型の決定木アルゴリズムを用いることで、従来のシステムに比べて、迷惑メールを正確に効率よくフィルタリングできる。また、決定木の学習及び適用の前に、電子メールを単語の出現頻度及び出現偏りに応じて符号化しておくことで、効果的に決定木の学習及び適用ができる。本発明のアルゴリズムは電子メールのヘッダ情報及び本文の両方に分け隔てなく適用でき、両方の情報を用いることでより簡単で正確に電子メールのフィルタリングが可能である。
決定木の学習には時間が掛かるが、予め生成された決定木に基づいて電子メールを分類するのは短時間でできる。本発明の決定木学習部と迷惑メール判定部とは独立して実行可能であるので、決定木を事前に学習しておいたり、決定木の学習を別サーバで実行することが可能である。迷惑メール判定部は、既に生成された決定木に基づいて電子メールを分類すればよいので、リアルタイムで電子メールのフィルタリングが可能である。

図面を用いて本発明の実施形態について説明する。図１は、本電子メールシステムのブロック図である。電子メールシステム１は、インターネットから電子メールを受信する電子メール受信部２と、電子メール受信部２で受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部３と、迷惑メール判定部３の判定結果に応じて電子メールをフィルタリングする迷惑メールフィルタ部４と、迷惑メールフィルタ部４によってフィルタリングされた電子メールをローカルメールボックス又は外部に送信する電子メール送信部５とからなる。迷惑メールフィルタ部４は、迷惑メールの削除、迷惑メールにフラグを付与、迷惑メールを別フォルダに移動などの動作を行う。電子メール送信部５は、本電子メールシステムの使用形態に応じて、フィルタリングされた電子メールを同一サーバ内のローカルメールボックスに振り分けて送信しても良いし、外部のメールサーバに転送しても良い。この電子メールシステムは、インターネットに接続されたサーバ上で動作させても良いし、電子メールを受信する端末上で動作させても良い。

図２は、迷惑メール判定部３のブロック図である。迷惑メール判定部３は、決定木学習部６によって予め生成された単語出現頻度データベース３３及び決定木３４と、単語出現頻度データベース３３により電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部３１と、単語符号化部３１により符号化された電子メール符号化データに決定木３４を適用することにより迷惑メールか否かを判定する判定部３２とからなる。単語出現頻度データベース３３及び決定木３４は決定木学習部６により予め生成しておき、必要に応じて転送しておくなどして迷惑メール判定部３で利用可能にしておく。迷惑メール判定部３と決定木学習部６とは同一サーバ上で実行させても良いし、それぞれ異なるサーバ上で実行させても良い。決定木学習部６で生成された単語出現頻度データベース３３及び決定木３４を、複数のサーバ上の迷惑メール判定部３で利用しても良い。

図３は、決定木学習部６のブロック図である。決定木学習部６は、迷惑メールを保存した迷惑メールデータベース６１と、通常メールを保存した通常メールデータベース６２と、迷惑メールデータベース６１及び通常メールデータベース６２内の電子メール中の単語の出願頻度を求めて単語出現頻度データベース３３を生成する単語出現頻度データベース生成部６３と、単語出現頻度データベース３３により迷惑メールデータベース６１及び前記通常メールデータベース６２内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部６４と、単語符号化部６４により符号化された電子メール符号化データのパターンに基づいて迷惑メールと通常メールとを分類する最適な決定木３４を生成する学習部６５とからなる。迷惑メールデータベース６１及び通常メールデータベース６２には、予めユーザによって分類された迷惑メール及び通常メールが蓄積されている。単語出現頻度データベース生成部６３は、単語の出現頻度及び出現偏り（単語が迷惑メールと通常メールのどちらに多く含まれるか）を求めて単語出現頻度データベース３３を生成する。単語符号化部６４は、単語出現頻度データベース３３に含まれる単語の出現頻度及び偏りの情報から、各単語をＡ、Ｂ、Ｃなどの符号に変換する。迷惑メール判定部３内の単語符号化部３１も、単語符号化部６４と同様な動作を行う。学習部６５は、後述のＢＯＮＳＡＩプログラムを用いて決定木３４の生成を行う。迷惑メール判定部３及び決定木学習部６は、電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する。

以下、ＢＯＮＳＡＩについて簡単に説明する（ＢＯＮＳＡＩの詳細については、Ｓｈｉｍｏｚｏｎｏ，Ｓ．、Ｓｈｉｎｏｈａｒａ、Ａ．，Ｍｉｙａｎｏ，Ｓ．，Ｋｕｈａｒａ，Ｓ．，Ａｒｉｋａｗａ，Ｓ．“ＫｎｏｗｌｅｄｇｅＡｃｑｕｉｓｉｔｉｏｎｆｒｏｍＡｍｉｎｏＡｃｉｄＳｅｑｕｅｎｃｅｂｙＭａｃｈｉｎｅＬｅａｒｎｉｎｇＳｙｓｔｅｍＢＯＮＳＡＩ”，Ｔｒａｎｓ．Ｉｎｆｏｒｍ．Ｐｒｏｃｅｓｓ．Ｓｏｃ．Ｊａｐａｎ，３５（１０）：２００９−２０１８，１９９４参照）。ＢＯＮＳＡＩは、確率的近似学習と呼ばれる学習パラダイムに基づいて開発された機会学習プログラムで、正の学習グループと負の学習グループを与えると決定木を作成する。決定木の作成については、Ｊ．Ｒ．Ｑｕｉｎｌａｎの決定木学習アルゴリズムＩＤ３の枝狩り規準を改良した“Ｃ４．５”というアルゴリズムに基づいている。さらに、ＢＯＮＳＡＩはｉｎｄｅｘｉｎｇというグルーピングの機能を持っている。もともとＢＯＮＳＡＩは生物ゲノム情報から重要な遺伝子配列などを抽出する目的で開発された機械学習システムであるが、本発明者の工夫によって迷惑メールの分類に利用可能であることが見出された。ＢＯＮＳＡＩは、正の例と負の例として二つのデータ集団を入力すると、正の例には存在するが負の例には存在しないパターンを見つけ出すことができるので、この機能を利用して迷惑メールの分類を行う。

図４は、本システムの決定木学習の流れ図である。図４に示すように正の学習グループとして迷惑メール群、負の学習グループとして通常メール群を作成し、迷惑メール群に存在する特徴的なパターンの抽出を試みる。まず、両群の電子メールの文字列を単語に分解し、両群に存在するすべての単語について正の学習グループでの出現頻度を算出し、出現頻度の高いものからＡ〜Ｅまでのグルーピングを行う。出現頻度を表すA〜Eの文字で電子メール内のすべての文字列を置換してから、機械学習システムＢＯＮＳＡＩに投入する。ＢＯＮＳＡＩ（東京大学医科学研究所ヒトゲノム解析センター宮野研究室開発）は、正の学習グループと負の学習グループとして二つのデータ集団を入力すると、正の学習グループには存在するが、負の学習グループには存在しないといったパターンを見つけ出し、二つの学習例を正しく分けることができる決定木（ＤｅｃｉｓｉｏｎＴｒｅｅ）を作成する。また同時に、正の学習グループと負の学習グループを最も効率よく分類できる条件で、それぞれのグループ例を構成する要素もグループ分けする機能を持っている（Ｉｎｄｅｘｉｎｇ）。単語の出現頻度を反映させた学習グループ例をＢＯＮＳＡＩに投入することで、単語の出現頻度とその語順を考慮したパターン抽出が可能になる。つまりＢＯＮＳＡＩは、出現頻度を反映したＡ〜Ｅの文字で置換された電子メール内の文字列を、図４のようにｉｎｄｅｘｉｎｇによってさらにグルーピングし、例えば０〜２のような文字で置き換えながら、電子メール内の文字列中に存在するパターンを抽出する。また同時に正および負の学習グループ例を最も正しく分ける規則を提示する。

図５は、決定木の例である。例えば図４のケースでは、電子メールを単語分解及び２段階グルーピング（単語出現頻度、Ｉｎｄｅｘｉｎｇ）して０〜２の符号に変換されたデータが、パターン「２０」を含んでいたら「迷惑メール」（正の学習グループ）と判定する。パターン「２０」を含んでいない場合は、さらにパターン「０２１」の検索を行い、パターン「０２１」を含んでいたら「迷惑メール」、含んでいなければ「通常メール」（負の学習グループ）と判定する。図４及び５は説明のための簡単な事例であるが、実際に利用する場合はパターン長はもっと長く、枝分岐ももっと複雑である。決定木学習及び決定木の適用には単語を符号化したものを利用するので、単語分解できるデータであれば何でも利用可能であり、電子メールのヘッダ部分及び本文について同じアルゴリズムを適用できる。

以下、実施例について説明する。
決定木の学習手順は、以下の通りである。
１．サンプル電子メール（迷惑メール[正の例]：５００通、通常メール[負の例]：５００通）の準備。
２．サンプル電子メール（ヘッダ及び本文）を単語に分解。
３．単語の出現率と出現偏りの計算
・出現率＝ｌｏｇ（出現数の総和）
（出現率が小さいものは除外）
・出現偏り＝正の例での出現数／正の例及び負の例での出現数の総和
４．出現頻度に応じた符号化。
Ｘ：０．８＜（出現偏り）
Ｙ：０．６≦（出現偏り）≦０．８
Ｚ：（出現偏り）＜０．６
Ｏ：その他[出現数少]
５．ＢＯＮＳＡＩにより最適な決定木の生成。

図６に、ＢＯＮＳＡＩにより生成された決定木の例を示す。この例では、ＢＯＮＳＡＩのグルーピング機能（ｉｎｄｅｘｉｎｇ）により、Ｘ→０、Ｙ→０、Ｚ→１、Ｏ→１のさらなる符号化が行われている。

生成された決定木に基づいて、７１２通の一般の受信メールを振り分けてみた結果は以下の通りである。
通常メール分類の正解率：９４．４％（２３８／２５２通）
迷惑メール分類の正解率：９７．８％（４５０／４６０通）
この結果から、高い正解率で迷惑メールと通常メールの振り分けが可能であることがわかる。

別の実施例について説明する。前述の実施例では、単語出現頻度による符号化の符号数は４個（Ｘ，Ｙ，Ｚ，Ｏ）、ＢＯＮＳＡＩのグルーピング機能（ｉｎｄｅｘｉｎｇ）による符号化の符号数は２個（０，１）であったが、単語出現頻度による符号化の符号数を６個（Ｘ，Ｙ，Ｚ，Ｏ，Ａ，Ｂ）、ＢＯＮＳＡＩのグルーピング機能（ｉｎｄｅｘｉｎｇ）による符号化の符号数を３個（０，１，２）にした場合の決定木の例を図７に示す。
この決定木に基づいて、８０６通の一般の受信メールを振り分けてみた結果は以下の通りである。
通常メール分類の正解率：９６．１％（２７３／２８４通）
迷惑メール分類の正解率：９８．６％（５１５／５２２通）
前述の実施例よりもさらに高い正解率であることがわかる。
「単語出現頻度による符号化の符号数」及び「ＢＯＮＳＡＩのグルーピング機能（indexing）による符号化の符号数」はこの他の組み合わせも可能であり、演算速度、サンプル電子メール数、学習に掛けられる時間等に応じて任意に設定できる。

以上、本発明の実施形態の一例を説明したが、本発明はこれに限定されるものではなく、特許請求の範囲に記載された技術的思想の範疇において各種の変更が可能であることは言うまでもない。

本システムのブロック図迷惑メール判定部のブロック図決定木学習部のブロック図決定木学習の流れ図決定木の例実施例における決定木別の実施例における決定木

符号の説明

１：電子メールシステム、２：電子メール受信部、３：迷惑メール判定部、４：迷惑メールフィルタ部、５：電子メール送信部、６：決定木学習部、
３１：単語符号化部、３２：判定部、３３：単語出現頻度データベース、３４：決定木、
６１：迷惑メールデータベース、６２：通常メールデータベース、６３：単語出現頻度データベース生成部、６４：単語符号化部、６５：学習部（ＢＯＮＳＡＩ）

Claims

外部からの電子メールを受信する電子メール受信部と、
前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、
前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、
前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、
を有する電子メールシステムであって、
前記迷惑メール判定部は、
決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、
を有し、
前記決定木学習部は、
前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、
迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、
前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、
前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、
を有し、
前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する
ことを特徴とする電子メールシステム。
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、
前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する
ことを特徴とする請求項１記載の電子メールシステム。
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第２の符号に変換する機能を有することを特徴とする請求項１又は２記載の電子メールシステム。
前記学習部に、ＢＯＮＳＡＩプログラムを用いることを特徴とする請求項３記載の電子メールシステム。
外部からの電子メールを受信する電子メール受信部と、
前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、
前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、
前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、
を有する電子メールプログラムであって、
前記迷惑メール判定部は、
決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、
を有し、
前記決定木学習部は、
前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、
迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、
前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、
前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、
を有し、
前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する
ことを特徴とする電子メールプログラム。
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、
前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する
ことを特徴とする請求項５記載の電子メールプログラム。
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第２の符号に変換する機能を有することを特徴とする請求項５又は６記載の電子メールプログラム。
前記学習部に、ＢＯＮＳＡＩプログラムを用いることを特徴とする請求項７記載の電子メールプログラム。