JP4686724B2 - 迷惑メールのフィルタ機能を有する電子メールシステム - Google Patents
迷惑メールのフィルタ機能を有する電子メールシステム Download PDFInfo
- Publication number
- JP4686724B2 JP4686724B2 JP2006320004A JP2006320004A JP4686724B2 JP 4686724 B2 JP4686724 B2 JP 4686724B2 JP 2006320004 A JP2006320004 A JP 2006320004A JP 2006320004 A JP2006320004 A JP 2006320004A JP 4686724 B2 JP4686724 B2 JP 4686724B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- junk
- database
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、学習型の決定木アルゴリズムを用いた、迷惑メールのフィルタ機能を有する電子メールシステム及びプログラムに関する。
インターネット上を流れる迷惑メールの割合は、全電子メール中の60%を越えると言われており、現在では、迷惑メール対策として、さまざまな自動分類方法が用いられている。開発初期のもっとも単純な方法に、メールヘッダに記述される特定の迷惑メール送信サーバやメールのFrom行記載のメールアドレスを、管理者やユーザがひとつひとつ登録し、合致するメールを排除する方法がある。しかし迷惑メール送信者は、このような対策をかいくぐる新しい方法で次々に迷惑メールを送信してくるため、手作業で分類やアドレスの登録などを行うには作業コストが大きすぎ、現実的ではなくなってきている。また、これまでの方法では、通常の電子メールを迷惑メールと間違えて判断するケースおよびその逆のケースも増えている。近年、メール本文などの単語の出現頻度による特徴を分類に役立てるベイズ理論を応用した方法が注目されているが、未だ利用者および管理者の作業コストは大きく、分類精度もそれほど高くない。
従来技術として、特許文献1乃至3が挙げられる。
特許文献1には、文字列の一部をわざと間違えたり文字間に無意味な記号を挿入した電子メールであっても、迷惑メール等の電子メールを効果的に分類できる電子メール処理装置が記載されている。電子メールに含まれる単語について単語情報データベース内の迷惑メール対象文字列と相同性検索をすることによって迷惑メールの判定を行っている。
特許文献2には、電子メールのヘッダ情報に含まれるメール中継装置によって、該当電子メールが迷惑メールか否かをベイズ確率モデルを用いて判定する電子メールフィルタリングシステムが記載されている。
特許文献3には、ユーザが通常メールと迷惑メールとを分類し、その分類された内容を分析してフィルタルールを追加する電子メールフィルタリングシステムが記載されている。
特許文献1乃至3のいずれにも、迷惑メールの判定に学習型の決定木アルゴリズムを用いることついて記載されていない。
特開2006−293573号公報
特開2006−260515号公報
特開2006−245813号公報
特許文献1には、文字列の一部をわざと間違えたり文字間に無意味な記号を挿入した電子メールであっても、迷惑メール等の電子メールを効果的に分類できる電子メール処理装置が記載されている。電子メールに含まれる単語について単語情報データベース内の迷惑メール対象文字列と相同性検索をすることによって迷惑メールの判定を行っている。
特許文献2には、電子メールのヘッダ情報に含まれるメール中継装置によって、該当電子メールが迷惑メールか否かをベイズ確率モデルを用いて判定する電子メールフィルタリングシステムが記載されている。
特許文献3には、ユーザが通常メールと迷惑メールとを分類し、その分類された内容を分析してフィルタルールを追加する電子メールフィルタリングシステムが記載されている。
特許文献1乃至3のいずれにも、迷惑メールの判定に学習型の決定木アルゴリズムを用いることついて記載されていない。
本発明は、学習型の決定木アルゴリズムを用いて、迷惑メールを正確に効率良くフィルタリングする電子メールシステムを提供することを目的とする。
前記目的を達成するため、本発明は以下の構成を有する。
外部からの電子メールを受信する電子メール受信部と、前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、を有する電子メールシステム及びプログラムであって、前記迷惑メール判定部は、決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、を有し、前記決定木学習部は、前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、を有し、前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理することを特徴とする電子メールシステム及びプログラム。
外部からの電子メールを受信する電子メール受信部と、前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、を有する電子メールシステム及びプログラムであって、前記迷惑メール判定部は、決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、を有し、前記決定木学習部は、前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、を有し、前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理することを特徴とする電子メールシステム及びプログラム。
また、以下の実施態様を有する。
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する。
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第2の符号に変換する機能を有する。
前記学習部に、BONSAIプログラムを用いる。
前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する。
前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第2の符号に変換する機能を有する。
前記学習部に、BONSAIプログラムを用いる。
学習型の決定木アルゴリズムを用いることで、従来のシステムに比べて、迷惑メールを正確に効率よくフィルタリングできる。また、決定木の学習及び適用の前に、電子メールを単語の出現頻度及び出現偏りに応じて符号化しておくことで、効果的に決定木の学習及び適用ができる。本発明のアルゴリズムは電子メールのヘッダ情報及び本文の両方に分け隔てなく適用でき、両方の情報を用いることでより簡単で正確に電子メールのフィルタリングが可能である。
決定木の学習には時間が掛かるが、予め生成された決定木に基づいて電子メールを分類するのは短時間でできる。本発明の決定木学習部と迷惑メール判定部とは独立して実行可能であるので、決定木を事前に学習しておいたり、決定木の学習を別サーバで実行することが可能である。迷惑メール判定部は、既に生成された決定木に基づいて電子メールを分類すればよいので、リアルタイムで電子メールのフィルタリングが可能である。
決定木の学習には時間が掛かるが、予め生成された決定木に基づいて電子メールを分類するのは短時間でできる。本発明の決定木学習部と迷惑メール判定部とは独立して実行可能であるので、決定木を事前に学習しておいたり、決定木の学習を別サーバで実行することが可能である。迷惑メール判定部は、既に生成された決定木に基づいて電子メールを分類すればよいので、リアルタイムで電子メールのフィルタリングが可能である。
図面を用いて本発明の実施形態について説明する。図1は、本電子メールシステムのブロック図である。電子メールシステム1は、インターネットから電子メールを受信する電子メール受信部2と、電子メール受信部2で受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部3と、迷惑メール判定部3の判定結果に応じて電子メールをフィルタリングする迷惑メールフィルタ部4と、迷惑メールフィルタ部4によってフィルタリングされた電子メールをローカルメールボックス又は外部に送信する電子メール送信部5とからなる。迷惑メールフィルタ部4は、迷惑メールの削除、迷惑メールにフラグを付与、迷惑メールを別フォルダに移動などの動作を行う。電子メール送信部5は、本電子メールシステムの使用形態に応じて、フィルタリングされた電子メールを同一サーバ内のローカルメールボックスに振り分けて送信しても良いし、外部のメールサーバに転送しても良い。この電子メールシステムは、インターネットに接続されたサーバ上で動作させても良いし、電子メールを受信する端末上で動作させても良い。
図2は、迷惑メール判定部3のブロック図である。迷惑メール判定部3は、決定木学習部6によって予め生成された単語出現頻度データベース33及び決定木34と、単語出現頻度データベース33により電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部31と、単語符号化部31により符号化された電子メール符号化データに決定木34を適用することにより迷惑メールか否かを判定する判定部32とからなる。単語出現頻度データベース33及び決定木34は決定木学習部6により予め生成しておき、必要に応じて転送しておくなどして迷惑メール判定部3で利用可能にしておく。迷惑メール判定部3と決定木学習部6とは同一サーバ上で実行させても良いし、それぞれ異なるサーバ上で実行させても良い。決定木学習部6で生成された単語出現頻度データベース33及び決定木34を、複数のサーバ上の迷惑メール判定部3で利用しても良い。
図3は、決定木学習部6のブロック図である。決定木学習部6は、迷惑メールを保存した迷惑メールデータベース61と、通常メールを保存した通常メールデータベース62と、迷惑メールデータベース61及び通常メールデータベース62内の電子メール中の単語の出願頻度を求めて単語出現頻度データベース33を生成する単語出現頻度データベース生成部63と、単語出現頻度データベース33により迷惑メールデータベース61及び前記通常メールデータベース62内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部64と、単語符号化部64により符号化された電子メール符号化データのパターンに基づいて迷惑メールと通常メールとを分類する最適な決定木34を生成する学習部65とからなる。迷惑メールデータベース61及び通常メールデータベース62には、予めユーザによって分類された迷惑メール及び通常メールが蓄積されている。単語出現頻度データベース生成部63は、単語の出現頻度及び出現偏り(単語が迷惑メールと通常メールのどちらに多く含まれるか)を求めて単語出現頻度データベース33を生成する。単語符号化部64は、単語出現頻度データベース33に含まれる単語の出現頻度及び偏りの情報から、各単語をA、B、Cなどの符号に変換する。迷惑メール判定部3内の単語符号化部31も、単語符号化部64と同様な動作を行う。学習部65は、後述のBONSAIプログラムを用いて決定木34の生成を行う。迷惑メール判定部3及び決定木学習部6は、電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する。
以下、BONSAIについて簡単に説明する(BONSAIの詳細については、Shimozono,S.、Shinohara、A.,Miyano,S.,Kuhara,S.,Arikawa,S.“Knowledge Acquisition from Amino Acid Sequence by Machine Learning System BONSAI”,Trans.Inform.Process.Soc.Japan,35(10):2009−2018,1994参照)。BONSAIは、確率的近似学習と呼ばれる学習パラダイムに基づいて開発された機会学習プログラムで、正の学習グループと負の学習グループを与えると決定木を作成する。決定木の作成については、J.R.Quinlanの決定木学習アルゴリズムID3の枝狩り規準を改良した“C4.5”というアルゴリズムに基づいている。さらに、BONSAIはindexingというグルーピングの機能を持っている。もともとBONSAIは生物ゲノム情報から重要な遺伝子配列などを抽出する目的で開発された機械学習システムであるが、本発明者の工夫によって迷惑メールの分類に利用可能であることが見出された。BONSAIは、正の例と負の例として二つのデータ集団を入力すると、正の例には存在するが負の例には存在しないパターンを見つけ出すことができるので、この機能を利用して迷惑メールの分類を行う。
図4は、本システムの決定木学習の流れ図である。図4に示すように正の学習グループとして迷惑メール群、負の学習グループとして通常メール群を作成し、迷惑メール群に存在する特徴的なパターンの抽出を試みる。まず、両群の電子メールの文字列を単語に分解し、両群に存在するすべての単語について正の学習グループでの出現頻度を算出し、出現頻度の高いものからA〜Eまでのグルーピングを行う。出現頻度を表すA〜Eの文字で電子メール内のすべての文字列を置換してから、機械学習システムBONSAIに投入する。BONSAI(東京大学医科学研究所ヒトゲノム解析センター宮野研究室開発)は、正の学習グループと負の学習グループとして二つのデータ集団を入力すると、正の学習グループには存在するが、負の学習グループには存在しないといったパターンを見つけ出し、二つの学習例を正しく分けることができる決定木(Decision Tree)を作成する。また同時に、正の学習グループと負の学習グループを最も効率よく分類できる条件で、それぞれのグループ例を構成する要素もグループ分けする機能を持っている(Indexing)。単語の出現頻度を反映させた学習グループ例をBONSAIに投入することで、単語の出現頻度とその語順を考慮したパターン抽出が可能になる。つまりBONSAIは、出現頻度を反映したA〜Eの文字で置換された電子メール内の文字列を、図4のようにindexingによってさらにグルーピングし、例えば0〜2のような文字で置き換えながら、電子メール内の文字列中に存在するパターンを抽出する。また同時に正および負の学習グループ例を最も正しく分ける規則を提示する。
図5は、決定木の例である。例えば図4のケースでは、電子メールを単語分解及び2段階グルーピング(単語出現頻度、Indexing)して0〜2の符号に変換されたデータが、パターン「20」を含んでいたら「迷惑メール」(正の学習グループ)と判定する。パターン「20」を含んでいない場合は、さらにパターン「021」の検索を行い、パターン「021」を含んでいたら「迷惑メール」、含んでいなければ「通常メール」(負の学習グループ)と判定する。図4及び5は説明のための簡単な事例であるが、実際に利用する場合はパターン長はもっと長く、枝分岐ももっと複雑である。決定木学習及び決定木の適用には単語を符号化したものを利用するので、単語分解できるデータであれば何でも利用可能であり、電子メールのヘッダ部分及び本文について同じアルゴリズムを適用できる。
以下、実施例について説明する。
決定木の学習手順は、以下の通りである。
1.サンプル電子メール(迷惑メール[正の例]:500通、通常メール[負の例]:500通)の準備。
2.サンプル電子メール(ヘッダ及び本文)を単語に分解。
3.単語の出現率と出現偏りの計算
・出現率=log(出現数の総和)
(出現率が小さいものは除外)
・出現偏り=正の例での出現数/正の例及び負の例での出現数の総和
4.出現頻度に応じた符号化。
X: 0.8<(出現偏り)
Y: 0.6≦(出現偏り)≦0.8
Z: (出現偏り)<0.6
O: その他[出現数少]
5.BONSAIにより最適な決定木の生成。
図6に、BONSAIにより生成された決定木の例を示す。この例では、BONSAIのグルーピング機能(indexing)により、X→0、Y→0、Z→1、O→1のさらなる符号化が行われている。
決定木の学習手順は、以下の通りである。
1.サンプル電子メール(迷惑メール[正の例]:500通、通常メール[負の例]:500通)の準備。
2.サンプル電子メール(ヘッダ及び本文)を単語に分解。
3.単語の出現率と出現偏りの計算
・出現率=log(出現数の総和)
(出現率が小さいものは除外)
・出現偏り=正の例での出現数/正の例及び負の例での出現数の総和
4.出現頻度に応じた符号化。
X: 0.8<(出現偏り)
Y: 0.6≦(出現偏り)≦0.8
Z: (出現偏り)<0.6
O: その他[出現数少]
5.BONSAIにより最適な決定木の生成。
図6に、BONSAIにより生成された決定木の例を示す。この例では、BONSAIのグルーピング機能(indexing)により、X→0、Y→0、Z→1、O→1のさらなる符号化が行われている。
生成された決定木に基づいて、712通の一般の受信メールを振り分けてみた結果は以下の通りである。
通常メール分類の正解率:94.4%(238/252通)
迷惑メール分類の正解率:97.8%(450/460通)
この結果から、高い正解率で迷惑メールと通常メールの振り分けが可能であることがわかる。
通常メール分類の正解率:94.4%(238/252通)
迷惑メール分類の正解率:97.8%(450/460通)
この結果から、高い正解率で迷惑メールと通常メールの振り分けが可能であることがわかる。
別の実施例について説明する。前述の実施例では、単語出現頻度による符号化の符号数は4個(X,Y,Z,O)、BONSAIのグルーピング機能(indexing)による符号化の符号数は2個(0,1)であったが、単語出現頻度による符号化の符号数を6個(X,Y,Z,O,A,B)、BONSAIのグルーピング機能(indexing)による符号化の符号数を3個(0,1,2)にした場合の決定木の例を図7に示す。
この決定木に基づいて、806通の一般の受信メールを振り分けてみた結果は以下の通りである。
通常メール分類の正解率:96.1%(273/284通)
迷惑メール分類の正解率:98.6%(515/522通)
前述の実施例よりもさらに高い正解率であることがわかる。
「単語出現頻度による符号化の符号数」及び「BONSAIのグルーピング機能(indexing)による符号化の符号数」はこの他の組み合わせも可能であり、演算速度、サンプル電子メール数、学習に掛けられる時間等に応じて任意に設定できる。
この決定木に基づいて、806通の一般の受信メールを振り分けてみた結果は以下の通りである。
通常メール分類の正解率:96.1%(273/284通)
迷惑メール分類の正解率:98.6%(515/522通)
前述の実施例よりもさらに高い正解率であることがわかる。
「単語出現頻度による符号化の符号数」及び「BONSAIのグルーピング機能(indexing)による符号化の符号数」はこの他の組み合わせも可能であり、演算速度、サンプル電子メール数、学習に掛けられる時間等に応じて任意に設定できる。
以上、本発明の実施形態の一例を説明したが、本発明はこれに限定されるものではなく、特許請求の範囲に記載された技術的思想の範疇において各種の変更が可能であることは言うまでもない。
1:電子メールシステム、 2:電子メール受信部、 3:迷惑メール判定部、 4:迷惑メールフィルタ部、 5:電子メール送信部、 6:決定木学習部、
31:単語符号化部、 32:判定部、 33:単語出現頻度データベース、 34:決定木、
61:迷惑メールデータベース、 62:通常メールデータベース、 63:単語出現頻度データベース生成部、 64:単語符号化部、65:学習部(BONSAI)
31:単語符号化部、 32:判定部、 33:単語出現頻度データベース、 34:決定木、
61:迷惑メールデータベース、 62:通常メールデータベース、 63:単語出現頻度データベース生成部、 64:単語符号化部、65:学習部(BONSAI)
Claims (8)
- 外部からの電子メールを受信する電子メール受信部と、
前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、
前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、
前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、
を有する電子メールシステムであって、
前記迷惑メール判定部は、
決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、
を有し、
前記決定木学習部は、
前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、
迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、
前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、
前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、
を有し、
前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する
ことを特徴とする電子メールシステム。 - 前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、
前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する
ことを特徴とする請求項1記載の電子メールシステム。 - 前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第2の符号に変換する機能を有することを特徴とする請求項1又は2記載の電子メールシステム。
- 前記学習部に、BONSAIプログラムを用いることを特徴とする請求項3記載の電子メールシステム。
- 外部からの電子メールを受信する電子メール受信部と、
前記電子メール受信部によって受信された電子メールが迷惑メールか否かを判定する迷惑メール判定部と、
前記迷惑メール判定部の判定結果に応じて前記電子メールをフィルタリングする迷惑メールフィルタ部と、
前記迷惑メールフィルタ部によってフィルタリングされた前記電子メールをローカルメールボックス又は外部に送信する電子メール送信部と、
を有する電子メールプログラムであって、
前記迷惑メール判定部は、
決定木学習部によって予め生成された単語出現頻度データベースにより、前記電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データに、決定木学習部によって予め生成された決定木を適用することにより迷惑メールか否かを判定する判定部と、
を有し、
前記決定木学習部は、
前記迷惑メール判定部と同一サーバ内又は異なるサーバ内にあり、
迷惑メールを保存した迷惑メールデータベースと、通常メールを保存した通常メールデータベースと、
前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の単語の出願頻度を求めて前記単語出現頻度データベースを生成する単語出現頻度データベース生成部と、
前記単語出現頻度データベースにより、前記迷惑メールデータベース及び前記通常メールデータベース内の電子メール中の全ての単語を出現頻度に応じた符号に変換する単語符号化部と、
前記単語符号化部により符号化された電子メール符号化データのパターンに基づいて、迷惑メールと通常メールとを振り分ける最適な決定木を生成する学習部と、
を有し、
前記迷惑メール判定部及び前記決定木学習部における電子メールはヘッダ部分及び本文の両方を含むものであり、前記迷惑メール判定部及び前記決定木学習部は、前記電子メールにおけるヘッダ部分及び本文を分けずに同一アルゴリズムにより処理する
ことを特徴とする電子メールプログラム。 - 前記単語出現頻度データベース生成部は、単語の出現頻度とともに、前記単語が迷惑メールと通常メールのどちらに多く含まれるかを示す出現偏りも求めて前記単語出現頻度データベースを生成し、
前記単語符号化部は、前記電子メール中の全ての単語を前記出現頻度及び前記出現偏りに応じた符号に変換する
ことを特徴とする請求項5記載の電子メールプログラム。 - 前記学習部は、前記電子メール符号化データ内の符号を、最適な決定木を求められるグループに分け、前記グループ分けの結果により前記符号をさらに第2の符号に変換する機能を有することを特徴とする請求項5又は6記載の電子メールプログラム。
- 前記学習部に、BONSAIプログラムを用いることを特徴とする請求項7記載の電子メールプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006320004A JP4686724B2 (ja) | 2006-11-28 | 2006-11-28 | 迷惑メールのフィルタ機能を有する電子メールシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006320004A JP4686724B2 (ja) | 2006-11-28 | 2006-11-28 | 迷惑メールのフィルタ機能を有する電子メールシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008135926A JP2008135926A (ja) | 2008-06-12 |
JP4686724B2 true JP4686724B2 (ja) | 2011-05-25 |
Family
ID=39560467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006320004A Active JP4686724B2 (ja) | 2006-11-28 | 2006-11-28 | 迷惑メールのフィルタ機能を有する電子メールシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4686724B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001849A (zh) * | 2011-09-08 | 2013-03-27 | 中国电信股份有限公司 | 反垃圾邮件处理系统及方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5366504B2 (ja) * | 2008-11-05 | 2013-12-11 | Kddi株式会社 | メール受信サーバ、スパムメールの受信拒否方法およびプログラム |
KR101508258B1 (ko) * | 2013-07-09 | 2015-04-08 | 성균관대학교산학협력단 | 팩스 스팸 차단 장치, 방법 및 시스템 |
JP6597250B2 (ja) * | 2015-12-04 | 2019-10-30 | 富士通株式会社 | 学習プログラム、学習方法及び学習装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348523A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書フィルタリングシステムとプログラム |
JP2006245813A (ja) * | 2005-03-01 | 2006-09-14 | Nec Corp | フィルタリングシステム、フィルタ作成エンジン、フィルタリング方法およびプログラム |
JP2006260515A (ja) * | 2005-02-16 | 2006-09-28 | Toyohashi Univ Of Technology | 電子メールフィルタリングプログラム、電子メールフィルタリング方法、電子メールフィルタリングシステム |
JP2006293573A (ja) * | 2005-04-08 | 2006-10-26 | Yaskawa Information Systems Co Ltd | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム |
-
2006
- 2006-11-28 JP JP2006320004A patent/JP4686724B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348523A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書フィルタリングシステムとプログラム |
JP2006260515A (ja) * | 2005-02-16 | 2006-09-28 | Toyohashi Univ Of Technology | 電子メールフィルタリングプログラム、電子メールフィルタリング方法、電子メールフィルタリングシステム |
JP2006245813A (ja) * | 2005-03-01 | 2006-09-14 | Nec Corp | フィルタリングシステム、フィルタ作成エンジン、フィルタリング方法およびプログラム |
JP2006293573A (ja) * | 2005-04-08 | 2006-10-26 | Yaskawa Information Systems Co Ltd | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001849A (zh) * | 2011-09-08 | 2013-03-27 | 中国电信股份有限公司 | 反垃圾邮件处理系统及方法 |
CN103001849B (zh) * | 2011-09-08 | 2015-11-25 | 中国电信股份有限公司 | 反垃圾邮件处理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2008135926A (ja) | 2008-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7930351B2 (en) | Identifying undesired email messages having attachments | |
US8010614B1 (en) | Systems and methods for generating signatures for electronic communication classification | |
US7949718B2 (en) | Phonetic filtering of undesired email messages | |
US8112484B1 (en) | Apparatus and method for auxiliary classification for generating features for a spam filtering model | |
CN103136266A (zh) | 邮件分类的方法及装置 | |
JP2008538023A (ja) | 電子メールを処理する方法およびシステム | |
CN101540017B (zh) | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 | |
GB2496120A (en) | Analysis of emails using a hidden Markov model to recognize sections of the email, e.g. header, body, signature block and disclaimer | |
TW200949570A (en) | Method for filtering e-mail and mail filtering system thereof | |
Trivedi et al. | Effect of feature selection methods on machine learning classifiers for detecting email spams | |
Zhang et al. | Filtering junk mail with a maximum entropy model | |
JP4686724B2 (ja) | 迷惑メールのフィルタ機能を有する電子メールシステム | |
Mohammed et al. | Classifying unsolicited bulk email (UBE) using python machine learning techniques | |
Woitaszek et al. | Identifying junk electronic mail in Microsoft outlook with a support vector machine | |
JP2006293573A (ja) | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム | |
Moutafis et al. | Spam email detection using machine learning techniques | |
US10163005B2 (en) | Document structure analysis device with image processing | |
Reddy et al. | Classification of Spam Messages using Random Forest Algorithm | |
JP2009104400A (ja) | 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム | |
CN101329668A (zh) | 一种信息规则生成方法及装置、信息类型判断方法及系统 | |
CN106230690B (zh) | 一种结合用户属性的邮件分类方法及系统 | |
Gupta et al. | Spam filter using Naïve Bayesian technique | |
CN108694202A (zh) | 基于分类算法的可配置垃圾邮件过滤系统及过滤方法 | |
Manek et al. | ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails | |
Murugavel et al. | K-Nearest neighbor classification of E-Mail messages for spam detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |