JP2008203935A - 迷惑メール判別方法 - Google Patents

迷惑メール判別方法 Download PDF

Info

Publication number
JP2008203935A
JP2008203935A JP2007036126A JP2007036126A JP2008203935A JP 2008203935 A JP2008203935 A JP 2008203935A JP 2007036126 A JP2007036126 A JP 2007036126A JP 2007036126 A JP2007036126 A JP 2007036126A JP 2008203935 A JP2008203935 A JP 2008203935A
Authority
JP
Japan
Prior art keywords
mail
mail address
address
spam
eigenvector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007036126A
Other languages
English (en)
Inventor
Yoshiaki Shiraishi
善明 白石
Takashi Suzuki
貴史 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya Institute of Technology NUC
Original Assignee
Nagoya Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya Institute of Technology NUC filed Critical Nagoya Institute of Technology NUC
Priority to JP2007036126A priority Critical patent/JP2008203935A/ja
Publication of JP2008203935A publication Critical patent/JP2008203935A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】迷惑メール判別について従来よりも良い精度を出す方法を提供する。
【解決手段】送信元メールアドレスから送信先メールアドレスに送信されたとき、全てのメールアドレスについて推移の様子を調べ、推移確率行列で表し、その推移確率行列の固有ベクトルを求めることにより、それぞれのメールアドレスに対応する固有ベクトルの成分を求める。そして、その固有ベクトルの成分の大きさとベイジアンフィルタを組み合わせて迷惑メール判別をする。
【選択図】図4

Description

本発明は迷惑メール判別方法に関する。
従来技術として2つのものが存在している。1つは、社会ネットワーク分析を利用した密集度合によるフィルタリングである。もう1つはベイジアンフィルタを用いたメールの内容を元に判定する方法である。
社会ネットワーク分析を利用した密集度合によるフィルタリングではメールのヘッダの情報を元にメールアドレスとメールアドレスとの繋がりを見出すことが出来るに着目している。利用者にメールを送ってきた人同士が知り合いかどうかも分かる。また迷惑メールは一方的に利用者に対して送られてくるものであるから、繋がりが普通は出来ない。社会的な繋がりについて密集度合を求めることにより迷惑メールかどうかを判断する。
ベイジアンフィルタによるフィルタリングは正当なメールと迷惑メールを単語に分解し,単語について統計を取ると、ある単語について,正当なメールに出現する確率と迷惑メールに出現する確率を求める。迷惑メールにある単語が出現する確率を用いて受信したメールが迷惑メールである確率を計算する。その確率が閾値を越えたものを迷惑メールと判断する。ある単語が出現する確率は学習データとして保存し、後のフィルタリング時に使用する。
ベイジアンフィルタは、フィルタリングに用いる単語の出現する確率を新たに受信したメールを元に再計算することが出来るという特徴がある。そのことにより、後に受信するメールのフィルタリングの精度が向上する。迷惑メールの内容は日々変化するので再計算を行うことが出来るということは、新たな傾向の内容を持った迷惑メールに対処することが出来ることを示している。
ベイジアンフィルタを用いる方法は効果的で、迷惑メールのフィルタリングによく用いられる。適切に調整をすると、メールの9割程度に対して正しくフィルタリングを行うことが出来る。
P. Oscar Boykin, Vwani P. Roychowdhury, "Leveraging Social Networks to Fight Spam," IEEE Computer Society, April 2005. Paul Graham,"A Plan for Spam,"August 2002.http://www.paulgraham.com/spam.html 大原泰樹, 松浦幹太, "ベイジアンフィルタと社会ネットワーク手法を統合した迷惑メールフィルタリングとその統合," 情報処理学会論文誌 Vol.47 No.8 pp.2548-2555 Aug. 2006.
しかし、上記従来のフィルタリング方法であるメールが正当なメールか迷惑メールであるかを確実に判断することが出来るわけではない。そのため正当なメールを迷惑メールと見なす誤遮断や、迷惑メールを正当なメールと見なしたりしてしまう誤通過を起こすという問題点を有していた。
社会ネットワーク分析を利用した密集度合によるフィルタリングは信頼できるアドレスを信頼できるものとして認識するのに十個ほどのメールアドレスとやり取りしなければならないという問題点がある.
社会ネットワーク分析を利用した密集度合によるフィルタリングは複数の知り合いのメールアドレスに対して同時に迷惑メールが送信された場合、迷惑メールを送るのに用いられたメールアドレスを正当なメールアドレスと見なしてしまうという問題点がある.
ベイジアンフィルタはメールを単語に分解し、特徴的な単語の出現頻度によって迷惑メールである可能か判断する。この方法ではヘッダ中の送信元や送信先のメールアドレスの情報を有効に活用していないため、メールの内容によっては信頼できるメールアドレスから送信されてきたものであっても、迷惑メールとして処理してしまうという問題点がある。
メーリングリストやメールマガジンは例外処理を施し、それらに関連するメールを正当なものとみなすことが可能であるが、社会ネットワーク分析を利用した密集度合によるフィルタリングやベイジアンフィルタは例外処理を行う機能を持っていないという問題点がある.
ベイジアンフィルタは任意のメールの迷惑メールである確率を求め、その確率が閾値より大きいものを迷惑メール、小さいものを正当なメールと判断する。したがって閾値によっては誤通過をしたり、誤遮断をしたりする。閾値を高くすることによって誤遮断のほとんどを防ぐことができるが、誤通過がある程度発生してしまうという問題点がある。非特許文献3は非特許文献1と非特許文献2を組み合わせて判断の精度を上げようとしたが、誤遮断や誤通過の問題を有していた。
既存の手法は複数のフィルタリング方法を積極的に併用していなかった。このためそれぞれの短所が結果に反映されてしまうという問題点がある。
本発明は、上記従来の技術よりもメールの判断の精度を向上させ、特に誤遮断を避けることを解決すべき課題としている。
社会ネットワーク分析を利用した密集度合によるフィルタリングは、メールアドレスとメールアドレスとの繋がりがある一定程度の大きさ以上にならなければ、その繋がりを認識しないように制御を行う。第1発明では分析方法を改良し、信頼できるメールアドレスとやり取りしているメールアドレスのみ信用する制御を行うことで、やり取りが数通行われるだけでメールアドレスを信用するかどうか決定できるようにする。
社会ネットワーク分析を利用した密集度合によるフィルタリングは「誰と誰が繋がっているか」という点に注目していたが、第1発明では「誰がどれだけのアドレスから受信したか」という点に着目し、一方的にメールを送り、誰からも受信していないアドレスは迷惑メールに関係するである可能性があるものとして扱うことにする。
第2発明はベイジアンフィルタが有効に活用することのできないヘッダの情報を活用することによって、正当なアドレスから送られてきたメールを迷惑なメールと判断し、誤って迷惑メールと同じ処理をしてしまうことを防止する。メールのヘッダの情報のみを使ってフィルタリングを行うので、ベイジアンフィルタのようにメールの内容によって判断が揺らぐことはない。
第1発明と第二発明の他に特定の条件を満たすメールに対して例外処理を行う。信頼することができるメーリングリストに関係したメールやメールマガジンはフィルタにかけるまでもなく、正当なものとして処理することができる。さらにメーリングリストに投稿したアドレスをホワイトリストに登録することによって、一方的にメールを送っていたとしてもメールのヘッダに記されているアドレスは正当なものとしてその後は判断する。
以下、第1、2発明を具体化した実施例1、2について図面を参照しつつ説明する。
第1発明の固有ベクトルを求めるために、電子メールからアドレスの送受信関係を抽出し、送受信関係を補正する。図1に示すように、電子メールの送受信情報101、102、103と、送受信に使われるアドレスとして5つのメールアドレスアドレス111、112、113、114、115があったとする。図1の送受信情報から図2の送受信関係を得る。図2の送受信関係を強連結(あるアドレスから任意のアドレスへの経路が必ず存在すること)にするために補正をする。また、迷惑メールを送るメールアドレス132を用意し、メールアドレス132からメールアドレス114にメールを送ったことにする。まず、メールアドレス131はメールアドレス112やメールアドレス113のような他のメールアドレスに送信していないメールアドレスからメールを受信したことにする。次に、メールアドレス133はメールアドレス115やメールアドレス132のような他のメールアドレスから受信していないメールアドレスにメールを送信したことにする。最後に、メールアドレス131はメールアドレス114にメールを送信したことにし、メールアドレス133はメールアドレス114からメールを受信したことにすると、送受信関係が図3のようになり、強連結となる。
送受信関係が強連結になった状態を行列Aで表す。行列Aのi行j列の成分について、それぞれ1と0で表され、次のような意味を持っている。


行列Aのそれぞれの行について、1行目をメールアドレス133、2行目をメールアドレス131、3行目をメールアドレス132、4行目をメールアドレス114、5行目をメールアドレス111、6行目をメールアドレス112、7行目をメールアドレス113、8行目をメールアドレス115とする。

行列Aの推移確率行列を求めるために各列の総和が1になるように正規化する。具体的には、各成分をその成分が属する列の成分の合計値で割る。正規化後の行列をMとすると,行列Mは次のようになる。


推移確率行列Mの固有ベクトルを求める。ペロン・フロベニウスの定理より推移確率行列の固有ベクトルの最大値は1であることを考慮し、次の式を解く。

ここで、推移確率行列Mの拡大係数行列を簡約化するために、行基本変形を施す。簡約化された後の行列の一番右の列が固有ベクトルとなる。
求められた固有ベクトルを扱いやすい値にするために、列の総和でそれぞれの成分を割り、大きいものから順に並べ替えると以下のようになる。


多数の送受信関係について固有ベクトルを求めると、大きく5つに分類することが確認できる。図4に固有ベクトルの成分の大きさとその順位の関係を示す。固有ベクトルが大きさものから順に140、141、142、143、144と分類する。140は送受信関係が多く成立する利用者のメールアドレスが該当する。141は利用者や利用者以外のメールアドレスと送受信関係を持つメールアドレスが該当する。142と143は145のように一定の値となる。これらはメールを送信するのみで、受信を全くしていないアドレスが該当する。144は受信のみしかしていないメールアドレスが該当する。
第1発明について、あるメールが迷惑メールであるかどうか判断する方法を説明する。メールの送信者のメールアドレスの固有ベクトルが、どの分類に属するかを調べる。140か141か144に分類された場合は正当なメールと判断し、それ以外は迷惑メールの疑いがあるものと判断し、判定不能とする。
図1の送受信関係から固有ベクトルを計算した後に、それぞれのアドレスからメールを受信したとすると、次のように判断される。送信者がメールアドレス111の場合、141に分類されるので正当なメールと判断する。送信者がメールアドレス112の場合、141に分類されるので正当なメールと判断する。送信者がメールアドレス113の場合、144に分類されるので正当なメールと判断する。送信者がメールアドレス114の場合、140に分類されるので正当なメールと判断する。送信者がメールアドレス115の場合、142に分類されるので判定不能と判断する。
固有ベクトルの計算はメールを受信するたびや一定期間ごとなどに適宜行う。固有ベクトルを計算した後にその大きさによって信頼できるアドレスのリストを図4のように作成する。判断の分岐150ではメールアドレスの固有ベクトルが140、141、144に分類されるものを信頼できるアドレスの一覧に加える。一覧を作成した後に迷惑メールであるか判断する際は固有ベクトルを元に判断しなくても、図6の判断の分岐160で信頼できるアドレスの一覧で送信者のメールアドレスの有無を調べることによって、迷惑メールであるか判断することもできる。
第1発明の方法は、あるメールについて正当であるか判定不能かの判断をする。迷惑メールであるという判断をする機能がないため、正当なメールを迷惑メールとして判断する誤遮断は起こり得ない。
第2発明で使用するベイジアンフィルタについて説明する。ベイジアンフィルタはメールを単語に分割し、特徴的な単語の出現頻度によってメールが迷惑メールである確率を求める。迷惑メールである確率が一定の値以上のときにそのメールが迷惑メールであると判断する。
ベイジアンフィルタと第1発明の統合によって迷惑メールであるか判断する方法について説明する。図7において分岐160に示すようにベイジアンフィルタと第1発明の統合の前に例外処理を施すことにより、迷惑メールであるかどうかの判断の精度をよくすることもできる。これはメーリングリストやメールマガジンに関連するものは142に分類されてしまう可能性が高く、判定不能にされてしまうことになるため、その前に正当なメールと判断する方がよいだろうと考えられるためである。次に、分岐161で第1発明の固有ベクトルによる判断を行う。最後に第1発明で判定不能とされたものについて、分岐162でベイジアンフィルタによって迷惑メールであるかどうかの判断をする。
ベイジアンフィルタを分岐162以外に使用する方法について2つ説明する。第1発明における固有ベクトルの計算は、メールアドレスの数が増えれば増えるほど時間がかかる。そこであるメールについてベイジアンフィルタで迷惑メールであると判断されたとする。そのメールに新規のメールアドレスが使われている場合には、そのメールアドレスを送受信関係に加えないことによって計算時間を短縮することができる。もう1つは、ベイジアンフィルタが迷惑メールである確率を求めることを利用し、2回連続で迷惑メールである確率が閾値を超える送信者のメールについて、迷惑メールであると判断することができる。
事前に用意した正当なメール1136通と迷惑メール999通に対して迷惑メールであるか判断する実験を行い、ベイジアンフィルタのみを用いる場合と実施例2を用いる場合について比較した。その結果、ベイジアンフィルタの成功数は2039通で実施例2では2102通であった。63通について実施例2のみ正確に判断できていた。正当なメールを迷惑メールと判断することについて、ベイジアンフィルタでは4通存在したが、実施例2では0通であった。迷惑メールを正当なメールと判断することについて、ベイジアンフィルタでは135通存在したが、実施例2では50通であった。ベイジアンフィルタのみを用いるよりも、ベイジアンフィルタと実施例1を併用した方が正確に判断することができることを示した。
以上において、本発明を実施例1、2に即して説明したが、本発明は上記実施例1、2に制限されるものではなく、その趣旨を逸脱しない範囲で適宜変更して適用できることはいうまでもない。
本発明の迷惑メールの判別に利用可能である。
従来の手法はあるメールに対して迷惑メールかどうかを判断するためだけに存在した。発明でしようした固有ベクトルは各メールアドレスの他との繋がりの多さに依存するので、受信したメールに含まれるメールアドレスの固有ベクトルが一定以上のときのみ受信通知を表示すれば重要なメールアドレスからのメールはすぐ読み、その他のメールアドレスからのメールは後で読むという活用が出来る点で優れている。
実施例1で使用する電子メール3通である 実施例1で使用する送受信の関係である。 実施例1で使用する補正後の送受信の関係である。 実施例1で使用する固有ベクトルの分布である。 信頼できるメールアドレスの一覧の作成の例である。 迷惑メールであるか判断する方法の例である。 実施例2における迷惑メールの判断方法である。
符号の説明
100…電子メールの送受信情報
101…電子メールの送受信情報
102…電子メールの送受信情報
111…メールアドレス
112…メールアドレス
113…メールアドレス
114…メールアドレス
115…メールアドレス
131…仮のメールアドレス
132…仮のメールアドレス
133…仮のメールアドレス
140…固有ベクトルの成分の大きさの分類
141…固有ベクトルの成分の大きさの分類
142…固有ベクトルの成分の大きさの分類
143…固有ベクトルの成分の大きさの分類
144…固有ベクトルの成分の大きさの分類
145…固有ベクトルの成分の大きさの分類
150…固有ベクトルによって信頼できるアドレスか判断する分岐
160…送信者のアドレスによって迷惑メールであるか判断する分岐
200…例外処理による判断の分岐
201…固有ベクトルによる判断の分岐
202…ベイジアンフィルタによる判断の分岐

Claims (2)

  1. インターネットを利用したメールを受信する装置において迷惑メールであるか否かを判定する方法において、
    複数のメールのヘッダから送信元メールアドレスと送信先メールアドレスの情報を抽出し、任意のメールアドレス1が他のメールアドレス2からメールを受信した場合、他のメールアドレス2からあるメールアドレス1に情報の連結(推移)が行われたとらえ、全てのメールアドレスについて推移の様子を調べ、推移確率行列で表し、
    推移確率行列の固有ベクトルを求めることにより、それぞれのメールアドレスに対応する固有ベクトルの成分を求め、固有ベクトルの成分の大きさによって迷惑メールであるか否か判断する方法。
  2. インターネットを利用したメールを受信する装置において迷惑メールであるか否かを判定する方法において、ベイジアンフィルタと他のフィルタリング方法を併用する方法において、
    メールに含まれる特徴的な単語の出現頻度を元に判定するベイジアンフィルタと、メールの送受信に使われるメールアドレスを元に判定する第1発明を併用することによって、誤判定を抑制する方法。
JP2007036126A 2007-02-16 2007-02-16 迷惑メール判別方法 Pending JP2008203935A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007036126A JP2008203935A (ja) 2007-02-16 2007-02-16 迷惑メール判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007036126A JP2008203935A (ja) 2007-02-16 2007-02-16 迷惑メール判別方法

Publications (1)

Publication Number Publication Date
JP2008203935A true JP2008203935A (ja) 2008-09-04

Family

ID=39781418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007036126A Pending JP2008203935A (ja) 2007-02-16 2007-02-16 迷惑メール判別方法

Country Status (1)

Country Link
JP (1) JP2008203935A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Similar Documents

Publication Publication Date Title
US8874663B2 (en) Comparing similarity between documents for filtering unwanted documents
JP4335582B2 (ja) 迷惑電子メールを検出するシステムおよび方法
US20050102366A1 (en) E-mail filter employing adaptive ruleset
US8959159B2 (en) Personalized email interactions applied to global filtering
US20110173142A1 (en) Apparatus and methods for classifying senders of unsolicited bulk emails
US9148432B2 (en) Range weighted internet protocol address blacklist
US8205264B1 (en) Method and system for automated evaluation of spam filters
EP2665230B1 (en) Method and system for email spam detection, using aggregated historical data set
US20210352093A1 (en) Responsive privacy-preserving system for detecting email threats
JP2010539556A (ja) 悪質な電子メールの分類方法及びウイルス感染可否判定方法
US20240144190A1 (en) Business email compromise detection system
US20050198181A1 (en) Method and apparatus to use a statistical model to classify electronic communications
JP6039378B2 (ja) 不正メール判定装置、不正メール判定方法、及びプログラム
JP4963099B2 (ja) 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
JP4670049B2 (ja) 電子メールフィルタリングプログラム、電子メールフィルタリング方法、電子メールフィルタリングシステム
Mageshkumar et al. Efficient spam filtering through intelligent text modification detection using machine learning
Alkahtani et al. A taxonomy of email SPAM filters
Ouyang et al. Can network characteristics detect spam effectively in a stand-alone enterprise?
TW201123782A (en) Computer-readable storage medium and computer-implemented method
JP2008203935A (ja) 迷惑メール判別方法
JP6316380B2 (ja) 不正メール判定装置、不正メール判定方法、及びプログラム
US7831677B1 (en) Bulk electronic message detection by header similarity analysis
Basha et al. Email Spam Detection Using Machine Learning Algorithms
US20230198926A1 (en) System and method for restricting the reception of e-mails from a sender of bulk spam mail
JP2011138334A (ja) 不適正メール遮断機能を有する電子メールシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120508