JP5036742B2 - 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム - Google Patents

電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム Download PDF

Info

Publication number
JP5036742B2
JP5036742B2 JP2009035469A JP2009035469A JP5036742B2 JP 5036742 B2 JP5036742 B2 JP 5036742B2 JP 2009035469 A JP2009035469 A JP 2009035469A JP 2009035469 A JP2009035469 A JP 2009035469A JP 5036742 B2 JP5036742 B2 JP 5036742B2
Authority
JP
Japan
Prior art keywords
host
mail
mail transmission
address
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009035469A
Other languages
English (en)
Other versions
JP2010191693A (ja
Inventor
達哉 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009035469A priority Critical patent/JP5036742B2/ja
Publication of JP2010191693A publication Critical patent/JP2010191693A/ja
Application granted granted Critical
Publication of JP5036742B2 publication Critical patent/JP5036742B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、電子メール送信ホストの分類技術に係り、特に、様々なクラスの電子メール送信ホストに対して複数の有効な特徴を学習し、新たに観測した電子メール送信ホストを、その特徴に基づきスパマーホスト、ボットネット(botnet)、踏み台ホスト、通常ホストのような複数のクラスのいずれかに統計的に推定して分類する技術に関する。
電子メールの利用普及に伴って、未承諾広告等のユーザが望まない電子メール(スパムメール)の配送が急増してきた。単位時間あたりに処理すべき電子メールの通数の増加により、電子メール受信サーバ・システムにかかる負荷の増加、および通常の電子メールへの影響が大きな問題となっている。
メッセージの中身の分析結果に基づき、電子メールを不要なメールと必要なメール(通常のメール)に分類する技術は広く実用に供しているが、メッセージの分析にあたってはまずすべてのメールを受信する必要があるため、処理負荷増大の問題を解決するものではない。
この問題を解決するために、電子メールのメッセージを受信する前に疑わしい通信を遮断する技術(受信前制御技術)が様々提案されている。
非特許文献1等に記載のDNSBL(DNS Black List)と呼ばれる技術は、大量のスパムメールを送信したホスト、電子メール受信者によって悪質であるとレポートされたホストのIPアドレスのリストを、DNS(Domain Name System)を通じて公開する技術である。電子メール受信サーバは電子メール送信ホストのIPアドレスがDNSBLに登録されているか否かを調べ、もし登録していれば当該通信を遮断することが可能である。
DNSBLは世界中の広範囲にわたるアドレスを管理することが可能であるが、IPアドレスの割り当ては日々変わるため、常にリストを更新し続ける必要があること、およびリストに無いアドレスには何の情報をも持たないため、柔軟性にかけるという問題がある。
また、通常のホストが何らかの原因によりスパムを送信する踏み台と使われてしまう場合があるが、そのようなときにその通常ホストがDNSBLに登録されてしまい、当該ホストを利用している通常のユーザの電子メールが配送されなくなるという問題がある。
非特許文献2に記載のGreylistingと呼ばれる技術では、初見の送信元ホストに対して一時拒否(temporarily reject)を返すことにより、正しくメールを再送信しないホストからの通信を遮断する。この技術のアイディアはスパム送信に利用されるホストは通常のSMTP(Simple Mail Transfer Protocol)にのっとった通信を行わないことを利用したものである。
しかしながら、通常のホストであっても再送を行うタイミングによってはgreylisting によって弾かれてしまう問題や、メールの再送信時にホストを変更する場合などに通常の通信まで遮断してしまうという問題があった。
この他、非特許文献3に記載されている電子メール送信ホストのDNS逆引きホスト名を利用した方法や非特許文献4に記載されているSMTPトランザクションにおけるコマンドの特徴を利用したスパムホスト検出方法などが提案されているが、いずれの方法も特定の特徴を利用したものであるため万能な方法ではなく、精度を上げることができないという問題があった。
A Ramachandran, D Dagon, N Feamster, "Can DNS-based blacklists keep up with bots?," Proceedings of CEAS 2006 John R. Levine, "Experiences with Greylisting", Proceedings of CEAS 2005 浅見秀雄, 阻止率99%のスパム対策方式の研究報告−− Selective SMTP Rejection (S25R)方式 −−http://www.gabacho-net.jp/anti-spam/ Richard Clayton, "Stopping Spam by Extrusion Detection", Proceedings of CEAS 2004
本発明は上記の課題を鑑みてなされたものであり、より柔軟で精度の高いスパム電子メール送信ホストの制御を実現するために、様々なクラスの電子メール送信ホストに対して複数の有効な特徴を学習し、新たに観測した電子メール送信ホストの特徴に基づき当該電子メール送信ホストのクラスを統計的に分類することが可能な電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラムを提供することを目的とする。
本発明の第一の電子メール送信ホスト分類システムにおいては、電子メールを受信する電子メール受信サーバあるいは該電子メール受信サーバの手前で動作するサーバ(これらを総称して以下、「メール受信サーバ」という)において電子メール送信ホストの特徴を学習した結果を利用し、新たに観測した電子メール送信ホストの特徴を元にその電子メール送信ホストをいくつかのクラスに分類することを特徴とする。
電子メール送信ホストの特徴として、電子メール送信ホストのIPアドレスに関して、IPアドレスが属する国、IPアドレスが属するAS番号、IPアドレスが属するBGP Prefix、IPアドレスにDNS逆引きレコードが存在するか否か、IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否か、隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度、IPアドレスが特定のブラックリストに存在したか否かを特徴Aとして取得する(特徴取得手段;メール送信ホスト学習部内の特徴抽出部)。
また、電子メール送信ホストがメール受信サーバに対して試みたSMTP通信に対して当該IPパケットのIPヘッダおよびTCPヘッダに記載された情報を任意に指定し、特徴Bとして取得する(特徴取得手段;メール送信ホスト学習部内の特徴抽出部)。
取得した電子メール送信ホストの特徴A,Bをメール送信ホストデータベース(DB)に保管管理する。
また、予め電子メール送信ホストを、例えば、スパマーホスト、ボットネット(botnet)、踏み台ホスト、通常ホストのような複数のクラスC、C、・・・,Cに分類したデータを準備する。このデータを元に、電子メール送信ホストがそれぞれのクラスに属する際に特徴A,Bがある実現値をとる確率(尤度)を、下記(数1)のようにそれぞれの特徴A,B(j=1,2,…,m,l=1,2,…,p)毎に計算する(尤度計算手段;メール送信ホスト学習部内のクラス取得部)。
Figure 0005036742
ここで、Pr[Y|X]は、Xが所与の元でYを得る条件付き確率である。すなわち、Pr[A=ajk|C]はあるホストのクラスCがC(例えばスパマーホスト)ある元で、その電子メール送信ホストに関する特徴Aがある実現値ajk(k=1,…,mj)をとる確率(尤度)である。
また、上記のデータより、ある電子メール送信ホストがクラスCとなる事前確率であるPr[C=Ci]をi=1,2,…,xに対して計算する(事前確率計算手段;メール送信ホスト学習部内のクラス取得部)。以上の所与のデータを用いて尤度と事前確率を計算するプロセスを学習プロセスと呼ぶ。学習した尤度と事前確率は尤度・事前確率データベース(DB)に格納され管理される(メール送信ホスト学習部内の尤度・事前確率更新部)。
なお、上記の例では、電子メール送信ホストからのメールを受信する毎にオンラインで学習した尤度と事前確率を尤度・事前確率データベース(DB)に格納するようにしているが、予め事前にオフラインで別途学習した尤度と事前確率を尤度・事前確率データベース(DB)に格納するようにしてもよい。
次に、新たに観測したホストに対して、同様に特徴A,Bを取得し(特徴取得手段;メール送信ホストクラス推定部内の特徴抽出部)、その値をもとにクラスC、C、・・・,Cに対して以下で定義されるスコアS(A,B;Ci)を下記(数2)を用いて計算する(スコア計算手段;メール送信ホストクラス推定部内のクラス推定部)。
Figure 0005036742
ここで、Pr[Ci]は前記学習した事前確率であり、Pr[Aj|Ci](j=1,…,m)およびPr[Bl|Ci](l=1,…,p)は前記学習した尤度である。スコアが最も高い値を与えるクラスを観測ホストのクラスとして推定する。以上のクラスを推定するプロセスを推定プロセスと呼ぶ。
本発明の第二の電子メール送信ホスト分類システムにおいては、上記学習プロセスあるいは推定プロセスのいずれかにおいて特徴A,Bの一部の情報が得られない場合は、得られた情報のみを用いて、上記学習およびスコアの計算を実施する。
本発明の第三の電子メール送信ホスト分類システムにおいては、上記特徴Aの取得において、AS番号、BGP Prefix、国番号に関して、生のデータを使う代わりにハッシュ関数を適用し、取り得る値の範囲を一定のサイズに固定した値を使う事も可能である。例えば2バイトで管理されるAS番号は65535通りの値を取り得るが、これを一様にランダムな出力を行うハッシュ関数を適用することによって1024通りの値にマッピングすることができる。
本発明の第四の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムにおける学習プロセスにおいて、尤度Pr[Aj|Ci]を計算する際に下記(数3)のように計算する
Figure 0005036742
ここに、nijkはクラスがCであるときに特徴Ajがある実現値ajkとなった回数であり、mは特徴Aの実現値ajkが取り得る値の種類の数である。fは任意に指定が可能な小さな値に定めることができる。例えばnを学習に用いたデータ(ホスト)の総数であるとして、f=1/nのように定める。
本発明の第五の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムにおける隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度の判断において、当該アドレスおよび隣接アドレスのホスト名をH(当該アドレス),H’(隣接アドレス1),H’’(隣接アドレス2)とした際に、HをH’に変更するのに必要な文字列操作(削除、挿入)の回数をd(H,H’)とし,同様にHとH’’に対してはd(H,H’’)とする。このときd(H,H’)とd(H,H’’)の双方が任意に指定可能な閾値θよりも小さい場合に当該IPアドレスは隣接アドレスに対して類似していると判断する。
本発明の第六の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムにおける特徴Bにおいて、IPヘッダに記載のTTL(Time To Live)値の観測値Xを、Xが128よりも大きい場合はX→255に、それ以外の場合は下記(数4)と補正する。
Figure 0005036742
ここで、下記(数5)は天井関数であり、yよりも大きい最小の整数を意味する。
Figure 0005036742
本発明の第七の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムにおけるIPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンにおいて、文字列パターンを下記のようにする。
(a)56k, access, bb, broadband, cable, catv, dhcp, dial, dip, dsl, dyn, fiber, ftth, host, hotspot, hsd, ipad, ipbf, ipngn, isdn, isp, mobil, modem, pool, ppp, reverse, telecom, telekom, telkom, user, usr, wifi, wireless, wi-fi を含む
(b)当該IPアドレスのドット表記(192.168.1.3など)に対し、ドットで区切られた数字そのものあるいはそれを16進数表記したものを二つ以上含む(順序は問わない)。
(c)当該IPアドレスのドット表記の最後の数字(例えば192.168.1.234の場合234)を含む。
本発明の第八の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムにおけるスコアの計算において、下記(数6)のようにスコアを対数で計算する。
Figure 0005036742
本発明の第九の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムにおけるホスト分類において、スコアの高いクラスを分類結果として採用する代わりに、コストの最も低いクラスを採用したものである。以下、そのための構成を述べる。
ある電子メール送信ホストの真のクラスがCであるときに当該電子メール送信ホストのクラスをCと推定した際のコストをW(i,j)とする。
このとき、ある電子メール送信ホストのクラスをCと分類するコストCost(C)を下記(数7)と定義する。
Figure 0005036742
そして、ある電子メール送信ホストに対してCost(C)が最も小さいクラスCを当該ホストのクラスとして推定する。
本発明の第十の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムのメール送信ホストデータベース(DB)において、当該電子メール送信ホストの特徴を収集し、記録した際の時刻Tを記録しておき、同電子メール送信ホストが再度観測された場合にその時に時刻と前記時刻Tとの差が任意に指定可能な一定期間内(例えば6時間以内)であればメール送信ホストデータベース(DB)に記録された特徴を利用し、一定期間内でない場合は新規に特徴を収集し直す。
本発明の第十一の電子メール送信ホスト分類システムにおいては、上記電子メール送信ホスト分類システムの特徴Bとして、前記TCP/IPヘッダ情報に加え、メール受信サーバがメッセージ受信前(SMTPトランザクションにおいてDATAコマンドが発行される前)に取得が可能なデータとして、SMTPコマンド(HELO,RCPT,RSET,SEND,SOML,SAML,VRFY,EXPN,HELP,NOOP,QUIT,TURN)の引数、および受信サーバが応答したSMTP応答コードを利用する。
本発明の第十二の電子メール送信ホスト分類方法においては、電子メール受信サーバあるいは該電子メール受信サーバの手前に設置されたサーバ(両者を合わせて、以下メール受信サーバという)により電子メール送信ホストの特徴を元に該電子メール送信ホストを分類する電子メール送信ホスト分類方法であって、電子メール送信ホストのIP(Internet Protocol)アドレスに関し、IPアドレスが属する国、IPアドレスが属するAS番号(Autonomous System Number)、IPアドレスが属するBGP(Border Gateway Protocol)Prefix、IPアドレスにDNS(Domain Name System)逆引きレコード(PTR Resource Record)が存在するか否か、IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否か、隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度、IPアドレスが特定のブラックリストに存在したか否かを特徴A={A1,…,Am}として取得するとともに、前記電子メール送信ホストが前記メール受信サーバに対して試みたSMTP(Simple Mail Transfer Protocol)通信に対して当該IPパケットのIPヘッダおよびTCP(Transmission Control Protocol)ヘッダに記載された情報を任意に指定し特徴B={B1,…,Bp}として取得する特徴取得ステップと、該特徴取得手段で取得した電子メール送信ホストの特徴A={A1,…,Am}および特徴B={B1,…,Bp}をメール送信ホストデータベース(DB)に格納する特徴格納ステップと、予め前記電子メール送信ホストをスパマーホスト、ボットネット(botnet)、踏み台ホスト、通常ホストのような複数のクラスC、C、・・・,Cに分類したデータを準備しておき、該データを元に、前記電子メール送信ホストがそれぞれのクラスに属する際に前記特徴A={A1,…,Am}および特徴B={B1,…,Bp}がある実現値をとる確率である尤度をそれぞれの特徴Aj,Bl(j=1,2,…,m,l=1,2,…,p)毎に(数1)により計算する尤度計算ステップ(ここで、Pr[Y|X]は、Xが所与の元でYを得る条件付き確率)と、前記データよりあるホストがクラスCとなる事前確率Pr[C=Ci]をi=1,2,…,xに対して計算する事前確率計算ステップと、前記尤度計算手段で求めた尤度と前記事前確率計算手段で求めた事前確率を尤度・事前確率データベース(DB)に格納する尤度・事前確率格納ステップと、新たに観測した電子メール送信ホストに対して前記特徴抽出手段により特徴A,Bを取得し、その値を元にクラスC、C、・・・,Cに対して下記(数2)で定義されるスコアS(A,B;Ci)を計算するスコア計算ステップ(ここで、Pr[Ci]は前記で学習した事前確率、Pr[Aj|Ci](j=1,…,m)およびPr[Bl|Ci](l=1,…,p)は前記学習した尤度)と、前記スコア計算手段で求めたスコアSが最も高い値を与えるクラスを観測した電子メール送信ホストのクラスとして推定するクラス推定ステップとを有する。
本発明の第十三のプログラムは、コンピュータを、上記第一から第十一のいずれかに記載の電子メール送信ホスト分類システムにおける各手段として機能させるプログラムである。
本発明によれば、様々なクラスの電子メール送信ホストに対して複数の有効な特徴を学習し、新たに観測した電子メール送信ホストの特徴に基づき当該電子メール送信ホストのクラスを統計的に分類するようにしたので、より柔軟で精度の高いスパム電子メール送信ホストの制御が可能な電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラムを実現できる。
本発明に係るメール送信ホスト分類システムの一実現例を示す図である。 本発明に係るメール受信サーバの一構成例を示す図である。 本発明に係るメール送信ホスト分類部にあるメール送信ホスト学習部の構成例を示す図である。 本発明に係るメール送信ホスト分類部にあるメール送信ホストクラス推定部の構成例を示す図である。 本発明に係る特徴抽出部の一例を示す図である。 本発明に係るメール送信ホストデータベース(DB)の一例を示す図である。 本発明に係る尤度・事前確率データベース(DB)の一例を示す図である。 本発明に係るメール送信ホスト学習部の動作の一例を示すフローチャートである。 本発明に係るメール送信ホストクラス推定部の動作の一例を示すフローチャートである。 オフライン等で別途学習して得られた尤度・事前確率データベース(DB)を用い、メール送信ホストクラスの推定を行うメール受信サーバの構成例である。 本発明に係るメール送信ホストDBにおける統計テーブルの一例を示す図である。 本発明に係るメール送信ホストDBにおける特徴テーブルの一例を示す図である。 本発明に係る尤度・事前確率DBにおける特徴1テーブル(AS番号)の一例を示す図である。 本発明に係る尤度・事前確率DBにおける特徴jテーブル(DNSBL1)の一例を示す図である。
以下、本発明に係るメール送信ホスト分類システムの実施例を、図面を用いて詳細に説明する。
(実施例1)
図1は、本発明に係るメール送信ホスト分類システムの一実現例を示したものであり、ネットワークを介して接続されたメール受信サーバ10と複数のメール送信ホスト20とメールを蓄積するメール蓄積サーバ30から構成される。
また、メール受信サーバ10の中に埋め込まれる形で、メールの送受信処理を行うメール配送処理部11と、メールの送信元のメール送信ホスト20を分類する機能であるメール送信ホスト分類部12が存在する。
ここで、メール受信サーバ10は所謂MTA(Mail Transfer Agent)であり、外部ネットワークに接続されたメール送信ホスト20から送信されるメッセージ配送要求を受け付ける。また、この実施例では、後述するように、メール受信サーバ10のメール配送処理部11にスパム判定部が具備されているため、学習に用いるデータを自ら更新・蓄積することが可能である。
図2は、上記メール受信サーバ10の一構成例を示す図である。
上述したように、メール受信サーバ10は、メール配送処理部11とメール送信ホスト分類部12とを備えている。
また、メール配送処理部11は、メール受信・処理部111とメッセージ配送管理部112とスパム判定部113とメール送信部114から構成され、メール送信ホスト分類部12は、メール送信ホスト学習部121とメール送信ホストクラス推定部122とメール送信ホストデータベース(DB)123と尤度・事前確率データベース(DB)124から構成される。
メール配送処理部11では、まずメール受信・処理部111がメール送信ホスト20から送信されるメールからメッセージおよびメール送信ホストTCP/IPヘッダ情報を取得する。この際、ポリシーに応じてメールの受信を拒否することも可能である。
例えば、メールを配送するか否かをメール送信ホストクラス推定部122によるクラス推定結果に基づいて決定することが可能である。
メール受信・処理部111で受信したメッセージは、メッセージ配送管理部112、および後段に続くスパム判定部113、メール送信部114にて通常の電子メール配送の処理が行われるものとする。
なお、スパム判定部113は、メッセージの中身に基づいてスパムであるか否かを判定する既存の技術であり、ここではメール受信サーバ10に具備される形態としているが、このスパム判定部113は外部に設けられた図示しないサーバに実装されていても構わない。
スパム判定部113は、メールを送信したホスト(メール送信ホスト20)とそのメッセージの分類結果(例えばスパムであるか否か、あるいはスパムである確率やスコア)を元にメール送信ホスト20の統計値(メッセージ送信履歴)をメール送信ホスト分類部12のメール送信ホストDB123に格納して管理する。
ここで、メール送信ホストDB123は、図6に示すような二つのテーブル、すなわち統計テーブル1231と特徴テーブル1232から構成され、メール送信ホスト20に関する統計値は統計テーブル1231のカウント値を更新することによって管理される。図11は統計テーブルの例であり、図12は特徴テーブルの例である。
メール送信ホスト分類部12は、上述したように、電子メール送信ホストの特徴をオンラインで学習するメール送信ホスト学習部121、メール送信を試みたメール送信ホストのクラスを推定するメール送信ホストクラス推定部122を具備している。
メール送信ホスト学習部121およびメール送信ホストクラス推定部122は、メール送信ホストデータベース(DB)123と尤度・事前確率データベース(DB)124の二つのデータベースを共有している。またメール送信ホストクラス推定部122で推定した結果は、メール配送処理部11にあるメール受信・処理部111に送信することができる。
図3は、メール送信ホスト分類部12にあるメール送信ホスト学習部121の構成例を示す図である。
メール送信ホスト学習部121は、同図に示すように、データ受信部1211と特徴抽出部1212とクラス取得部1213と尤度・事前確率更新部1214から構成される。
データ受信部1211では、メール配送処理部11のメール受信・処理部111より送られたメール送信ホストの情報、具体的にはIPアドレス、およびTCP/IPヘッダ情報を受信し、特徴抽出部1212とクラス取得部1213のそれぞれに送信する。これらの作業は並列に行うことが可能である。
特徴抽出部1212は、メール送信ホストデータベース(DB)123の特徴テーブルを参照し、当該電子メール送信ホストの特徴を得られていない場合には、該電子メール送信ホストの特徴A={A1,…,Am},特徴B={B1,…,Bp}を後述する方法によって取得する。
ここで、電子メール送信ホストの特徴A={A1,…,Am}とは、電子メール送信ホストのIP(Internet Protocol)アドレスに関し、IPアドレスが属する国、IPアドレスが属するAS番号(Autonomous System Number)、IPアドレスが属するBGP(Border Gateway Protocol)Prefix、IPアドレスにDNS(Domain Name System)逆引きレコード(PTR Resource Record)が存在するか否か、IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否か、隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度、IPアドレスが特定のブラックリストに存在したか否かの情報であり、特徴B={B1,…,Bp}とは、電子メール送信ホストがメール受信サーバに対して試みたSMTP(Simple Mail Transfer Protocol)通信に対して当該IPパケットのIPヘッダおよびTCP(Transmission Control Protocol)ヘッダに記載された情報を任意に指定した情報である。
なお、特徴A={A1,…,Am}の取得において、AS番号、BGP Prefix、国番号に関して、生のデータを使う代わりにハッシュ関数を適用し、取り得る値の範囲を一定のサイズに固定した値を使うようにしてもよい。
また、特徴A={A1,…,Am}の取得において、IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否かの判断において、前記特定の文字列パターンとしては、例えば、下記(a)〜(c)のいずれかの文字列を含むものである。
(a)56k, access, bb, broadband, cable, catv, dhcp, dial, dip, dsl, dyn, fiber, ftth, host, hotspot, hsd, ipad, ipbf, ipngn, isdn, isp, mobil, modem, pool, ppp, reverse, telecom, telekom, telkom, user, usr, wifi, wireless, wi-fi を含む
(b)当該IPアドレスのドット表記に対し、ドットで区切られた数字そのものあるいはそれを16進数表記したものが順序は問わず、二つ以上含まれる
(c)当該IPアドレスのドット表記の最後の数字が含まれる
また、特徴B={B1,…,Bp}として、前記TCP/IPヘッダ情報に記載された情報に加え、メール受信サーバがメッセージ受信前(SMTPトランザクションにおいて、DATAコマンドが発行される前)に取得が可能なデータとして、SMTPコマンド(HELO, RCPT, RSET, SEND, SOML, SAML, VRFY, EXPN, HELP, NOOP, QUIT, TURN)の引数、および受信サーバが応答したSMTP応答コードを特徴Bとして利用するようにしてもよい。
クラス取得部1213は、当該電子メール送信ホストに関する統計値をメール送信ホストデータベース(DB)123にある統計テーブル(図11参照)を参照し、当該電子メール送信ホストに関するメッセージ数が予め決められた数以上(例えば10以上)であった場合に、メッセージ数に対するスパムメッセージの割合などからそのメール送信ホストのクラスを判定し、該統計テーブル中の「決定クラス」列に「クラス決定時刻」を更新する。ここで、クラスとは、例えば、スパマーホスト、ボットネット(botnet)、踏み台ホスト、通常ホストなどである。
得られた結果、例えばあるメール送信ホストから送信されたメッセージのX%以上(例えば70%以上)がスパムである場合にはその電子メール送信ホストのクラスをスパマーホストとして判断する。
次に、特徴抽出部1212とクラス取得部1213で得られた情報を元に、当該電子メール送信ホストがクラスCiである元で特徴A,Bがある実現値となる条件付き確率(尤度)を〔課題を解決するための手段〕の項に記載した(数1)により計算し、電子メール送信ホストがクラスCiとなる確率(事前確率Pr[C=Ci]))をi=1,2,…,xに対して計算する。以上の所与のデータを用いて確率(尤度)と事前確率を計算するプロセスを学習プロセスと呼ぶ。学習した確率(尤度)と事前確率は尤度・事前確率データベース(DB)124に格納され管理される。
図7は、尤度・事前確率データベース(DB)124の一例を示したものである。該尤度・事前確率データベース(DB)124は、電子メール送信ホストの特徴を複数の特徴xテーブル(x=1,2,・・・m)で管理するものである。尤度・事前確率データベース(DB)124は、例えば、図13(特徴テーブル(AS番号))、図14(特徴テーブル(DNSBL1))に示したような如きテーブルを有している。これらのテーブルに保持されている値は確率そのものではなく、確率を計算する上で必要となるカウント値である。該尤度・事前確率データベース(DB)124の各テーブルは、必要に応じて参照・更新・管理される。
図8は、上記メール送信ホスト学習部121の動作を示すフローチャートである。以下では簡単のため、図13に示した尤度・事前確率データベース(DB)124については特徴1テーブル(AS番号)のみを用いた例を、図8のフローチャートを用いて説明する。
図8に示すように、まず、電子メール送信ホストからメッセージを受信すると、該電子メール送信ホストについて統計テーブルを参照する(ステップS11)。前回の特徴取得から所定時間T時間(例えば、6時間)以上経過したか否かを判定し(ステップS12)、T時間以内であれば(ステップS12:N)、該電子メール送信ホストの特徴(今の例ではAS番号)を取得する(ステップS13)。
図12の特徴テーブルを参照し、ステップS13で取得した特徴(AS番号)が前回取得した特徴と同じか否かを判定し(ステップS14)、同じ場合は(ステップS14:Y)、メール送信ホストデータベース(DB)にある統計テーブルおよび特徴テーブルを更新する(ステップS15)。
ステップS15における更新の結果、メッセージ数が予め決められたX(例えば、10)以上の場合は(ステップS16;Y)、決定クラスを更新する(ステップS17)。
決定した決定クラスが前回と異なる場合(ステップS18)、尤度。事前確率データベース(DB)を更新し(ステップS19)、処理を終了する(ステップS20)。
ステップS12において、前回の特徴取得から所定時間T時間(例えば、6時間)以上経過している場合(ステップS12:Y)、および、ステップS14において、取得した電子メール送信ホストの特徴(AS番号)と前回取得したAS番号が異なる場合(ステップS14:N)は、統計テーブルのレコードを0にクリアし、特徴テーブル、尤度・事前確率データベース(DB)を更新し(ステップS21)、処理を終了する(ステップS20)。
また、ステップS16でメッセージ数が予め与えられたX未満の場合(ステップS16:N)、および、ステップS18で、決定クラスが前回と同じ場合(ステップS18:Y)は、処理を終了する(ステップS20)。
上記の例で具体的に説明すると、ステップS13で取得した電子メール送信ホスト(IPアドレスのドット表記が「192.168.7.123」とする)の特徴(AS番号)が「64601」で、前回取得したAS番号「64601」と同じであることを確認する(ステップS14)。
また、該当するメッセージがスパムであったとする。このとき、図11の統計テーブルにおいて当該電子メール送信ホストのレコードに関して、メッセージ数およびスパム数をそれぞれ1ずつカウントアップする(ステップS15)。すなわち、図11の統計テーブルのメッセージ数を43から44に、スパム数を30から31にカウントアップする。
図11の統計テーブルから当該ホストは10以上のメッセージを送っていることがわかるので(ステップS16:Y)、クラス判定が可能である。
ここでは、スパム送信率は31/44=70.4%(上述したように、カウントアップした結果、図11の値よりもスパム数およびメッセージ数の数値が1ずつ増えていることに注意)であるので、IPアドレスのドット表記が192.168.7.123の電子メール送信ホストはスパマーホスト(クラスをC1とする)であると判定できる(ステップS17)。
なお、今の例では前回とクラスが変わったので(前回のスパム送信率は30/43=69.8%であり、閾値であるところの70%よりも低いので、スパマーホストではなかった)(ステップS18:Y)、尤度・事後確率データベース(DB)124における特徴1テーブル(図13)に対し、該当するクラスC1(スパマーホスト)のAS番号64601の数値を138から139にカウントアップし(ステップS19)、処理を終了する(ステップS20)。
図4は、メール送信ホストクラス推定部122の構成例を示す図である。
メール送信ホストクラス推定部122は、同図に示すように、データ受信部1221と特徴抽出部1222とクラス推定部1223と推定結果出力部1224から構成されている。
データ受信部1221は、電子メール送信ホストに関するIPアドレスおよびTCP/IPヘッダ情報を受信し、特徴抽出部1222に送信する。
特徴抽出部1222で抽出された電子メール送信ホストの特徴はクラス推定部1223に送信される。
クラス推定部1223は、送信された特徴A,Bを元に尤度・事前確率DB124を参照し、(数2)または(数6)で与えられるスコアS(A,B;Ci)を〔課題を解決するための手段〕の項に記載した(数2)により計算し、スコアが最大となるクラスCiを推定クラスとして推定結果出力部1224に送信する。
図5に示す特徴抽出部40は、メール送信ホスト学習部121における特徴抽出部1212およびメール送信ホストクラス推定部122における特徴抽出部に対応するものであり、それそれに別個に設けてもよいし、一つの特徴抽出部を共用してもよい。特徴抽出部40は、同図に示すように、データ受信部41、解析部42、IPデータベース(IP DB)43、DNS逆引きホスト解決部44、キーワードデータベース(DB)45、特徴出力部46から構成されている。
データ受信部41では、電子メール送信ホストに関するIPアドレスおよびTCP/IPヘッダ情報を受信し、解析部42に送信する。以下では各々の特徴の取得手段について述べる。
解析部42は、キャッシュ判定部421とIPアドレス分析部422とキーワード分析部423と隣接ホスト類似度判定部424とTCP/IPヘッダ解析部425から構成される。
キャッシュ判定部421は、当該IPアドレスに関する特徴を既に抽出済みで、かつ前回に抽出した時刻から一定の期間内であるという条件を満たしているときにはメール送信ホストデータベース(DB)123に蓄積した情報(キャッシュ)を返す機能を持っており、これにより高速化を行っている。上記の条件に当てはまらないときに実際の特徴抽出を実施する。
IPアドレス分析部422は、当該IPアドレスに関する情報を、ASNテーブル431,BGP Prefixテーブル,国テーブル,各種DNSBLテーブルを有するIP DB43を検索し、対応するAS番号、BGP Prefix、国番号、各種DNSBLにリストされているか否か、等の情報を取得する。
キーワード分析部423は、当該IPアドレスおよび隣接IPアドレスのDNS逆引きをDNS逆引きホスト解決部44で実施し、さらに、キーワードDB45を参照し、予め指定したキーワードパターンが含まれるか否かを判定する。
例えば、当該IPアドレスの逆引きホスト名が100-1-user.dynamic.example.jpであり、キーワードパターンの中に「“dynamic”が含まれる」というパターンが含まれていたら当該IPアドレスは指定のパターンを有したと判定する。
隣接ホスト類似度判定部424は、当該アドレスおよび隣接アドレスのホスト名をH(当該アドレス),H’(隣接アドレス1),H’’(隣接アドレス2)とした際に、HをH’に変更するのに必要な文字列操作(削除,追加)の回数をd(H,H’)とし,同様にHをH’’に変更するのに必要な文字列操作(削除,追加)の回数をd(H,H’’)とする。このときd(H,H’)とd(H,H’’)の双方が任意に指定可能な閾値θよりも小さい場合に当該IPアドレスは隣接アドレスに対して類似していると判断する。
以上で得られたIPアドレスの特徴を、特徴出力部46を通じて外部に出力する。例えば、IPアドレスのドット表記で、当該電子メール送信ホストを「192.168.1.100」とすると、隣接電子メール送信ホストは「192.168.1.99」、および、「192.168.1.101」である。
これらのDNS逆引きホスト名がそれぞれ
H =“100-1-user.dynamic.example.jp”
H’ =“99-1-user.dynamic.example.jp”
H’’=“101-1-user.dynamic.example.jp”
であるとし、θ=6とする。このときd(H,H’)=5,d(H,H’’)=2となり、どちらもθより小さいので、当該ホストの隣接IPアドレス類似度の判定の結果は「真」となる。
TCP/IPヘッダ解析部425では、任意に指定が可能なTCP/IPヘッダの値を取得する。例えばIPヘッダとしてはTTL(Time To Live)フィールドの値を取得し、第六の電子メール送信ホスト分類システムに記載したように変換する。
TTL(Time To Live)の観測値Xが245であれば、128より大きいので255に変換する。TCPヘッダとしてはDF(Don’t Fragment Bit)がセットされているか否か、初期広告ウィンドウサイズの値、MSS(maximum segment size)の値、SACK (Selective Acknowledgement)オプションを使っているか否か等の値を利用する。
解析部42は、以上で得られた電子メール送信ホストの特徴をまとめて特徴出力部46に出力する。
図9は、メール送信ホストクラス推定部122における動作の一例を示したフローチャートである。
以下では簡単のため、図13、図14に記載の特徴1テーブル(AS番号)と特徴jテーブル(DNSBL1)のみを用いた例を、図9のフローチャートを用いて説明する。
図9に示すように、まず、電子メール送信ホストからメッセージを受信すると(ステップS30)、該電子メール送信ホストについて特徴テーブルを参照する(ステップS31)。特徴が既に取得済みであるか否かを判断し(ステップS32)、取得済みであれば(ステップS32:Y)、そのままステップS34に進み、取得済みでなければ(ステップS32:N)、取得した後(ステップS33)にステップS34に進む。
ステップS34において、尤度・事前確率データベース(DB)を参照し、ステップS35において、各クラスについてスコアを計算する(ステップS35)。
以下、具体例を用いて説明する。
推定の対象となる電子メール送信ホストのIPアドレスのドット表記が「192.168.7.123」であったとする。図12の特徴テーブルを参照することによって、当該電子メール送信ホストの特徴1, 特徴jの値としてそれぞれ「64601」,「1」を得たものとする。この特徴1と特徴jの値「64601」と「1」により図13、図14を参照し、該当する尤度を〔課題を解決するための手段〕の項に記載した(数3)により計算する。特徴1、特徴jをそれぞれA1, Aj とする。このとき尤度はそれぞれ下記(数8)〜(数11)のようになる。
Figure 0005036742
Figure 0005036742
Figure 0005036742
Figure 0005036742
同様に事前確率は、それぞれ下記(数12)〜(数13)と計算できる。
Figure 0005036742
Figure 0005036742
よって、スコアは上記(数2)を用いてそれぞれ下記(数14)および(数15)のように計算できる。
Figure 0005036742
Figure 0005036742
(数14)と(数15)を比較すると下記(数16)となるので、スコアが最も高いC1を当該電子メール送信ホストのクラスであると推定し(ステップS36)、処理を終了する(ステップS37)。
Figure 0005036742
なお、スコアの計算を、〔課題を解決するための手段〕の項に記載した(数6)により計算するようにしてもよい。
また、上記電子メール送信ホスト分類システムにおいてはホスト分類において、スコアの高いクラスを分類結果として採用したが、その代わりに、コストの最も低いクラスを採用するようにしてもよい。
ここでは、ある電子メール送信ホストの真のクラスがCであるときに当該電子メール送信ホストのクラスをCと推定した際のコストをW(i,j)とし、ある電子メール送信ホストのクラスをCと分類するコストCost(C)を〔課題を解決するための手段〕の項に記載した(数7)で定義し、当該電子メール送信ホストに対して、Cost(C)が最も小さいクラスCを当該ホストのクラスとして推定する。
(実施例2)
上記実施例1では、図2に示すように、メール送信ホスト学習部121がメール送信ホスト分類部12内に具備され、電子メールを受信する毎に学習を行っていたが、このような方法によって学習をオンラインで実施する代わりに、例えば、オフライン等で別途学習して得られた尤度・事前確率データベース(DB)を用い、メール送信ホストクラスの推定を行うことも可能である。
図10は、このような尤度・事前確率データベース(DB)を用い、メール送信ホストクラスの推定を行うメール受信サーバ50の構成例であり、メール配送処理部51とメール送信ホスト分類部52を具備し、メール配送処理部51は、メール受信・処理部511、メッセージ配送管理部512、メール送信部513からなり、メール送信ホスト分類部52は、メール送信ホストクラス推定部521、尤度・事前確率データベース(DB)522からなる。
図10に示した実施例2のメール受信サーバ10は、図2に示した実施例1のメール受信サーバ50に比較して、メール配送処理部のスパム判定部、メール送信ホスト分類部のメール送信ホスト学習部とメール送信ホストDBが削減されている。
実施例2の場合、尤度・事前確率DB522は参照のみに用いられ、メール受信毎に更新されることはない。尤度・事前確率DB522の運用方法として、例えば別のネットワークで蓄積したDBを用いる方法や、定期的にオフラインでDBを更新する等の方法が考えられる。
なお、本発明に係る電子メール送信ホスト分類システムにおける各手段(特徴抽出手段,尤度計算手段,事前確率計算手段,スコア計算手段)は、当該電子メール送信ホスト分類システム(メール受信サーバ)を構成するCPUやメモリなどのハードウェア資源を用いて上記各手段に対応するプログラムを実行することにより実現される。
また、上記各手段に対応するプログラムは、FD,CD−ROM、DVDなどの記録媒体や、インターネットなどのネットワークを介して市場に流通させることができる。
10:メール受信サーバ
11:メール配送処理部
111:メール受信・処理部
112:メッセージ配送管理部
113:スパム判定部
114:メール送信部
12:メール送信ホスト分類部
121:メール送信ホスト学習部
1211:データ受信部
1212:特徴抽出部
1213:クラス取得部
1214:尤度・事前確率更新部
122:メール送信ホストクラス推定部
1221:データ受信部
1222:特徴抽出部
1223:クラス推定部
1224:推定結果出力部
123:メール送信ホストデータベース(DB)
1231:統計テーブル
1232:特徴テーブル
124:尤度・事前確率データベース(DB)
1241:特徴1テーブル
1242:特徴2テーブル
124m:特徴mテーブル
20:メール送信ホスト
30:メール蓄積サーバ
40:特徴抽出部
41:データ受信部
42:解析部
421:キャッシュ判定部
422:IPアドレス分析部
423:キーワード分析部
424:隣接ホスト類似度判定部
425:TCP/IPヘッダ解析部
43:IPデータベース(IP DB)
44:DNS逆引きホスト解決部
45:キーワードデータベース(DB)
46:特徴出力部
50:メール受信サーバ
51:メール配送処理部
511:メール受信・処理部
512:メッセージ配送管理部
513:メール送信部
52:メール送信ホスト分類部
521:メール送信ホストクラス推定部
522:尤度・事前確率データベース(DB)

Claims (13)

  1. 電子メール受信サーバあるいは該電子メール受信サーバの手前に設置されたサーバ(以下、両者を総称してメール受信サーバという)により電子メール送信ホストの特徴を元に該電子メール送信ホストを分類する電子メール送信ホスト分類システムであって、
    電子メール送信ホストの特徴として、該電子メール送信ホストのIP(Internet Protocol)アドレスに関し、IPアドレスが属する国、IPアドレスが属するAS番号(Autonomous System Number)、IPアドレスが属するBGP(Border Gateway Protocol)Prefix、IPアドレスにDNS(Domain Name System)逆引きレコード(PTR Resource Record)が存在するか否か、IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否か、隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度、IPアドレスが特定のブラックリストに存在したか否かを特徴A={A1,…,Am}として取得するとともに、前記電子メール送信ホストが前記メール受信サーバに対して試みたSMTP(Simple Mail Transfer Protocol)通信に対して当該IPパケットのIPヘッダおよびTCP(Transmission Control Protocol)ヘッダに記載された情報を任意に指定し特徴B={B1,…,Bp}として取得する特徴取得手段と、
    該特徴取得手段で取得した電子メール送信ホストの特徴A={A1,…,Am}および特徴B={B1,…,Bp}を格納するメール送信ホストデータベース(DB)と、
    予め前記電子メール送信ホストを複数のクラスC、C、・・・,Cに分類したデータを準備しておき、該データを元に、前記電子メール送信ホストがそれぞれのクラスに属する際に前記特徴A={A1,…,Am}および特徴B={B1,…,Bp}がある実現値をとる確率である尤度をそれぞれの特徴Aj,Bl(j=1,2,…,m,l=1,2,…,p)毎に下記(数1)により計算する尤度計算手段と、
    Figure 0005036742
    (ここで、Pr[Y|X]は、Xが所与の元でYを得る条件付き確率)
    前記データよりあるホストがクラスCとなる事前確率Pr[C=Ci]をi=1,2,…,xに対して計算する事前確率計算手段と、
    前記尤度計算手段で求めた尤度と前記事前確率計算手段で求めた事前確率を格納する尤度・事前確率データベース(DB)と、
    新たに観測した電子メール送信ホストに対して前記特徴抽出手段により特徴A,Bを取得し、その値を元に前記複数のクラスC、C、・・・,Cに対して下記(数2)で定義されるスコアS(A,B;Ci)を計算するスコア計算手段と、
    Figure 0005036742
    (ここで、Pr[Ci]は前記で学習した事前確率、Pr[Aj|Ci](j=1,…,m)およびPr[Bl|Ci](l=1,…,p)は前記学習した尤度)
    前記スコア計算手段で求めたスコアSが最も高い値を与えるクラスを観測した電子メール送信ホストのクラスとして推定するクラス推定手段と
    を有することを特徴とする電子メール送信ホスト分類システム。
  2. 請求項1に記載の電子メール送信ホスト分類システムにおいて、
    前記特徴抽出手段における特徴抽出で特徴A,Bの一部の情報が得られない場合は、得られた情報のみを用いて前記尤度計算手段、事前確率計算手段、スコア計算手段による計算を実施する
    ことを特徴とする電子メール送信ホスト分類システム。
  3. 請求項1または2に記載の電子メール送信ホスト分類システムにおいて、
    前記特徴Aの取得において、AS番号、BGP Prefix、国番号に関して、生のデータを使う代わりにハッシュ関数を適用し、取り得る値の範囲を一定のサイズに固定した値を使う
    ことを特徴とする電子メール送信ホスト分類システム。
  4. 請求項1から3のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記尤度計算手段において、尤度Pr[Aj|Ci]を計算する際に下記(数3)を用いて計算する
    ことを特徴とする電子メール送信ホスト分類システム。
    Figure 0005036742
    (ここで、nijkはクラスがCであるときに特徴Ajがある実現値ajkとなった回数、mは特徴Aの実現値ajkが取り得る値の種類の数。fは任意に指定が可能な小さな値に定めることができる。)
  5. 請求項1から4のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度の判断において、当該アドレスおよび隣接アドレスのホスト名をH(当該アドレス),H’(隣接アドレス1),H’’(隣接アドレス2)とした際に、HをH’に変更するのに必要な文字列操作の回数をd(H,H’)とし、同様にHとH’’に対してはHをH’’に変更するのに必要な文字列操作の回数をd(H,H’’)とし、d(H,H’)とd(H,H’’)の双方が任意に指定可能な閾値θよりも小さい場合に当該IPアドレスは隣接アドレスに対して類似していると判断する
    ことを特徴とする電子メール送信ホスト分類システム。
  6. 請求項1から5のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記特徴Bにおいて、IPヘッダに記載のTTL(Time To Live)値の観測値XをXが128よりも大きい場合はX→255に、それ以外の場合は下記(数4)と補正すること
    を特徴とする電子メール送信ホスト分類システム。
    Figure 0005036742
    (ここで、下記(数5)は天井関数であり、yよりも大きい最小の整数であることを意味する。)
    Figure 0005036742
  7. 請求項1から6のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否かの判断において、前記特定の文字列パターンは下記(a)〜(c)のいずれかの文字列を含むこと
    を特徴とする電子メール送信ホスト分類システム。
    (a)56k, access, bb, broadband, cable, catv, dhcp, dial, dip, dsl, dyn, fiber, ftth, host, hotspot, hsd, ipad, ipbf, ipngn, isdn, isp, mobil, modem, pool, ppp, reverse, telecom, telekom, telkom, user, usr, wifi, wireless, wi-fi を含む
    (b)当該IPアドレスのドット表記に対し、ドットで区切られた数字そのものあるいはそれを16進数表記したものが順序は問わず、二つ以上含まれる
    (c)当該IPアドレスのドット表記の最後の数字が含まれる
  8. 請求項1から7のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記スコア計算手段での計算を、スコアSを(数2)に代えて、下記(数6)を用いて計算する
    ことを特徴とする電子メール送信ホスト分類システム。
    Figure 0005036742
  9. 請求項1から8のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記クラス推定手段がスコア計算手段で求めたスコアSが最も高い値を与えるクラスを観測した電子メール送信ホストのクラスとして推定するのに代えて、あるホストの真のクラスがCであるときに当該ホストのクラスをCと推定した際のコストをW(i,j)とし、あるホストのクラスをCと分類するコストCost(C)を下記(数7)と定義し、あるホストに対してCost(C)が最も小さいクラスCを当該電子メール送信ホストのクラスとして推定する
    ことを特徴とする電子メール送信ホスト分類システム。
    Figure 0005036742
  10. 請求項1から9のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記メール送信ホストデータベース(DB)において、当該電子メール送信ホストの特徴A,Bを収集して格納した時刻Tを記録しておき、同電子メール送信ホストが再度観測された場合にその時刻と前記時刻Tとの差が任意に指定可能な一定期間内であれば前記メール送信ホストデータベース(DB)に記録された特徴を利用し、一定期間内でない場合は新規に特徴A,Bを収集し直す
    ことを特徴とする電子メール送信ホスト分類システム。
  11. 請求項1から10のいずれかに記載の電子メール送信ホスト分類システムにおいて、
    前記特徴Bとして、前記TCP/IPヘッダ情報に記載された情報に加え、メール受信サーバがメッセージ受信前(SMTPトランザクションにおいて、DATAコマンドが発行される前)に取得が可能なデータとして、SMTPコマンド(HELO, RCPT, RSET, SEND, SOML, SAML, VRFY, EXPN, HELP, NOOP, QUIT, TURN)の引数、および受信サーバが応答したSMTP応答コードを特徴Bとして利用する
    ことを特徴とする電子メール送信ホスト分類システム。
  12. 電子メール受信サーバあるいは該電子メール受信サーバの手前に設置されたサーバ(両者を合わせて、以下メール受信サーバという)により電子メール送信ホストの特徴を元に該電子メール送信ホストを分類する電子メール送信ホスト分類方法であって、
    電子メール送信ホストの特徴として、該電子メール送信ホストのIP(Internet Protocol)アドレスに関し、IPアドレスが属する国、IPアドレスが属するAS番号(Autonomous System Number)、IPアドレスが属するBGP(Border Gateway Protocol)Prefix、IPアドレスにDNS(Domain Name System)逆引きレコード(PTR Resource Record)が存在するか否か、IPアドレスを逆引きしたホスト名に任意に指定が可能な特定の文字列パターンが含まれているか否か、隣接したIPアドレスを逆引きしたホスト名と当該IPアドレスのホスト名の類似度、IPアドレスが特定のブラックリストに存在したか否かを特徴A={A1,…,Am}として取得するとともに、前記電子メール送信ホストが前記メール受信サーバに対して試みたSMTP(Simple Mail Transfer Protocol)通信に対して当該IPパケットのIPヘッダおよびTCP(Transmission Control Protocol)ヘッダに記載された情報を任意に指定し特徴B={B1,…,Bp}として取得する特徴取得ステップと、
    該特徴取得手段で取得した電子メール送信ホストの特徴A={A1,…,Am}および特徴B={B1,…,Bp}をメール送信ホストデータベース(DB)に格納する特徴格納ステップと、
    予め前記電子メール送信ホストを複数のクラスC、C、・・・,Cに分類したデータを準備しておき、該データを元に、前記電子メール送信ホストがそれぞれのクラスに属する際に前記特徴A={A1,…,Am}および特徴B={B1,…,Bp}がある実現値をとる確率である尤度をそれぞれの特徴Aj,Bl(j=1,2,…,m, l=1,2,…,p)毎に下記(数8)により計算する尤度計算ステップと、
    Figure 0005036742
    (ここで、Pr[Y|X]は、Xが所与の元でYを得る条件付き確率)
    前記データよりあるホストがクラスCとなる事前確率Pr[C=Ci]をi=1,2,…,xに対して計算する事前確率計算ステップと、
    前記尤度計算手段で求めた尤度と前記事前確率計算手段で求めた事前確率を尤度・事前確率データベース(DB)に格納する尤度・事前確率格納ステップと、
    新たに観測した電子メール送信ホストに対して前記特徴抽出手段により特徴A,Bを取得し、その値を元にクラスC、C、・・・,Cに対して下記(数9)で定義されるスコアS(A,B;Ci)を計算するスコア計算ステップと、
    Figure 0005036742
    (ここで、Pr[Ci]は前記で学習した事前確率、Pr[Aj|Ci](j=1,…,m)およびPr[Bl|Ci](l=1,…,p)は前記学習した尤度)
    前記スコア計算手段で求めたスコアSが最も高い値を与えるクラスを観測した電子メール送信ホストのクラスとして推定するクラス推定ステップと
    を有することを特徴とする電子メール送信ホスト分類方法。
  13. コンピュータを、請求項1から11のいずれかに記載の電子メール送信ホスト分類システムにおける各手段として機能させるプログラム。
JP2009035469A 2009-02-18 2009-02-18 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム Expired - Fee Related JP5036742B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009035469A JP5036742B2 (ja) 2009-02-18 2009-02-18 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009035469A JP5036742B2 (ja) 2009-02-18 2009-02-18 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム

Publications (2)

Publication Number Publication Date
JP2010191693A JP2010191693A (ja) 2010-09-02
JP5036742B2 true JP5036742B2 (ja) 2012-09-26

Family

ID=42817671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009035469A Expired - Fee Related JP5036742B2 (ja) 2009-02-18 2009-02-18 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム

Country Status (1)

Country Link
JP (1) JP5036742B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5668034B2 (ja) 2012-09-04 2015-02-12 ビッグローブ株式会社 電子メール監視装置、送信メールサーバ、電子メール監視方法およびプログラム
JP5846590B2 (ja) * 2014-10-24 2016-01-20 ビッグローブ株式会社 電子メール監視装置、送信メールサーバ、電子メール監視方法およびプログラム
JP6992959B2 (ja) 2016-03-30 2022-01-13 日本電気株式会社 通信処理システム、通信処理装置、通信処理方法および通信処理プログラム
CN106506327B (zh) * 2016-10-11 2021-02-19 东软集团股份有限公司 一种垃圾邮件识别方法及装置

Also Published As

Publication number Publication date
JP2010191693A (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
AU2004202268B2 (en) Origination/destination features and lists for spam prevention
US7849142B2 (en) Managing connections, messages, and directory harvest attacks at a server
US7873695B2 (en) Managing connections and messages at a server by associating different actions for both different senders and different recipients
US7870200B2 (en) Monitoring the flow of messages received at a server
US8621638B2 (en) Systems and methods for classification of messaging entities
AU2004216772B2 (en) Feedback loop for spam prevention
US7660865B2 (en) Spam filtering with probabilistic secure hashes
US7836133B2 (en) Detecting unwanted electronic mail messages based on probabilistic analysis of referenced resources
US8549081B2 (en) Recognizing spam email
Qian et al. On Network-level Clusters for Spam Detection.
US7761567B2 (en) Method and apparatus for scoring unsolicited e-mail
US7543053B2 (en) Intelligent quarantining for spam prevention
US7206814B2 (en) Method and system for categorizing and processing e-mails
US20050102366A1 (en) E-mail filter employing adaptive ruleset
US20060224673A1 (en) Throttling inbound electronic messages in a message processing system
US8819102B2 (en) Method and system for managing message communications
WO2003003236A1 (en) Apparatus and method for handling electronic mail
CN101141416A (zh) 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统
JP5036742B2 (ja) 電子メール送信ホスト分類システムおよび電子メール送信ホスト分類方法ならびにそのためのプログラム
US20140040403A1 (en) System, method and computer program product for gathering information relating to electronic content utilizing a dns server
JP2006251882A (ja) 迷惑メール処理システム、迷惑メール処理方法、プログラム
KR100864307B1 (ko) 메일 필터링 관리시스템 및 이에 의한 메일 필터링방법
Taveira et al. A monitor tool for anti-spam mechanisms and spammers behavior

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110608

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110616

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110704

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120501

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120703

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120629

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees