JP4669348B2 - 迷惑メール判別装置及び迷惑メール判別方法 - Google Patents

迷惑メール判別装置及び迷惑メール判別方法 Download PDF

Info

Publication number
JP4669348B2
JP4669348B2 JP2005235445A JP2005235445A JP4669348B2 JP 4669348 B2 JP4669348 B2 JP 4669348B2 JP 2005235445 A JP2005235445 A JP 2005235445A JP 2005235445 A JP2005235445 A JP 2005235445A JP 4669348 B2 JP4669348 B2 JP 4669348B2
Authority
JP
Japan
Prior art keywords
information
mail
reliability
reliability evaluation
sender
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005235445A
Other languages
English (en)
Other versions
JP2006344197A (ja
Inventor
賢 高橋
武志 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2005235445A priority Critical patent/JP4669348B2/ja
Priority to US11/431,840 priority patent/US7890588B2/en
Publication of JP2006344197A publication Critical patent/JP2006344197A/ja
Application granted granted Critical
Publication of JP4669348B2 publication Critical patent/JP4669348B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • H04L67/5651Reducing the amount or size of exchanged application data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、電子メールが迷惑メールか否かを判別する迷惑メール判別装置、及び当該装置における迷惑メール判別方法に関する。
フィッシング詐欺等の迷惑メールに対する既存の代表的な対策として、ブラックリストを用いたものがある(例えば、下記特許文献1参照)。ブラックリストは、例えば受け取りを拒否するメールアドレス、IP(Internet Protocol)アドレス、ドメインを並べたものである。ブラックリストを用いた迷惑メールの対策は、電子メールのヘッダから上記の情報を取得し、リストの情報と比較することにより迷惑メールであるか否かを判別する。フィッシングメール対策には、この他にフィッシングサイトのURL(Uniform Resource Locator)もブラックリスト化したものもある。
また、代表的な対策として、ホワイトリストを用いたものがある。ホワイトリストは、例えば受け取りを許可するメールアドレス、IPアドレス、ドメインを並べたもので、そのリストに載っていない送信者からのメールを届かなくさせるものである。
上記以外で、最近注目を集めている方法としてセンダーID(Sender ID)という枠組みがある。この枠組みでは、あるドメインのメールを送信することができる正規のサーバのIPアドレスをリストとして管理する。そのドメインと無関係なメールサーバを利用して送信元を偽ったメールを送信しようとすると、受信側でそのことを検出して自動的に受け取りを拒否することができる。これにより迷惑メールの送信者が、大手プロバイダ等のポピュラーなドメイン名を含むメールアドレスを利用することを防ぐことができる。
特開2003−150513号公報
しかしながら、上記の対策には次のような問題がある。ホストや端末をウイルスで乗っ取りゾンビPC(Personal Computer)化させて迷惑メールを送信する場合、ブラックリストやホワイトリストによる方法、あるいはセンダーIDでは、そのメールが迷惑メールか否か判別することができず、受信者は迷惑メールをブロックすることができない。即ち、これらの対策はメール送信元(アドレス)の特定によるものであり、メール送信元の正当性を保証するものではあるが、メール自体(内容)の正当性を保証するものではないことに起因する。なお、ゾンビPCとは、不正なツールにより第三者からの乗っ取り等されたPCのことで、遠隔地から自在に操作されうるPCのことである。
本発明は、以上の問題点を解決するためになされたものであり、ゾンビPCからの送信である場合でも、送信されたメールが迷惑メールであるか否かを判別することができる迷惑メール判別装置及び迷惑メール判別方法を提供することを目的とする。
本発明に係る迷惑メール判別装置は、電子メールを受信するメール受信手段と、メール受信手段により受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出手段と、判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続手段と、データベース接続手段により接続された信頼性評価用データベースに格納された情報を参照して、情報抽出手段により抽出された判別用情報に係る信頼性を評価する信頼性評価手段と、信頼性評価手段により評価された判別用情報に係る信頼性に基づいて、メール受信手段により受信された電子メールが迷惑メールか否かを判別する判別手段と、を備えることを特徴とする。
本発明に係る迷惑メール判別装置では、電子メールから判別用情報を抽出して、当該抽出用情報に係る信頼性を評価し、評価した信頼性に基づいて電子メールが迷惑メールか否かを判別する。即ち、本発明に係る迷惑メール判別装置では、単にメールアドレスやIPアドレス等の情報により判別を行うのではなく、判別用情報に係る信頼性を評価することにより迷惑メールか否かの判別を行う。従って、迷惑メールの送信が、メールアドレスやIPアドレスから送信先が正当なものとされるゾンビPCからのものである場合でも、送信されたメールが迷惑メールであるか否かを判別することができる。
また、情報抽出手段は、電子メールの本文から判別用情報を抽出するのが好ましい。この構成によれば、迷惑メールの判別において、より適切な判別用情報を抽出することができる。
また、情報抽出手段により抽出される判別用情報には、電子メールの差出人を特定する差出人情報が含まれており、データベース接続手段により接続される信頼性評価用データベースには、電子メールの受信者と差出人との契約関係の情報が格納されている。この構成によれば、より確実に判別用情報を抽出することができ、容易に本発明を実施することができる。
また、情報抽出手段により抽出される判別用情報には、通信網上のサイトへアクセスするためのリンク情報が含まれており、データベース接続手段により接続される信頼性評価用データベースには、サイトへのアクセス回数の情報が格納されている。この構成によれば、より確実に判別用情報を抽出することができ、容易に本発明を実施することができる。
また、信頼性評価手段は、同一の判別用情報を含む電子メール群に対して、当該電子メール群に含まれる判別用情報に基づいて信頼性を評価し、判別手段は、電子メール群に対する信頼性評価手段により評価された判別用情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する。この構成によれば、複数の電子メールに基づいて、迷惑メールであるか否かを判別するので、より信頼性の高い判別を行うことができる。また、信頼性評価用データベースに精度の高い情報が含まれていない場合でも、適切な判別を行うことができる。
また、情報抽出手段により抽出される判別用情報には、電子メールの差出人を特定する差出人情報が含まれており、データベース接続手段により接続される信頼性評価用データベースには、電子メールの受信者と差出人との契約関係の情報が格納されており、信頼性評価手段は、電子メール群における電子メールの受信者と差出人との間の契約関係の数に基づいて信頼性を評価する。この構成によれば、より確実に信頼性を評価することができ、従ってより適切な判別を行うことができる。
また、情報抽出手段により抽出される判別用情報には、通信網上のサイトへアクセスするためのリンク情報が含まれており、データベース接続手段により接続される信頼性評価用データベースには、電子メールの受信者毎のサイトへのアクセス回数の情報が格納されており、信頼性評価手段は、電子メール群における電子メールの受信者のサイトへのアクセス回数の分布に基づいて信頼性を評価する。この構成によれば、より確実に信頼性を評価することができ、従ってより適切な判別を行うことができる。
また、情報抽出手段は、信頼性評価手段に抽出した判別用情報を順次送信し、信頼性評価手段は、情報抽出手段から判別用情報が送信される毎に、電子メール群のうちの、それまでに判別用情報が送信された電子メールから、予め設定された基準に基づいて、電子メール群に対する判別用情報に係る信頼性を評価することが好ましい。この構成によれば、判別用情報に係る信頼性の評価の際に、判別用情報に係る処理数を減少させることができ、迷惑メール判別装置での処理を軽減させることができる。
ところで、本発明は、上記のように迷惑メール判別装置の発明として記述できる他に、以下のように迷惑メール判別方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
本発明に係る迷惑メール判別方法は、迷惑メール判別装置における迷惑メール判別方法であって、電子メールを受信するメール受信ステップと、メール受信ステップにおいて受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出ステップと、判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続ステップと、データベース接続ステップにおいて接続された信頼性評価用データベースに格納された情報を参照して、情報抽出ステップにおいて抽出された判別用情報に係る信頼性を評価する信頼性評価ステップと、信頼性評価ステップにおいて評価された判別用情報に係る信頼性に基づいて、メール受信ステップにおいて受信された電子メールが迷惑メールか否かを判別する判別ステップと、を有し、情報抽出ステップにおいて抽出される判別用情報には、電子メールの差出人を特定する差出人情報が含まれており、データベース接続ステップにおいて接続される信頼性評価用データベースには、電子メールの受信者と差出人との契約関係の情報が格納されており、信頼性評価ステップにおいて、電子メール群における電子メールの受信者と差出人との間の契約関係の数に基づいて、同一の差出人情報を含む電子メール群に対して、当該電子メール群に含まれる差出人情報に係る信頼性を評価し、判別ステップにおいて、電子メール群に対する信頼性評価ステップにおいて評価された差出人情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する、ことを特徴とする。
また、本発明に係る迷惑メール判別方法は、迷惑メール判別装置における迷惑メール判別方法であって、電子メールを受信するメール受信ステップと、メール受信ステップにおいて受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出ステップと、判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続ステップと、データベース接続ステップにおいて接続された信頼性評価用データベースに格納された情報を参照して、情報抽出ステップにおいて抽出された判別用情報に係る信頼性を評価する信頼性評価ステップと、信頼性評価ステップにおいて評価された判別用情報に係る信頼性に基づいて、メール受信ステップにおいて受信された電子メールが迷惑メールか否かを判別する判別ステップと、を有し、情報抽出ステップにおいて抽出される判別用情報には、通信網上のサイトへアクセスするためのリンク情報が含まれており、データベース接続ステップにおいて接続される信頼性評価用データベースには、電子メールの受信者毎のサイトへのアクセス回数の情報が格納されており、信頼性評価ステップにおいて、電子メール群における電子メールの受信者のサイトへのアクセス回数の分布に基づいて、同一のリンク情報を含む電子メール群に対して、当該電子メール群に含まれるリンク情報に係る信頼性を評価し、判別ステップにおいて、電子メール群に対する信頼性評価ステップにおいて評価されたリンク情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する、ことを特徴とする。
上記のように本発明では、単にメールアドレスやIPアドレス等の情報により判別を行うのではなく、判別用情報に係る信頼性を評価することにより迷惑メールか否かの判別を行う。従って、本発明によれば、迷惑メールの送信が、メールアドレスやIPアドレスから送信先が正当なものとされるゾンビPCからのものである場合でも、送信されたメールが迷惑メールであるか否かを判別することができる。
以下、図面とともに本発明に係る迷惑メール判別装置及び迷惑メール判別方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に、本実施形態の迷惑メール判別装置10を示す。迷惑メール判別装置10はインターネット等の通信網に接続されており、図1に示すように送信者通信端末20から電子メールを受信し、その電子メールにおいて指定されている宛先となっている受信者通信端末30に送信する。即ち、迷惑メール判別装置10は、メールサーバとしての機能を果たす。図1においては、送信者通信端末20及び受信者通信端末30は、それぞれ一つずつしか描かれていないが、通常、送信者通信端末20及び受信者通信端末30は、複数存在している。なお、迷惑メール判別装置10が受信する電子メールは、通常、特定の受信者通信端末30(例えば、自ネットワーク内のユーザの端末)が宛先になっているもののみである。
また、迷惑メール判別装置10は、受信した電子メールが迷惑メールか否かを判別する。判別対象の迷惑メールとしては、具体的には例えば、フィッシングメールが該当する。フィッシングメールとは、実在の銀行やクレジット会社等を装い電子メールを送信してユーザに送信した電子メール内のリンク先にアクセスさせ、クレジットカード番号やパスワードをユーザに入力させてそれを不正に入手する「フィッシング詐欺」を行う電子メールのことである。
迷惑メール判別装置10は、具体的には、CPU(Central ProcessingUnit)及びメモリ等を備えて構成されるサーバ装置により実現される。図1に示すように、迷惑メール判別装置10は機能的には、メール受信部11と、情報抽出部12と、契約情報データベース13と、差出人情報信頼性評価部14と、アクセス回数データベース15と、URL情報信頼性評価部16と、判別部17とを備えて構成される。
メール受信部11は、送信者通信端末20から送信された電子メールを受信するメール受信手段である。また、メール受信部11は、電子メールの宛先を解釈して、その宛先に対応した受信者通信端末30に送信する等のメールサーバとしての機能も果たす。メール受信部11により受信された電子メールの内容は、フィッシングメールか否かの判別のため、情報抽出部12に送信される。
情報抽出部12は、メール受信部11により受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出手段である。本実施形態では、判別用情報は、電子メールの差出人を特定する差出人情報、及び通信網上のサイトへアクセスするためのリンク情報である。差出人情報としては、具体的には例えば、電子メールの送信主体である企業の名前等が該当する。通信網上のサイトへアクセスするためのリンク情報は、具体的には例えば本実施形態で用いられるURL情報である。
情報抽出部12による情報抽出は、電子メールのヘッダでなく、電子メールの本文から行われる。具体的には、電子メールの本文が図2に示すような場合、差出人情報である“A社”及びURL情報である“URL1”を抽出する(図2において抽出されるべき部分には下線を付している)。この抽出は、例えばパターンマッチングによるキーワード抽出技術を用いてもよいし、自然言語解析技術を用いてもよい。また、必ずしも電子メールの本文から抽出する必要はなく、電子メールのヘッダのfromアドレスやロゴ等などから抽出することとしてもよい。抽出された差出人情報は、当該差出人に係る信頼性を評価するために差出人情報信頼性評価部14に送信される。抽出されたURL情報は、当該URLに係る信頼性を評価するためにURL情報信頼性評価部16に送信される。また、上記の信頼性の評価には、受信者を特定する情報も用いられるため、例えば送信先のメールアドレス等の受信者を特定する情報も抽出されて差出人情報信頼性評価部14及びURL情報信頼性評価部16に送信される。
契約情報データベース13は、電子メールの受信者と差出人との契約関係の情報が格納されたデータベースである。電子メールの受信者と差出人との契約関係の情報は、差出人情報信頼性評価部14により差出人情報に係る信頼性が評価されるために用いられる情報である。即ち、契約情報データベース13は、判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースである。契約関係の情報とは、具体的には例えば、クレジットカード会社とその契約者との対応を示した情報等である。契約情報データベース13は、具体的には図3に示すようなテーブルに情報を格納することにより情報を保持する。図3に示すように、テーブルには受信者情報(例えば、メールアドレス)と契約社名とが対応付けられて格納されている。図3のテーブルの1行目は、“受信者1”が“A社”と契約していることを示している。なお、契約情報データベース13は、予め受信者が契約情報を登録しておく等により実現される。
差出人情報信頼性評価部14は、契約情報データベース13に格納された情報を参照して、差出人情報に係る信頼性を評価する信頼性評価手段である。また、差出人情報信頼性評価部14は、契約情報データベース13を参照するために、契約情報データベース13に接続するデータベース接続手段でもある。信頼性の評価は、予め定められた一定の基準、又はルールに則って行われる。具体的な評価方法の例については、迷惑メール判別装置10の処理に説明において述べる。評価に関する情報は判別部17に送信される。
アクセス回数データベース15は、通信網上のサイトへのアクセス回数の情報が格納されたデータベースである。アクセス回数の情報は、URL情報に対応付けられて格納されている。また、アクセス回数の情報は、受信者毎にわけられて格納されている。アクセス回数の情報は、URL情報信頼性評価部16によりURL情報に係る信頼性が評価されるために用いられる情報である。即ち、アクセス回数データベース15は、判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースである。アクセス回数データベース15は、具体的には図4に示すようなテーブルに情報を格納することにより情報を保持する。図4に示すように、テーブルにはURL情報とアクセス回数とが対応付けられて格納されている。このテーブルは受信者毎に用意されている。図4のテーブルの1行目は、“URL1”が“5回”過去にアクセスされていることを示している。なお、アクセス回数データベース15は、予めプロキシサーバ等から受信者毎のアクセス回数の情報を取得しておく、あるいは受信者のアクセスの度にその情報を記録しておくこと等により実現される。
URL情報信頼性評価部16は、アクセス回数データベース15に格納された情報を参照して、URL情報に係る信頼性を評価する信頼性評価手段である。また、URL情報信頼性評価部16は、アクセス回数データベース15を参照するために、アクセス回数データベース15に接続するデータベース接続手段でもある。信頼性の評価は、予め定められた一定の基準、又はルールに則って行われる。具体的な評価方法の例については、迷惑メール判別装置10の処理に説明において述べる。評価に関する情報は判別部17に送信される。
判別部17は、差出人情報信頼性評価部14及びURL情報信頼性評価部16により評価された判別用情報に係る信頼性に基づいて、メール受信部11により受信された電子メールが迷惑メールか否かを判別する判別手段である。判別は、予め定められた一定の基準、又はルールに則って行われる。具体的な判別方法の例については、迷惑メール判別装置10の処理(迷惑メール判別方法)に説明において述べる。
なお本実施形態において、差出人情報信頼性評価部14及びURL情報信頼性評価部16では、同一の判別用情報(差出人情報及びURL情報)を含む電子メール群に対して、信頼性を評価する。また、判別部17では、当該電子メール群に対する上記の評価された信頼性に基づいて、電子メール群が迷惑メールか否かを判断する。従って、情報抽出部12から差出人情報信頼性評価部14及びURL情報信頼性評価部16に判別用情報が送信される際には、情報抽出部12が受信した複数の電子メールが電子メール群であることを判断し、当該電子メール群であることを識別できるIDを付与する等して後の処理においても電子メール群であることが分かるようにしておく。但し、必ずしも、上記のように電子メール群に対して迷惑メールであるか否かを判別する必要はなく、個々の電子メール単位で判別することとしてもよい。
また、契約情報データベース13及びアクセス回数データベース15は、迷惑メール判別装置10に含まれる構成としているが、迷惑メール判別装置10とは別構成であってもよい。更に、これらのデータベースは、迷惑メール判別装置10を管理している管理主体とは別の管理主体により管理されていてもよい。
引き続いて、図5及び図6のフローチャートを用いて、迷惑メール判別装置10における処理を説明する。本処理は、送信者通信端末20により送信された受信者通信端末30宛の電子メールを受信して、その電子メールが迷惑メールか否かを判別する処理である。
まず、迷惑メール判別装置10では、メール受信部11が電子メールを受信する(S01、メール受信ステップ)。複数の電子メールが受信者通信端末30に送信された場合、それら全てを受信する。電子メールの内容は、情報抽出部12に送信される。
続いて、情報抽出部12が判別用情報を受信された各電子メールから抽出する(S02、情報抽出ステップ)。抽出される判別用情報は、上述したように具体的には、差出人情報及びURL情報が相当する。抽出された差出人情報は差出人情報信頼性評価部14に、URL情報はURL情報信頼性評価部16にそれぞれ送信される。また、情報抽出部12は、電子メールの受信者を特定する受信者情報も抽出して、差出人情報信頼性評価部14及びURL情報信頼性評価部16に送信する。なお、上述したように、所定の電子メールに関しては、電子メール群として扱われる。以下の説明では、電子メール群に関する処理について述べる。
続いて、差出人情報信頼性評価部14が、抽出された差出人情報に係る信頼性を評価する(S03〜S06、データベース接続ステップ、信頼性評価ステップ)。この評価は上記の電子メール群の単位で、受信者と差出人との間の契約関係の数に基づいて行われる。評価は、具体的には以下のように行われる。
差出人情報信頼性評価部14は、契約情報データベース13にアクセスして契約情報を参照して、各電子メールに関して、電子メールから抽出された差出人情報が契約情報に含まれるものと一致するかどうか判断する(S03、データベース接続ステップ、信頼性評価ステップ)。この判断は具体的には、契約情報データベース13のレコードに、電子メールから抽出された差出人情報及び受信者情報の対応関係を示すものが含まれているか否かで判断する。例えば、契約情報データベース13のレコードが図3に示すようなものであった場合、差出人情報が“A社”であり、受信者情報が“受信者1”であるとき一致すると判断する。この判断は、電子メール群の全てのメールに対して行い、その一致数をカウントする(一致した場合、判断毎に一致数を加算する)(S04、信頼性評価ステップ)。なお、一致した場合をカウントするのではなく、一致しなかった場合をカウントすることとしてもよい。
続いて、差出人情報信頼性評価部14は、上記の一致数(あるいは電子メール群に含まれる全電子メールの数に対する一致数の割合)が予め定められた閾値以上であるか否かを判断する(S05、信頼性評価ステップ)。この閾値は、例えば、以下のように定められる。
電子メール群に含まれる電子メールの数をn、上記の一致数をx、受信者と差出人との間に契約関係がある確率をpとすると、一致数がxである確率P(x)は次式で表される。なお、確率pは、例えば差出人の業界におけるシェア等から算出することができる。
Figure 0004669348

この式は、ある事象が生起する確率がpであるときn回のうちx回生起する確率を表している。無作為に送信したとすると、電子メール各々に対しては、上記の一致が起こる確率は上記の確率pになるからである。例えば、n=100、p=0.4であるとすると、式(1)におけるxと確率P(x)との関係は、図7に示すグラフになる。これは、例えば、xが50以上である確率は約0.03、即ち、電子メールの数、100のうち、一致数が50以上となる確率は約3%であることを意味している。またこれは、契約があるなしに関わらず無作為に100通のうち50通以上の電子メールが送信される確率が約3%であることを示している。従って、電子メールの数nが100のとき、一致数xが50以上であれば無作為に送られていない、つまり信頼のおける差出人から送信されているという評価を行うことができる。従って、安全率を3%に設定すれば、一致数の閾値を50に設定することができる。
また、契約情報データベース13に登録されているユーザの数をNとすると、一致数xの確率P(x)は、次式のように表すことができる。
Figure 0004669348

この式は、母集団Nの中から順に選択していき、n個を選んだときにx個が一致している場合の確率を表している。例えば、N=250、n=100、p=0.4とすると、式(2)におけるxと確率P(x)との関係は、図8に示すグラフになる。これは、xが50以上である確率は約0.03、即ち、250人から無作為に100人を選ぶと、一致数が50以上となる確率は約3%であることを意味している。従って、ユーザの数をNが250で電子メールの数nが100のとき、一致数xが50以上であれば無作為に送られていない、つまり信頼のおける差出人から送信されているという評価を行うことができる。従って、安全率を3%に設定すれば、一致数の閾値を50に設定することができる。
また、ある特定の会社が過去に自社で持つ顧客リストに沿って100通の電子メールを送信した事象の統計をとったとき、xと確率P(x)との関係が図9に示すグラフになったとする。この図から、例えばxが85以下であるような確率が約0.03、即ち100通の送信に対し一致数(契約の変更等がなかったケース)xが85以下であった確率が3%以下であるということがわかる。従って、一致数xが85以上である場合には無作為に送られていない、つまり信頼のおける差出人から送信されているという評価を行うことができる。従って図9のグラフに基づいて閾値を設定する場合、安全率を3%に設定すれば、一致数の閾値を85に設定することができる。
上記の判断で、一致数が閾値以上であった場合、差出人情報信頼性評価部14は、電子メール群において差出人情報に係る信頼性は高い(=OK)、という評価を行う(S06、信頼性評価ステップ)。一方、一致数が閾値以上でなかった場合、差出人情報信頼性評価部14は、電子メール群において差出人情報に係る信頼性は低い(=NG)、という評価を行う(S06、信頼性評価ステップ)。この差出人情報に係る信頼性に関する情報は、判別部17に送信される。
続いて、URL情報信頼性評価部16が、抽出されたURL情報に係る信頼性を評価する(S07〜S09、データベース接続ステップ、信頼性評価ステップ)。この評価は上記の電子メール群の単位で、電子メール群における電子メールの受信者のサイトへのアクセス回数の分布に基づいて行われる。評価は、具体的には以下のように行われる。
URL情報信頼性評価部16は、アクセス回数データベース15にアクセスして、抽出したURLによりアクセスされるサイトへのアクセス回数の情報を参照して、電子メールの受信者の当該サイトへのアクセス回数の分布を生成する(S07、データベース接続ステップ、信頼性評価ステップ)。アクセス回数の分布は、図3に示したアクセス回数データベース15のテーブルに格納された各電子メールの受信者の当該サイトへのアクセス回数の情報から生成される、アクセス回数毎の人数の分布である。生成されたアクセス回数の分布をグラフに表すと、例えば図10のようになる。
続いて、URL情報信頼性評価部16は、上記作成されたアクセス回数の分布を、予め設定されているフィッシング詐欺に用いられるサイトにおけるアクセス回数の分布のパターンに類似しているか否か判断する(S08、信頼性評価ステップ)。類似か否かの判断については、具体的には例えば、パターン認識の方法等を用いることができる。
フィッシング詐欺に用いられるサイトにおけるアクセス回数の分布のパターンは、例えば、図11に示すように全員が一度もアクセスしたことがないようなものである。仮にアクセスしたことがある(以前にもフィッシングメールを受信して且つその電子メールに含まれるURLからサイトにアクセスした場合等)としても、そのようなケースは非常に少数である。このことは、アメリカにおいての調査結果からわかっており、約19%であると言われている。この結果は、今までに一度でもアクセスしたことがある割合であり、実際にあるURLからアクセスしている人の割合はより少数になると考えられる。従って、分布のパターンを比較する方法以外にも、抽出されたURLにアクセスしたことのある受信者の割合が19%を下回るか否かという判断を行うこととしてもよい。下回った場合、次のステップで、当該電子メール群においてURL情報に係る信頼性は低いと評価される。
上記の判断で、フィッシング詐欺に用いられるサイトにおけるアクセス回数の分布のパターンに類似していなかった場合、URL情報信頼性評価部16は、電子メール群においてURL情報に係る信頼性は高い(=OK)、という評価を行う(S09、信頼性評価ステップ)。一方、類似していた場合、URL情報信頼性評価部16は、電子メール群においてURL情報に係る信頼性は低い(=NG)、という評価を行う(S09、信頼性評価ステップ)。このURL情報に係る信頼性に関する情報は、判別部17に送信される。
なお、差出人に係る信頼性の評価(S03〜S06)及びURL情報に係る信頼性の評価(S07〜S09)は、互いに関連するものではないので、どちらが先に行われてもよい。また、同時平行して行われてもよい。
続いて、判別部17が、各判別用情報に係る信頼性に基づいて、電子メール群がフィッシングメールか否かを判別する(S10〜S12、判別ステップ)。判別は、具体的には図6のフローチャートに示すように、フィッシングメールである可能性を判定することにより行われる。以下、説明する。
まず、判別部17は、電子メール群において差出人情報に係る信頼性は高い(=OK)かどうか判断する(S10、判別ステップ)。続いて、判別部17は、電子メール群においてURL情報に係る信頼性は高い(=OK)かどうか判断する(S11、判別ステップ)。ここで両方の信頼性が共に高かった場合、判別部17は、その電子メール群がフィッシングメールである可能性を「小」とする(S12、判別ステップ)。どちらか一方の信頼性が高かった場合、判別部17は、その電子メール群がフィッシングメールである可能性を「中」とする(S12、判別ステップ)。両方の信頼性が高くなかった場合、判別部17は、その電子メール群がフィッシングメールである可能性を「大」とする(S12、判別ステップ)。
なお、本実施形態では、差出人情報及びURL情報に係る信頼性の両方を判別に用いることとしているが、何れか一方のみを判別に用いることとしてもよい。但し、一方のみを判別に用いることとすると、判別の確実性が低下するので、何れか一方が特徴的な情報であり一方でも判別可能なときに適用するのが好ましい。一方のみを判別に用いる場合は、信頼性の評価も判別に用いるもののみをすればよい。
判別部17は、このようにして得られた電子メール群のフィッシングメールである可能性をメール受信部11に通知する。メール受信部11は、当該電子メール群に含まれる各電子メールを受信者通信端末30に送信する際に、上記のフィッシングメールである可能性を併せて通知して受信者に対して警告を行う(S13)。なお、可能性の通知を必ずしもする必要はなく、フィッシングメールである可能性の高い電子メール群を、迷惑メール判別装置10において破棄する等の処置を行ってもよい。また、第三者機関へ対応を問い合わせる等をしてもよい。更に、それらの処理を組み合わせて行うこととしてもよい。
上述したように、本実施形態によれば、迷惑メール判別装置10は、電子メールから抽出した判別用情報に係る信頼性を評価し、評価した信頼性に基づいて電子メールがフィッシングメールであるか否かを判別する。即ち、本実施形態では、単にメールアドレスやIPアドレス等の情報により判別を行うのではなく、判別用情報に係る信頼性を評価することにより迷惑メールか否かの判別を行う。従って、迷惑メールの送信が、メールアドレスやIPアドレスから送信先が正当なものとされるゾンビPCからのものである場合でも、送信されたメールが迷惑メールであるか否かを判別することができる。このように適切な判別が可能であるので、その旨を受信者に通知することが可能になる等、効率よくフィッシングメールに対策を行うことが可能になる。
また、本実施形態のように、電子メールの本文から判別用情報を抽出することとすれば、フィッシングメールの判別においてより適切な判別用情報を抽出することができる。電子メールの本文であれば、ヘッダの情報による偽装等を考慮しなくてよいからである。
また、本実施形態のように判別用情報を、差出人情報及びURL情報とすれば、より確実に判別用情報を抽出することができる。フィッシングメールには、差出人情報及びURL情報が含まれているためであり、また通常、電子メールには差出人情報が含まれており、またURL情報も含まれていることが多いからである。従ってこの構成とすれば、容易に本発明を実施することができる。
また、本実施形態のように、電子メール群に対して判別を行うこととすれば、複数の電子メールに基づいて、迷惑メールであるか否かを判別するので、より信頼性の高い判別を行うことができる。また、信頼性評価用データベースに精度の高い情報が含まれていない場合でも、適切な判別を行うことができる。
また、本実施形態のように、受信者と差出人との間の契約関係の数に基づいて、差出人情報に係る信頼性を評価することとすれば、より確実に信頼性を評価することができ、従ってより適切な判別を行うことができる。また、本実施形態のように、受信者のURLによりアクセスされるサイトへのアクセス回数の分布に基づいて、差出人情報に係る信頼性を評価することとすれば、より確実に信頼性を評価することができ、従ってより適切な判別を行うことができる。
契約情報データベース13に格納された契約情報に一部変更があり更新している途中である場合、一部の情報は誤っている可能性があるが、誤りが統計上の信頼区間に収まる範囲であれば誤認識を起こさない。例えば、100通の電子メール群に対して、10人の受信者に関する契約情報が変更中であっても、その他全ての90通が一致していれば、10人分の契約情報に無関係に閾値を超えるので、正しい判別が可能である。
URLのアクセス回数についても同様に、一部変更があって更新している途中である場合、一部の情報は誤っている可能性があるが、誤りが統計上の信頼区間に収まる範囲であれば誤認識を起こさない。例えば、100人中90人がアクセス回数0回であれば、10人分のアクセス回数の情報が変更中であっても、10人分のアクセス回数情報に無関係に閾値を超えるので、正しい判別が可能である。また、あるユーザに関しての情報が登録されていない場合でも、受信者全員分のアクセス回数の分布から判断するので、一人分のアクセス回数が0、あるいはデータがない場合でも、アクセス回数の分布の類似を判断することが可能である。何人分のデータがない場合が許容できるかは、例えば予め設定される類似度の閾値等により決まる。このように、信頼性評価用データベースが更新中という状況に対しても即時に対応してフィッシングメールを判別することができる。
ところで、フィッシング詐欺の損益分岐点は電子メールに対するレスポン率により決まる。レスポンス率を低下させて現在のレスポンス率よりも98.5%減少させることができれば、フィッシング詐欺による利益はなくなるものと試算した。Rを正しくフィッシングメールだと判別する判別率、Eを受信者が受ける被害額、Nを送信者が送信するメールの総数、Rを受信者のレスポンス率、Cをフィッシング詐欺者が電子メールを送信するときの送信コスト、Cをフィッシング詐欺者が詐欺をはたらくための送信コスト以外にかかるコストの総計とすると、一般的に好ましい判別率Rは、以下の式で表される。
Figure 0004669348
迷惑メール判別装置10の管理者は、式(3)に基づいて判別率Rを求め、その判別率Rを実現するように、差出人情報に関する一致数の閾値や、URLに対するアクセス回数の分布の類似の判断に用いられる閾値を決定することができる。
なお、本実施形態では、迷惑メールをフィッシングメールとしたが、メールの内容から迷惑メールと判断できるものであれば、フィッシングメール以外の迷惑メールを対象としてもよい。
[変形例]
上述した実施形態では、差出人情報信頼性評価部14及びURL情報信頼性評価部16の各信頼性評価手段は、電子メール群に含まれる全ての電子メールの判別用情報を用いて信頼性を評価していた。しかしながら、このように電子メール群に含まれる電子メール全数を用いて評価することとすれば、電子メール群に含まれる電子メールの数が膨大になる場合、各信頼性評価手段による信頼性評価用データベース(契約情報データベース13及びアクセス回数データベース15)に格納された情報の参照、及び当該情報と判別用情報との比較の処理が膨大になる。
そのような膨大な処理を回避するために、迷惑メール判別装置は、以下に説明するような構成としてもよい。この構成では、各信頼性評価手段は、電子メール群に対する判別用情報に係る信頼性を、情報抽出手段から判別用情報が送信される毎に、それまで判別用情報が送信された電子メールから評価する。即ち、信頼性を電子メール群のうちの一部の電子メールの判別用情報を用いて評価する。以下に、この構成の迷惑メール判別装置を説明する。
図12に本変形例のメール判別装置40を示す。迷惑メール判別装置40は、構成要素としては、上述した実施形態の迷惑メール判別装置10に加えて、カウンタ42を更に備えている。また、メール判別装置40は、上述した実施形態の迷惑メール判別装置10とは、情報抽出部41、差出人情報信頼性評価部43及びURL情報信頼性評価部44の機能に違いを有している。それ以外の部分は、メール判別装置40は、上述した実施形態の迷惑メール判別装置10と同一である。以下、上述した実施形態の迷惑メール判別装置10との違い部分について説明する。
情報抽出部41は、電子メールから判別用情報を抽出して、判別用情報を差出人情報信頼性評価部43とURL情報信頼性評価部44とに電子メール群毎に順次、送信する。また、情報抽出部41は、判別用情報を抽出する毎に、判別用情報をカウンタ42に送信する。情報抽出部41から判別用情報が送信される順番は、例えば、判別用情報を抽出した順とすることができる。あるいは、順番を決定する何らかのルールを定めておきそれに従って、順番を決めることとしてもよい。
カウンタ42は、情報抽出部12から送信された判別用情報の数(情報抽出部12において判別用情報が抽出された電子メールの数)を、電子メール群毎にカウントする。カウントは、具体的には、電子メール数毎のカウント数を記憶しておき、判別用情報を受信したときにカウント数を増加させる、等の処理により行われる。カウントされた電子メール群毎の判別用情報の数の情報は、差出人情報信頼性評価部43及びURL情報信頼性評価部44に送信される。なお、差出人情報信頼性評価部43及びURL情報信頼性評価部44に、それぞれカウンタ42と同様の機能を持たせることとすれば、必ずしもカウンタ42は必要ない。
差出人情報信頼性評価部43及びURL情報信頼性評価部44の信頼性評価手段は、情報抽出部41により判別用情報が抽出されて送信される毎に、電子メール群のうちの、それまでに判別用情報が送信された電子メールから、電子メール群に対する判別用情報に係る信頼性を評価する。この評価は、予め設定された基準に基づいて行われる。評価の具体的な方法については、後述する。
引き続いて、本変形例の迷惑メール判別装置40における、判別用情報に係る信頼性の評価の処理を説明する。本変形例では、差出人情報に係る信頼性の評価の例を説明する。この処理は、上述した実施形態におけるS02〜S06(図5参照)に相当する。なお、以下に説明する処理以外(例えば、電子メールの受信(S01)及びフィッシングメールか否かの判断(S10〜S12))は、迷惑メール判別装置40においても上述した実施形態と同様の処理が行われる。
以下、図13のフローチャートを参照して説明を行う。まず、メール受信部11が受信した電子メールを、情報抽出部12がメール受信部11から受け取り、この電子メールから判別用情報である差出人情報を抽出する(S21)。
続いて、情報抽出部12は、信頼性評価の対象となる電子メール群のうちの1つの差出人情報をカウンタ42と差出人情報信頼性評価部43とに送信する(S22)。カウンタ42では、差出人情報を受信して、信頼性評価の対象となる電子メール群の電子メール数をカウントする(S23)。具体的には、カウント数を1増加させる。なお、カウント数の初期値は0とする。カウントされた電子メール数の情報は、差出人情報信頼性評価部43に送信される。
続いて、差出人情報信頼性評価部43が、情報抽出部12から差出人情報を受信し、カウンタ42から信頼性評価の対象である電子メール群の電子メール数の情報を受信する。差出人情報信頼性評価部43は、上述したS03の処理と同様に、契約情報データベース13にアクセスして契約情報を参照して、受信した電子メールに関して、電子メールから抽出された差出人情報が契約情報に含まれるものと一致するかどうか判断する(S24)。続いて、差出人情報信頼性評価部43は、その一致数をカウントする(一致した場合、それまでの一致数に1加算する)(S25)。ここで、mをこの時点での一致数、nをカウンタ42から送信された電子メールの数(即ち、差出人情報信頼性評価部43により一致が判断された数)とする。n通の電子メールにおける契約関係の一致率はm/nで与えられる。
続いて、差出人情報信頼性評価部43は、以下に説明するような統計的推定を用いた手法で、電子メール群の差出人情報に係る信頼性を評価する。まず、上記の値を基に、信頼性評価の対象となる電子メール群における一致率(これをpとする)を以下の式により推定する(S26)。
Figure 0004669348

ここで、αは有意水準又は危険率と呼ばれ、予め値を設定して差出人情報信頼性評価部43に記憶させておく。一般的には、α=5%(0.05)又は1%(0.01)である。z(α)は標準正規分布の両側100α%点である。α=0.05のとき、z(0.05/2)=1.96である。なお、αの値は予め設定しておき、z(α/2)の値は、予め差出人情報信頼性評価部43に記憶させておく。
例えば、m=9,n=100であるとすると、式(4)により母集団(N通分)の一致率pは、
0.04≦p≦0.14
と推定される。
続いて、差出人情報信頼性評価部43は、予め定められた式によって求められる閾値を使って、電子メール群に対する差出人情報の信頼性を評価する。ここで、pを信頼性評価の対象である電子メール群の信頼性を評価するためのpの閾値であるとする。閾値pは、受信者と差出人との契約関係がある確率p´から求めることができる。確率p´は、上述した実施形態で述べたように、差出人毎に決まり、差出人の業界のシェア等から予め算出することができる。例えば、p´=0.1だったときに、閾値pは、(以下の累積確率の式(5)において、累積確率ΣPが95%となるxの値)/100に設定することができる。
Figure 0004669348

上記の例で、p´=0.1とすると、累積確率が95%以上となるのは、x=15のときである。よって、閾値pは0.15と設定される。差出人情報信頼性評価部43は、この閾値を用いて以下のように評価する。
まず、差出人情報信頼性評価部43は、pの幅が閾値pを跨っているか否かを判断する(S27)。図14に示すように、上記の推定値0.04≦p≦0.14の範囲は、閾値p=0.15を含んでいない。即ち、pの幅が閾値pを跨っていないと判断される。
跨っていないと判断された場合、差出人情報信頼性評価部43は、pの幅が閾値pを上回っているか否かを判断する(S28)。上述したように上記の推定値pの範囲は、閾値pを上回っていない(下回っている)。その場合、差出人情報信頼性評価部43は、電子メール群において差出人情報に係る信頼性は低い(=NG)、という評価を行う(S29)。一方、推定値pの範囲は、閾値pを上回っていると判断された場合、差出人情報信頼性評価部43は、電子メール群において差出人情報に係る信頼性は高い(=OK)、という評価を行う(S29)。差出人情報に係る信頼性が評価された場合、信頼性の評価の処理を終了し差出人情報信頼性評価部43は、評価された信頼性を判定部17に送信する。判定部17では、この信頼性に基づいて、電子メール群がフィッシングメールか否かを判別する(上述した実施形態におけるS10〜S12の処理に対応する(図6参照))。
また、n=100でm=13であるときには、上記の式(4)により電子メール群の一致率の推定値pは0.06≦p≦0.20となる。図15に示すように、この場合推定値の範囲pが閾値pを含んでいるので、pの幅が閾値pを跨っているか否かの判断(S27)で、跨っていると判断される。この状態は、母集団(N通分)で一致率を導出したときに、その一致率が閾値を超える可能性もあれば、超えない可能性もあることを示している。従って、この時点では差出人情報に係る信頼性を評価することができない。そのため、情報抽出部41による判別用情報の送信(S22)の処理に戻り、次の電子メールの差出人情報をそれまで評価した差出人情報に加えて、上記の処理(S23〜S27)行い、再度差出人情報信頼性評価部43による判断を行う。
以上が本変形における差出人情報に係る信頼性の評価の処理である。引き続いて、別の変形例を説明する。この変形例においても、迷惑メール判別装置40は上記の変形例と同様に図12に示す構成をとる。上記との相違点は、差出人情報信頼性評価部43における差出人情報に係る信頼性の評価の処理の部分である。その相違点を中心に、図16のフローチャートを用いて説明する。
まず、上記の変形例と同様に、情報抽出部12による差出人情報の抽出(S21)及び差出人情報の送信(S22)、カウンタ42による電子メール数のカウント(S23)、差出人情報信頼性評価部43による契約情報と差出人情報との比較(S24)及び一致数のカウント(S25)が行われる。
続いて、差出人情報信頼性評価部43は、以下に説明するような統計的検定を用いた手法で、電子メール群の差出人情報に係る信頼性を評価する。まず、上述したのと同様に、信頼性評価の対象である電子メール群の信頼性を評価するための、電子メール群における一致率pの閾値pを求める。そのとき、次のような仮説が立てられる。
仮説H:p=p=0.15(上述の条件と同じ場合)
また、対立仮説を次のように設定する。
対立仮説H:p≧p=0.15(上述の条件と同じ場合)
ここで、仮説Hが棄却され、対立仮説Hが支持されれば、一致率pが閾値pを超えていると判断することができる(上側検定)。このとき統計量T(m)≧z(α)ならば、有意水準(危険率と同じ)αで仮説Hを棄却することができる。統計量T(m)は、以下のように表される。
Figure 0004669348
差出人情報信頼性評価部43は、上記の検定を行うために、n,m,pから統計量T(m)を算出する(S31)。続いて、差出人情報信頼性評価部43は、T(m)≧z(α)が成り立つか否かを判断する(S32)。なお、αの値は予め設定しておき、z(α)の値は、予め差出人情報信頼性評価部43に記憶させておく。
具体的には例えば、n=100,m=50,p=0.15,α=0.05であるとすると、T(m)≒9.8≧z(0.05)=1.64となり、仮説Hを棄却することができる。この例のように、上記の条件が成り立っていた場合、一致率pが閾値pを超えていると判断することができ、差出人情報信頼性評価部43は、電子メール群において差出人情報に係る信頼性は高い(=OK)、という評価を行う(S33)。
上記の条件が成り立たず、T(m)<z(α)となる場合、仮説Hを棄却することができない。即ち、一致率pが閾値pを超えているか否かは不明である。この状態は、母集団(N通分)で一致率を導出したときに、その一致率が閾値を超える可能性もあれば、超えない可能性もあることを示している。従って、この時点では差出人情報に係る信頼性を評価することができない。そのため、情報抽出部41による判別用情報の送信(S22)の処理に戻り、次の電子メールの差出人情報をそれまで評価した差出人情報に加えて、上記の処理(S23〜S25,S31〜)行い、再度差出人情報信頼性評価部43による判断を行う。なお上記は、差出人情報に係る信頼性が高い(=OK)ことを、統計的検定を用いて評価しているが、同様の手法で差出人情報に係る信頼性が低い(=NG)という評価を行ってもよい。
差出人情報に係る信頼性が評価された場合、信頼性の評価の処理を終了し差出人情報信頼性評価部43は、評価された信頼性を判定部17に送信する。判定部17では、この信頼性に基づいて、電子メール群がフィッシングメールか否かを判別する(上述した実施形態におけるS10〜S12の処理に対応する(図6参照)。)。
以上が本変形における差出人情報に係る信頼性の評価の処理である。引き続いて、更に別の変形例を説明する。この変形例においても、迷惑メール判別装置40は上記の変形例と同様に図12に示す構成をとる。上記との相違点は、差出人情報信頼性評価部43における差出人情報に係る信頼性の評価の処理の部分である。その相違点を中心に、図17のフローチャートを用いて説明する。
まず、上記の変形例と同様に、情報抽出部12による差出人情報の抽出(S21)及び差出人情報の送信(S22)、カウンタ42による電子メール数のカウント(S23)、差出人情報信頼性評価部43による契約情報と差出人情報との比較(S24)及び一致数のカウント(S25)が行われる。
続いて、差出人情報信頼性評価部43は、以下に説明するような条件付確率による背理法を用いた手法で、電子メール群の差出人情報に係る信頼性を評価する。この手法では、予め、抽出された差出人情報が契約情報に含まれるものと一致しない割合を仮定しておく。例えば、一致しない割合が10%を超えるとしておく。ここで、n通の電子メールの上記一致を判断したときに、この仮定の下で一致しない電子メールがそのn通に含まれる確率を考える。
この確率pは、母集団(N通分)の電子メール群(仮定から、一致しないメール数Mは少なくともM=0.1N通となる)から、n通を任意に判断したときに、全て一致する事象の余事象となるので、少なくとも次式のようになる。
Figure 0004669348

ここで、例えば、N=4500万とすると、n≧29で、p≧95%となる。
この例が意味していることは、29通以上チェックすれば、少なくとも1通一致しない電子メールが含まれる確率は95%(所定の閾値)以上である。逆に言えば、29通チェックして全て一致している場合は、初めの仮定「一致しない割合が10%を超える」が不適切だったといえる。従って、「信頼性評価の対象である電子メール群のうち10%を超える割合で一致しないメールが存在しない=当該電子メール群の一致しない割合が10%を下回る」とすることができる。
このロジックを用いれば、例えば4500通のメールのうち29通チェックして全て一致すれば、差出人情報に係る信頼性は高い(=OK)と評価することができる。このロジックを実現するために、差出人情報信頼性評価部43では、以下のような処理が行われる。
まず、差出人情報信頼性評価部43は、カウンタ42によりカウントされた電子メール数(一致を判断した数)nと一致数mとが同一であるか否か判断する(S41)。この手法は、一致を判断した数nと一致数mとが同一であることを前提としているので、同一でないと判断された場合は、差出人に係る信頼性は不明(S42)として、差出人情報信頼性評価部43での信頼性の評価は終了する。この手法を用いる場合は、その後の処理で差出人に係る信頼性は不明だった場合の扱いを定めておくのがよい。
同一であると判断された場合は、差出人情報信頼性評価部43は、式(7)に従って、n通に一致しない電子メールが含まれる確率を演算する(S43)。なお、上記の仮定における割合は予め設定しておき、差出人情報信頼性評価部43に記憶させておく。その際、割合の設定は、適切に信頼性の評価をできるものとしておく。また、母集団の電子メール数の数Nも、予め情報抽出部41等から取得しておく。
続いて、差出人情報信頼性評価部43は、その確率が95%(所定の閾値)以上であるか否かを判断する。95%以上であった場合、上記の理由により差出人情報信頼性評価部43は、電子メール群において差出人情報に係る信頼性は高い(=OK)、という評価を行う(S45)。差出人情報に係る信頼性が評価された場合、信頼性の評価の処理を終了し差出人情報信頼性評価部43は、評価された信頼性を判定部17に送信する。判定部17では、この信頼性に基づいて、電子メール群がフィッシングメールか否かを判別する(上述した実施形態におけるS10〜S12の処理に対応する(図6参照)。)。
95%以上でなかった場合は、この時点では差出人情報に係る信頼性を評価することができない。そのため、情報抽出部41による判別用情報の送信(S22)の処理に戻り、次の電子メールの差出人情報をそれまで評価した差出人情報に加えて、上記の処理(S23〜S25,S41〜)行い、再度差出人情報信頼性評価部43による判断を行う。以上が本変形における差出人情報に係る信頼性の評価の処理である。
上述したような、構成及び処理によれば、判別用情報に係る信頼性の評価の際に、判別用情報に係る処理数を減少させることができる。より具体的には、各信頼性評価手段による信頼性評価用データベース(契約情報データベース13及びアクセス回数データベース15)に格納された情報の参照、及び当該情報と判別用情報との比較の処理の回数を減少させることができる。引いては、迷惑メール判別装置40での処理を大幅に軽減させることができる。
例えば、上述した実施例では、母集団の電子メール数の数Nによらず、100通の電子メールの判別用情報の比較(及びそれに付随する信頼性評価データベースへのアクセス)により、信頼性の評価を行うことができる。一般に、フィッシングメール等の迷惑メールは、一度の送信で数百万から数千万通送られているといわれており、この総数をN=1000万としたとき、100通の比較で信頼性の評価ができ、引いては迷惑メールの判別ができれば、残りの990万通の比較を省略することができる。このため、全ての電子メールの判別用情報の参照及び比較を行っていた場合と比較して、信頼性の評価における処理の効率は1000万/100=10万倍となる。
なお、上記の変形例は全て差出人情報に係る信頼性を評価していたが、同様にURL情報信頼性評価部44によるURLに係る信頼性の評価を行ってもよい。その場合、上述した(変形例でない場合の)実施形態で説明したようにアクセス回数の分布で評価するのではなく、ユーザがその抽出したURLにアクセスしていたか否かを、抽出された差出人情報が契約情報に含まれるものと一致するか否かに対応させて、上記変形例を適用する。ユーザがその抽出したURLにアクセスしていたか否かは、URL情報信頼性評価部44がアクセス回数データベース15にアクセスすることにより判断される。
本発明の実施形態に係る迷惑メール判別装置の構成を示す図である。 電子メールの本文、及び本文に含まれる抽出される判別用情報の例を示した図である。 契約情報データベースのテーブルを示す図である。 アクセス回数データベースのテーブルを示す図である。 本発明の実施形態において迷惑メール判別装置で実行される処理を示すフローチャートである。 本発明の実施形態において迷惑メール判別装置で実行される処理を示すフローチャートである。 一致数xと確率P(x)との関係を示すグラフである。 一致数xと確率P(x)との関係を示すグラフである。 一致数xと確率P(x)との関係を示すグラフである。 電子メールの受信者のサイトへのアクセス回数の分布を示すグラフである。 フィッシング詐欺に用いられるサイトにおけるアクセス回数の分布を示すグラフである。 本発明の実施形態の変形例に係る迷惑メール判別装置の構成を示す図である。 本発明の実施形態の変形例に係る迷惑メール判別装置で実行される処理を示すフローチャートである。 一致数と電子メール数との関係を示すグラフである。 一致数と電子メール数との関係を示すグラフである。 本発明の実施形態の別の変形例に係る迷惑メール判別装置で実行される処理を示すフローチャートである。 本発明の実施形態の更に別の変形例に係る迷惑メール判別装置で実行される処理を示すフローチャートである。
符号の説明
10…迷惑メール判別装置、11…メール受信部、12…情報抽出部、13…契約情報データベース、14…差出人情報信頼性評価部、15…アクセス回数データベース、16…URL情報信頼性評価部、17…判別部、20…送信者通信端末、30…受信者通信端末、40…迷惑メール判別装置、41…情報抽出部、42…カウンタ、43…差出人情報信頼性評価部、44…URL情報信頼性評価部。

Claims (6)

  1. 電子メールを受信するメール受信手段と、
    前記メール受信手段により受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出手段と、
    前記判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続手段と、
    前記データベース接続手段により接続された信頼性評価用データベースに格納された情報を参照して、前記情報抽出手段により抽出された判別用情報に係る信頼性を評価する信頼性評価手段と、
    前記信頼性評価手段により評価された判別用情報に係る信頼性に基づいて、前記メール受信手段により受信された電子メールが迷惑メールか否かを判別する判別手段と、を備え、
    前記情報抽出手段により抽出される判別用情報には、前記電子メールの差出人を特定する差出人情報が含まれており、
    前記データベース接続手段により接続される信頼性評価用データベースには、前記電子メールの受信者と前記差出人との契約関係の情報が格納されており、
    前記信頼性評価手段は、同一の差出人情報を含む電子メール群における電子メールの受信者と前記差出人との間の契約関係の数に基づいて、当該電子メール群に対して、当該電子メール群に含まれる差出人情報に係る信頼性を評価し、
    前記判別手段は、前記電子メール群に対する前記信頼性評価手段により評価された差出人情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する、迷惑メール判別装置。
  2. 電子メールを受信するメール受信手段と、
    前記メール受信手段により受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出手段と、
    前記判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続手段と、
    前記データベース接続手段により接続された信頼性評価用データベースに格納された情報を参照して、前記情報抽出手段により抽出された判別用情報に係る信頼性を評価する信頼性評価手段と、
    前記信頼性評価手段により評価された判別用情報に係る信頼性に基づいて、前記メール受信手段により受信された電子メールが迷惑メールか否かを判別する判別手段と、を備え、
    前記情報抽出手段により抽出される判別用情報には、通信網上のサイトへアクセスするためのリンク情報が含まれており、
    前記データベース接続手段により接続される信頼性評価用データベースには、前記電子メールの受信者毎の前記サイトへのアクセス回数の情報が格納されており、
    前記信頼性評価手段は、同一のリンク情報を含む電子メール群における電子メールの受信者の前記サイトへのアクセス回数の分布に基づいて、当該電子メール群に対して、当該電子メール群に含まれるリンク情報に係る信頼性を評価し、
    前記判別手段は、前記電子メール群に対する前記信頼性評価手段により評価されたリンク情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する、迷惑メール判別装置。
  3. 前記情報抽出手段は、前記電子メールの本文から判別用情報を抽出することを特徴とする請求項1又は2に記載の迷惑メール判別装置。
  4. 前記情報抽出手段は、前記信頼性評価手段に抽出した判別用情報を順次送信し、
    前記信頼性評価手段は、前記情報抽出手段から判別用情報が送信される毎に、前記電子メール群のうちの、それまでに判別用情報が送信された電子メールから、予め設定された基準に基づいて、前記電子メール群に対する前記判別用情報に係る信頼性を評価することを特徴とする請求項1〜3の何れか一項に記載の迷惑メール判別装置。
  5. 迷惑メール判別装置における迷惑メール判別方法であって、
    電子メールを受信するメール受信ステップと、
    前記メール受信ステップにおいて受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出ステップと、
    前記判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続ステップと、
    前記データベース接続ステップにおいて接続された信頼性評価用データベースに格納された情報を参照して、前記情報抽出ステップにおいて抽出された判別用情報に係る信頼性を評価する信頼性評価ステップと、
    前記信頼性評価ステップにおいて評価された判別用情報に係る信頼性に基づいて、前記メール受信ステップにおいて受信された電子メールが迷惑メールか否かを判別する判別ステップと、を有し、
    前記情報抽出ステップにおいて抽出される判別用情報には、前記電子メールの差出人を特定する差出人情報が含まれており、
    前記データベース接続ステップにおいて接続される信頼性評価用データベースには、前記電子メールの受信者と前記差出人との契約関係の情報が格納されており、
    前記信頼性評価ステップにおいて、前記電子メール群における電子メールの受信者と前記差出人との間の契約関係の数に基づいて、同一の差出人情報を含む電子メール群に対して、当該電子メール群に含まれる差出人情報に係る信頼性を評価し、
    前記判別ステップにおいて、前記電子メール群に対する前記信頼性評価ステップにおいて評価された差出人情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する、迷惑メール判別方法。
  6. 迷惑メール判別装置における迷惑メール判別方法であって、
    電子メールを受信するメール受信ステップと、
    前記メール受信ステップにおいて受信された電子メールから、迷惑メールか否かの判別に用いる判別用情報を抽出する情報抽出ステップと、
    前記判別用情報に係る信頼性を評価するための、当該判別用情報に対応した情報が格納された信頼性評価用データベースに接続するデータベース接続ステップと、
    前記データベース接続ステップにおいて接続された信頼性評価用データベースに格納された情報を参照して、前記情報抽出ステップにおいて抽出された判別用情報に係る信頼性を評価する信頼性評価ステップと、
    前記信頼性評価ステップにおいて評価された判別用情報に係る信頼性に基づいて、前記メール受信ステップにおいて受信された電子メールが迷惑メールか否かを判別する判別ステップと、を有し、
    前記情報抽出ステップにおいて抽出される判別用情報には、通信網上のサイトへアクセスするためのリンク情報が含まれており、
    前記データベース接続ステップにおいて接続される信頼性評価用データベースには、前記電子メールの受信者毎の前記サイトへのアクセス回数の情報が格納されており、
    前記信頼性評価ステップにおいて、前記電子メール群における電子メールの受信者の前記サイトへのアクセス回数の分布に基づいて、同一のリンク情報を含む電子メール群に対して、当該電子メール群に含まれるリンク情報に係る信頼性を評価し、
    前記判別ステップにおいて、前記電子メール群に対する前記信頼性評価ステップにおいて評価されたリンク情報に係る信頼性に基づいて、当該電子メール群が迷惑メールか否かを判別する、迷惑メール判別方法。
JP2005235445A 2005-05-11 2005-08-15 迷惑メール判別装置及び迷惑メール判別方法 Expired - Fee Related JP4669348B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005235445A JP4669348B2 (ja) 2005-05-11 2005-08-15 迷惑メール判別装置及び迷惑メール判別方法
US11/431,840 US7890588B2 (en) 2005-05-11 2006-05-11 Unwanted mail discriminating apparatus and unwanted mail discriminating method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005138908 2005-05-11
JP2005235445A JP4669348B2 (ja) 2005-05-11 2005-08-15 迷惑メール判別装置及び迷惑メール判別方法

Publications (2)

Publication Number Publication Date
JP2006344197A JP2006344197A (ja) 2006-12-21
JP4669348B2 true JP4669348B2 (ja) 2011-04-13

Family

ID=37420445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005235445A Expired - Fee Related JP4669348B2 (ja) 2005-05-11 2005-08-15 迷惑メール判別装置及び迷惑メール判別方法

Country Status (2)

Country Link
US (1) US7890588B2 (ja)
JP (1) JP4669348B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904518B2 (en) * 2005-02-15 2011-03-08 Gytheion Networks Llc Apparatus and method for analyzing and filtering email and for providing web related services
US8775521B2 (en) * 2006-06-30 2014-07-08 At&T Intellectual Property Ii, L.P. Method and apparatus for detecting zombie-generated spam
JP2009093573A (ja) * 2007-10-12 2009-04-30 Obic Co Ltd 電子メール管理システム
US20140114839A1 (en) * 2009-06-19 2014-04-24 Neu Ip, Llc System and method for enhancing credit and debt collection
US10325227B2 (en) 2009-06-19 2019-06-18 Neu Ip, Llc System and method for enhancing credit and debt collection
US9544256B2 (en) * 2013-06-28 2017-01-10 Td Ameritrade Ip Company, Inc. Crowdsourcing e-mail filtering
US10404745B2 (en) * 2013-08-30 2019-09-03 Rakesh Verma Automatic phishing email detection based on natural language processing techniques
CN105072137B (zh) * 2015-09-15 2016-08-17 北京灵创众和科技有限公司 鱼叉式钓鱼邮件的检测方法及装置
JP6250778B1 (ja) * 2016-12-15 2017-12-20 楽天株式会社 メールサーバ装置、メールサービス方法、ならびに、プログラム
US10412032B2 (en) * 2017-07-06 2019-09-10 Facebook, Inc. Techniques for scam detection and prevention
US10891373B2 (en) 2017-08-31 2021-01-12 Micro Focus Llc Quarantining electronic messages based on relationships among associated addresses

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021623A (ja) * 2002-06-17 2004-01-22 Nec Soft Ltd ディレクトリサーバを利用した電子メールフィルタシステム及びサーバプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9901644L (sv) * 1999-05-06 2000-11-07 Posten Ab Förfarande för att sända post
US6507866B1 (en) * 1999-07-19 2003-01-14 At&T Wireless Services, Inc. E-mail usage pattern detection
US7092992B1 (en) * 2001-02-01 2006-08-15 Mailshell.Com, Inc. Web page filtering including substitution of user-entered email address
JP4007797B2 (ja) 2001-11-14 2007-11-14 日本電信電話株式会社 迷惑メール防止方法及びその実施装置並びにその処理プログラムと記録媒体
JP3871941B2 (ja) 2002-02-22 2007-01-24 日本電気通信システム株式会社 携帯電話のメールサーバーにおける迷惑メール自動処分方法、メールサーバー及びプログラム
JP3929464B2 (ja) 2002-07-22 2007-06-13 富士通株式会社 電子メールサーバ、電子メールの受渡しの中継方法、およびコンピュータプログラム
US7224778B2 (en) * 2003-12-30 2007-05-29 Aol Llc. Method and apparatus for managing subscription-type messages
JP2005208780A (ja) * 2004-01-21 2005-08-04 Nec Corp メールフィルタリングシステム及びそれに用いるurlブラックリスト動的構築方法
US7647321B2 (en) * 2004-04-26 2010-01-12 Google Inc. System and method for filtering electronic messages using business heuristics
US20060069732A1 (en) * 2004-09-07 2006-03-30 Marvin Shannon Systems and Methods to Rank Electronic Messages and Detect Spammer Probe Accounts
US7610344B2 (en) * 2004-12-13 2009-10-27 Microsoft Corporation Sender reputations for spam prevention

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021623A (ja) * 2002-06-17 2004-01-22 Nec Soft Ltd ディレクトリサーバを利用した電子メールフィルタシステム及びサーバプログラム

Also Published As

Publication number Publication date
US20060259561A1 (en) 2006-11-16
JP2006344197A (ja) 2006-12-21
US7890588B2 (en) 2011-02-15

Similar Documents

Publication Publication Date Title
JP4669348B2 (ja) 迷惑メール判別装置及び迷惑メール判別方法
US20240236023A1 (en) Multi-level security analysis and intermediate delivery of an electronic message
US8661545B2 (en) Classifying a message based on fraud indicators
KR101476611B1 (ko) 전자메시지 인증
US9130989B2 (en) Securing email communications
US8370948B2 (en) System and method for analysis of electronic information dissemination events
US7949716B2 (en) Correlation and analysis of entity attributes
US20120239751A1 (en) Multi-dimensional reputation scoring
CN101558398A (zh) 基于被引用资源的概率分析检测不想要的电子邮件消息
US20190306192A1 (en) Detecting email sender impersonation
CN109039874B (zh) 一种基于行为分析的邮件审计方法及装置
CN110061981A (zh) 一种攻击检测方法及装置
JP4670049B2 (ja) 電子メールフィルタリングプログラム、電子メールフィルタリング方法、電子メールフィルタリングシステム
WO2018081016A1 (en) Multi-level security analysis and intermediate delivery of an electronic message
CN115037542A (zh) 一种异常邮件检测方法及装置
KR101605764B1 (ko) 지능형 지속 위협 탐지를 위한 이력 비교 시스템 및 방법
US20230412625A1 (en) System and Method for Determining If a Sender's Email is being Eavesdropped On
Dantu et al. Classification of phishers
KR20230143401A (ko) 악성메일 분류방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees