以下、図面にしたがって本発明の実施の形態について説明する。ただし、本発明の技術的範囲はこれらの実施の形態に限定されず、特許請求の範囲に記載された事項とその均等物まで及ぶものである。
[メールチェック装置200の構成]
図1は、本実施の形態例におけるメールチェック装置200の構成の一例を示す図である。本実施の形態例におけるメールチェック装置200は、例えば、メールチェック部10、メーラー21、アラートユーザインターフェ−ス22を有する。メールチェック装置200は、インターネットを介して、他のメールサーバ100と接続される。なお、本実施の形態例におけるメールチェック装置200は、サーバ側、クライアント側のいずれにあってもよい。
本実施の形態例におけるメールチェック部10は、受信対象のメールを検出すると、受信対象のメールと正規の受信済みのメールとの特徴情報を比較して類似度を求める。そして、メールチェック部10は、類似度が低い受信対象メールについて、非正規のメール、即ち、標的型攻撃メールである可能性があるとして、アラートユーザインターフェ−ス22等を介して、表示画面等に警告情報を通知する。受信者(以下、ユーザ)は、受信対象のメールについて警告情報が通知されると、受信対象メールを確認する。そして、ユーザは、受信対象メールについて、標的型攻撃メールであると判定した場合は受信を許可しない。
図1のメールチェック部10は、例えば、メールサーバ11、メール受信装置12、メール特徴抽出部13、標的型攻撃メール検出部14、アラート発生部15、特徴情報DBd1、送信者毎の重み係数情報d2、表記揺れ辞書d3を有する。メール受信装置12は、受信対象のメールを検知し、メールサーバ11に通知する。メールサーバ11は、メールの送受信に係る制御を行うと共に、受信対象のメールが検知されると、標的型攻撃メール検出部14を呼び出す。
標的型攻撃メール検出部14は、受信対象のメールのメールヘッダーに含まれる特徴情報を抽出すると共に、特徴情報DBd1を参照して受信対象メールと同一の送信元アドレスの正規の受信済みメールの特徴情報を読み出す。そして、標的型攻撃メール検出部14は、受信対象のメールと受信済みのメールとの特徴情報の類似度を求め、類似度が基準類似度未満の場合、アラート発生部15に受信対象メールを警戒メール候補として通知する。アラート発生部15は、通知された警戒メール候補の情報をアラートユーザインターフェ−ス22に表示させる。
メール特徴抽出部13は、正規の受信済みメール毎に、各メールのメールヘッダーに含まれる特徴情報を抽出し特徴情報DBd1を生成する。また、メール特徴抽出部13は、表記揺れ語句のリストである表記揺れ辞書d3を有する。メール特徴抽出部13は、表記揺れ辞書d3を参照して、メールヘッダーに含まれるタイトル情報が有する表記揺れ語句を特徴情報として検出する。詳細については後述する。
また、送信者重み係数情報d2は、送信元アドレス毎の複数の特徴情報それぞれについて重み係数を有する。標的型攻撃メール検出部14は、それぞれの特徴情報に対応する重み係数情報d2を参照し類似度の算出時に反映する。
このように、本実施の形態例におけるメールチェック部10は、正規の複数の受信済みメールについて、メールのメールヘッダーに含まれる複数の特徴情報を抽出し、特徴情報DBd1を生成する。そして、メールチェック部10は、受信する対象メールのメールヘッダーに含まれる特徴情報と、特徴情報DBd1から参照される受信対象メールと送信元アドレスが同一の複数の受信済みメールの特徴情報との類似度を判定する。そして、メールチェック部10は、類似度が基準類似度未満の場合に、受信対象のメールを警戒メール候補として検出する。
ここで、特徴情報について説明する。
[特徴情報]
特徴情報とは、メールのメールヘッダーに含まれる情報の一部を示す。本実施の形態例では、特徴情報とは、例えば、送信元メールサーバのIPアドレス、送信元メールサーバのドメイン情報、タイムゾーン情報、送信者が使用するメーラーのソフトウェア種別、送信曜日、送信時刻、タイトル情報におけるパターン情報、宛先情報等を示す。これらの特徴情報のうちいずれかの複数の特徴情報が、受信対象メールと受信済みメールとの間で比較される。比較処理の具体例については、フローチャート図に基づいて後述する。
続いて、ここでメールヘッダーの具体例について説明する。
[メールヘッダー]
図2は、メールヘッダーMhの一例を示す図である。同図のメールヘッダーMhは、例えば、アドレス「bbbbb@domain2.com」から、アドレス「aaaaa@domain1.com」に送信された受信対象メールのメールヘッダーMhの一例である。
図2のように、メールヘッダーMhは、例えば、「From」、「Sender」、「To」、「Subject」、「Message−ID」、「Date」、「Received」、「Reply−To」、「X−Mailer」等の項目を含む。ただし、メールヘッダーMhに含まれる情報及びその書式は、メーラーのソフトウェアの種別によって異なるため、図2の例に限定されるものではない。
具体的に、From情報は送信元アドレスを、To情報は宛先アドレスを示す。Reply−To情報はメールの返信先を示し、Subject情報はメールのタイトル情報を示す。また、Message−ID情報は、メールを特定するためのユニークな識別IDであって、送信日付、時刻、送信元メールサーバのドメイン等の情報に基づいて生成される情報を示す。また、Date情報はメールの送信日時、X−Mailer情報は、メール送信者が使用するメーラーのソフトウェア名を示す。
そして、Received情報は、メールの経路サーバのIPアドレス及びドメイン名、送信元サーバのIPアドレス及びドメイン名の情報を示す。Received情報は、経路したサーバの数分、下から順に記録される。つまり、一番下のReceived情報が送信元で、一番上のReceived情報が自身のメールサーバを示す。この例において、1行目のReceived情報は、受信サーバの記録を、2行目のReceived情報は、送信サーバの記録を示す。Received情報のフォーマットは、例えば、「Received:fromサーバ[IPアドレス]by受信サーバ名[with転送プロトコル]idユニークID for宛先メールアドレス:処理日時」である。処理日時には、経由サーバの送信曜日情報、送信時刻情報、タイムゾーン情報が含まれる。
図2のメールヘッダーMhの例によると、From情報H1に基づいて送信元アドレスが「bbbbb@domain2.com」、To情報H3に基づいて送信先アドレスが「aaaaa@domain1.com」であることがわかる。また、Date情報H8に基づいて、送信日時が2010年11月22日(月)の10:02:13(中国時間)であることが判明する。同様にして、Subject情報H2に基づいて、メールのタイトルが「次回−打ち合わせについて」であり、X-Mailer情報H8に基づいて、メール送信時に使用されたソフトウェアがFoxmailであることがわかる。また、Message−ID情報H7に基づいて、送信元のメールサーバのドメインがdomain2.comであることがわかる。
また、図2のメールヘッダーMhにおける1番目のReceived情報H11に基づいて、2010年11月22日(月)の10:02:13(日本時間)に、宛先aaaaa@domain1.comのメールを、IPアドレスx0.26.xxx.xxxの受信サーバreceivehost.co.jpから受信したことがわかる。そして、2番目のReceived情報H12に基づいて、2010年11月22日(月)の10:02:13(中国時間H4)に、サーバreceivehost.co.jpによって、IPアドレス210.xxx.xxx.226(H5)の送信元サーバsendhost.co.jpからメールを受信したことがわかる。
このように、図2で示したようなメールのメールヘッダーMhから、複数の種別の特徴情報が検出される。続いて、それぞれの特徴情報について、具体例に基づいて説明する。
[特徴情報:送信日時]
図3は、受信済みメールから抽出された送信日時(特徴情報)の具体例を示す図である。同図のリストL1は、3つの送信元アドレスsuzuki、tanaka、itpml2の受信済みメールのメールヘッダーに含まれる送信日時の具体例を示す。この例において、送信元アドレスは、例えば、suzukiのように、メールアドレスにおけるローカル部(@以前の情報)として表される。図2で前述したとおり、送信日時は、Date情報に基づいて取得される。
例えば、図3の日時リストL1における情報L1−1は、送信元アドレスitpml2の受信済みメールが、2012年3月1日の12時41分に送信されたことを示す。同様にして、日時リストL1における情報L1−2は、送信元アドレスsuzukiの受信済みメールが、2012年3月1日の10時14分に送信されたことを示す。このように、それぞれの受信済みメールに基づいて、送信日時、時刻に含まれる送信時刻、送信曜日等が特徴情報として抽出される。
また、図3のグラフ時刻tg1〜tg3は、同図のリストL1に基づいて、送信元アドレス別に、送信時刻毎の受信済みメール数がグラフ化された図である。時刻グラフtg1〜tg3の横軸は送信時刻を、縦軸は受信メール数を示す。そして、同図の曜日グラフwg1〜wg3は、リストL1に基づいて、送信元アドレス別に、送信曜日毎の受信済みメール数がグラフ化された図である。曜日グラフwg1〜wg3の横軸は送信曜日を、縦軸は受信メール数を示す。
まず、送信元アドレスtanakaの送信日時について説明する。送信元アドレスtanakaの時刻グラフtg1によると、送信元アドレスtanakaからの受信済みメールは、全て、8時から10時近くに送信されている。一方、送信元アドレスtanakaの曜日グラフwg1によると、送信元アドレスtanakaからの受信済みメールは、月曜日から金曜日まで偏りなく送信されている。つまり、送信元アドレスtanakaからの受信済みメールは、月曜日から金曜日のいずれかの曜日に、8時から10時近くに送信される傾向を有する。
続いて、送信元アドレスsuzukiの送信日時について説明する。送信元アドレスsuzukiの時刻グラフtg2によると、送信元アドレスsuzukiからの受信済みメールは、時刻に偏りなく送信されている。また、送信元アドレスsuzukiの曜日グラフwg2によると、送信元アドレスsuzukiからの受信済みメールは、月曜日から土曜日の間、偏りなく送信されている。このため、送信元アドレスsuzukiの受信済みメールについて、送信時刻、送信曜日のばらつき度合いは大きい。
続いて、送信元アドレスitpml2の送信日時について説明する。送信元アドレスitpml2の時刻グラフtg3によると、送信元アドレスitpml2からの受信済みメールは、全て12時に送信されている。また、送信元アドレスitpml2の曜日グラフwg3によると、送信元アドレスitpml2からの受信済みメールは、必ず水曜日または金曜日かに送信されている。このため、送信元アドレスitpml2の受信済みメールについて、送信時刻、送信曜日のばらつき度合いは小さい。送信元アドレスitpml2の受信済みメールは、例えば、メールマガジン等の定期送信メールである。
このように、それぞれの受信済みメールから、メールヘッダーMhに基づいて、送信日時に含まれる送信時刻や送信曜日が特徴情報として取得される。送信時刻、送信曜日の特徴的傾向や情報のばらつき度合いは、送信者、即ち、送信元アドレスによって異なる。また、送信日時は、第3者によってなりすましし難い情報である。このため、タイトル情報に含まれる送信日時情報が特徴情報として比較の対象とされることによって、より細やかな類似判定を可能にする。
なお、図3の例では、送信時刻を時間単位の情報として抽出する例について述べたが、送信時刻は時間帯単位の情報として抽出されてもよい。この場合、送信時刻は、例えば、就業時間内、就業時間外の時間帯、深夜時間帯のように、時間帯の情報として取得される。
[特徴情報:タイトル情報におけるパターン情報]
図4は、受信済みメールに基づいて取得されるタイトル情報に含まれるパターン情報の具体例と表記揺れ辞書d3の例を示す図である。同図のリストL2−1〜L2−3は、3つの送信元アドレスsuzuki、tanaka、itpml2の受信済みメールのメールヘッダーが含むタイトル情報の具体例を示す。図2で前述したとおり、タイトル情報はSubject情報に基づいて取得される。パターン情報は、例えば、表記揺れ語句や、接頭、接尾語句を示す。
図4における表記揺れ辞書d3は、表記揺れの発生し易い語句が予め登録される辞書である。表記揺れとは、同音、同意味の1つの語句について異なる文字表記が存在することを指す。表記揺れ語句とは、例えば、括弧の種別や記号種別、記号の全角、半角の揺れ等である。具体的に、表記揺れ語句は、「サーバー」と「サーバ」、「打ち合わせ」と「打合せ」、「−(全角)」と「-(半角)」、「『』」と「[]」等である。
同一送信元アドレスの正規の受信済みメールにおけるタイトル情報は、送信者の語句の選択の傾向的特性を有する。このため、同一送信元アドレスの正規の受信済みメールにおけるタイトル情報には、同一の表記揺れ語句や接頭、接尾語句が存在することが多い。また、同一送信元アドレスのメールマガジン等のタイトル情報にも、共通の接頭、接尾語句が存在する。
まず、送信元アドレスtanakaからの受信済みメールのタイトル情報リストL2−1について説明する。タイトル情報のリストL2−1におけるタイトル情報T1は、表記揺れ辞書d3に含まれる表記揺れ語句「−(半角ハイフン)」を有する。そこで、タイトル情報T1から半角文字のハイフンが特徴情報として抽出される。また、タイトル情報T1には、他の受信済みメールと共通の接頭語句「☆業務」が含まれる。そこで、タイトル情報T1に基づいて、接頭語句「☆業務」についても特徴情報として抽出される。他の同一送信元アドレスの受信済みメールについても、同様にして、それぞれのタイトル情報に基づいて特徴情報が抽出される。
続いて、送信元アドレスsuzukiからの受信済みメールのタイトル情報リストL2−2に基づいて説明する。タイトル情報のリストL2−2におけるタイトル情報T2には、表記揺れ語句「打合せ」、「: (半角コロン)」、「−(半角ハイフン)」が含まれる。そこで、タイトル情報T2から、「打合せ」、「: (半角コロン)」「−(半角ハイフン)」が特徴情報として抽出される。他の受信済みメールについても、同様にして、タイトル情報に基づいて特徴情報が抽出される。
そして、送信元アドレスitpml2からの受信済みメールのタイトル情報リストL2−3に基づいて説明する。タイトル情報のリストL2−3におけるタイトル情報T3には、表記揺れ語句(『』)、及び、接尾語句「X通信News−号」が含まれる。そこで、タイトル情報T3から、「『』」、「X通信News−号」が特徴情報として抽出される。他の受信済みメールについても、同様にして、それぞれのタイトル情報に含まれるパターン情報が特徴情報として抽出される。
このように、それぞれの受信済みメールに基づいて、タイトル情報に含まれる表記揺れや接頭、接尾語句等のパターン情報が特徴情報として取得される。また、タイトル情報におけるパターン情報は、送信者によって傾向が異なるものの、第3者によってなりすましし難い情報である。このため、タイトル情報におけるパターン情報が特徴情報として比較の対象とされることによって、より綿密で柔軟な類似判定が可能となる。
[特徴情報:宛先情報]
図5は、受信済みメールに基づいて取得される宛先情報の具体例を示す図である。同図の宛先情報リストL3−1〜L3−3は、3つの送信元アドレスsuzuki、tanaka、itpml2の受信済みメールのメールヘッダーが含む宛先情報の具体例を示す。宛先情報はメールヘッダーにおけるTo情報、Cc情報に基づいて取得される。同図の例では、宛先を示すアドレスは、例えば、佐藤、山田B、Mgm−mlのように、識別し易い名前によって表されている。
具体的に、送信元アドレスtanakaからの受信済みメールの宛先情報リストL3−1における一番目の宛先情報によると、Toに佐藤、Ccに山田BとMgm−mlが指定される。同様にして、送信元アドレスsuzukiからの受信済みメールの宛先情報リストL3−2における一番目の宛先情報によると、Toに佐藤、Ccに山本Bと鈴木(送信者自身)が指定される。
図5の宛先情報リストL4−1〜L4−3は、宛先情報リストL3−1〜L3−3が有する宛先情報のパターンを示す。例えば、送信元アドレスtanakaの宛先情報リストL3−1は、Toに佐藤、Ccに山田BとMgm−mlが指定される宛先情報を多数有する。また、送信元アドレスsuzukiの宛先情報リストL3−2は、Toに佐藤、Ccに山本Bと鈴木が指定される宛先情報を多数有する。同様にして、送信元アドレスitpml2の宛先情報リストL3−3は、Toに佐藤、田中、鈴木、Ccに加藤が指定される宛先情報を多数有する。
このように、それぞれの受信済みメールに基づいて、宛先情報に含まれるTo情報、Cc情報が特徴情報として取得される。また、宛先情報には、送信元アドレス毎に、高頻度に指定される宛先情報のパターンが存在することがある。
なお、宛先情報リストL3−2において、Ccに指定された鈴木は、送信者自身のメールアドレスを示す。これは、送信者自身にメールを送信する場合を示す。一般的に、標的型攻撃メールでは、Ccに送信者のメールアドレスが指定され難い。送信者が詐称される標的型攻撃メールは、Ccに送信元メールアドレスや他のアドレスが指定されることにより、早期に検知される可能性を高めてしまうためである。このため、本実施の形態例では、To情報に加えてCc情報についても、特徴情報として比較判定の対象とされることによって、標的型攻撃メールの検知の精度が向上する。
[特徴情報:送信元IPアドレス]
図6は、受信済みメールに基づいて取得される送信元サーバのIPアドレスの具体例L5、及び、経由タイムゾーンの具体例L6を示す図である。同図のリストL5は、3つの送信元アドレスsuzuki、tanaka、itpml2の受信済みメールのメールヘッダーが含む送信元サーバのIPアドレスの具体例を示す。図2で前述したとおり、2行目のReceived情報は送信サーバの記録を示し、送信サーバのIPアドレス情報が含まれる。
例えば、図6のIPアドレスリストL5の情報L5−1は、送信元アドレスitpml2の受信済みメールが、IPアドレス「x0.26.0.***(上位3レベル)」のサーバから送信されたことを示す。この例において、IPアドレスにおける*は、比較対象外の値を示す。同様にして、IPアドレスリストL5の情報L5−2は、送信元アドレスsuzukiの受信済みメールが、IPアドレス「x4.65.5.***」のサーバから送信されたことを示す。
図6の例では、送信サーバのIPアドレスは、上位の3レベルの情報が特徴情報として取得される。このように、本実施の形態例において、送信サーバのIPアドレスにおける上位の所定レベルが特徴情報として取得される。例えば、「x4.65.***.***」のように、上位の2レベルの情報が特徴情報として取得されてもよい。送信サーバのIPアドレスの下位レベルは、IPアドレスが動的に割り当てられる場合や、送信サーバが分散運用される場合、変動し易いためである。
また、会社と自宅のように複数の送信サーバによって、同一の送信元アドレスからメールが送信される場合、正規の受信済みメールであっても送信元サーバのIPアドレスは異なる。ただし、このような場合、送信元サーバのIPアドレスは、会社と自宅から送信する場合における2パターンのIPアドレスに限定されることになる。
このように、それぞれの受信済みメールに基づいて、Receive情報に含まれる送信元サーバのIPアドレス情報(この例では、上位3レベル)が特徴情報として抽出される。また、IPアドレス情報は、送信元アドレス毎に、特定のパターンに限定され易い情報であるため、特徴情報として比較の対象とされることによって、標的型攻撃メールの検知の精度が向上する。
[特徴情報:経由タイムゾーン]
また、図6のリストL6は、3つの送信元アドレスsuzuki、tanaka、itpml2の受信済みメールのメールヘッダーが含む経由タイムゾーンの具体例を示す。経由タイムゾーンは、発信元の送信サーバから受信サーバまでに経由される1つまたは複数のサーバのReceived情報に含まれるタイムゾーン情報に基づいて取得される。
例えば、図6の経由タイムゾーンリストL6の情報L6−1は、送信元アドレスsuzukiの受信済みメールが、+0800(中国)のタイムゾーンのサーバを経由して送信されたことを示す。同様にして、経由タイムゾーンリストL6の情報L6−2は、送信元アドレスsuzukiの受信済みメールが、タイムゾーン+0800(中国)のサーバ、及び、タイムゾーン+0900(日本)のサーバを経由して送信されたことを示す。
このように、それぞれの受信済みメールに基づいて、経由サーバ情報(Receive情報)に含まれる各タイムゾーン情報が特徴情報として抽出される。標的型攻撃メールは、海外のサーバを経由して送信される場合がある。このため、受信対象メールの経由サーバのタイムゾーンが特徴情報として比較の対象とされることによって、標的型攻撃メールの検知の精度が向上する。
[特徴情報:使用メーラー]
図2で前述したとおり、使用メーラーの情報はX−Mailer情報に基づいて取得される。メール送信時に使用するメーラーのソフトウェアは、送信者によって、ほとんど変化しないことが一般的である。このため、同一の送信元アドレスの受信済みメールに基づいて取得される使用メーラーの情報は、同一である可能性が高い。このため、使用メーラー情報が特徴情報として比較の対象とされることによって、標的型攻撃メールの検知の精度が向上する。
[特徴情報:組み合わせ情報]
図7は、受信済みメールに基づいて取得される組み合わせ特徴情報の具体例を示す図である。同図のメールヘッダーMhは、図2のメールヘッダーMhと同一である。同図における送信元サーバのドメイン情報H7と、送信元サーバのIPアドレスH5と、送信元サーバのタイムゾーンH4は、メールの送信元環境に係る情報(送信元情報)を示す。同図では、これらの送信元情報のうち、複数の送信元情報を組み合わせた特徴情報(組み合わせ特徴情報)について説明する。
標的型攻撃メールは正規の送信者を詐称して送信される。このため、標的型攻撃メールと正規の受信済みメールとでは、組み合わせ特徴情報のうち一部の送信元情報が一致したとしても、複数の送信元情報の組み合わせは一致し難い。一方、送信元アドレスが同一の正規の受信済みメール間では、複数の送信元情報の組み合わせは一致する。また、たとえ、自宅と会社のように、複数の拠点のサーバによって同一の送信元アドレスから送信された正規の受信済みメールであっても、送信元情報の組み合わせは特定パターンに限定される。このため、特徴情報として、組み合わせ特徴情報が比較の対象とされ類似度に反映されることによって、標的型攻撃メールの検知の精度が向上する。
図7の表L7は、組み合わせ特徴情報として、送信元サーバのドメイン、IPアドレス、タイムゾーンの組み合わせの一例を示す。例えば、表L7におけるL7−1には、タイムゾーンが日本であって、ドメインがaaa.xx.com、IPアドレスが「x21.23.01.***(上位3レベル)」の組み合わせが例示されている。このように、送信元アドレスに対して、送信元サーバのドメイン、IPアドレス、タイムゾーンは特定パターンに限定される。このため、例えば、受信対象メールのメールヘッダーMhにおいて、送信元サーバのドメイン、IPアドレス、タイムゾーンの一部が詐称されている場合であっても、組み合わせ特徴情報として一致せず類似度に反映される。
図3〜図7で説明してきたとおり、受信済みメールのメールヘッダーMhに基づいて複数の特徴情報が抽出される。複数の正規の受信済みメールに基づいて、受信済みメールそれぞれについて特徴情報が抽出され特徴情報DBd1が生成される。続いて、受信済みメールのメールヘッダーMhに基づいて生成された特徴情報DBd1の一例について説明する。
[特徴情報DBd1の具体例]
図8は、特徴情報DBd1の具体例を示す図である。同図の特徴情報DBd1は、例えば、送信元メールアドレス毎に、送信元サーバのIPアドレス、タイムゾーン、送信時間帯、使用メーラー、経由タイムゾーン、送信元サーバのドメイン情報、To情報、Cc情報、タイトル情報におけるパターン情報を特徴情報として有する。ただし、特徴情報DBd1が有する特徴情報の例は、この例に限定されるものではない。
図8の例において、メールアドレスは、例えば、ID4、ID20のように表わされる。また、同図の特徴情報DBd1は、時間帯、及び使用メーラーの情報を、数値等の簡易な情報に変換して保持する。例えば、時間帯に係る値1は8時〜10時を、値2は10時〜12時を示す。また、例えば、使用メーラーに係る値1はFoxmail、値2はThunderbirdを示す。
また、図8の特徴情報DBd1は、サブジェクト情報についても、数値等の簡易な情報に変換して保持する。例えば、サブジェクト情報(1,1)における1番目の引数の値1は「−(ハイフン)」、2番目の引数の値1は全角文字であることを示す。同様にして、例えば、サブジェクト情報(1,2)における1番目の引数の値1は「(ハイフン)」、2番目の引数の値2は半角文字であることを示す。また、例えば、サブジェクト情報(7,7)は、接頭語句「X通信」を示す。
図8の特徴情報DBd1において、ID=1の特徴情報は、1つの受信済みメールのメールヘッダーに基づいて抽出された特徴情報の例を示す。具体的に、ID=1の受信済みメールから抽出される特徴情報について、送信元アドレスはID4、送信元サーバのIPアドレスにおける上位3レベルは「x8.103.124.***」、時間帯は2(10時〜12時)、使用メーラーは1(Foxmail)であることを示す。さらに、経由タイムゾーンは+0900(日本)のみであり、送信元サーバのドメインは「aaaa.bbbb.com」、Toに受信者に加えてアドレスID31が指定され、CcにアドレスID4(送信者自身)が指定されることを示す。また、タイトル情報に「−(全角のハイフン)」に加え、接頭語句「X通信」を含むことを示す。
このように、各受信済みメールに基づいて、それぞれ特徴情報が抽出される。図8の特徴情報DBd1における他の受信済みメールに基づいて抽出される特徴情報についても同様である。
なお、図8の特徴情報DBd1は、例えば、直近の一定期間内に受信したメール、または、直近の一定量の受信済みメールのいずれかまたは両方の受信済みメールに基づいて生成される。ただし、メールの送信元アドレスによって送信頻度が異なることから、直近の一定期間内に受信したメールに基づくと抽出対象の受信済みメールの数が十分ではないことがある。そのため、直近の一定量の受信済みメールが抽出の対象とされてもよい。
また、受信済みメールに基づいて抽出される特徴情報は、メール送信者の環境の変化によって変移することがある。例えば、メール送信者の転勤や部署異動が発生した場合、送信元サーバのIPアドレスや、ドメイン情報、宛先情報等の特徴情報が変化する可能性がある。そこで、特徴情報の変化が適宜反映されるように、特徴情報DBd1は、定期的に更新されることが望ましい。これにより、適宜更新された特徴情報DBd1に基づいて、受信対象メールと受信済みメールとの類似度がタイムリーに判定される。
続いて、本実施の形態例におけるメールチェック処理の流れについて、フローチャート図に基づいて説明する。
[フローチャート:類似判定処理の流れ]
図9は、本実施の形態例のメールチェック装置200における類似判定処理の流れを説明するフローチャート図である。同図の処理において、メール特徴抽出部13によって、例えば、直近の一か月の正規の受信済みメールに基づいて、特徴情報DBd1が生成されているものとする。
メールチェック部10のメール受信部が受信対象のメールを検出すると(S11)、メールチェック部10の標的型攻撃メール検出部14は、受信対象メールと送信元アドレスが同一、即ち、同一送信者の受信履歴があるか否かを判定する(S12)。受信履歴は、特徴情報DBd1が特徴情報の抽出の対象とした受信メールのリストを示す。同一送信者の受信履歴がある場合(S12のYES)、標的型攻撃メール検出部14は、受信対象のメールと、同一送信者のN個(i=1〜N)の受信済みのメール(hi〜hN)とをそれぞれ比較する。
図9のフローチャート図では、受信対象メールがN個の受信済みメールそれぞれと比較され、受信対象メールとの総一致量値simが基準一致量値thを超える受信済みメール(類似受信済みメール)の数SNが類似度として判定される。そして、類似受信済みメールの数SNが基準類似度mmを越える場合に、受信対象メールが正規メールと判定される。基準一致量値th、及び、基準数mmは、予め定められる(S13)。また、初め、類似受信対象メールの数mmは0個に初期化されている(S14)。
標的型攻撃メール検出部14は、受信対象メールと送信元アドレスが同一の複数の受信済みメールとをそれぞれ比較して、総一致量値simを算出する(S15)。続いて、標的型攻撃メール検出部14は、算出した総一致量値simが基準一致量値thを超えるか否かを判定する(S16)。基準一致量値thを超える場合(S16のYES)、標的型攻撃メール検出部14は、基準一致量値thを超える類似受信済みメールカウントSNをカウントアップする(S17)。次に、標的型攻撃メール検出部14は、類似受信済みメール数SNが基準類似度mmを超えるか否かを判定する(S18)。
類似受信済みメール数SNが基準類似度を超えない場合(S18のNO)、または、総一致量値simが基準一致量値thを超えない場合(S16のNO)、標的型攻撃メール検出部14は、変数iをインクリメントし、送信元アドレスが同一の次の受信済みメールを判定の対象とする(S19)。判定済みの受信済みメール数(i)がN個に達していない場合(S20のNO)、標的型攻撃メール検出部14は、同様にして、受信済みメールと受信対象メールとの類似度を算出し(S15)、類似度の判定を行う。
一方、類似受信済みメール数SNが基準類似度mmを超える場合(S18のYES)、正規の受信済みメールとの特徴情報の類似度が高いことから、正規メールであると判定される。そこで、標的型攻撃メール検出部14は、当該受信対象メールの情報を受信履歴情報に追加し、特徴情報DBd1の抽出対象とする(S24)。そして、メールサーバは、受信対象メールを受信する(S25)。
工程S12の判定に戻り、同一送信者の受信履歴がない場合(S12のNO)、特徴情報DBd1に同一送信者の受信済みメールの特徴情報がないことを示す。即ち、受信対象メールが新規送信者からメールであることを示す。そこで、アラート発生部15は、新規送信者からのメールであり、ユーザによる確認が必要なメールであるとして警告情報を表示する(S21)。このように、本実施の形態例において新規送信者からのメールの場合、特徴情報DBに受信済みメールの特徴情報がないことから警告情報が表示されるが、新規送信者からのメールに対する警告情報の表示の抑制方法については別途検討される。
また、工程S20において、判定済みの受信済みメール数がN個に達した場合(S20のYES)、類似受信済みメール数SNが基準類似度mmを超えない間に(S18のNO)、即ち、正規メールであると判定されない間に、送信元アドレスが同一の全ての受信済みメールについて判定されたことを示す。そこで、アラート発生部15は、受信対象メールと類似する受信済みメールが存在していない旨の警告情報を表示する(S22)。
受信対象メールが新規送信者からのメールである旨の警告情報(S21)、または、受信対象メールが類似度を満たしていない旨の警告情報(S22)が表示画面等に表示されると、ユーザは、受信対象メールの受信を許可するか否かを判定する(S23)。受信対象メールの受信が許可された場合(S23のYES)、標的型攻撃メール検出部14は、当該受信対象メールの情報を受信履歴情報に追加し(S24)、メールサーバは受信対象メールを受信する(S25)。一方、受信対象メールの受信が許可されない場合(S23のNO)、標的型攻撃メール検出部14は、受信対象メールを破棄する(S26)。ただし、標的型攻撃メール検出部14は、受信対象メールに対して安全化処理を行った上で、安全化処理後の受信対象メールを受信してもよい。安全化処理とは、例えば、添付ファイルの削除や本文への警告文の追加、本文におけるリンク削除等である。
続いて、図9のフローチャート図における工程S15における総一致量値simの算出処理について、次のフローチャート図に基づいて説明する。
[フローチャート:総一致量値simの算出処理の流れ]
図10は、受信対象メールと受信済みメールとの特徴情報の総一致量値simの算出処理を説明するフローチャート図である。初めに、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれるDate情報に基づいて、送信日時情報を取得する(S32)。続いて、標的型攻撃メール検出部14は、取得した送信日時情報における送信曜日が、比較対象の受信済みメールから抽出された送信曜日と一致するか否かを判定する(S33)。
標的型攻撃メール検出部14は、一致する場合(S33のYES)、変数Scoreに値5を加算し(S34)、一致しない場合(S33のNO)、変数Scoreに加算を行わない。続いて、標的型攻撃メール検出部14は、取得した送信日時情報における送信時間帯が、比較対象の受信済みメールにおける送信時間帯と一致するか否かを判定する(S35)。標的型攻撃メール検出部14は、一致する場合(S35のYES)、変数Scoreに値5を加算し(S36)、一致しない場合(S35のNO)、変数Scoreに加算を行わない。
次に、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれるSubject情報に基づいて、タイトル情報におけるパターン情報を取得する(S38)。続いて、標的型攻撃メール検出部14は、取得したパターン情報が、比較対象の受信済みメールから抽出されたパターン情報と一致するか否かを判定する(S38)。標的型攻撃メール検出部14は、一致する場合(S38のYES)、変数Scoreに値5を加算し(S39)、一致しない場合(S38のNO)、変数Scoreに加算を行わない。
次に、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれるTo、Cc情報に基づいて、宛先情報を取得する(S40)。続いて、標的型攻撃メール検出部14は、取得した宛先情報が、比較対象の受信済みメールから抽出された宛先情報と一致するか否かを判定する(S41)。標的型攻撃メール検出部14は、一致する場合(S41のYES)、変数Scoreに値5を加算し(S42)、一致しない場合(S41のNO)、変数Scoreに加算を行わない。
次に、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれるX−mailer情報に基づいて、使用メーラー情報を取得する(S43)。続いて、標的型攻撃メール検出部14は、取得した使用メーラー情報が、比較対象の受信済みメールから抽出された使用メーラー情報と一致するか否かを判定する(S44)。標的型攻撃メール検出部14は、一致する場合(S44のYES)、変数Scoreに値5を加算し(S45)、一致しない場合(S44のNO)、変数Scoreに加算を行わない。
次に、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる送信元サーバのReceived情報を取得し(S46)、当該Received情報に基づいて送信元サーバのIPアドレス情報を抽出する(S47)。続いて、標的型攻撃メール検出部14は、取得したIPアドレス情報が、比較対象の受信済みメールから抽出されたIPアドレス情報と一致するか否かを判定する(S48)。標的型攻撃メール検出部14は、一致する場合(S48のYES)、変数Scoreに値5を加算し(S49)、一致しない場合(S48のNO)、変数Scoreに加算を行わない。
次に、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる経由送信サーバのReceived情報に基づく経由タイムゾーン情報が、比較対象の受信済みメールから抽出される経由タイムゾーン情報と一致するか否かを判定する(S50)。標的型攻撃メール検出部14は、一致する場合(S50のYES)、変数Scoreに値5を加算し(S51)、一致しない場合(S50のNO)、変数Scoreに加算を行わない。
そして、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる送信元情報を示す送信元サーバのドメイン、IPアドレス、タイムゾーンの組み合わせ情報(組み合わせ特徴情報)が、比較対象の受信済みメールから抽出された組み合わせ特徴情報と一致するか否かを判定する(S52)。標的型攻撃メール検出部14は、一致する場合(S52のYES)、変数Scoreに値5を加算し(S53)、一致しない場合(S52のNO)、変数Scoreに加算を行わない。
このように、累計値である変数Scoreが、受信対象メールと1つの受信済みメールとの総一致量値simとして算出される。そして、総一致量値simは、基準一致量値thと比較され(図9のS16)、類似受信済みメールか否かが判定される。
このように、本実施の形態例におけるメールチェック部10は、正規の複数の受信済みメールについて、受信済みメールのメールヘッダーが含む複数の特徴情報を抽出して、特徴情報DBd1を生成する。そして、メールチェック部10は、受信する対象メールのメールヘッダーが含む特徴情報と、特徴情報DBd1から参照される受信対象メールと送信元アドレスが同一の複数の受信済みメールの複数の特徴情報との類似度を判定する。そして、メールチェック部10は、類似度が基準類似度未満、即ち、類似度が低い受信対象メールを非正規メールである可能性があると判定し、警告メールとしてユーザに通知する。また、各受信対象メールについて、複数の特徴情報について比較されるため、警告メール検出の精度が向上する。なお、図10のフローチャート図で比較される特徴情報の項目例は、一例である。メールヘッダーに含まれる複数の特徴情報のうち、いずれの特徴情報が比較され、類似度が算出されてもよい。
なお、図9、図10のフローチャート図では、受信対象メールと送信元アドレスが同一であって、受信対象メールとの総一致量値simが基準一致量値thを超える受信済みメール(類似受信済みメール)の数SNが類似度として算出され判定される。これにより、類似した受信済みメールが基準数分(基準類似度)存在する場合に、正規メールであると判定される。ただし、この例に限定されるものではない。例えば、メールチェック部10は、送信元アドレスが同一であって、正規の所定数の受信対象メールとの総一致量値simの総累計値を類似度として算出し、基準類似度と比較してもよい。
[具体例]
図9のフローチャート図における具体例について、図8の特徴情報DBd1に基づいて説明する。この例において、基準一致量値thは値20、基準類似度は10であるものとする。
また、受信対象メールの送信元アドレスがID4であり、送信元サーバのIPアドレスにおける上位3レベルが「x8.103.124.***」、時間帯が3、使用メーラーの識別値がFoxmail、経由タイムゾーンが+0900(日本)のみであり、送信元サーバのドメインが「aaaa.bbbb.com」、Toに受信者に加えてID31、CcにID4が指定される場合を示す。また、タイトル情報に、半角のハイフンが含まれる。また、受信対象メールの送信曜日は、例えば、火曜日であるものとする。
例えば、図8の特徴情報DBd1における、受信対象メールと送信元アドレスID4が同一の受信済みメールが比較判定の対象とされる場合を例示する。図8の特徴情報DBd1において、送信元アドレスがID4である受信済みメールの特徴情報は、ID=1、3の特徴情報を示す。なお、図示していないが、図8の特徴情報DBd1には、送信元アドレスがID4である90個分の受信済みメールの特徴情報が抽出されているものとする。
まず、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる送信日時情報を取得し(S32)、取得した送信日時情報における送信曜日が、ID=1の受信済みメールから抽出された送信曜日と一致するか否かを判定する(S33)。図8の特徴情報DBd1の例において、送信曜日は抽出されていないが、例えば、ID=1の受信済みメールの送信曜日は、金曜日であるものとする。この場合、送信曜日が一致しないため(S33のNO)、変数Scoreは0のままである。
続いて、標的型攻撃メール検出部14は、送信時間帯について比較する(S35)。この例において、受信対象メールの送信時間帯は3、ID=1の受信済みメールの送信時間帯は2であるため、送信時間帯は一致しない(S35のNO)。そのため、変数Scoreは値0のままである。次に、標的型攻撃メール検出部14は、タイトル情報におけるパターン情報を取得し(S37)、比較する(S38)。この例において、受信対象メールとID=1の受信済みメールのタイトル情報は一致しないため(S38のNO)、変数Scoreは値0のままである。
続いて、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる宛先情報を取得し(S40)、比較する(S41)。この例において、受信対象メールとID=1の受信済みメールの宛先情報は一致するため(S38のYES)、Scoreに値5が加算される。続いて、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる使用メーラー情報を取得し(S43)、比較する(S44)。この例において、受信対象メールとID=1の受信済みメールの使用メーラー情報は一致するため(S44のYES)、Scoreの値は10に増加する。
続いて、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる送信サーバのIP情報を抽出し(S46、S47)、比較する(S48)。この例において、受信対象メールの送信元サーバと、ID=1の受信済みメールの送信元サーバのIPアドレス(上位3レベル)は一致するため(S48のYES)、変数Scoreの値は15に増加する。続いて、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる経由タイムゾーン情報を比較するが(S50)、一致することにより(S50のYES)、変数Scoreの値は20に増加する。
そして、標的型攻撃メール検出部14は、受信対象メールのメールヘッダーに含まれる送信元サーバのドメイン、送信元サーバのIPアドレス、送信元サーバのタイムゾーンの組み合わせを比較する(S52)。この例において、受信対象メールの送信元サーバのドメインは、aaaa.bbbb.com、IPアドレスは「x8.103.124.***(上位3レベル)」、タイムゾーンは+0900(日本)である。このため、受信対象メールの組み合わせ特徴情報と、図8のID=1の組み合わせ特徴情報とは一致する。このため、変数Scoreの値は25に増加する。
そして、算出された変数Scoreの値、即ち、総一致量値simが、基準一致致量値th(この例では、20)と比較される。この例において、総一致量値sim(変数Score=25)が基準一致量値thを超えるため(S16のYES)、類似受信済みメールカウントSNがインクリメントされる。続いて、受信対象メールが特徴情報DBd1におけるID=3の受信済みメールと比較され、同様にして総一致量値simが算出され、基準一致量値thと比較される。この判定が、特徴情報DBd1に格納された、送信元アドレスがID4である他の受信済みメールについても行われる。そして、類似受信済みメールカウントSNが基準類似度mm(この例では、10)を超えると(S18のYES)、正規メールであると判定され受信が許可される(S24、S25)。
また、例えば、具体例において、受信対象メールのメールヘッダーに含まれる使用メーラー情報が一致しない場合(S44のNO)、変数Scoreの値は20となる。このとき、変数Scoreの値(総一致量値sim)は、基準一致致量値th(この例では、20)を超えないため(S16のNO)、類似受信済みメールカウントSNはインクリメントされない。このように、複数の特徴情報の一致結果に基づいて、受信対象メールの類似度が判定される。基準一致致量値thは、比較対象の特徴情報の数やばらつき度合い等に基づいて適切に設定される。
なお、図10のフローチャート図では、いずれの特徴情報の内容が一致した場合であっても、変数Scoreに常に値5が加算される場合における総一致量値simの算出方法について述べた。ただし、特徴情報が一致したときに加算される加算値は、特徴情報によって変更されてもよい。続いて、特徴情報に対してそれぞれ設定され、特徴情報が一致したときにおける加算値を変化させる重み係数について説明する。
[重み係数]
同一送信元アドレスの複数の受信済みメールの特徴情報のばらつきの度合いは、特徴情報の種別によって異なる。つまり、特徴情報の種別によって、内容が固定化またはパターン化されやすい特徴情報についてはばらつきの度合いが小さく、内容がパターン化されにくい特徴情報についてはばらつきの度合いが大きい。
例えば、使用メーラーや、送信元サーバのドメイン、タイムゾーン、経由タイムゾーン等の特徴情報等は送信環境に依存する情報であることから、同一送信元アドレスの受信済みメール間での特徴情報のばらつき度合いは小さい。つまり、これらの特徴情報については、内容が1つまたは特定パターンに限定されるため、同一の送信元アドレスの正規の受信済みメール間で一致し易い。また、送信元サーバのIPアドレスについては、送信者によってばらつき度合いが異なる。例えば、自宅や会社、出張先等の複数の拠点から送信する送信者の送信元サーバのIPアドレスのばらつき度合いは大きく、会社等の特定の拠点から送信する送信者の送信元サーバのIPアドレスのばらつき度合いは小さい。
一方、タイトル情報におけるパターン情報や定型語句、送信時間帯、送信曜日、宛先情報等は、送信者によって人為的に指定される情報であることから、受信済みメール間での特徴情報のばらつき度合いが大きい。つまり、これらの特徴情報については、同一の送信元アドレスの正規の受信済みメール間で一致し難い。
そこで、特徴情報の種別によって重み係数が付与される。重み係数は、例えば、図10のフローチャート図におけるScoreに乗算される。つまり、重み係数が3である場合、当該特徴情報に対応する一致量値は15(=5*3)となる。ただし、この例に限定されるものではなく、例えば、一致量値8(=5+3)のように、重み係数がScoreに加算されてもよい。類似度に対して重み係数が反映されればいずれの方法でもよい。
そこで、例えば、特徴情報のうち、ばらつき度合いが小さく内容が所定パターンに特定され易い特徴情報については重み係数が大きく、ばらつき度合いが大きく内容が特定され難い特徴情報については重み係数が小さく設定される。この結果、受信対象メールと各受信済みメールとの総一致量値において、重み係数が大きい特徴情報に対応する一致量値の比重は大きくなり、重み係数が小さい特徴情報に対応する一致量値の比重は小さくなる。これにより、受信済みメールにおける内容のばらつき度合いが小さく、信頼性の高い特徴情報の比較結果がより顕著に類似度に反映され、標的型攻撃メール候補がより的確に検出される。
また、前述した送信元サーバのIPアドレスの例のように、送信者によって、受信済みメールにおける特徴情報のばらつき度合いの傾向は異なる。このため、重み係数は、同一送信元アドレスの受信済みメールの特徴情報のばらつき度合いに基づいて、送信元アドレス単位に調整されてもよい。つまり、送信者毎のばらつき度合いの相違は、各送信者それぞれについて設定される各特徴情報の重み係数によって吸収され、対応される。なお、重み係数は、直近の所定量の受信済みメールに基づいて、適宜更新される。これにより、送信者毎の特徴情報の重み係数は、各送信者の受信済みメールの特徴情報のばらつき度合いに基づいて最適な値に設定される。
これにより、同一送信元アドレスの受信済みメールにおける内容のばらつき度合いの小さい特徴情報の比較結果がより顕著に類似度に反映されることにより、標的型攻撃メール候補がより高精度に検出される。例えば、メールマガジン等のように特定の送信日時に送信されるメールの送信元アドレスについては、送信日時(送信曜日、送信時刻)に係る特徴情報の重み係数が大きな値に設定される。
また、例えば、特徴情報のうち、送信元メールサーバのIPアドレス、送信元メールサーバのドメイン情報、タイムゾーン情報、送信メーラー種別を示す送信環境に依存する第1特徴情報群の重み係数は大きく、送信曜日、送信時刻、タイトル情報、宛先情報を示す送信者に因る人為的な第2特徴情報群の重み係数は小さく設定される。正規の受信済みメールにおいて、第1特徴情報群の特徴情報の内容は特定のパターンに限定され易くばらつき度合いが小さく、第2特徴情報群の特徴情報の内容は、傾向が限定され難くばらつき度合いが大きいという特性を有するためである。
そこで、受信対象メールと各受信済みメールとの総一致量値について、第1特徴情報群の特徴情報の重み係数を大きくして対応する一致量値の比重を大きくすると共に、第2特徴情報群の特徴情報の重み係数を小さくして対応する一致量値の比重を小さくする。これにより、受信済みメールにおける送信環境に依存する特徴情報の比較結果がより顕著に類似度に反映されるため、標的型攻撃メール候補がより高精度に検出可能となる。
また、送信元メールサーバのIPアドレス、ドメイン情報、タイムゾーン情報を含む送信元情報群のうち複数の送信元情報を組み合わせた特徴情報(組み合わせ特徴情報)の重み係数は、送信元情報それぞれ示す各特徴情報の重み係数より大きい値に設定されてもよい。例えば、組み合わせ特徴情報の重み係数は、送信元メールサーバのIPアドレス、ドメイン情報等を示す個々の特徴情報の重み係数より大きな値に設定される。
標的型攻撃メールは正規の送信者を詐称して送信されるため、標的型攻撃メールと正規の受信済みメールとでは、組み合わせ特徴情報のうち一部の送信元情報が一致したとしても、複数の送信元情報の組み合わせは一致し難い。そのため、信頼性の高い特徴情報を示す組み合わせ特徴情報の重み係数がより大きい値に設定され、その比較結果が類似度により顕著に反映されることにより、標的型攻撃メール候補がより高精度に検出される。
図11は、送信元アドレス毎の特徴情報の重み係数情報d2の一例を示す図である。この例では、送信元アドレス毎に特徴情報それぞれについて重み係数が付与されている。ただし、すべての送信元アドレスに対して、共通の値として、特徴情報それぞれについて重み係数が付与されてもよい。
図11の重み係数の例において、具体的に、送信元アドレスがID4の送信元サーバのIPアドレス、タイムゾーン、ドメイン、使用メーラー、経由タイムゾーンには重み係数10が付与されている。つまり、送信環境に依存する特徴情報には、大きい値の重み係数(この例では、10)が付与されている。一方、送信時間帯には重み係数7が、宛先のTo、Ccには重み係数5が、タイトル情報のパターン情報には重み係数3が付与されている。つまり、人為的に指定されることにより内容が変動しやすい特徴情報にはより小さい値の重み係数(この例では、3、5、7)が、内容のばらつき度合いが小さく信頼性の高い特徴情報にはより大きな値の重み係数(この例では、10)が付与されている。
また、送信元アドレスがID20の各特徴情報の重み係数は、パターン情報以外大きな値が付与されている。これは、例えば、メールマガジン等の送信元アドレスの重み係数を示す。例えば、メールマガジン等では、送信時間帯や宛先情報等の特徴情報の内容が固定的であるため、大きい重み係数が付与される。なお、図11には図示していないが、組み合わせ特徴情報についても同様に重み係数が付与される。
これにより、受信対象メールが正規のメールについて、タイトル情報におけるパターン情報や、宛先情報が一致しない場合であっても、重み係数の大きい送信元サーバのIPアドレス等の特徴情報が一致することにより、総一致量値が基準一致量値thを超える。これにより、受信対象メールが正規メールとして判定されることになる。
また、重み係数は、特徴情報DBd1と同様にして、直近の正規の受信済みメールに基づいて適宜更新されることが望ましい。これにより、特徴情報のばらつき度合いが変化した場合であっても、各特徴情報に対応する一致量値の総一致量値における比重が調整されることにより、受信対象メールの類似度がタイムリーに判定される。
以上のようにして、本実施の形態例におけるメールチェック装置200は、正規の複数の受信済みメールについて、受信済みメールのメールヘッダーが含む複数の特徴情報を抽出し特徴情報DBd1を生成する。そして、メールチェック装置200は、受信対象メールのメールヘッダーが含む第1の複数の特徴情報と、特徴情報DBd1から参照される当該受信対象メールと送信元アドレスが同一の複数の受信済みメールの第2の複数の特徴情報との類似度が基準類似度未満の場合、受信対象メールを警戒メール候補として検出する。
標的型攻撃メールは正規な送信者を詐称して送信されるため人による判定は困難であることが多いが、メールチェック装置200は、受信対象のメールと、送信者が同一の正規の受信済みメールとの類似度を判定し、類似度の低い受信対象メールを警告通知することにより、標的型攻撃メールの候補を自動検出することができる。これにより、メールチェック装置200は、メーラーによる受信前に、標的型攻撃メールの候補を検出することができ、被害の回避を可能にする。
また、本実施の形態例におけるメールチェック装置200は、PCや携帯端末等のクライアント環境での動作を可能にするため、サーバ環境で各ユーザの受信履歴情報や特徴情報を管理する必要がない。また、特徴情報は、受信済みメールのメールヘッダーに含まれる情報のうち一部の情報であるため、特定の個人が特定され難い。これにより、個人情報保持の観点においても有効である。
また、本実施の形態例におけるメールチェック装置200において、複数の特徴情報は、送信元メールサーバのIPアドレス、前記送信元メールサーバのドメイン情報、タイムゾーン情報、送信メーラー種別を有する第1特徴情報群のうちいずれか1つまたは複数を有する。これにより、メールチェック装置200は、メールの送信環境に依存することによりばらつき度合いの小さい特徴情報に基づいて、受信対象メールと受信済みメールの類似度をより高精度に判定することができる。
また、本実施の形態例におけるメールチェック装置200において、複数の特徴情報は、さらに、送信曜日、送信時刻、タイトル情報、宛先情報を有する第2特徴情報群のうちいずれか1つまたは複数を有する。これにより、メールチェック装置200は、メールの送信環境に依存する特徴情報に加えて、さらに、送信者による人為的な傾向的特徴を有する特徴情報に基づいて、受信対象メールと受信済みメールの類似度をより綿密に判定することができる。これにより、メールチェック装置200は、なりすましし難い特徴情報を比較対象とすることにより、メールヘッダーにおける送信環境に係る特徴情報が詐称されている場合であっても、標的型攻撃メール候補を検出することができる。
また、本実施の形態例におけるメールチェック装置200において、特徴情報DBd1は、特徴情報毎に重み係数を有し、重み係数は、複数の受信済みメールについて、特徴情報のばらつき度合いが第1の度合い(ばらつき度合いが小さい)の場合に第1の重み係数(例えば10)に設定され、特徴情報のばらつき度合いが第1の度合いより大きい第2の度合いの(ばらつき度合いが大きい)場合に第1の重み係数より小さい第2の重み係数(例えば5)に設定される。そして、メールチェック装置200は、検出工程において、受信対象メールの複数の特徴情報と、送信元アドレスが同一の複数の受信済みメールにおける複数の特徴情報とがそれぞれ一致するか否かを判定し、一致した特徴情報に対応する重み係数が反映された各一致量値の累計加算値に応じて類似度を求める。
このように、ばらつき度合いが小さく内容が所定パターンに特定され易い特徴情報については重み係数が大きく、ばらつき度合いが大きく内容が特定され難い特徴情報については重み係数が小さく設定される。この結果、受信対象メールと各受信済みメールとの総一致量値において、重み係数が大きい特徴情報に対応する一致量値の比重は大きくなり、重み係数が小さい特徴情報に対応する一致量値の比重は小さくなる。これにより、受信済みメールにおける内容のばらつき度合いの小さい特徴情報の比較結果がより顕著に類似度に反映され、標的型攻撃メール候補がより高精度に検出可能となる。
または、本実施の形態例におけるメールチェック装置200において、送信元メールサーバのIPアドレス、送信元メールサーバのドメイン情報、タイムゾーン情報、送信メーラー種別を示す第1特徴情報群の特徴情報の重み係数は第1の重み係数(例えば、10)に設定される。そして、送信曜日、送信時刻、タイトル情報、宛先情報を示す第2特徴情報群の特徴情報の重み係数は第1の重み係数より小さい第2の重み係数(例えば、5)に設定される。そして、メールチェック装置200は、検出工程において、受信対象メールの複数の特徴情報と、送信元アドレスが同一の複数の受信済みメールにおける複数の特徴情報とがそれぞれ一致するか否かを判定し、一致した特徴情報に対応する重み係数が反映された各一致量値の累計加算値に応じて類似度を求める。
このように、送信環境に依存することにより内容が特定パターンに限定され易い特徴情報については重み係数が大きく、送信者に依存することにより内容が特定され難い特徴情報については重み係数が小さく設定される。この結果、受信対象メールと各受信済みメールとの総一致量値において、内容が所定パターンに特定され易い特徴情報に対応する一致量値の比重は大きくなり、内容が特定され難い特徴情報に対応する一致量値の比重は小さくなる。これにより、受信対象メールが正規メールである場合、各受信済みメールとの特徴情報の総一致量値が大きくなり、より高精度に標的型攻撃メールが検出される。
さらに、本実施の形態例におけるメールチェック装置200において、特徴情報は、送信元メールサーバのIPアドレス、ドメイン情報、タイムゾーン情報を含む送信元情報群のうち複数の送信元情報を組み合わせた組み合わせ特徴情報を含み、組み合わせ特徴情報の重み係数は送信元情報それぞれ示す各特徴情報の重み係数より大きい第3の重み係数(例えば、10より大きい値)に設定される。そして、メールチェック装置200は、検出工程において、組み合わせ特徴情報である複数の送信元情報の組み合わせが一致するか否かを判定する。
標的型攻撃メールは正規の送信者を詐称して送信されるため、標的型攻撃メールと正規の受信済みメールとでは、送信環境に依存する特徴情報の組み合わせは一致し難い。そこで、メールチェック装置200は、送信元情報を示す情報の組み合わせである組み合わせ特徴情報を比較し類似度に反映することによって、より高精度に標的型攻撃メールを検出することを可能にする。このため、メールチェック装置200は、信頼性の高い特徴情報である組み合わせ特徴情報の重み係数を大きくし、その比較結果をより顕著に類似度に反映することにより、標的型攻撃メール候補の検出をより高精度にする。
なお、特徴情報毎の重み係数は、送信元アドレス毎に設けられてもよい。このとき、送信元アドレス毎の重み係数は、送信元アドレスが同一の複数の受信済みメールにおける特徴情報のばらつき度合いに基づいて決定される。これにより、送信元アドレスによって特徴情報のばらつき度合いの傾向性が異なる場合、受信対象メールが、同一の送信元アドレスの受信済みメールと同様の特徴を有するか否かがより高精度に判定可能となる。つまり、同一送信元アドレスの受信済みメールにおける特徴情報のばらつき度合いの特性が的確に類似度に反映されることにより、標的型攻撃メール候補がより高精度に検出される。
また、本実施の形態例のメールチェック装置200は、定期的に、直近の一定期間内の受信済みメール、または、直近の一定量の受信済みメールのいずれかまたは両方における正規の複数の受信済みメールについて、受信済みメールのメールヘッダーが含む複数の特徴情報を抽出し特徴情報DBd1を生成、更新する。これにより、メールチェック装置200は、正規の受信済みメールに基づいて特徴情報DBd1を適宜更新することにより、受信対象メールの類似度を最新の特徴情報に従ってタイムリーに判定することができる。このため、正規の送信者の送信環境が変化した場合でも、直近の正規の受信済みメールに基づいて特徴情報DBd1が適宜更新されることにより、標的型攻撃メール候補が常時、適切に検出される。
なお、本実施の形態例におけるメールチェック装置200において、類似度は、一致量値の累計加算値が基準一致量値を超える受信済みメール数を示す。つまり、メールチェック装置200は、受信対象メールと特徴情報の一致度合いが高い受信済みメールが基準の数分、検出された場合に正規メールと判定する。これにより、複数の受信済みメールとの類似度に基づいて判定されることから、メールチェック装置200は、より高精度に標的型攻撃メールを検出することができる。
なお、本実施の形態例におけるメールチェック処理は、コンピュータ読み取り可能な記録媒体にプログラムとして記憶され、当該プログラムをコンピュータが読み出して実行することによって行われてもよい。
以上の実施の形態をまとめると、次の付記のとおりである。
(付記1)
新たに受信する対象メールから警戒メール候補を検出するメールチェック方法であって、
正規の複数の受信済みメールについて、前記受信済みメールのメールヘッダーが含む複数の特徴情報を抽出し特徴情報データーベース(以下、DB)を生成する特徴情報DB生成工程と、
受信対象メールの前記メールヘッダーが含む第1の複数の特徴情報と、前記特徴情報DBから参照される当該受信対象メールと送信元アドレスが同一の前記複数の受信済みメールの第2の複数の特徴情報との類似度が基準類似度未満の場合、前記受信対象メールを警戒メール候補として検出する検出工程と、を有するメールチェック方法。
(付記2)
付記1において、
前記第1、第2の複数の特徴情報は、送信元メールサーバのIPアドレス、前記送信元メールサーバのドメイン情報、タイムゾーン情報、送信メーラー種別を有する第1特徴情報群のうちいずれか1つまたは複数を有するメールチェック方法。
(付記3)
付記2において、
前記第1、第2の複数の特徴情報は、さらに、送信曜日、送信時刻、タイトル情報におけるパターン情報、宛先情報を有する第2特徴情報群のうちいずれか1つまたは複数を有するメールチェック方法。
(付記4)
付記1乃至3のいずれかにおいて、
前記特徴情報DBは、前記特徴情報毎に重み係数を有し、
前記重み係数は、前記複数の受信済みメールについて、前記特徴情報のばらつき度合いが第1の度合いの場合に第1の重み係数に設定され、前記特徴情報のばらつき度合いが前記第1の度合いより大きい第2の度合いの場合に前記第1の重み係数より小さい第2の重み係数に設定され、
前記検出工程は、前記第1の複数の特徴情報と前記第2の複数の特徴情報とがそれぞれ一致するか否かを判定し、一致した特徴情報に対応する前記重み係数が反映された各一致量値の累計加算値に応じて前記類似度を求めるメールチェック方法。
(付記5)
付記3において、
前記特徴情報DBは、前記特徴情報毎に重み係数を有し、
前記第1特徴情報群の特徴情報の重み係数は第1の重み係数に設定され、前記第2特徴情報群の特徴情報の重み係数は前記第1の重み係数より小さい第2の重み係数に設定され、
前記検出工程は、前記第1の複数の特徴情報と前記第2の複数の特徴情報とがそれぞれ一致するか否かを判定し、一致した特徴情報に対応する前記重み係数が反映された各一致量値の累計加算値に応じて前記類似度を求めるメールチェック方法。
(付記6)
付記1乃至3のいずれかにおいて、
前記特徴情報DBは、前記特徴情報毎に重み係数を有し、
前記特徴情報は、さらに、送信元メールサーバのIPアドレス、ドメイン情報、タイムゾーン情報を含む送信元情報群のうち複数の送信元情報を組み合わせた組み合わせ特徴情報を含み、
前記組み合わせ特徴情報の前記重み係数は、前記送信元情報それぞれ示す各特徴情報の重み係数より大きい第3の重み係数に設定され、
前記検出工程は、前記受信対象メールについて、各前記複数の受信済みメールと前記組み合わせ特徴情報である前記複数の送信元情報の組み合わせが一致するか否かを判定し、一致した特徴情報に対応する前記重み係数が反映された各一致量値の累計加算値に応じて前記類似度を求めるメールチェック方法。
(付記7)
付記4において、
前記重み係数は前記送信元アドレス毎に設けられ、
前記特徴情報のばらつき度合いは、前記送信元アドレスが同一の前記複数の受信済みメールにおける前記特徴情報のばらつき度合いであるメールチェック方法。
(付記8)
付記1乃至7のいずれかにおいて、
前記複数の受信済みのメールは、直近の一定期間内の受信済みメール、または、直近の一定量の受信済みメールのいずれかまたは両方を示し、
前記特徴情報DB生成手段は、定期的に前記特徴情報DBを更新するメールチェック方法。
(付記9)
付記4乃至6のいずれかにおいて、
前記類似度は、前記一致量値の累計加算値が基準一致量値を超える受信済みメール数を示すメールチェック方法。
(付記10)
付記2において、
前記送信元メールサーバのIPアドレスは、IPアドレスのうち、基準上位レベルのIPアドレスであるメールチェック方法。
(付記11)
新たに受信する対象メールから警戒メール候補を検出するメールチェック装置であって、
正規の複数の受信済みメールについて、前記受信済みメールのメールヘッダーが含む複数の特徴情報を抽出し特徴情報データーベース(以下、DB)を生成する特徴情報DB生成手段と、
受信対象メールの前記メールヘッダーが含む第1の複数の特徴情報と、前記特徴情報DBから参照される当該受信対象メールと送信元アドレスが同一の前記複数の受信済みメールの第2の複数の特徴情報との類似度が基準類似度未満の場合、前記受信対象メールを警戒メール候補として検出する検出手段と、を有するメールチェック装置。
(付記12)
新たに受信する対象メールから警戒メール候補を検出するメールチェック処理をコンピュータに実行させるコンピュータ読み取り可能なメールチェックプログラムであって、
前記メールチェック処理は、
正規の複数の受信済みメールについて、前記受信済みメールのメールヘッダーが含む複数の特徴情報を抽出し特徴情報データーベース(以下、DB)を生成する特徴情報DB生成工程と、
受信対象メールの前記メールヘッダーが含む第1の複数の特徴情報と、前記特徴情報DBから参照される当該受信対象メールと送信元アドレスが同一の前記複数の受信済みメールの第2の複数の特徴情報との類似度が基準類似度未満の場合、前記受信対象メールを警戒メール候補として検出する検出工程と、を有するメールチェックプログラム。