JP6758536B2

JP6758536B2 - 不正メール判定装置、不正メール判定方法及び不正メール判定プログラム

Info

Publication number: JP6758536B2
Application number: JP2020520900A
Authority: JP
Inventors: 匠山本; 弘毅西川; 河内　清人; 清人河内
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2020-09-23
Anticipated expiration: 2038-05-22
Also published as: WO2019224907A1; JPWO2019224907A1; CN112189190A; US20210021555A1; US11444901B2

Description

この発明は、標的型攻撃メールを検知する技術に関する。

ＡｄｖａｎｃｅｄＰｅｒｓｉｓｔｅｎｔＴｈｒｅａｔといった標的型攻撃の多くは、攻撃の侵入手口として不正なメールを利用した標的型攻撃メールである。
標的型攻撃メールでは、組織及び人物といった攻撃対象に関係のある情報を用い、巧みに作りこみをした文章が利用される。標的型攻撃メールでは、メールに添付された悪性なファイルを開かせようとしたり、本文に記載されたＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）が示す悪性なＷｅｂサイトに訪れさせようとしたりする。

添付ファイル及びＵＲＬに関しては、コンテンツの悪性度合いを静的又は動的に解析する既存の技術が知られている。例えば、検査対象の添付ファイルが既知のマルウェアのパターンにマッチするかを確認することでマルウェアを検知する技術がある。また、ファイルの実行時のふるまいの特徴を利用してマルウェアを検知する技術もある。また、悪性なＷｅｂサイトを示すＵＲＬのブラックリストを用意し、ユーザが危険なＷｅｂサイトを訪れることを未然に防止する技術もある。そして、これらの技術を搭載したマルウェア検知ソフトウェアがある。
しかし、高度な攻撃者になればなるほど、添付ファイル及びＵＲＬがマルウェア検知ソフトウェアに検知されるかどうかを事前に確認した上で、攻撃を実行する。そのため、未知のマルウェア及び新しい悪性なＵＲＬについては、適切に検知することは難しい。

また、メールのヘッダ情報の不自然さから攻撃を検知する技術が存在する。この技術では、差出人の送信ドメイン認証結果と、送信経路と、使用メールソフトと、経由国といった情報に基づき、不正なメールであるか否かを判定する。しかし、この技術では、正規ユーザのアカウントを悪用したなりすましメールに関しては検知することはできない。

非特許文献１には、なりすましメールを検知する技術が記載されている。
非特許文献１に記載された技術では、メールの差出人本人が出すメールが、語彙レベルと、構文レベルと、構造レベルとで分析され、個人性を表すプロファイルが作成される。語彙レベルとは、単語数と、単語単位の文字数と、テキスト全体の文字数と、行単位の文字数と、行数と、文章数と、テキスト中の個々の文字の頻度と、文の終端用の文字の頻度と等である。構文レベルとは、形容詞の数と、副詞の数と、等位接続詞の数と、過去分詞の数と等である。構造レベルとは、署名と住所と電話番号といった著者を特定する情報と、挨拶文の形式と、文の始め方と、文の終わり方と等である。文の始め方は、大文字の数と小文字の数といったことである。文の終わり方は、文章を区切りにスペースを利用している文章の数と文章区切りにドットを利用している文章の数と文章区切りにドット以外の句読点を利用している文章の数と文章が終わった後にスペースを利用している文章の数といったことである。
非特許文献１に記載された技術では、差出人から過去に受信したメールから、差出人のプロファイルが作成され、新たに受信したメールがプロファイルにマッチしない場合にはなりすましメールと判定される。

ＳｅｖｔａｐＤｕｍａｎ，ＫｕｂｒａＫａｌｋａｎＣａｋｍａｋｃｉｙ，ＭａｎｕｅｌＥｇｅｌｅｚ，ＷｉｌｌｉａｍＲｏｂｅｒｔｓｏｎａｎｄＥｎｇｉｎＫｉｒｄａ： "ＥｍａｉｌＰｒｏｆｉｌｅｒ：ＳｐｅａｒｐｈｉｓｈｉｎｇＦｉｌｔｅｒｉｎｇｗｉｔｈＨｅａｄｅｒａｎｄＳｔｙｌｏｍｅｔｒｉｃＦｅａｔｕｒｅｓｏｆＥｍａｉｌｓ"，ＣｏｍｐｕｔｅｒＳｏｆｔｗａｒｅａｎｄＡｐｐｌｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ（ＣＯＭＰＳＡＣ），２０１６ＩＥＥＥ４０ｔｈＡｎｎｕａｌ

しかし、攻撃者がなりすまし対象の人物の文章の癖を正確に真似た場合と、過去のメールがそのまま流用された場合とには、非特許文献１に記載された技術を利用しても検知することができない。
この発明は、標的型攻撃メールを適切に検知可能にすることを目的とする。

この発明に係る不正メール判定装置は、
新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定する意図特定部と、
前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定部によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定するメール判定部と
を備える。

この発明では、対象メールと同一の差出人から受信した他の受信メールと、対象メールの意図との関係から、対象メールが不正なメールであるか否かを判定する。これにより、標的型攻撃メールを適切に検知可能になる。

実施の形態１に係る不正メール判定装置１０の構成図。実施の形態１に係る初期フィルタ部２１の構成図。実施の形態１に係る未知解析部２２の構成図。実施の形態１に係る既知解析部２３の構成図。実施の形態１に係る一貫性解析部２４の構成図。実施の形態１に係る不正メール判定装置１０の全体的な処理のフローチャート。実施の形態１に係る初期フィルタ部２１の処理のフローチャート。実施の形態１に係る未知解析部２２の処理のフローチャート。実施の形態１に係る既知解析部２３の処理のフローチャート。実施の形態１に係るプロファイル生成部２３３の処理のフローチャート。実施の形態１に係る一致判定部２３４の処理のフローチャート。実施の形態１に係る一貫性解析部２４の処理のフローチャート。実施の形態１に係る意図特定部２４１の処理のフローチャート。実施の形態１に係るルール適用部２４２及びメール判定部２４３の処理のフローチャート。実施の形態１に係る一貫性判定ルール２４４に登録されるルールを示す図。実施の形態１に係る機能語及びメール種類毎に適用されるルールを示す図。変形例１に係る不正メール判定装置１０の構成図。実施の形態２に係る一貫性解析部２４の構成図。実施の形態２に係る意図学習部２４５の処理のフローチャート。実施の形態２に係る意図推定部２４６の処理のフローチャート。

実施の形態１．
＊＊＊構成の説明＊＊＊
図１を参照して、実施の形態１に係る不正メール判定装置１０の構成を説明する。
不正メール判定装置１０は、コンピュータである。
不正メール判定装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信インタフェース１４とのハードウェアを備える。プロセッサ１１は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。

プロセッサ１１は、プロセッシングを行うＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）である。プロセッサ１１は、具体例としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。

メモリ１２は、データを一時的に記憶する記憶装置である。メモリ１２は、具体例としては、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。

ストレージ１３は、データを保管する記憶装置である。ストレージ１３は、具体例としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）である。また、ストレージ１３は、ＳＤ（登録商標，ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリカード、ＣＦ（ＣｏｍｐａｃｔＦｌａｓｈ，登録商標）、ＮＡＮＤフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）といった可搬記録媒体であってもよい。

通信インタフェース１４は、外部の装置と通信するためのインタフェースである。通信インタフェース１４は、具体例としては、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＨＤＭＩ（登録商標，Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）のポートである。

不正メール判定装置１０は、機能構成要素として、初期フィルタ部２１と、未知解析部２２と、既知解析部２３と、一貫性解析部２４とを備える。不正メール判定装置１０の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ１３には、不正メール判定装置１０の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ１１によりメモリ１２に読み込まれ、プロセッサ１１によって実行される。これにより、不正メール判定装置１０の各機能構成要素の機能が実現される。

図２を参照して、実施の形態１に係る初期フィルタ部２１の構成を説明する。
初期フィルタ部２１は、機能構成要素として、送信元抽出部２１１と、ブラックリスト判定部２１２と、コンテンツ判定部２１３と、差異判定部２１４とを備える。初期フィルタ部２１は、ストレージ１３に記憶されたブラックリスト２１６を使用する。

図３を参照して、実施の形態１に係る未知解析部２２の構成を説明する。
未知解析部２２は、機能構成要素として、宛名判定部２２１と、身元判定部２２２と、名刺判定部２２３と、公開情報判定部２２４とを備える。未知解析部２２は、ストレージ１３に記憶された人名辞書データ２２５と、定型文データ２２６と、受信者プロファイル２２７とを使用する。また、未知解析部２２は、通信インタフェース１４を介して接続された名刺管理システム３０を使用する。

図４を参照して、実施の形態１に係る既知解析部２３の構成を説明する。
既知解析部２３は、機能構成要素として、本人性判定部２３１と、トピック判定部２３２とを備える。トピック判定部２３２は、プロファイル生成部２３３と、一致判定部２３４とを備える。既知解析部２３は、ストレージ１３に記憶された差出人プロファイル２３５を使用する。

図５を参照して、実施の形態１に係る一貫性解析部２４の構成を説明する。
一貫性解析部２４は、機能構成要素として、意図特定部２４１と、ルール適用部２４２と、メール判定部２４３とを備える。一貫性解析部２４は、ストレージ１３に記憶された一貫性判定ルール２４４を使用する。

図１では、プロセッサ１１は、１つだけ示されていた。しかし、プロセッサ１１は、複数であってもよく、複数のプロセッサ１１が、各機能を実現するプログラムを連携して実行してもよい。

＊＊＊動作の説明＊＊＊
図６から図１６を参照して、実施の形態１に係る不正メール判定装置１０の動作を説明する。
実施の形態１に係る不正メール判定装置１０の動作は、実施の形態１に係る不正メール判定方法に相当する。また、実施の形態１に係る不正メール判定装置１０の動作は、実施の形態１に係る不正メール判定プログラムの処理に相当する。

図１及び図６を参照して、実施の形態１に係る不正メール判定装置１０の全体的な処理を説明する。
（ステップＳ１：初期フィルタ処理）
初期フィルタ部２１は、新たに受信した受信メールを分析対象の対象メールとして、対象メールに明らかに不正な特徴が含まれているかを確認する。初期フィルタ部２１は、明らかに不正な特徴を有している場合には、対象メールを不正なメールとしてステップＳ２以降の処理から除外する。

（ステップＳ２：既知判定処理）
初期フィルタ部２１は、対象メールの差出人が過去にやりとりしたことのない未知差出人であるか、過去にやりとりしたことのある既知差出人であるかを判定する。
初期フィルタ部２１は、対象メールの差出人が未知差出人である場合には、処理をステップＳ３に進める。一方、初期フィルタ部２１は、対象メールの差出人が既知差出人である場合には、処理をステップＳ４に進める。

（ステップＳ３：未知解析処理）
未知解析部２２は、対象メールが初めてメールのやりとりをする相手からのメールとして不適切な特徴を持つメールであるか否かを判定する。未知解析部２２は、不適切な特徴を持つメールである場合には、対象メールを不正なメールとしてステップＳ５の処理から除外する。

（ステップＳ４：既知解析処理）
既知解析部２３は、対象メールのトピックが過去に対象メールの差出人とやりとりされたトピックか否かを判定する。

（ステップＳ５：一貫性解析処理）
一貫性解析部２４は、対象メールと、対象メールの差出人からの過去の受信メールとの関係から、やりとりの一貫性を解析する。一貫性解析部２４は、やりとりに矛盾がある場合には、対象メールを不正なメールと判定する。

図２及び図７を参照して、実施の形態１に係る初期フィルタ部２１の処理を説明する。
初期フィルタ部２１の処理は、図６のステップＳ１及びステップＳ２の処理に対応する。具体的には、ステップＳ１１からステップＳ１４の処理が図６のステップＳ１の処理に対応する。また、ステップＳ１５の処理が図６のステップＳ２の処理に対応する。

（ステップＳ１１：送信元抽出処理）
送信元抽出部２１１は、対象メールの差出人の情報を抽出する。具体的には、送信元抽出部２１１は、対象メールのヘッダ情報からＦｒｏｍフィールドの情報及びＲｅｃｅｉｖｅｄフィールドの情報を、差出人の情報及び経由したサーバ情報として抽出する。

（ステップＳ１２：ブラックリスト判定処理）
ブラックリスト判定部２１２は、ステップＳ１１で抽出された差出人と経由したサーバとの少なくともいずれかが、ブラックリスト２１６に含まれているか否かを判定する。ブラックリスト２１６は、事前に作成される。ブラックリスト２１６は、不正なメールを送信する差出人が発見される度に追加されてもよい。
ブラックリスト判定部２１２は、差出人と経由したサーバとの少なくともいずれかがブラックリスト２１６に含まれている場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、ブラックリスト判定部２１２は、差出人及び経由したサーバがブラックリスト２１６に含まれてない場合には、処理をステップＳ１３に進める。

（ステップＳ１３：コンテンツ判定処理）
コンテンツ判定部２１３は、対象メールに添付ファイルとＵＲＬとの少なくともいずれかが含まれているか否かを判定する。
コンテンツ判定部２１３は、添付ファイルとＵＲＬとのどちらも含まれていない場合には、対象メールを不正なメールでないと判定し、処理を終了する。一方、コンテンツ判定部２１３は、添付ファイルとＵＲＬといずれか一方でも含まれている場合には、処理をステップＳ１４に進める。

（ステップＳ１４：差異判定処理）
差異判定部２１４は、添付ファイルとＵＲＬとのうちステップＳ１３で含まれると判定されたものを対象として、対象のコンテンツが本文の内容と一致しているか否かを判定する。具体的には、差異判定部２１４は、添付ファイルを対象とする場合には、添付ファイルのコンテンツが本文の内容と一致しているか否かを判定する。一方、差異判定部２１４は、ＵＲＬを対象とする場合には、ＵＲＬが示すＷｅｂサイトのコンテンツが本文の内容と一致しているか否かを判定する。なお、コンテンツが本文の内容に一致しているか否かの判定には、例えば、文献（西川弘毅、山本匠、河内清人、メールとそのコンテキスト情報を基にした不審メール検知手法の提案、コンピュータセキュリティシンポジウム２０１７、１Ｂ３−３）に記載された技術を利用することが可能である。
差異判定部２１４は、一致していない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、差異判定部２１４は、一致している場合には、処理をステップＳ１５に進める。

（ステップＳ１５：既知判定処理）
既知判定部２１５は、対象メールの差出人が過去の受信メールの差出人に含まれるか否かを判定することにより、対象メールの差出人が未知差出人であるか既知差出人であるかを判定する。
具体的には、既知判定部２１５は、ストレージ１３に記憶された過去の全ての受信メールのＦｒｏｍフィールドの差出人メールアドレスまたは差出人名から、対象メールの差出人を検索する。過去の受信メールは、ストレージ１３に記憶されていてもよいし、通信インタフェース１４を介して接続された外部の記憶装置に記憶されていてもよい。既知判定部２１５は、検索されない場合には、対象メールの差出人は未知差出人と判定して、処理を図６のステップＳ３に進める。一方、既知判定部２１５は、検索された場合には、対象メールの差出人は既知差出人であると判定して、処理を図６のステップＳ４に進める。

図３及び図８を参照して、実施の形態１に係る未知解析部２２の処理を説明する。
未知解析部２２の処理は、図６のステップＳ３の処理に対応する。

（ステップＳ２１：宛名判定処理）
宛名判定部２２１は、対象メールの本文の宛名として対象メールの受信者の名前があるか否かを判定する。具体的には、宛名判定部２２１は、英文メールの場合であれば、本文の先頭の“ＤｅａｒＭｒ．Ｓｕｚｕｋｉ”といった宛名の記載に受信者の名前が含まれているか否かを判定する。宛名判定部２２１は、宛名等の定型的な記載形式を示す定型文データ２２６を参照して、宛名の記載を特定する。また、受信者の名前は、事前にメモリ１２等に記憶されているものとする。
宛名判定部２２１は、受信者の名前が含まれていない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、宛名判定部２２１は、受信者の名前が含まれている場合には、処理をステップＳ２２に進める。なおメーリングリスト宛などの宛先が複数あるケースもあるため、「ｄｅａｒａｌｌ」「ｄｅａｒｆｏｌｋｓ」「ｄｅａｒｐｅｒｓｏｎｗｈｏｍａｙｃｏｎｃｅｒｎ」などの定型文も登録しておき、このような場合は、受信者の名前が含まれていなくても不正なメールと判断しない。

（ステップＳ２２：身元判定処理）
身元判定部２２２は、対象メールの差出人が、本文中で名乗っているか否かを判定する。具体的には、身元判定部２２２は、本文から受信者以外の人名を検索する。この際、身元判定部２２２は、人名辞書データ２２５を参照して、本文から受信者以外の人名を検索する。また、身元判定部２２２は、定型文データ２２６を参照して、「ＭｙｎａｍｅｉｓＸＸ」と「Ｉ’ｍＸＸ」と署名（Ｓｉｇｎａｔｕｒｅ）といった差出人を名乗る際の定型的な記載形式を本文中から検索して、人名辞書データ２２５にはない人名を検索してもよい。
身元判定部２２２は、差出人が本文中で名乗っていない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、身元判定部２２２は、差出人が本文中で名乗っている場合には、処理をステップＳ２３に進める。

（ステップＳ２３：名刺判定処理）
名刺判定部２２３は、受信者が対象メールの差出人と名刺交換しているか否かを判定する。具体的には、名刺判定部２２３は、通信インタフェース１４を介して接続された名刺管理システム３０に、対象メールの差出人の名前が登録されていれば、受信者が差出人と名刺交換していると判定する。名刺管理システム３０は、名刺を管理する外部システムである。なお、受信者ではなく、受信者の所属する組織の誰かが差出人と名刺交換しているか否かを判定してもよい。
名刺判定部２２３は、名刺交換している場合には、対象メールを名刺存在メールであると判定して、処理を図６のステップＳ５に進める。一方、名刺判定部２２３は、名刺交換していない場合には、処理をステップＳ２４に進める。

（ステップＳ２４：公開情報判定処理）
公開情報判定部２２４は、対象メールの差出人に関する公開情報が、受信者に関連する内容であるか否かを判定する。
具体的には、公開情報判定部２２４は、ＯＳＩＮＴ（ＯｐｅｎＳｏｕｒｃｅＩｎｔｅｌｌｉｇｅｎｃｅ）ツールを利用して、対象メールの差出人に関する公開情報を収集する。公開情報判定部２２４は、収集された公開情報に、受信者プロファイル２２７に登録された情報が含まれているか否かにより、公開情報が受信者に関連する内容であるか否かを判定する。受信者プロファイル２２７には、受信者の業務とプロジェクトと趣味といった事柄に関する単語がリストとして事前に登録されている。
具体例としては、公開情報判定部２２４は、ＯＳＩＮＴで収集されたＷｅｂページについてはＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）といったキーワード抽出技術を用いてページのキーワードを抽出する。そして、公開情報判定部２２４は、Ｗｏｒｄ２Ｖｅｃ等の単語の類似度を計算する技術を用いて、プロファイルの単語とキーワードとの類似度を計算する。公開情報判定部２２４は、計算された類似度が第１閾値以上のペアが第１基準数以上含まれている場合には、収集された公開情報に受信者プロファイル２２７に登録された情報が含まれていると判定し、公開情報が受信者に関連する内容である判定する。一方、公開情報判定部２２４は、計算された類似度が第１閾値以上のペアが第１基準数以上含まれていない場合には、収集された公開情報に受信者プロファイル２２７に登録された情報が含まれていないと判定し、公開情報が受信者に関連しない内容である判定する。
公開情報判定部２２４は、公開情報が受信者に関連する内容である場合には、対象メールを関連分野メールであると判定し、処理を図６のステップＳ５に進める。一方、公開情報判定部２２４は、公開情報が受信者に関連する内容でない場合には、対象メールを不正なメールであると判定し、処理を終了する。

図４及び図９を参照して、実施の形態１に係る既知解析部２３の処理を説明する。
既知解析部２３の処理は、図６のステップＳ４の処理に対応する。

（ステップＳ３１：本人性判定処理）
本人性判定部２３１は、対象メールの本文の文体から、本文が差出人本人の文章であるか否かを判定する。具体的には、本人性判定部２３１は、非特許文献１に記載された技術等を用いて、本文が差出人本人の文章であるか否かを判定する。
本人性判定部２３１は、本文が差出人本人の文章でない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、本人性判定部２３１は、本文が差出人本人の文章である場合には、処理をステップＳ３２に進める。

（ステップＳ３２：トピック判定処理）
トピック判定部２３２は、対象メールのトピックが、対象メールと同一の差出人から受信した他の受信メールに含まれるか否か判定する。つまり、トピック判定部２３２は、対象メールのトピックが、受信者と差出人との間で過去にやりとりされたトピックであるか否かを判定する。
トピック判定部２３２は、対象メールのトピックが他の受信メールに含まれる場合には、対象メールをトピック一致メールであると判定し、処理を図６のステップＳ５に進める。一方、トピック判定部２３２は、対象メールのトピックが他の受信メールに含まれない場合には、対象メールをトピック不一致メールであると判定し、処理を図６のステップＳ５に進める。

図４と図１０と図１１とを参照して、実施の形態１に係るトピック判定処理（図９のステップＳ３２）を詳細に説明する。トピック判定処理は、プロファイル生成部２３３の処理と一致判定部２３４の処理とを含む。

まず、図４及び図１０を参照して、実施の形態１に係るプロファイル生成部２３３の処理を説明する。
（ステップＳ４１：第１本文抽出処理）
プロファイル生成部２３３は、過去の全ての受信メールから本文を抽出する。

（ステップＳ４２：第１特徴抽出処理）
プロファイル生成部２３３は、ステップＳ４１で抽出された各受信メールの本文から特徴を抽出する。特徴としては、ＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）を用いたトピックの選択確率と、ＴＦ−ＩＤＦによるキーワードとなどが考えられる。

（ステップＳ４３：クラスタリング処理）
プロファイル生成部２３３は、ステップＳ４２で抽出された特徴に基づき、過去の受信メールを複数のクラスタにクラスタリングする。プロファイル生成部２３３は、クラスタリングのアルゴリズムとして、ＤＢＳＣＡＮ（Ｄｅｎｓｉｔｙ−ｂａｓｅｄｓｐａｔｉａｌｃｌｕｓｔｅｒｉｎｇｏｆａｐｐｌｉｃａｔｉｏｎｓｗｉｔｈｎｏｉｓｅ）と、ＫＭＥＡＮＳといった既存の技術を用いればよい。

（ステップＳ４４：ラベル付け処理）
プロファイル生成部２３３は、ステップＳ４３で複数のクラスタにクラスタリングされた受信メールを学習用データとし、受信メールが所属するクラスタの識別子をその受信メールのラベルとして割り当てる。

（ステップＳ４５：学習処理）
プロファイル生成部２３３は、ステップＳ４４でラベル付けされた学習用データに基づき、教師有学習を行う。教師有学習のアルゴリズムとしては、ＳＶＭ及びランダムフォレストといった既存の手法を用いればよい。これにより、受信メールがどのクラスタに分類されるかを識別する識別器が生成される。

ステップＳ４６からステップＳ４９の処理は、受信メールの各差出人を対象として実行される。

（ステップＳ４６：第２本文抽出処理）
プロファイル生成部２３３は、過去の全ての受信メールのうち、対象の差出人から送信された受信メールから、本文を抽出する。

（ステップＳ４７：第２特徴抽出処理）
プロファイル生成部２３３は、ステップＳ４２と同じ方法により、ステップＳ４６で抽出された各受信メールの本文から特徴を抽出する。

（ステップＳ４８：第１識別処理）
プロファイル生成部２３３は、ステップＳ４６で抽出された各受信メールを対象として、ステップＳ４５で生成された識別器と、ステップＳ４７で対象の受信メールから抽出された特徴とに基づき、対象の受信メールを分類する。そして、プロファイル生成部２３３は、対象の受信メールに、分類されたクラスタの識別子をラベルとして割り当てる。

（ステップＳ４９：プロファイル生成処理）
プロファイル生成部２３３は、ステップＳ４６で抽出された各受信メールに対して割り当てられたラベルのリストを、対象の差出人についてのプロファイルとして差出人プロファイル２３５に書き込む。

次に、図４及び図１１を参照して、実施の形態１に係る一致判定部２３４の処理を説明する。
（ステップＳ５１：送信元抽出処理）
一致判定部２３４は、対象メールの差出人の情報を抽出する。差出人の情報の抽出方法は、図７のステップＳ１１と同じである。ここでは、対象メールをＭ０とする。また、抽出された差出人の情報が示す差出人をＰとする。つまり、対象メールＭ０の差出人をＰとする。

（ステップＳ５２：送信元特定処理）
一致判定部２３４は、差出人プロファイル２３５から、差出人Ｐについてのプロファイルを読み出す。

（ステップＳ５３：第３本文抽出処理）
一致判定部２３４は、過去の全ての受信メールのうち、差出人Ｐについての受信メールを特定する。一致判定部２３４は、特定された差出人Ｐについての受信メールのうち、受信日時が新しいものから順にＸ通の受信メールを抽出する。Ｘは、１以上の整数である。ここでは、抽出されたＸ通の受信メールを、受信日時が新しいものから順にＭ１，．．．，ＭＸとする。
一致判定部２３４は、対象メールＭ０と、抽出されたＸ通の受信メールＭ１，．．．，ＭＸから本文を抽出する。

（ステップＳ５４：第３特徴抽出処理）
一致判定部２３４は、図１０のステップＳ４２と同じ方法により、受信メールＭ０，．．．，ＭＸの本文から特徴を抽出する。

（ステップＳ５５：第２識別処理）
一致判定部２３４は、図１０のステップＳ４８と同様に、対象メールＭ０と、受信メールＭ１，．．．，ＭＸとを分類して、識別子をラベルとして割り当てる。ここでは、対象メールＭ０に割り当てられたラベルをＣ０とし、受信メールＭ１，．．．，ＭＸに割り当てられたラベルをＣ１，．．．，ＣＸとする。

（ステップＳ５６：第１トピック判定処理）
一致判定部２３４は、ステップＳ５５で対象メールＭ０に割り当てられたラベルＣ０が、ステップＳ５２で読み出された差出人Ｐについてのプロファイルに含まれるか否かを判定する。
一致判定部２３４は、ラベルＣ０がプロファイルに含まれない場合には、対象メールをトピック不一致メールであると判定し、処理を図６のステップＳ５に進める。一方、一致判定部２３４は、ラベルＣ０がプロファイルに含まれる場合には、処理をステップＳ５７に進める。

（ステップＳ５７：第２トピック判定処理）
一致判定部２３４は、ステップＳ５５で対象メールＭ０に割り当てられたラベルＣ０が、ステップＳ５５で受信メールＭ１，．．．，ＭＸに割り当てられたラベルＣ１，．．．，ＣＸに含まれるか否かを判定する。
一致判定部２３４は、ラベルＣ０がラベルＣ１，．．．，ＣＸに含まれない場合には、対象メールをトピック不一致メールであると判定し、処理を図６のステップＳ５に進める。一方、一致判定部２３４は、ラベルＣ０がラベルＣ１，．．．，ＣＸに含まれる場合には、対象メールをトピック一致メールであると判定し、処理を図６のステップＳ５に進める。

図５及び図１２を参照して、実施の形態１に係る一貫性解析部２４の処理を説明する。
ここで、初期フィルタ部２１と未知解析部２２と既知解析部２３との処理が実行された結果、対象メールは、不正なメールと、不正でないメールと、名刺存在メールと、関連分野メールと、トピック一致メールと、トピック不一致メールとに分類されている。一貫性解析部２４は、名刺存在メールと関連分野メールとトピック一致メールとトピック不一致メールとのメール種類に対象メールが分類された場合に、対象メールが不正であるか否かを判定する。

（ステップＳ６１：意図特定処理）
意図特定部２４１は、対象メールの本文から対象メールの意図を特定する。ここで、対象メールの意図とは、転送と再送と添付忘れと更新と依頼対応といった対象メールを送信した理由である。実施の形態１では、意図特定部２４１は、対象メールの本文から、事前に登録された機能語に類似する単語を抽出し、抽出された単語に類似する機能語が示す意図を対象メールの意図として特定する。

（ステップＳ６２：ルール適用処理）
ルール適用部２４２は、ステップＳ６１で特定された意図と、対象メールのメール種類とに対応するルールを、一貫性判定ルール２４４から読み出す。一貫性判定ルール２４４には、事前にルールが登録されている。一貫性判定ルール２４４には、ルールがプラグイン等として適宜追加可能である。ルールは、不正なメールであると判定するための条件を示す。上述した通り、メール種類は、名刺存在メールと関連分野メールとトピック一致メールとトピック不一致メールとのどれかである。

（ステップＳ６３：メール判定処理）
メール判定部２４３は、対象メールと同一の差出人から受信した他の受信メールと、ステップＳ６１で特定された対象メールの意図との関係から、対象メールが不正なメールであるか否かを判定する。
具体的には、メール判定部２４３は、ステップＳ６２で読み出されたルールが示す条件と、対象メールと同一の差出人から受信した他の受信メールとにより、対象メールが不正なメールであるか否かを判定する。

図５及び図１３を参照して、実施の形態１に係る意図特定部２４１の処理を詳細に説明する。
意図特定部２４１の処理は、図１２のステップＳ６１に対応する。

（ステップＳ７１：第４本文抽出処理）
意図特定部２４１は、対象メールから本文を抽出する。

（ステップＳ７２：単語抽出処理）
意図特定部２４１は、ステップＳ７１で抽出された本文から単語を抽出する。例えば、意図特定部２４１は、本文に対して形態素解析を行い、名詞及び動詞といった一部の品詞を単語として抽出する。

（ステップＳ７３：類似度計算処理）
意図特定部２４１は、ステップＳ７２で抽出された各単語を対象として、対象の単語について各機能語との類似度を計算する。類似度の計算には、Ｗｏｒｄ２Ｖｅｃ等の単語の類似度を計算する技術が用いられる。機能語は、転送と再送と添付忘れと間違いと更新と回答といった対象メールを送信した理由を示す単語であり、事前に登録されている。機能語とルール機能語は、プラグイン等として適宜追加可能である。

（ステップＳ７４：類似度判定処理）
意図特定部２４１は、ステップＳ７３で計算された類似度が第２閾値以上の単語が第２基準数以上含まれているか否かを判定する。
意図特定部２４１は、第２閾値以上の単語が第２基準数以上含まれていない場合には、対象メールを不正なメールでないと判定し、処理を終了する。一方、意図特定部２４１は、第２閾値以上の単語が第２基準数以上含まれている場合には、単語との類似度が第２閾値以上である判定された機能語をリスト化して、処理を図１２のステップＳ６２に進める。

図５及び図１４を参照して、実施の形態１に係るルール適用部２４２及びメール判定部２４３の処理を詳細に説明する。
ルール適用部２４２及びメール判定部２４３の処理は、図１２のステップＳ６２及びステップＳ６３の処理に対応する。

（ステップＳ８１：リスト判定処理）
ルール適用部２４２は、ステップＳ７４で生成されたリストの全ての機能語が選択されたか否かを判定する。
ルール適用部２４２は、全ての機能語が選択された場合には、対象メールを不正なメールでないと判定し、処理を終了する。一方、ルール適用部２４２は、選択されていない機能語がある場合には、処理をステップＳ８２に進める。

（ステップＳ８２：機能語選択処理）
ルール適用部２４２は、リストから未だ選択されていない機能語を１つ選択する。

（ステップＳ８３：ルール読出処理）
ルール適用部２４２は、ステップＳ８２で選択された機能語と、対象メールのメール種類とに応じたルールを、一貫性判定ルール２４４から読み出す。

（ステップＳ８４：ルール判定処理）
メール判定部２４３は、ステップＳ８３で読み出されたルールが示す条件と、対象メールと同一の差出人から受信した他の受信メールとにより、対象メールが不正なメールであるか否かを判定する。ここでは、メール判定部２４３は、ルールが示す条件を対象メールもしくは他の受信メールが満たす場合には、対象メールを不正なメールであると判定する。一方、メール判定部２４３は、ルールが示す条件を対象メールもしくは他の受信メールが満たさない場合には、対象メールを不正なメールでないと判定する。

図１５及び図１６を参照して、一貫性判定ルール２４４に登録されるルールの例を説明する。
図１５には、ルール１からルール７の７個のルールが示されている。図１６には、機能語及びメール種類毎に適用されるルールが示されている。図１６では、メール種類が名刺存在メールと関連分野メールとについてルールが示されているが、メール種類がトピック一致メールとトピック不一致メールとについても同様にルールが設定される。

例えば、名刺存在メールに「再送」の機能語に関係する単語が含まれていた場合、ルール１が適用される。
ルール１は、対象メールの本文に機能語が含まれている場合には、不正なメールであると判定されるルールである。対象メールの本文に機能語が含まれている場合のみ図１４のステップＳ８４の処理が実行される。そのため、ルール１が適用されると、必ず不正なメールと判定される。普段やりとりの無い人物から突然メールを「再送」されることは不自然なためである。

例えば、名刺存在メールに「転送」の機能語に関係する単語が含まれていた場合、ルール２が適用される。
ルール２では、メール判定部２４３は、対象メールの本文と添付ファイルのコンテンツとＵＲＬのコンテンツとからトピック及びキーワードを抽出し、差出人と過去にやりとりしたメールのトピックと一致するか否かを判定する。トピックが一致するか否かの判定方法は、一致判定部２３４の処理と同じである。トピックが一致しなければ、不正なメールと判定される。普段やりとりの無い人物から関係の無いトピックの情報が送られることは不自然なためである。

例えば、関連分野メールに「再送」の機能語に関係する単語が含まれていた場合、ルール３又はルール４が適用される。
ルール３では、メール判定部２４３は、同じ差出人から直前に同じ内容のメールが送られているか否かを判定する。送られていなければ不正なメールと判定される。再送したことを通知するメールの前に、同じ内容のメールが過去に送られていなければ不自然なためである。同じ内容のメールか否かは、Ｄｏｃ２Ｖｅｃといった既存技術を利用し、閾値以上の類似度であれば同じ内容の文章であると判定することにより判定可能である。
ルール４では、メール判定部２４３は、同じ差出人から直前に送られた同じメールに同じ添付ファイルがついているか否かを判定する。違う添付ファイルが添付されていれば不正なメールと判定される。再送であるにも関わらず、異なる添付ファイルが送られていれば不自然なためである。

例えば、関連分野メールに「添付し忘れ」の機能語に関係する単語が含まれていた場合、ルール３又はルール５が適用される。
ルール５では、メール判定部２４３は、同じ差出人から直前に送られたメールに添付ファイルが添付されているか否かを判定する。添付されていれば不正なメールと判定される。添付し忘れているはずなのに添付されているのは不自然なためである。

＊＊＊実施の形態１の効果＊＊＊
以上のように、実施の形態１に係る不正メール判定装置１０は、対象メールと同一の差出人から受信した他の受信メールと、対象メールの意図との関係から、対象メールが不正なメールであるか否かを判定する。これにより、標的型攻撃メールを適切に検知可能になる。
特に、なりすまし対象の人物の文章の癖を正確に真似た場合、及び、過去のメールをそのまま流用された場合においても、受信メールのトピックの不一致とやりとりの矛盾といった条件から、不正なメールを検知することができる。そのため、巧妙な攻撃者による、メール経由でのマルウェア感染を防ぐことが可能となる。

特に、実施の形態１に係る不正メール判定装置１０は、対象メールの意図を示す機能語及びメール種類に応じた条件に基づき、対象メールが不正なメールであるか否かを判定する。これにより、標的型攻撃メールをより適切に検知可能になる。

＊＊＊他の構成＊＊＊
＜変形例１＞
実施の形態１では、各機能構成要素がソフトウェアで実現された。しかし、変形例１として、各機能構成要素はハードウェアで実現されてもよい。この変形例１について、実施の形態１と異なる点を説明する。

図１７を参照して、変形例１に係る不正メール判定装置１０の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、不正メール判定装置１０は、プロセッサ１１とメモリ１２とストレージ１３とに代えて、電子回路１５を備える。電子回路１５は、各機能構成要素と、メモリ１２と、ストレージ１３との機能とを実現する専用の回路である。

電子回路１５としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ（ＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）が想定される。
各機能構成要素を１つの電子回路１５で実現してもよいし、各機能構成要素を複数の電子回路１５に分散させて実現してもよい。

＜変形例２＞
変形例２として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。

プロセッサ１１とメモリ１２とストレージ１３と電子回路１５とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。

実施の形態２．
実施の形態２は、対象メールの本文全体から意図を特定する点が実施の形態１と異なる。実施の形態２では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊構成の説明＊＊＊
図１８を参照して、実施の形態２に係る一貫性解析部２４の構成を説明する。
一貫性解析部２４は、意図特定部２４１が、意図学習部２４５と、意図推定部２４６と、学習用メール２４７とを備える点が図５に示す構成と異なる。

＊＊＊動作の説明＊＊＊
図１９及び図２０を参照して、実施の形態２に係る不正メール判定装置１０の動作を説明する。
実施の形態２に係る不正メール判定装置１０の動作は、実施の形態２に係る不正メール判定方法に相当する。また、実施の形態２に係る不正メール判定装置１０の動作は、実施の形態２に係る不正メール判定プログラムの処理に相当する。

図１９を参照して、実施の形態２に係る意図学習部２４５の処理を説明する。
（ステップＳ９１：第１パラグラフ抽出処理）
意図学習部２４５は、学習用メール２４７に含まれるメールデータから全てのパラグラフを抽出する。学習用メール２４７は、各パラグラフに機能語を示すラベルが付された複数のメールの本文のデータが登録されている。

（ステップＳ９２：第４特徴抽出処理）
意図学習部２４５は、図１０のステップＳ４２と同じ方法により、ステップＳ９１で抽出された各パラグラフから特徴を抽出する。

（ステップＳ９３：学習処理）
意図学習部２４５は、図１０のステップＳ４５と同様に、ステップＳ９２で各パラグラフから抽出された特徴と、各パラグラフに付されたラベルとに基づき、教師有学習を行う。これにより、特徴がどのラベルに対応するかを識別する識別器が生成される。つまり、特徴がどの機能語に対応するかを識別する識別器が生成される。

図２０を参照して、実施の形態２に係る意図推定部２４６の処理を説明する。
（ステップＳ１０１：第５本文抽出処理）
意図推定部２４６は、対象メールから本文を抽出する。

（ステップＳ１０２：第２パラグラフ抽出処理）
意図推定部２４６は、ステップＳ１０１で抽出された本文からパラグラフを抽出する。

（ステップＳ１０３：第５特徴抽出処理）
意図推定部２４６は、図１０のステップＳ４２と同じ方法により、ステップＳ１０２で抽出された各パラグラフから特徴を抽出する。

（ステップＳ１０４：第３識別処理）
意図推定部２４６は、各パラグラフを対象として、ステップＳ９３で生成された識別器と、ステップＳ１０３で対象のパラグラフから抽出された特徴とに基づき、対象のパラグラフが各機能語に対応する識別スコアを計算する。

（ステップＳ１０５：識別スコア判定処理）
意図推定部２４６は、ステップＳ１０４で計算された識別スコアが第３閾値以上の機能語が含まれているか否かを判定する。
識別スコアが第３閾値以上の機能語が含まれている場合には、識別スコアが第３閾値以上の機能語をリストとして生成する。一方、識別スコアが第３閾値以上の機能語が含まれていない場合には、対象メールを不正なメールでないと判定し、処理を終了する。
ここで、単に各パラグラフが対応すると識別された機能語をリスト化するのではなく、識別スコアが第３閾値以上の機能語をリスト化する。これにより、パラグラフが対応する可能性が一定レベル以上ある機能語だけがリスト化される。

＊＊＊実施の形態２の効果＊＊＊
実施の形態１では、意図特定部２４１は、事前に登録された機能語に類似する単語を抽出することにより、対象メールの意図を特定した。この場合、機能語に類似する単語が本文で意図せずに使用されていると、意図が誤検出されてしまう。
これに対して、実施の形態２に係る不正メール判定装置１０は、メールの本文全体から意図を特定する。そのため、機能語に類似する単語が本文で意図せずに使用されていても、適切に意図を特定することが可能である。

１０不正メール判定装置、１１プロセッサ、１２メモリ、１３ストレージ、１４通信インタフェース、１５電子回路、２１初期フィルタ部、２１１送信元抽出部、２１２ブラックリスト判定部、２１３コンテンツ判定部、２１４差異判定部、２１５既知判定部、２１６ブラックリスト、２２未知解析部、２２１宛名判定部、２２２身元判定部、２２３名刺判定部、２２４公開情報判定部、２２５人名辞書データ、２２６定型文データ、２２７受信者プロファイル、２３既知解析部、２３１本人性判定部、２３２トピック判定部、２３３プロファイル生成部、２３４一致判定部、２３５差出人プロファイル、２４一貫性解析部、２４１意図特定部、２４２ルール適用部、２４３メール判定部、２４４一貫性判定ルール、２４５意図学習部、２４６意図推定部、２４７学習用メール、３０名刺管理システム。

Claims

新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定する意図特定部と、
前記対象メールと、前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定部によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定するメール判定部と
を備える不正メール判定装置。
前記意図特定部は、前記対象メールの本文から、事前に登録された意図を表す機能語に類似する単語を抽出し、抽出された単語に類似する機能語が示す意図を前記対象メールの意図として特定する
請求項１に記載の不正メール判定装置。
前記意図特定部は、過去の受信メールから機械学習により得られた識別器に基づき、前記対象メールの本文が各機能語に対応する評価値を計算し、計算された前記評価値が閾値以上の機能語を抽出し、抽出された前記機能語が示す意図を前記対象メールの意図として特定する
請求項１に記載の不正メール判定装置。
前記メール判定部は、前記意図特定部によって特定された意図に応じた条件と、前記対象メールと、前記他の受信メールとにより、前記対象メールが不正なメールであるか否かを判定する
請求項１から３までのいずれか１項に記載の不正メール判定装置。
前記不正メール判定装置は、さらに、
前記対象メールのトピックが前記他の受信メールに含まれるか否か判定するトピック判定部
を備え、
前記メール判定部は、前記対象メールのトピックが前記他の受信メールに含まれると前記トピック判定部によって判定されたトピック一致メールであるかと前記対象メールのトピックが前記他の受信メールに含まれないと前記トピック判定部によって判定されたトピック不一致メールとであるかとを示すメール種類と、前記意図特定部によって特定された意図とに応じた条件により、前記対象メールが不正なメールであるか否かを判定する
請求項４に記載の不正メール判定装置。
前記メール種類は、前記対象メールと同一の差出人から受信した他の受信メールがあるか否かを示し、前記対象メールと同一の差出人から受信した他の受信メールがある場合に、前記トピック一致メールであるかと前記トピック不一致メールであるかとを示す
請求項５に記載の不正メール判定装置。
前記メール種類は、前記対象メールと同一の差出人から受信した他の受信メールがない場合には、名刺を管理する名刺管理システムに前記対象メールの差出人が登録されている名刺存在メールであるかと、前記対象メールの差出人のメールアドレスから特定された情報が前記対象メールの受信者に関連する関連分野メールであるかとを示す
請求項６に記載の不正メール判定装置。
前記不正メール判定装置は、さらに、
前記対象メールの本文の宛名として前記対象メールの受信者の名前がない場合に、前記対象メールが不正なメールであると判定する宛名判定部
を備える請求項１から７までのいずれか１項に記載の不正メール判定装置。
前記不正メール判定装置は、さらに、
対象メールの差出人が、本文中で名乗っていない場合に、前記対象メールが不正なメールであると判定する宛名判定部
を備える請求項１から８までのいずれか１項に記載の不正メール判定装置。
意図特定部が、新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定し、
メール判定部が、前記対象メールと、前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定部によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定する不正メール判定方法。
新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定する意図特定処理と、
前記対象メールと、前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定処理によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定するメール判定処理と
をコンピュータに実行させる不正メール判定プログラム。