JP6758536B2 - 不正メール判定装置、不正メール判定方法及び不正メール判定プログラム - Google Patents
不正メール判定装置、不正メール判定方法及び不正メール判定プログラム Download PDFInfo
- Publication number
- JP6758536B2 JP6758536B2 JP2020520900A JP2020520900A JP6758536B2 JP 6758536 B2 JP6758536 B2 JP 6758536B2 JP 2020520900 A JP2020520900 A JP 2020520900A JP 2020520900 A JP2020520900 A JP 2020520900A JP 6758536 B2 JP6758536 B2 JP 6758536B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- intention
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Description
標的型攻撃メールでは、組織及び人物といった攻撃対象に関係のある情報を用い、巧みに作りこみをした文章が利用される。標的型攻撃メールでは、メールに添付された悪性なファイルを開かせようとしたり、本文に記載されたURL(Uniform Resource Locator)が示す悪性なWebサイトに訪れさせようとしたりする。
しかし、高度な攻撃者になればなるほど、添付ファイル及びURLがマルウェア検知ソフトウェアに検知されるかどうかを事前に確認した上で、攻撃を実行する。そのため、未知のマルウェア及び新しい悪性なURLについては、適切に検知することは難しい。
非特許文献1に記載された技術では、メールの差出人本人が出すメールが、語彙レベルと、構文レベルと、構造レベルとで分析され、個人性を表すプロファイルが作成される。語彙レベルとは、単語数と、単語単位の文字数と、テキスト全体の文字数と、行単位の文字数と、行数と、文章数と、テキスト中の個々の文字の頻度と、文の終端用の文字の頻度と等である。構文レベルとは、形容詞の数と、副詞の数と、等位接続詞の数と、過去分詞の数と等である。構造レベルとは、署名と住所と電話番号といった著者を特定する情報と、挨拶文の形式と、文の始め方と、文の終わり方と等である。文の始め方は、大文字の数と小文字の数といったことである。文の終わり方は、文章を区切りにスペースを利用している文章の数と文章区切りにドットを利用している文章の数と文章区切りにドット以外の句読点を利用している文章の数と文章が終わった後にスペースを利用している文章の数といったことである。
非特許文献1に記載された技術では、差出人から過去に受信したメールから、差出人のプロファイルが作成され、新たに受信したメールがプロファイルにマッチしない場合にはなりすましメールと判定される。
この発明は、標的型攻撃メールを適切に検知可能にすることを目的とする。
新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定する意図特定部と、
前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定部によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定するメール判定部と
を備える。
***構成の説明***
図1を参照して、実施の形態1に係る不正メール判定装置10の構成を説明する。
不正メール判定装置10は、コンピュータである。
不正メール判定装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
ストレージ13には、不正メール判定装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、不正メール判定装置10の各機能構成要素の機能が実現される。
初期フィルタ部21は、機能構成要素として、送信元抽出部211と、ブラックリスト判定部212と、コンテンツ判定部213と、差異判定部214とを備える。初期フィルタ部21は、ストレージ13に記憶されたブラックリスト216を使用する。
未知解析部22は、機能構成要素として、宛名判定部221と、身元判定部222と、名刺判定部223と、公開情報判定部224とを備える。未知解析部22は、ストレージ13に記憶された人名辞書データ225と、定型文データ226と、受信者プロファイル227とを使用する。また、未知解析部22は、通信インタフェース14を介して接続された名刺管理システム30を使用する。
既知解析部23は、機能構成要素として、本人性判定部231と、トピック判定部232とを備える。トピック判定部232は、プロファイル生成部233と、一致判定部234とを備える。既知解析部23は、ストレージ13に記憶された差出人プロファイル235を使用する。
一貫性解析部24は、機能構成要素として、意図特定部241と、ルール適用部242と、メール判定部243とを備える。一貫性解析部24は、ストレージ13に記憶された一貫性判定ルール244を使用する。
図6から図16を参照して、実施の形態1に係る不正メール判定装置10の動作を説明する。
実施の形態1に係る不正メール判定装置10の動作は、実施の形態1に係る不正メール判定方法に相当する。また、実施の形態1に係る不正メール判定装置10の動作は、実施の形態1に係る不正メール判定プログラムの処理に相当する。
(ステップS1:初期フィルタ処理)
初期フィルタ部21は、新たに受信した受信メールを分析対象の対象メールとして、対象メールに明らかに不正な特徴が含まれているかを確認する。初期フィルタ部21は、明らかに不正な特徴を有している場合には、対象メールを不正なメールとしてステップS2以降の処理から除外する。
初期フィルタ部21は、対象メールの差出人が過去にやりとりしたことのない未知差出人であるか、過去にやりとりしたことのある既知差出人であるかを判定する。
初期フィルタ部21は、対象メールの差出人が未知差出人である場合には、処理をステップS3に進める。一方、初期フィルタ部21は、対象メールの差出人が既知差出人である場合には、処理をステップS4に進める。
未知解析部22は、対象メールが初めてメールのやりとりをする相手からのメールとして不適切な特徴を持つメールであるか否かを判定する。未知解析部22は、不適切な特徴を持つメールである場合には、対象メールを不正なメールとしてステップS5の処理から除外する。
既知解析部23は、対象メールのトピックが過去に対象メールの差出人とやりとりされたトピックか否かを判定する。
一貫性解析部24は、対象メールと、対象メールの差出人からの過去の受信メールとの関係から、やりとりの一貫性を解析する。一貫性解析部24は、やりとりに矛盾がある場合には、対象メールを不正なメールと判定する。
初期フィルタ部21の処理は、図6のステップS1及びステップS2の処理に対応する。具体的には、ステップS11からステップS14の処理が図6のステップS1の処理に対応する。また、ステップS15の処理が図6のステップS2の処理に対応する。
送信元抽出部211は、対象メールの差出人の情報を抽出する。具体的には、送信元抽出部211は、対象メールのヘッダ情報からFromフィールドの情報及びReceivedフィールドの情報を、差出人の情報及び経由したサーバ情報として抽出する。
ブラックリスト判定部212は、ステップS11で抽出された差出人と経由したサーバとの少なくともいずれかが、ブラックリスト216に含まれているか否かを判定する。ブラックリスト216は、事前に作成される。ブラックリスト216は、不正なメールを送信する差出人が発見される度に追加されてもよい。
ブラックリスト判定部212は、差出人と経由したサーバとの少なくともいずれかがブラックリスト216に含まれている場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、ブラックリスト判定部212は、差出人及び経由したサーバがブラックリスト216に含まれてない場合には、処理をステップS13に進める。
コンテンツ判定部213は、対象メールに添付ファイルとURLとの少なくともいずれかが含まれているか否かを判定する。
コンテンツ判定部213は、添付ファイルとURLとのどちらも含まれていない場合には、対象メールを不正なメールでないと判定し、処理を終了する。一方、コンテンツ判定部213は、添付ファイルとURLといずれか一方でも含まれている場合には、処理をステップS14に進める。
差異判定部214は、添付ファイルとURLとのうちステップS13で含まれると判定されたものを対象として、対象のコンテンツが本文の内容と一致しているか否かを判定する。具体的には、差異判定部214は、添付ファイルを対象とする場合には、添付ファイルのコンテンツが本文の内容と一致しているか否かを判定する。一方、差異判定部214は、URLを対象とする場合には、URLが示すWebサイトのコンテンツが本文の内容と一致しているか否かを判定する。なお、コンテンツが本文の内容に一致しているか否かの判定には、例えば、文献(西川 弘毅、山本 匠、河内 清人、メールとそのコンテキスト情報を基にした不審メール検知手法の提案、コンピュータセキュリティシンポジウム2017、1B3−3)に記載された技術を利用することが可能である。
差異判定部214は、一致していない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、差異判定部214は、一致している場合には、処理をステップS15に進める。
既知判定部215は、対象メールの差出人が過去の受信メールの差出人に含まれるか否かを判定することにより、対象メールの差出人が未知差出人であるか既知差出人であるかを判定する。
具体的には、既知判定部215は、ストレージ13に記憶された過去の全ての受信メールのFromフィールドの差出人メールアドレスまたは差出人名から、対象メールの差出人を検索する。過去の受信メールは、ストレージ13に記憶されていてもよいし、通信インタフェース14を介して接続された外部の記憶装置に記憶されていてもよい。既知判定部215は、検索されない場合には、対象メールの差出人は未知差出人と判定して、処理を図6のステップS3に進める。一方、既知判定部215は、検索された場合には、対象メールの差出人は既知差出人であると判定して、処理を図6のステップS4に進める。
未知解析部22の処理は、図6のステップS3の処理に対応する。
宛名判定部221は、対象メールの本文の宛名として対象メールの受信者の名前があるか否かを判定する。具体的には、宛名判定部221は、英文メールの場合であれば、本文の先頭の“Dear Mr.Suzuki”といった宛名の記載に受信者の名前が含まれているか否かを判定する。宛名判定部221は、宛名等の定型的な記載形式を示す定型文データ226を参照して、宛名の記載を特定する。また、受信者の名前は、事前にメモリ12等に記憶されているものとする。
宛名判定部221は、受信者の名前が含まれていない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、宛名判定部221は、受信者の名前が含まれている場合には、処理をステップS22に進める。なおメーリングリスト宛などの宛先が複数あるケースもあるため、「dear all」「dear folks」「dear person who may concern」などの定型文も登録しておき、このような場合は、受信者の名前が含まれていなくても不正なメールと判断しない。
身元判定部222は、対象メールの差出人が、本文中で名乗っているか否かを判定する。具体的には、身元判定部222は、本文から受信者以外の人名を検索する。この際、身元判定部222は、人名辞書データ225を参照して、本文から受信者以外の人名を検索する。また、身元判定部222は、定型文データ226を参照して、「My name is XX」と「I’m XX」と署名(Signature)といった差出人を名乗る際の定型的な記載形式を本文中から検索して、人名辞書データ225にはない人名を検索してもよい。
身元判定部222は、差出人が本文中で名乗っていない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、身元判定部222は、差出人が本文中で名乗っている場合には、処理をステップS23に進める。
名刺判定部223は、受信者が対象メールの差出人と名刺交換しているか否かを判定する。具体的には、名刺判定部223は、通信インタフェース14を介して接続された名刺管理システム30に、対象メールの差出人の名前が登録されていれば、受信者が差出人と名刺交換していると判定する。名刺管理システム30は、名刺を管理する外部システムである。なお、受信者ではなく、受信者の所属する組織の誰かが差出人と名刺交換しているか否かを判定してもよい。
名刺判定部223は、名刺交換している場合には、対象メールを名刺存在メールであると判定して、処理を図6のステップS5に進める。一方、名刺判定部223は、名刺交換していない場合には、処理をステップS24に進める。
公開情報判定部224は、対象メールの差出人に関する公開情報が、受信者に関連する内容であるか否かを判定する。
具体的には、公開情報判定部224は、OSINT(Open Source Intelligence)ツールを利用して、対象メールの差出人に関する公開情報を収集する。公開情報判定部224は、収集された公開情報に、受信者プロファイル227に登録された情報が含まれているか否かにより、公開情報が受信者に関連する内容であるか否かを判定する。受信者プロファイル227には、受信者の業務とプロジェクトと趣味といった事柄に関する単語がリストとして事前に登録されている。
具体例としては、公開情報判定部224は、OSINTで収集されたWebページについてはTF−IDF(Term Frequency−Inverse Document Frequency)といったキーワード抽出技術を用いてページのキーワードを抽出する。そして、公開情報判定部224は、Word2Vec等の単語の類似度を計算する技術を用いて、プロファイルの単語とキーワードとの類似度を計算する。公開情報判定部224は、計算された類似度が第1閾値以上のペアが第1基準数以上含まれている場合には、収集された公開情報に受信者プロファイル227に登録された情報が含まれていると判定し、公開情報が受信者に関連する内容である判定する。一方、公開情報判定部224は、計算された類似度が第1閾値以上のペアが第1基準数以上含まれていない場合には、収集された公開情報に受信者プロファイル227に登録された情報が含まれていないと判定し、公開情報が受信者に関連しない内容である判定する。
公開情報判定部224は、公開情報が受信者に関連する内容である場合には、対象メールを関連分野メールであると判定し、処理を図6のステップS5に進める。一方、公開情報判定部224は、公開情報が受信者に関連する内容でない場合には、対象メールを不正なメールであると判定し、処理を終了する。
既知解析部23の処理は、図6のステップS4の処理に対応する。
本人性判定部231は、対象メールの本文の文体から、本文が差出人本人の文章であるか否かを判定する。具体的には、本人性判定部231は、非特許文献1に記載された技術等を用いて、本文が差出人本人の文章であるか否かを判定する。
本人性判定部231は、本文が差出人本人の文章でない場合には、対象メールを不正なメールであると判定し、処理を終了する。一方、本人性判定部231は、本文が差出人本人の文章である場合には、処理をステップS32に進める。
トピック判定部232は、対象メールのトピックが、対象メールと同一の差出人から受信した他の受信メールに含まれるか否か判定する。つまり、トピック判定部232は、対象メールのトピックが、受信者と差出人との間で過去にやりとりされたトピックであるか否かを判定する。
トピック判定部232は、対象メールのトピックが他の受信メールに含まれる場合には、対象メールをトピック一致メールであると判定し、処理を図6のステップS5に進める。一方、トピック判定部232は、対象メールのトピックが他の受信メールに含まれない場合には、対象メールをトピック不一致メールであると判定し、処理を図6のステップS5に進める。
(ステップS41:第1本文抽出処理)
プロファイル生成部233は、過去の全ての受信メールから本文を抽出する。
プロファイル生成部233は、ステップS41で抽出された各受信メールの本文から特徴を抽出する。特徴としては、LDA(Latent Dirichlet Allocation)を用いたトピックの選択確率と、TF−IDFによるキーワードとなどが考えられる。
プロファイル生成部233は、ステップS42で抽出された特徴に基づき、過去の受信メールを複数のクラスタにクラスタリングする。プロファイル生成部233は、クラスタリングのアルゴリズムとして、DBSCAN(Density−based spatial clustering of applications with noise)と、KMEANSといった既存の技術を用いればよい。
プロファイル生成部233は、ステップS43で複数のクラスタにクラスタリングされた受信メールを学習用データとし、受信メールが所属するクラスタの識別子をその受信メールのラベルとして割り当てる。
プロファイル生成部233は、ステップS44でラベル付けされた学習用データに基づき、教師有学習を行う。教師有学習のアルゴリズムとしては、SVM及びランダムフォレストといった既存の手法を用いればよい。これにより、受信メールがどのクラスタに分類されるかを識別する識別器が生成される。
プロファイル生成部233は、過去の全ての受信メールのうち、対象の差出人から送信された受信メールから、本文を抽出する。
プロファイル生成部233は、ステップS42と同じ方法により、ステップS46で抽出された各受信メールの本文から特徴を抽出する。
プロファイル生成部233は、ステップS46で抽出された各受信メールを対象として、ステップS45で生成された識別器と、ステップS47で対象の受信メールから抽出された特徴とに基づき、対象の受信メールを分類する。そして、プロファイル生成部233は、対象の受信メールに、分類されたクラスタの識別子をラベルとして割り当てる。
プロファイル生成部233は、ステップS46で抽出された各受信メールに対して割り当てられたラベルのリストを、対象の差出人についてのプロファイルとして差出人プロファイル235に書き込む。
(ステップS51:送信元抽出処理)
一致判定部234は、対象メールの差出人の情報を抽出する。差出人の情報の抽出方法は、図7のステップS11と同じである。ここでは、対象メールをM0とする。また、抽出された差出人の情報が示す差出人をPとする。つまり、対象メールM0の差出人をPとする。
一致判定部234は、差出人プロファイル235から、差出人Pについてのプロファイルを読み出す。
一致判定部234は、過去の全ての受信メールのうち、差出人Pについての受信メールを特定する。一致判定部234は、特定された差出人Pについての受信メールのうち、受信日時が新しいものから順にX通の受信メールを抽出する。Xは、1以上の整数である。ここでは、抽出されたX通の受信メールを、受信日時が新しいものから順にM1,...,MXとする。
一致判定部234は、対象メールM0と、抽出されたX通の受信メールM1,...,MXから本文を抽出する。
一致判定部234は、図10のステップS42と同じ方法により、受信メールM0,...,MXの本文から特徴を抽出する。
一致判定部234は、図10のステップS48と同様に、対象メールM0と、受信メールM1,...,MXとを分類して、識別子をラベルとして割り当てる。ここでは、対象メールM0に割り当てられたラベルをC0とし、受信メールM1,...,MXに割り当てられたラベルをC1,...,CXとする。
一致判定部234は、ステップS55で対象メールM0に割り当てられたラベルC0が、ステップS52で読み出された差出人Pについてのプロファイルに含まれるか否かを判定する。
一致判定部234は、ラベルC0がプロファイルに含まれない場合には、対象メールをトピック不一致メールであると判定し、処理を図6のステップS5に進める。一方、一致判定部234は、ラベルC0がプロファイルに含まれる場合には、処理をステップS57に進める。
一致判定部234は、ステップS55で対象メールM0に割り当てられたラベルC0が、ステップS55で受信メールM1,...,MXに割り当てられたラベルC1,...,CXに含まれるか否かを判定する。
一致判定部234は、ラベルC0がラベルC1,...,CXに含まれない場合には、対象メールをトピック不一致メールであると判定し、処理を図6のステップS5に進める。一方、一致判定部234は、ラベルC0がラベルC1,...,CXに含まれる場合には、対象メールをトピック一致メールであると判定し、処理を図6のステップS5に進める。
ここで、初期フィルタ部21と未知解析部22と既知解析部23との処理が実行された結果、対象メールは、不正なメールと、不正でないメールと、名刺存在メールと、関連分野メールと、トピック一致メールと、トピック不一致メールとに分類されている。一貫性解析部24は、名刺存在メールと関連分野メールとトピック一致メールとトピック不一致メールとのメール種類に対象メールが分類された場合に、対象メールが不正であるか否かを判定する。
意図特定部241は、対象メールの本文から対象メールの意図を特定する。ここで、対象メールの意図とは、転送と再送と添付忘れと更新と依頼対応といった対象メールを送信した理由である。実施の形態1では、意図特定部241は、対象メールの本文から、事前に登録された機能語に類似する単語を抽出し、抽出された単語に類似する機能語が示す意図を対象メールの意図として特定する。
ルール適用部242は、ステップS61で特定された意図と、対象メールのメール種類とに対応するルールを、一貫性判定ルール244から読み出す。一貫性判定ルール244には、事前にルールが登録されている。一貫性判定ルール244には、ルールがプラグイン等として適宜追加可能である。ルールは、不正なメールであると判定するための条件を示す。上述した通り、メール種類は、名刺存在メールと関連分野メールとトピック一致メールとトピック不一致メールとのどれかである。
メール判定部243は、対象メールと同一の差出人から受信した他の受信メールと、ステップS61で特定された対象メールの意図との関係から、対象メールが不正なメールであるか否かを判定する。
具体的には、メール判定部243は、ステップS62で読み出されたルールが示す条件と、対象メールと同一の差出人から受信した他の受信メールとにより、対象メールが不正なメールであるか否かを判定する。
意図特定部241の処理は、図12のステップS61に対応する。
意図特定部241は、対象メールから本文を抽出する。
意図特定部241は、ステップS71で抽出された本文から単語を抽出する。例えば、意図特定部241は、本文に対して形態素解析を行い、名詞及び動詞といった一部の品詞を単語として抽出する。
意図特定部241は、ステップS72で抽出された各単語を対象として、対象の単語について各機能語との類似度を計算する。類似度の計算には、Word2Vec等の単語の類似度を計算する技術が用いられる。機能語は、転送と再送と添付忘れと間違いと更新と回答といった対象メールを送信した理由を示す単語であり、事前に登録されている。機能語とルール機能語は、プラグイン等として適宜追加可能である。
意図特定部241は、ステップS73で計算された類似度が第2閾値以上の単語が第2基準数以上含まれているか否かを判定する。
意図特定部241は、第2閾値以上の単語が第2基準数以上含まれていない場合には、対象メールを不正なメールでないと判定し、処理を終了する。一方、意図特定部241は、第2閾値以上の単語が第2基準数以上含まれている場合には、単語との類似度が第2閾値以上である判定された機能語をリスト化して、処理を図12のステップS62に進める。
ルール適用部242及びメール判定部243の処理は、図12のステップS62及びステップS63の処理に対応する。
ルール適用部242は、ステップS74で生成されたリストの全ての機能語が選択されたか否かを判定する。
ルール適用部242は、全ての機能語が選択された場合には、対象メールを不正なメールでないと判定し、処理を終了する。一方、ルール適用部242は、選択されていない機能語がある場合には、処理をステップS82に進める。
ルール適用部242は、リストから未だ選択されていない機能語を1つ選択する。
ルール適用部242は、ステップS82で選択された機能語と、対象メールのメール種類とに応じたルールを、一貫性判定ルール244から読み出す。
メール判定部243は、ステップS83で読み出されたルールが示す条件と、対象メールと同一の差出人から受信した他の受信メールとにより、対象メールが不正なメールであるか否かを判定する。ここでは、メール判定部243は、ルールが示す条件を対象メールもしくは他の受信メールが満たす場合には、対象メールを不正なメールであると判定する。一方、メール判定部243は、ルールが示す条件を対象メールもしくは他の受信メールが満たさない場合には、対象メールを不正なメールでないと判定する。
図15には、ルール1からルール7の7個のルールが示されている。図16には、機能語及びメール種類毎に適用されるルールが示されている。図16では、メール種類が名刺存在メールと関連分野メールとについてルールが示されているが、メール種類がトピック一致メールとトピック不一致メールとについても同様にルールが設定される。
ルール1は、対象メールの本文に機能語が含まれている場合には、不正なメールであると判定されるルールである。対象メールの本文に機能語が含まれている場合のみ図14のステップS84の処理が実行される。そのため、ルール1が適用されると、必ず不正なメールと判定される。普段やりとりの無い人物から突然メールを「再送」されることは不自然なためである。
ルール2では、メール判定部243は、対象メールの本文と添付ファイルのコンテンツとURLのコンテンツとからトピック及びキーワードを抽出し、差出人と過去にやりとりしたメールのトピックと一致するか否かを判定する。トピックが一致するか否かの判定方法は、一致判定部234の処理と同じである。トピックが一致しなければ、不正なメールと判定される。普段やりとりの無い人物から関係の無いトピックの情報が送られることは不自然なためである。
ルール3では、メール判定部243は、同じ差出人から直前に同じ内容のメールが送られているか否かを判定する。送られていなければ不正なメールと判定される。再送したことを通知するメールの前に、同じ内容のメールが過去に送られていなければ不自然なためである。同じ内容のメールか否かは、Doc2Vecといった既存技術を利用し、閾値以上の類似度であれば同じ内容の文章であると判定することにより判定可能である。
ルール4では、メール判定部243は、同じ差出人から直前に送られた同じメールに同じ添付ファイルがついているか否かを判定する。違う添付ファイルが添付されていれば不正なメールと判定される。再送であるにも関わらず、異なる添付ファイルが送られていれば不自然なためである。
ルール5では、メール判定部243は、同じ差出人から直前に送られたメールに添付ファイルが添付されているか否かを判定する。添付されていれば不正なメールと判定される。添付し忘れているはずなのに添付されているのは不自然なためである。
以上のように、実施の形態1に係る不正メール判定装置10は、対象メールと同一の差出人から受信した他の受信メールと、対象メールの意図との関係から、対象メールが不正なメールであるか否かを判定する。これにより、標的型攻撃メールを適切に検知可能になる。
特に、なりすまし対象の人物の文章の癖を正確に真似た場合、及び、過去のメールをそのまま流用された場合においても、受信メールのトピックの不一致とやりとりの矛盾といった条件から、不正なメールを検知することができる。そのため、巧妙な攻撃者による、メール経由でのマルウェア感染を防ぐことが可能となる。
<変形例1>
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例1として、各機能構成要素はハードウェアで実現されてもよい。この変形例1について、実施の形態1と異なる点を説明する。
各機能構成要素がハードウェアで実現される場合には、不正メール判定装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
各機能構成要素を1つの電子回路15で実現してもよいし、各機能構成要素を複数の電子回路15に分散させて実現してもよい。
変形例2として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
実施の形態2は、対象メールの本文全体から意図を特定する点が実施の形態1と異なる。実施の形態2では、この異なる点を説明し、同一の点については説明を省略する。
図18を参照して、実施の形態2に係る一貫性解析部24の構成を説明する。
一貫性解析部24は、意図特定部241が、意図学習部245と、意図推定部246と、学習用メール247とを備える点が図5に示す構成と異なる。
図19及び図20を参照して、実施の形態2に係る不正メール判定装置10の動作を説明する。
実施の形態2に係る不正メール判定装置10の動作は、実施の形態2に係る不正メール判定方法に相当する。また、実施の形態2に係る不正メール判定装置10の動作は、実施の形態2に係る不正メール判定プログラムの処理に相当する。
(ステップS91:第1パラグラフ抽出処理)
意図学習部245は、学習用メール247に含まれるメールデータから全てのパラグラフを抽出する。学習用メール247は、各パラグラフに機能語を示すラベルが付された複数のメールの本文のデータが登録されている。
意図学習部245は、図10のステップS42と同じ方法により、ステップS91で抽出された各パラグラフから特徴を抽出する。
意図学習部245は、図10のステップS45と同様に、ステップS92で各パラグラフから抽出された特徴と、各パラグラフに付されたラベルとに基づき、教師有学習を行う。これにより、特徴がどのラベルに対応するかを識別する識別器が生成される。つまり、特徴がどの機能語に対応するかを識別する識別器が生成される。
(ステップS101:第5本文抽出処理)
意図推定部246は、対象メールから本文を抽出する。
意図推定部246は、ステップS101で抽出された本文からパラグラフを抽出する。
意図推定部246は、図10のステップS42と同じ方法により、ステップS102で抽出された各パラグラフから特徴を抽出する。
意図推定部246は、各パラグラフを対象として、ステップS93で生成された識別器と、ステップS103で対象のパラグラフから抽出された特徴とに基づき、対象のパラグラフが各機能語に対応する識別スコアを計算する。
意図推定部246は、ステップS104で計算された識別スコアが第3閾値以上の機能語が含まれているか否かを判定する。
識別スコアが第3閾値以上の機能語が含まれている場合には、識別スコアが第3閾値以上の機能語をリストとして生成する。一方、識別スコアが第3閾値以上の機能語が含まれていない場合には、対象メールを不正なメールでないと判定し、処理を終了する。
ここで、単に各パラグラフが対応すると識別された機能語をリスト化するのではなく、識別スコアが第3閾値以上の機能語をリスト化する。これにより、パラグラフが対応する可能性が一定レベル以上ある機能語だけがリスト化される。
実施の形態1では、意図特定部241は、事前に登録された機能語に類似する単語を抽出することにより、対象メールの意図を特定した。この場合、機能語に類似する単語が本文で意図せずに使用されていると、意図が誤検出されてしまう。
これに対して、実施の形態2に係る不正メール判定装置10は、メールの本文全体から意図を特定する。そのため、機能語に類似する単語が本文で意図せずに使用されていても、適切に意図を特定することが可能である。
Claims (11)
- 新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定する意図特定部と、
前記対象メールと、前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定部によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定するメール判定部と
を備える不正メール判定装置。 - 前記意図特定部は、前記対象メールの本文から、事前に登録された意図を表す機能語に類似する単語を抽出し、抽出された単語に類似する機能語が示す意図を前記対象メールの意図として特定する
請求項1に記載の不正メール判定装置。 - 前記意図特定部は、過去の受信メールから機械学習により得られた識別器に基づき、前記対象メールの本文が各機能語に対応する評価値を計算し、計算された前記評価値が閾値以上の機能語を抽出し、抽出された前記機能語が示す意図を前記対象メールの意図として特定する
請求項1に記載の不正メール判定装置。 - 前記メール判定部は、前記意図特定部によって特定された意図に応じた条件と、前記対象メールと、前記他の受信メールとにより、前記対象メールが不正なメールであるか否かを判定する
請求項1から3までのいずれか1項に記載の不正メール判定装置。 - 前記不正メール判定装置は、さらに、
前記対象メールのトピックが前記他の受信メールに含まれるか否か判定するトピック判定部
を備え、
前記メール判定部は、前記対象メールのトピックが前記他の受信メールに含まれると前記トピック判定部によって判定されたトピック一致メールであるかと前記対象メールのトピックが前記他の受信メールに含まれないと前記トピック判定部によって判定されたトピック不一致メールとであるかとを示すメール種類と、前記意図特定部によって特定された意図とに応じた条件により、前記対象メールが不正なメールであるか否かを判定する
請求項4に記載の不正メール判定装置。 - 前記メール種類は、前記対象メールと同一の差出人から受信した他の受信メールがあるか否かを示し、前記対象メールと同一の差出人から受信した他の受信メールがある場合に、前記トピック一致メールであるかと前記トピック不一致メールであるかとを示す
請求項5に記載の不正メール判定装置。 - 前記メール種類は、前記対象メールと同一の差出人から受信した他の受信メールがない場合には、名刺を管理する名刺管理システムに前記対象メールの差出人が登録されている名刺存在メールであるかと、前記対象メールの差出人のメールアドレスから特定された情報が前記対象メールの受信者に関連する関連分野メールであるかとを示す
請求項6に記載の不正メール判定装置。 - 前記不正メール判定装置は、さらに、
前記対象メールの本文の宛名として前記対象メールの受信者の名前がない場合に、前記対象メールが不正なメールであると判定する宛名判定部
を備える請求項1から7までのいずれか1項に記載の不正メール判定装置。 - 前記不正メール判定装置は、さらに、
対象メールの差出人が、本文中で名乗っていない場合に、前記対象メールが不正なメールであると判定する宛名判定部
を備える請求項1から8までのいずれか1項に記載の不正メール判定装置。 - 意図特定部が、新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定し、
メール判定部が、前記対象メールと、前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定部によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定する不正メール判定方法。 - 新たに受信した受信メールを対象メールとして、前記対象メールの本文から前記対象メールの意図を特定する意図特定処理と、
前記対象メールと、前記対象メールと同一の差出人から受信した他の受信メールと、前記意図特定処理によって特定された前記対象メールの意図との関係から、前記対象メールが不正なメールであるか否かを判定するメール判定処理と
をコンピュータに実行させる不正メール判定プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/019656 WO2019224907A1 (ja) | 2018-05-22 | 2018-05-22 | 不正メール判定装置、不正メール判定方法及び不正メール判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019224907A1 JPWO2019224907A1 (ja) | 2020-09-03 |
JP6758536B2 true JP6758536B2 (ja) | 2020-09-23 |
Family
ID=68616872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020520900A Active JP6758536B2 (ja) | 2018-05-22 | 2018-05-22 | 不正メール判定装置、不正メール判定方法及び不正メール判定プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11444901B2 (ja) |
JP (1) | JP6758536B2 (ja) |
CN (1) | CN112189190A (ja) |
WO (1) | WO2019224907A1 (ja) |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030172291A1 (en) * | 2002-03-08 | 2003-09-11 | Paul Judge | Systems and methods for automated whitelisting in monitored communications |
JP3663199B2 (ja) | 2003-05-16 | 2005-06-22 | 三洋電機株式会社 | 迷惑メール自動判定機能を有する通信装置 |
US9819624B2 (en) | 2004-03-31 | 2017-11-14 | Google Inc. | Displaying conversations in a conversation-based email system |
US8583740B2 (en) * | 2005-04-25 | 2013-11-12 | Google Inc. | Actionable quarantine summary |
GB0512744D0 (en) * | 2005-06-22 | 2005-07-27 | Blackspider Technologies | Method and system for filtering electronic messages |
US10021062B2 (en) * | 2005-07-01 | 2018-07-10 | Cirius Messaging Inc. | Secure electronic mail system |
US20100287246A1 (en) * | 2007-02-14 | 2010-11-11 | Thomas Klos | System for processing electronic mail messages with specially encoded addresses |
CA2587239A1 (en) * | 2007-05-02 | 2008-11-02 | Kryptiva Inc. | System and method for ad-hoc processing of cryptographically-encoded data |
US7769815B2 (en) * | 2008-06-04 | 2010-08-03 | Yahoo! Inc. | System and method for determining that an email message is spam based on a comparison with other potential spam messages |
JP2010134848A (ja) | 2008-12-08 | 2010-06-17 | Nomura Research Institute Ltd | メール監査システム及び方法 |
US8935190B2 (en) * | 2008-12-12 | 2015-01-13 | At&T Intellectual Property I, L.P. | E-mail handling system and method |
US9736149B2 (en) * | 2009-02-03 | 2017-08-15 | Inbay Technologies Inc. | Method and system for establishing trusted communication using a security device |
US10104029B1 (en) * | 2011-11-09 | 2018-10-16 | Proofpoint, Inc. | Email security architecture |
AU2013243223A1 (en) * | 2012-04-04 | 2014-09-25 | Not Now Pty Ltd | An electronic message management system |
JP6094056B2 (ja) * | 2012-05-10 | 2017-03-15 | 富士通株式会社 | メールチェック方法、メールチェック装置、及び、メールチェックプログラム |
US9703962B2 (en) | 2014-10-09 | 2017-07-11 | Qualcomm Incorporated | Methods and systems for behavioral analysis of mobile device behaviors based on user persona information |
US20200067861A1 (en) * | 2014-12-09 | 2020-02-27 | ZapFraud, Inc. | Scam evaluation system |
JP6827266B2 (ja) * | 2016-01-15 | 2021-02-10 | 富士通株式会社 | 検知プログラム、検知方法および検知装置 |
US10574692B2 (en) * | 2016-05-30 | 2020-02-25 | Christopher Nathan Tyrwhitt Drake | Mutual authentication security system with detection and mitigation of active man-in-the-middle browser attacks, phishing, and malware and other security improvements |
US10305833B1 (en) * | 2017-07-23 | 2019-05-28 | Turing Technology, Inc. | Blockchain based email procedures |
JP6480541B2 (ja) | 2017-10-23 | 2019-03-13 | Nttテクノクロス株式会社 | 不正メール判定装置、及びプログラム |
-
2018
- 2018-05-22 WO PCT/JP2018/019656 patent/WO2019224907A1/ja active Application Filing
- 2018-05-22 CN CN201880093429.6A patent/CN112189190A/zh active Pending
- 2018-05-22 JP JP2020520900A patent/JP6758536B2/ja active Active
-
2020
- 2020-10-01 US US17/060,773 patent/US11444901B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2019224907A1 (ja) | 2019-11-28 |
JPWO2019224907A1 (ja) | 2020-09-03 |
CN112189190A (zh) | 2021-01-05 |
US20210021555A1 (en) | 2021-01-21 |
US11444901B2 (en) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11516223B2 (en) | Secure personalized trust-based messages classification system and method | |
Jain et al. | PHISH-SAFE: URL features-based phishing detection system using machine learning | |
Bergholz et al. | New filtering approaches for phishing email | |
US10404745B2 (en) | Automatic phishing email detection based on natural language processing techniques | |
Ramanathan et al. | phishGILLNET—phishing detection methodology using probabilistic latent semantic analysis, AdaBoost, and co-training | |
Fette et al. | Learning to detect phishing emails | |
EP2803031B1 (en) | Machine-learning based classification of user accounts based on email addresses and other account information | |
US8874663B2 (en) | Comparing similarity between documents for filtering unwanted documents | |
Hayati et al. | Evaluation of spam detection and prevention frameworks for email and image spam: a state of art | |
Geng et al. | Combating phishing attacks via brand identity and authorization features | |
Sethi et al. | Spam email detection using machine learning and neural networks | |
Kumar Birthriya et al. | A comprehensive survey of phishing email detection and protection techniques | |
Queiroz et al. | Detecting Hacker Threats: Performance of Word and Sentence Embedding Models in Identifying Hacker Communications. | |
US11924245B2 (en) | Message phishing detection using machine learning characterization | |
Phan et al. | User identification via neural network based language models | |
US11647046B2 (en) | Fuzzy inclusion based impersonation detection | |
JP6758536B2 (ja) | 不正メール判定装置、不正メール判定方法及び不正メール判定プログラム | |
US20230171287A1 (en) | System and method for identifying a phishing email | |
Shmalko et al. | Profiler: Profile-Based Model to Detect Phishing Emails | |
Wapet et al. | Preventing the propagation of a new kind of illegitimate apps | |
JP2022089132A (ja) | 情報セキュリティ装置及びその方法 | |
Kumar et al. | Study and comparative analysis of various image spamming techniques | |
Arya et al. | Multi layer detection framework for spear-phishing attacks | |
Lalitha et al. | New Filtering Approaches for Phishing Email | |
Anthoni et al. | Integration of Feature Sets with Machine Learning Techniques for Spam Filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200605 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200605 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6758536 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |