JP2020166824A - スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法 - Google Patents

スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法 Download PDF

Info

Publication number
JP2020166824A
JP2020166824A JP2020009739A JP2020009739A JP2020166824A JP 2020166824 A JP2020166824 A JP 2020166824A JP 2020009739 A JP2020009739 A JP 2020009739A JP 2020009739 A JP2020009739 A JP 2020009739A JP 2020166824 A JP2020166824 A JP 2020166824A
Authority
JP
Japan
Prior art keywords
email
emails
hash
hashes
hyperlink
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020009739A
Other languages
English (en)
Other versions
JP7319202B2 (ja
Inventor
エー. デデノク ロマン
A Dedenok Roman
エー. デデノク ロマン
エス. ゴルベフ ドミトリー
S Golubev Dmitry
エス. ゴルベフ ドミトリー
エー. サルニコフ ペトル
A Salnikov Petr
エー. サルニコフ ペトル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaspersky Lab AO
Original Assignee
Kaspersky Lab AO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaspersky Lab AO filed Critical Kaspersky Lab AO
Publication of JP2020166824A publication Critical patent/JP2020166824A/ja
Application granted granted Critical
Publication of JP7319202B2 publication Critical patent/JP7319202B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0263Rule management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/18Commands or executable codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】スパム電子メールを識別するためのヒューリスティックルールを生成するシステム及び方法を提供する。【解決手段】方法は、電子メールのコンテンツの統計データを収集して解析し、ヘッダまたはハイパーリンクを含むコンテンツのそれぞれのタイプを識別することと、電子メールを、識別されたコンテンツのタイプに基づいて、電子メールヘッダ内のフィールドのグループを含むクラスタにグルーピングし、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせを選択してハッシュを生成することと、生成したハッシュに対応するハイパーリンクの解析に基づいて正規表現を形成することと、上記電子メールヘッダ内のフィールドの配列からハッシュと対応する正規表現とを組み合わせることと、によって、スパムを含んでいる電子メールを識別するためのヒューリスティックルールを生成する。【選択図】図4

Description

本開示は、コンピュータセキュリティ分野に関し、より詳細には、スパム電子メールを識別するシステムおよび方法に関する。
現在、データおよびコンピュータセキュリティに対する需要が高まっている。ユーザが、要求していない、または望ましくないコンテンツを受信するときに、セキュリティが侵害され、結果として不正行為が起こる可能性がある。要求していない、または望ましくないコンテンツを送信する方法の1つは、特定の製品またはサービスの広告の目的で、および不正な動作を行う目的で、電子メールを介してある種の電子コンテンツを送るスパム電子メールを使用するものである。今日、スパムを送信するのに使われる多くの技術が存在する。例えば、スパム電子メールは、プロキシサーバ、自動的に電子メールを送信できるようにするフリー電子メールサーバ、ボットネットなどを使用して送信される場合がある。別の例では、スパムは、ソーシャルネットワーク、ブログ、フォーラム、出会い系サイトなどのインスタントメッセージングプロトコルを用いて送信されることもある。さらに別の例では、スパムは、ショートメッセージサービス(Short Message Service:SMS)またはマルチメディアメッセージングサービス(Multimedia Messaging Service:MMS)メッセージを使用して配信されることもある。
現代の通信におけるスパムの影響を具体的に説明すると、電子メールで送信されるスパムの量は、総電子メールトラフィック量の70%から90%に達する。コンピュータネットワークによって送信されるこのようなスパムの量は、電子メールのユーザにとって、非常に不便なものとなる。特に、スパムにより、ネットワークの帯域幅が減り、メッセージ交換システムのリソースが浪費され、かつユーザおよびコンピュータの両方による電子メールの処理時間が長くなる。このように、スパムは、常にユーザが対処しなければならないものである。
例えばスパム送信者のブラックリストの作成、スパムを送信するメールサーバへのアクセスを繰り返し要求する送信者のグレーリストの作成、スパムのコンテキストフィルタリングなど、種々のメカニズムがスパムを防止するために開発されてきた。一般に、スパムフィルタリングは、電子メールのコンテンツの解析に焦点を当てたものである。フィルタリングに基づく方法は、一般的に、スパムを含んでいる電子メールを認識して正当な電子メールと識別するために正確に一致している必要がある。残念なことに、コンテンツの解析には他の問題が発生する。まず、実質的な解析には多大な時間が必要となり、その結果、電子メールの処理を遅くさせることになる。バルクスパムメーリングは、処理時間に対する影響をさらに悪化させる。次に、解析は、すべての電子メールを開封して、情報にアクセスする必要がある。ほとんどの場合、電子メールが送信される前にユーザの同意が受け取られない限り、そのようなアクセスは許可されない。さらに、場合によっては、電子メールは、機密情報を含んでいる場合がある。
スパムフィルタリングの効率を上げるアプローチの1つは、解析の量を減らすか、または予備解析を行うことである。解析を減らすことは、電子メール全体ではなく、電子メールヘッダを解析することに基づく場合がある。例えば、電子メールヘッダおよびヘッダを構成するのに使用されるヘッダの文字が、解析される場合がある。しかし、ヘッダの解析に基づく現在の技術は、同時にすばやく解析でき、統計的で正確な結果を取得できるような効果的なメカニズムを含んでいない。例えば、第1の種類のエラー(すなわち、誤警告)発生確率が、所定の閾値よりも大きい場合、正当な電子メールが、許容不可レベルのスパムとして分類される可能性がある。スパムとして分類された正当な電子メールが、一部のシステムでは、送信者および/または受信者に通知することなく隔離されるか、または自動削除される場合がある。したがって、誤分類は、正当な電子メールの損失をもたらす可能性がある。誤警告を減らす方法の1つは、各スパムがフィルタを通り抜けることができるような、異なる閾値を使用することである。残念ながら、スパムの送信者は、ますます創意に富むようになってもおり、種々の既知のスパムフィルタリングメカニズムにも注意するよう努め続けている。例えば、スパムは、電子メールのコンテンツに、ランダム化または正当な電子メールと類似のデータのどちらかを追加することによって、自動検出を回避することもある。
したがって、スパムを効率的に検出する一方で、電子メールのコンテンツの機密性を同時に維持するために、例えば、ユーザによって受信される電子メールの統計データの解析を採用する検出スキームを向上させる必要がある。すなわち、電子メール本文に含まれているテキストの解析なしに、スパムを含む電子メールを識別する必要性がある。
本開示の態様は、コンピュータセキュリティ分野に関し、より詳細には、スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法に関する。
一例示的態様では、要求していない、または望ましくないコンテンツを含むスパム電子メールを識別するためのヒューリスティックルールを生成する方法が、ハードウェアプロセッサを備えたコンピュータに実装され、該方法は、複数の電子メールのコンテンツの統計データを収集することと、収集した統計データを解析して、上記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、上記電子メールのコンテンツのそれぞれのタイプを識別することと、上記電子メールの識別したコンテンツのそれぞれのタイプに基づいて、複数の電子メールを1つまたは複数のクラスタにグルーピングし、該少なくとも1つのクラスタは、上記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであることと、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択することと、グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成することと、生成したハッシュに対応する電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成することと、上記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成することとを含む。
本開示の一態様に従って、スパム電子メールを識別するためのヒューリスティックルールを生成するシステムが提供され、該システムは、複数の電子メールのコンテンツの統計データを収集し、収集した統計データを解析して、上記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、上記電子メールのコンテンツのそれぞれのタイプを識別し、上記電子メールの識別したコンテンツのそれぞれのタイプに基づいて、複数の電子メールを1つまたは複数のクラスタにグルーピングし、該少なくとも1つのクラスタは、上記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであり、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択し、グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成し、生成したハッシュに対応する電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成し、上記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成するように構成されたハードウェアプロセッサを含む。
一例示的態様では、複数の電子メールのコンテンツの統計データを収集し、収集した統計データを解析して、上記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、上記電子メールのコンテンツのそれぞれのタイプを識別することと、上記電子メールの識別したコンテンツのそれぞれのタイプに基づいて、複数の電子メールを1つまたは複数のクラスタにグルーピングし、該少なくとも1つのクラスタは、上記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであり、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択し、グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成し、生成したハッシュに対応する電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成し、上記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成するための命令のセットを記憶している非一時的なコンピュータ可読媒体が提供される。
一態様では、正規表現は、既定の区切りに従って、各識別したハイパーリンクをセグメントに分割することと、ハイパーリンクごとに、分割によって得られたセグメントの数を計算することと、セグメントの数が互いに同じである各ハイパーリンクをセグメントごとに比較することと、ハイパーリンクの長さに応じて、ハイパーリンクを正規表現に組み合わせ、各セグメントが同一である場合、そのセグメントは変更されずに残され、各セグメントが相違する場合、同一の値のみを残す形でそのセグメントは変換されることとによって形成される。
一態様では、方法はヒューリスティックルールの生成の前に非スパム電子メールのハッシュのみを含んでいるハッシュの集合の各ハッシュに対して予備チェックを実施し、該予備チェックにより、ハッシュの集合のうちいずれのハッシュの一致も見つからない場合にのみ、該ハッシュがヒューリスティックルールの生成時に使用されることをさらに含む。
一態様では、ハッシュの集合は、少なくとも、正当な電子メールに対応するハッシュのセット、およびスパムを含む電子メールに対応するハッシュのセットを含む。
一態様では、グループのうちの最も頻度の高い組み合わせは、統計データの取得のために解析される多数の電子メールに対して定められた閾値、または統計データがそこから取得される電子メールの所定の割合を寄せ集める場合に、閾値を上回るか、または到達することのうち少なくとも1つに基づいて識別される。
一態様では、統計データは、電子メールの字句解析に基づいて取得される。
一態様では、方法は、正当な電子メールの集合に対して生成したヒューリスティックルールを検証し、検証したヒューリスティックルールがいずれの電子メールにも一致しない場合、ユーザにヒューリスティックルールを送信することをさらに含む。
一態様では、ハッシュは少なくともMD5を含む。
本開示の教示に従った望ましくないまたは要求していないコンテンツを含むスパム電子メールの識別は、コンピュータセキュリティを改善する。本発明により、上述の欠点および問題を、ヒューリスティックルールを作成してスパムが存在するかどうかを電子メールをチェックすることによって解決することができ、該ヒューリスティックルールは、チェックされることになる電子メールの電子メールヘッダのフィールドの配列の解析を可能にするものである。この改善は、複数の電子メールのコンテンツの統計データを収集し、収集した統計データを解析して、上記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、上記電子メールのコンテンツのそれぞれのタイプを識別することと、上記電子メールの識別したコンテンツのそれぞれのタイプに基づいて、複数の電子メールを1つまたは複数のクラスタにグルーピングし、該少なくとも1つのクラスタは、上記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであることと、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択することと、グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成することと、生成したハッシュに対応する電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成することと、上記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成することとによって実現される。
本明細書に組み込まれ、かつ本明細書の一部を構成する添付図面は、発明を実施するための形態と共に、本開示の1つまたは複数の例示的態様を示し、それらの原理および実装形態を説明するために提供する。
図1は、本開示の態様に従って、望ましくないコンテンツを含む電子メールを識別するためのヒューリスティックルールを形成する例示的システムを示すブロック図である。 図2は、データが電子メールヘッダに対応している場合の、ユーザの電子メールから取得されるデータの一例を示す図である。 図3は、電子メールヘッダから取得され、特定の形式に変換された統計データの一例を示す図である。 図4は、望ましくないコンテンツを含む電子メールを識別するためのヒューリスティックルールを形成する例示的方法を示すフロー図である。 図5は、本開示の態様が実装され得る汎用コンピュータシステムの一例を示す図である。
例示的態様が、スパム電子メールを識別するためのヒューリスティックルールを形成するシステム、方法、およびコンピュータプログラムのコンテキストで、本明細書に記載される。以下の説明は例示のためのものであり、いかなる点においても限定することを意図するものではないことを当業者であれば理解されるであろう。その他の態様は、本開示から利益を得る当業者であれば容易に連想されるであろう。添付図面に示される例示的な態様の実装形態に、参照番号が項目ごとに付与される。同一または類似の項目であることを言及するために、同じ参照番号が図面および以下の説明を通して可能な範囲で使用される。
本開示の教示を明瞭に提示するために、本開示の種々の態様を説明する際に使用されるいくつかの用語および概念が、本明細書において定義される。
電子メールとは、一定の構造を有した電子的に伝送されるメールを意味する。したがって、ある構造、例えば、電子メールの構造をサポートする専用のプログラムが、電子メールを書き込むために使用される。構造は、電子メールのヘッダと本文の2部から構成される。
さらに、ヘッダは、記入されるように設計された一連のフィールドを含み、各フィールド(電子メールヘッダのフィールド)は、それ自体固有の名称および対応する値によって定義される。一連のフィールドのフィールド値は、情報の特定の種類を含む。例えば、電子メールの送信者を示すように設計されたフィールドでは、名称は、「from」であり、値は、例えばusername@kaspersky.comなどの送信者の電子メールアドレスの形式である。電子メールヘッダの他のフィールドの例としては、
・Sender‐通常、「From」と類似の電子メールの送信者
・To‐記入が必須のフィールドである受信者の名前および電子メールアドレス
・Subject‐必須ではないが記入されることが望ましいフィールドである電子メールの件名
・Cc(カーボンコピー)‐メッセージのコピーを受信する他のサブスクライバのアドレス
・Date‐メッセージの送信日時・Reply-to‐返信が送信される電子メールアドレス(送信者のアドレスとは異なる場合がある)
・Received‐送信者から受信者へメッセージを中継する種々のインターネットサーバ
・Subject‐送信されるメッセージの内容
・Content-type‐送信されるメッセージの構成および電子メールが作成される際のエンコーディングのフォーマット
・Content-Transfer-Encoding‐データ伝送方法(7ビット、8ビットのメッセージなど)・Message-ID‐メッセージの一意的な識別子
・X-mailer‐電子メールメッセージ伝送プログラム
がある。
通常、電子メールのサイズは、一定の値、例えば500kbまたは2Mbなどを上回ってはならない。例えば、一定の電子メールサーバは、1Mbより大きな電子メールを中継しない。
図1は、本開示の態様に従って、スパム電子メールを識別するためのヒューリスティックルールを形成する例示的システム100を示すブロック図である。本開示にて使用する場合、用語「スパム電子メール」は、1つまたは複数の受信者への電子メールによる、要求していない、または望ましくないメッセージの大量送信が挙げられるが、これに限定されない。
システム100は、少なくとも、データプロセッサ110、ハッシュ生成部120、正規表現生成部130、ルールデータベース140、ヒューリスティックルール生成部150を含む。システム100は、データ収集記憶デバイス170から統計データ160を取得して、取得した統計データ160を処理および解析することによって、ヒューリスティックルールを形成する。
ハッシュ生成部120は、任意の長さの文字列を取得して、128ビットのハッシュを生成するMD5ハッシュ生成部であってもよい。MD5ハッシュは暗号ではなく、元の文字列を識別するために、リバースエンジニアリングすることが難しく設計された特定の入力であるハッシュであることに留意されたい。
一態様では、データ収集記憶デバイス170は、クラウドサーバを含む。例えば、図1を参照すると、クラウドサーバは、電子メールクライアント180A、180Bから180Nの電子メール175のデータの収集および記憶を実施する。用語「クラウドサーバ」とは、例えば、「カスペルスキーLab AO」社のカスペルスキーセキュリティネットワーク(Kaspersky Security Network:KSN)システムを含むデバイス/サーバを意味する。用語「クライアント」とは、ユーザのコンピュータまたはユーザの電子メールサーバ上で構築されるユーザの電子メールクライアントを意味する。例えば、図1では、クライアント180A、180Bから180Nは、ユーザの電子メールクライアントである。データ収集記憶デバイス170は、クライアントの電子メールのデータを収集する間に、特定可能なデータを収集および保持しないという点に留意すべきである。したがって、データ収集記憶デバイス170は、ユーザに関する情報を収集しないか、または情報を識別できないように収集した情報を非人格化するように構成される場合がある。非人格化とは、例えば、ハッシュ関数を用いて、情報を変換することを意味する。電子メールの本文、例えば、ユーザのテキストメッセージからの情報、および電子メールヘッダ、例えば、電子メールアドレスからの情報は、非人格化されるか、まったく収集されない。情報の非人格化では、各クライアント180は、データ収集記憶デバイス170へ送信される前に、(図1に示すように)その電子メールを変換するエージェントを含む。
図2は、データが電子メールヘッダに対応している、ユーザの電子メールから取得されるデータの一例200を示す。データは変換されて、データ収集記憶デバイス170に送信される。言い換えると、変換された1つの電子メール(ヘッダ)に関する情報の一部が、データ収集記憶デバイス170に送信される。電子メールヘッダは、一連の技術的データ、およびFrom、To、CC、Subject Message-ID、Content-Type、および、これらのフィールドの隠し値などの電子メールヘッダフィールドを含む。収集した電子メールに関する情報をシステム100に記憶および伝送することは、統計データ160の形式で行われる。データ収集記憶デバイス170は、クライアントから収集されるデータのさらに別の変換によって各電子メールの統計データを形成する。一態様では、統計データ160は、字句解析を用いて、クライアントから収集される電子メールの変換に基づいて形成される。このような変換の一例を図3に示す。
図3は、電子メールヘッダから取得され、特定の形式、例えばアノニマスな形式に変換された統計データの例300を示す。例えば、1つの電子メールのヘッダおよびヘッダのそれぞれのフィールドに対応する情報は、アノニマスな形式(すなわち、クライアントの私的または個人情報を含まない形式)に変換される。電子メールの本文もまた変換されるという点に留意すべきである。電子メールの本文の統計情報は、電子メールに含まれているユニフォームリソースロケータ(Uniform Resource Locator:URL)アドレス(ハイパーリンクとも呼ばれる)、電子メールのデータに基づいて形成された種々のシングル、および電子メールに割り当てられたカテゴリに関する情報のみを含む。この関連で、「カテゴリ」とは、作成される内部電子メール分類を意味する。例えば、分類は、スパム、スパムでない、スパムの可能性がある、フィッシング要素を含むスパムの可能性がある、疑わしいハイパーリンクを含むスパムの可能性がある、などの各カテゴリを含む場合がある。
データプロセッサ110は、電子メールの統計データ160を受信し、受信した統計データ160の一次解析を実施する。一次解析は、各電子メール内の種々の属性を識別することを含み、この際、該属性とは、少なくとも、電子メールヘッダのフィールドの配列(例えば、図3内に示す選択されたテキスト)、電子メール本文からのハイパーリンク、種々の識別子(Identifier:ID)、および電子メールデータのハッシュ(例えば、MD5)などである。次に、データプロセッサ110は、受信した統計データ160のクラスタリングを実施し、その際に、少なくとも1つのクラスタが識別されたデータに基づいて形成される。各形成されたクラスタは、特定のデータ型に応じてグルーピングされた電子メールを含む。これらのデータ型(属性)は、少なくとも、電子メールヘッダフィールド、およびそれらの対応する値を含む。
一態様では、統計データ160のクラスタリングは、データクラスタリングアルゴリズム、ノイズを伴うアプリケーションの密度準拠空間クラスタリング(Density-Based Spatial Clustering of Applications with Noise:DBSCAN)に基づいて行われる。
一態様では、電子メールの特定のデータ型に応じるグルーピングは、各電子メールのヘッダに含まれるフィールドからクラスタを形成することを含む。例えば、少なくとも1つのクラスタのグループは、「hdr_seq2」、「boundary_type」、「mailer_name」、「msgid_type」、「urlsQty」、「content_type」、「attach」などの電子メールヘッダの電子メールフィールドであると想定する。その場合、図3の統計データの形式で示される電子メールは、「hdr_seq2」、「from」、「to」、「subject」、「date」、「content-type」、および「x-mailer」のフィールドに基づいて形成される少なくとも1つのクラスタに割り当てられてよい。
クラスタの形成後、ハッシュ生成部120は、各形成したクラスタ内のグループのうちの最も頻度の高い組み合わせの少なくとも1つの選択を行い、見いだしたグループの組み合わせをハッシュに変換する。グループの組み合わせは、少なくとも、電子メールヘッダからのフィールドの一連の値である。最も頻度の高い組み合わせとは、解析される電子メールの範囲内で、電子メールの最多数を寄せ集めたフィールドのセットである。生成されたハッシュは、少なくとも、MD5、見いだされたグループの組み合わせのハッシュまたは柔軟なハッシュであると理解される。電子メールの数に対して、各グループの組み合わせがそれを超えるときに、最も頻度が高いものとみなされることになる閾値を割り当てることが可能である。この場合、閾値を超えたグループの組み合わせのすべてに対して、さらなる解析が行われることになる。例えば、閾値は、電子メールの総数の80%に設定されてよい。いずれのグループの組み合わせも、上述の閾値に達しない場合、所定の閾値に最も近い該グループの組み合わせが選択されるという点に留意すべきである。
一態様では、データプロセッサ110は、2つ以上のセットが形成された場合に、各グループのセットの優先順位付けを実施してもよい。優先順位付けは、スパムを含み、しばしばそれに遭遇する電子メールに対するヒューリスティックルールを形成するのに用いられてよい。優先順位付けパラメータは、例えば、統計データ160がそこから取得された電子メールの割り当てられたカテゴリに関する情報であるか、または電子メールの重要度を評価するのに使用される場合がある任意の追加の情報である。
例示のために、2つの電子メールに基づくハッシュの検索および生成の例を考慮する。1つの電子メール(M1)が、F1、F2、F8、F9、およびF20の6つのフィールドで構成されている電子メールヘッダのフィールドの配列を含むこと想定し、ここで、Fは電子メールヘッダの特定のフィールドに相当し、数字は、特定の分類におけるフィールドのタイプを示す。フィールドの分類は、本発明の範囲外であるが、入力パラメータである。例えば、F1はフィールド「from」、F2はフィールド「to」、F8はフィールド「x-mailer」、F9はフィールド「cc」、F20はフィールド「message-id」に相当する。他の電子メール(M2)は、F1、F3、F5、F8、F9、F15およびF20のフィールドを含む。各電子メールに対して、ハッシュは一意のものであり、各配列に基づいて形成される。例えば、電子メールM1の配列F1F2F8F9F20に対して、ハッシュは、md5 (from:to:x-mailer:message-id:cc)と形成され、それは、「c72c4c829a3863d1056634d3a306871f」と表されることになる。
一態様では、Nの数量の電子メール、例えば数十万の電子メールをクラスタリングするときに、解析される電子メールの最大数をキャプチャするために、最も頻度の高いグループから順番に形成される他のハッシュのハッシュを形成することが可能である。例えば、F1:A1、F2:A2、F8:A8、F11:A11(すなわち、これらのヘッダは2,000個のすべての電子メールに含まれている)の電子メールヘッダフィールドに基づいて、2,000個の電子メールが、グループ1に組み合わせられ、かつF1:А1、F5:А5、F9:А9の電子メールヘッダフィールドに基づいて、7,500個の電子メールが、グループ2に組み合わせられて、10,000個の電子メールが解析される。したがって、グループ1に対してハッシュ「hash 1」、グループ2に対して「hash 2」が形成される。この後に、そのように作成された2つのハッシュを組み合わせることで、さらに別のハッシュが形成され、この際、示されるハッシュは柔軟なハッシュである。
別の態様では、クラスタのグループの単一のセットが所定の閾値に到達していない場合、所定の閾値を超えるように、いくつかのセットを組み合わせることが可能である。例えば、2つまたは3つのハッシュが、記号「or」によって組み合わせられる。この場合、このような組み合わせは、さらにテキスト内の属性「hash」にも対応することになる。
次に、ハッシュ生成部120は、スパムを含んでいない電子メール、すなわち、正当な電子メールに属しているハッシュの集合内の各選択したハッシュに対して予備チェックを行う。予備チェックは、ヒューリスティックルールを形成する際の主要ステップの1つと、任意選択または追加のステップの1つとの両方である場合があるという点に留意すべきである。このようなハッシュの集合は、データベース140に格納される。選択されたハッシュが、上述の集合からのハッシュと一致する場合、該選択されたハッシュは、ヒューリスティックルールを形成するその後のプロセスから除かれる。一方、選択されたハッシュが、上述の集合からのハッシュと一致しない場合、該ハッシュは、ヒューリスティックルール生成部150に送信され、ここで、該ハッシュは必須条件の1つになり、かつハッシュ生成部120は、データの伝送に関して正規表現生成部130に通知する。しかし、予備チェックが実施されない場合、各ハッシュは上述の集合からの任意のハッシュと一致しなかったとみなされる。
一態様では、ルールデータベース140は、少なくとも、正当な電子メールに対応するハッシュのセット、およびスパムを含む電子メールに対応するハッシュのセット、また両方のタイプの電子メールに対する柔軟なハッシュのセットも含む。
次に、正規表現生成部130は、ヒューリスティックルール生成部150に送信された各ハッシュに対応する電子メールに含まれているハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成する。正規表現を形成するために、ハイパーリンクに関する情報を含むデータは、上述の各電子メールから取得された統計データから識別される。ハイパーリンクに関する情報を含むデータは、例えばインターネットなどの情報ネットワークにあるリソースの一意な識別子である、各ハイパーリンク、例えばURLを伴うハイパーリンクを含む。ヒューリスティックルールの生成に対する別の条件は、正規表現であり、これは、指定されたリンク先を発見するためのルールを定義する文字列である。
一態様では、正規表現は、以下のように形成される。
正規表現の形成の第1ステップでは、正規表現生成部130は、統計データから識別された各リンクを、リンクに含まれる区切りに従ってセグメントに分割する。区切りは、スラッシュ「/」、ポイント「.」、シンボル「@」などを含む。次に、正規表現生成部130は、このような分割の後(すなわち、区切りが適用された後)に得られたセグメントの数をカウントすることによって、各リンクの長さを決定する。例えば、ハイパーリンク「http://app.ingos.ru/email/road_rules/?utm_source= newsletter&utm_medium=email&utm_campaign=digest_02_2019_feb&utm_content=road_rules&email=username@kaspersky.com」は、8つのセグメントへの分割がなされてよく、この際、最初のセグメントは「app」、2番目のセグメントは「ingos」、3番目のセグメントは「ru」、4番目のセグメントは「email」、5番目のセグメントは「road_rules」、6番目のセグメントは「?utm_source=newsletter&utm_medium=email&utm_campaign=digest_02_2019_feb&utm_content=road_rules&email=username」、第7のセグメントは「kaspersky」および、第8のセグメントは「com」である。したがって、このリンクの長さは8である。
正規表現形成の第2ステップでは、正規表現生成部130は、別々の電子メールからの同じ長さのハイパーリンクを互いにセグメントごとに比較し、所与の長さのハイパーリンクに対応する正規表現を形成する。電子メールは、ハッシュがハッシュ生成部120によって先に形成された同じクラスタに対応するという点に留意すべきである。セグメントは、順番に従って比較される。すなわち、同じ長さの各ハイパーリンクを比較するときに、1つの電子メールからの第1リンクの第1セグメントは、他の電子メールの第1リンクの第1セグメントと比較され、その他のセグメントも同様に比較される。各セグメントが一致する場合、そのセグメントに対する正規表現のシンボルのセットは、元のままの形式のセグメントに完全に対応することになる。一方、各セグメントが相違する場合、正規表現のセグメントは、形式[x]を用い、この際、xは両方のセグメントに含まれるシンボルを含む範囲である。したがって、別々の電子メールの同じ長さのハイパーリンクを比較するときに、得られる結果は、Nの数の正規表現である。
正規表現形成の第3のステップでは、正規表現生成部130は、各正規表現を互いに比較する。比較は、その前のステップと同じように行われる。言い換えると「正規表現がより一般的であるほど、正規表現の優先度はより高い」という原理に従って、同じ長さのハイパーリンクに対応する正規表現のみが比較される。したがって、より一般的ではない正規表現は、さらなる解析から除外される。その結果、リストは、各リンク長のハイパーリンクごとに1つの正規表現を含んで形成される。
正規表現のリストの形成後、正規表現生成部130は、ヒューリスティックルールを作成する生成部150に正規表現のリストを送信する。
ヒューリスティックルール生成部150は、ハッシュ生成部120および正規表現生成部130から受信したデータに基づいて、ヒューリスティックルールを生成する。ヒューリスティックルール生成部150は、ハッシュ生成部120から得たハッシュと、ヒューリスティックルール生成部150から得た正規表現との対応関係を判断する。
対応関係を判断した後に、ヒューリスティックルール生成部150は、
「{Bind2(Functor1Equal,GetFullHeaderSeqMd5,'25219f817f0470dc40b578ee99a45cfd')},
{BodyMatch, where='urls', regexp=[[\w+\.win/[a-z]+\.?$]]},」
の種類のヒューリスティックルールに、その対応関係を組み合わせるが、この際、各ルールは、電子メールヘッダのフィールドの配列のハッシュに相当する第1条件と、定義された長さのハイパーリンクに対応する正規表現に相当する第2条件との少なくとも2つの指定された必須条件を含む。
一態様では、ヒューリスティックルール生成部150は、ヒューリスティックルールを作成するときに、指定された条件に加えて追加条件を形成する。追加条件はまた、統計データ160に基づいて形成されるが、同時に、既に作成された主要条件も考慮される。したがって、例えば、追加条件の1つは、ヒューリスティックルールの第1条件のためにハッシュが形成された元となる、電子メールヘッダのフィールドの配列に含まれるヘッダの少なくとも1つのフィールドの解析に基づいて作成されることがある。別の追加条件が、電子メールの本文、例えばハイパーリンクから取得したデータの解析に基づいて作成されることもある。各追加条件の形成は、第1条件、すなわち、ハッシュの形成に似通って行われる。このために、ヒューリスティックルール生成部150は、データプロセッサ110と相互作用する。したがって、解析される電子メールの対応するフィールドに示される値に従ったクラスタによってグルーピングが行われる、電子メールヘッダフィールドの1つのタイプが選択される。例えば、電子メールがフィールド「Content-Type」、またはフィールド「Х-mailer」を含む場合、グルーピングは、ヒューリスティックルール作成時に、スパムの存在について電子メールを評価するための追加条件の形成を可能にするために、解析される電子メールに示される各フィールドの値の解析に基づいて行われてもよい(一例が後述される)。
追加条件を形成する別の態様では、解析は、電子メールの本文に対して行われてもよい。例えば、解析は、各電子メールの本文に含まれるハイパーリンクの数の判断を含んでもよい。したがって、ハイパーリンクの最大および最小値は、解析される電子メールにおいてカウントされる。電子メールは、ハッシュが必須条件のために形成されたクラスタに対応する。追加条件は、カウントに従ってヒューリスティックルールに対して形成される。したがって、追加条件の形成により、生成されたヒューリスティックルールを実行する間の誤警告の可能性を最小化することが可能になる。
好適な一態様では、追加条件形成のための属性の選択は、それらに関する情報が、ハッシュに対応するすべての電子メールに含まれていたように行われる。ここで、ヒューリスティックルールに対する追加条件が、上記に示された例による属性に基づいて形成されたと仮定する。
その場合、ヒューリスティックルールは、
「{Bind2(Functor1Equal,GetFullHeaderSeqMd5,'25219f817f0470dc40b578ee99a45cfd')},
{Bind2(Functor1Equal,UrlsCountS, '1')},
{Bind2(Functor1Equal,GetBoundaryType,'no_boundary')},
{Bind2(Functor1Equal,GetMailerType,'none')},
{BodyMatch, where='urls', regexp=[[\w+\.win/[a-z]+\.?$]]},」
、と表されることがあり、ここで、第1条件は、電子メールヘッダのフィールドの配列のハッシュが指定されたMD5に対応する必要があることを示し、第2条件は、電子メールは1つのハイパーリンクを含むことを示し、第3条件は、フィールド「Content-type」は境界がないことを示し、第4条件は、電子メールがフィールド「X-mailer」がないことを示し、第5条件は、電子メールに含まれるハイパーリンクが指定された正規表現に該当することを示す。
このように、ヒューリスティックルール生成部150は、先に作成された正規表現ごとに1つのルールを形成する。ヒューリスティックルール作成後、ヒューリスティックルール生成部150は、正当な電子メールの追加の集合に対して、検証を追加的に実施してもよい。ヒューリスティックルールが、検証される集合に対してトリガされない場合、それはクライアント180に送信されることになる。一方、ヒューリスティックルールがトリガされる場合、それは破棄される。
さらに別の態様では、ヒューリスティックルール生成部150は、クラスタの電子メールの最多数をカバーする少なくとも1つのヒューリスティックルールを識別するために、作成されたルールの評価を実施する。評価は、以下の手法によって作成されたルールを互いに比較することに基づいて行われる。
(i)各ルールが同じ正規表現で記述される場合、ルールの条件はシンボル「OR」によって、単一のルールに組み合わせられる。
(ii)各ルールが異なる正規表現で記述されるが、他の条件は1つまで一致する場合、最も優先される正規表現が決定される。この際、該最も優先される正規表現は、クラスタ内のN%の電子メールの適用範囲、および正規表現のより厳密な形式、最も重要な基準となる適用範囲のサイズの基準を満たすものである。例えば、より厳密な正規表現を用いるルールが、他のルールより90%未満の電子メールを記述している場合、このルールは、他のルールよりも優先度が低くなり、したがって、より厳密でない正規表現を用いるルールが選択されることになる。
このように、優先度が低いルールは破棄され、より優先度が高いルールが残りのものと比較され、結果として、ハッシュ生成部120によるルール内のハッシュ(hash)を形成するために使用されるクラスタのより大きな一部およびルールそのものを最も完全に記述している少なくとも1つのヒューリスティックルールは残ることになる。この後に、ルールの検証が、正当な電子メールの集合に対して実施されてよい。
ハッシュ生成部120および正規表現生成部130は、必要に応じて、それらの機能を実施している間に、例えば、クラスタに対して用意されたハッシュのデータの送信、および正規表現の形成のための情報に関するデータの送信などの情報を交換することになるという点に留意すべきである。
一態様では、システム100はデータ収集記憶デバイス170の一部であり、それに応じて、システム100は、デバイス170内部で統計データの解析およびヒューリスティックルールの形成を実施することになる。
別の態様では、システム100は、送信されるスパム電子メールの識別のためのヒューリスティックルールを作成する必要性を示すイベントを自動的に識別する。このようなイベントは、少なくとも、統計データ160の一定量の収集、クライアント180のデバイスに対するヒューリスティックルールの誤警告を判断、先に作成されたクラスタの1つと、その他のものとを変換する必要性を示すイベントである。このために、システム100は、それ自体で、またはデータ収集記憶デバイス170を介して、クライアント180のデバイスによるこのようなイベントの存在を監視する。続いて、システム100は、ヒューリスティックルールの作成のための必要なデータを要求するか、または識別したイベントと並行してデータを取得する。
図4は、望ましくないコンテンツ、例えばスパムを含む電子メールを識別するために使用されるヒューリスティックルールを形成する例示的方法400を示すフロー図である。方法400は、システム100を用いて実現される。システム100が、スパム電子メールを検索して、識別するためのヒューリスティックルールを作成する必要性を示すイベントを受信したことを想定する。この場合、方法400は、以下に記載されるようにヒューリスティックルールを形成するように実装される。
ステップ410では、方法400により、データプロセッサ110を使用して、データ収集記憶デバイス170から複数の電子メールのコンテンツに関する統計データを収集する。統計データ160は、特定の(予め定められた)形式で提供される。例えば、統計データは、クライアント(例えば、クライアント180)の情報およびクライアントに関する情報が判別されないように、アノニマスな形式で電子メールに関する情報を含んで提供されてよい。上記のように、図3において、電子メールの1つに関するこのような統計データの一例が示されている。電子メールヘッダについての情報を含むデータが取得され、データの一部は非人格化されて、ハッシュの形式で提供される。
ステップ420では、方法400により、データプロセッサ110によって、収集した統計データを解析して、上記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、上記電子メールのコンテンツのそれぞれのタイプを識別する。
ステップ430では、方法400により、データプロセッサ110によって、上記電子メールの識別したコンテンツのそれぞれのタイプに基づいて、複数の電子メールを1つまたは複数のクラスタにグルーピングするが、ここで、該少なくとも1つのクラスタは、上記電子メールヘッダ内のフィールドの1つまたは複数グループを含むものである。一態様では、少なくとも1つのクラスタは、クラスタのそれぞれがデータ型によってグルーピングされた電子メールを含んで形成される。一態様では、クラスタを形成するために使用されるデータ型の1つは、各電子メールヘッダに対応するフィールドに関するデータ型である。
一態様では、データ型のうち1つが、各電子メールヘッダに対応するフィールドに関するものである場合、ステップ430で、該方法により、取得した統計データの解析をさらに実施するが、ここで、該解析は、少なくとも、各電子メールヘッダのフィールドの配列を識別することを含む。次に、該方法により、各電子メールヘッダのフィールドの識別された少なくとも1つの配列を使用して、そのフィールドに従ったクラスタをさらに形成する。最も好ましいデータクラスタリングアルゴリズムが、クラスタ形成のために使用される。一態様では、クラスタは、例えばアルゴリズムDBSCANを使用して、トライアルアンドエラーによって選択される。クラスタの形成の一例は、図1と共に上述した通りである。
ステップ435では、方法400により、ハッシュ生成部120によって、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択する。グループの組み合わせは、少なくとも、解析される電子メールヘッダの一連の最も頻度の高いフィールドである。最も頻度の高い組み合わせとは、解析される電子メールの範囲内で、電子メールの最多数を寄せ集めたフィールドのセットである。ハッシュは、少なくとも、MD5、または見いだされたグループの組み合わせの柔軟なハッシュである。一態様では、解析される数量の総数に対して規定された閾値が、グループのうちの最も頻度の高い組み合わせを決定するための基準として機能してもよい。
ステップ440では、方法400により、グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成する。
ステップ450では、方法400により、正規表現生成部130を使用して、生成したハッシュに対応する電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成する。例えば、解析は、望ましくないコンテンツを含む電子メールであるかどうかに関する表示を含んでもよい。正規表現の形成の原理は、図1と共に上述した通りである。
ステップ460では、方法400により、ヒューリスティックルール生成部150を使用して、少なくとも1つのハッシュと、対応する正規表現とを組み合わせることによって、望ましくないコンテンツを含む電子メールを識別するための少なくとも1つのヒューリスティックルールを生成するが、ここで、該少なくとも1つのハッシュは、上記電子メールヘッダ内のフィールドの配列からのものである。各ヒューリスティックルールは、先に形成された少なくとも1つのハッシュと、そのハッシュに対応する正規表現との組み合わせによって生成される。対応関係は、ハッシュと正規表現とを形成するのに使用された統計データを用いて判断される。したがって、1つのヒューリスティックルールは、先に作成された正規表現ごとに形成される。次いで、ヒューリスティックルールが形成されたクラスタに対応する電子メールの最多数を寄せ集めた少なくとも1つのヒューリスティックルールを識別するために、生成されたヒューリスティックルールの評価が実施される。評価は、生成された各ヒューリスティックルールを互いに比較することによって行われる。この結果として、最も完全にクラスタを記述している1つのヒューリスティックルールが残ることになる。方法は、続いて、ステップ470に進んで、プロセスを終了する。
一態様では、方法は、正当な電子メール(すなわち、スパムではない電子メール)のハッシュのみを含むハッシュの集合の各ハッシュに対して予備チェックを実施することをさらに含み、それにより、形成したハッシュと、集合からのハッシュとが一致する場合は、形成したハッシュは、その後のプロセスから除外され、ヒューリスティックルールの形成のために使用されない。ハッシュが、集合からのいずれのハッシュとも一致しない場合、方法により、ヒューリスティックルールの生成が行われる。
一態様では、生成されたヒューリスティックルールはまた、既に作成された主要条件を考慮に入れながら、取得された統計データ160に基づいて形成される追加条件を含んでもよい。
一態様では、生成されたヒューリスティックルールは、正当な電子メールの集合に対して検証され、いずれの電子メールも一致しない場合、ヒューリスティックルールは、システム100によってクライアント180に送信される。
一態様では、方法は、ヒューリスティックルールの生成の前に非スパム電子メールのハッシュのみを含んでいるハッシュの集合の各ハッシュに対して予備チェックを実施し、該予備チェックにより、ハッシュの集合のうちいずれのハッシュの一致も見つからない場合にのみ、該ハッシュがヒューリスティックルールの生成時に使用されることをさらに含む。
一態様では、各ヒューリスティックルールは、先に形成された少なくとも1つのハッシュと、そのハッシュに対応する正規表現との組み合わせによって生成される。
一態様では、各クラスタは、データ型によってグルーピングされた電子メールを含み、少なくとも1つのクラスタを形成するために使用されるデータ型のうち1つは、各電子メールに対応するヘッダのフィールドに関するデータ型である。
一態様では、最も頻度の高い組み合わせは、解析されるすべての電子メールの範囲から同時に電子メールの最多数を寄せ集めたフィールドのセットに相当する。
一態様では、最も頻度の高い組み合わせは、統計データの取得のために解析される多数の電子メールに対して定められた閾値、または統計データがそこから取得される電子メールの所定の割合を寄せ集める場合に、閾値を上回るか、または到達することのうち少なくとも1つに基づいて識別される。
一態様では、統計データは、電子メールの字句解析に基づいて取得される。
一態様では、正規表現は、既定の区切りに従って、各識別したハイパーリンクをセグメントに分割することと、ハイパーリンクごとに、分割によって得られたセグメントの数を計算することと、セグメントの数が互いに同じである各ハイパーリンクをセグメントごとに比較することと、ハイパーリンクの長さに応じて、ハイパーリンクを正規表現に組み合わせ、各セグメントが同一である場合、そのセグメントは変更されずに残され、各セグメントが相違する場合、同一の値のみを残す形でそのセグメントは変換されることとによって、ハイパーリンクの解析に基づいて形成される。
一態様では、ハッシュは、少なくとも、MD5ハッシュ、またはグループのうちの最も頻度の高い組み合わせの柔軟なハッシュを含む。
図5は、例示的態様に従って、望ましくないコンテンツを含む電子メールを識別するためのルールを形成するシステムおよび方法の態様が実装されることがあるコンピュータシステム20を示すブロック図である。コンピュータシステム20は、例えば、上述したような検出デバイスに相当し得るという点に留意すべきである。コンピュータシステム20は、例えば、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、モバイルコンピューティングデバイス、スマートフォン、タブレットコンピュータ、サーバ、メインフレーム、埋め込み型デバイス、およびコンピューティングデバイスの他の形態など、複数のコンピューティングデバイスの形態、または、単一のコンピューティングデバイスの形態である場合がある。
示すように、コンピュータシステム20は、中央演算処理装置(Central Processing Unit:CPU)21、システムメモリ22、および、中央演算処理装置21に関連付けられたメモリを含む種々のシステムコンポーネントを接続しているシステムバス23を含む。システムバス23は、バスメモリまたはバスメモリコントローラ、周辺バス、および任意の他のバスアーキテクチャと相互作用することが可能なローカルバスを含んでもよい。各バスの例としては、PCI、ISA、PCI−Express、HyperTransport(商標)、InfiniBand(商標)、シリアルATA、IC、およびその他の好適なインターコネクトなどを挙げてよい。中央演算処理装置21(プロセッサとも称される)は、単一のまたは複数のコアを有する単一のまたは複数のプロセッサのセットを含むことができる。プロセッサ21は、本開示の技術を実装する1つまたは複数のコンピュータ実行可能コードを実行してもよい。システムメモリ22は、本明細書で使用するデータおよび/またはプロセッサ21によって実行可能なコンピュータプログラムを記憶する任意のメモリであってよい。システムメモリ22は、ランダムアクセスメモリ(Random Access Memory:RAM)25などの揮発性メモリ、および読み取り専用メモリ(Read Only Memory:ROM)24、フラッシュメモリなどの不揮発性メモリ、またはこれらの任意の組み合わせを含んでもよい。基本入出力システム(Basic Input/Output System:BIOS)26は、例えば、ROM24を使用してオペレーティングシステムをロードするときの手順などの、コンピュータシステム20の各要素間の情報の伝送の基本手順を記憶していてもよい。
コンピュータシステム20は、1つまたは複数の取り外し可能記憶デバイス27、1つまたは複数の非取り外し可能記憶デバイス28、またはこれらの組み合わせなどの1つまたは複数の記憶デバイスを含んでもよい。1つまたは複数の取り外し可能記憶デバイス27、および非取り外し可能記憶デバイス28は、記憶インターフェース32を介してシステムバス23に接続される。一態様では、記憶デバイスおよび対応するコンピュータ可読記憶媒体は、コンピュータシステム20のコンピュータ命令、データ構造、プログラムモジュール、および他のデータを記憶するための電力独立型モジュールである。システムメモリ22、取り外し可能記憶デバイス27、非取り外し可能記憶デバイス28は、種々のコンピュータ可読記憶媒体を使用してもよい。コンピュータ可読記憶媒体の例としては、例えば、キャッシュ、SRAM、DRAM、ゼロ・コンデンサRAM、ツイントランジスタRAM、eDRAM、EDO RAM、DDR RAM、EEPROM、NRAM、RRAM(登録商標)、SONOS、PRAMなどのマシンメモリ、ソリッドステートドライブ(Solid State Drive:SSD)またはフラッシュドライブのようなフラッシュメモリまたはその他のメモリ技術、ハードディスクドライブまたはフロッピーディスクのような磁気カセット、磁気テープ、および磁気ディスク記憶装置、コンパクトディスク(Compact Disk Read Only Memory:CD−ROM)またはデジタル多用途ディスク(Digital Versatile Disk:DVD)のような光記憶装置、および所望のデータを記憶するために使用されてよく、コンピュータシステム20によってアクセス可能な任意の他の媒体が挙げられる。
コンピュータシステム20のシステムメモリ22、取り外し可能記憶デバイス27、および非取り外し可能記憶デバイス28は、オペレーティングシステム35、追加のプログラムアプリケーション37、他のプログラムモジュール38およびプログラムデータ39を記憶するために使用されてよい。コンピュータシステム20は、例えば、キーボード、マウス、スタイラス、ゲームコントローラ、音声入力デバイス、タッチ入力デバイスなどの、入力デバイス40からのデータを通信するための周辺インターフェース46、または、例えばシリアルポート、パラレルポート、ユニバーサルシリアルバス(Universal Serial Bus:USB)または他の周辺インターフェースなどの1つまたは複数の入出力ポートを介した、プリンタまたはスキャナなどの他の周辺デバイスを含んでもよい。例えば1つまたは複数のモニタ、プロジェクタまたは統合ディスプレイなどのディスプレイデバイス47は、例えばビデオアダプタなどの出力インターフェース48を通してシステムバス23に接続されてもよい。ディスプレイデバイス47に加えて、コンピュータシステム20は、例えばスピーカおよび他の音響映像デバイスなどの他の周辺出力デバイス(図示せず)を搭載してもよい。
コンピュータシステム20は、1つまたは複数のリモートコンピュータ49へのネットワーク接続を使用して、ネットワーク環境で動作してよい。リモートコンピュータ(またはコンピュータ)49は、コンピュータシステム20の性質について記載されている上述の各要素のほとんどまたはすべてを含む、ローカルコンピュータワークステーションまたはサーバであってもよい。例えば、ルータ、ネットワーク局、ピアデバイスまたは他のネットワークノードなどのその他のデバイスが、コンピュータネットワーク内に存在する場合があるが、これらに限定されない。コンピュータシステム20は、例えば、ローカルエリアコンピュータネットワーク(Local-Area Computer Network:LAN)50、広域コンピュータネットワーク(Wide-Area Computer Network:WAN)、イントラネットおよびインターネットなどの1つまたは複数のネットワークを介して、リモートコンピュータ49と通信するための1つまたは複数のネットワークインターフェース51またはネットワークアダプタを含んでもよい。ネットワークインターフェース51の例としては、イーサネットインターフェース、フレームリレーインターフェース、SONETインターフェースおよび無線インターフェースを挙げてもよい。
本開示の態様は、システム、方法、および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の態様を実行させるコンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体(またはメディア)を含んでもよい。
コンピュータ可読記憶媒体は、命令またはデータ構造の形態でプログラムコードを保持し、記憶することができる有形デバイスであってもよく、コンピューティングシステム20などのコンピューティングデバイスのプロセッサによってアクセス可能なものである。コンピュータ可読記憶媒体は、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはこれらの任意の好適な組み合わせであってもよい。例として、このようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、EEPROM、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、フラッシュメモリ、ハードディスク、ポータブルコンピュータディスケット、メモリースティック、フロッピーディスク、あるいは、例えば命令がそこに溝状に記録されたパンチカードまたは隆起した構造などの機械的にコード化されたデバイスが挙げられる。本明細書で使用する場合、コンピュータ可読記憶媒体は、それ自体が、例えば、電波またはその他の自ら伝搬する電磁波、導波管または伝送媒体を通して伝搬する電磁波、あるいは有線によって伝送される電気信号などの一時的な信号であると解釈されるものではない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、対応するコンピューティングデバイスに、もしくは、例えば、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークを介して、外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅製の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各コンピューティングデバイスのネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、対応するコンピューティングデバイス内部のコンピュータ可読記憶媒体に記憶するために、コンピュータ可読プログラム命令を転送する。
本開示の動作を実行するためのコンピュータ可読プログラム命令は、オブジェクト指向プログラミング言語、および従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書き込まれる組み立て命令、命令セットアーキテクチャ(Instruction-Set-Architecture:ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、ステート設定データ、あるいはソースコードまたはオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、全面的にユーザのコンピュータで、部分的にユーザのコンピュータで、スタンドアロンソフトウェアパッケージとして、部分的にユーザコンピュータと部分的にリモートコンピュータとで、もしくは全面的にリモートコンピュータまたはサーバで実行されてよい。後半のシナリオでは、リモートコンピュータは、LANまたはWANを含む任意のタイプのネットワークを通してユーザのコンピュータに接続されているか、または、接続は、外部コンピュータに向かって(例えば、インターネットを通して)構築されてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブルロジックアレイ(Programmable Logic Array:PLA)を含む電子回路は、本開示の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して、コンピュータ可読プログラム命令を実行し、電子回路をパーソナライズしてもよい。
種々の態様では、本開示に記載されるシステムおよび方法を、モジュールの意味で扱うことができる。本発明で使用する場合、用語「モジュール」は、例えば、特定用途向け集積回路(ASIC)またはFPGAなどのハードウェアを使用して、または、例えば、マイクロプロセッサシステム、および(実行中に)マイクロプロセッサシステムを特殊目的デバイスに変換するモジュールの機能性を実装するための命令のセットなどのハードウェアとソフトウェアとの組み合わせとして実装される、実世界デバイス、コンポーネント、またはコンポーネントの機構を意味する。モジュールはまた、単独でハードウェアによって促進される特定の機能と、ハードウェアとソフトウェアとの組み合わせによって促進される他の機能との、2つの組み合わせとして実装されてもよい。特定の実装形態では、少なくとも一部、および場合によっては、すべてのモジュールは、コンピュータシステムのプロセッサ(例えば、上記図5で詳細に記載されたもの)によって実施されてよい。したがって、各モジュールは、様々な好適な構成で実現される可能性があり、本明細書に例示されるいずれの特定の実装にも限定されるべきではない。
明瞭であるために、態様の決まりきった特徴のすべては本明細書に開示していない。本開示の任意の実際の実装形態の開発時に、開発者の特定の目的を達成するために非常に多くの実装形態固有の決定が行われる必要があり、これらの特定の目的は異なる実装形態および異なる開発者によって変更されることを理解されるであろう。このような開発作業は、複雑であり、かつ時間がかかる可能性があるが、それでも本開示から利益を得る当業者にとって日常的な技術的業務であるものと理解される。
さらに、本明細書で用いる表現や用語は説明上のものであって、限定のためではなく、本明細書の用語や表現は、当業者の知見と組み合わされて、本明細書で提示する教示および指導に照らして当業者によって解釈されるものと理解すべきである。加えて、明示的記載がない限り、本明細書または特許請求の範囲におけるいかなる用語も、一般的でない、あるいは特別な意味を持つものとみなされることを意図していない。
本明細書に開示された様々な態様は、本明細書で例示により言及された公知のモジュールと均等な現在および将来の公知の均等物を含む。さらに、態様および応用例を示し、かつ説明したが、本明細書に開示された発明の概念から逸脱することなく、上述したよりも多くの変更が可能であることは、本開示から利益を得る当業者には明らかであろう。

Claims (20)

  1. スパム電子メールを識別するためのヒューリスティックルールを生成する方法であって、
    プロセッサによって、複数の電子メールのコンテンツの統計データを収集することと、
    前記プロセッサによって、前記収集した統計データを解析して、前記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、前記電子メールのコンテンツのそれぞれのタイプを識別することと、
    前記プロセッサによって、前記電子メールの識別したコンテンツの前記それぞれのタイプに基づいて、前記複数の電子メールを1つまたは複数のクラスタにグルーピングし、少なくとも1つのクラスタは、前記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであることと、
    前記プロセッサによって、各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択することと、
    前記プロセッサによって、前記グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成することと、
    前記プロセッサによって、前記生成したハッシュに対応する電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成することと、
    前記プロセッサによって、前記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、前記対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成することとを含む、
    方法。
  2. 前記正規表現は、
    既定の区切りに従って、各識別したハイパーリンクをセグメントに分割することと、
    前記ハイパーリンクごとに、前記分割によって得られたセグメントの数を計算することと、
    前記セグメントの数が互いに同じである各ハイパーリンクをセグメントごとに比較することと、
    前記ハイパーリンクの長さに応じて、前記ハイパーリンクを前記正規表現に組み合わせ、各セグメントが同一である場合、そのセグメントは変更されずに残され、前記各セグメントが相違する場合、同一の値のみを残す形でそのセグメントは変換されることと、によって形成される、請求項1に記載の方法。
  3. 前記ヒューリスティックルールの生成の前に非スパム電子メールのハッシュのみを含んでいるハッシュの集合の各ハッシュに対して予備チェックを実施し、前記予備チェックにより、前記ハッシュの集合のうちいずれのハッシュの一致も見つからない場合にのみ、前記ハッシュが前記ヒューリスティックルールの生成時に使用されることをさらに含む、請求項1に記載の方法。
  4. 前記ハッシュの集合は、少なくとも、正当な電子メールに対応するハッシュのセット、およびスパムを含む電子メールに対応するハッシュのセットを含む、請求項3に記載の方法。
  5. 前記グループのうちの最も頻度の高い組み合わせは、前記統計データの取得のために解析される多数の電子メールに対して定められた閾値、または前記統計データがそこから取得される前記電子メールの所定の割合を寄せ集める場合に、閾値を上回るか、または到達すること、のうち少なくとも1つに基づいて識別される、請求項1に記載の方法。
  6. 前記統計データは、前記電子メールの字句解析に基づいて取得される、請求項1に記載の方法。
  7. 正当な電子メールの集合に対する前記生成されたヒューリスティックルールを検証することと、
    前記検証されたヒューリスティックルールが、いずれの電子メールとも一致しない場合に、前記ヒューリスティックルールをユーザに送信することと、をさらに含む請求項1に記載の方法。
  8. 前記ハッシュは、少なくともMD5を含む、請求項1に記載の方法。
  9. スパム電子メールを識別するためのヒューリスティックルールを生成するシステムであって、
    複数の電子メールのコンテンツの統計データを収集し、
    前記収集した統計データを解析して、前記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、前記電子メールのコンテンツのそれぞれのタイプを識別し、
    前記電子メールの識別したコンテンツの前記それぞれのタイプに基づいて、前記複数の電子メールを1つまたは複数のクラスタにグルーピングし、少なくとも1つのクラスタは、前記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであり、
    各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択し、
    前記グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成し、
    前記生成したハッシュに対応する前記電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成し、
    前記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、前記対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成する、
    ように構成された少なくとも1つのプロセッサを含む、システム。
  10. 前記正規表現を形成するための構成は、
    既定の区切りに従って、各識別したハイパーリンクをセグメントに分割し、
    前記ハイパーリンクごとに、前記分割によって得られたセグメントの数を計算し、
    前記セグメントの数が互いに同じである各ハイパーリンクをセグメントごとに比較し、
    前記ハイパーリンクの長さに応じて、前記ハイパーリンクを前記正規表現に組み合わせ、各セグメントが同一である場合、そのセグメントは変更されずに残され、各セグメントが相違する場合、同一の値のみを残す形でそのセグメントは変換される、
    ための構成を含む、請求項9に記載のシステム。
  11. 前記プロセッサは、前記ヒューリスティックルールの生成の前に非スパム電子メールのハッシュのみを含んでいるハッシュの集合の各ハッシュに対して予備チェックを実施し、前記予備チェックにより、前記ハッシュの集合のうちいずれのハッシュの一致も見つからない場合にのみ、前記ハッシュが前記ヒューリスティックルールの生成時に使用される、ようにさらに構成される、請求項9に記載のシステム。
  12. 前記ハッシュの集合は、少なくとも、正当な電子メールに対応するハッシュのセット、およびスパムを含む電子メールに対応するハッシュのセットを含む、請求項11に記載のシステム。
  13. 前記グループのうちの最も頻度の高い組み合わせは、前記統計データの取得のために解析される多数の電子メールに対して定められた閾値、または前記統計データがそこから取得される前記電子メールの所定の割合を寄せ集める場合に、閾値を上回るか、または到達することのうち少なくとも1つに基づいて識別される、請求項9に記載のシステム。
  14. 前記統計データは、前記電子メールの字句解析に基づいて取得される、請求項9に記載のシステム。
  15. 前記プロセッサは、
    正当な電子メールの集合に対する前記生成されたヒューリスティックルールを検証し、前記検証されたヒューリスティックルールが、いずれの電子メールとも一致しない場合に、前記ヒューリスティックルールをユーザに送信するようにさらに構成される、請求項9に記載のシステム。
  16. 前記ハッシュは、少なくともMD5を含む、請求項9に記載のシステム。
  17. スパム電子メールを識別するためのヒューリスティックルールを生成するためのコンピュータ実行可能命令を記憶している非一時的なコンピュータ可読媒体であって、
    複数の電子メールのコンテンツの統計データを収集し、
    前記収集した統計データを解析して、前記電子メールの1つまたは複数のヘッダまたはハイパーリンクを含む、前記電子メールのコンテンツのそれぞれのタイプを識別し、
    前記電子メールの識別したコンテンツの前記それぞれのタイプに基づいて、前記複数の電子メールを1つまたは複数のクラスタにグルーピングし、少なくとも1つのクラスタは、前記電子メールヘッダ内のフィールドの1つまたは複数のグループを含むものであり、
    各クラスタ内のデータのグループのうちの最も頻度の高い組み合わせの少なくとも1つを選択し、
    前記グループのうちの最も頻度の高い組み合わせの少なくとも1つからハッシュを生成し、
    前記生成したハッシュに対応する前記電子メールのハイパーリンクの解析に基づいて、少なくとも1つの正規表現を形成し、
    前記電子メールヘッダ内のフィールドの配列からの少なくとも1つのハッシュと、前記対応する正規表現とを組み合わせることによって、スパム電子メールを識別するための少なくとも1つのヒューリスティックルールを生成する、
    ための命令を含む、非一時的なコンピュータ可読媒体。
  18. 前記正規表現を形成するための前記命令は、
    既定の区切りに従って、各識別したハイパーリンクをセグメントに分割し、
    前記ハイパーリンクごとに、前記分割によって得られたセグメントの数を計算し、
    前記セグメントの数が互いに同じである各ハイパーリンクをセグメントごとに比較し、
    前記ハイパーリンクの長さに応じて、前記ハイパーリンクを前記正規表現に組み合わせ、各セグメントが同一である場合、そのセグメントは変更されずに残され、前記各セグメントが相違する場合、同一の値のみを残す形でそのセグメントは変換される、ための命令を含む、請求項17に記載の非一時的なコンピュータ可読媒体。
  19. 前記命令は、
    前記ヒューリスティックルールの生成の前に非スパム電子メールのハッシュのみを含んでいるハッシュの集合の各ハッシュに対して予備チェックを実施し、前記予備チェックにより、前記ハッシュの集合のうちいずれのハッシュの一致も見つからない場合にのみ、前記ハッシュが前記ヒューリスティックルールの生成時に使用される、ための命令を含む、請求項17に記載の非一時的なコンピュータ可読媒体。
  20. 前記ハッシュの集合は、少なくとも、正当な電子メールに対応するハッシュのセット、およびスパムを含む電子メールに対応するハッシュのセットを含む、請求項19に記載の非一時的なコンピュータ可読媒体。
JP2020009739A 2019-03-29 2020-01-24 スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法 Active JP7319202B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
RU2019109174 2019-03-29
RU2019109174A RU2710739C1 (ru) 2019-03-29 2019-03-29 Система и способ формирования эвристических правил для выявления писем, содержащих спам
US16/514,200 US11165792B2 (en) 2019-03-29 2019-07-17 System and method for generating heuristic rules for identifying spam emails
US16/514,200 2019-07-17

Publications (2)

Publication Number Publication Date
JP2020166824A true JP2020166824A (ja) 2020-10-08
JP7319202B2 JP7319202B2 (ja) 2023-08-01

Family

ID=69140825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020009739A Active JP7319202B2 (ja) 2019-03-29 2020-01-24 スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法

Country Status (4)

Country Link
US (2) US11165792B2 (ja)
JP (1) JP7319202B2 (ja)
CN (1) CN111752973A (ja)
RU (1) RU2710739C1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11861304B2 (en) * 2019-05-13 2024-01-02 Mcafee, Llc Methods, apparatus, and systems to generate regex and detect data similarity
US11757816B1 (en) * 2019-11-11 2023-09-12 Trend Micro Incorporated Systems and methods for detecting scam emails
US20210358242A1 (en) * 2020-05-13 2021-11-18 Weon Kook KIM Quarantine Gate Apparatus For Supporting Quarantine Measures For A Facility To Be Accessed By Multiple Persons In An Non-Contact Manner
US20220210127A1 (en) * 2020-12-29 2022-06-30 Vmware, Inc. Attribute-based firewall rule enforcement
US11868472B2 (en) * 2021-03-30 2024-01-09 Microsoft Technology Licensing, Llc Malicious pattern identification in clusters of data items
EP4315748A1 (en) * 2021-03-31 2024-02-07 Knowbe4, Inc. Systems and methods to identify a simulated phishing message
US11843619B1 (en) * 2022-10-07 2023-12-12 Uab 360 It Stateless system to enable data breach notification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636716B1 (en) * 2003-12-03 2009-12-22 Trend Micro Incorporated Method and architecture for blocking email spams
JP2011034417A (ja) * 2009-08-04 2011-02-17 Kddi Corp 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム
US8738721B1 (en) * 2013-06-06 2014-05-27 Kaspersky Lab Zao System and method for detecting spam using clustering and rating of E-mails
US20170093771A1 (en) * 2015-09-30 2017-03-30 Bank Of America Corporation Electronic mail cluster analysis by internet header information

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060168006A1 (en) 2003-03-24 2006-07-27 Mr. Marvin Shannon System and method for the classification of electronic communication
US8145710B2 (en) * 2003-06-18 2012-03-27 Symantec Corporation System and method for filtering spam messages utilizing URL filtering module
US7711779B2 (en) * 2003-06-20 2010-05-04 Microsoft Corporation Prevention of outgoing spam
US7788726B2 (en) * 2003-07-02 2010-08-31 Check Point Software Technologies, Inc. System and methodology providing information lockbox
US8271588B1 (en) * 2003-09-24 2012-09-18 Symantec Corporation System and method for filtering fraudulent email messages
US7752440B2 (en) * 2004-03-09 2010-07-06 Alcatel-Lucent Usa Inc. Method and apparatus for reducing e-mail spam and virus distribution in a communications network by authenticating the origin of e-mail messages
US8495144B1 (en) 2004-10-06 2013-07-23 Trend Micro Incorporated Techniques for identifying spam e-mail
US7899866B1 (en) * 2004-12-31 2011-03-01 Microsoft Corporation Using message features and sender identity for email spam filtering
EP1877904B1 (en) * 2005-05-05 2015-12-30 Cisco IronPort Systems LLC Detecting unwanted electronic mail messages based on probabilistic analysis of referenced resources
US8135779B2 (en) * 2005-06-07 2012-03-13 Nokia Corporation Method, system, apparatus, and software product for filtering out spam more efficiently
US7739337B1 (en) * 2005-06-20 2010-06-15 Symantec Corporation Method and apparatus for grouping spam email messages
CN101330473A (zh) * 2007-06-18 2008-12-24 电子科技大学 一种多协议支持的网络垃圾信息过滤方法和装置
RU85247U1 (ru) * 2008-12-26 2009-07-27 ЗАО "Лаборатория Касперского" Идентификация спама с помощью лексических векторов (варианты)
US9037114B2 (en) * 2010-01-12 2015-05-19 Microsoft Technology Licensing, Llc SMS message notification arrangement
US8924488B2 (en) 2010-07-27 2014-12-30 At&T Intellectual Property I, L.P. Employing report ratios for intelligent mobile messaging classification and anti-spam defense
US9922129B2 (en) * 2010-09-27 2018-03-20 International Business Machines Corporation Systems and methods for cluster augmentation of search results
RU2583713C2 (ru) * 2013-06-06 2016-05-10 Закрытое акционерное общество "Лаборатория Касперского" Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
US11050793B2 (en) * 2018-12-19 2021-06-29 Abnormal Security Corporation Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636716B1 (en) * 2003-12-03 2009-12-22 Trend Micro Incorporated Method and architecture for blocking email spams
JP2011034417A (ja) * 2009-08-04 2011-02-17 Kddi Corp 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム
US8738721B1 (en) * 2013-06-06 2014-05-27 Kaspersky Lab Zao System and method for detecting spam using clustering and rating of E-mails
US20170093771A1 (en) * 2015-09-30 2017-03-30 Bank Of America Corporation Electronic mail cluster analysis by internet header information

Also Published As

Publication number Publication date
US11165792B2 (en) 2021-11-02
JP7319202B2 (ja) 2023-08-01
US20220021692A1 (en) 2022-01-20
CN111752973A (zh) 2020-10-09
US11539726B2 (en) 2022-12-27
US20200314120A1 (en) 2020-10-01
RU2710739C1 (ru) 2020-01-10

Similar Documents

Publication Publication Date Title
JP7319202B2 (ja) スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法
US10218740B1 (en) Fuzzy hash of behavioral results
US10181957B2 (en) Systems and methods for detecting and/or handling targeted attacks in the email channel
US20210021612A1 (en) Message platform for automated threat simulation, reporting, detection, and remediation
US20220201037A1 (en) Detection of Phishing Campaigns Based on Deep Learning Network Detection of Phishing Exfiltration Communications
US11019079B2 (en) Detection of email spoofing and spear phishing attacks
JP5046128B2 (ja) コンテンツベースのポリシーコンプラインアンスシステムおよび方法
US7571319B2 (en) Validating inbound messages
US20130247192A1 (en) System and method for botnet detection by comprehensive email behavioral analysis
US11722503B2 (en) Responsive privacy-preserving system for detecting email threats
Narayan et al. The curse of 140 characters: evaluating the efficacy of SMS spam detection on android
JP2004362559A (ja) スパム防止のための送信元および宛先の特徴およびリスト
US20110289168A1 (en) Electronic messaging integrity engine
Coskun et al. Mitigating sms spam by online detection of repetitive near-duplicate messages
EP3206133A1 (en) Information security apparatus and methods for credential dump authenticity verification
US11916935B1 (en) Systems and methods for detecting malware domain names
Paul et al. A privatised approach in enhanced spam filtering techniques using TSAS over cloud networks
US20090210500A1 (en) System, computer program product and method of enabling internet service providers to synergistically identify and control spam e-mail
Vijayasekaran et al. Spam and email detection in big data platform using naives bayesian classifier
Marsono Packet‐level open‐digest fingerprinting for spam detection on middleboxes
EP3716540B1 (en) System and method for generating heuristic rules for identifying spam emails
JP2004280827A (ja) 不要メッセージおよび受信者側が送信を要求していないメッセージの低減
EP4199471A1 (en) System and method for restricting the reception of e-mails from a sender of bulk spam mail
CN113472627A (zh) 电子邮件处理方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230720

R150 Certificate of patent or registration of utility model

Ref document number: 7319202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150