JP2011034416A - 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム - Google Patents
電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム Download PDFInfo
- Publication number
- JP2011034416A JP2011034416A JP2009181136A JP2009181136A JP2011034416A JP 2011034416 A JP2011034416 A JP 2011034416A JP 2009181136 A JP2009181136 A JP 2009181136A JP 2009181136 A JP2009181136 A JP 2009181136A JP 2011034416 A JP2011034416 A JP 2011034416A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- label
- log data
- header information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【解決手段】収集部11により収集されたメールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成する特徴ベクトル生成部12と、所定の判定ルールに基づいてメールログデータ又は電子メールが迷惑メールであるか否かを判定する判定部13と、判定結果に基づいて特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部14と、比較結果に基づいて特徴ベクトルに対してラベルを付与するラベル付与部15と、付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成部16とを備える。
【選択図】図2
Description
電子メール分類装置1は、新たに受信するメールログデータ又は電子メールnのヘッダ情報を取得して解析し、解析結果から特徴ベクトルを生成し、当該特徴ベクトルを分類器に入力することにより、当該メールログデータ又は電子メールnがスパムメールか否かを判定する。また、この判定した結果をラベル付与の工程にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。なお、メールログデータとは、SMTPサーバ上に残される記録データのことである。また、以下に、電子メール分類装置1の構成と動作の詳細な説明を行う。
ri=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12)
xi1:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインが、IPアドレスのDNS逆引きホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
xi2:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
xi3:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
xi4:IPアドレスのDNS逆引きホスト名のドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
xi5:IPアドレスのDNS逆引きホスト名のドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
xi7:IPアドレスのDNS逆引きホスト名が存在する場合は「1」とし、それ以外「0」とする。
xi8:(HELO/EHLOコマンド内のホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)(e.g.HELO/EHLOコマンド内のホスト名:10.5.5.1,log−helo:10−5−5−1.example.com)の場合を「1」とし、それ以外を「0」とする。
xi9:(IPアドレスのDNS逆引きホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)の場合を「1」とし、それ以外を「0」とする。
xi10:log−heloがトップレベルドメインで終わっていない場合を「1」とし、それ以外を「0」とする。
xi11:自国から来ている場合を「1」とし、それ以外を「0」とする。また、IPアドレスと国との関係は、マッピングテーブルを参照することにより取得が可能である。電子メール分類装置1は、マッピングテーブルを自身が保有していても良いし、また、ネットワークを介してマッピングテーブルを保有している他の装置にアクセスして国情報を取得しても良い。
xi12:HELO/EHLOコマンド内のホスト名にドットが含まれていない、又は、HELO/EHLOコマンド内のホスト名がIPアドレス形式でかつ実際のIPアドレスと一致しない、又は、HELO/EHLOコマンド内のホスト名のドメインが、RCPT TOコマンド内のメールアドレス(宛先メールアドレス)のドメインと一致した場合を「1」とし、それ以外を「0」とする。
ra=(xa1,xa2,xa3,xa4,xa5,xa6,xa7,xa8,xa9,xa10,xa11,xa12)=(1,1,1,1,1,1,1,1,1,1,0,0)
特徴ベクトル生成部12は、このような特徴ベクトルriを教師データとして収集された全てのメールログデータ又は電子メールについて生成する。また、特徴ベクトルriは、本実施例においては、要素が12種類ある。したがって、理論的には、メールログデータ又は電子メールを4096種類に分類することができる。なお、上述した特徴ベクトルriの各定義は、例示であって、これ以外の要素が追加されても良く、要素を増加することにより4096種類以上にメールログデータ又は電子メールを分類することができ、要素の数に応じてメールログデータ又は電子メールを仔細に分類することができる。
また、ラベル付与部15は、特徴ベクトル生成部12により生成した特徴ベクトルriに対して、以下に示す第1の条件のみを満たす場合には、迷惑メールであることを示すラベルS(Spam)を付与し、以下に示す第2の条件を満たす場合には、正常メールであることを示すラベルH(Ham)を付与する。
また、ラベル付与部15は、特徴ベクトル生成部12により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、以下の手順によって特徴ベクトルriに対してラベルS又はラベルHを付与しても良い。
ri=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12)
si=(xi1,xi2,xi3,xi4,xi5,xi6)
ti=(xi7,xi8,xi9,xi10,xi11,xi12)
ラベル付与部15は、以下に示す第5の条件を満たす場合には、第1の特徴ベクトルsiに対して第1のラベルs1を付与し、第5の条件を満たさないが、以下に示す第6の条件を満たす場合には、第1の特徴ベクトルsiに対して第2のラベルh1を付与し、第5の条件及び第6の条件を満たさない場合には、第1の特徴ベクトルsiに対して第3のラベルn1を付与する。また、ラベル付与部15は、以下に示す第7の条件を満たす場合には、第2の特徴ベクトルtiに対して第4のラベルs2を付与し、第7の条件を満たさないが、以下に示す第8の条件を満たす場合には、第2の特徴ベクトルtiに対して第5のラベルh2を付与し、第7の条件及び第8の条件を満たさない場合には、第2の特徴ベクトルtiに対して第6のラベルn2を付与する。
収集工程ST1において、収集部11は、教師データとして複数のメールログデータ又は電子メールを収集する。
判定工程ST3において、判定部13は、所定の判定ルール(S25Rや、DNSBL等)に基づいて、収集工程ST1により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する。
ラベル付与工程ST5において、ラベル付与部15は、比較工程ST4の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。
ステップST12において、サーバ102は、クライアント101を識別し、所定の応答コード(250)により自身のドメイン名を返信する。以降は、メールトランザクションが開始される。
ステップST13において、クライアント101は、MAIL FROMコマンドをサーバ102に送信する。
ステップST14において、サーバ102は、所定の応答コード(250)により返信する。
ステップST15において、クライアント101は、RCPT TOコマンドをサーバ102に送信する。
11 収集部
12、22 特徴ベクトル生成部
13 判定部
14 比較部
15 ラベル付与部
16 分類器作成部
21 受信部
23 スパムメール判定部
Claims (6)
- 教師データとして複数のメールログデータ又は電子メールを収集する収集部と、
前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
所定の判定ルールに基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定部と、
前記判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、
前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、
前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成部とを備えることを特徴とする電子メール分類装置。 - 前記特徴ベクトル生成部は、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、少なくとも、メールログデータ又は電子メールを受信するセッション中の所定のコマンドに含まれているメールアドレスのドメインに関する情報と、IPアドレスのDNS逆引きの情報に基づいて前記特徴ベクトルを生成することを特徴とする請求項1記載の電子メール分類装置。
- 前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、
第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、
前記第3の条件及び前記第4の条件を満たさない場合であって、
第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、
前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、
前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、
第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、
前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、
前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することを特徴とする請求項1記載の電子メール分類装置。
- 教師データとして複数のメールログデータ又は電子メールを収集する収集工程と、
前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
所定の判定ルールに基づいて、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定工程と、
前記判定工程によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較工程と、
前記比較工程の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与工程と、
前記ラベル付与工程により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成工程とを備えることを特徴とする電子メール分類方法。 - 迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための電子メール分類プログラムであって、
教師データとして複数のメールログデータ又は電子メールを収集する収集工程と、
前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
所定の判定ルールに基づいて、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定工程と、
前記判定工程によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較工程と、
前記比較工程の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与工程と、
前記ラベル付与工程により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成工程とをコンピュータによって実現するための電子メール分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009181136A JP2011034416A (ja) | 2009-08-04 | 2009-08-04 | 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009181136A JP2011034416A (ja) | 2009-08-04 | 2009-08-04 | 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011034416A true JP2011034416A (ja) | 2011-02-17 |
Family
ID=43763411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009181136A Pending JP2011034416A (ja) | 2009-08-04 | 2009-08-04 | 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011034416A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012175296A (ja) * | 2011-02-18 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 通信分類装置及び方法 |
KR102562346B1 (ko) * | 2023-02-24 | 2023-08-01 | 주식회사 리얼시큐 | 출처가 불분명한 메일 중 정상메일을 분류하는 메일 시스템 및 그에 따른 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004362559A (ja) * | 2003-06-04 | 2004-12-24 | Microsoft Corp | スパム防止のための送信元および宛先の特徴およびリスト |
-
2009
- 2009-08-04 JP JP2009181136A patent/JP2011034416A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004362559A (ja) * | 2003-06-04 | 2004-12-24 | Microsoft Corp | スパム防止のための送信元および宛先の特徴およびリスト |
Non-Patent Citations (2)
Title |
---|
CSNG200900323006; 澤谷雪子, 三宅優: 'SMTPサーバにおけるDATAコマンド受信時でのスパムメール判定に関する検討と大規模データによる評価' 電子情報通信学会技術研究報告 NS2009-31〜NS2009-42 Vol.109, No.102, 20090625, p.61-66, 社団法人電子情報通信学会 * |
JPN6013011428; 澤谷雪子, 三宅優: 'SMTPサーバにおけるDATAコマンド受信時でのスパムメール判定に関する検討と大規模データによる評価' 電子情報通信学会技術研究報告 NS2009-31〜NS2009-42 Vol.109, No.102, 20090625, p.61-66, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012175296A (ja) * | 2011-02-18 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 通信分類装置及び方法 |
KR102562346B1 (ko) * | 2023-02-24 | 2023-08-01 | 주식회사 리얼시큐 | 출처가 불분명한 메일 중 정상메일을 분류하는 메일 시스템 및 그에 따른 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7398315B2 (en) | Reducing unwanted and unsolicited electronic messages by preventing connection hijacking and domain spoofing | |
US7921173B2 (en) | Reducing unwanted and unsolicited electronic messages by exchanging electronic message transmission policies and solving and verifying solutions to computational puzzles | |
US8745143B2 (en) | Delaying inbound and outbound email messages | |
JP2011034417A (ja) | 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム | |
US7647376B1 (en) | SPAM report generation system and method | |
US7802304B2 (en) | Method and system of providing an integrated reputation service | |
WO2009038721A1 (en) | System and method for identifying e-mail campaigns | |
AU2009299539B2 (en) | Electronic communication control | |
KR101213935B1 (ko) | 불필요하고 요청되지 않은 전자 메시지를 감소시키는 방법 | |
US8725815B2 (en) | Transmitting messages between internationalized email systems and non-internationalized email systems | |
JP4963099B2 (ja) | 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム | |
US8458264B1 (en) | Email proxy server with first respondent binding | |
US9740858B1 (en) | System and method for identifying forged emails | |
JP2011130358A (ja) | 電子メールシステム及び電子メールシステムの迷惑メール判別方法 | |
JP2011034416A (ja) | 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム | |
US7627635B1 (en) | Managing self-addressed electronic messages | |
JP2006251882A (ja) | 迷惑メール処理システム、迷惑メール処理方法、プログラム | |
JP6247490B2 (ja) | 不正メール判定装置、及びプログラム | |
Jayan et al. | Detection of spoofed mails | |
JPWO2005101770A1 (ja) | 迷惑メール処理装置およびその方法 | |
Mishra et al. | Forensic analysis of e-mail date and time spoofing | |
US20110265012A1 (en) | Method and System for Sending Individual Email Messages | |
Schwenk | Email: Protocols and SPAM | |
US20110265015A1 (en) | Method and System for a User Sending Individual Email Messages via a Web-Based Graphical User Interface | |
Joe et al. | Modeling future generation e-mail communication model for improving quality of service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120229 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120803 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |