JP2011034416A

JP2011034416A - 電子メール分類装置及び電子メール分類方法及び電子メール分類プログラム

Info

Publication number: JP2011034416A
Application number: JP2009181136A
Authority: JP
Inventors: Yukiko Sawatani; 雪子澤谷; Masaru Miyake; 優三宅
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-08-04
Filing date: 2009-08-04
Publication date: 2011-02-17

Abstract

【課題】ヘッダ情報を多用した学習に基づいてスパムメールか否かの判定を行うことができる電子メール分類装置及び電子メール分類方法及び電子メール分類プログラムを提供すること。
【解決手段】収集部１１により収集されたメールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成する特徴ベクトル生成部１２と、所定の判定ルールに基づいてメールログデータ又は電子メールが迷惑メールであるか否かを判定する判定部１３と、判定結果に基づいて特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部１４と、比較結果に基づいて特徴ベクトルに対してラベルを付与するラベル付与部１５と、付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成部１６とを備える。
【選択図】図２

Description

本発明は、受信した電子メールが迷惑メールであるか又は正常メールであるかを判定する電子メール分類装置及び電子メール分類方法及び電子メール分類プログラムに関する。

近年、ネットワークの発展により、気軽に電子メール（以下、メールという）を送受信できるようになったことに伴い、スパムメール（ｓｐａｍｍａｉｌ）の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。なお、このスパムメールの同義語として、「迷惑メール」、「ジャンクメール」、「ＵＣＥ（ＵｎｓｏｌｉｃｉｔｅｄＣｏｍｍｅｒｃｉａｌＥｍａｉｌ）」、「ＵＢＥ（ＵｎｓｏｌｉｃｉｔｅｄＢｕｌｋＥｍａｉｌ）」等がある。

このようなスパムメールは、添付ファイル等によるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導等によるプライバシーや機密情報の漏洩等の点において、個人及び団体を問わずに脅威となり得るものである。

上記のようなスパムメールによる問題は、既に社会問題の域にまで達している。メールアドレスが安価に入手可能であることや、定額料金の高速通信が安価で提供されていること等を鑑みると、今後、スパムメールは減少することなくますます増加していくと考えられ、スパムメールに対する有効な対策が早急に要求されている。

ここで、メール本文を受信する前に得られる情報（ヘッダ情報）からスパムメールかどうかを判断し、メール本文を受信することを拒否する技術が提案されている（非特許文献１を参照。）。この技術によると、スパムメールやスパムメール送信サーバに頻繁に出現する性質（文字列の特徴）を画一的なルールにしている。また、ユーザの報告に基づき作成されたＩＰアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定して、メール本文を受信することを拒否する技術が提案されている（非特許文献２を参照。）。なお、「ヘッダ情報」とは、ＳＭＴＰセッション中のコマンドやＩＰアドレスも含めた概念である。

スパムメール判定方法（Ｓ２５Ｒ）、［平成２１年７月１５日］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｇａｂａｃｈｏ−ｎｅｔ．ｊｐ／ａｎｔｉ−ｓｐａｍ／ｐａｐｅｒ．ｈｔｍｌ＞スパムメール判定方法（ｓｐａｍｈａｕｓ）、［平成２１年７月１５日］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｓｐａｍｈａｕｓ．ｏｒｇ／＞スパムメール判定方法（ＳｐａｍＡｓｓａｓｓｉｎ）、［平成２１年７月１５日］、インターネット＜ｈｔｔｐ：／／ｓｐａｍａｓｓａｓｓｉｎ．ａｐａｃｈｅ．ｏｒｇ／ｉｎｄｅｘ．ｈｔｍｌ＞スパムメール判定方法（ｔｒａｎｓｗａｒｅ）、［平成２１年７月１５日］、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｔｒａｎｓｗａｒｅ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔ／ａｈ／ｓｖｍ．ｈｔｍｌ＞

しかし、非特許文献１は、発明者等の研究によると、スパムメールを見逃す割合（ｆａｌｓｅｎｅｇａｔｉｖｅ：ＦＮ）は３％程度と少ないが、正常なメールをスパムメールと判断してしまう割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）は１０％以上も存在することが分かった。一方、非特許文献２に記載のｓｐａｍｈａｕｓのＤＮＳＢＬは、発明者等の研究によると、ユーザからの報告をもとにするため、ＦＮが２０％程度存在することが分かった。さらに、ＩＳＰ等のＩＰアドレスの中にスパムメール送信者が存在する場合には、誤って広範囲の正しいＩＰアドレスレンジが登録されてしまうことも分かった。なお、ＤＮＳＢＬとは、迷惑メールを送信するホストのＩＰアドレスを収集したデータベースであって、ＤＮＳのプロトコルを用いてＩＰアドレスを調査するものである。

また、メール本文を受信した後にメール本文に基づいてスパムメールの判定を行う場合には、ベイズ推定や、サポートベクターマシン等を利用する技術が提案されている（非特許文献３、４を参照）。これらの技術においては、予めスパムメールと分かっているメールと正常なものとわかっているメールを学習データとして利用し、この学習データをもとに分類器を作成し、作成した分類器によって受信したメールがスパムメールか否かを分類する。

この技術においては、分類器は、学習データに依存して作成されるため、学習データ自体が誤っている場合、精度の低いものになってしまう。よって、学習データに対してスパムメールか否かを示す正しいラベル付けを行う必要があり、現在は、人手を介して行っている。また、一から全ての学習を行う分類器ではなく、いわゆる半教師学習を行う分類器もあるが、いずれの分類器であっても確実なラベルが必要となり、人手が必要となっている。

本発明は、非特許文献１、２に示す既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなく、ヘッダ情報を多用した学習に基づいて効率的にスパムメールか否かの判定を行うことができる電子メール分類装置及び電子メール分類方法及び電子メール分類プログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）本発明に係る電子メール分類装置は、上記課題を解決するために、教師データとして複数のメールログデータ又は電子メールを収集する収集部と、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、所定の判定ルールに基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定部と、前記判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成部とを備える。

このような構成によれば、電子メール分類装置は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。

よって、電子メール分類装置は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、電子メール分類装置は、受信するメールログデータ又は電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器に入力することにより、メールログデータ又は電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）を低減することができる。

また、電子メール分類装置は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいてメールログデータ又は電子メールがスパムメールであるか否かを判定できるので、電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、電子メール分類装置は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。

（２）また、上記電子メール分類装置では、前記特徴ベクトル生成部は、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、少なくとも、メールログデータ又は電子メールを受信するセッション中の所定のコマンドに含まれているメールアドレスのドメインに関する情報と、ＩＰアドレスのＤＮＳ逆引きの情報に基づいて前記特徴ベクトルを生成することが好ましい。

このような構成によれば、電子メール分類装置は、人手を介することなくメールログデータ又は電子メールのヘッダ情報を多用して特徴ベクトルを生成することができる。

（３）また、上記電子メール分類装置では、前記ラベル付与部は、第１の条件のみを満たす場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、第２の条件を満たす場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することが好ましい。

このような構成によれば、電子メール分類装置は、ｋ１とｋ２を任意に設定することにより（例えば、ｋ１＝０．００１、ｋ２＝０）、正常なメールをスパムメールであると誤って判定されることがなくなる。

（４）また、上記電子メール分類装置では、前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルｒｉをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに分割し、第３の条件を満たす場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、前記第３の条件を満たさないが、第４の条件を満たす場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与し、前記第３の条件及び前記第４の条件を満たさない場合であって、第５の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第１のラベルｓ１を付与し、前記第５の条件を満たさないが第６の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第２のラベルｈ１を付与し、前記第５の条件及び前記第６の条件を満たさない場合には、前記第１の特徴ベクトルｓｉに対して第３のラベルｎ１を付与し、第７の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第４のラベルｓ２を付与し、前記第７の条件を満たさないが第８の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第５のラベルｈ２を付与し、前記第７の条件及び前記第８の条件を満たさない場合には、前記第２の特徴ベクトルｔｉに対して第６のラベルｎ２を付与し、前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、前記第１のラベルｓ１と前記第４のラベルｓ２の組み合わせ、前記第１のラベルｓ１と前記第６のラベルｎ２の組み合わせ、又は前記第３のラベルｎ１と前記第４のラベルｓ２の組み合わせの場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することが好ましい。

但し、ｋｒ１，ｋｓ１，ｋｔ１、ｋｒ２，ｋｓ２，ｋｔ２は、０≦ｋｒ１＜１、０≦ｋｓ１＜１、０≦ｋｔ１＜１、０≦ｋｒ２＜１、０≦ｋｓ２＜１、０≦ｋｔ２＜１を満たす任意の値である。

このような構成によれば、電子メール分類装置は、ｋｒ１、ｋｒ２、ｋｓ１、ｋｓ２、ｋｔ１及びｋｔ２を任意に設定することにより（例えば、ｋｒ１＝ｋｓ１＝ｋｔ１＝０．００１、ｋｒ２＝ｋｓ２＝ｋｔ２＝０）、受信する全てのメールログデータ又は電子メールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。

（５）本発明に係る電子メール分類方法は、上記課題を解決するために、教師データとして複数のメールログデータ又は電子メールを収集する収集工程と、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、所定の判定ルールに基づいて、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定工程と、前記判定工程によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較工程と、前記比較工程の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与工程と、前記ラベル付与工程により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成工程とを備える。

このような構成によれば、電子メール分類方法は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。

よって、電子メール分類方法は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、電子メール分類方法は、受信するメールログデータ又は電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器に入力することにより、メールログデータ又は電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）を低減することができる。

また、電子メール分類方法は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいてメールログデータ又は電子メールがスパムメールであるか否かを判定できるので、電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、電子メール分類方法は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。

（６）本発明に係る電子メール分類プログラムは、上記課題を解決するために、迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための電子メール分類プログラムであって、教師データとして複数のメールログデータ又は電子メールを収集する収集工程と、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、所定の判定ルールに基づいて、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定工程と、前記判定工程によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較工程と、前記比較工程の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与工程と、前記ラベル付与工程により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成工程とをコンピュータによって実現することを特徴とする。

このような構成によれば、電子メール分類プログラムは、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。

よって、電子メール分類プログラムは、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、電子メール分類プログラムは、受信するメールログデータ又は電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器に入力することにより、メールログデータ又は電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）を低減することができる。

また、電子メール分類プログラムは、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいてメールログデータ又は電子メールがスパムメールであるか否かを判定できるので、電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、電子メール分類プログラムは、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。

本発明によれば、ヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなく、ヘッダ情報を多用した学習に基づいて効率的にスパムメールか否かの判定を行うことができる。

本実施形態に係る電子メール分類装置の概要を示す図である。本実施形態に係る電子メール分類装置の構成を示すブロック図である。スパムメールか否かを判定する分類器の作成方法についての説明に供するフローチャートである。電子メールの送受信を行う際のセッションについての説明に供する図である。

以下、本発明の実施形態の一例について図１及び図２を参照しながら説明する。本発明の実施形態に係る電子メール分類装置１は、電子メールの送受信を行う一連のセッションにおいて、ヘッダ情報を受信した状態、すなわち本文を受信する前の状態において、電子メールが迷惑メール（以下、スパムメールという。）であるか否かを判定する装置である。なお、「ヘッダ情報」とは、ＳＭＴＰ（ＳｉｍｐｌｅＭａｉｌＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）セッション中のコマンドやＩＰアドレスも含めた概念である。

ここで、電子メール分類装置１の概略について図１を用いて説明する。電子メール分類装置１では、既存の判定装置とは異なり、ラベルが付与されていない状態から始まる（図１（ａ））。

電子メール分類装置１は、ヘッダ情報に基づいて特徴ベクトルを生成し、既存のルール（例えば、Ｓ２５ＲやＤＮＳＢＬ等）を用いてヘッダ情報に基づいてスパムメールか否かを判定し、スパムメールであれば（ｙ）を特徴ベクトルに付与し、正常なメールであれば特徴ベクトルに（ｎ）を付与する（図１（ｂ））。本実施例においては、Ｓ２５ＲとＤＮＳＢＬの双方においてスパムメールであると判定された場合には、（ｙ）を付与するが、これに限られない。

つぎに、電子メール分類装置１は、特徴ベクトルごとに（ｙ）の数と（ｎ）の数を算出する。電子メール分類装置１は、所定の閾値に基づいて特徴ベクトルごとの（ｙ）と（ｎ）の算出値から各特徴ベクトルに対するラベルを付与する。例えば、電子メール分類装置１は、（ｙ）＞（ｎ）であれば、特徴ベクトルに対してスパムメールであることを示すラベルＳを付与し、（ｙ）≦（ｎ）であれば、特徴ベクトルに対して正常なメールであることを示すラベルＨを付与する（図１（ｃ））。

そして、電子メール分類装置１は、付与したレベルに基づいて分類器を作成する（図１（ｄ））。
電子メール分類装置１は、新たに受信するメールログデータ又は電子メールｎのヘッダ情報を取得して解析し、解析結果から特徴ベクトルを生成し、当該特徴ベクトルを分類器に入力することにより、当該メールログデータ又は電子メールｎがスパムメールか否かを判定する。また、この判定した結果をラベル付与の工程にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。なお、メールログデータとは、ＳＭＴＰサーバ上に残される記録データのことである。また、以下に、電子メール分類装置１の構成と動作の詳細な説明を行う。

電子メール分類装置１は、図２に示すように、収集部１１と、特徴ベクトル生成部１２と、判定部１３と、比較部１４と、ラベル付与部１５と、分類器作成部１６とを備える。収集部１１は、教師データとして複数のメールログデータ又は電子メールを収集する。具体的には、収集部１１は、過去に受信したメールログデータ又は電子メールや、ネットワークを介して他のサーバに蓄積されているメールログデータ又は電子メールを教師データとして収集する。なお、収集したメールログデータ又は電子メールには、スパムメールと判定されたメールや、正常なメールであると判定されたメールが含まれている。

特徴ベクトル生成部１２は、収集部１１により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの生成方法については後述する。

判定部１３は、所定の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）に基づいて、収集部１１により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する。

比較部１４は、判定部１３によって判定された結果に基づいて、特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する。ラベル付与部１５は、比較部１４の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。

分類器作成部１６は、ラベル付与部１５により特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する。

このような構成によれば、電子メール分類装置１は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール（例えば、Ｓ２５Ｒや、ＤＮＳＢＬ等）によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。

よって、電子メール分類装置１は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、電子メール分類装置１は、受信するメールログデータ又は電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器に入力することにより、メールログデータ又は電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合（ｆａｌｓｅｐｏｓｉｔｉｖｅ：ＦＰ）を低減することができる。

また、電子メール分類装置１は、図２に示すように、メールログデータ又は電子メールを受信する受信部２１と、受信部２１によって受信したメールログデータ又は電子メールのヘッダ情報に基づいて特徴ベクトルを生成する特徴ベクトル生成部２２と、特徴ベクトル生成部２２により生成された特徴ベクトルを分類器作成部１６によって作成された分類器に入力することによって、メールログデータ又は電子メールがスパムメールであるか否かを判定するスパムメール判定部２３とを備える。なお、特徴ベクトル生成部２２は、特徴ベクトル生成部１２と同一の機能を有するので、特徴ベクトル生成部１２を兼用する構成であっても良い。

このようにして、電子メール分類装置１は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいてメールログデータ又は電子メールがスパムメールであるか否かを判定できるので、メールログデータ又は電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、電子メール分類装置１は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。

また、電子メール分類装置１では、特徴ベクトル生成部１２は、収集部１１により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、少なくとも、メールログデータ又は電子メールを受信するセッション中の所定のコマンドに含まれているメールアドレスのドメインに関する情報と、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｃｏｌ）アドレスのＤＮＳ（ＤｏｍａｉｎＮａｍｅＳｙｓｔｅｍ）逆引きの情報に基づいて特徴ベクトルを生成する。

このような構成によれば、電子メール分類装置１は、人手を介することなくメールログデータ又は電子メールのヘッダ情報を多用して特徴ベクトルを生成することができる。

ここで、特徴ベクトル生成部１２において、教師データから特徴ベクトルを生成する方法について説明する。教師データに含まれるメールログデータ又は電子メールのそれぞれに関して、特徴ベクトルｒｉを以下のように定義する。
ｒ_ｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２）

また、特徴ベクトルｒｉの各要素（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１及びｘ_ｉ１２）を以下のように定義する。
ｘ_ｉ１：ＳＭＴＰセッション中のＭＡＩＬＦＲＯＭコマンド中のメールアドレスのドメインが、ＩＰアドレスのＤＮＳ逆引きホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ２：ＳＭＴＰセッション中のＭＡＩＬＦＲＯＭコマンド中のメールアドレスのドメインがＩＰアドレスのＤＮＳ逆引きした際のＡｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎ中のホスト名のドメインの中の少なくとも１つ以上と一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ３：ＳＭＴＰセッション中のＭＡＩＬＦＲＯＭコマンド中のメールアドレスのドメインがＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ４：ＩＰアドレスのＤＮＳ逆引きホスト名のドメインがＩＰアドレスのＤＮＳ逆引きした際のＡｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎ中のホスト名のドメインの中の少なくとも１つ以上と一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ５：ＩＰアドレスのＤＮＳ逆引きホスト名のドメインがＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。

ｘ_ｉ６：ＩＰアドレスのＤＮＳ逆引きした際のＡｕｔｈｏｒｉｔｙｓｅｃｔｉｏｎ中のホスト名のドメインの中の少なくとも１つ以上がＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインと一致する場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ７：ＩＰアドレスのＤＮＳ逆引きホスト名が存在する場合は「１」とし、それ以外「０」とする。
ｘ_ｉ８：（ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名の中の数字の数）≧（ＩＰアドレスに使われている数字の数）（ｅ．ｇ．ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名：１０．５．５．１，ｌｏｇ−ｈｅｌｏ：１０−５−５−１．ｅｘａｍｐｌｅ．ｃｏｍ）の場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ９：（ＩＰアドレスのＤＮＳ逆引きホスト名の中の数字の数）≧（ＩＰアドレスに使われている数字の数）の場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ１０：ｌｏｇ−ｈｅｌｏがトップレベルドメインで終わっていない場合を「１」とし、それ以外を「０」とする。
ｘ_ｉ１１：自国から来ている場合を「１」とし、それ以外を「０」とする。また、ＩＰアドレスと国との関係は、マッピングテーブルを参照することにより取得が可能である。電子メール分類装置１は、マッピングテーブルを自身が保有していても良いし、また、ネットワークを介してマッピングテーブルを保有している他の装置にアクセスして国情報を取得しても良い。
ｘ_ｉ１２：ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名にドットが含まれていない、又は、ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名がＩＰアドレス形式でかつ実際のＩＰアドレスと一致しない、又は、ＨＥＬＯ／ＥＨＬＯコマンド内のホスト名のドメインが、ＲＣＰＴＴＯコマンド内のメールアドレス（宛先メールアドレス）のドメインと一致した場合を「１」とし、それ以外を「０」とする。

なお、本実施例では、「ドメイン」は、ＷＨＯＩＳサーバ等に登録されている第２レベルドメイン又は第３レベルドメインまでと定義する。

特徴ベクトル生成部１２は、例えば、電子メールａのヘッダ情報を解析し、解析結果に基づいて各要素を決定し、以下のように特徴ベクトルｒａを生成する。
ｒａ＝（ｘ_ａ１，ｘ_ａ２，ｘ_ａ３，ｘ_ａ４，ｘ_ａ５，ｘ_ａ６，ｘ_ａ７，ｘ_ａ８，ｘ_ａ９，ｘ_ａ１０，ｘ_ａ１１，ｘ_ａ１２）＝（１，１，１，１，１，１，１，１，１，１，０，０）
特徴ベクトル生成部１２は、このような特徴ベクトルｒｉを教師データとして収集された全てのメールログデータ又は電子メールについて生成する。また、特徴ベクトルｒｉは、本実施例においては、要素が１２種類ある。したがって、理論的には、メールログデータ又は電子メールを４０９６種類に分類することができる。なお、上述した特徴ベクトルｒｉの各定義は、例示であって、これ以外の要素が追加されても良く、要素を増加することにより４０９６種類以上にメールログデータ又は電子メールを分類することができ、要素の数に応じてメールログデータ又は電子メールを仔細に分類することができる。

＜ラベル付与（１）＞
また、ラベル付与部１５は、特徴ベクトル生成部１２により生成した特徴ベクトルｒｉに対して、以下に示す第１の条件のみを満たす場合には、迷惑メールであることを示すラベルＳ（Ｓｐａｍ）を付与し、以下に示す第２の条件を満たす場合には、正常メールであることを示すラベルＨ（Ｈａｍ）を付与する。

このような構成によれば、電子メール分類装置１は、ｋ１とｋ２を任意に設定することにより（例えば、ｋ１＝０．００１、ｋ２＝０）、正常なメールをスパムメールであると誤って判定されることがなくなる。

＜ラベル付与（２）＞
また、ラベル付与部１５は、特徴ベクトル生成部１２により生成された特徴ベクトルｒｉをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに分割し、以下の手順によって特徴ベクトルｒｉに対してラベルＳ又はラベルＨを付与しても良い。
ｒ_ｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６，ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２）
ｓｉ＝（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｉ３，ｘ_ｉ４，ｘ_ｉ５，ｘ_ｉ６）
ｔｉ＝（ｘ_ｉ７，ｘ_ｉ８，ｘ_ｉ９，ｘ_ｉ１０，ｘ_ｉ１１，ｘ_ｉ１２）

ラベル付与部１５は、以下に示す第３の条件を満たす場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、第３の条件を満たさないが、以下に示す第４の条件を満たす場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与する。

また、ラベル付与部１５は、第３の条件及び第４の条件を満たさない場合には、以下の手順によって特徴ベクトルｒｉに対して第１のラベルｓ１から第６のラベルｎ２のいずれかを付与する。
ラベル付与部１５は、以下に示す第５の条件を満たす場合には、第１の特徴ベクトルｓｉに対して第１のラベルｓ１を付与し、第５の条件を満たさないが、以下に示す第６の条件を満たす場合には、第１の特徴ベクトルｓｉに対して第２のラベルｈ１を付与し、第５の条件及び第６の条件を満たさない場合には、第１の特徴ベクトルｓｉに対して第３のラベルｎ１を付与する。また、ラベル付与部１５は、以下に示す第７の条件を満たす場合には、第２の特徴ベクトルｔｉに対して第４のラベルｓ２を付与し、第７の条件を満たさないが、以下に示す第８の条件を満たす場合には、第２の特徴ベクトルｔｉに対して第５のラベルｈ２を付与し、第７の条件及び第８の条件を満たさない場合には、第２の特徴ベクトルｔｉに対して第６のラベルｎ２を付与する。

そして、ラベル付与部１５は、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、第１のラベルｓ１と第４のラベルｓ２の組み合わせ、第１のラベルｓ１と第６のラベルｎ２の組み合わせ、又は第３のラベルｎ１と第４のラベルｓ２の組み合わせの場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与する。また、ラベル付与部１５は、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与する。

但し、ｋｒ１，ｋｓ１，ｋｔ１、ｋｒ２，ｋｓ２，ｋｔ２は、０≦ｋｒ１＜１、０≦ｋｓ１＜１、０≦ｋｔ１＜１、０≦ｋｒ２＜１、０≦ｋｓ２＜１、０≦ｋｔ２＜１を満たす任意の値である。また、所定のルールとは、例えば、Ｓ２５ＲやＤＮＳＢＬ等である。

このような構成によれば、電子メール分類装置１は、ｋｒ１、ｋｒ２、ｋｓ１、ｋｓ２、ｋｔ１及びｋｔ２を任意に設定することにより（例えば、ｋｒ１＝ｋｓ１＝ｋｔ１＝０．００１、ｋｒ２＝ｋｓ２＝ｋｔ２＝０）、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。

また、分類器作成部１６は、ラベル付与部１５により特徴ベクトルに対して付与されたラベルに基づいて、分類器を作成する。電子メール分類装置１は、このように作成された分類器を用いて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかの判定を行うことができる。また、電子メール分類装置１は、判定した結果をラベル付与部１５にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。

つぎに、受信したメールログデータ又は電子メールがスパムメールか否かを判定する方法について図３に示すフローチャートを参照しながら説明する。
収集工程ＳＴ１において、収集部１１は、教師データとして複数のメールログデータ又は電子メールを収集する。

特徴ベクトル生成工程ＳＴ２において、特徴ベクトル生成部１２は、収集工程ＳＴ１により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する。
判定工程ＳＴ３において、判定部１３は、所定の判定ルール（Ｓ２５Ｒや、ＤＮＳＢＬ等）に基づいて、収集工程ＳＴ１により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する。

比較工程ＳＴ４において、比較部１４は、判定工程ＳＴ３によって判定された結果に基づいて、特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する。
ラベル付与工程ＳＴ５において、ラベル付与部１５は、比較工程ＳＴ４の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。

分類器作成工程ＳＴ６において、分類器作成部１６は、ラベル付与工程ＳＴ５により特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する。

また、電子メール分類方法は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいてメールログデータ又は電子メールがスパムメールであるか否かを判定できるので、メールログデータ又は電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、電子メール分類方法は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。

つぎに、電子メールを送信するＳＭＴＰクライアント１０１（以下、クライアント１０１という。）と、電子メールを受信するＳＭＴＰサーバ１０２（以下、サーバ１０２という。）との間で、電子メールの送受信を行う際のセッションについて図４を用いて説明する。また、クライアント１０１のドメイン名を「ａａａ．ｅｘａｍｌｅ．ｃｏ．ｊｐ」とし、ＩＰアドレスを「ＸＸＸ．ＸＸＸ．ＸＸＸ．ＸＸＸ」とする。また、サーバ１０２のドメイン名を「ｂｂｂ．ｅｘａｍｌｅ．ｃｏ．ｊｐ」とし、ＩＰアドレスを「ＹＹＹ．ＹＹＹ．ＹＹＹ．ＹＹＹ」とする。また、ＳＭＴＰサーバ２０２は、本実施例に係る電子メール分類装置１の機能を実装しているものとし、予め、教師データに基づいて分類器が作成されているものとする。

ステップＳＴ１１において、クライアント１０１は、接続確立要求を行いサーバ１０２との間で接続が確立した後、ＨＥＬＯＳＭＴＰセッションの要求を行う。クライアント１０１は、この要求の際に自身のドメイン名を送信する。
ステップＳＴ１２において、サーバ１０２は、クライアント１０１を識別し、所定の応答コード（２５０）により自身のドメイン名を返信する。以降は、メールトランザクションが開始される。
ステップＳＴ１３において、クライアント１０１は、ＭＡＩＬＦＲＯＭコマンドをサーバ１０２に送信する。
ステップＳＴ１４において、サーバ１０２は、所定の応答コード（２５０）により返信する。
ステップＳＴ１５において、クライアント１０１は、ＲＣＰＴＴＯコマンドをサーバ１０２に送信する。

ステップＳＴ１６において、サーバ１０２は、クライアント１０１から受信した情報（電子メールのヘッダ情報）を解析し、解析結果から特徴ベクトルを生成し、分類器に入力してスパムメールであるか否かを判定する。サーバ１０２は、スパムメールであると判定した場合には、失敗を示すコード（５５０等）をクライアント１０１に送信する。クライアント１０１は、失敗を示すコードの受信によって、サーバ１０２に対して電子メールの本文（Ｂｏｄｙ）の送信を行わない。以降は、クライアント１０１とサーバ１０２間において、所定の手順にしたがってセッションを閉じる処理を行う。

また、ステップＳＴ１７において、サーバ１０２は、正常のメールであると判定した場合には、成功を示すコード（２５０等）をクライアント１０１に送信する。以降は、クライアント１０１とサーバ１０２との間において、電子メールの本文（Ｂｏｄｙ）の送受信を行い、その後、所定の手順にしたがってセッションを閉じる処理を行う（ステップＳＴ１８からステップＳＴ２３）。

このようにして、電子メール分類装置１は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいてメールログデータ又は電子メールがスパムメールであるか否かを判定することができ、メールログデータ又は電子メールの本文（Ｂｏｄｙ）を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。

また、上述で説明した電子メール分類装置１による一連の処理は、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。また、当該プログラムは、ＣＤ−ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されても良いし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されても良い。

１電子メール分類装置
１１収集部
１２、２２特徴ベクトル生成部
１３判定部
１４比較部
１５ラベル付与部
１６分類器作成部
２１受信部
２３スパムメール判定部

Claims

教師データとして複数のメールログデータ又は電子メールを収集する収集部と、
前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
所定の判定ルールに基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定部と、
前記判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、
前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、
前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成部とを備えることを特徴とする電子メール分類装置。
前記特徴ベクトル生成部は、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、少なくとも、メールログデータ又は電子メールを受信するセッション中の所定のコマンドに含まれているメールアドレスのドメインに関する情報と、ＩＰアドレスのＤＮＳ逆引きの情報に基づいて前記特徴ベクトルを生成することを特徴とする請求項１記載の電子メール分類装置。
前記ラベル付与部は、第１の条件のみを満たす場合には、特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、第２の条件を満たす場合には、特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することを特徴とする請求項１記載の電子メール分類装置。
前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルｒｉをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第１の特徴ベクトルｓｉと第２の特徴ベクトルｔｉに分割し、
第３の条件を満たす場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、
前記第３の条件を満たさないが、第４の条件を満たす場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与し、
前記第３の条件及び前記第４の条件を満たさない場合であって、
第５の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第１のラベルｓ１を付与し、
前記第５の条件を満たさないが第６の条件を満たす場合には、前記第１の特徴ベクトルｓｉに対して第２のラベルｈ１を付与し、
前記第５の条件及び前記第６の条件を満たさない場合には、前記第１の特徴ベクトルｓｉに対して第３のラベルｎ１を付与し、
第７の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第４のラベルｓ２を付与し、
前記第７の条件を満たさないが第８の条件を満たす場合には、前記第２の特徴ベクトルｔｉに対して第５のラベルｈ２を付与し、
前記第７の条件及び前記第８の条件を満たさない場合には、前記第２の特徴ベクトルｔｉに対して第６のラベルｎ２を付与し、
前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、前記第１のラベルｓ１と前記第４のラベルｓ２の組み合わせ、前記第１のラベルｓ１と前記第６のラベルｎ２の組み合わせ、又は前記第３のラベルｎ１と前記第４のラベルｓ２の組み合わせの場合には、前記特徴ベクトルｒｉに対して迷惑メールであることを示すラベルＳを付与し、
前記第１の特徴ベクトルｓｉと前記第２の特徴ベクトルｔｉに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルｒｉに対して正常メールであることを示すラベルＨを付与することを特徴とする請求項１記載の電子メール分類装置。

但し、ｋｒ１，ｋｓ１，ｋｔ１、ｋｒ２，ｋｓ２，ｋｔ２は、０≦ｋｒ１＜１、０≦ｋｓ１＜１、０≦ｋｔ１＜１、０≦ｋｒ２＜１、０≦ｋｓ２＜１、０≦ｋｔ２＜１を満たす任意の値である。
教師データとして複数のメールログデータ又は電子メールを収集する収集工程と、
前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
所定の判定ルールに基づいて、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定工程と、
前記判定工程によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較工程と、
前記比較工程の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与工程と、
前記ラベル付与工程により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成工程とを備えることを特徴とする電子メール分類方法。
迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための電子メール分類プログラムであって、
教師データとして複数のメールログデータ又は電子メールを収集する収集工程と、
前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
所定の判定ルールに基づいて、前記収集工程により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する判定工程と、
前記判定工程によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較工程と、
前記比較工程の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与工程と、
前記ラベル付与工程により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する分類器作成工程とをコンピュータによって実現するための電子メール分類プログラム。