JP2011090442A - 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム - Google Patents

電子メール分類装置、電子メール分類方法及び電子メール分類プログラム Download PDF

Info

Publication number
JP2011090442A
JP2011090442A JP2009242287A JP2009242287A JP2011090442A JP 2011090442 A JP2011090442 A JP 2011090442A JP 2009242287 A JP2009242287 A JP 2009242287A JP 2009242287 A JP2009242287 A JP 2009242287A JP 2011090442 A JP2011090442 A JP 2011090442A
Authority
JP
Japan
Prior art keywords
mail
classification
received
email
sender
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009242287A
Other languages
English (en)
Inventor
Yukiko Sawatani
雪子 澤谷
Masaru Miyake
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009242287A priority Critical patent/JP2011090442A/ja
Publication of JP2011090442A publication Critical patent/JP2011090442A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】スパムメールを排除するための処理負荷を軽減し、かつ、ユーザの操作負荷を軽減できる電子メール分類装置、電子メール分類方法及び電子メール分類プログラムを提供すること。
【解決手段】電子メールを受信するメール受信部11と、受信された電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する特徴ベクトル取得部12と、電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成するルール作成部14と、新たに電子メールを受信した際に、当該電子メールから取得される特徴ベクトルを参照し、分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類部13と、を備える。
【選択図】図1

Description

本発明は、受信した電子メールが迷惑メールであるか正常メールであるかを判定する電子メール分類装置、電子メール分類方法及び電子メール分類プログラムに関する。
近年、ネットワークの発展により、気軽に電子メール(以下、単にメールという。)を送受信できるようになったことに伴い、受信者が必要としていない迷惑メール(スパムメール、spam mail)の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。
このようなスパムメールは、添付ファイル等によるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導等による個人情報や機密情報の漏洩等の点において、個人及び団体を問わずに脅威となり得るものである。
そこで、このようなスパムメールを排除するための様々な対策がとられている。例えば、PC(Personal Computer)のメールアカウントに届くメールに対するフィルタがある。このフィルタは、送信者の情報(メールアドレス、ホスト情報等)による仕分けや、メール本文の構文解析を行う(例えば、非特許文献1及び非特許文献2参照)。
ところで、このようなフィルタをPCに比べて非力な携帯電話機等の携帯端末に適用しようとした場合、処理負荷が大きいため、実用には適さない。また、携帯端末の場合には、特定のサイトから漏洩したメールアドレスを利用してスパムメールが送信される場合が多く、一個人に対するスパムメールの送信者は限られている。したがって、メールの送受信を管理するサーバ(例えば、携帯電話の通信サービスを提供している会社(キャリア)のサーバ)において、フィルタルールの設定を行う方式がとられている(例えば、非特許文献3参照)。さらに、通信サービスのキャリアでは、ユーザからの迷惑メールの報告を受け付けて、フィルタルールを更新する場合もある(例えば、非特許文献4参照)。
SpamAssassin、[平成21年10月7日]、インターネット<http://www.svn.apache.org/repos/asf/spamassassin/branches/3.2/README> TransWARE、[平成21年10月7日]、インターネット<http://www.transware.co.jp/product/ah/filter.html> 「受信・拒否設定」、[平成21年10月7日]、インターネット<http://www.nttdocomo.co.jp/info/spam_mail/measure/domain/> 「迷惑メールを受け取ってしまったら」、[平成21年10月7日]、インターネット<http://www.nttdocomo.co.jp/info/spam_mail/if/index01.html>
しかしながら、フィルタルールの設定では、ユーザが受信拒否したいメールアドレスのドメインを登録する必要があるため、操作が煩雑となる。また、送信元のメールアドレスを偽装されたり、多数のサーバを用いて送信されたりした場合には効果が少ない。さらに、「携帯電話以外からのメールを拒否する」や「URLを含むメールを拒否する」等の条件を設定した場合には、この拒否ルールに該当する正常メールを受信できなくなってしまう。
また、迷惑メールの報告をキャリアへ報告する場合には、該当のキャリアの携帯電話機からの報告メールに限定されており、さらに、ユーザによる操作が必要であるため、利便性に課題があった。
本発明は、スパムメールを排除するための処理負荷を軽減し、かつ、ユーザの操作負荷を軽減できる電子メール分類装置、電子メール分類方法及び電子メール分類プログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1)電子メールを受信する受信部と、前記受信部により受信された前記電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する取得部と、前記電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する前記特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する作成部と、前記受信部により新たに電子メールを受信した際に、当該電子メールから前記取得部により取得される特徴ベクトルを参照し、前記作成部により作成された前記分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類部と、を備える電子メール分類装置。
このような構成によれば、電子メール分類装置は、メールのヘッダ情報に基づいて特徴ベクトルを取得し、分類情報及び特徴ベクトルを学習データとして、分類ルールを作成する。これにより、電子メール分類装置は、メールから取得された各特徴ベクトルに応じて、正常メールであるかスパムメールであるかを分類することができる。
したがって、電子メール分類装置は、スパムメールに特有のヘッダ情報の法則性を特徴ベクトルとして表し、メール本文を解析することなくスパムメールを判定するので、メール本文を解析することに比べて処理負荷を低減することができる。さらに、電子メール分類装置は、自動的にメールを分類するので、ユーザの操作負荷を軽減することができる。
(2)前記取得部は、前記ヘッダ情報に含まれる、送信者の名前、送信者のメールアドレス、返信先メールアドレス、件名及び受信日の少なくともいずれかに基づいて、前記特徴ベクトルを取得する(1)に記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、ヘッダ情報から容易に抽出可能な、送信者の名前、送信者のメールアドレス、返信先メールアドレス、件名及び受信日に基づいて特徴ベクトルを取得する。したがって、電子メール分類装置は、容易に特徴ベクトルを生成できるので、分類ルールの作成及び分類の処理負荷を低減することができる。
(3)前記取得部は、前記特徴ベクトルとして、(a)前記送信者のメールアドレスがアドレス帳に登録されているか否かを示すデータ、(b)前記送信者の名前が共通で前記送信者のメールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、(c)前記送信者のメールアドレスが共通で前記送信者の名前が異なる電子メールを過去に受信したか否かを示すデータ、(d)前記送信者の名前が共通で前記返信先メールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、(e)前記返信先メールアドレスが共通で前記送信者の名前が異なる電子メールを過去に受信したか否かを示すデータ、(f)前記送信者のメールアドレスが共通で前記返信先メールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、(g)前記返信先メールアドレスが共通で前記送信者のメールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、(h)前記送信者の名前が共通で前記件名が異なる電子メールを過去に受信したか否かを示すデータ、(i)前記件名が共通で前記送信者の名前が異なる電子メールを過去に受信したか否かを示すデータ、(j)前記送信者のメールアドレスが共通で前記件名が異なる電子メールを過去に受信したか否かを示すデータ、(k)前記件名が共通で前記送信者のメールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、(l)前記件名が共通で前記返信先メールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、(m)前記返信先メールアドレスが共通で前記件名が異なる電子メールを過去に受信したか否かを示すデータ、(n)前記送信者のメールアドレスが前回いつ出現したかを示すデータ、(o)送信者の名前が前回いつ出現したかを示すデータ、(p)返信先メールアドレスが前回いつ出現したかを示すデータ、(q)件名が前回いつ出現したかを示すデータ、のうち少なくともいずれかを要素とするベクトルを取得する(2)に記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、送信者の名前、送信者のメールアドレス、返信先メールアドレス、件名及び受信日に基づく17種類のデータからなる特徴ベクトルを取得する。すなわち、電子メール分類装置は、メール本文は解析せず、送信者の共通性や、過去に同様のヘッダ情報があったか否かによって分類ルールを生成することで、携帯端末におけるスパムメールの特性を抽出することができる。これにより、電子メール分類装置は、処理負荷を低減しつつ、高精度で自動的にスパムメールを判定することができる。
(4)前記作成部は、前記特徴ベクトルのそれぞれに対応して、当該特徴ベクトルを取得した電子メールが迷惑メールである可能性を示す変数値を決定し、かつ、前記分類ルールとして、当該変数値を正常メールに対応するものと迷惑メールに対応するものとに分類する閾値を設定する(1)から(3)のいずれかに記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、特徴ベクトルのそれぞれに対して、スパムメールである可能性を示す変数値を決定し、この変数値を分類するための閾値を設定する。したがって、電子メール分類装置は、受信したメールの特徴ベクトルを取得することにより変数値を求め、閾値と比較することにより正常メール及びスパムメールを容易に分類することができる。
(5)前記作成部は、前記変数値を正常メールに対応するものに分類する第1の閾値と、前記変数値を迷惑メールに対応するものに分類する第2の閾値とを設定し、前記分類部は、新たに受信した電子メールを、正常メール、迷惑メール、及びその他の保留メールに分類する(4)に記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、正常メールを判定するための第1の閾値と、スパムメールを判定するための第2の閾値とを個別に設定する。したがって、電子メール分類装置は、正常メール又はスパムメールである可能性が高いメールをそれぞれ判定でき、その他を保留メールに分類することにより、誤った分類を抑制できる。
(6)前記作成部は、前記分類部により分類された電子メールについて、当該分類の結果を変更する入力を受け付けた場合に、当該電子メールに対応する前記変数値、又は前記閾値を調整する(4)又は(5)に記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、自動的な分類結果がユーザにより変更された場合、特徴ベクトル毎の変数値又は閾値を調整し、分類ルールの学習結果を調整することができる。したがって、電子メール分類装置は、変更入力により再学習し、分類精度を向上させることができる。
(7)前記作成部は、前記変数値に応じた重み付けが付加された前記分類情報を、前記学習データとして受け付ける(4)から(6)のいずれかに記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、スパムメールである可能性を示す変数値に応じた重み付けを学習データにできるので、確実性の高い分類情報が優先されることにより、分類精度の向上が期待できる。
(8)前記作成部は、所定の契機により前記分類ルールを再作成する(1)から(7)のいずれかに記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、例えば一定周期や、処理負荷の低下時等、所定の契機により分類ルールを再作成する。したがって、電子メール分類装置は、新たなメールを学習データとして、分類ルールを更新することができる。
(9)前記作成部は、前記受信部により現在までの所定期間に受信された電子メールに基づいて前記分類ルールを作成し、当該所定期間より前に受信された電子メールを参照しない(1)から(8)のいずれかに記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、現在までの所定期間に受信されたメールに基づいて学習するので、これより前に受信された古いメールを対象外とし、新しい情報により分類ルールを作成することができる。したがって、電子メール分類装置は、最近のスパムメールの特徴を反映して精度の高い分類ルールを作成することができる。
(10)前記分類部により迷惑メールに分類された電子メールの情報を、当該電子メールの受信を管理するサーバへ通知する通知部をさらに備える(1)から(9)のいずれかに記載の電子メール分類装置。
このような構成によれば、電子メール分類装置は、メールの受信を管理するサーバ(例えば、携帯電話の通信サービスを提供しているキャリアのサーバ)へ、スパムメールに分類したメールの情報を通知する。したがって、電子メール分類装置は、スパムメールの情報をサーバへ自動的に報告し、サーバにおいてフィルタルールを更新させることができる。
(11)電子メールを受信する受信ステップと、前記受信ステップにより受信された前記電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する取得ステップと、前記電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する前記特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する作成ステップと、前記受信ステップにより新たに電子メールを受信した際に、当該電子メールから前記取得ステップにより取得される特徴ベクトルを参照し、前記作成ステップにより作成された前記分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類ステップと、をコンピュータが実行する電子メール分類方法。
このような構成によれば、電子メール分類方法をコンピュータが実行することにより、(1)と同様の効果が期待できる。
(12)電子メールを受信する受信ステップと、前記受信ステップにより受信された前記電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する取得ステップと、前記電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する前記特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する作成ステップと、前記受信ステップにより新たに電子メールを受信した際に、当該電子メールから前記取得ステップにより取得される特徴ベクトルを参照し、前記作成ステップにより作成された前記分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類ステップと、をコンピュータに実行させる電子メール分類プログラム。
このような構成によれば、コンピュータに電子メール分類プログラムを実行させることにより、(1)と同様の効果が期待できる。
本発明によれば、スパムメールを排除するための処理負荷を軽減し、かつ、煩雑なユーザ操作を必要としない。
本発明の実施形態に係る携帯端末の機能構成を示す図である。 本発明の実施形態に係る分類ルールの第1の例を示す図である。 本発明の実施形態に係る分類ルールの第2の例を示す図である。 本発明の実施形態に係るメール受信に伴う処理の流れを示すフローチャートである。 本発明の実施形態に係る分類ルールを作成する処理の流れを示すフローチャートである。
以下、本発明の実施形態の一例について説明する。本実施形態に係る携帯端末1(電子メール分類装置)は、メールの送受信を行う一連の処理において、ヘッダ情報を受信した状態、すなわち本文を受信する前の状態において、メールが迷惑メール(以下、スパムメールという。)であるか否かを判定する装置である。なお、携帯端末1は、例えば、携帯電話機やPHS等、所定のキャリアの無線通信サービスに対応した端末である。
図1は、本実施形態に係る携帯端末1の機能構成を示す図である。
携帯端末1は、制御部10と、記憶部20と、通信部30と、入力部40と、表示部50と、を備える。
制御部10は、携帯端末1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、前述のハードウェアと協働し、本実施形態における各種機能を実現している。制御部10は、CPU(Central Processing Unit)であってよい。なお、制御部10が備える各部の機能は後述する。
記憶部20は、ハードウェア群を携帯端末1として機能させるための各種プログラム、本実施形態の各種機能を制御部10に実行させるプログラム、及び各種データベース等を記憶する。なお、記憶部20が備える各種データベースは後述する。
通信部30は、所定の周波数帯(例えば、2GHz帯や800MHz帯等)で外部装置(例えば、基地局を介してメールの送受信を管理するサーバ)と通信を行う。そして、通信部30は、アンテナより受信した信号を復調処理し、処理後の信号を制御部10に供給し、また、制御部10から供給された信号を変調処理し、アンテナから外部装置に送信する。
入力部40は、携帯端末1に対するユーザからの指示入力を受け付けるインタフェース装置である。入力部40は、例えばキー操作部やタッチパネルにより構成される。
表示部50は、ユーザにデータの入力を受け付ける画面を表示したり、携帯端末1による処理結果の画面を表示したりするものである。ユーザは、表示部50に表示された画面により、受信メールを確認する。表示部50は、液晶ディスプレイや有機ELディスプレイであってよい。
前述の制御部10は、メール受信部11(受信部)と、特徴ベクトル取得部12(取得部)と、分類部13と、ルール作成部14(作成部)と、データ登録部15と、通知部16と、を備える。また、記憶部20は、ルールDB(データベース)21と、メールDB22と、を備える。
メール受信部11は、通信部30を介して、携帯端末1のユーザのメールアドレスに宛てたメールを受信する。
特徴ベクトル取得部12は、メール受信部11により受信されたメールのヘッダ情報に基づいて、メールの特徴を示す特徴ベクトルを取得する。ヘッダ情報には、送信者の名前、送信者のメールアドレス、返信先メールアドレス、件名及び受信日が含まれており、特徴ベクトル取得部12は、これらのうちの少なくともいずれかに基づいて、特徴ベクトルを取得する。
ここで、特徴ベクトルは、以下の17種類のデータのうちの少なくともいずれかを要素とするベクトルである。
(a)送信者のメールアドレスがアドレス帳に登録されているか否かを示すデータ。
(b)送信者の名前が共通で送信者のメールアドレスが異なるメールを過去に受信したか否かを示すデータ。
(c)送信者のメールアドレスが共通で送信者の名前が異なるメールを過去に受信したか否かを示すデータ。
(d)送信者の名前が共通で返信先メールアドレスが異なるメールを過去に受信したか否かを示すデータ。
(e)返信先メールアドレスが共通で送信者の名前が異なるメールを過去に受信したか否かを示すデータ。
(f)送信者のメールアドレスが共通で返信先メールアドレスが異なるメールを過去に受信したか否かを示すデータ。
(g)返信先メールアドレスが共通で送信者のメールアドレスが異なるメールを過去に受信したか否かを示すデータ。
(h)送信者の名前が共通で件名が異なるメールを過去に受信したか否かを示すデータ。
(i)件名が共通で送信者の名前が異なるメールを過去に受信したか否かを示すデータ。
(j)送信者のメールアドレスが共通で件名が異なるメールを過去に受信したか否かを示すデータ。
(k)件名が共通で送信者のメールアドレスが異なるメールを過去に受信したか否かを示すデータ。
(l)件名が共通で返信先メールアドレスが異なるメールを過去に受信したか否かを示すデータ。
(m)返信先メールアドレスが共通で件名が異なるメールを過去に受信したか否かを示すデータ。
(n)送信者のメールアドレスが前回いつ出現したかを示すデータ。
(o)送信者の名前が前回いつ出現したかを示すデータ。
(p)返信先メールアドレスが前回いつ出現したかを示すデータ。
(q)件名が前回いつ出現したかを示すデータ。
なお、(a)〜(m)のデータは、「YES」又は「NO」の2値データである。また、(n)〜(q)のデータは、例えば、「何日前」や「何時間前」等の数値データである。これらのデータの組合せにより、スパムメールの特徴を特定の特徴ベクトルで表すことができる。また、スパムメールは、簡易なフィルタルールではスパムメールと判断されやすいメーリングリストや、定期購読しているメールマガジン等とは、異なる特徴ベクトルとなるため、精度良く分類することができる。
分類部13は、特徴ベクトル取得部12により取得された特徴ベクトルを参照し、後述の分類ルール(ルールDB21)に基づいて、メールが正常メールであるか迷惑メールであるかを分類する。
なお、分類ルールが作成されていない初期状態では、分類部13は、過去に受信した複数のメールを仮のルールによって分類する。具体的には、例えば、送信者がアドレス帳に登録されているものは正常メール、それ以外をスパムメールとする。あるいは、ユーザの操作入力により分類されている場合には、この分類に従うこととしてよい。
ルール作成部14は、受信したメールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、この分類情報及び対応する特徴ベクトルを学習データとして、メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する。分類情報は、分類部13により分類された結果であり、この結果の中でも確実性の高いデータ、すなわち、正常メール又はスパムメールである可能性が高いデータであることが好ましい。なお、分類ルールの作成は、処理負荷が軽い方法が望ましく、例えば、k−NN法や決定二分木、SVM(Support Vector Machine)等の学習アルゴリズムを利用することができる。
ここで、ルール作成部14は、例えば一定周期や、携帯端末1の処理負荷の低下時等、所定の契機により分類ルールを再作成する。また、ルール作成部14は、スパムメールの特徴が変化した場合にも分類の精度を維持させるために、メール受信部11により現在までの所定期間(例えば、1年間)に受信されたメールに基づいて分類ルールを作成する。ルール作成部14は、この所定期間より前に受信されたメールを参照しないことで、古いスパムメールの特徴に影響されず、新たなスパムメールを精度良く判定することができる。また、対象データ量が減少するため、携帯端末1の処理負荷が低減される。
ここで、作成される分類ルールの例を説明する。
図2は、本実施形態に係る分類ルールの第1の例を示す図である。
ルール作成部14は、所定の学習アルゴリズムによって、各特徴ベクトルに対して、スパムメールである可能性を示す変数値Ps(0≦Ps≦1)を決定する。Psは、1に近ければスパムメールである可能性が高く、0に近ければ正常なメールである可能性が高い。前述の分類情報は、このPsであってよい。また、Psが0又は1に近いほど重み付けをした値を分類情報としてもよい。
図2の例では、理想的な分類ルールにより、受信したメールから取得される特徴ベクトルに対応してPsが0又は1の近辺に集中している。縦軸は実際の正常メール及びスパムメールの件数の累積分布を示しており、正常メール(実線)は、Psが0付近で100%に達しているが、スパムメール(破線)は、Psが1付近まで0%である。
ここで、ルール作成部14は、Psを正常メールに対応するものとスパムメールに対応するものとに分類する閾値Psthを設定する。図2の場合には、ルール作成部14は、Psthを「0.5」に設定し、PsがPsth未満のメールを正常メール(フォルダ1)に、PsがPsth以上のメールをスパムメール(フォルダ2)に分類している。
理想的な状態では、このように確実にメールを分類することができるが、現実的にはPsは様々な値をとるため、1つの閾値Psthにより確実に分類することは難しい。
図3は、本実施形態に係る分類ルールの第2の例を示す図である。
図3の例では、正常メール(実線)は、Psが0から離れた値にも、スパムメールは、Psが1から離れた値にも分散している。そのため、ルール作成部14は、第1の閾値(Psth1=0.3)及び第2の閾値(Psth2=0.7)を設定している。この場合、分類部13は、PsがPsth1未満であれば正常メール(フォルダ1)に、PsがPsth2以上であればスパムメール(フォルダ3)に受信メールを分類する。そして、分類部13は、PsがPsth1以上Psth2未満であれば、受信メールを保留メール(フォルダ2)に分類する。
図1に戻って、データ登録部15は、分類部13により分類されたメールを、メールDB22にフォルダ分け(正常メール、保留メール、スパムメール)して格納する。このとき、データ登録部15は、特徴ベクトル及び分類情報(Ps又はPsに重み付けをした値)をメールに対応付けて格納する。
また、データ登録部15は、入力部40からの所定の操作入力に応じて、分類結果を変更してメールDB22を更新する。具体的には、例えば、正常メールに分類されたメールをスパムメールのフォルダに移動したり、保留メールに分類されたメールを正常メール又はスパムメールのフォルダに移動したりといった操作を受け付けることにより、メールDB22を更新する。
さらに、データ登録部15は、このような分類結果の変更入力を受け付けた場合に、この変更情報をルール作成部14へ提供する。ルール作成部14は、この変更情報に基づいて、ルールDB21の分類ルールを更新する。
具体的には、ルール作成部14は、分類を変更したメールに対応する前述の変数値Ps若しくは閾値Psth(Psth1、Psth2)、又はその両方を調整する。すなわち、例えば、スパムメール又は保留メールを正常メールに変更した場合はPsを小さく、正常メール又は保留メールをスパムメールに変更した場合はPsを大きく調整する。また、保留メールを正常メールに変更した場合はPsth1を大きく、保留メールをスパムメールに変更した場合はPsth2を小さく調整する。
通知部16は、分類部13によりスパムメールに分類されたメールの情報を、このメールの受信を管理するサーバ(携帯端末1の通信サービスを提供しているキャリアのサーバ)へ通知する。この通知は、所定のアドレスに対するメール通知であってよい。通知を受け付けたサーバは、受信メールのフィルタルールを更新し、携帯端末1へのスパムメールの送信を抑制することができる。
なお、通知部16は、メールが分類されたタイミングで自動的に通知を行ってもよいが、これには限られない。通知部16は、誤った分類に基づく自動通知を防ぐため、ユーザの確認入力を受け付けた場合に通知することとしてよい。また、通知部16は、自動的な通知を行わず、ユーザからの要求に応じて通知することとしてもよい。
図4は、本実施形態に係る携帯端末1におけるメール受信に伴う制御部10の処理の流れを示すフローチャートである。
ステップS1(受信ステップ)において、制御部10(メール受信部11)は、携帯端末1のユーザ宛のメールを受信する。
ステップS2(取得ステップ)において、制御部10(特徴ベクトル取得部12)は、ステップS1で受信したメールのヘッダ情報と、過去に受信したメールのヘッダ情報とに基づいて、特徴ベクトルを取得する。
ステップS3(分類ステップ)において、制御部10(分類部13)は、ステップS2で取得した特徴ベクトルを、ルールDB21に格納されている分類ルールと照合し、受信したメールを、正常メール、スパムメール又は保留メールに分類する。
ステップS4において、制御部10(データ登録部15)は、ステップS3で分類したメールを、フォルダ分けして分類情報と共にメールDB22に格納する。
図5は、本実施形態に係る携帯端末1の制御部10(ルール作成部14)が分類ルールを作成する処理(作成ステップ)の流れを示すフローチャートである。
ステップS11において、ルール作成部14は、分類ルール作成のタイミングか否かを判定する。具体的には、所定の周期の到来や、携帯端末1の処理負荷が所定以下に低下したことを検知し、作成のタイミングと判定する。ルール作成部14は、この判定がYESの場合、処理をステップS12に移し、判定がNOの場合、処理をステップS17に移す。
ステップS12において、ルール作成部14は、メールDB22から、分類済みのメールに関する分類情報、及び各メールの特徴ベクトルを、学習データとして取得する。
ステップS13において、ルール作成部14は、ステップS12で取得した学習データに基づいて、所定のアルゴリズムにより分類ルールの学習を行う。具体的には、まず、各特徴ベクトルに変数値Psを付与する。
ステップS14において、ルール作成部14は、ステップS13で付与されたPsを、通常メール又はスパムメールに分類するための閾値Psthを決定する。閾値Psthは、前述のように、2種類(Psth1、Psth2)を決定することとしてよい。
ステップS15において、ルール作成部14は、ステップS13及びステップS14において作成した分類ルールを、ルールDB21に格納する。
ステップS16において、ルール作成部14は、分類ルールの作成を終了するか否かを判定する。具体的には、ルール作成部14は、メールの分類又は分類ルールの更新が不要となった場合に、所定の操作入力を受け付けることにより、分類ルールの作成終了を判定する。ルール作成部14は、この判定がYESの場合、処理を終了し、判定がNOの場合、処理をステップS11に戻して、所定のタイミングでの分類ルールの作成を継続する。
ステップS17において、ルール作成部14は、ユーザからの操作入力により分類結果を変更されたか否かを判定する。ルール作成部14は、この判定がYESの場合、処理をステップS18に移し、判定がNOの場合、処理をステップS16に移す。
ステップS18において、ルール作成部14は、ルールDB21に格納されている分類ルールによる分類結果が適切ではなかったので、分類を変更されたメールの変数値Ps又は閾値Psthを調整する。そして、ルール作成部14は、処理をステップS15に移し、分類ルールを更新する。
以上のように、本実施形態によれば、携帯端末1は、ヘッダ情報から容易に抽出可能な数種類のデータに基づいて容易に特徴ベクトルを取得し、各特徴ベクトルに付与された変数値Psを閾値Psth(Psth1、Psth2)により容易に自動分類するので、分類ルールの作成及び分類の処理負荷を低減し、かつ、ユーザの操作負荷を軽減することができる。さらに、携帯端末1は、メール本文は解析せず、携帯端末1におけるスパムメールに特有のヘッダ情報の法則性を特徴ベクトルとして表した分類ルールを生成するので、処理負荷を低減しつつ、高精度で自動的にスパムメールを判定することができる。
また、携帯端末1は、自動的な分類結果がユーザにより変更された場合、特徴ベクトル毎の変数値Ps又は閾値Psthを調整し、分類ルールの学習結果を調整することができるので、ユーザからの変更入力により再学習し、分類精度を向上させることができる。さらに、携帯端末1は、変数値Psに応じた重み付けを学習データにできるので、確実性の高い分類情報が優先されることにより、分類精度の向上が期待できる。
また、携帯端末1は、例えば一定周期や、処理負荷の低下時等、所定の契機により分類ルールを再作成するので、新たなメールを学習データとして、分類ルールを更新することができる。さらに、携帯端末1は、現在までの所定期間に受信されたメールに基づいて学習するので、これより前に受信された古いメールを対象外とし、新しい情報により分類ルールを作成することができる。したがって、携帯端末1は、最近のスパムメールの特徴を反映して精度の高い分類ルールを作成することができる。
また、携帯端末1は、メールの受信を管理するサーバへ、スパムメールに分類されたメールの情報を自動的に又は要求に応じて通知するので、このサーバにおいてフィルタルールを更新させ、スパムメールの受信を抑制することができる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
前述の変数値Psは、スパムメールである可能性を示すと共に、受信したメールの重要度を表す指標としても利用可能である。すなわち、携帯端末1は、Psが小さい(0に近い)ほど、受信したメールが重要又は緊急であると判断し、格納フォルダを分類し、又はフラグを付与し、ユーザに提示してもよい。
また、前述の実施形態では、本発明を携帯端末1に適用した場合を説明したが、電子メール分類装置は、これには限られず、本発明は、インターネットにおける電子メールを送受信するPC等その他の通信端末にも適用可能である。
さらに、前述の実施形態では、本発明に係る各部を携帯端末1が備えることとしたが、これには限られない。制御部10及び記憶部20の一部又は全部を、メールの送受信を管理するサーバが備えることとしてもよい。このことによれば、携帯端末1の処理負荷をさらに低減することができる。
1 携帯端末(電子メール分類装置)
10 制御部
11 メール受信部(受信部)
12 特徴ベクトル取得部(取得部)
13 分類部
14 ルール作成部(作成部)
15 データ登録部
16 通知部
20 記憶部
21 ルールDB
22 メールDB
30 通信部
40 入力部
50 表示部

Claims (12)

  1. 電子メールを受信する受信部と、
    前記受信部により受信された前記電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する取得部と、
    前記電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する前記特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する作成部と、
    前記受信部により新たに電子メールを受信した際に、当該電子メールから前記取得部により取得される特徴ベクトルを参照し、前記作成部により作成された前記分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類部と、を備える電子メール分類装置。
  2. 前記取得部は、前記ヘッダ情報に含まれる、送信者の名前、送信者のメールアドレス、返信先メールアドレス、件名及び受信日の少なくともいずれかに基づいて、前記特徴ベクトルを取得する請求項1に記載の電子メール分類装置。
  3. 前記取得部は、前記特徴ベクトルとして、
    (a)前記送信者のメールアドレスがアドレス帳に登録されているか否かを示すデータ、
    (b)前記送信者の名前が共通で前記送信者のメールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、
    (c)前記送信者のメールアドレスが共通で前記送信者の名前が異なる電子メールを過去に受信したか否かを示すデータ、
    (d)前記送信者の名前が共通で前記返信先メールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、
    (e)前記返信先メールアドレスが共通で前記送信者の名前が異なる電子メールを過去に受信したか否かを示すデータ、
    (f)前記送信者のメールアドレスが共通で前記返信先メールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、
    (g)前記返信先メールアドレスが共通で前記送信者のメールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、
    (h)前記送信者の名前が共通で前記件名が異なる電子メールを過去に受信したか否かを示すデータ、
    (i)前記件名が共通で前記送信者の名前が異なる電子メールを過去に受信したか否かを示すデータ、
    (j)前記送信者のメールアドレスが共通で前記件名が異なる電子メールを過去に受信したか否かを示すデータ、
    (k)前記件名が共通で前記送信者のメールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、
    (l)前記件名が共通で前記返信先メールアドレスが異なる電子メールを過去に受信したか否かを示すデータ、
    (m)前記返信先メールアドレスが共通で前記件名が異なる電子メールを過去に受信したか否かを示すデータ、
    (n)前記送信者のメールアドレスが前回いつ出現したかを示すデータ、
    (o)送信者の名前が前回いつ出現したかを示すデータ、
    (p)返信先メールアドレスが前回いつ出現したかを示すデータ、
    (q)件名が前回いつ出現したかを示すデータ、
    のうち少なくともいずれかを要素とするベクトルを取得する請求項2に記載の電子メール分類装置。
  4. 前記作成部は、前記特徴ベクトルのそれぞれに対応して、当該特徴ベクトルを取得した電子メールが迷惑メールである可能性を示す変数値を決定し、かつ、前記分類ルールとして、当該変数値を正常メールに対応するものと迷惑メールに対応するものとに分類する閾値を設定する請求項1から請求項3のいずれかに記載の電子メール分類装置。
  5. 前記作成部は、前記変数値を正常メールに対応するものに分類する第1の閾値と、前記変数値を迷惑メールに対応するものに分類する第2の閾値とを設定し、
    前記分類部は、新たに受信した電子メールを、正常メール、迷惑メール、及びその他の保留メールに分類する請求項4に記載の電子メール分類装置。
  6. 前記作成部は、前記分類部により分類された電子メールについて、当該分類の結果を変更する入力を受け付けた場合に、当該電子メールに対応する前記変数値、又は前記閾値を調整する請求項4又は請求項5に記載の電子メール分類装置。
  7. 前記作成部は、前記変数値に応じた重み付けが付加された前記分類情報を、前記学習データとして受け付ける請求項4から請求項6のいずれかに記載の電子メール分類装置。
  8. 前記作成部は、所定の契機により前記分類ルールを再作成する請求項1から請求項7のいずれかに記載の電子メール分類装置。
  9. 前記作成部は、前記受信部により現在までの所定期間に受信された電子メールに基づいて前記分類ルールを作成し、当該所定期間より前に受信された電子メールを参照しない請求項1から請求項8のいずれかに記載の電子メール分類装置。
  10. 前記分類部により迷惑メールに分類された電子メールの情報を、当該電子メールの受信を管理するサーバへ通知する通知部をさらに備える請求項1から請求項9のいずれかに記載の電子メール分類装置。
  11. 電子メールを受信する受信ステップと、
    前記受信ステップにより受信された前記電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する取得ステップと、
    前記電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する前記特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する作成ステップと、
    前記受信ステップにより新たに電子メールを受信した際に、当該電子メールから前記取得ステップにより取得される特徴ベクトルを参照し、前記作成ステップにより作成された前記分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類ステップと、をコンピュータが実行する電子メール分類方法。
  12. 電子メールを受信する受信ステップと、
    前記受信ステップにより受信された前記電子メールのヘッダ情報に基づいて、当該電子メールの特徴を示す特徴ベクトルを取得する取得ステップと、
    前記電子メールが正常メールであるか迷惑メールであるかの分類情報を受け付けた場合に、当該分類情報及び対応する前記特徴ベクトルを学習データとして、電子メールが正常メールであるか迷惑メールであるかを分類するための分類ルールを作成する作成ステップと、
    前記受信ステップにより新たに電子メールを受信した際に、当該電子メールから前記取得ステップにより取得される特徴ベクトルを参照し、前記作成ステップにより作成された前記分類ルールに基づいて、当該電子メールが正常メールであるか迷惑メールであるかを分類する分類ステップと、をコンピュータに実行させる電子メール分類プログラム。
JP2009242287A 2009-10-21 2009-10-21 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム Pending JP2011090442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009242287A JP2011090442A (ja) 2009-10-21 2009-10-21 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009242287A JP2011090442A (ja) 2009-10-21 2009-10-21 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム

Publications (1)

Publication Number Publication Date
JP2011090442A true JP2011090442A (ja) 2011-05-06

Family

ID=44108651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009242287A Pending JP2011090442A (ja) 2009-10-21 2009-10-21 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム

Country Status (1)

Country Link
JP (1) JP2011090442A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012243146A (ja) * 2011-05-20 2012-12-10 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
WO2017094202A1 (ja) 2015-12-01 2017-06-08 アイマトリックス株式会社 画像処理を応用した文書構造解析装置
WO2018096672A1 (ja) 2016-11-28 2018-05-31 アイマトリックス株式会社 評価装置、評価方法、評価プログラムおよび評価システム
JP2019145107A (ja) * 2018-02-20 2019-08-29 ダークトレース リミテッドDarktrace Limited 機械学習モデルを用いてeメールネットワークを保護するサイバー脅威防御システム
JP2022051305A (ja) * 2020-09-18 2022-03-31 ヤフー株式会社 情報処理装置、システム、学習装置、情報処理方法、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06142565A (ja) * 1992-09-16 1994-05-24 Nissan Motor Co Ltd 自動車の塗装条件管理装置
JPH08287034A (ja) * 1995-04-11 1996-11-01 Fujitsu Ltd 学習による調節に適したルール作成方法
JP2004030639A (ja) * 2002-06-26 2004-01-29 Microsoft Corp 迷惑電子メールを検出するシステムおよび方法
JP2008278440A (ja) * 2007-05-07 2008-11-13 Mario Nakanishi 送信先アドレスに利用者識別符号を用いた電子メール配信システム
JP2009104400A (ja) * 2007-10-23 2009-05-14 Kddi Corp 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06142565A (ja) * 1992-09-16 1994-05-24 Nissan Motor Co Ltd 自動車の塗装条件管理装置
JPH08287034A (ja) * 1995-04-11 1996-11-01 Fujitsu Ltd 学習による調節に適したルール作成方法
JP2004030639A (ja) * 2002-06-26 2004-01-29 Microsoft Corp 迷惑電子メールを検出するシステムおよび方法
JP2008278440A (ja) * 2007-05-07 2008-11-13 Mario Nakanishi 送信先アドレスに利用者識別符号を用いた電子メール配信システム
JP2009104400A (ja) * 2007-10-23 2009-05-14 Kddi Corp 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012243146A (ja) * 2011-05-20 2012-12-10 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
WO2017094202A1 (ja) 2015-12-01 2017-06-08 アイマトリックス株式会社 画像処理を応用した文書構造解析装置
US10163005B2 (en) 2015-12-01 2018-12-25 Imatrix Corp. Document structure analysis device with image processing
WO2018096672A1 (ja) 2016-11-28 2018-05-31 アイマトリックス株式会社 評価装置、評価方法、評価プログラムおよび評価システム
US11282040B2 (en) 2016-11-28 2022-03-22 Imatrix Holdings Corp. Evaluation device, evaluation method, evaluation program, and evaluation system
JP2019145107A (ja) * 2018-02-20 2019-08-29 ダークトレース リミテッドDarktrace Limited 機械学習モデルを用いてeメールネットワークを保護するサイバー脅威防御システム
JP2022051305A (ja) * 2020-09-18 2022-03-31 ヤフー株式会社 情報処理装置、システム、学習装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
AU2012348048B2 (en) Contextual and location awareness for device interaction
EP2666318B1 (en) Method, apparatus, and computer program product for managing unwanted traffic in a wireless network
US20180375814A1 (en) Tracking and controlling mass communications
US7583671B2 (en) Multi-modal auto complete function for a connection
US7849146B2 (en) Identifying IP addresses for spammers
US20100161734A1 (en) Determining spam based on primary and secondary email addresses of a user
US20090043853A1 (en) Employing pixel density to detect a spam image
US8521822B2 (en) Recipient change notification
KR102095664B1 (ko) 스푸핑 메타데이터를 갖는 숨겨진 링크 불일치를 검출하는 기법
JP5721535B2 (ja) 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
US9412096B2 (en) Techniques to filter electronic mail based on language and country of origin
CN105847059B (zh) 信息发送管理方法和装置
US10062055B2 (en) Locating previously communicated electronic messages
JP2011090442A (ja) 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
US20090037196A1 (en) Determining whether a postal mail item containing a radio frequency identifier (rfid) is junk mail
US10069775B2 (en) Systems and methods for detecting spam in outbound transactional emails
US20040254990A1 (en) System and method for knock notification to an unsolicited message
JP2011227850A (ja) 電子メール分類装置、電子メール管理サーバ、電子メール分類方法及び電子メール分類プログラム
US8407786B1 (en) System, method, and computer program product for displaying the rating on an electronic mail message in a user-configurable manner
JP2006251929A (ja) アドレス帳登録システム、およびアドレス帳登録プログラム
JP2007233715A (ja) メール誤送信防止システム
EP2410477B1 (en) Recipient change notification
JP2005284454A (ja) 迷惑メール配信防止システム、当該システムにおける情報端末及び電子メールサーバ
CN105188064B (zh) 一种屏蔽骚扰电话和短信的方法及装置
JP7408058B2 (ja) 未配信メッセージの重要度決定

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130924