JP4688629B2

JP4688629B2 - 電子メッセージ分類装置および電子メッセージ分類方法

Info

Publication number: JP4688629B2
Application number: JP2005309805A
Authority: JP
Inventors: 尚中川
Original assignee: 株式会社ジャストシステム
Priority date: 2005-10-25
Filing date: 2005-10-25
Publication date: 2011-05-25
Anticipated expiration: 2025-10-25
Also published as: JP2007122147A

Description

本発明は、電子メッセージの分類技術、具体的には電子メッセージに含まれる単語を用いて電子メッセージを分類する技術に関する。

電子メールの利用者数の増加に伴い、利用者が望まない宣伝広告や嫌がらせなどの電子メール、いわゆるスパムメールの受信数が膨大になりつつある。これらのスパムメールを自動的に判別して削除したり、特定のフォルダに入れたりするなど、スパムメールを排除するための技術が開発されている。

その一例として、特許文献１において、スパムメールとなるサンプルメールを保持しておき、新たに受信した電子メールの内容と、サンプルメールの内容とを比較することによって、電子メールの内容に基づいた判別を行う方法が開示されている。

電子メールの内容に基づいて判別を行う方法として、電子メールに含まれる特徴語を抽出して、特徴語を用いて判別を行う技術が開発されている。その代表的な技術となるのは、ベイズ（ＮａｉｖｅＢａｙｅｓ）の定理を利用したベイジアンフィルタ（ＢａｙｓｉａｎＦｉｌｔｅｒ）である。ここでその原理について説明する。

たとえば、１００通の電子メールのうち、７０通がスパムメールであり、残りの３０通が非スパムメールであったとする。ここで、ある単語Ａがスパムメール７０通のうちの６０通、非スパムメール３０通のうちの３通から検出されたとする。この場合、単語Ａは、スパムメールに現れやすい単語であるから、単語Ａが含まれている電子メールはスパムメールの傾向を有すると言える。ベイジアンフィルタが、このような観点から、単語ごとに、この単語を含むことによって電子メールがスパムメールの傾向を有するか非スパムメールの傾向を有するか、およびこの傾向の大きさを、単語の傾向および傾向の大きさを示す単語傾向情報としてデータベースを構築する。そして、このデータベースを参照して、新たに受信した電子メールの各々の単語から、傾向の大きい単語を特徴語として複数選出して、これらの特徴語の傾向情報を用いて電子メールがスパムメールか非スパムメールかの判別を行う。

ここで、単語の傾向情報の算出方法や、特徴語の選出方法は、判別を効率良く行うことができるか否かを左右し、判別の精度が欠けたり、または判別の精度を向上させるための調整が難しかったりするなどのことがないように、工夫が要求される。
特開２００３−３４８１６１号公報

本発明は上記事情に鑑みてなされたものであり、その主たる目的は、電子メールのような電子メッセージが、受け手のユーザにとって特定タイプの電子メッセージなのか否かの判別を効率良く行うことができる技術を提供することにある。

本発明のある態様は、電子メッセージ分類装置である。この装置は、電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の特定タイプの傾向と非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持する単語傾向情報保持部と、判別対象の電子メッセージを取得するメッセージ取得部と、判別対象の電子メッセージに含まれる単語を抽出する単語抽出部と、単語抽出部により抽出された各単語の単語傾向情報を単語傾向情報保持部から取得する単語傾向情報取得部と、特定タイプの傾向が大きい単語から順に複数の単語を選出して第１の単語群を得るとともに、非特定タイプの傾向が大きい単語から順に複数の単語を選出して第２の単語群を得る単語群選出部と、第１の単語群と第２の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの特定タイプの傾向およびこの傾向の大きさを算出することにより、判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別する判別部とを備える。

なお、本発明の表現を方法、装置、システム、プログラムを記憶した記憶媒体、プログラムなどの間で変換したものも、本発明の態様としては有効である。

本発明によれば、電子メッセージが受け手のユーザにとって特定タイプの電子メッセージである否かの判別を効率良く行うことができる。

本発明の実施の形態の詳細を説明する前に、まず、電子メッセージ、特定タイプの電子メッセージのそれぞれの例として電子メール、スパム電子メールを用いて、スパムメールの判別手法として広く知られている、ベイジアンフィルタに基づいたＰａｕｌＧｒａｈａｍ方式（以下Ｐａｕｌ方式という）と比較しながら、本発明者が提案する技術の概要を説明する。

一例として、スパムメールのサンプル１００通と、非スパムメールのサンプル１００通をあらかじめ用意されているとする。ここで単語Ａがこのスパムメール群では９８回、非スパムメール群では２回現れたとする。この場合、単語Ａが含まれる電子メールは、非スパムメールの傾向より、スパムメールの傾向が大きいと言える。また、たとえばスパムメール群では６０回、非スパムメール群では２回現れた単語Ｂについては、この単語が含まれる電子メールが有するスパムメールの傾向は、単語Ａが含まれる電子メールのスパムメールの傾向より小さいと言える。一方、単語Ｃがスパムメール群では１回、非スパムメール群では２５回現れたとする。この場合、単語Ｃが含まれる電子メールは、スパムメールの傾向より、非スパムメールの傾向が大きいと言える。また、たとえばスパムメール群では１回、非スパムメール群では１５回現れた単語Ｄについては、この単語が含まれる電子メールが有する非スパムメールの傾向は、単語Ｃが含まれる電子メールの非スパムメール傾向より小さいと言える。

このような傾向を、以下単語の傾向という。

Ｐａｕｌ方式では、このような単語の傾向を単語スパム確率により表し、この単語スパム確率を下記の式（１）にしたがって算出する。

ｐ＝（ｍ／Ｍ）／（ａ×ｎ／Ｎ＋ｍ／Ｍ）（１）
但し、ｐ：単語スパム確率
ｍ：単語がスパムメール群において登場した回数
Ｍ：スパムメールの総数
ｎ：単語が非スパムメール群において登場した回数
Ｎ：非スパムメールの総数
ａ：１より大きい係数
上記２００通のメールに含まれる各単語に対して単語スパム確率を算出してデータベース化する。このデータベースは、判別対象となる電子メールがスパムメールであるか否かの判別に用いられる。具体的には、まず、判別対象の電子メールに含まれる各々の単語のスパム確率をデータベースから検出する。ここで、たとえば図１に示すような検出結果が得られたとする。

図１に示すように、単語スパム確率は０から１までの範囲内の値を有しうる。単語スパム確率が０．５より大きい単語は、スパムの傾向が非スパムの傾向より大きい。また、単語のスパム確率が０．５より大きいほど、その単語のスパムの傾向が大きい。一方、単語スパム確率が０．５より小さい単語は、非スパムの傾向がスパムの傾向より大きく、単語のスパム確率が０．５より小さいほど、その単語の非スパムの傾向が大きい。０．５という単語スパム確率を有する単語は、この単語を含む電子メールがスパムメールである可能性と、非スパムメールである可能性がほぼ同じである。

図１のような検出結果に基づいて、判別に使用する単語が選出される。Ｐａｕｌ方式では、選出する単語の数が１５個までとされており、その選出方法は、「単語スパム確率が０．５との差が大きい順から選択する」である。たとえば、判別に使用する単語の数が２つとされた場合には、「お金」と「出会い」の２つの単語が選出される。

選出した単語の単語スパム確率を用いて、下記の式（２）にしたがって、「電子メールがスパムメールである可能性の大きさ」（以下「メールスパム確率」という）が算出される。

図１の例において「お金」と「出会い」の２つの単語が選出された場合には、メールスパム確率の値は式（２）にしたがって算出され、約０．９９となる。

算出されたメールスパム確率が所定の閾値Ｔたとえば０．９と比較され、０．９より大きければ、判別対象の電子メールはスパムメールとして判別される。

そして、判別の結果を用いて、式（１）による再計算をすることによりデータベースを更新する。

また、電子メールに対する判別の結果は、必ずしも正しいとは限らないので、この判別の結果をユーザに修正させ、修正の結果をデータベースにフィードバックしたり、判別する際に用いるパラメータを調整したりすることによって、判別の精度向上を図ることが行われる。たとえば、判別の結果をユーザに示し、ユーザに正否の判定をさせ、判定の結果を用いて式（１）による再計算を行い、データベースを更新する。また、たとえば、判別した所定数の電子メールのうち、非スパムメールをスパムメールとして誤判別した回数が所定の回数を超えたときに、閾値Ｔを下げたり、式（１）にある係数ａを大きくしたりするなどの調整が行われる。

ここで、Ｐｕａｌ方式について考察する。

適切な判別結果を得るためには、単語を選出する際に電子メールがスパムメールであるか非スパムメールであるかを判別する上で最も特徴的な単語を選出することが必要である。そのために、Ｐａｕｌ方式では、「０．５」との差が大きい単語スパム確率を有する単語を選出するようにしている。図１の例では、単語の数が２である場合には、単語スパム確率が０．５との差が最も大きい２つの単語「お金」、「出会い」が選出される。この２つの単語とも、その単語スパム確率が０．５より大きく、すなわち、非スパムメールの傾向より、電子メールがスパムメール傾向にあることを示す単語である。この場合、電子メールに含まれた、電子メールが非スパムメールである傾向に示す単語「修正」、「ドライブ」などが判別に全く使用されず、電子メールの非スパムメールとしての傾向、すなわち非スパム性が無視される。

同じように、電子メールに含まれた、電子メールがスパムメールの傾向を有する単語が使用されず、電子メールのスパムメールとしての傾向、すなわちスパム性が無視される場合もある。

このようなことから、Ｐａｕｌ方式で得られるメールスパム確率は、０近傍と１近傍の両極端の値に集中しやすい。これの一因は、単語の選出方法により、電子メールが元々あるスパムメール性または非スパムメール性を無視したことにある。

図２は、スパムメール１４０通と非スパムメール１８３通のサンプルメールに対して、Ｐａｕｌ方式で求めたメールスパム確率の分布を示す。横軸は、（メールスパム確率）／（１−メールスパム確率）に対して自然対数をとることによってメールスパム確率を正規化した値（以下スパムスコアという）であり、０．５であるメールスパム確率が０になる。また、０以上のスパムスコアが０．５以上のメールスパム確率に対応し、０以下のスパムスコアが０．５以下のメールスパム確率に対応する。縦軸は、スパムスコアの区間ごとに、その区間のスパムスコアを有するメールの数である。

図示のように、Ｐａｕｌ方式では、メールスパム確率が０と１の近傍値に集中しやすいので、メールスパム確率を正規化して得たスパムスコアも両端に集中する分布となる。

スパムメールか非スパムメールかを判別する目的は、受け手のユーザの手を煩ずにスパムメールを排除することにある。スパムメールの排除について、通常、スパムメールとして判別したメールを削除したり、またはそれの専用フォルダに格納するなどのことが行われている。したがって、スパムメールか否かを判別する際に、より多くのスパムメールを確実にスパムメールとして判別する一方、非スパムメールをスパムメールとして誤判別しないことが望まれる。

図２に示す例において、スパムメールが最も多く有する区間はスパムスコアが６０から７０までの区間である。スパムメールをより多くスパムメールとして判別できるようにするためには、この空間のスパムコアを有する電子メールがスパムメールとして判別できるように、判別のための閾値をたとえばスパムスコア６０に対応するメールスパム確率に調整することが考えられる。しかし、図示のように、この区間のスパムスコアを有する電子メールのうち、非スパムメールが混在している。非スパムメールをスパムメールに誤判別してしまうことを防ぐためには、たとえばスパムスコア７０に対応するメールスパム確率以上になるように判別のための閾値を調整する必要があり、これでは、非スパムメールとして判別されるスパムメールが急増し、スパムメールを２０通未満しか判別できない。

このようなジレンマを解消するために、Ｐａｕｌ方式では、単語スパム確率を算出する際に、式（１）右辺の分母にある係数ａとして１より大きい値を使用し、単語が非スパムメールとして登場した回数を加重している。この係数ａの値によって、求められた単語スパム確率が変わる。単語スパム確率の値もまたメールスパム確率の値を影響するので、調整を行う際には、係数ａと閾値Ｔについて、互いの影響を見ながら調整する必要があり、調整自体が煩雑である。

次に、図１の例を用いて、判別のために選出する単語の数を５とした場合について考える。「リスト」、「懸賞」、「くじ」の３つの単語の単語スパム確率がそれぞれ０．８であり、０．５との差が０．３となる。一方、「原稿」、「修正」、「ドライブ」の３つの単語の単語スパム確率と０．５との差も０．３である。「お金」、「出会い」の２つの単語以外に、残りの３つの単語として、単語スパム確率が高いほうの３つの単語（「リスト」、「懸賞」、「くじ」）を選出するか、単語スパム確率が低いほうの３つの単語（「原稿」、「修正」、「ドライブ」）を選出するかによって、後に求められるメールスパム確率の値が変わる。

単語スパム確率が高いほうの３つの単語を選出すると、メールスパム確率が０．９９９９となり、単語スパム確率が低いほうの３つの単語を選出すると、メールスパム確率が０．７２７７となる。

すなわち、Ｐａｕｌ方式では、単語を選出する際に、単語スパム確率と０．５との差が同じ場合において、単語スパム確率が０．５より大きい単語と０．５より小さい単語のいずれを優先するかによって、判別の結果が大きく変わってしまう。

また、仮に優先順位をあらかじめ定めておくようにした場合においても、浮動小数点演算の際の演算誤差によって、判別の結果に大きな差が生じてしまうことがある。たとえば、単語スパム確率に対して小数点第３位までとる場合、０．２８１と０．７１６の２つの単語スパム確率は、０．５との差がそれぞれ０．２１９と０．２１６であるため、差の大きい「０．２８１」という単語スパム確率を有する単語が選出される。一方、単語スパム確率に対して小数点第２位までとる場合には、この２つの単語スパム確率がそれぞれ０．２８と０．７２になり、０．５との差は同じく０．２２となる。０．５より大きい単語スパム確率を有する単語が優先的に選出されるので、「０．７２」、実質的には「０．７１６」という単語スパム確率を有する単語が選出される。これでは判別の結果が大きく変わる。

次に、本発明者の提案した技術の原理について説明する。

この技術も、ある単語が含まれる電子メールのスパムメールの傾向と非スパムメールの傾向を、この単語のスパム傾向と非スパム傾向とし、その大きさを示しうる単語傾向情報を単語ごとに取得してデータベース化する。ここで、単語傾向情報として、たとえばＰａｕｌ方式と同じように、単語スパム確率を用いる。また、単語スパム確率がとりうる値のうち、ある値の単語スパム確率を有する単語が含まれる電子メールは、スパムメールである可能性と非スパム電子メールである可能性がほぼ同じである。以下この単語スパム確率を中間単語スパム確率という。単語の傾向およびその傾向の大きさは、その単語の単語スパム確率と中間スパム確率との差により表される。中間スパム確率以上の単語スパム確率を有する単語が、非スパムの傾向よりもスパムの傾向が大きく、中間スパム確率以下の単語スパム確率を有する単語が、スパムの傾向よりも非スパムの傾向が大きいとされる。また、中間スパム確率より大きいほど、そのスパムの傾向が大きく、中間スパム確率より小さいほど、その非スパムの傾向が大きい。

判別に使用する単語を選出する際に、本発明者の提案したこの技術は、スパムの傾向が大きい単語から順に複数の単語を選出して第１の単語群を得るとともに、非スパムの傾向が大きい単語から順に複数の単語を選出して第２の単語群を得る。ここでは単語傾向情報として単語スパム確率を用い、中間スパム確率を０．５とする。

単語の選出にあたって、たとえば単純に単語スパム確率が大きい順（すなわちスパムの傾向が大きい順）から複数の単語を選出して第１の単語群を得、単語スパム確率が小さい順（すなわち非スパムの傾向が大きい順）から複数の単語を選出して第２の単語群を得るようにすることができる。または、第１の単語群として、０．５以上の単語スパム確率を有する単語から、単語スパム確率が大きい単語から順に複数の単語を選出し、第２の単語群として、０．５以下の単語スパム確率を有する単語から、単語スパム確率が小さい単語から順に複数の単語を選出するようにしてもよい。このように得られた２つの単語群の単語を判別に用いることによって、電子メールのスパム性および非スパム性が無視されることを防ぐことができる。

また、この２つの単語群のそれぞれの単語数が等しくなるように選出をすれば、単語スパム確率を算出する際に、Ｐａｕｌ方式による上記式（１）から、係数ａという人為的に調整を加えるパラメータを排除することができる。

ここで、図１に示す例を用いて、第１の単語群と第２の単語群のそれぞれの単語数を２にして、本発明者の提案した技術による下記の式（３）にしたがって、メールスパム確率を計算する。なお、この式は、２つの単語群に含まれる単語のそれぞれのスパム確率を用いてメールスパム確率を算出するための式であり、使用される単語が異なる点以外、Ｐａｕｌ方式がメールスパム確率を計算する際に用いる上記式（２）と同じである。

この場合において、０．５以上の単語スパム確率を有する単語から「お金」、「出会い」が選出され、中間確率が０．５以下の単語スパム確率を有する単語から「原稿」、「修正」が選出される。これらの単語の単語スパム確率から算出したメールスパム確率が０．９１である。

すなわち、電子メールのスパム性および非スパム性を無視しない処理方法を採用した結果、算出したメールスパム確率が０近傍と１近傍に集中することが無くなる。これによって、閾値Ｔの値を変更することによって、より精緻な調整が可能である。

また、２つの単語群の数を５にした場合においても、０．５より大きい単語と０．５より小さい単語のいずれを優先するかの問題がないため、安定した判別結果を得ることができる。もちろん、浮動小数点演算の際の誤差に起因する判別結果の不安定を回避することもできる。

さらに、係数ａによる加重の必要がないので、単語スパム確率が下記の式（４）にしたがって計算することができる。

ｐ＝（ｍ／Ｍ）／（ｎ／Ｎ＋ｍ／Ｍ）（４）
但し、ｐ：単語スパム確率
ｍ：単語がスパムメール群において登場した回数
Ｍ：スパムメールの総数
ｎ：単語が非スパムメール群において登場した回数
Ｎ：非スパムメールの総数
これによって、本発明者が提案したこの技術によれば、精度向上などのために調整を行う際に、閾値Ｔのみを調整すればよいので、簡単である。

図３は、本発明者が提案したこの技術を用いて、Ｐａｕｌ方式の考察時に用いたスパムメール１４０通と非スパムメール１８３通のサンプルメールに対して求めたメールスパム確率の分布を示す。図２と同じように、横軸は、メールスパム確率を正規化して得たスパムコアを示し、縦軸は、スパムスコアの区間ごとに、その区間のスパムスコアを有するメールの数である。

図３に示す例において、２０以上のスパムスコアを有する電子メールはほぼ５０通あり、すべてスパムメールである。すなわち、本発明者の提案したこの技術によって、非スパムメールをスパムメールとして誤判別しないようにしながらも、約５０通のスパムメールを判別することができ、図３に示すＰａｕｌ方式による結果と比較すると、判別の精度が向上したことが明らかである。

以下、本発明の実施の形態について、以上の原理を具現化してシステムを説明する。

図４は、本発明にかかる実施の形態による電子メールシステムの構成を示す。この電子メールシステムは、メールサーバ１０、端末１００を有し、メールサーバ１０と端末１００は、ネットワーク５０により接続される。

端末１００は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器であり、電子メールの送受信や閲覧のための機能を備えている。本実施例において、端末１００は、受信した電子メールがスパムメールであるか否かを判別する機能も備える。

図５は、端末１００の構成を示す。分かりやすくするために、ここでは、電子メールの処理に関わる要素のみを示し、情報機器が一般に備える要素については省略する。また、図５に示す構成は、電子メールを処理するプログラムをコンピュータ上で実行することにより実現される。この処理プログラムは、ＣＤ−ＲＯＭなどの記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされる。

端末１００は、メール取得部１０４と、単語抽出部１０８と、データベース１２０と、単語スパム確率取得部１１０と、単語群選出部１３０と、判別部１４０と、判別済みメール処理部１５０と、データベース更新部１６０とを備える。また、図示していないが、端末１００は、ユーザが種々の入力をするための入力部や、メールを表示するためのモニタなどのユーザインタフェースも備える。

メール取得部１０４は、メールサーバ１０から電子メールを取得する。単語抽出部１０８は、メール取得部１０４により取得した電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語の集合、バイトストリームであってもよく、必ずしも文を構成する最小単位としての「単語」に限定する必要はない。

単語スパム確率取得部１１０は、データベース１２０を参照して、単語抽出部１０８により抽出した各単語のスパム確率を取得する。

図６は、データベース１２０を示す。データベース１２０は、単語ごとの単語スパム確率ｐ、および履歴情報を含む。履歴情報は、スパムメールの総数Ｍ、非スパムメールの総数Ｎ、それぞれの単語がスパムメールに出た回数ｍと非スパムメールに出た回数ｎを含む。

初期状態におけるこのデータベース１２０は、たとえばサンプルメールを用いて作成され、電子メールを処理するプログラムに付属されたものとすることができる。また、初期状態において、データベース１２０の中身が空であって、電子メールを受信しはじめてから内容が充実されたものであってもよい。この場合において、電子メールがスパムメールであるか否かの判定をユーザに委ね、ユーザの判定結果に応じて、単語の登録、履歴情報の更新、単語スパム確率の計算などによってデータベースを更新する。そして、一定の数の電子メール数を受信したことに伴って、データベースが充実してから端末１００による自動判別を開始するようにしてもよい。単語スパム確率の計算は、上述した式（４）を用いればよい。以下の説明において、データベース１２０は既に内容があり、端末１００による自動判別が開始されたとする。

単語群選出部１３０は、単語スパム確率取得部１１０により取得した各々の単語の単語スパム確率ｐに基づいて、０．５以上の単語スパム確率を有する単語から、単語スパム確率が高い単語から順に複数たとえば１０個の単語を選出して第１の単語群を得る。また、単語群選出部１３０は、０．５以下の単語スパム確率を有する単語から、単語スパム確率が低い単語から順に、第１の単語群に含まれる単語と異なる複数の、ここではたとえば同じく１０個の単語を選出して第２の単語群を得る。

図７は、単語群選出部１３０により選出した単語群の例を示す。第１の単語群の各単語は、０．５以上の単語スパム確率を有し、第２の単語群の各単語は、０．５以下の単語スパム確率を有する。

判別部１４０は、単語群選出部１３０により得た２つの単語群に含まれる各単語の単語スパム確率を用いて、上述した式（３）にしたがってメールスパム確率を算出する。そして、算出したメールスパム確率が、予め設定された閾値Ｔ以上か、閾値Ｔより小さいかによって、電子メールがスパムメールであるか否かを判別する。

判別部１４０は、判別の結果を判別済みメール処理部１５０とデータベース更新部１６０に出力する。

判別済みメール処理部１５０は、判別部１４０による判別結果が、メール取得部１０４により取得した電子メールがスパムメールであることを示す場合において、その電子メールを、スパムメールを格納するためのフォルダたとえば「スパムメールフォルダ」に格納する。一方、判別結果が、電子メールがスパムメールではない、すなわち非スパムメールであることを示す場合においては、その電子メールを、新しく受信したメールを格納するためのフォルダたとえば「受信箱」に格納する。

データベース更新部１６０は、判別部１４０による判別結果に基づいて、データベース１２０の履歴情報を更新するとともに、上記式（４）にしたがって、単語抽出部１０８により抽出した各単語の単語スパム確率を再計算して、データベース１２０の対応する単語の単語スパム確率を更新する。また、これらの単語のうち、データベース１２０に登録されていない単語がある場合には、これらの新しい単語を登録する。

図８は、電子メール受信時における端末１００の処理過程を示すフローチャートである。

まず、メール取得部１０４はメールサーバ１０から電子メールを取得する（Ｓ１０）。単語抽出部１０８はこの電子メールから単語を抽出する（Ｓ１４）。単語スパム確率取得部１１０は、データベース１２０を参照して、ステップＳ１４において抽出された単語の単語スパム確率を取得する（Ｓ１８）。単語群選出部１３０は、単語スパム確率取得部１１０により得られた単語スパム確率に基づいて、０．５以上の単語スパム確率を有する単語から、単語スパム確率が高い単語から順に１０個の単語を第１の単語群として選出するとともに、０．５以下の単語スパム確率を有する単語から、単語スパム確率が低い単語から順に１０個の単語を第２の単語群として選出する（Ｓ２０）。判別部１４０は、第１の単語群と第２の単語群の単語の単語スパム確率を用いてメールスパム確率を算出し、このメールスパム確率と閾値Ｔを比較することによって、受信した電子メールがスパムメールであるか否かを判別する（Ｓ２４）。判別済みメール処理部１５０は、判別部１４０による判別結果に応じて、電子メールをスパムメールを格納するためのフォルダまたは非スパムメールを格納するためのフォルダに格納する。データベース更新部１６０は、判別結果に基づいて、ステップＳ１４において抽出された各単語の単語スパム確率を再計算するとともに、データベース１２０に含まれる単語スパム確率と履歴情報を更新する（Ｓ２８）。受信したメールの格納、データベース１２０の更新をもって、この電子メールに対する処理は終了する。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

たとえば、本実施例は電子メールシステムであるが、本発明における電子メッセージは、電子メールに限らず、任意の通信アーキテクチャを介して送受信することができる任意の形態の電子メッセージを含む。たとえば、２名以上の人々の間で会議または会話を実施する会議アプリケーション（たとえば対話型チャットソフトウェアや、インスタントメッセージソフトウェアなど）においても、本発明で開示する判別技術を適用することができる。

また、本実施例は、本発明の判別技術を、電子メールがスパムメールか非スパムメールかの判別に用いたものであるが、その内容によって特定タイプと非特定タイプに分類されるいかなる電子メール、たとえば仕事メールと非仕事メール（プライベートメール）などの判別にも適用することができる。

さらに、本発明の判別技術は、電子メッセージの分類に限らず、単語の傾向情報をベースとしたいかなる分類方法にも広く応用可能である。さらに、データの分類方法に際しては、単語に限らず、さまざまな属性ごとの傾向情報をベースとした分類方法も考えられる。たとえば、文書データを分類する場合、属性としてその文書データ中における単語の出現頻度や作者、作成日時などが利用できる。また、画像データを分類する場合、属性として色の頻度や明度の頻度などが利用できる。

また、本実施例において、判別済みメール処理部１５０は、判別部１４０による判別結果に応じて、スパムメールとして判別された電子メールを「スパムメールフォルダ」に格納するようにしているが、たとえば判別の結果をユーザに表示し、ユーザに最終判定を行わせるようにしてもよい。その際、スパムメールと非スパムメールの両方の判別結果についてもユーザに最終判定を行わせるようにしてもよいし、いずれか一方のみの判別結果をユーザに最終判定を行わせるようにしてもよい。そして、ユーザによる最終判定の結果を用いてデータベースの更新を行う。

また、判別の結果とユーザに最終判定の結果のログを記録し、たとえば、スパムメールとして判別した電子メールは、ユーザにより非スパムメールとして最終判定されることが多発した場合において、判別に用いる閾値Ｔを小さくするなどの調整を行うようにしてもよい。

さらに、ユーザによる最終判定を行うか行わないかを、ユーザにより選択できるようにしてもよい。

また、図４に示す電子メールシステムにおいて、端末１００により、電子メールがスパムメールか非スパムメールかの判別を行うようにしているが、この判別は、メールサーバ１０によって行われるようにしてもよい。特にユーザに最終判定を行わせるシステムにおいては、判別に用いるデータベースは、ユーザごとに設けることが好ましい。

ＰａｕｌＧｒａｈａｍ方式を説明するための単語の例を示す図である。ＰａｕｌＧｒａｈａｍ方式による判別結果の例を示す図である。本発明の判別技術による判別結果の例を示す図である。本発明にかかる実施の形態による電子メールシステムの構成を示すブロック図である。図４に示す電子メールシステムにおける端末の構成を示すブロック図である。図５に示す端末に含まれたデータベースの構造を示す図である。図５に示す端末の単語群選出部により選出された２つの単語群の例を示す図である。電子メール受信時における端末の処理過程を示すフローチャートである。

符号の説明

１０メールサーバ、５０ネットワーク、１００端末、１０４メール取得部、１０８単語抽出部、１１０単語スパム確率取得部、１２０データベース、１３０単語群選出部、１４０判別部、１５０判別済みメール処理部、１６０データベース更新部。

Claims

電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の前記特定タイプの傾向および非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持する単語傾向情報保持部と、
判別対象の電子メッセージを取得するメッセージ取得部と、
該判別対象の電子メッセージに含まれる単語を抽出する単語抽出部と、
抽出された各単語の前記単語傾向情報を、前記単語傾向情報保持部から取得する単語傾向情報取得部と、
前記特定タイプの傾向が大きい単語から順に複数の単語を選出して第１の単語群を得るとともに、前記非特定タイプの傾向が大きい単語から順に複数の単語を選出して第２の単語群を得る単語群選出部と、
第１の単語群と第２の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの前記特定タイプの傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別する判別部とを備えることを特徴とする電子メッセージ分類装置。
前記単語群選出部は、第１の単語群と第２の単語群に対してそれぞれ同数の単語を選出することを特徴とする請求項１記載の電子メッセージ分類装置。
前記特定タイプの電子メッセージは、スパムメールであることを特徴とする請求項１または２記載の電子メッセージ分類装置。
前記判別部による判別結果に応じて、判別対象となった電子メッセージに含まれる各単語に対して前記単語傾向情報を再演算する単位傾向情報更新部をさらに備えることを特徴とする請求項１から３のいずれか１項記載の電子メッセージ分類装置。
電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の前記特定タイプの傾向および非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持し、
判別対象の電子メッセージを取得し、
該判別対象の電子メッセージに含まれる単語を抽出し、
保持された前記単語傾向情報を参照して、抽出された各単語の前記単語傾向情報を取得し、
前記特定タイプの傾向が大きい単語から順に複数の単語を選出して第１の単語群を得るとともに、前記非特定タイプの傾向が大きい単語から順に複数の単語を選出して第２の単語群を得、
第１の単語群と第２の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの前記特定タイプの傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別することを特徴とする電子メッセージ分類方法。
電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の前記特定タイプの傾向および非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持する手順と、
判別対象の電子メッセージを取得する手順と、
該判別対象の電子メッセージに含まれる単語を抽出する手順と、
保持された前記単語傾向情報を参照して、抽出された各単語の前記単語傾向情報を取得する手順と、
前記特定タイプの傾向が大きい単語から順に複数の単語を選出して第１の単語群を得るとともに、前記非特定タイプの傾向が大きい単語から順に複数の単語を選出して第２の単語群を得る手順と、
第１の単語群と第２の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの前記特定タイプの傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別する手順とをコンピュータに実行せしめることを特徴とするプログラム。