JP4688629B2 - 電子メッセージ分類装置および電子メッセージ分類方法 - Google Patents

電子メッセージ分類装置および電子メッセージ分類方法 Download PDF

Info

Publication number
JP4688629B2
JP4688629B2 JP2005309805A JP2005309805A JP4688629B2 JP 4688629 B2 JP4688629 B2 JP 4688629B2 JP 2005309805 A JP2005309805 A JP 2005309805A JP 2005309805 A JP2005309805 A JP 2005309805A JP 4688629 B2 JP4688629 B2 JP 4688629B2
Authority
JP
Japan
Prior art keywords
word
spam
tendency
electronic message
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005309805A
Other languages
English (en)
Other versions
JP2007122147A (ja
Inventor
尚 中川
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2005309805A priority Critical patent/JP4688629B2/ja
Publication of JP2007122147A publication Critical patent/JP2007122147A/ja
Application granted granted Critical
Publication of JP4688629B2 publication Critical patent/JP4688629B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Description

本発明は、電子メッセージの分類技術、具体的には電子メッセージに含まれる単語を用いて電子メッセージを分類する技術に関する。
電子メールの利用者数の増加に伴い、利用者が望まない宣伝広告や嫌がらせなどの電子メール、いわゆるスパムメールの受信数が膨大になりつつある。これらのスパムメールを自動的に判別して削除したり、特定のフォルダに入れたりするなど、スパムメールを排除するための技術が開発されている。
その一例として、特許文献1において、スパムメールとなるサンプルメールを保持しておき、新たに受信した電子メールの内容と、サンプルメールの内容とを比較することによって、電子メールの内容に基づいた判別を行う方法が開示されている。
電子メールの内容に基づいて判別を行う方法として、電子メールに含まれる特徴語を抽出して、特徴語を用いて判別を行う技術が開発されている。その代表的な技術となるのは、ベイズ(Naive Bayes)の定理を利用したベイジアンフィルタ(Baysian Filter)である。ここでその原理について説明する。
たとえば、100通の電子メールのうち、70通がスパムメールであり、残りの30通が非スパムメールであったとする。ここで、ある単語Aがスパムメール70通のうちの60通、非スパムメール30通のうちの3通から検出されたとする。この場合、単語Aは、スパムメールに現れやすい単語であるから、単語Aが含まれている電子メールはスパムメールの傾向を有すると言える。ベイジアンフィルタが、このような観点から、単語ごとに、この単語を含むことによって電子メールがスパムメールの傾向を有するか非スパムメールの傾向を有するか、およびこの傾向の大きさを、単語の傾向および傾向の大きさを示す単語傾向情報としてデータベースを構築する。そして、このデータベースを参照して、新たに受信した電子メールの各々の単語から、傾向の大きい単語を特徴語として複数選出して、これらの特徴語の傾向情報を用いて電子メールがスパムメールか非スパムメールかの判別を行う。
ここで、単語の傾向情報の算出方法や、特徴語の選出方法は、判別を効率良く行うことができるか否かを左右し、判別の精度が欠けたり、または判別の精度を向上させるための調整が難しかったりするなどのことがないように、工夫が要求される。
特開2003−348161号公報
本発明は上記事情に鑑みてなされたものであり、その主たる目的は、電子メールのような電子メッセージが、受け手のユーザにとって特定タイプの電子メッセージなのか否かの判別を効率良く行うことができる技術を提供することにある。
本発明のある態様は、電子メッセージ分類装置である。この装置は、電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の特定タイプの傾向と非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持する単語傾向情報保持部と、判別対象の電子メッセージを取得するメッセージ取得部と、判別対象の電子メッセージに含まれる単語を抽出する単語抽出部と、単語抽出部により抽出された各単語の単語傾向情報を単語傾向情報保持部から取得する単語傾向情報取得部と、特定タイプの傾向が大きい単語から順に複数の単語を選出して第1の単語群を得るとともに、非特定タイプの傾向が大きい単語から順に複数の単語を選出して第2の単語群を得る単語群選出部と、第1の単語群と第2の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの特定タイプの傾向およびこの傾向の大きさを算出することにより、判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別する判別部とを備える。
なお、本発明の表現を方法、装置、システム、プログラムを記憶した記憶媒体、プログラムなどの間で変換したものも、本発明の態様としては有効である。
本発明によれば、電子メッセージが受け手のユーザにとって特定タイプの電子メッセージである否かの判別を効率良く行うことができる。
本発明の実施の形態の詳細を説明する前に、まず、電子メッセージ、特定タイプの電子メッセージのそれぞれの例として電子メール、スパム電子メールを用いて、スパムメールの判別手法として広く知られている、ベイジアンフィルタに基づいたPaul Graham方式(以下Paul方式という)と比較しながら、本発明者が提案する技術の概要を説明する。
一例として、スパムメールのサンプル100通と、非スパムメールのサンプル100通をあらかじめ用意されているとする。ここで単語Aがこのスパムメール群では98回、非スパムメール群では2回現れたとする。この場合、単語Aが含まれる電子メールは、非スパムメールの傾向より、スパムメールの傾向が大きいと言える。また、たとえばスパムメール群では60回、非スパムメール群では2回現れた単語Bについては、この単語が含まれる電子メールが有するスパムメールの傾向は、単語Aが含まれる電子メールのスパムメールの傾向より小さいと言える。一方、単語Cがスパムメール群では1回、非スパムメール群では25回現れたとする。この場合、単語Cが含まれる電子メールは、スパムメールの傾向より、非スパムメールの傾向が大きいと言える。また、たとえばスパムメール群では1回、非スパムメール群では15回現れた単語Dについては、この単語が含まれる電子メールが有する非スパムメールの傾向は、単語Cが含まれる電子メールの非スパムメール傾向より小さいと言える。
このような傾向を、以下単語の傾向という。
Paul方式では、このような単語の傾向を単語スパム確率により表し、この単語スパム確率を下記の式(1)にしたがって算出する。
p=(m/M)/(a×n/N+m/M) (1)
但し、p:単語スパム確率
m:単語がスパムメール群において登場した回数
M:スパムメールの総数
n:単語が非スパムメール群において登場した回数
N:非スパムメールの総数
a:1より大きい係数
上記200通のメールに含まれる各単語に対して単語スパム確率を算出してデータベース化する。このデータベースは、判別対象となる電子メールがスパムメールであるか否かの判別に用いられる。具体的には、まず、判別対象の電子メールに含まれる各々の単語のスパム確率をデータベースから検出する。ここで、たとえば図1に示すような検出結果が得られたとする。
図1に示すように、単語スパム確率は0から1までの範囲内の値を有しうる。単語スパム確率が0.5より大きい単語は、スパムの傾向が非スパムの傾向より大きい。また、単語のスパム確率が0.5より大きいほど、その単語のスパムの傾向が大きい。一方、単語スパム確率が0.5より小さい単語は、非スパムの傾向がスパムの傾向より大きく、単語のスパム確率が0.5より小さいほど、その単語の非スパムの傾向が大きい。0.5という単語スパム確率を有する単語は、この単語を含む電子メールがスパムメールである可能性と、非スパムメールである可能性がほぼ同じである。
図1のような検出結果に基づいて、判別に使用する単語が選出される。Paul方式では、選出する単語の数が15個までとされており、その選出方法は、「単語スパム確率が0.5との差が大きい順から選択する」である。たとえば、判別に使用する単語の数が2つとされた場合には、「お金」と「出会い」の2つの単語が選出される。
選出した単語の単語スパム確率を用いて、下記の式(2)にしたがって、「電子メールがスパムメールである可能性の大きさ」(以下「メールスパム確率」という)が算出される。
Figure 0004688629
図1の例において「お金」と「出会い」の2つの単語が選出された場合には、メールスパム確率の値は式(2)にしたがって算出され、約0.99となる。
算出されたメールスパム確率が所定の閾値Tたとえば0.9と比較され、0.9より大きければ、判別対象の電子メールはスパムメールとして判別される。
そして、判別の結果を用いて、式(1)による再計算をすることによりデータベースを更新する。
また、電子メールに対する判別の結果は、必ずしも正しいとは限らないので、この判別の結果をユーザに修正させ、修正の結果をデータベースにフィードバックしたり、判別する際に用いるパラメータを調整したりすることによって、判別の精度向上を図ることが行われる。たとえば、判別の結果をユーザに示し、ユーザに正否の判定をさせ、判定の結果を用いて式(1)による再計算を行い、データベースを更新する。また、たとえば、判別した所定数の電子メールのうち、非スパムメールをスパムメールとして誤判別した回数が所定の回数を超えたときに、閾値Tを下げたり、式(1)にある係数aを大きくしたりするなどの調整が行われる。
ここで、Pual方式について考察する。
適切な判別結果を得るためには、単語を選出する際に電子メールがスパムメールであるか非スパムメールであるかを判別する上で最も特徴的な単語を選出することが必要である。そのために、Paul方式では、「0.5」との差が大きい単語スパム確率を有する単語を選出するようにしている。図1の例では、単語の数が2である場合には、単語スパム確率が0.5との差が最も大きい2つの単語「お金」、「出会い」が選出される。この2つの単語とも、その単語スパム確率が0.5より大きく、すなわち、非スパムメールの傾向より、電子メールがスパムメール傾向にあることを示す単語である。この場合、電子メールに含まれた、電子メールが非スパムメールである傾向に示す単語「修正」、「ドライブ」などが判別に全く使用されず、電子メールの非スパムメールとしての傾向、すなわち非スパム性が無視される。
同じように、電子メールに含まれた、電子メールがスパムメールの傾向を有する単語が使用されず、電子メールのスパムメールとしての傾向、すなわちスパム性が無視される場合もある。
このようなことから、Paul方式で得られるメールスパム確率は、0近傍と1近傍の両極端の値に集中しやすい。これの一因は、単語の選出方法により、電子メールが元々あるスパムメール性または非スパムメール性を無視したことにある。
図2は、スパムメール140通と非スパムメール183通のサンプルメールに対して、Paul方式で求めたメールスパム確率の分布を示す。横軸は、(メールスパム確率)/(1−メールスパム確率)に対して自然対数をとることによってメールスパム確率を正規化した値(以下スパムスコアという)であり、0.5であるメールスパム確率が0になる。また、0以上のスパムスコアが0.5以上のメールスパム確率に対応し、0以下のスパムスコアが0.5以下のメールスパム確率に対応する。縦軸は、スパムスコアの区間ごとに、その区間のスパムスコアを有するメールの数である。
図示のように、Paul方式では、メールスパム確率が0と1の近傍値に集中しやすいので、メールスパム確率を正規化して得たスパムスコアも両端に集中する分布となる。
スパムメールか非スパムメールかを判別する目的は、受け手のユーザの手を煩ずにスパムメールを排除することにある。スパムメールの排除について、通常、スパムメールとして判別したメールを削除したり、またはそれの専用フォルダに格納するなどのことが行われている。したがって、スパムメールか否かを判別する際に、より多くのスパムメールを確実にスパムメールとして判別する一方、非スパムメールをスパムメールとして誤判別しないことが望まれる。
図2に示す例において、スパムメールが最も多く有する区間はスパムスコアが60から70までの区間である。スパムメールをより多くスパムメールとして判別できるようにするためには、この空間のスパムコアを有する電子メールがスパムメールとして判別できるように、判別のための閾値をたとえばスパムスコア60に対応するメールスパム確率に調整することが考えられる。しかし、図示のように、この区間のスパムスコアを有する電子メールのうち、非スパムメールが混在している。非スパムメールをスパムメールに誤判別してしまうことを防ぐためには、たとえばスパムスコア70に対応するメールスパム確率以上になるように判別のための閾値を調整する必要があり、これでは、非スパムメールとして判別されるスパムメールが急増し、スパムメールを20通未満しか判別できない。
このようなジレンマを解消するために、Paul方式では、単語スパム確率を算出する際に、式(1)右辺の分母にある係数aとして1より大きい値を使用し、単語が非スパムメールとして登場した回数を加重している。この係数aの値によって、求められた単語スパム確率が変わる。単語スパム確率の値もまたメールスパム確率の値を影響するので、調整を行う際には、係数aと閾値Tについて、互いの影響を見ながら調整する必要があり、調整自体が煩雑である。
次に、図1の例を用いて、判別のために選出する単語の数を5とした場合について考える。「リスト」、「懸賞」、「くじ」の3つの単語の単語スパム確率がそれぞれ0.8であり、0.5との差が0.3となる。一方、「原稿」、「修正」、「ドライブ」の3つの単語の単語スパム確率と0.5との差も0.3である。「お金」、「出会い」の2つの単語以外に、残りの3つの単語として、単語スパム確率が高いほうの3つの単語(「リスト」、「懸賞」、「くじ」)を選出するか、単語スパム確率が低いほうの3つの単語(「原稿」、「修正」、「ドライブ」)を選出するかによって、後に求められるメールスパム確率の値が変わる。
単語スパム確率が高いほうの3つの単語を選出すると、メールスパム確率が0.9999となり、単語スパム確率が低いほうの3つの単語を選出すると、メールスパム確率が0.7277となる。
すなわち、Paul方式では、単語を選出する際に、単語スパム確率と0.5との差が同じ場合において、単語スパム確率が0.5より大きい単語と0.5より小さい単語のいずれを優先するかによって、判別の結果が大きく変わってしまう。
また、仮に優先順位をあらかじめ定めておくようにした場合においても、浮動小数点演算の際の演算誤差によって、判別の結果に大きな差が生じてしまうことがある。たとえば、単語スパム確率に対して小数点第3位までとる場合、0.281と0.716の2つの単語スパム確率は、0.5との差がそれぞれ0.219と0.216であるため、差の大きい「0.281」という単語スパム確率を有する単語が選出される。一方、単語スパム確率に対して小数点第2位までとる場合には、この2つの単語スパム確率がそれぞれ0.28と0.72になり、0.5との差は同じく0.22となる。0.5より大きい単語スパム確率を有する単語が優先的に選出されるので、「0.72」、実質的には「0.716」という単語スパム確率を有する単語が選出される。これでは判別の結果が大きく変わる。
次に、本発明者の提案した技術の原理について説明する。
この技術も、ある単語が含まれる電子メールのスパムメールの傾向と非スパムメールの傾向を、この単語のスパム傾向と非スパム傾向とし、その大きさを示しうる単語傾向情報を単語ごとに取得してデータベース化する。ここで、単語傾向情報として、たとえばPaul方式と同じように、単語スパム確率を用いる。また、単語スパム確率がとりうる値のうち、ある値の単語スパム確率を有する単語が含まれる電子メールは、スパムメールである可能性と非スパム電子メールである可能性がほぼ同じである。以下この単語スパム確率を中間単語スパム確率という。単語の傾向およびその傾向の大きさは、その単語の単語スパム確率と中間スパム確率との差により表される。中間スパム確率以上の単語スパム確率を有する単語が、非スパムの傾向よりもスパムの傾向が大きく、中間スパム確率以下の単語スパム確率を有する単語が、スパムの傾向よりも非スパムの傾向が大きいとされる。また、中間スパム確率より大きいほど、そのスパムの傾向が大きく、中間スパム確率より小さいほど、その非スパムの傾向が大きい。
判別に使用する単語を選出する際に、本発明者の提案したこの技術は、スパムの傾向が大きい単語から順に複数の単語を選出して第1の単語群を得るとともに、非スパムの傾向が大きい単語から順に複数の単語を選出して第2の単語群を得る。ここでは単語傾向情報として単語スパム確率を用い、中間スパム確率を0.5とする。
単語の選出にあたって、たとえば単純に単語スパム確率が大きい順(すなわちスパムの傾向が大きい順)から複数の単語を選出して第1の単語群を得、単語スパム確率が小さい順(すなわち非スパムの傾向が大きい順)から複数の単語を選出して第2の単語群を得るようにすることができる。または、第1の単語群として、0.5以上の単語スパム確率を有する単語から、単語スパム確率が大きい単語から順に複数の単語を選出し、第2の単語群として、0.5以下の単語スパム確率を有する単語から、単語スパム確率が小さい単語から順に複数の単語を選出するようにしてもよい。このように得られた2つの単語群の単語を判別に用いることによって、電子メールのスパム性および非スパム性が無視されることを防ぐことができる。
また、この2つの単語群のそれぞれの単語数が等しくなるように選出をすれば、単語スパム確率を算出する際に、Paul方式による上記式(1)から、係数aという人為的に調整を加えるパラメータを排除することができる。
ここで、図1に示す例を用いて、第1の単語群と第2の単語群のそれぞれの単語数を2にして、本発明者の提案した技術による下記の式(3)にしたがって、メールスパム確率を計算する。なお、この式は、2つの単語群に含まれる単語のそれぞれのスパム確率を用いてメールスパム確率を算出するための式であり、使用される単語が異なる点以外、Paul方式がメールスパム確率を計算する際に用いる上記式(2)と同じである。
Figure 0004688629
この場合において、0.5以上の単語スパム確率を有する単語から「お金」、「出会い」が選出され、中間確率が0.5以下の単語スパム確率を有する単語から「原稿」、「修正」が選出される。これらの単語の単語スパム確率から算出したメールスパム確率が0.91である。
すなわち、電子メールのスパム性および非スパム性を無視しない処理方法を採用した結果、算出したメールスパム確率が0近傍と1近傍に集中することが無くなる。これによって、閾値Tの値を変更することによって、より精緻な調整が可能である。
また、2つの単語群の数を5にした場合においても、0.5より大きい単語と0.5より小さい単語のいずれを優先するかの問題がないため、安定した判別結果を得ることができる。もちろん、浮動小数点演算の際の誤差に起因する判別結果の不安定を回避することもできる。
さらに、係数aによる加重の必要がないので、単語スパム確率が下記の式(4)にしたがって計算することができる。
p=(m/M)/(n/N+m/M) (4)
但し、p:単語スパム確率
m:単語がスパムメール群において登場した回数
M:スパムメールの総数
n:単語が非スパムメール群において登場した回数
N:非スパムメールの総数
これによって、本発明者が提案したこの技術によれば、精度向上などのために調整を行う際に、閾値Tのみを調整すればよいので、簡単である。
図3は、本発明者が提案したこの技術を用いて、Paul方式の考察時に用いたスパムメール140通と非スパムメール183通のサンプルメールに対して求めたメールスパム確率の分布を示す。図2と同じように、横軸は、メールスパム確率を正規化して得たスパムコアを示し、縦軸は、スパムスコアの区間ごとに、その区間のスパムスコアを有するメールの数である。
図3に示す例において、20以上のスパムスコアを有する電子メールはほぼ50通あり、すべてスパムメールである。すなわち、本発明者の提案したこの技術によって、非スパムメールをスパムメールとして誤判別しないようにしながらも、約50通のスパムメールを判別することができ、図3に示すPaul方式による結果と比較すると、判別の精度が向上したことが明らかである。
以下、本発明の実施の形態について、以上の原理を具現化してシステムを説明する。
図4は、本発明にかかる実施の形態による電子メールシステムの構成を示す。この電子メールシステムは、メールサーバ10、端末100を有し、メールサーバ10と端末100は、ネットワーク50により接続される。
端末100は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器であり、電子メールの送受信や閲覧のための機能を備えている。本実施例において、端末100は、受信した電子メールがスパムメールであるか否かを判別する機能も備える。
図5は、端末100の構成を示す。分かりやすくするために、ここでは、電子メールの処理に関わる要素のみを示し、情報機器が一般に備える要素については省略する。また、図5に示す構成は、電子メールを処理するプログラムをコンピュータ上で実行することにより実現される。この処理プログラムは、CD−ROMなどの記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされる。
端末100は、メール取得部104と、単語抽出部108と、データベース120と、単語スパム確率取得部110と、単語群選出部130と、判別部140と、判別済みメール処理部150と、データベース更新部160とを備える。また、図示していないが、端末100は、ユーザが種々の入力をするための入力部や、メールを表示するためのモニタなどのユーザインタフェースも備える。
メール取得部104は、メールサーバ10から電子メールを取得する。単語抽出部108は、メール取得部104により取得した電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語の集合、バイトストリームであってもよく、必ずしも文を構成する最小単位としての「単語」に限定する必要はない。
単語スパム確率取得部110は、データベース120を参照して、単語抽出部108により抽出した各単語のスパム確率を取得する。
図6は、データベース120を示す。データベース120は、単語ごとの単語スパム確率p、および履歴情報を含む。履歴情報は、スパムメールの総数M、非スパムメールの総数N、それぞれの単語がスパムメールに出た回数mと非スパムメールに出た回数nを含む。
初期状態におけるこのデータベース120は、たとえばサンプルメールを用いて作成され、電子メールを処理するプログラムに付属されたものとすることができる。また、初期状態において、データベース120の中身が空であって、電子メールを受信しはじめてから内容が充実されたものであってもよい。この場合において、電子メールがスパムメールであるか否かの判定をユーザに委ね、ユーザの判定結果に応じて、単語の登録、履歴情報の更新、単語スパム確率の計算などによってデータベースを更新する。そして、一定の数の電子メール数を受信したことに伴って、データベースが充実してから端末100による自動判別を開始するようにしてもよい。単語スパム確率の計算は、上述した式(4)を用いればよい。以下の説明において、データベース120は既に内容があり、端末100による自動判別が開始されたとする。
単語群選出部130は、単語スパム確率取得部110により取得した各々の単語の単語スパム確率pに基づいて、0.5以上の単語スパム確率を有する単語から、単語スパム確率が高い単語から順に複数たとえば10個の単語を選出して第1の単語群を得る。また、単語群選出部130は、0.5以下の単語スパム確率を有する単語から、単語スパム確率が低い単語から順に、第1の単語群に含まれる単語と異なる複数の、ここではたとえば同じく10個の単語を選出して第2の単語群を得る。
図7は、単語群選出部130により選出した単語群の例を示す。第1の単語群の各単語は、0.5以上の単語スパム確率を有し、第2の単語群の各単語は、0.5以下の単語スパム確率を有する。
判別部140は、単語群選出部130により得た2つの単語群に含まれる各単語の単語スパム確率を用いて、上述した式(3)にしたがってメールスパム確率を算出する。そして、算出したメールスパム確率が、予め設定された閾値T以上か、閾値Tより小さいかによって、電子メールがスパムメールであるか否かを判別する。
判別部140は、判別の結果を判別済みメール処理部150とデータベース更新部160に出力する。
判別済みメール処理部150は、判別部140による判別結果が、メール取得部104により取得した電子メールがスパムメールであることを示す場合において、その電子メールを、スパムメールを格納するためのフォルダたとえば「スパムメールフォルダ」に格納する。一方、判別結果が、電子メールがスパムメールではない、すなわち非スパムメールであることを示す場合においては、その電子メールを、新しく受信したメールを格納するためのフォルダたとえば「受信箱」に格納する。
データベース更新部160は、判別部140による判別結果に基づいて、データベース120の履歴情報を更新するとともに、上記式(4)にしたがって、単語抽出部108により抽出した各単語の単語スパム確率を再計算して、データベース120の対応する単語の単語スパム確率を更新する。また、これらの単語のうち、データベース120に登録されていない単語がある場合には、これらの新しい単語を登録する。
図8は、電子メール受信時における端末100の処理過程を示すフローチャートである。
まず、メール取得部104はメールサーバ10から電子メールを取得する(S10)。単語抽出部108はこの電子メールから単語を抽出する(S14)。単語スパム確率取得部110は、データベース120を参照して、ステップS14において抽出された単語の単語スパム確率を取得する(S18)。単語群選出部130は、単語スパム確率取得部110により得られた単語スパム確率に基づいて、0.5以上の単語スパム確率を有する単語から、単語スパム確率が高い単語から順に10個の単語を第1の単語群として選出するとともに、0.5以下の単語スパム確率を有する単語から、単語スパム確率が低い単語から順に10個の単語を第2の単語群として選出する(S20)。判別部140は、第1の単語群と第2の単語群の単語の単語スパム確率を用いてメールスパム確率を算出し、このメールスパム確率と閾値Tを比較することによって、受信した電子メールがスパムメールであるか否かを判別する(S24)。判別済みメール処理部150は、判別部140による判別結果に応じて、電子メールをスパムメールを格納するためのフォルダまたは非スパムメールを格納するためのフォルダに格納する。データベース更新部160は、判別結果に基づいて、ステップS14において抽出された各単語の単語スパム確率を再計算するとともに、データベース120に含まれる単語スパム確率と履歴情報を更新する(S28)。受信したメールの格納、データベース120の更新をもって、この電子メールに対する処理は終了する。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
たとえば、本実施例は電子メールシステムであるが、本発明における電子メッセージは、電子メールに限らず、任意の通信アーキテクチャを介して送受信することができる任意の形態の電子メッセージを含む。たとえば、2名以上の人々の間で会議または会話を実施する会議アプリケーション(たとえば対話型チャットソフトウェアや、インスタントメッセージソフトウェアなど)においても、本発明で開示する判別技術を適用することができる。
また、本実施例は、本発明の判別技術を、電子メールがスパムメールか非スパムメールかの判別に用いたものであるが、その内容によって特定タイプと非特定タイプに分類されるいかなる電子メール、たとえば仕事メールと非仕事メール(プライベートメール)などの判別にも適用することができる。
さらに、本発明の判別技術は、電子メッセージの分類に限らず、単語の傾向情報をベースとしたいかなる分類方法にも広く応用可能である。さらに、データの分類方法に際しては、単語に限らず、さまざまな属性ごとの傾向情報をベースとした分類方法も考えられる。たとえば、文書データを分類する場合、属性としてその文書データ中における単語の出現頻度や作者、作成日時などが利用できる。また、画像データを分類する場合、属性として色の頻度や明度の頻度などが利用できる。
また、本実施例において、判別済みメール処理部150は、判別部140による判別結果に応じて、スパムメールとして判別された電子メールを「スパムメールフォルダ」に格納するようにしているが、たとえば判別の結果をユーザに表示し、ユーザに最終判定を行わせるようにしてもよい。その際、スパムメールと非スパムメールの両方の判別結果についてもユーザに最終判定を行わせるようにしてもよいし、いずれか一方のみの判別結果をユーザに最終判定を行わせるようにしてもよい。そして、ユーザによる最終判定の結果を用いてデータベースの更新を行う。
また、判別の結果とユーザに最終判定の結果のログを記録し、たとえば、スパムメールとして判別した電子メールは、ユーザにより非スパムメールとして最終判定されることが多発した場合において、判別に用いる閾値Tを小さくするなどの調整を行うようにしてもよい。
さらに、ユーザによる最終判定を行うか行わないかを、ユーザにより選択できるようにしてもよい。
また、図4に示す電子メールシステムにおいて、端末100により、電子メールがスパムメールか非スパムメールかの判別を行うようにしているが、この判別は、メールサーバ10によって行われるようにしてもよい。特にユーザに最終判定を行わせるシステムにおいては、判別に用いるデータベースは、ユーザごとに設けることが好ましい。
Paul Graham方式を説明するための単語の例を示す図である。 Paul Graham方式による判別結果の例を示す図である。 本発明の判別技術による判別結果の例を示す図である。 本発明にかかる実施の形態による電子メールシステムの構成を示すブロック図である。 図4に示す電子メールシステムにおける端末の構成を示すブロック図である。 図5に示す端末に含まれたデータベースの構造を示す図である。 図5に示す端末の単語群選出部により選出された2つの単語群の例を示す図である。 電子メール受信時における端末の処理過程を示すフローチャートである。
符号の説明
10 メールサーバ、 50 ネットワーク、 100 端末、 104 メール取得部、 108 単語抽出部、 110 単語スパム確率取得部、 120 データベース、 130 単語群選出部、 140 判別部、 150 判別済みメール処理部、 160 データベース更新部。

Claims (6)

  1. 電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の前記特定タイプの傾向および非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持する単語傾向情報保持部と、
    判別対象の電子メッセージを取得するメッセージ取得部と、
    該判別対象の電子メッセージに含まれる単語を抽出する単語抽出部と、
    抽出された各単語の前記単語傾向情報を、前記単語傾向情報保持部から取得する単語傾向情報取得部と、
    前記特定タイプの傾向が大きい単語から順に複数の単語を選出して第1の単語群を得るとともに、前記非特定タイプの傾向が大きい単語から順に複数の単語を選出して第2の単語群を得る単語群選出部と、
    第1の単語群と第2の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの前記特定タイプの傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別する判別部とを備えることを特徴とする電子メッセージ分類装置。
  2. 前記単語群選出部は、第1の単語群と第2の単語群に対してそれぞれ同数の単語を選出することを特徴とする請求項1記載の電子メッセージ分類装置。
  3. 前記特定タイプの電子メッセージは、スパムメールであることを特徴とする請求項1または2記載の電子メッセージ分類装置。
  4. 前記判別部による判別結果に応じて、判別対象となった電子メッセージに含まれる各単語に対して前記単語傾向情報を再演算する単位傾向情報更新部をさらに備えることを特徴とする請求項1から3のいずれか1項記載の電子メッセージ分類装置。
  5. 電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の前記特定タイプの傾向および非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持し、
    判別対象の電子メッセージを取得し、
    該判別対象の電子メッセージに含まれる単語を抽出し、
    保持された前記単語傾向情報を参照して、抽出された各単語の前記単語傾向情報を取得し、
    前記特定タイプの傾向が大きい単語から順に複数の単語を選出して第1の単語群を得るとともに、前記非特定タイプの傾向が大きい単語から順に複数の単語を選出して第2の単語群を得、
    第1の単語群と第2の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの前記特定タイプの傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別することを特徴とする電子メッセージ分類方法。
  6. 電子メッセージの内容に基づいて該電子メッセージが受け手のユーザにとって特定タイプの電子メッセージか否かを判別するために、単語の前記特定タイプの傾向および非特定タイプの傾向の大きさを示す単語傾向情報を、単語ごとに対応づけて保持する手順と、
    判別対象の電子メッセージを取得する手順と、
    該判別対象の電子メッセージに含まれる単語を抽出する手順と、
    保持された前記単語傾向情報を参照して、抽出された各単語の前記単語傾向情報を取得する手順と、
    前記特定タイプの傾向が大きい単語から順に複数の単語を選出して第1の単語群を得るとともに、前記非特定タイプの傾向が大きい単語から順に複数の単語を選出して第2の単語群を得る手順と、
    第1の単語群と第2の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メッセージの前記特定タイプの傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メッセージが特定タイプの電子メッセージであるか否かを判別する手順とをコンピュータに実行せしめることを特徴とするプログラム。
JP2005309805A 2005-10-25 2005-10-25 電子メッセージ分類装置および電子メッセージ分類方法 Expired - Fee Related JP4688629B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005309805A JP4688629B2 (ja) 2005-10-25 2005-10-25 電子メッセージ分類装置および電子メッセージ分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005309805A JP4688629B2 (ja) 2005-10-25 2005-10-25 電子メッセージ分類装置および電子メッセージ分類方法

Publications (2)

Publication Number Publication Date
JP2007122147A JP2007122147A (ja) 2007-05-17
JP4688629B2 true JP4688629B2 (ja) 2011-05-25

Family

ID=38145964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005309805A Expired - Fee Related JP4688629B2 (ja) 2005-10-25 2005-10-25 電子メッセージ分類装置および電子メッセージ分類方法

Country Status (1)

Country Link
JP (1) JP4688629B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6693010B2 (ja) * 2016-02-08 2020-05-13 ブレインズコンサルティング株式会社 障害対応支援装置、障害対応支援プログラム及び記憶媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2000250916A (ja) * 1999-02-25 2000-09-14 Sumitomo Metal Ind Ltd 文書分類方法及び装置並びに記録媒体
JP2004192269A (ja) * 2002-12-10 2004-07-08 Mitsubishi Electric Corp タンパク質ドメインの判別手法
JP2004259294A (ja) * 2004-04-12 2004-09-16 Just Syst Corp 電子メール送受信装置、電子メール送受信システム、電子メール送受信方法、電子メール送受信方法をコンピュータに実行させるプログラム、およびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005202924A (ja) * 2003-12-15 2005-07-28 Gengo Gijutsu Kenkyusho:Kk 対訳判断装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2000250916A (ja) * 1999-02-25 2000-09-14 Sumitomo Metal Ind Ltd 文書分類方法及び装置並びに記録媒体
JP2004192269A (ja) * 2002-12-10 2004-07-08 Mitsubishi Electric Corp タンパク質ドメインの判別手法
JP2005202924A (ja) * 2003-12-15 2005-07-28 Gengo Gijutsu Kenkyusho:Kk 対訳判断装置、方法及びプログラム
JP2004259294A (ja) * 2004-04-12 2004-09-16 Just Syst Corp 電子メール送受信装置、電子メール送受信システム、電子メール送受信方法、電子メール送受信方法をコンピュータに実行させるプログラム、およびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2007122147A (ja) 2007-05-17

Similar Documents

Publication Publication Date Title
US7930351B2 (en) Identifying undesired email messages having attachments
US7949718B2 (en) Phonetic filtering of undesired email messages
US8490001B2 (en) Electronic mail display program product, method, apparatus and system
EP1924039B1 (en) Communication terminal, and destination-address right/wrong determining method and program thereof
KR100943870B1 (ko) 잠재적 수신자를 식별하는 방법 및 장치
US8645430B2 (en) Self-adjusting email subject and email subject history
US8266218B2 (en) Automated electronic message filing system
JP4742618B2 (ja) 情報処理システム、プログラム及び情報処理方法
JP4817952B2 (ja) メール誤送信防止システム、メール誤送信防止方法、およびメール誤送信防止プログラム
US8909713B2 (en) Method and system for filtering text messages
JP4742619B2 (ja) 情報処理システム、プログラム及び情報処理方法
US8490185B2 (en) Dynamic spam view settings
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
US20090089381A1 (en) Pending and exclusive electronic mail inbox
JP4688630B2 (ja) 電子メール分類装置および電子メール分類方法
JP2003067304A (ja) 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
JP4688629B2 (ja) 電子メッセージ分類装置および電子メッセージ分類方法
US20120246243A1 (en) Electronic mail system, user terminal apparatus, information providing apparatus, and computer readable medium
JP5055519B2 (ja) 情報処理装置、情報処理システム、プログラム、及び情報処理方法
JP2011186992A (ja) 電子文書校正装置、電子文書校正システムおよび電子文書校正用プログラム
JP4746083B2 (ja) 宛先正否判定システム
CN114528402A (zh) 邮件的智能分类方法及装置
KR102361830B1 (ko) 메일 해석 서버 및 이를 이용한 메일 해석 방법
JP2009251864A (ja) スパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法
JP2003067307A (ja) 電子メール監視システム、電子メール監視方法、電子メール監視プログラム及びそれを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110215

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees