JP2007122145A - 電子メール評価装置および電子メール評価方法 - Google Patents

電子メール評価装置および電子メール評価方法 Download PDF

Info

Publication number
JP2007122145A
JP2007122145A JP2005309803A JP2005309803A JP2007122145A JP 2007122145 A JP2007122145 A JP 2007122145A JP 2005309803 A JP2005309803 A JP 2005309803A JP 2005309803 A JP2005309803 A JP 2005309803A JP 2007122145 A JP2007122145 A JP 2007122145A
Authority
JP
Japan
Prior art keywords
word
mail
fitness
information
email
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005309803A
Other languages
English (en)
Other versions
JP4878468B2 (ja
Inventor
Takashi Nakagawa
尚 中川
Hiroki Tanioka
広樹 谷岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2005309803A priority Critical patent/JP4878468B2/ja
Publication of JP2007122145A publication Critical patent/JP2007122145A/ja
Application granted granted Critical
Publication of JP4878468B2 publication Critical patent/JP4878468B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

【課題】単語データベースを参照して文書内容を評価しつつその評価結果を単語データベースに反映させるタイプのシステムにおいて、単語データベースの肥大化を抑制する。
【解決手段】電子メール評価装置は、電子メールに含まれる単語に基づいて、電子メールが適切な内容であるか否かを判定する。このとき、各単語ごとの適切さは適合度情報とよばれるデータベースに登録されており、単語ごとの適切さの総合評価として電子メールの適否が判定されることになる。電子メールについての判定結果は適合度情報に反映される。適合度情報に登録されていない単語が電子メールに含まれていたときには、その単語は適合度情報に新規登録されるが、その後に所定の削除条件が成立したときにはこの単語は適合度情報から除外される。
【選択図】図1

Description

本発明は、文書ファイルの内容を評価するための技術に関し、特に、電子メールの内容の適否を判定するための技術に関する。
近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。電子メールもそのひとつであるが、電子メールの多くはスパムメールなどとよばれる迷惑メールであるといわれている。
このような状況に対応して、電子メールの内容の適否を自然言語処理により判定し、迷惑メールを自動的に排除するための技術が開発されている。
その一例として、電子メールに含まれる単語ごとの適切さを判定することにより、電子メールが迷惑メールに該当するかを総合評価する方法がある。たとえば、100通の電子メールのうち、70通が迷惑メールであり、残りの30通が通常の電子メール(以下、「正規メール」とよぶ)であったとする。ここで、ある単語Aが迷惑メール70通のうちの60通、正規メール30通のうちの3通から検出されたとする。この場合、単語Aは、迷惑メールに現れやすい単語であるから、単語Aが含まれている電子メールは迷惑メールである可能性が高いともいえる。このような観点から、単語ごとの適切さまたは不適切さを指標化してデータベース化し、新たに受信された電子メールに含まれている各単語からその電子メールが迷惑メールである可能性を総合評価する。
特開2003−18324号公報
このような方法によって電子メールの内容の適否を正確に評価するためには、データベースの充実が重要である。多くの電子メールが受信されるほど、単語ごとの評価も定まってくる。また、評価対象となる単語数も増加する。その反面、評価対象となる単語数の増加はデータベースの肥大化を招く。特に、無意味な単語が羅列されるタイプの迷惑メールが受信されると、データベースに登録される単語数が一気に増加してしまう。
本発明はこうした状況に鑑みてなされたものであり、その主たる目的は、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制するための技術を提供することにある。
本発明のある態様は、電子メール評価装置である。
この装置は、外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、評価対象となるべき電子メールを取得するメール取得部と、電子メールに含まれる単語を抽出する単語抽出部と、適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、適合度情報を更新する適合度更新部と、電子メールから適合度情報に登録されていない単語が抽出されたとき、その単語を適合度情報に新規登録する単語登録部と、新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において新規登録された単語の出現頻度が所定の閾値より小さいとき、新規登録された単語を適合度情報から除外する単語削除部と、を備える。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制することができる。
図1は、電子メール評価装置とメールブラウザの関係を示す模式図である。
クライアント端末80は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器である。このクライアント端末80には、メールの送受信や閲覧のためのメールブラウザ90がインストールされている。本実施例においては、クライアント端末80が受信した電子メールは、まず電子メール評価装置100によって評価される。電子メール評価装置100は、電子メールが迷惑メールでなければメールブラウザ90に転送し、迷惑メールであればメールブラウザ90には転送しない。すなわち、電子メール評価装置100は電子メールのフィルタとしての機能を果たす。
本実施例の電子メール評価装置100は、ベイジアンフィルタ法に基づいて電子メールの内容を評価し、電子メールが迷惑メールであるか否かを判定する。
その判定原理について説明する。
一例として、迷惑メールのサンプル100通と、正規メールのサンプル100通をあらかじめ用意されているとする。ここで「懸賞」という単語がこの迷惑メール群では98回、正規メール群では2回現れたとする。この場合、「懸賞」という単語が含まれる電子メールは迷惑メールである確率が高い。電子メール評価装置100は、単語ごとに「その単語が含まれている電子メールが迷惑メールである可能性の高さ」を「スパム単語確率」として指標化する。
広く知られているPaul Graham方式の場合、ある単語wのスパム単語確率P(w)は、
P(w)=(m/M)/(2×n/N+m/M)
という式によって定義される。
ここで、
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
である。
さきほどの「懸賞」という単語のスパム確率をPaul Graham方式によって計算すると、m=98、M=100、n=2、N=100であることから、
P(「懸賞」)=(98/100)/(2×2/100+98/100)
により、約96%として計算される。
電子メール評価装置100は、これらの200通の電子メールに含まれる単語それぞれについてのスパム単語確率をデータベース化する。本実施例においては、このようなデータベースのことを、「適合度情報」とよぶ。
この適合度情報において、「懸賞:96%」、「冷凍:30%」、「うどん:5%」というスパム単語確率が設定されていたとする。
以上の初期設定がなされた後において、電子メール評価装置100は、「私は、懸賞によく応募します。こないだ冷凍うどんを当てました。」という内容の電子メールを新たに受信したとする。
この電子メールが迷惑メールである確率(以下、「スパムメール確率」とよぶ)は、(0.96×0.3×0.05)/{(0.96×0.3×0.05)+(1−0.96)×(1−0.3)×(1−0.05)}=35%として算出される。
電子メール評価装置100は、スパムメール確率が90%以上となる電子メールを迷惑メールとして判定する。また、このときには、迷惑メール数の合計が101通となるため、それにあわせて適合度情報における各単語のスパム単語確率も再計算される。
一方、90%未満であれば、電子メール評価装置100はその電子メールを一応迷惑メールではないとして、メールブラウザ90に転送する。メールブラウザ90のユーザは、転送された電子メールが確かに正規メールであるか、それともやはり迷惑メールであるかを判定する。その判定結果は電子メール評価装置100にフィードバックされる。この判定結果を反映して、電子メール評価装置100は適合度情報を更新する。電子メール評価装置100は、電子メールを受信するごとに適合度情報を更新、充実させていくことになる。
なお、ユーザは、電子メール評価装置100における各種判定条件を変更することもできる。これについては後述する。
図2は、電子メール評価装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。本実施例においては、電子メール評価装置100は、クライアント端末80にインストールされるアプリケーションソフトウェアによってその機能が発揮されるものとして説明する。
また、ここでは、主として各ブロックの発揮すべき機能について、その具体的な作用については、図3以降に関連して説明する。
電子メール評価装置100は、ユーザインタフェース処理部110、メール取得部112、メール転送部114、データ処理部116およびデータ格納部118を含む。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。メール取得部112は、図示しない外部のメールサーバから電子メールを取得する。メール転送部114は、取得した電子メールのうちデータ処理部116において一応迷惑メールではないと判定した電子メールをメールブラウザ90に転送する。
データ処理部116は、ユーザインタフェース処理部110やメール取得部112から取得されたデータを元にして各種のデータ処理を実行する。データ処理部116は、ユーザインタフェース処理部110、メール取得部112、メール転送部114およびデータ格納部118の間のインタフェースの役割も果たす。
データ格納部118は、あらかじめ用意された各種の設定データや、データ処理部116から受け取ったデータを格納する。
データ格納部118は、適合度情報保持部138を含む。適合度情報保持部138は、単語とそのスパム単語確率を対応づけた適合度情報を保持する。
データ処理部116は、適合度情報処理部120とメール評価部122を含む。
メール評価部122は、メール取得部112が電子メールを取得したときに、その電子メールのスパムメール確率を計算することにより、電子メールの適否を判定する。適合度情報処理部120は、その判定結果に応じて適合度情報保持部138における適合度情報を更新する。
メール評価部122は、単語抽出部134と適合判定部136を含む。
単語抽出部134は、電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語群、バイトストリームであってもよく、必ずしも文構成の最小単位としての「単語」に限る必要はない。適合判定部136は、抽出された単語のスパム単語確率を適合度情報保持部138から読み出して、スパムメール確率を算出する。既に述べたように、適合判定部136は、スパムメール確率が90%未満であれば、その電子メールをメール転送部114からメールブラウザ90に転送させ、90%以上であれば転送しない。
正規メールとは、スパムメール確率が90%未満であり、かつ、クライアント端末80においてユーザによって適切と判定された電子メールである。迷惑メールとは、スパムメール確率が90%以上、または、スパムメール確率は90%未満でありながらクライアント端末80においてユーザによって不適と判定された電子メールである。このように、電子メールの適否は、電子メール評価装置100のメール評価部122とメールブラウザ90のユーザの双方または一方によって判定される。
なお、電子メールの判定基準となる90%という数値は、ユーザインタフェース処理部110を介してユーザは任意に変更できる。
適合度情報処理部120は、更新部124、単語登録部126、単語削除部128、計数部130および閾値設定部132を含む。
更新部124は、適合度情報を更新する。すなわち、新たな電子メールについての判定結果に応じて、適合度情報に含まれる各単語のスパム単語確率をPaul Grahamの式にしたがって再計算する。単語登録部126は、電子メールに含まれる単語のうち、適合度情報に未登録の単語があれば、新たにこれを適合度情報に新規登録する。以降において、この新規登録単語についてのスパム単語確率の計算が開始される。
単語削除部128は、削除条件が成立した単語を適合度情報から削除する。具体的には、ある電子メールMから検出された単語wが新規登録されたとき、以後において、
(r≧R)∩[{(s/r)<T}∪{0.5−P≦p≦0.5+P}]
の削除条件が成り立つときに単語wは適合度情報から削除される。
ここで、
r:電子メールMが取得された後において、更に取得された電子メールの数。
R:第1閾値。100以上の整数であり、ユーザにより設定される。初期設定値は1000。
s:電子メールMが取得された後において、更に取得されたr通の電子メールのうち、単語wが含まれている電子メールの数。
T:第2閾値。0.01以上1.0未満の範囲でユーザにより設定される。初期値は0.1
p:電子メールMが取得された後において更に取得されたr通の電子メールに基づいて計算される単語wのスパム単語確率
:第3閾値。0以上0.5以下の範囲でユーザにより設定される。初期値は0.2
である。
各項の意味を説明する。
1.(s/r)<T・・・第1削除条件
電子メールMが取得されて以降におけるr通の電子メールにおいて、単語wの出現頻度が小さいときには削除対象とする。電子メールMによって単語wが適合度情報に新規登録されて以降、この単語wがあまり出現しない場合には、単語wはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。このため、このようなときには、単語wを削除対象としている。
2.0.5−P≦p≦0.5+P・・・第2削除条件
単語wのスパム単語確率が0.5付近にあるときには削除対象とする。単語wのスパム単語確率が0.5に近いときには、すなわち、中立的な適切さを持つ単語wはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。そのため、このようなときには、単語wを削除対象としている。
3.r≧R・・・第3削除条件
単語wの削除可否判定にあたって統計的な安定性を担保するための条件である。第3削除条件が成立したことを条件として、単語wは削除の対象となり得る。
まとめると、単語wが新規登録されてから、ある程度の電子メールが取得された段階で、単語wの出現頻度が小さいか、単語wのスパム単語確率が中立的であるときには、単語wは適合度情報から削除されることになる。このような処理によって、適合度情報に含まれる評価対象となるべき単語数が過度に大きくならないように処置している。
計数部130は、単語が新規登録された後に受信される電子メールの数rを計数する。このときの計数値は、削除条件の成否判定において使用される。閾値設定部132は、第1〜第3閾値をユーザからの設定入力に応じて変更する。
次に、電子メール評価装置100が新たに電子メールを受信したときの処理過程を説明する。
図3は、電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
まず、メール取得部112は外部装置から送信された電子メールを取得する(S10)。この電子メールのスパムメール確率を計算することによりメール評価処理が実行され(S12)、必要に応じて適合度情報からの単語削除の実行可否を判定するための単語削除判定処理が実行される(S14)。
S12およびS14の処理内容については後に詳述する。
図4は、図3のS12におけるメール評価処理の内容を詳細に示すフローチャートである。
単語抽出部134は、電子メールに含まれている単語を抽出する(S16)。この中で、適合度情報に登録されていない単語があれば(S18のY)、単語登録部126は新たにこの未登録単語を適合度情報に登録する(S20)。計数部130は、この新規登録単語に対して、以降に取得される電子メール数rのカウントを開始する。計数部130は、新規登録単語ごとに電子メール数rをカウントする。電子メールから抽出された単語の中に未登録単語がなければ(S18のN)、S20はスキップされる。こうしてスパムメール確率が計算される(S22)。
スパムメール確率が、所定の閾値以上であれば(S24のN)、適合判定部136はその電子メールを迷惑メールと判定する(S29)。なお、本実施例においては、この閾値は90%として設定されるが、ユーザからの設定入力により変更可能である。一方、スパムメール確率がこの閾値未満であれば(S24のY)、適合判定部136は、一応、正規メールと仮判定する。メール転送部114はメールブラウザ90に電子メールを転送する(S26)。ユーザによって、転送した電子メールが迷惑メールであると判定されたときには(S27のY)、このメールは迷惑メールとして扱われる(S29)。ユーザによって、転送した電子メールが正規メールであると判定されたときには(S27のN)、この電子メールは正規メールとして扱われる(S28)。
更新部124は、電子メールについての判定結果に応じて、適合度情報における各単語のスパム単語確率を再計算する(S30)。
図5は、図3のS14における単語削除判定処理の内容を詳細に示すフローチャートである。
単語削除部128は、新規登録単語について、その登録後に取得された電子メール数rが第1閾値R以上となっている単語が存在するか、すなわち、第3削除条件が成立している単語が存在するかを判定する(S34)。存在しなければ(S34のN)、S14の処理はそのまま終了する。存在すれば(S34のY)、単語削除部128は、その単語wが登録された後に取得されたr通の電子メール群において、単語wの出現頻度が所定の閾値よりも小さいか、すなわち、第2削除条件が成立しているかを判定する(S36)。第2削除条件が成立していれば(S36のY)、単語削除部128は当該単語wを適合度情報から削除する(S40)。一方、成立していなければ(S36のN)、単語削除部128は第2削除条件について判定する(S38)。成立していれば(S38のY)、単語削除部128は当該単語wを適合度情報から削除する(S40)。成立していなければ(S38のN)、S14の処理は終了する。
以上、実施例に基づいて本発明を説明した。
本実施例に示した電子メール評価装置100によれば、ベイジアンフィルタ方式によってスパムメール確率を求めるときに、その判定の元となる適合度情報のデータ量の肥大化を効果的に抑制できる。
迷惑メールの中には、ベイジアンフィルタを攪乱するために無意味に単語を羅列するタイプのものもある。ベイジアンフィルタに基づく従来の電子メールフィルタリング法の場合、このようなタイプの迷惑メールが受信されると、適合度情報に含まれる単語数が飛躍的に増大してしまう。適合度情報の肥大化は、適合度情報の更新処理に伴う負荷も増大させる。
これに対し、本実施例における電子メール評価装置100は、適合度情報として登録される単語を適宜削除することにより、適合度情報のデータ量が無制限に増大しないように処置している。スパムメール確率を計算する上で有用な単語を残しつつ、それほど有用でない単語を排除していくため、適合度情報のデータ量の肥大化を抑制しつつも、適否の判定基準の変化や、迷惑メールのタイプの変化に対応できる。このように、電子メール評価装置100は単語学習機能によって発生し得る不具合を、効果的に解決することができる。
本実施例においては、ベイジアンフィルタの特にPaul Graham方式を前提として説明したが、これに限らず、単語ごとの適切さをベースとした分類方法等に広く応用可能である。本実施例においては、単語と適合度から正規メールと迷惑メールに電子メールを分類する態様を示した。このほか、データの分類方法に際しては、単語に限らず、さまざまな属性ごとの適切さをベースとした分類方法も考えられる。たとえば、文書データを分類する場合、属性としてその文書データ中における単語の出現頻度や作者、作成日時などが利用できる。また、画像データを分類する場合、属性として色の頻度や明度の頻度などが利用できる。
なお、請求項に記載の閾値入力部の機能は、本実施例においてはユーザインタフェース処理部110によって実現される。
これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
本実施例においては、第1削除条件(s/r)<Tにおいて、sとは、r通の電子メールのうち、判定対象となる単語wが出現している電子メールの数であるとして説明した。そのため、s≦rの関係が成立している。
これに対し、別例として、sとは、r通の電子メール中に含まれる単語wの数としてもよい。この場合、sはrよりも大きくなり得る。それに対応して、第2閾値Tの取り得る範囲も、1以上、たとえば、1000のような数値に設定されてもよい。
また、本実施例のほかにも、以下の式で全ての属性の重要度を算出し、重要度の上位n個にあたる属性のみを残すという変形例も考えられる。
まず、
重要度(属性)=f(属性の出現頻度)×g(属性の判定寄与度)
f:任意の単調増加関数
g:任意の単調増加関数
として重要度を定義する。
上記に基づき、単語ごとの重要度を特定するための式として、以下の様な式を定義する。
重要度(w)=√{Max(n/N,m/M)}×abs(p-0.5)
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
p:単語wのスパム単語確率(0.5から遠い方が判定寄与度が高い)
ここで、「Max(n/N,m/M)」は、変数n/Nとm/Mのうちのいずれか大きい方を選択する関数である。また、「abs(p-0.5)」は、p-0.5の絶対値を示す。この変形例に示す方法の場合、単語の重要度を加味して、削減すべき単語を選択できる。たとえば、削除条件が成立した単語であっても、その重要度が所定の閾値よりも大きいときには削除対象としないとしてもよい。高い単語は削除対象となりにくく、低い単語は削除対象となりやすいように設定することにより、いっそう効率的に適合度情報のデータ量を削減できる。
電子メール評価装置とメールブラウザの関係を示す模式図である。 電子メール評価装置の機能ブロック図である。 電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。 図3のS12におけるメール評価処理の内容を詳細に示すフローチャートである。 図3のS14における単語削除判定処理の内容を詳細に示すフローチャートである。
符号の説明
80 クライアント端末、 90 メールブラウザ、 100 電子メール評価装置、 110 ユーザインタフェース処理部、 112 メール取得部、 114 メール転送部、 116 データ処理部、 118 データ格納部、 120 適合度情報処理部、 122 メール評価部、 124 更新部、 126 単語登録部、 128 単語削除部、 130 計数部、 132 閾値設定部、 134 単語抽出部、 136 適合判定部、 138 適合度情報保持部。

Claims (8)

  1. 外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、
    評価対象となるべき電子メールを取得するメール取得部と、
    電子メールに含まれる単語を抽出する単語抽出部と、
    前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
    判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、
    電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する単語登録部と、
    前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する単語削除部と、
    を備えることを特徴とする電子メール評価装置。
  2. 前記適合度更新部は、ベイジアンフィルタ法(Bayesian Filtering)に基づいて、前記電子メールに含まれる各単語についての適合度を再計算することを特徴とする請求項1に記載の電子メール評価装置。
  3. 前記単語削除部は、前記新規登録された単語について前記適合度更新部により算出された適合度が所定範囲内にあるときには、前記新規登録された単語を前記適合度情報から除外することを特徴とする請求項1または2に記載の電子メール評価装置。
  4. 前記単語削除部は、適合度が取り得る範囲の中央値を含む所定範囲に前記新規登録された単語の適合度が含まれるとき、前記新規登録された単語を前記適合度情報から除外することを特徴とする請求項3に記載の電子メール評価装置。
  5. 前記単語削除部は、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メールの数が所定数を超えたことを条件として、前記新規登録された単語を前記適合度情報からの除外対象とすることを特徴とする請求項1から4のいずれかに記載の電子メール評価装置。
  6. 前記閾値を設定するためのユーザによる指示入力を検出する閾値入力部と、
    指示入力により指定された値を前記閾値として設定する閾値設定部と、
    を更に備えることを特徴とする請求項1から5のいずれかに記載の電子メール評価装置。
  7. 評価対象となるべき電子メールを取得するステップと、
    電子メールに含まれる単語を抽出するステップと、
    単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
    判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、
    電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録するステップと、
    前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外するステップと、
    を備えることを特徴とする電子メール評価方法。
  8. 外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
    評価対象となるべき電子メールを取得する機能と、
    電子メールに含まれる単語を抽出する機能と、
    前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する機能と、
    判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する機能と、
    電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する機能と、
    前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する機能と、
    をコンピュータに発揮させることを特徴とする電子メール評価プログラム。
JP2005309803A 2005-10-25 2005-10-25 電子メール評価装置および電子メール評価方法 Expired - Fee Related JP4878468B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005309803A JP4878468B2 (ja) 2005-10-25 2005-10-25 電子メール評価装置および電子メール評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005309803A JP4878468B2 (ja) 2005-10-25 2005-10-25 電子メール評価装置および電子メール評価方法

Publications (2)

Publication Number Publication Date
JP2007122145A true JP2007122145A (ja) 2007-05-17
JP4878468B2 JP4878468B2 (ja) 2012-02-15

Family

ID=38145962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005309803A Expired - Fee Related JP4878468B2 (ja) 2005-10-25 2005-10-25 電子メール評価装置および電子メール評価方法

Country Status (1)

Country Link
JP (1) JP4878468B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140437A (ja) * 2007-12-10 2009-06-25 Just Syst Corp フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JPH08314929A (ja) * 1995-05-19 1996-11-29 Mitsubishi Electric Res Lab Inc スペリング訂正装置
JP2002092006A (ja) * 2000-07-21 2002-03-29 Ford Motor Co テーマに基く文書分類システム
JP2003188921A (ja) * 2001-12-14 2003-07-04 Hitachi Kokusai Electric Inc 電子メール転送装置
JP2004206307A (ja) * 2002-12-24 2004-07-22 Internatl Business Mach Corp <Ibm> 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体
JP2005084788A (ja) * 2003-09-05 2005-03-31 Toshiba Corp プログラム及び辞書登録装置並びに方法
JP2005189955A (ja) * 2003-12-24 2005-07-14 Canon Inc 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2005210455A (ja) * 2004-01-23 2005-08-04 Css:Kk 電子メール中継装置
JP2007511813A (ja) * 2003-10-03 2007-05-10 コルビゴ, エル.エル.シー. ダイナミック・メッセージ・フィルタリング

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JPH08314929A (ja) * 1995-05-19 1996-11-29 Mitsubishi Electric Res Lab Inc スペリング訂正装置
JP2002092006A (ja) * 2000-07-21 2002-03-29 Ford Motor Co テーマに基く文書分類システム
JP2003188921A (ja) * 2001-12-14 2003-07-04 Hitachi Kokusai Electric Inc 電子メール転送装置
JP2004206307A (ja) * 2002-12-24 2004-07-22 Internatl Business Mach Corp <Ibm> 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体
JP2005084788A (ja) * 2003-09-05 2005-03-31 Toshiba Corp プログラム及び辞書登録装置並びに方法
JP2007511813A (ja) * 2003-10-03 2007-05-10 コルビゴ, エル.エル.シー. ダイナミック・メッセージ・フィルタリング
JP2005189955A (ja) * 2003-12-24 2005-07-14 Canon Inc 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2005210455A (ja) * 2004-01-23 2005-08-04 Css:Kk 電子メール中継装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140437A (ja) * 2007-12-10 2009-06-25 Just Syst Corp フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置

Also Published As

Publication number Publication date
JP4878468B2 (ja) 2012-02-15

Similar Documents

Publication Publication Date Title
US8095547B2 (en) Method and apparatus for detecting spam user created content
US7930351B2 (en) Identifying undesired email messages having attachments
US7949718B2 (en) Phonetic filtering of undesired email messages
US7831111B2 (en) Method and mechanism for retrieving images
US9032031B2 (en) Apparatus, method and computer program product for processing email, and apparatus for searching email
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
JP5053211B2 (ja) 自動推論検出によるインバウンド・コンテンツのフィルタリング
US20120143858A1 (en) Method And Means For Data Searching And Language Translation
JP2003296365A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
WO2014178906A1 (en) Hydration and dehydration with placeholders
CN113692597A (zh) 电子邮件内容修改系统
CN112860929A (zh) 一种图片搜索方法、装置、电子设备及存储介质
JP4297345B2 (ja) マスメイル検出方式およびメイルサーバ
US20070098257A1 (en) Method and mechanism for analyzing the color of a digital image
JP4878468B2 (ja) 電子メール評価装置および電子メール評価方法
JP2003067304A (ja) 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
US20070208731A1 (en) Document information processing apparatus, method of document information processing, computer readable medium and computer data signal
RU2583713C2 (ru) Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
JP2006285299A (ja) 能力フィルタ型コンテンツ推薦装置および方法ならびにプログラム
JPWO2020202327A1 (ja) 学習システム、学習方法、及びプログラム
JP4688630B2 (ja) 電子メール分類装置および電子メール分類方法
JP6267830B2 (ja) 画像処理を応用した文書構造解析装置
JP4746083B2 (ja) 宛先正否判定システム
CN111381191B (zh) 一种对文本进行同义修改、确定文本创作者的方法
JP2010237916A (ja) コンテンツ検索装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees