JP2007122146A - Electronic mail evaluation device and electronic mail evaluation method - Google Patents

Electronic mail evaluation device and electronic mail evaluation method Download PDF

Info

Publication number
JP2007122146A
JP2007122146A JP2005309804A JP2005309804A JP2007122146A JP 2007122146 A JP2007122146 A JP 2007122146A JP 2005309804 A JP2005309804 A JP 2005309804A JP 2005309804 A JP2005309804 A JP 2005309804A JP 2007122146 A JP2007122146 A JP 2007122146A
Authority
JP
Japan
Prior art keywords
mail
email
fitness
user
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005309804A
Other languages
Japanese (ja)
Inventor
Takashi Nakagawa
尚 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2005309804A priority Critical patent/JP2007122146A/en
Publication of JP2007122146A publication Critical patent/JP2007122146A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve the convenience of a user by efficiently filtering electronic mail. <P>SOLUTION: An electronic mail evaluation device 100 determines whether or not electronic mail has a suitable content based on words included in the electronic mail. In this case, the suitability of each word is registered in a database called suitability information, and the propriety of the electronic mail is determined as the overall evaluation of the suitability of each word. The determination result of the electronic mail is reflected on the suitability information. In the evaluating the electronic mail, when the sender of the electronic mail is a normal user, it is determined that the electronic mail is suitable electronic mail. Also, when the sender is an unauthorized user, it is determined that the electronic mail is unsuitable electronic mail. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、文書ファイルの内容を評価するための技術に関し、特に、電子メールの内容の適否を判定するための技術に関する。   The present invention relates to a technique for evaluating the contents of a document file, and more particularly to a technique for determining the suitability of the contents of an electronic mail.

近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。電子メールもそのひとつであるが、電子メールの多くはスパムメールなどとよばれる迷惑メールであるといわれている。   In recent years, with the spread of computers and the advancement of network technology, the exchange of electronic information via the network has become popular. E-mail is one of them, but most of e-mail is said to be spam mail called spam mail.

このような状況に対応して、電子メールの内容の適否を自然言語処理により判定し、迷惑メールを自動的に排除するための技術が開発されている。
その一例として、電子メールに含まれる単語ごとの適切さを判定することにより、電子メールが迷惑メールに該当するか否かを総合評価する方法がある。たとえば、100通の電子メールのうち、70通が迷惑メールであり、残りの30通が通常の電子メール(以下、「正規メール」とよぶ)であったとする。ここで、ある単語Aが迷惑メール70通のうちの60通、正規メール30通のうちの3通から検出されたとする。この場合、単語Aは、迷惑メールに現れやすい単語であるから、単語Aが含まれている電子メールは迷惑メールである可能性が高いともいえる。このような観点から、単語ごとの適切さ、または不適切さを指標化してデータベース化し、新たに受信された電子メールに含まれている各単語からその電子メールが迷惑メールである可能性を総合評価する。また、評価結果は、データベースにフィードバックされる。
特開2003−18324号公報
In response to such a situation, a technique has been developed for determining the suitability of the contents of an electronic mail by natural language processing and automatically eliminating junk mail.
As an example, there is a method of comprehensively evaluating whether or not an e-mail corresponds to a junk e-mail by determining appropriateness of each word included in the e-mail. For example, out of 100 e-mails, 70 are junk mails and the remaining 30 are normal e-mails (hereinafter referred to as “regular mails”). Here, it is assumed that a word A is detected from 60 of 70 spam mails and 3 of 30 regular mails. In this case, since the word A is a word that easily appears in junk mail, it can be said that there is a high possibility that an e-mail containing the word A is a junk mail. From this point of view, the appropriateness or inappropriateness of each word is indexed into a database, and the possibility that the e-mail is spam from all the words included in the newly received e-mail is comprehensive. evaluate. The evaluation result is fed back to the database.
JP 2003-18324 A

このような方法によって電子メールの内容の適否を正確に評価するためには、データベースの充実が重要である。多くの電子メールが受信されるほど、単語ごとの評価も定まってくる。また、評価対象となる単語数も増加する。その反面、評価対象となる単語数が少ない初期段階においては、データベースが充実していないため、迷惑メールの検出精度が低くなる。したがって、初期段階においては、受信した電子メールごとに正規メールであるか迷惑メールであるかをユーザがシステムに学習させることによりデータベースの充実化を図る必要がある。   In order to accurately evaluate the suitability of e-mail content by such a method, it is important to enhance the database. The more emails you receive, the more word-by-word ratings will be. In addition, the number of words to be evaluated increases. On the other hand, in the initial stage where the number of words to be evaluated is small, the database is not enriched, so the accuracy of detecting junk mail is low. Therefore, in the initial stage, it is necessary to enhance the database by allowing the system to learn whether the received e-mail is a regular mail or a junk mail for each received e-mail.

このような課題に対処するために、最初から複数の単語についての評価を定めたデータベースを用意しておくという方法が考えられる。この初期設定されたデータベースに基づいて電子メール評価処理を実行しつつ、その評価結果に応じてデータベースをいっそう充実化させていく。しかし、迷惑メールであるか正規メールであるかは、そもそも受け手のユーザによって判断基準が異なる。したがって、単語ごとの適切さまたは不適切さをあらかじめ指標化したデータベースを用意するという方法は、必ずしも有効な解決策とは限らない。   In order to deal with such a problem, a method of preparing a database in which evaluations about a plurality of words are prepared from the beginning can be considered. While executing the e-mail evaluation process based on the initially set database, the database is further enriched according to the evaluation result. However, whether or not it is a spam mail or a regular mail has a different judgment criterion depending on the user in the first place. Therefore, the method of preparing a database in which the appropriateness or inappropriateness of each word is indexed in advance is not always an effective solution.

本発明はこうした状況に鑑みてなされたものであり、その主たる目的は、データベースを参照して電子メールの内容を評価するシステムにおいてユーザの利便性を高めるための技術を提供することにある。   The present invention has been made in view of such circumstances, and a main object of the present invention is to provide a technique for improving user convenience in a system that evaluates the contents of an e-mail with reference to a database.

本発明のある態様は電子メール評価装置である。
この装置は、外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、評価対象となるべき電子メールを取得するメール取得部と、電子メールに含まれる単語を抽出する単語抽出部と、適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、適合度情報を更新する適合度更新部と、を備える。
適合判定部は、正規ユーザの電子メールアドレスがあらかじめ登録された正規アドレステーブルを参照し、取得された電子メールの送信元アドレスが正規ユーザの電子メールアドレスとして登録されていれば、その電子メールは適切な内容であると判定する。
One embodiment of the present invention is an electronic mail evaluation apparatus.
In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, the degree-of-fit information holds the degree of relevance obtained by indexing the appropriateness of each word as the degree-of-fit information. A holding unit, a mail acquisition unit that acquires an e-mail to be evaluated, a word extraction unit that extracts a word included in the e-mail, and a fitness of each word included in the e-mail with reference to the fitness information And a suitability determination unit that determines whether or not the e-mail has appropriate content based on the degree of suitability thereof, and determination of the suitability for each word included in the e-mail to be judged with respect to the e-mail A fitness level update unit that updates the fitness level information by performing recalculation according to the result.
The conformity determination unit refers to the regular address table in which the email address of the authorized user is registered in advance, and if the transmission source address of the obtained email is registered as the email address of the authorized user, the email is Determine that the content is appropriate.

あるいは、適合判定部は、不当ユーザの電子メールアドレスがあらかじめ登録された不当アドレステーブルを参照して、取得された電子メールの送信元アドレスが不当ユーザの電子メールアドレスとして登録されていれば、その電子メールは不適切な内容であると判定してもよい。   Alternatively, the conformity determination unit refers to an unauthorized address table in which the email address of the unauthorized user is registered in advance, and if the source address of the acquired email is registered as the email address of the unauthorized user, The e-mail may be determined to be inappropriate content.

本発明の別の態様もまた、電子メール評価装置である。
この装置は、外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、評価対象となるべき電子メールを取得するメール取得部と、電子メールに含まれる単語を抽出する単語抽出部と、適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、適合度情報を更新する適合度更新部と、を備える。
メール取得部は、ユーザが外部装置に対して送信する電子メールも取得し、適合度更新部は、ユーザから送信される電子メールが適切な内容であるとして、その電子メールに含まれる各単語についての適合度を再計算することにより適合度情報を更新する。
Another aspect of the present invention is also an electronic mail evaluation apparatus.
In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, the degree-of-fit information holds the degree of relevance obtained by indexing the appropriateness of each word as the degree-of-fit information. A holding unit, a mail acquisition unit that acquires an e-mail to be evaluated, a word extraction unit that extracts a word included in the e-mail, and a fitness of each word included in the e-mail with reference to the fitness information And a suitability determination unit that determines whether or not the e-mail has appropriate content based on the degree of suitability thereof, and determination of the suitability for each word included in the e-mail to be judged with respect to the e-mail A fitness level update unit that updates the fitness level information by performing recalculation according to the result.
The mail acquisition unit also acquires an e-mail that the user transmits to the external device, and the fitness update unit determines that the e-mail transmitted from the user has an appropriate content for each word included in the e-mail. The fitness information is updated by recalculating the fitness of.

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.

本発明によれば、データベースを参照して電子メールの内容を評価するシステムにおいてユーザの利便性を高めることができる。   ADVANTAGE OF THE INVENTION According to this invention, a user's convenience can be improved in the system which evaluates the content of an email with reference to a database.

図1は、電子メール評価装置とメールブラウザの関係を示す模式図である。
クライアント端末80は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器である。このクライアント端末80には、メールの送受信や閲覧のためのメールブラウザ90がインストールされている。本実施例においては、クライアント端末80が受信した電子メールは、まず電子メール評価装置100によって評価される。電子メール評価装置100は、電子メールが迷惑メールでなければメールブラウザ90に転送し、迷惑メールであればメールブラウザ90には転送しない。すなわち、電子メール評価装置100は電子メールのフィルタとしての機能を果たす。
FIG. 1 is a schematic diagram showing the relationship between an electronic mail evaluation apparatus and a mail browser.
The client terminal 80 is an information device such as a personal computer or a portable terminal used by the user. The client terminal 80 is installed with a mail browser 90 for mail transmission / reception and browsing. In this embodiment, the email received by the client terminal 80 is first evaluated by the email evaluation device 100. The e-mail evaluation apparatus 100 transfers the e-mail to the mail browser 90 if the e-mail is not junk mail, and does not transfer it to the mail browser 90 if the e-mail is junk mail. In other words, the e-mail evaluation apparatus 100 functions as an e-mail filter.

本実施例の電子メール評価装置100は、ベイジアンフィルタ法に基づいて電子メールの内容を評価し、電子メールが迷惑メールであるか否かを判定する。
その判定原理について説明する。
仮に、迷惑メール100通と、正規メール100通の計200通が取得された状態にあるとする。ここで「懸賞」という単語がこの迷惑メール群では98回、正規メール群では2回現れたとする。この場合、「懸賞」という単語が含まれる電子メールは迷惑メールである確率が高い。電子メール評価装置100は、単語ごとに「その単語が含まれている電子メールが迷惑メールである可能性の高さ」を「スパム単語確率」として指標化する。
The e-mail evaluation apparatus 100 according to the present embodiment evaluates the content of the e-mail based on the Bayesian filter method, and determines whether the e-mail is a junk mail.
The determination principle will be described.
Suppose that a total of 200 spam mails and 100 regular mails have been acquired. Here, it is assumed that the word “sweep award” appears 98 times in this spam mail group and twice in the regular mail group. In this case, it is highly probable that an e-mail containing the word “price” will be a spam mail. For each word, the e-mail evaluation apparatus 100 indexes “the probability that an e-mail containing the word is a junk mail” as a “spam word probability”.

広く知られているPaul Graham方式の場合、ある単語wのスパム単語確率P(w)は、
P(w)=(m/M)/(2×n/N+m/M)
という式によって定義される。
ここで、
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
である。
さきほどの「懸賞」という単語のスパム確率をPaul Graham方式によって計算すると、m=98、M=100、n=2、N=100であることから、
P(「懸賞」)=(98/100)/(2×2/100+98/100)
により、約96%として計算される。
電子メール評価装置100は、これらの200通の電子メールに含まれる単語それぞれについてのスパム単語確率をデータベース化する。本実施例においては、このようなデータベースのことを、「適合度情報」とよぶ。
In the case of the well-known Paul Graham method, the spam word probability P (w) of a word w is
P (w) = (m / M) / (2 × n / N + m / M)
Is defined by the expression
here,
m: Number of times the word w appeared in the spam mail group M: Total number of spam mails n: Number of times the word w appeared in the regular mail group N: Total number of regular mails
When calculating the spam probability of the word “price” just before using the Paul Graham method, m = 98, M = 100, n = 2, N = 100.
P (“Stakes Prize”) = (98/100) / (2 × 2/100 + 98/100)
Is calculated as about 96%.
The e-mail evaluation apparatus 100 creates a database of spam word probabilities for each word included in these 200 e-mails. In this embodiment, such a database is referred to as “fitness information”.

この適合度情報において、「懸賞:96%」、「冷凍:30%」、「うどん:5%」というスパム単語確率が設定されていたとする。
以上の初期設定がなされた後において、電子メール評価装置100は、「私は、懸賞によく応募します。こないだ冷凍うどんを当てました。」という内容の電子メールを新たに受信したとする。
この電子メールが迷惑メールである確率(以下、「スパムメール確率」とよぶ)は、(0.96×0.3×0.05)/{(0.96×0.3×0.05)+(1−0.96)×(1−0.3)×(1−0.05)}=35%として算出される。
電子メール評価装置100は、スパムメール確率が90%以上となる電子メールを迷惑メールとして判定する。また、このときには、迷惑メール数の合計が101通となるため、それにあわせて電子メール中の各単語のスパム単語確率も再計算される。すなわち、m、Mがそれぞれ変更された上でP(w)が再計算されることになる。
一方、90%未満であれば、電子メール評価装置100はその電子メールを一応迷惑メールではないとして、メールブラウザ90に転送する。メールブラウザ90のユーザは、転送された電子メールが確かに正規メールであるか、それともやはり迷惑メールであるかを判定する。その判定結果は電子メール評価装置100にフィードバックされる。この判定結果を反映して、電子メール評価装置100は適合度情報を更新する。正規メールである場合、n、Nがそれぞれ変更された上でP(w)が再計算される。電子メール評価装置100は、電子メールを受信するごとに適合度情報を更新、充実させていくことになる。このようにして、正規メールや迷惑メールに現れる単語の評価が定まっていく。
なお、ユーザは、電子メール評価装置100における各種判定条件を変更することもできる。
It is assumed that spam word probabilities of “prayer: 96%”, “frozen: 30%”, and “udon: 5%” are set in the fitness information.
It is assumed that after the above initial settings are made, the e-mail evaluation apparatus 100 newly receives an e-mail with the content “I often apply for sweepstakes.
The probability that this e-mail is spam (hereinafter referred to as “spam mail probability”) is (0.96 × 0.3 × 0.05) / {(0.96 × 0.3 × 0.05). It is calculated as + (1−0.96) × (1−0.3) × (1−0.05)} = 35%.
The e-mail evaluation apparatus 100 determines an e-mail having a spam e-mail probability of 90% or more as a junk e-mail. At this time, since the total number of spam mails is 101, the spam word probability of each word in the electronic mail is recalculated accordingly. That is, P (w) is recalculated after m and M are changed.
On the other hand, if it is less than 90%, the e-mail evaluation apparatus 100 transfers the e-mail to the mail browser 90 as not being a spam mail. The user of the mail browser 90 determines whether the transferred electronic mail is indeed a regular mail or is also a junk mail. The determination result is fed back to the electronic mail evaluation apparatus 100. Reflecting this determination result, the e-mail evaluation apparatus 100 updates the fitness information. If it is a regular mail, P (w) is recalculated after changing n and N respectively. The e-mail evaluation apparatus 100 updates and enhances the fitness information every time an e-mail is received. In this way, the evaluation of words appearing in regular mail and spam mail is determined.
Note that the user can also change various determination conditions in the e-mail evaluation apparatus 100.

本実施例における電子メール評価装置100は、正規ユーザと不当ユーザの電子メールアドレスを登録したリスト(以下、「ユーザリスト」とよぶ)を保持している。電子メール評価装置100のユーザはこのユーザリストを自由に更新できる。
正規ユーザから送信された電子メールはスパムメール確率の計算に基づくことなく、一律に正規メールであると判定される。たとえば、親しい友人から送信される電子メールは、迷惑メールではないと考えられるので、この友人は正規ユーザとしてユーザリストに登録されてもよい。正規ユーザから送信された電子メールに含まれている各単語について、n、Nが変更された上でスパム単語確率が再計算される。
正規ユーザは、メールブラウザ90のアドレス帳に登録されているユーザであるとしてもよい。この場合、ユーザは明示的に正規ユーザをユーザリストに登録する作業すら不要になるため、いっそうユーザインタフェースを簡略化できる。
The e-mail evaluation apparatus 100 in the present embodiment holds a list (hereinafter referred to as “user list”) in which e-mail addresses of authorized users and unauthorized users are registered. The user of the e-mail evaluation apparatus 100 can freely update this user list.
The e-mail transmitted from the legitimate user is uniformly determined to be the legitimate mail without being based on the calculation of the spam mail probability. For example, since an e-mail transmitted from a close friend is not considered a junk mail, the friend may be registered in the user list as a regular user. For each word included in the e-mail sent from the authorized user, the spam word probability is recalculated after changing n and N.
The regular user may be a user registered in the address book of the mail browser 90. In this case, since the user does not even need to explicitly register the regular user in the user list, the user interface can be further simplified.

一方、不当ユーザから送信された電子メールはスパムメール確率の計算に基づくことなく、一律に迷惑メールであると判定される。たとえば、過去に迷惑メールを送信した経歴のある業者が不当ユーザとして登録されてもよい。不当ユーザから送信された電子メールに含まれている各単語について、m、Mが変更された上でスパム単語確率が再計算される。
このような処理方法によれば、ユーザリストに基づいて自動的に適合度情報を充実させていくことができる。
On the other hand, an electronic mail transmitted from an unauthorized user is uniformly determined to be a spam mail without being based on the calculation of the spam mail probability. For example, a trader with a history of sending spam mails in the past may be registered as an unauthorized user. For each word included in the e-mail sent from the unauthorized user, the spam word probability is recalculated after m and M are changed.
According to such a processing method, the fitness level information can be automatically enriched based on the user list.

また、正規ユーザや不当ユーザのように類型化されたユーザからの電子メールに対しては、スパムメール確率の計算を実行しないため電子メール評価装置100の処理負荷を抑制する効果もある。   In addition, since the spam mail probability is not calculated for an email from a typified user such as a regular user or an unauthorized user, the processing load of the email evaluation apparatus 100 can be reduced.

図2は、電子メール評価装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。本実施例においては、電子メール評価装置100は、クライアント端末80にインストールされるアプリケーションソフトウェアによってその機能が発揮されるものとして説明する。
また、ここでは、主として各ブロックの発揮すべき機能について、その具体的な作用については、図3以降に関連して説明する。
FIG. 2 is a functional block diagram of the electronic mail evaluation apparatus.
Each block shown here can be realized in hardware by an element such as a CPU of a computer or a mechanical device, and in software it is realized by a computer program or the like. Draw functional blocks. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by a combination of hardware and software. In the present embodiment, the e-mail evaluation apparatus 100 will be described assuming that the function is exhibited by application software installed in the client terminal 80.
In addition, here, the functions that should be exhibited by each block will be described with reference to FIG.

電子メール評価装置100は、ユーザインタフェース処理部110、メール取得部112、メール転送部114、データ処理部116およびデータ格納部118を含む。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。メール取得部112は、図示しない外部のメールサーバから電子メールを取得する。メール転送部114は、外部装置から取得した電子メールのうちデータ処理部116において一応迷惑メールではないと判定した電子メールをメールブラウザ90に転送する。
The e-mail evaluation apparatus 100 includes a user interface processing unit 110, a mail acquisition unit 112, a mail transfer unit 114, a data processing unit 116, and a data storage unit 118.
The user interface processing unit 110 is in charge of processing related to the entire user interface such as input processing from the user and information display for the user. The mail acquisition unit 112 acquires an e-mail from an external mail server (not shown). The mail transfer unit 114 transfers, to the mail browser 90, an e-mail that is determined not to be a junk mail by the data processing unit 116 among e-mails acquired from the external device.

なお、メール取得部112は、メールブラウザ90から外部に送信される電子メールも取得し、データ処理部116はこのような電子メールについても処理対象とする。以下、外部装置からクライアント端末80に送信される電子メールのことを「受信メール」、クライアント端末80から外部装置に送信される電子メールのことを「送信メール」とよぶ。メール取得部112により取得された送信メールは、データ処理部116により後述の処理対象とされた後、メール転送部114によってメールサーバに送出される。   The mail acquisition unit 112 also acquires an e-mail transmitted from the mail browser 90 to the outside, and the data processing unit 116 sets such an e-mail as a processing target. Hereinafter, an e-mail transmitted from the external device to the client terminal 80 is referred to as “received mail”, and an e-mail transmitted from the client terminal 80 to the external device is referred to as “transmitted mail”. The outgoing mail acquired by the mail acquisition unit 112 is processed by the data processing unit 116 and then sent to the mail server by the mail transfer unit 114.

データ処理部116は、ユーザインタフェース処理部110やメール取得部112から取得されたデータを元にして各種のデータ処理を実行する。データ処理部116は、ユーザインタフェース処理部110、メール取得部112、メール転送部114およびデータ格納部118の間のインタフェースの役割も果たす。
データ格納部118は、あらかじめ用意された各種の設定データや、データ処理部116から受け取ったデータを格納する。
The data processing unit 116 executes various types of data processing based on data acquired from the user interface processing unit 110 and the mail acquisition unit 112. The data processing unit 116 also serves as an interface among the user interface processing unit 110, the mail acquisition unit 112, the mail transfer unit 114, and the data storage unit 118.
The data storage unit 118 stores various setting data prepared in advance and data received from the data processing unit 116.

データ格納部118は、適合度情報保持部136とユーザリスト保持部138を含む。適合度情報保持部136は、単語とそのスパム単語確率を対応づけた適合度情報を保持する。ユーザリスト保持部138はユーザリストを保持する。ユーザリストは、正規ユーザの電子メールアドレスと、不当ユーザの電子メールアドレスのリストである。ユーザは、ユーザインタフェース処理部110を介してこのユーザリストの内容を任意に変更できる。   The data storage unit 118 includes a fitness information holding unit 136 and a user list holding unit 138. The goodness-of-fit information holding unit 136 holds goodness-of-fit information in which a word is associated with its spam word probability. The user list holding unit 138 holds a user list. The user list is a list of e-mail addresses of authorized users and e-mail addresses of unauthorized users. The user can arbitrarily change the contents of the user list via the user interface processing unit 110.

データ処理部116は、適合度情報処理部120、ユーザリスト更新部122およびメール評価部124を含む。
メール評価部124は、メール取得部112が電子メールを取得したときに、その電子メールのスパムメール確率を計算することにより、電子メールの適否を判定する。適合度情報処理部120は、その判定結果に応じて適合度情報保持部136における適合度情報を更新する。ユーザリスト更新部122は、電子メールに対するユーザの操作に応じてユーザリストを更新する。ユーザリストの更新については後述する。
The data processing unit 116 includes a fitness information processing unit 120, a user list update unit 122, and a mail evaluation unit 124.
When the mail acquisition unit 112 acquires an email, the mail evaluation unit 124 determines whether the email is appropriate by calculating the spam mail probability of the email. The fitness information processing unit 120 updates the fitness information in the fitness information holding unit 136 according to the determination result. The user list update unit 122 updates the user list according to the user's operation on the e-mail. The update of the user list will be described later.

メール評価部124は、単語抽出部132と適合判定部134を含む。
単語抽出部132は、電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語群、バイトストリームであってもよく、必ずしも文構成の最小単位としての「単語」に限る必要はない。適合判定部134は、抽出された単語のスパム単語確率を適合度情報保持部136から読み出して、スパムメール確率を算出する。既に述べたように、適合判定部134は、スパムメール確率が90%未満であれば、その電子メールをメール転送部114からメールブラウザ90に転送させ、90%以上であれば転送させない。なお、適合判定部134は、スパムメール確率の算出に先立って、ユーザリストを参照し、受信メールの送信元のアドレスが登録されていれば、その登録内容に応じて電子メールの適否を判定する。
The mail evaluation unit 124 includes a word extraction unit 132 and a match determination unit 134.
The word extraction unit 132 extracts words included in the e-mail. The word here may be a word group or a byte stream, and is not necessarily limited to a “word” as a minimum unit of sentence structure. The suitability determination unit 134 reads the spam word probability of the extracted word from the suitability information holding unit 136 and calculates the spam mail probability. As already described, the conformity determination unit 134 transfers the e-mail from the mail transfer unit 114 to the mail browser 90 if the spam mail probability is less than 90%, and does not transfer it if it is 90% or more. Prior to calculating the spam mail probability, the suitability determining unit 134 refers to the user list, and if the address of the source of the received mail is registered, the suitability determining section 134 determines the suitability of the email according to the registered content. .

正規メールとは、
(1)正規ユーザからの受信メールかスパムメール確率が90%未満の受信メールであり、かつ、
(2)クライアント端末80においてユーザによって適切と判定された電子メール
である。また、
(3)送信メールは、一律に正規メールとして扱われる。
What is regular email?
(1) A received mail from a legitimate user or a received mail with a spam mail probability of less than 90%, and
(2) An e-mail that is determined to be appropriate by the user at the client terminal 80. Also,
(3) The outgoing mail is treated as regular mail uniformly.

一方、迷惑メールとは、
(1)不当ユーザからの受信メールかスパムメール確率が90%以上の受信メール、または、
(2)スパムメール確率は90%未満の受信メールでありながらユーザによって不適と判定された電子メール
である。
On the other hand, spam is
(1) Incoming mail from unauthorized users or received mail with a spam mail probability of 90% or more, or
(2) The spam mail probability is an e-mail judged to be unsuitable by the user although it is a received mail of less than 90%.

このように、電子メールの適否は、電子メール評価装置100のメール評価部124とメールブラウザ90のユーザの双方または一方によって判定される。
なお、電子メールの判定基準となる90%という数値は、ユーザインタフェース処理部110を介してユーザは任意に変更できる。
As described above, whether or not the e-mail is appropriate is determined by both or one of the mail evaluation unit 124 of the e-mail evaluation apparatus 100 and the user of the mail browser 90.
Note that the user can arbitrarily change the numerical value of 90%, which is an e-mail determination criterion, via the user interface processing unit 110.

適合度情報処理部120は、更新部126と単語登録部128を含む。
更新部126は、適合度情報を更新する。すなわち、新たな電子メールについての判定結果に応じて、適合度情報に含まれる各単語のスパム単語確率をPaul Grahamの式にしたがって再計算する。単語登録部128は、電子メールに含まれる単語のうち、適合度情報に未登録の単語があれば、新たにこれを適合度情報に新規登録する。以降において、この新規登録単語についてのスパム単語確率の計算が開始される。
次に、電子メール評価装置100が新たに電子メールを受信したときの処理過程を説明する。
The fitness information processing unit 120 includes an update unit 126 and a word registration unit 128.
The update unit 126 updates the fitness information. That is, the spam word probability of each word included in the fitness information is recalculated according to Paul Graham's formula according to the determination result for the new e-mail. If there is an unregistered word in the fitness information among the words included in the email, the word registration unit 128 newly registers this in the fitness information. Thereafter, the calculation of the spam word probability for the newly registered word is started.
Next, a process when the e-mail evaluation apparatus 100 newly receives an e-mail will be described.

図3は、電子メール取得時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
まず、メール取得部112は電子メールを取得する(S10)。この電子メールが送信メールであれば(S12のY)、適合度情報を更新するための送信メール判定処理が実行される(S14)。その後、送信メールはメール転送部114により外部のメールサーバに送出される(S18)。一方、取得した電子メールが受信メールであれば(S12のN)、電子メールの適否を判定して適合度情報を更新するための受信メール処理が実行される(S16)。
S14およびS16の処理内容については後に詳述する。
FIG. 3 is a flowchart showing the basic processing steps of the e-mail evaluation apparatus at the time of e-mail acquisition.
First, the mail acquisition unit 112 acquires an e-mail (S10). If this electronic mail is a transmission mail (Y in S12), a transmission mail determination process for updating the fitness information is executed (S14). Thereafter, the outgoing mail is sent to an external mail server by the mail transfer unit 114 (S18). On the other hand, if the acquired e-mail is a received mail (N in S12), a received mail process for determining the suitability of the e-mail and updating the fitness information is executed (S16).
The processing contents of S14 and S16 will be described in detail later.

図4は、図3のS14における送信メール判定処理を詳細に示すフローチャートである。
単語抽出部132は、送信メールに含まれている単語を抽出する(S20)。この中で、適合度情報に登録されていない単語があれば(S22のY)、単語登録部128は新たにこの未登録単語を適合度情報に登録する(S24)。未登録単語がなければ(S22のN)、S24の処理はスキップされる。
FIG. 4 is a flowchart showing in detail the outgoing mail determination process in S14 of FIG.
The word extraction unit 132 extracts words included in the transmitted mail (S20). Among these, if there is a word that is not registered in the fitness information (Y in S22), the word registration unit 128 newly registers this unregistered word in the fitness information (S24). If there is no unregistered word (N in S22), the process in S24 is skipped.

更新部126は、送信メールが正規メールであるとして、その送信メールに含まれる各単語のスパム単語確率を再計算する(S26)。これにより、適合度情報が更新される。ユーザリスト更新部122は、ユーザリストを更新するためのユーザリスト更新処理を実行する(S28)。   The update unit 126 recalculates the spam word probability of each word included in the transmitted mail, assuming that the transmitted mail is a regular mail (S26). Thereby, the fitness information is updated. The user list update unit 122 executes a user list update process for updating the user list (S28).

図5は、図4のS28におけるユーザリスト更新処理を詳細に示すフローチャートである。
ユーザリスト更新部122は、送信メールが受信メールに対する返信として送信される電子メールであれば(S30のY)、その送信メールの宛先人、すなわち、もともとの受信メールの差出人を正規ユーザとして登録する(S36)。クライアント端末80のユーザが電子メールを受信して、その電子メールに対して返信をする場合、その返信先は不当ユーザではないと考えられるので、このようなユーザを自動的に正規ユーザとして登録している。なお、返信先のユーザが不当ユーザとしてユーザリストに既に登録されているときには、ユーザによる返信をもってそのユーザを不当ユーザから外してもよい。
FIG. 5 is a flowchart showing in detail the user list update process in S28 of FIG.
If the outgoing mail is an email sent as a reply to the received mail (Y in S30), the user list updating unit 122 registers the addressee of the outgoing mail, that is, the sender of the original received mail as a regular user. (S36). When the user of the client terminal 80 receives an e-mail and replies to the e-mail, it is considered that the reply destination is not an unauthorized user, so such a user is automatically registered as a regular user. ing. When the reply destination user is already registered in the user list as an unauthorized user, the user may be removed from the unauthorized user by a reply from the user.

ユーザリスト更新部122は、宛先人ごとに電子メールの送信回数を管理している。S30において、送信メールが返信メールでなければ(S30のN)、ユーザリスト更新部122はその送信メールの宛先人に対する送信回数をカウントアップする(S32)。この送信回数が所定の閾値S、たとえば、5回を超えると(S34のY)、宛先人を正規ユーザとして登録する(S36)。頻繁に宛先人とされているユーザは不当ユーザではないと考えられるので、このようなユーザを自動的に正規ユーザとして登録している。一方、閾値S以下であれば(S34のN)、S28の処理は終了する。   The user list update unit 122 manages the number of email transmissions for each addressee. In S30, if the transmitted mail is not a reply mail (N in S30), the user list updating unit 122 counts up the number of transmissions of the transmitted mail to the addressee (S32). When the number of transmissions exceeds a predetermined threshold S, for example, 5 (Y in S34), the addressee is registered as a regular user (S36). Since a user who is frequently regarded as a destination is considered not to be an unauthorized user, such a user is automatically registered as a regular user. On the other hand, if it is equal to or less than the threshold value S (N of S34), the process of S28 is terminated.

変形例として、たとえば、S30においては、所定回数以上返信した宛先人であることを条件として、その宛先人を正規ユーザとして登録してもよい。また、S34において、過去1ヶ月という所定期間における送信回数が閾値Sを超えることを条件として、その宛先人を正規ユーザとして登録してもよい。   As a modification, for example, in S30, the addressee may be registered as a regular user on the condition that the addressee has replied a predetermined number of times or more. In S34, the destination person may be registered as a regular user on condition that the number of transmissions in a predetermined period of the past month exceeds the threshold S.

図6は、図3のS16における受信メール判定処理を詳細に示すフローチャートである。
適合判定部134は、肯定フラグと否定フラグという2種類のフラグを管理している。肯定フラグは、評価対象となる電子メールが正規メールであることを示し、否定フラグは迷惑メールであることを示す。適合判定部134は、受信メールの適否を判定する前に、まず、この各フラグをリセットする(S40)。受信メールの差出人が正規ユーザであれば(S42のY)、適合判定部134は肯定フラグをオンする(S44)。一方、受信メールの差出人が不当ユーザであれば(S42のN、S46のY)、適合判定部134は否定フラグをオンする(S48)。差出人が正規ユーザでも不当ユーザでもなければ(S42のN、S46のN)、いずれのフラグもオンされない。
このあと、受信メールの適合評価のための適合評価処理が実行される(S50)。
FIG. 6 is a flowchart showing in detail the received mail determination process in S16 of FIG.
The conformity determination unit 134 manages two types of flags, an affirmative flag and a negative flag. The affirmative flag indicates that the e-mail to be evaluated is a regular mail, and the negative flag indicates that it is a spam mail. The conformity determination unit 134 first resets each flag before determining the suitability of the received mail (S40). If the sender of the received mail is a regular user (Y in S42), the conformity determination unit 134 turns on the positive flag (S44). On the other hand, if the sender of the received mail is an unauthorized user (N in S42, Y in S46), the conformity determination unit 134 turns on a negative flag (S48). If the sender is neither an authorized user nor an unauthorized user (N in S42, N in S46), neither flag is turned on.
Thereafter, conformity evaluation processing for conformity evaluation of the received mail is executed (S50).

図7は、図6のS50における適合評価処理を詳細に示すフローチャートである。
単語抽出部132は、受信メールに含まれている単語を抽出する(S60)。この中で、適合度情報に登録されていない単語があれば(S62のY)、単語登録部128は新たにこの未登録単語を適合度情報に登録する(S64)。未登録単語がなければ(S62のN)、S64の処理はスキップされる。
FIG. 7 is a flowchart showing in detail the conformity evaluation process in S50 of FIG.
The word extraction unit 132 extracts words included in the received mail (S60). If there is a word that is not registered in the fitness information (Y in S62), the word registration unit 128 newly registers the unregistered word in the fitness information (S64). If there is no unregistered word (N of S62), the process of S64 is skipped.

肯定フラグがオンされていれば(S66のY)、処理はS74にスキップする。否定フラグがオンされていれば(S66のN、S68のY)、処理はS80にスキップする。肯定フラグも否定フラグもオンされていなければ(S66のN、S68のN)、適合判定部134は、受信メールから抽出された単語についてのスパム単語確率からスパムメール確率を計算する(S70)。   If the affirmative flag is turned on (Y in S66), the process skips to S74. If the negative flag is on (N in S66, Y in S68), the process skips to S80. If neither the positive flag nor the negative flag is turned on (N in S66, N in S68), the matching determination unit 134 calculates the spam mail probability from the spam word probability for the word extracted from the received mail (S70).

スパムメール確率が、所定の閾値以上であれば(S72のN)、適合判定部134はその電子メールを迷惑メールと判定する(S80)。なお、本実施例においては、この閾値は90%として設定されるが、ユーザからの設定入力により変更可能である。一方、スパムメール確率がこの閾値未満であれば(S72のY)、適合判定部134は、一応、正規メールと仮判定する。メール転送部114はメールブラウザ90に受信メールを転送する(S74)。ユーザによって、転送した受信メールが正規メールであると判定されたときには(S76のY)、このメールは正規メールとして扱われる(S78)。ユーザによって、転送した受信メールが迷惑メールであると判定されたときには(S76のN)、この電子メールは迷惑メールとして扱われる(S80)。
更新部126は、受信メールについての判定結果に応じて、適合度情報における各単語のスパム単語確率を再計算する(S82)。
If the spam mail probability is equal to or higher than a predetermined threshold (N in S72), the conformity determination unit 134 determines that the electronic mail is a spam mail (S80). In this embodiment, the threshold is set as 90%, but can be changed by a setting input from the user. On the other hand, if the spam mail probability is less than this threshold (Y in S72), the conformity determination unit 134 temporarily determines that the mail is a regular mail. The mail transfer unit 114 transfers the received mail to the mail browser 90 (S74). When it is determined by the user that the forwarded received mail is a regular mail (Y in S76), this mail is treated as a regular mail (S78). When it is determined by the user that the transferred received mail is spam mail (N in S76), the electronic mail is treated as spam mail (S80).
The updating unit 126 recalculates the spam word probability of each word in the fitness information according to the determination result on the received mail (S82).

以上、実施例に基づいて本発明を説明した。
本実施例に示した電子メール評価装置100によれば、ベイジアンフィルタ方式によってスパムメール確率を求めるときに、その判定の元となる適合度情報を効率的に充実させることができる。
The present invention has been described above based on the embodiments.
According to the electronic mail evaluation apparatus 100 shown in the present embodiment, when the spam mail probability is obtained by the Bayesian filter method, the fitness information that is the basis of the determination can be efficiently enhanced.

ユーザリストによって電子メールをその差出人に応じて類型化することにより、適合度情報が充実していないときにも電子メール評価装置100がフィルタリング機能を発揮することができる。また、正規ユーザや不当ユーザからの電子メールに対してはスパムメール確率を計算しないため、電子メール評価装置100の処理負荷を抑制する効果もある。そのため、適合度情報が充実した後にも本実施例に示す方法は有効に機能する。また、ユーザの送信操作に応じてユーザリストを自動的に更新することにより、ユーザリストを充実させることができるため、いっそう利便性が高められる。特に、正規ユーザをアドレス帳に登録されているユーザであるとすれば、ユーザはユーザリストの存在すら意識する必要がなくなる。   By classifying the e-mail according to the sender by the user list, the e-mail evaluation apparatus 100 can exhibit the filtering function even when the fitness information is not substantial. Moreover, since the spam mail probability is not calculated for the electronic mail from the legitimate user or the unauthorized user, there is an effect of suppressing the processing load of the electronic mail evaluation apparatus 100. For this reason, the method shown in this embodiment functions effectively even after the fitness information is enriched. Moreover, since the user list can be enriched by automatically updating the user list in accordance with the user's transmission operation, the convenience is further enhanced. In particular, if the regular user is a user registered in the address book, the user does not need to be aware of the existence of the user list.

更に、ユーザが外部に送信する送信メールはユーザの意思を反映した正規なメールであるから、このような送信メールも利用することにより、いっそう早期に適合度情報を充実させることができる。このように本実施例に示す電子メール評価装置100によれば、電子メールフィルタリングにおけるユーザの利便性をいっそう高めることができる。
本実施例においては、ベイジアンフィルタの特にPaul Graham方式を前提として説明したが、これに限らず、単語ごとの適切さをベースとした文書内容評価に広く応用可能である。
Furthermore, since the outgoing mail transmitted to the outside by the user is a regular mail reflecting the user's intention, the suitability information can be enriched even earlier by using such outgoing mail. Thus, according to the e-mail evaluation apparatus 100 shown in the present embodiment, the convenience of the user in e-mail filtering can be further enhanced.
In this embodiment, the description has been made on the premise of the Bayesian filter, particularly the Paul Graham method. However, the present invention is not limited to this, and the present invention can be widely applied to document content evaluation based on appropriateness for each word.

請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。   It should also be understood by those skilled in the art that the functions to be fulfilled by the constituent elements described in the claims are realized by the individual functional blocks shown in the present embodiment or their linkage.

以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

たとえば、本実施例においては、ユーザの送信操作に応じて正規ユーザを自動的にユーザリストに登録する態様について説明した。変形例として、受信メールに応じて不当ユーザを更新してもよい。たとえば、単位時間当たりにおいて同一の差出人による受信メールが所定数を超えるときには、その差出人を不当ユーザとしてユーザリストに登録してもよい。このように、ユーザの適否に基づくユーザリストと単語の適否に基づく適合度情報を連携させることにより、より利便性が高く精緻な電子メールフィルタリングを実現することができる。   For example, in the present embodiment, a mode has been described in which a regular user is automatically registered in the user list in response to a user's transmission operation. As a modification, an unauthorized user may be updated according to the received mail. For example, when the number of received mails by the same sender per unit time exceeds a predetermined number, the sender may be registered in the user list as an unauthorized user. Thus, by linking the user list based on the suitability of the user and the fitness information based on the suitability of the word, it is possible to realize more convenient and precise e-mail filtering.

電子メール評価装置とメールブラウザの関係を示す模式図である。It is a schematic diagram which shows the relationship between an electronic mail evaluation apparatus and a mail browser. 電子メール評価装置の機能ブロック図である。It is a functional block diagram of an electronic mail evaluation apparatus. 電子メール取得時における電子メール評価装置の基本的な処理過程を示すフローチャートである。It is a flowchart which shows the basic process of the email evaluation apparatus at the time of email acquisition. 図3のS14における送信メール判定処理を詳細に示すフローチャートである。It is a flowchart which shows the transmission mail determination process in S14 of FIG. 3 in detail. 図4のS28におけるユーザリスト更新処理を詳細に示すフローチャートである。It is a flowchart which shows the user list update process in S28 of FIG. 4 in detail. 図3のS16における受信メール判定処理を詳細に示すフローチャートである。It is a flowchart which shows the received mail determination process in S16 of FIG. 3 in detail. 図6のS50における適合評価処理を詳細に示すフローチャートである。It is a flowchart which shows the conformity evaluation process in S50 of FIG. 6 in detail.

符号の説明Explanation of symbols

80 クライアント端末、 90 メールブラウザ、 100 電子メール評価装置、 110 ユーザインタフェース処理部、 112 メール取得部、 114 メール転送部、 116 データ処理部、 118 データ格納部、 120 適合度情報処理部、 122 ユーザリスト更新部、 124 メール評価部、 126 更新部、 128 単語登録部、 132 単語抽出部、 134 適合判定部、 136 適合度情報保持部、 138 ユーザリスト保持部。   80 client terminal, 90 mail browser, 100 e-mail evaluation device, 110 user interface processing unit, 112 mail acquisition unit, 114 mail transfer unit, 116 data processing unit, 118 data storage unit, 120 fitness information processing unit, 122 user list An update unit, a 124 mail evaluation unit, a 126 update unit, a 128 word registration unit, a 132 word extraction unit, a 134 suitability determination unit, a 136 suitability information holding unit, and a 138 user list holding unit.

Claims (13)

外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、
評価対象となるべき電子メールを取得するメール取得部と、
電子メールに含まれる単語を抽出する単語抽出部と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、を備え、
前記適合判定部は、正規ユーザの電子メールアドレスがあらかじめ登録された正規アドレステーブルを参照し、取得された電子メールの送信元アドレスが正規ユーザの電子メールアドレスとして登録されていれば、その電子メールは適切な内容であると判定することを特徴とする電子メール評価装置。
In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, a fitness information holding unit that holds the fitness that indexes the appropriateness of each word as fitness information,
An email acquisition unit for acquiring emails to be evaluated;
A word extractor for extracting words contained in the email;
A fitness determination unit that detects the fitness of each word included in the e-mail with reference to the fitness information, and determines whether the e-mail has appropriate content from the fitness; and
A relevance level update unit that updates the relevance level information by recalculating the relevance level for each word included in the e-mail to be determined according to the determination result for the e-mail,
The conformity determination unit refers to a regular address table in which the email address of the authorized user is registered in advance, and if the transmission source address of the obtained email is registered as the email address of the authorized user, the email An e-mail evaluation apparatus characterized by determining that the content is appropriate.
前記適合判定部は、前記正規アドレステーブルとして電子メールソフトに付属するアドレス帳(address book)を参照し、取得された電子メールの送信元アドレスが前記アドレス帳に登録されていれば、その電子メールは適切な内容であると判定することを特徴とする請求項1に記載の電子メール評価装置。   The conformity determination unit refers to an address book attached to an e-mail software as the regular address table, and if the source address of the acquired e-mail is registered in the address book, the e-mail The e-mail evaluation apparatus according to claim 1, wherein it is determined that the content is appropriate. 外部装置から送信された電子メールに対して受け手のユーザが返信したときには、前記外部装置から送信された電子メールの差出人を正規ユーザとして前記正規アドレステーブルに登録する正規アドレステーブル更新部を更に備えることを特徴とする請求項1または2に記載の電子メール評価装置。   And a regular address table updating unit for registering the sender of the email transmitted from the external device as a regular user in the regular address table when the recipient user replies to the email transmitted from the external device. The electronic mail evaluation apparatus according to claim 1, wherein the electronic mail evaluation apparatus is an electronic mail evaluation apparatus. 前記正規アドレステーブル更新部は、前記ユーザから所定の宛先人に対する電子メールの送信回数が所定回数を超えたことを条件として、前記所定の宛先人を正規ユーザとして前記正規アドレステーブルに登録することを特徴とする請求項3に記載の電子メール評価装置。   The regular address table updating unit registers the predetermined addressee as a regular user in the regular address table on the condition that the number of times of transmission of e-mail from the user to the predetermined addressee exceeds a predetermined number of times. 4. The e-mail evaluation apparatus according to claim 3, wherein 外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、
評価対象となるべき電子メールを取得するメール取得部と、
電子メールに含まれる単語を抽出する単語抽出部と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、を備え、
前記メール取得部は、前記ユーザが外部装置に対して送信する電子メールも取得し、
前記適合度更新部は、前記ユーザから送信される電子メールが適切な内容であるとして、その電子メールに含まれる各単語についての適合度を再計算することにより前記適合度情報を更新することを特徴とする電子メール評価装置。
In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, a fitness information holding unit that holds the fitness that indexes the appropriateness of each word as fitness information,
An email acquisition unit for acquiring emails to be evaluated;
A word extractor for extracting words contained in the email;
A fitness determination unit that detects the fitness of each word included in the e-mail with reference to the fitness information, and determines whether the e-mail has appropriate content from the fitness; and
A relevance level update unit that updates the relevance level information by recalculating the relevance level for each word included in the e-mail to be determined according to the determination result for the e-mail,
The mail acquisition unit also acquires an email sent by the user to an external device,
The fitness level update unit updates the fitness level information by recalculating the fitness level for each word included in the email, assuming that the email sent from the user has appropriate content. A featured e-mail evaluation device.
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、
評価対象となるべき電子メールを取得するメール取得部と、
電子メールに含まれる単語を抽出する単語抽出部と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、を備え、
前記適合判定部は、不当ユーザの電子メールアドレスがあらかじめ登録された不当アドレステーブルを参照して、取得された電子メールの送信元アドレスが不当ユーザの電子メールアドレスとして登録されていれば、その電子メールは不適切な内容であると判定することを特徴とする電子メール評価装置。
In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, a fitness information holding unit that holds the fitness that indexes the appropriateness of each word as fitness information,
An email acquisition unit for acquiring emails to be evaluated;
A word extractor for extracting words contained in the email;
A fitness determination unit that detects the fitness of each word included in the e-mail with reference to the fitness information, and determines whether the e-mail has appropriate content from the fitness; and
A relevance level update unit that updates the relevance level information by recalculating the relevance level for each word included in the e-mail to be determined according to the determination result for the e-mail,
The conformity determination unit refers to an unauthorized address table in which an email address of an unauthorized user is registered in advance, and if the source address of the acquired email is registered as an email address of the unauthorized user, An e-mail evaluation device characterized in that e-mail is determined to be inappropriate content.
前記適合度更新部は、ベイジアンフィルタ法(Bayesian Filtering)に基づいて、取得された電子メールに含まれる各単語についての適合度を再計算することを特徴とする請求項1から6のいずれかに記載の電子メール評価装置。   The fitness level update unit recalculates the fitness level of each word included in the acquired e-mail based on a Bayesian filtering method. The e-mail evaluation device described. 外部装置から送信された電子メールを取得するステップと、
電子メールに含まれる単語を抽出するステップと、
単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、を備え、
電子メールの内容を判定するステップにおいては、正規ユーザの電子メールアドレスがあらかじめ登録された正規アドレステーブルを参照し、取得された電子メールの送信元アドレスが正規ユーザの電子メールアドレスとして登録されていれば、その電子メールは適切な内容であると判定することを特徴とする電子メール評価方法。
Obtaining an email sent from an external device;
Extracting words contained in the email;
Refers to the fitness information indicating the fitness that is indexed by the appropriateness of each word, detects the fitness of each word contained in the acquired email, and the email obtained from those fitness is appropriate Determining whether the content is correct,
Updating the fitness level information by recalculating the fitness level for each word included in the email to be determined according to the determination result for the email, and
In the step of determining the content of the e-mail, the e-mail address of the authorized user is referred to a previously-registered authorized address table, and the source address of the obtained e-mail is registered as the e-mail address of the authorized user. For example, the e-mail evaluation method includes determining that the e-mail has appropriate contents.
外部装置から送信された電子メールを取得するステップと、
電子メールに含まれる単語を抽出するステップと、
単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、
外部装置に対して送信される電子メールを取得するステップと、を備え、
前記適合度情報を更新するステップにおいては、外部装置に対して送信される電子メールが適切な内容のメールであるとして、その電子メールに含まれる各単語についての適合度を再計算することにより前記適合度情報を更新することを特徴とする電子メール評価方法。
Obtaining an email sent from an external device;
Extracting words contained in the email;
Refers to the fitness information indicating the fitness that is indexed by the appropriateness of each word, detects the fitness of each word contained in the acquired email, and the email obtained from those fitness is appropriate Determining whether the content is correct,
Updating the fitness level information by recalculating the fitness level for each word included in the email to be determined according to the determination result for the email; and
Obtaining an e-mail sent to an external device, and
In the step of updating the fitness information, the email transmitted to the external device is assumed to be an email with an appropriate content, and the fitness for each word included in the email is recalculated, thereby recalculating the fitness. An e-mail evaluation method characterized by updating fitness information.
外部装置から送信された電子メールを取得するステップと、
電子メールに含まれる単語を抽出するステップと、
単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、を備え、
電子メールの内容を判定するステップにおいては、不当ユーザの電子メールアドレスがあらかじめ登録された不当アドレステーブルを参照して、取得された電子メールの送信元アドレスが不当ユーザの電子メールアドレスとして登録されていれば、その電子メールは不適切な内容であると判定することを特徴とする電子メール評価方法。
Obtaining an email sent from an external device;
Extracting words contained in the email;
Refers to the fitness information indicating the fitness that is indexed by the appropriateness of each word, detects the fitness of each word contained in the acquired email, and the email obtained from those fitness is appropriate Determining whether the content is correct,
Updating the fitness level information by recalculating the fitness level for each word included in the email to be determined according to the determination result for the email, and
In the step of determining the contents of the e-mail, the sender address of the acquired e-mail is registered as the e-mail address of the illegitimate user with reference to the illegitimate address table in which the e-mail address of the illegitimate user is registered in advance. Then, the e-mail evaluation method is characterized in that the e-mail is determined to have inappropriate contents.
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
外部装置から送信された電子メールを取得する機能と、
電子メールに含まれる単語を抽出する機能と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する機能と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する機能と、
正規ユーザの電子メールアドレスがあらかじめ登録された正規アドレステーブルを参照し、取得された電子メールの送信元アドレスが正規ユーザの電子メールアドレスとして登録されていれば、その電子メールは適切な内容であると判定する機能と、
をコンピュータに発揮させることを特徴とする電子メール評価プログラム。
A function of holding a fitness indexed by the appropriateness of each word as fitness information in order to determine whether the email sent from the external device is appropriate for the recipient user;
The ability to retrieve emails sent from external devices;
The ability to extract words contained in emails;
A function of detecting the suitability of each word included in the e-mail with reference to the suitability information and determining whether or not the e-mail has appropriate content from the suitability;
A function of updating the fitness information by recalculating the fitness for each word included in the email to be judged according to the judgment result for the email;
If the sender address of the acquired email is registered as the email address of the authorized user by referring to the authorized address table in which the email address of the authorized user is registered in advance, the email has an appropriate content. A function for determining
E-mail evaluation program characterized by causing a computer to exhibit
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
外部装置から送信された電子メールを取得する機能と、
電子メールに含まれる単語を抽出する機能と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する機能と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する機能と、
前記ユーザが外部装置に対して送信する電子メールを取得する機能と、
前記ユーザから送信される電子メールが適切な内容であるとして、その電子メールに含まれる各単語についての適合度を再計算することにより前記適合度情報を更新する機能と、
をコンピュータに発揮させることを特徴とする電子メール評価プログラム。
A function of holding a fitness indexed by the appropriateness of each word as fitness information in order to determine whether the email sent from the external device is appropriate for the recipient user;
The ability to retrieve emails sent from external devices;
The ability to extract words contained in emails;
A function of detecting the suitability of each word included in the e-mail with reference to the suitability information and determining whether or not the e-mail has appropriate content from the suitability;
A function of updating the fitness information by recalculating the fitness for each word included in the email to be judged according to the judgment result for the email;
A function of obtaining an e-mail to be transmitted to the external device by the user;
A function of updating the fitness information by recalculating the fitness for each word included in the email, assuming that the email sent from the user has appropriate content;
E-mail evaluation program characterized by causing a computer to exhibit
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
外部装置から送信された電子メールを取得する機能と、
電子メールに含まれる単語を抽出する機能と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する機能と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する機能と、
不当ユーザの電子メールアドレスがあらかじめ登録された不当アドレステーブルを参照して、取得された電子メールの送信元アドレスが不当ユーザの電子メールアドレスとして登録されていれば、その電子メールは不適切な内容であると判定する機能と、
をコンピュータに発揮させることを特徴とする電子メール評価プログラム。
A function of holding a fitness indexed by the appropriateness of each word as fitness information in order to determine whether the email sent from the external device is appropriate for the recipient user;
The ability to retrieve emails sent from external devices;
The ability to extract words contained in emails;
A function of detecting the suitability of each word included in the e-mail with reference to the suitability information and determining whether or not the e-mail has appropriate content from the suitability;
A function of updating the fitness information by recalculating the fitness for each word included in the email to be judged according to the judgment result for the email;
If the sender address of the acquired email is registered as the email address of the unauthorized user by referring to the unauthorized address table in which the email address of the unauthorized user is registered in advance, the email is inappropriate. A function to determine that
E-mail evaluation program characterized by causing a computer to exhibit
JP2005309804A 2005-10-25 2005-10-25 Electronic mail evaluation device and electronic mail evaluation method Pending JP2007122146A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005309804A JP2007122146A (en) 2005-10-25 2005-10-25 Electronic mail evaluation device and electronic mail evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005309804A JP2007122146A (en) 2005-10-25 2005-10-25 Electronic mail evaluation device and electronic mail evaluation method

Publications (1)

Publication Number Publication Date
JP2007122146A true JP2007122146A (en) 2007-05-17

Family

ID=38145963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005309804A Pending JP2007122146A (en) 2005-10-25 2005-10-25 Electronic mail evaluation device and electronic mail evaluation method

Country Status (1)

Country Link
JP (1) JP2007122146A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140437A (en) * 2007-12-10 2009-06-25 Just Syst Corp Filtering processing method, filtering processing program, and filtering device
JP2009230333A (en) * 2008-03-21 2009-10-08 Fujitsu Ltd E-mail filter program and e-mail filter apparatus

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150512A (en) * 2001-11-13 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> E-mail distributing method, e-mail distributing system, mail server, mail sever program, user terminal and pre- inquiry program
JP2003218945A (en) * 2002-01-23 2003-07-31 Cybird Co Ltd Spam mail suppression system
JP2004206445A (en) * 2002-12-25 2004-07-22 Nippon Telegr & Teleph Corp <Ntt> Content providing method, and terminal, program, and recording medium for content user
JP2004259294A (en) * 2004-04-12 2004-09-16 Just Syst Corp Device, system and method for transmitting/receiving electronic mail, program for making computer execute method, and computer readable recording medium with its program recorded
JP2005032126A (en) * 2003-07-10 2005-02-03 Nippon Telegr & Teleph Corp <Ntt> Message transmission method, message server, receiver terminal, mediator terminal, message relay program, message receiving program, and message mediating program
JP2005235206A (en) * 2004-02-13 2005-09-02 Microsoft Corp Intelligent quarantining for spam prevention

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150512A (en) * 2001-11-13 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> E-mail distributing method, e-mail distributing system, mail server, mail sever program, user terminal and pre- inquiry program
JP2003218945A (en) * 2002-01-23 2003-07-31 Cybird Co Ltd Spam mail suppression system
JP2004206445A (en) * 2002-12-25 2004-07-22 Nippon Telegr & Teleph Corp <Ntt> Content providing method, and terminal, program, and recording medium for content user
JP2005032126A (en) * 2003-07-10 2005-02-03 Nippon Telegr & Teleph Corp <Ntt> Message transmission method, message server, receiver terminal, mediator terminal, message relay program, message receiving program, and message mediating program
JP2005235206A (en) * 2004-02-13 2005-09-02 Microsoft Corp Intelligent quarantining for spam prevention
JP2004259294A (en) * 2004-04-12 2004-09-16 Just Syst Corp Device, system and method for transmitting/receiving electronic mail, program for making computer execute method, and computer readable recording medium with its program recorded

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140437A (en) * 2007-12-10 2009-06-25 Just Syst Corp Filtering processing method, filtering processing program, and filtering device
JP2009230333A (en) * 2008-03-21 2009-10-08 Fujitsu Ltd E-mail filter program and e-mail filter apparatus

Similar Documents

Publication Publication Date Title
US7930351B2 (en) Identifying undesired email messages having attachments
US7949718B2 (en) Phonetic filtering of undesired email messages
JP4708466B2 (en) Method for interfering with sending or receiving unwanted electronic messages
US8874663B2 (en) Comparing similarity between documents for filtering unwanted documents
US9021028B2 (en) Systems and methods for spam filtering
JP4598774B2 (en) Method and apparatus for filtering email spam based on similarity measures
US8090781B2 (en) Communication terminal, and destination-address right/wrong determining method and program thereof
US20090240669A1 (en) Method of managing locations of information and information location management device
WO2015032124A1 (en) E-mail classification method and device thereof
US11010687B2 (en) Detecting abusive language using character N-gram features
JP6149110B2 (en) Information providing apparatus, information providing method, and program
JP4500285B2 (en) Spam removal method
WO2004111745A2 (en) System and method for knock notification to an unsolicited message
JP2003067304A (en) Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it
JP2007122146A (en) Electronic mail evaluation device and electronic mail evaluation method
US20130275384A1 (en) System, method, and computer program product for determining whether an electronic mail message is unwanted based on processing images associated with a link in the electronic mail message
CN105022821B (en) Content filtering method and terminal
JP2004240945A (en) Automatic shutoff method of spam mail through dynamic url connection
RU2583713C2 (en) System and method of eliminating shingles from insignificant parts of messages when filtering spam
JP4746083B2 (en) Address correctness determination system
KR100459379B1 (en) Method for producing basic data for determining whether or not each electronic document is similar and System therefor
JP4878468B2 (en) E-mail evaluation apparatus and e-mail evaluation method
JP2007122148A (en) Electronic mail sorting device and electronic mail sorting method
JP4688629B2 (en) Electronic message classification device and electronic message classification method
JP2004070664A (en) Sorting filter updating method, sorting filter updating system, sorting filter updating program, and recording medium recorded with program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120403