JP4878468B2 - E-mail evaluation apparatus and e-mail evaluation method - Google Patents
E-mail evaluation apparatus and e-mail evaluation method Download PDFInfo
- Publication number
- JP4878468B2 JP4878468B2 JP2005309803A JP2005309803A JP4878468B2 JP 4878468 B2 JP4878468 B2 JP 4878468B2 JP 2005309803 A JP2005309803 A JP 2005309803A JP 2005309803 A JP2005309803 A JP 2005309803A JP 4878468 B2 JP4878468 B2 JP 4878468B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- fitness
- threshold
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、文書ファイルの内容を評価するための技術に関し、特に、電子メールの内容の適否を判定するための技術に関する。 The present invention relates to a technique for evaluating the contents of a document file, and more particularly to a technique for determining the suitability of the contents of an electronic mail.
近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。電子メールもそのひとつであるが、電子メールの多くはスパムメールなどとよばれる迷惑メールであるといわれている。 In recent years, with the spread of computers and the advancement of network technology, the exchange of electronic information via the network has become popular. E-mail is one of them, but most e-mails are said to be spam mails called spam mails.
このような状況に対応して、電子メールの内容の適否を自然言語処理により判定し、迷惑メールを自動的に排除するための技術が開発されている。
その一例として、電子メールに含まれる単語ごとの適切さを判定することにより、電子メールが迷惑メールに該当するかを総合評価する方法がある。たとえば、100通の電子メールのうち、70通が迷惑メールであり、残りの30通が通常の電子メール(以下、「正規メール」とよぶ)であったとする。ここで、ある単語Aが迷惑メール70通のうちの60通、正規メール30通のうちの3通から検出されたとする。この場合、単語Aは、迷惑メールに現れやすい単語であるから、単語Aが含まれている電子メールは迷惑メールである可能性が高いともいえる。このような観点から、単語ごとの適切さまたは不適切さを指標化してデータベース化し、新たに受信された電子メールに含まれている各単語からその電子メールが迷惑メールである可能性を総合評価する。
As an example, there is a method of comprehensively evaluating whether an e-mail corresponds to a junk e-mail by determining appropriateness of each word included in the e-mail. For example, out of 100 e-mails, 70 are junk mails and the remaining 30 are normal e-mails (hereinafter referred to as “regular mails”). Here, it is assumed that a word A is detected from 60 of 70 spam mails and 3 of 30 regular mails. In this case, since the word A is a word that easily appears in junk mail, it can be said that there is a high possibility that an e-mail containing the word A is a junk mail. From this point of view, the appropriateness or inappropriateness of each word is indexed into a database, and a comprehensive evaluation of the possibility that the email is spam from each word contained in the newly received email To do.
このような方法によって電子メールの内容の適否を正確に評価するためには、データベースの充実が重要である。多くの電子メールが受信されるほど、単語ごとの評価も定まってくる。また、評価対象となる単語数も増加する。その反面、評価対象となる単語数の増加はデータベースの肥大化を招く。特に、無意味な単語が羅列されるタイプの迷惑メールが受信されると、データベースに登録される単語数が一気に増加してしまう。 In order to accurately evaluate the suitability of e-mail content by such a method, it is important to enhance the database. The more emails you receive, the more word-by-word ratings will be. In addition, the number of words to be evaluated increases. On the other hand, an increase in the number of words to be evaluated leads to an enlargement of the database. In particular, when a junk mail of a type in which meaningless words are listed is received, the number of words registered in the database increases at a stretch.
本発明はこうした状況に鑑みてなされたものであり、その主たる目的は、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制するための技術を提供することにある。 The present invention has been made in view of such circumstances, and a main object thereof is to provide a technique for efficiently suppressing the enlargement of a database used for evaluating the contents of an electronic mail.
本発明のある態様は、電子メール評価装置である。
この装置は、外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する適合度情報保持部と、評価対象となるべき電子メールを取得するメール取得部と、電子メールに含まれる単語を抽出する単語抽出部と、適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、適合度情報を更新する適合度更新部と、電子メールから適合度情報に登録されていない単語が抽出されたとき、その単語を適合度情報に新規登録する単語登録部と、新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において新規登録された単語の出現頻度が所定の閾値より小さいとき、新規登録された単語を適合度情報から除外する単語削除部と、を備える。
One embodiment of the present invention is an electronic mail evaluation apparatus.
In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, the degree-of-fit information holds the degree of relevance obtained by indexing the appropriateness of each word as the degree-of-fit information. A holding unit, a mail acquisition unit that acquires an e-mail to be evaluated, a word extraction unit that extracts a word included in the e-mail, and a fitness of each word included in the e-mail with reference to the fitness information And a suitability determination unit that determines whether or not the e-mail has appropriate content based on the degree of suitability thereof, and determination of the suitability for each word included in the e-mail to be judged with respect to the e-mail The relevance level update unit that updates the relevance level information by recalculating according to the result, and when a word that is not registered in the relevance level information is extracted from the e-mail, the relevance level information When the appearance frequency of a newly registered word is smaller than a predetermined threshold in a group of newly registered words and an email group further acquired after acquiring an email containing the newly registered word, the newly registered word A word deletion unit excluded from the fitness information.
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, and the like are also effective as an aspect of the present invention.
本発明によれば、電子メールの内容を評価するために用いるデータベースの肥大化を効率的に抑制することができる。 ADVANTAGE OF THE INVENTION According to this invention, the enlargement of the database used in order to evaluate the content of an email can be suppressed efficiently.
図1は、電子メール評価装置とメールブラウザの関係を示す模式図である。
クライアント端末80は、ユーザが使用するパーソナルコンピュータや携帯端末などの情報機器である。このクライアント端末80には、メールの送受信や閲覧のためのメールブラウザ90がインストールされている。本実施例においては、クライアント端末80が受信した電子メールは、まず電子メール評価装置100によって評価される。電子メール評価装置100は、電子メールが迷惑メールでなければメールブラウザ90に転送し、迷惑メールであればメールブラウザ90には転送しない。すなわち、電子メール評価装置100は電子メールのフィルタとしての機能を果たす。
FIG. 1 is a schematic diagram showing the relationship between an electronic mail evaluation apparatus and a mail browser.
The
本実施例の電子メール評価装置100は、ベイジアンフィルタ法に基づいて電子メールの内容を評価し、電子メールが迷惑メールであるか否かを判定する。
その判定原理について説明する。
一例として、迷惑メールのサンプル100通と、正規メールのサンプル100通をあらかじめ用意されているとする。ここで「懸賞」という単語がこの迷惑メール群では98回、正規メール群では2回現れたとする。この場合、「懸賞」という単語が含まれる電子メールは迷惑メールである確率が高い。電子メール評価装置100は、単語ごとに「その単語が含まれている電子メールが迷惑メールである可能性の高さ」を「スパム単語確率」として指標化する。
The
The determination principle will be described.
As an example, it is assumed that 100 spam mail samples and 100 regular mail samples are prepared in advance. Here, it is assumed that the word “sweep award” appears 98 times in this spam mail group and twice in the regular mail group. In this case, it is highly probable that an e-mail containing the word “price” will be a spam mail. For each word, the
広く知られているPaul Graham方式の場合、ある単語wのスパム単語確率P(w)は、
P(w)=(m/M)/(2×n/N+m/M)
という式によって定義される。
ここで、
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
である。
さきほどの「懸賞」という単語のスパム確率をPaul Graham方式によって計算すると、m=98、M=100、n=2、N=100であることから、
P(「懸賞」)=(98/100)/(2×2/100+98/100)
により、約96%として計算される。
電子メール評価装置100は、これらの200通の電子メールに含まれる単語それぞれについてのスパム単語確率をデータベース化する。本実施例においては、このようなデータベースのことを、「適合度情報」とよぶ。
In the case of the well-known Paul Graham method, the spam word probability P (w) of a word w is
P (w) = (m / M) / (2 × n / N + m / M)
Is defined by the expression
here,
m: Number of times the word w appeared in the spam mail group M: Total number of spam mails n: Number of times the word w appeared in the regular mail group N: Total number of regular mails
When calculating the spam probability of the word “price” just before using the Paul Graham method, m = 98, M = 100, n = 2, N = 100.
P (“Stakes Prize”) = (98/100) / (2 × 2/100 + 98/100)
Is calculated as about 96%.
The
この適合度情報において、「懸賞:96%」、「冷凍:30%」、「うどん:5%」というスパム単語確率が設定されていたとする。
以上の初期設定がなされた後において、電子メール評価装置100は、「私は、懸賞によく応募します。こないだ冷凍うどんを当てました。」という内容の電子メールを新たに受信したとする。
この電子メールが迷惑メールである確率(以下、「スパムメール確率」とよぶ)は、(0.96×0.3×0.05)/{(0.96×0.3×0.05)+(1−0.96)×(1−0.3)×(1−0.05)}=35%として算出される。
電子メール評価装置100は、スパムメール確率が90%以上となる電子メールを迷惑メールとして判定する。また、このときには、迷惑メール数の合計が101通となるため、それにあわせて適合度情報における各単語のスパム単語確率も再計算される。
一方、90%未満であれば、電子メール評価装置100はその電子メールを一応迷惑メールではないとして、メールブラウザ90に転送する。メールブラウザ90のユーザは、転送された電子メールが確かに正規メールであるか、それともやはり迷惑メールであるかを判定する。その判定結果は電子メール評価装置100にフィードバックされる。この判定結果を反映して、電子メール評価装置100は適合度情報を更新する。電子メール評価装置100は、電子メールを受信するごとに適合度情報を更新、充実させていくことになる。
なお、ユーザは、電子メール評価装置100における各種判定条件を変更することもできる。これについては後述する。
It is assumed that spam word probabilities of “prayer: 96%”, “frozen: 30%”, and “udon: 5%” are set in the fitness information.
It is assumed that after the above initial settings are made, the
The probability that this e-mail is spam (hereinafter referred to as “spam mail probability”) is (0.96 × 0.3 × 0.05) / {(0.96 × 0.3 × 0.05). It is calculated as + (1−0.96) × (1−0.3) × (1−0.05)} = 35%.
The
On the other hand, if it is less than 90%, the
Note that the user can also change various determination conditions in the
図2は、電子メール評価装置の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。本実施例においては、電子メール評価装置100は、クライアント端末80にインストールされるアプリケーションソフトウェアによってその機能が発揮されるものとして説明する。
また、ここでは、主として各ブロックの発揮すべき機能について、その具体的な作用については、図3以降に関連して説明する。
FIG. 2 is a functional block diagram of the electronic mail evaluation apparatus.
Each block shown here can be realized in hardware by an element such as a CPU of a computer or a mechanical device, and in software it is realized by a computer program or the like. Draw functional blocks. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by a combination of hardware and software. In the present embodiment, the
In addition, here, the functions that should be exhibited by each block will be described with reference to FIG.
電子メール評価装置100は、ユーザインタフェース処理部110、メール取得部112、メール転送部114、データ処理部116およびデータ格納部118を含む。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。メール取得部112は、図示しない外部のメールサーバから電子メールを取得する。メール転送部114は、取得した電子メールのうちデータ処理部116において一応迷惑メールではないと判定した電子メールをメールブラウザ90に転送する。
The
The user
データ処理部116は、ユーザインタフェース処理部110やメール取得部112から取得されたデータを元にして各種のデータ処理を実行する。データ処理部116は、ユーザインタフェース処理部110、メール取得部112、メール転送部114およびデータ格納部118の間のインタフェースの役割も果たす。
データ格納部118は、あらかじめ用意された各種の設定データや、データ処理部116から受け取ったデータを格納する。
The
The
データ格納部118は、適合度情報保持部138を含む。適合度情報保持部138は、単語とそのスパム単語確率を対応づけた適合度情報を保持する。
The
データ処理部116は、適合度情報処理部120とメール評価部122を含む。
メール評価部122は、メール取得部112が電子メールを取得したときに、その電子メールのスパムメール確率を計算することにより、電子メールの適否を判定する。適合度情報処理部120は、その判定結果に応じて適合度情報保持部138における適合度情報を更新する。
The
When the
メール評価部122は、単語抽出部134と適合判定部136を含む。
単語抽出部134は、電子メールに含まれる単語を抽出する。なお、ここでいう単語とは、単語群、バイトストリームであってもよく、必ずしも文構成の最小単位としての「単語」に限る必要はない。適合判定部136は、抽出された単語のスパム単語確率を適合度情報保持部138から読み出して、スパムメール確率を算出する。既に述べたように、適合判定部136は、スパムメール確率が90%未満であれば、その電子メールをメール転送部114からメールブラウザ90に転送させ、90%以上であれば転送しない。
正規メールとは、スパムメール確率が90%未満であり、かつ、クライアント端末80においてユーザによって適切と判定された電子メールである。迷惑メールとは、スパムメール確率が90%以上、または、スパムメール確率は90%未満でありながらクライアント端末80においてユーザによって不適と判定された電子メールである。このように、電子メールの適否は、電子メール評価装置100のメール評価部122とメールブラウザ90のユーザの双方または一方によって判定される。
なお、電子メールの判定基準となる90%という数値は、ユーザインタフェース処理部110を介してユーザは任意に変更できる。
The
The
The regular mail is an electronic mail having a spam mail probability of less than 90% and determined to be appropriate by the user at the
Note that the user can arbitrarily change the numerical value of 90%, which is an e-mail determination criterion, via the user
適合度情報処理部120は、更新部124、単語登録部126、単語削除部128、計数部130および閾値設定部132を含む。
更新部124は、適合度情報を更新する。すなわち、新たな電子メールについての判定結果に応じて、適合度情報に含まれる各単語のスパム単語確率をPaul Grahamの式にしたがって再計算する。単語登録部126は、電子メールに含まれる単語のうち、適合度情報に未登録の単語があれば、新たにこれを適合度情報に新規登録する。以降において、この新規登録単語についてのスパム単語確率の計算が開始される。
The fitness
The
単語削除部128は、削除条件が成立した単語を適合度情報から削除する。具体的には、ある電子メールMから検出された単語wが新規登録されたとき、以後において、
(r≧R)∩[{(s/r)<T}∪{0.5−Pt≦p≦0.5+Pt}]
の削除条件が成り立つときに単語wは適合度情報から削除される。
ここで、
r:電子メールMが取得された後において、更に取得された電子メールの数。
R:第1閾値。100以上の整数であり、ユーザにより設定される。初期設定値は1000。
s:電子メールMが取得された後において、更に取得されたr通の電子メールのうち、単語wが含まれている電子メールの数。
T:第2閾値。0.01以上1.0未満の範囲でユーザにより設定される。初期値は0.1
p:電子メールMが取得された後において更に取得されたr通の電子メールに基づいて計算される単語wのスパム単語確率
Pt:第3閾値。0以上0.5以下の範囲でユーザにより設定される。初期値は0.2
である。
The
(R ≧ R) ∩ [{(s / r) <T} ∪ {0.5−P t ≦ p ≦ 0.5 + P t }]
When the deletion condition is established, the word w is deleted from the fitness information.
here,
r: The number of e-mails further acquired after the e-mail M is acquired.
R: 1st threshold value. It is an integer of 100 or more and is set by the user. The default value is 1000.
s: The number of e-mails including the word w among the r e-mails acquired after the e-mail M is acquired.
T: Second threshold value. It is set by the user in the range of 0.01 or more and less than 1.0. The initial value is 0.1
p: Spam word probability of word w calculated based on r emails further acquired after email M is acquired P t : third threshold. It is set by the user in the range of 0 to 0.5. The initial value is 0.2
It is.
各項の意味を説明する。
1.(s/r)<T・・・第1削除条件
電子メールMが取得されて以降におけるr通の電子メールにおいて、単語wの出現頻度が小さいときには削除対象とする。電子メールMによって単語wが適合度情報に新規登録されて以降、この単語wがあまり出現しない場合には、単語wはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。このため、このようなときには、単語wを削除対象としている。
2.0.5−Pt≦p≦0.5+Pt・・・第2削除条件
単語wのスパム単語確率が0.5付近にあるときには削除対象とする。単語wのスパム単語確率が0.5に近いときには、すなわち、中立的な適切さを持つ単語wはスパムメール確率を計算する上で重要な判断材料ではないと考えられる。そのため、このようなときには、単語wを削除対象としている。
3.r≧R・・・第3削除条件
単語wの削除可否判定にあたって統計的な安定性を担保するための条件である。第3削除条件が成立したことを条件として、単語wは削除の対象となり得る。
まとめると、単語wが新規登録されてから、ある程度の電子メールが取得された段階で、単語wの出現頻度が小さいか、単語wのスパム単語確率が中立的であるときには、単語wは適合度情報から削除されることになる。このような処理によって、適合度情報に含まれる評価対象となるべき単語数が過度に大きくならないように処置している。
The meaning of each item will be described.
1. (S / r) <T... First deletion condition In r e-mails after the e-mail M is acquired, if the frequency of appearance of the word w is low, the e-mail is considered to be deleted. If the word w does not appear so much after the word w is newly registered in the fitness information by the electronic mail M, it is considered that the word w is not an important judgment material in calculating the spam mail probability. For this reason, in such a case, the word w is to be deleted.
2.0.5−P t ≦ p ≦ 0.5 + P t ... Second deletion condition When the spam word probability of the word w is near 0.5, it is determined as a deletion target. When the spam word probability of the word w is close to 0.5, that is, the word w having neutral suitability is considered not to be an important judgment material in calculating the spam mail probability. Therefore, in such a case, the word w is a deletion target.
3. r ≧ R... Third deletion condition This is a condition for ensuring statistical stability in determining whether or not the word w can be deleted. The word w can be a deletion target on condition that the third deletion condition is satisfied.
In summary, when a certain amount of e-mail is acquired after the word w is newly registered, if the appearance frequency of the word w is small or the spam word probability of the word w is neutral, the word w is a goodness of fit. It will be deleted from the information. By such processing, measures are taken so that the number of words to be evaluated included in the fitness information is not excessively large.
計数部130は、単語が新規登録された後に受信される電子メールの数rを計数する。このときの計数値は、削除条件の成否判定において使用される。閾値設定部132は、第1〜第3閾値をユーザからの設定入力に応じて変更する。
次に、電子メール評価装置100が新たに電子メールを受信したときの処理過程を説明する。
The
Next, a process when the
図3は、電子メール受信時における電子メール評価装置の基本的な処理過程を示すフローチャートである。
まず、メール取得部112は外部装置から送信された電子メールを取得する(S10)。この電子メールのスパムメール確率を計算することによりメール評価処理が実行され(S12)、必要に応じて適合度情報からの単語削除の実行可否を判定するための単語削除判定処理が実行される(S14)。
S12およびS14の処理内容については後に詳述する。
FIG. 3 is a flowchart showing the basic processing steps of the e-mail evaluation apparatus when receiving e-mail.
First, the
The processing contents of S12 and S14 will be described in detail later.
図4は、図3のS12におけるメール評価処理の内容を詳細に示すフローチャートである。
単語抽出部134は、電子メールに含まれている単語を抽出する(S16)。この中で、適合度情報に登録されていない単語があれば(S18のY)、単語登録部126は新たにこの未登録単語を適合度情報に登録する(S20)。計数部130は、この新規登録単語に対して、以降に取得される電子メール数rのカウントを開始する。計数部130は、新規登録単語ごとに電子メール数rをカウントする。電子メールから抽出された単語の中に未登録単語がなければ(S18のN)、S20はスキップされる。こうしてスパムメール確率が計算される(S22)。
FIG. 4 is a flowchart showing in detail the contents of the mail evaluation process in S12 of FIG.
The
スパムメール確率が、所定の閾値以上であれば(S24のN)、適合判定部136はその電子メールを迷惑メールと判定する(S29)。なお、本実施例においては、この閾値は90%として設定されるが、ユーザからの設定入力により変更可能である。一方、スパムメール確率がこの閾値未満であれば(S24のY)、適合判定部136は、一応、正規メールと仮判定する。メール転送部114はメールブラウザ90に電子メールを転送する(S26)。ユーザによって、転送した電子メールが迷惑メールであると判定されたときには(S27のY)、このメールは迷惑メールとして扱われる(S29)。ユーザによって、転送した電子メールが正規メールであると判定されたときには(S27のN)、この電子メールは正規メールとして扱われる(S28)。
更新部124は、電子メールについての判定結果に応じて、適合度情報における各単語のスパム単語確率を再計算する(S30)。
If the spam mail probability is equal to or higher than a predetermined threshold (N in S24), the
The
図5は、図3のS14における単語削除判定処理の内容を詳細に示すフローチャートである。
単語削除部128は、新規登録単語について、その登録後に取得された電子メール数rが第1閾値R以上となっている単語が存在するか、すなわち、第3削除条件が成立している単語が存在するかを判定する(S34)。存在しなければ(S34のN)、S14の処理はそのまま終了する。存在すれば(S34のY)、単語削除部128は、その単語wが登録された後に取得されたr通の電子メール群において、単語wの出現頻度が所定の閾値よりも小さいか、すなわち、第2削除条件が成立しているかを判定する(S36)。第2削除条件が成立していれば(S36のY)、単語削除部128は当該単語wを適合度情報から削除する(S40)。一方、成立していなければ(S36のN)、単語削除部128は第2削除条件について判定する(S38)。成立していれば(S38のY)、単語削除部128は当該単語wを適合度情報から削除する(S40)。成立していなければ(S38のN)、S14の処理は終了する。
FIG. 5 is a flowchart showing in detail the contents of the word deletion determination process in S14 of FIG.
For the newly registered word, the
以上、実施例に基づいて本発明を説明した。
本実施例に示した電子メール評価装置100によれば、ベイジアンフィルタ方式によってスパムメール確率を求めるときに、その判定の元となる適合度情報のデータ量の肥大化を効果的に抑制できる。
The present invention has been described above based on the embodiments.
According to the
迷惑メールの中には、ベイジアンフィルタを攪乱するために無意味に単語を羅列するタイプのものもある。ベイジアンフィルタに基づく従来の電子メールフィルタリング法の場合、このようなタイプの迷惑メールが受信されると、適合度情報に含まれる単語数が飛躍的に増大してしまう。適合度情報の肥大化は、適合度情報の更新処理に伴う負荷も増大させる。
これに対し、本実施例における電子メール評価装置100は、適合度情報として登録される単語を適宜削除することにより、適合度情報のデータ量が無制限に増大しないように処置している。スパムメール確率を計算する上で有用な単語を残しつつ、それほど有用でない単語を排除していくため、適合度情報のデータ量の肥大化を抑制しつつも、適否の判定基準の変化や、迷惑メールのタイプの変化に対応できる。このように、電子メール評価装置100は単語学習機能によって発生し得る不具合を、効果的に解決することができる。
本実施例においては、ベイジアンフィルタの特にPaul Graham方式を前提として説明したが、これに限らず、単語ごとの適切さをベースとした分類方法等に広く応用可能である。本実施例においては、単語と適合度から正規メールと迷惑メールに電子メールを分類する態様を示した。このほか、データの分類方法に際しては、単語に限らず、さまざまな属性ごとの適切さをベースとした分類方法も考えられる。たとえば、文書データを分類する場合、属性としてその文書データ中における単語の出現頻度や作者、作成日時などが利用できる。また、画像データを分類する場合、属性として色の頻度や明度の頻度などが利用できる。
Some junk emails use words that are meaninglessly enumerated to disrupt the Bayesian filter. In the case of the conventional e-mail filtering method based on the Bayesian filter, when such a type of junk mail is received, the number of words included in the fitness information greatly increases. The enlargement of the fitness information increases the load accompanying the update processing of fitness information.
On the other hand, the
In the present embodiment, the description has been made on the premise of the Bayesian filter, particularly, the Paul Graham method. In the present embodiment, an embodiment has been shown in which electronic mail is classified into regular mail and spam mail based on words and fitness. In addition, the data classification method is not limited to words, and a classification method based on the appropriateness of various attributes is also conceivable. For example, when classifying document data, the appearance frequency, author, creation date, etc. of the word in the document data can be used as attributes. Further, when classifying image data, color frequency, brightness frequency, or the like can be used as an attribute.
なお、請求項に記載の閾値入力部の機能は、本実施例においてはユーザインタフェース処理部110によって実現される。
これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
Note that the function of the threshold value input unit described in the claims is realized by the user
It should be understood by those skilled in the art that the functions to be fulfilled by the constituent elements described in the claims are realized by a single function block or a combination of the functional blocks shown in the present embodiment.
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are within the scope of the present invention. is there.
本実施例においては、第1削除条件(s/r)<Tにおいて、sとは、r通の電子メールのうち、判定対象となる単語wが出現している電子メールの数であるとして説明した。そのため、s≦rの関係が成立している。
これに対し、別例として、sとは、r通の電子メール中に含まれる単語wの数としてもよい。この場合、sはrよりも大きくなり得る。それに対応して、第2閾値Tの取り得る範囲も、1以上、たとえば、1000のような数値に設定されてもよい。
In this embodiment, in the first deletion condition (s / r) <T, s is described as the number of e-mails in which the word w to be determined appears among r e-mails. did. Therefore, the relationship of s ≦ r is established.
On the other hand, as another example, s may be the number of words w included in r emails. In this case, s can be greater than r. Correspondingly, the possible range of the second threshold T may also be set to a numerical value of 1 or more, for example, 1000.
また、本実施例のほかにも、以下の式で全ての属性の重要度を算出し、重要度の上位n個にあたる属性のみを残すという変形例も考えられる。
まず、
重要度(属性)=f(属性の出現頻度)×g(属性の判定寄与度)
f:任意の単調増加関数
g:任意の単調増加関数
として重要度を定義する。
In addition to the present embodiment, a modification in which the importance of all attributes is calculated by the following formula and only the attributes corresponding to the top n importances are left is also conceivable.
First,
Importance (attribute) = f (attribute appearance frequency) × g (attribute determination contribution)
f: Arbitrary monotonically increasing function g: Importance is defined as an arbitrary monotonically increasing function.
上記に基づき、単語ごとの重要度を特定するための式として、以下の様な式を定義する。
重要度(w)=√{Max(n/N,m/M)}×abs(p-0.5)
m:単語wが迷惑メール群において登場した回数
M:迷惑メールの総数
n:単語wが正規メール群において登場した回数
N:正規メールの総数
p:単語wのスパム単語確率(0.5から遠い方が判定寄与度が高い)
ここで、「Max(n/N,m/M)」は、変数n/Nとm/Mのうちのいずれか大きい方を選択する関数である。また、「abs(p-0.5)」は、p-0.5の絶対値を示す。この変形例に示す方法の場合、単語の重要度を加味して、削減すべき単語を選択できる。たとえば、削除条件が成立した単語であっても、その重要度が所定の閾値よりも大きいときには削除対象としないとしてもよい。高い単語は削除対象となりにくく、低い単語は削除対象となりやすいように設定することにより、いっそう効率的に適合度情報のデータ量を削減できる。
Based on the above, the following formula is defined as a formula for specifying the importance for each word.
Importance (w) = √ {Max (n / N, m / M)} × abs (p-0.5)
m: Number of times the word w appeared in the spam mail group M: Total number of spam mails n: Number of times the word w appeared in the regular mail group N: Total number of regular mails p: Spam word probability of the word w (the one far from 0.5 (Decision contribution is high)
Here, “Max (n / N, m / M)” is a function that selects the larger one of the variables n / N and m / M. “Abs (p-0.5)” indicates the absolute value of p-0.5. In the case of the method shown in this modification, it is possible to select words to be reduced in consideration of the importance of words. For example, even a word that satisfies the deletion condition may not be deleted when its importance is greater than a predetermined threshold. The data amount of the fitness information can be reduced more efficiently by setting the high word so that it is difficult to be deleted and the low word is likely to be deleted.
80 クライアント端末、 90 メールブラウザ、 100 電子メール評価装置、 110 ユーザインタフェース処理部、 112 メール取得部、 114 メール転送部、 116 データ処理部、 118 データ格納部、 120 適合度情報処理部、 122 メール評価部、 124 更新部、 126 単語登録部、 128 単語削除部、 130 計数部、 132 閾値設定部、 134 単語抽出部、 136 適合判定部、 138 適合度情報保持部。 80 client terminal, 90 mail browser, 100 electronic mail evaluation device, 110 user interface processing unit, 112 mail acquisition unit, 114 mail transfer unit, 116 data processing unit, 118 data storage unit, 120 fitness information processing unit, 122 mail evaluation Part, 124 update part, 126 word registration part, 128 word deletion part, 130 counting part, 132 threshold value setting part, 134 word extraction part, 136 conformity determination part, 138 conformity information holding part.
Claims (7)
評価対象となるべき電子メールを取得するメール取得部と、
電子メールに含まれる単語を抽出する単語抽出部と、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部と、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新部と、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する単語登録部と、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メールの数が所定の第1閾値を超えたことを条件として、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の第2閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する単語削除部と、
前記第1閾値及び前記第2閾値を設定するためのユーザによる指示入力を検出する閾値入力部と、
指示入力により指定された値を前記第1閾値又は前記第2閾値として設定する閾値設定部と、
を備えることを特徴とする電子メール評価装置。 In order to determine whether or not the e-mail transmitted from the external device has appropriate contents for the user of the recipient, a fitness information holding unit that holds the fitness that indexes the appropriateness of each word as fitness information,
An email acquisition unit for acquiring emails to be evaluated;
A word extractor for extracting words contained in the email;
A fitness determination unit that detects the fitness of each word included in the e-mail with reference to the fitness information, and determines whether the e-mail has appropriate content from the fitness; and
A relevance level update unit that updates the relevance level information by recalculating the relevance level for each word included in the e-mail to be determined according to the determination result for the e-mail;
When a word that is not registered in the fitness information is extracted from an email, a word registration unit that newly registers the word in the fitness information;
Further acquisition after acquisition of an e-mail containing the newly registered word, provided that the number of e-mails acquired after acquisition of the e-mail including the newly registered word exceeds a predetermined first threshold. A word deletion unit that excludes the newly registered word from the fitness information when the appearance frequency of the newly registered word is smaller than a predetermined second threshold in the group of emails
A threshold value input unit for detecting an instruction input by a user for setting the first threshold value and the second threshold value;
A threshold value setting unit for setting a value designated by an instruction input as the first threshold value or the second threshold value;
An e-mail evaluation apparatus comprising:
前記閾値設定部は、指示入力により指定された値を前記所定範囲として設定する The threshold setting unit sets a value designated by an instruction input as the predetermined range.
ことを特徴とする請求項3又は4に記載の電子メール評価装置。 The e-mail evaluation apparatus according to claim 3 or 4, characterized by the above.
コンピュータに備えられた単語抽出部が、電子メールに含まれる単語を抽出するステップと、
コンピュータに備えられた適合判定部が、単語ごとの適切さを指標化した適合度を示す適合度情報を参照して、取得された電子メールに含まれる各単語の適合度を検出し、それらの適合度から取得された電子メールが適切な内容であるか否かを判定するステップと、
コンピュータに備えられた適合度更新部が、判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新するステップと、
コンピュータに備えられた単語登録部が、電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録するステップと、
コンピュータに備えられた単語削除部が、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メールの数が所定の第1閾値を超えたことを条件として、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の第2閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外するステップと、
コンピュータに備えられた閾値入力部が、前記第1閾値及び前記第2閾値を設定するためのユーザによる指示入力を検出するステップと、
コンピュータに備えられた閾値設定部が、指示入力により指定された値を前記第1閾値又は前記第2閾値として設定するステップと、
を備えることを特徴とする電子メール評価方法。 A step of acquiring an email to be evaluated by a mail acquisition unit provided in the computer ;
A word extraction unit provided in the computer for extracting words included in the e-mail;
The matching determination unit provided in the computer refers to the matching level information indicating the matching level obtained by indexing the appropriateness of each word, detects the matching level of each word included in the acquired e-mail, and Determining whether the email obtained from the fitness is appropriate content;
A fitness level update unit provided in the computer updates the fitness level information by recalculating the fitness level of each word included in the email to be determined according to the determination result for the email. Steps,
A word registration unit provided in the computer, when a word not registered in the fitness information is extracted from an e-mail, newly registering the word in the fitness information;
The word deletion unit provided in the computer is newly registered on the condition that the number of e-mails further acquired after acquiring e-mails including the newly registered words exceeds a predetermined first threshold . A step of excluding the newly registered word from the fitness information when the appearance frequency of the newly registered word is smaller than a predetermined second threshold in the group of e-mails acquired after acquiring the e-mail including the word When,
Detecting a command input by a user for setting the first threshold and the second threshold by a threshold input unit provided in the computer;
A threshold setting unit provided in the computer sets a value designated by an instruction input as the first threshold or the second threshold;
An e-mail evaluation method comprising:
外部装置から送信された電子メールが受け手のユーザにとって適切な内容であるかを判定するために、単語ごとの適切さを指標化した適合度を適合度情報として保持する機能と、
評価対象となるべき電子メールを取得するメール取得手段、
電子メールに含まれる単語を抽出する単語抽出手段、
前記適合度情報を参照して電子メールに含まれる各単語の適合度を検出し、それらの適合度から電子メールが適切な内容であるか否かを判定する適合判定部手段、
判定対象となった電子メールに含まれる各単語についての適合度をその電子メールに対する判定結果に応じて再計算することにより、前記適合度情報を更新する適合度更新手段、
電子メールから前記適合度情報に登録されていない単語が抽出されたとき、その単語を前記適合度情報に新規登録する単語登録手段、
前記新規登録された単語を含む電子メールの取得後に更に取得された電子メールの数が所定の第1閾値を超えたことを条件として、前記新規登録された単語を含む電子メールの取得後に更に取得された電子メール群において前記新規登録された単語の出現頻度が所定の第2閾値より小さいとき、前記新規登録された単語を前記適合度情報から除外する単語削除手段、
前記第1閾値及び前記第2閾値を設定するためのユーザによる指示入力を検出する閾値入力手段、
指示入力により指定された値を前記第1閾値又は前記第2閾値として設定する閾値設定手段、
として機能させるための電子メール評価プログラム。 Computer
A function of holding a fitness indexed by the appropriateness of each word as fitness information in order to determine whether the email sent from the external device is appropriate for the recipient user;
Email acquisition means for acquiring emails to be evaluated,
Word extraction means for extracting words contained in the e-mail;
A match determination unit that detects the match of each word included in the e-mail with reference to the match information, and determines whether the e-mail has an appropriate content from the suitability;
Relevance level update means for updating the relevance level information by recalculating the relevance level for each word included in the e-mail to be determined according to the determination result for the e-mail;
When a word that is not registered in the fitness information is extracted from an e-mail, a word registration unit that newly registers the word in the fitness information,
Further acquisition after acquisition of an e-mail containing the newly registered word, provided that the number of e-mails acquired after acquisition of the e-mail including the newly registered word exceeds a predetermined first threshold. A word deletion means for excluding the newly registered word from the fitness information when the frequency of appearance of the newly registered word in the group of emails is less than a predetermined second threshold;
Threshold input means for detecting an instruction input by a user for setting the first threshold and the second threshold;
Threshold setting means for setting a value designated by an instruction input as the first threshold or the second threshold;
E-mail evaluation program to function as .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005309803A JP4878468B2 (en) | 2005-10-25 | 2005-10-25 | E-mail evaluation apparatus and e-mail evaluation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005309803A JP4878468B2 (en) | 2005-10-25 | 2005-10-25 | E-mail evaluation apparatus and e-mail evaluation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007122145A JP2007122145A (en) | 2007-05-17 |
JP4878468B2 true JP4878468B2 (en) | 2012-02-15 |
Family
ID=38145962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005309803A Expired - Fee Related JP4878468B2 (en) | 2005-10-25 | 2005-10-25 | E-mail evaluation apparatus and e-mail evaluation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4878468B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5032286B2 (en) * | 2007-12-10 | 2012-09-26 | 株式会社ジャストシステム | Filtering processing method, filtering processing program, and filtering apparatus |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2978044B2 (en) * | 1993-10-18 | 1999-11-15 | シャープ株式会社 | Document classification device |
US5659771A (en) * | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
US7376635B1 (en) * | 2000-07-21 | 2008-05-20 | Ford Global Technologies, Llc | Theme-based system and method for classifying documents |
JP2003188921A (en) * | 2001-12-14 | 2003-07-04 | Hitachi Kokusai Electric Inc | E-mail transfer device |
JP4398144B2 (en) * | 2002-12-24 | 2010-01-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Dictionary update system, update server, terminal, control method, program, and recording medium |
JP2005084788A (en) * | 2003-09-05 | 2005-03-31 | Toshiba Corp | Program and dictionary registration apparatus and method |
US7257564B2 (en) * | 2003-10-03 | 2007-08-14 | Tumbleweed Communications Corp. | Dynamic message filtering |
JP2005189955A (en) * | 2003-12-24 | 2005-07-14 | Canon Inc | Document processing method, document processor, control program, and recording medium |
JP2005210455A (en) * | 2004-01-23 | 2005-08-04 | Css:Kk | Electronic mail relaying device |
-
2005
- 2005-10-25 JP JP2005309803A patent/JP4878468B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007122145A (en) | 2007-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
US7930351B2 (en) | Identifying undesired email messages having attachments | |
US7949718B2 (en) | Phonetic filtering of undesired email messages | |
US7483947B2 (en) | Message rendering for identification of content features | |
US10637826B1 (en) | Policy compliance verification using semantic distance and nearest neighbor search of labeled content | |
US7583839B2 (en) | Method and mechanism for analyzing the texture of a digital image | |
US20110047149A1 (en) | Method and means for data searching and language translation | |
JP2003296365A (en) | Apparatus and method for information processing, and recording medium and program | |
JP2005339545A (en) | Detection of search engine spam using external data | |
JP2007241451A (en) | Information collection support device | |
CN112860929A (en) | Picture searching method and device, electronic equipment and storage medium | |
US20070098257A1 (en) | Method and mechanism for analyzing the color of a digital image | |
JP2009104231A (en) | Information processor, sound output device, symbol display device, image forming apparatus, user attribute determination method, and program | |
WO2014203402A1 (en) | Information providing device, information providing method, and program | |
JP2003067304A (en) | Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it | |
JP4878468B2 (en) | E-mail evaluation apparatus and e-mail evaluation method | |
KR100977180B1 (en) | Method, apparatus and computer-readable recording medium for filtering spam mail | |
JP2005284454A (en) | Junk e-mail distribution preventive system, and information terminal and e-mail server in the system | |
JP5096400B2 (en) | Content search apparatus, method, and program | |
JP4746083B2 (en) | Address correctness determination system | |
JP6267830B2 (en) | Document structure analysis device using image processing | |
US20210303610A1 (en) | Method and System for Summarizing Content Based on User Preferences | |
KR100459379B1 (en) | Method for producing basic data for determining whether or not each electronic document is similar and System therefor | |
JP2007122148A (en) | Electronic mail sorting device and electronic mail sorting method | |
JP4688629B2 (en) | Electronic message classification device and electronic message classification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111128 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |