JP2003067304A - Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it - Google Patents

Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it

Info

Publication number
JP2003067304A
JP2003067304A JP2001256795A JP2001256795A JP2003067304A JP 2003067304 A JP2003067304 A JP 2003067304A JP 2001256795 A JP2001256795 A JP 2001256795A JP 2001256795 A JP2001256795 A JP 2001256795A JP 2003067304 A JP2003067304 A JP 2003067304A
Authority
JP
Japan
Prior art keywords
mail
unnecessary
electronic mail
received
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001256795A
Other languages
Japanese (ja)
Inventor
Keiichiro Hoashi
啓一郎 帆足
Kazunori Matsumoto
一則 松本
Naoki Inoue
直己 井ノ上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2001256795A priority Critical patent/JP2003067304A/en
Publication of JP2003067304A publication Critical patent/JP2003067304A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an electronic mail filtering technology capable of accurately filtering unnecessary mail peculiar to each user. SOLUTION: By referring to a weighted word list 11 specific to the user to each reception mail, a score is found in each the mail, and the score is compared with a threshold value to decide distinction between the electronic mail of an unnecessary mail candidate and the electronic mail to be received. An electronic mail M1 group decided as the unnecessary mail candidate is stored in an unnecessary mail candidate storage means 21, while an electronic mail M2 group decided as the electronic mail to be received is stored in a reception mail storage means 22. The unnecessary mail group selected from the mail group of the unnecessary mail candidates stored in the unnecessary mail candidate storage means 21 is transferred to an unnecessary mail storage means 23. Word analysis is executed about the electronic mail groups stored in the unnecessary mail storage means 23 and the reception mail storage means 22, and the weighted word list 11 is reconfigured and is used for the filtering.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、電子メールフィル
タリングシステム、電子メールフィルタリング方法、電
子メールフィルタリングプログラム及びそれを記録した
記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an electronic mail filtering system, an electronic mail filtering method, an electronic mail filtering program, and a recording medium recording the same.

【0002】[0002]

【従来の技術】近年、インターネットその他の情報ネッ
トワークを利用した電子メールが隆盛しているが、これ
に伴って、本来の業務とは全く関係のない内容のスパム
メール、その他の不要な電子メールが多数、ユーザ個々
のメールアドレスに送りつけられてくるようになってい
る。
2. Description of the Related Art In recent years, electronic mails using the Internet and other information networks have been prospering, and along with this, spam mails having contents completely unrelated to the original business and other unnecessary electronic mails have been generated. Many are sent to individual users' email addresses.

【0003】このようなスパムメールの受信を排除し、
必要なメールだけを受信するための電子メールフィルタ
リング技術として、従来は、電子メールのデータ列のヘ
ッダ情報を利用するのが主流である。これは、オープン
リレー(Open-relay)を許可しているサイトを経由して
くる電子メール、電子メールの宛先(To:,Cc:)に受信
者のアドレスが明記されていない不特定多数への送信を
目的とした電子メール等を不要メールとみなして排除す
る手法である。
By eliminating the reception of such spam mails,
As an e-mail filtering technique for receiving only necessary e-mails, conventionally, the mainstream is to use header information of an e-mail data string. This is for e-mails that come through sites that allow open-relay, and for the unspecified number of people whose recipients' addresses are not specified in the e-mail destinations (To :, Cc :). This is a method of rejecting electronic mail or the like intended for transmission as unnecessary mail.

【0004】また従来、メールの送信者や件名等に基づ
くフィルタリング機能をサポートしているメールソフト
も普及している。
Conventionally, mail software that supports a filtering function based on the sender of mail, the subject, and the like has also become widespread.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、従来の
電子メールのヘッダ情報に基づく電子メールフィルタリ
ングでは、ユーザにとって必要な電子メールが誤ってフ
ィルタリングされてしまうことが多く、信頼性に乏しい
問題点があった。加えて、スパムメールとされるもので
或るユーザにとっては不要なものであっても、別のユー
ザにとっては興味を持って読みたいと思われる内容のも
のもあるが、従来の電子メールフィルタリング技術で
は、電子メールの内容に応じてユーザ毎に個別にフィル
タリングを行うことができない問題点があった。
However, in the conventional electronic mail filtering based on the header information of electronic mail, the electronic mail required by the user is often mistakenly filtered, and there is a problem of poor reliability. It was In addition, there are some contents that are considered as spam mails and are unnecessary for one user, but may be interesting for another user to read. Then, there is a problem that filtering cannot be individually performed for each user according to the content of the electronic mail.

【0006】本発明はこのような従来の技術的課題を解
決するためになされたもので、ユーザ毎に過去の不要メ
ール情報に基づきユーザ毎の不要メールの特徴を学習
し、その学習結果で得られた重み付き単語リストを利用
することによって、ユーザ毎に自動的にカスタマイズし
たフィルタリングができる電子メールフィルタリング技
術を提供することを目的とする。
The present invention has been made in order to solve such a conventional technical problem, and learns the characteristics of unnecessary mail for each user based on the unnecessary mail information in the past, and obtains the learning result. It is an object of the present invention to provide an electronic mail filtering technique capable of automatically customized filtering for each user by utilizing the weighted word list provided.

【0007】[0007]

【課題を解決するための手段】請求項1の発明の電子メ
ールフィルタリングシステムは、多数の送信メール又は
受信メールそれぞれに対して単語解析を行い、重み付き
単語リストを参照して出現する単語毎の重みを求め、そ
の総和をしきい値と比較して不要メール候補の電子メー
ルと受信が必要な電子メールとの判定を行い、不要メー
ル候補の電子メールを抽出する電子メールフィルタリン
グ手段と、前記電子メールフィルタリング手段によって
抽出された不要メール候補の電子メール群を保存する不
要メール候補保存手段と、前記電子メールフィルタリン
グ手段によって抽出されなかった受信が必要な電子メー
ル群を保存する受信メール保存手段と、前記不要メール
候補保存手段に保存されている不要メール候補の電子メ
ール群の中から選択された不要メール群を保存する不要
メール保存手段と、前記不要メール候補保存手段に保存
されている不要メール候補の電子メール群から不要メー
ル群を選択して前記不要メール保存手段に転送し、残り
の電子メール群を前記受信メール保存手段に転送する受
信メール処理手段と、前記不要メール保存手段及び受信
メール保存手段に保存されている電子メール群の単語解
析を行い、不要メール候補の電子メールと受信が必要な
電子メールとの判定を行うために使用する重みを単語毎
に求め、前記重み付き単語リストを再編成する不要メー
ル学習手段とを備えて成るものである。
According to another aspect of the present invention, there is provided an electronic mail filtering system which analyzes a word for each of a large number of outgoing mails or incoming mails and refers to a weighted word list for each word that appears. E-mail filtering means for obtaining weights, comparing the total with a threshold value to determine unnecessary e-mail candidate e-mails and e-mails that need to be received, and e-mail filtering means for extracting unnecessary e-mail candidate e-mails; An unnecessary mail candidate storing means for storing an electronic mail group of unnecessary mail candidates extracted by the mail filtering means; and a received mail storing means for saving an electronic mail group that has not been extracted by the electronic mail filtering means and needs to be received, Select from the email group of unwanted email candidates stored in the unwanted email candidate storage means. Unnecessary mail saving means for saving the unnecessary unnecessary mail group, and selecting an unnecessary mail group from the unnecessary mail candidate e-mail group saved in the unnecessary mail candidate saving means and transferring it to the unnecessary mail saving means. Received mail processing means for transferring the electronic mail group to the received mail storage means, and word analysis of the electronic mail groups stored in the unnecessary mail storage means and the received mail storage means to identify unnecessary mail candidate electronic mails. It is provided with unnecessary mail learning means for obtaining a weight to be used for determining an electronic mail that needs to be received for each word and reorganizing the weighted word list.

【0008】請求項2の発明は、請求項1の電子メール
フィルタリングシステムにおいて、前記不要メール候補
保存手段に保存されている電子メール群のうち、所定期
間読出しがなかった電子メールについて前記不要メール
保存手段に転送する不要メール候補転送手段を備えたこ
とを特徴とするものである。
According to a second aspect of the present invention, in the electronic mail filtering system according to the first aspect, among the electronic mail groups stored in the unnecessary mail candidate storage means, the unnecessary mail storage is performed for the electronic mail that has not been read for a predetermined period. It is characterized by including unnecessary mail candidate transfer means for transferring to the means.

【0009】請求項3の発明は、請求項1又は2の電子
メールフィルタリングシステムにおいて、前記不要メー
ル学習手段は、前記不要メール保存手段に保存されてい
る電子メール群の容量が所定量増加したときに前記重み
付き単語リストの再編成を実行することを特徴とするも
のである。
According to a third aspect of the present invention, in the electronic mail filtering system according to the first or second aspect, when the unnecessary mail learning means increases the capacity of the electronic mail group stored in the unnecessary mail storage means by a predetermined amount. The reorganization of the weighted word list is executed.

【0010】請求項4の発明は、請求項1又は2の電子
メールフィルタリングシステムにおいて、前記不要メー
ル学習手段は、所定の周期毎に前記重み付き単語リスト
の再編成を実行することを特徴とするものである。
According to a fourth aspect of the present invention, in the electronic mail filtering system according to the first or second aspect, the unnecessary mail learning means executes the reorganization of the weighted word list every predetermined period. It is a thing.

【0011】請求項5の発明は、請求項1〜4の電子メ
ールフィルタリングにおいて、前記不要メール学習手段
は、PLA法によって前記重み付き単語リストの再編成
を行うことを特徴とするものである。
According to a fifth aspect of the present invention, in the electronic mail filtering according to the first to fourth aspects, the unnecessary mail learning means reorganizes the weighted word list by the PLA method.

【0012】請求項6の発明の電子メールフィルタリン
グ方法は、情報ネットワークを通じて受信する電子メー
ルそれぞれに対して単語解析を行い、重み付き単語リス
トを参照して出現する単語毎の重みを求め、その総和を
しきい値と比較して不要メール候補の電子メールと受信
が必要な電子メールとの判定を行うステップ(1)と、
前記ステップ(1)で不要メール候補の電子メールと判
定された電子メール群を不要メール候補保存手段に保存
するステップ(2)と、前記ステップ(1)で受信が必
要な電子メールと判定された電子メール群を受信メール
保存手段に保存するステップ(3)と、前記不要メール
候補保存手段に保存されている不要メール候補の電子メ
ール群から選択された不要メール群を不要メール保存手
段に転送して保存し、残りの電子メール群を前記受信メ
ール保存手段に転送するステップ(4)と、前記不要メ
ール保存手段及び受信メール保存手段に保存されている
電子メール群の単語解析を行い、不要メール候補の電子
メールと受信が必要な電子メールとの判定を行うために
使用する重みを単語毎に求め、前記重み付き単語リスト
を再編成するステップ(5)とを有するものである。
According to the electronic mail filtering method of the sixth aspect of the present invention, word analysis is performed on each electronic mail received through the information network, the weight of each word that appears is referred to by referring to the weighted word list, and the sum is calculated. Comparing (1) with a threshold value and determining whether an unnecessary email candidate email is an email that needs to be received (1),
A step (2) of storing the group of e-mails determined to be unnecessary e-mail candidates in the step (1) in the unnecessary e-mail candidate storage means, and an e-mail that needs to be received in the step (1) Step (3) of storing the e-mail group in the received e-mail storage means, and transferring the unnecessary e-mail group selected from the unnecessary e-mail candidate e-mail groups stored in the unnecessary e-mail candidate storage means to the unnecessary e-mail storage means. Step (4) of transferring the remaining e-mail groups to the received mail saving means, and analyzing words in the e-mail groups saved in the unnecessary mail saving means and the received mail saving means to obtain unnecessary mail. For each word, the weight used to determine the candidate email and the email that needs to be received is obtained, and the weighted word list is reorganized. Those having a flop (5).

【0013】請求項7の発明は、請求項6の電子メール
フィルタリング方法において、前記不要メール候補保存
手段に保存されている電子メール群のうち、所定期間読
出しがなかった電子メールについて前記不要メール保存
手段に転送するステップ(6)を有することを特徴とす
るものである。
According to a seventh aspect of the present invention, in the electronic mail filtering method according to the sixth aspect, among the electronic mail groups stored in the unnecessary mail candidate storage means, the unnecessary mail storage is performed for the electronic mail that has not been read for a predetermined period. It comprises a step (6) of transferring to the means.

【0014】請求項8の発明は、請求項6又は7の電子
メールフィルタリング方法において、前記ステップ
(5)は、前記不要メール保存手段に保存されている電
子メール群の容量が所定値に達したときに実行すること
を特徴とするものである。
According to an eighth aspect of the present invention, in the electronic mail filtering method according to the sixth or seventh aspect, in the step (5), the capacity of the electronic mail group stored in the unnecessary mail storage means has reached a predetermined value. It is characterized by being executed from time to time.

【0015】請求項9の発明は、請求項6又は7の電子
メールフィルタリング方法において、前記ステップ
(5)は、所定の周期毎に定期的に実行することを特徴
とするものである。
The invention according to claim 9 is the electronic mail filtering method according to claim 6 or 7, characterized in that the step (5) is periodically executed at predetermined intervals.

【0016】請求項10の発明は、請求項6〜9の電子
メールフィルタリング方法において、前記ステップ
(5)では、PLA法によって前記重み付き単語リスト
の再編成を行うことを特徴とするものである。
According to a tenth aspect of the present invention, in the electronic mail filtering method according to the sixth to ninth aspects, in the step (5), the weighted word list is reorganized by the PLA method. .

【0017】請求項11の発明の電子メールフィルタリ
ングプログラムは、情報ネットワークを通じて受信する
電子メールそれぞれに対して単語解析を行い、重み付き
単語リストを参照して出現する単語毎の重みを求め、そ
の総和をしきい値と比較して不要メール候補の電子メー
ルと受信が必要な電子メールとの判定を行う処理(1)
と、前記処理(1)で不要メール候補の電子メールと判
定された電子メール群を不要メール候補保存手段に保存
する処理(2)と、前記処理(1)で受信が必要な電子
メールと判定された電子メール群を受信メール保存手段
に保存する処理(3)とをコンピュータに実行させるこ
とを特徴とするものである。
The electronic mail filtering program of the eleventh aspect of the present invention performs word analysis on each electronic mail received through the information network, obtains the weight for each word that appears by referring to the weighted word list, and sums them. Comparing the threshold value with a threshold value and determining whether an unwanted email candidate email is an email that needs to be received (1)
And a process (2) of storing the e-mail group determined as unnecessary e-mail candidate e-mails in the process (1) in the unnecessary e-mail candidate storage unit, and an e-mail that needs to be received in the process (1). It is characterized in that the computer is caused to execute the processing (3) of storing the group of the electronic mails thus received in the received mail storage means.

【0018】請求項12の発明は、請求項11の電子メ
ールフィルタリングプログラムにおいて、不要メール保
存手段及び前記受信メール保存手段に保存されている電
子メール群の単語解析を行い、不要メール候補の電子メ
ールと受信が必要な電子メールとの判定を行うために使
用する重みを単語毎に求め、前記重み付き単語リストを
再編成する処理(4)をコンピュータに実行させること
を特徴とするものである。
According to a twelfth aspect of the present invention, in the electronic mail filtering program according to the eleventh aspect, the words of the electronic mail groups stored in the unnecessary mail storage means and the received mail storage means are analyzed to obtain unnecessary electronic mail candidates. It is characterized by causing a computer to execute a process (4) for reconstructing the weighted word list by obtaining a weight to be used for determining that the electronic mail needs to be received.

【0019】請求項13の発明は、請求項12の電子メ
ールフィルタリングプログラムにおいて、前記処理
(4)は、前記不要メール保存手段に保存されている電
子メール群の容量が所定値に達したときに実行すること
を特徴とするものである。
According to a thirteenth aspect of the present invention, in the electronic mail filtering program according to the twelfth aspect, the processing (4) is performed when the capacity of the electronic mail group stored in the unnecessary mail storage means reaches a predetermined value. It is characterized by executing.

【0020】請求項14の発明は、請求項12の電子メ
ールフィルタリングプログラムにおいて、前記処理
(4)は、所定の周期毎に定期的に実行することを特徴
とするものである。
According to a fourteenth aspect of the present invention, in the electronic mail filtering program according to the twelfth aspect, the process (4) is periodically executed at predetermined intervals.

【0021】請求項15の発明は、請求項12〜14の
電子メールフィルタリングプログラムにおいて、前記処
理(4)では、PLA法によって前記重み付き単語リス
トの再編成を行うことを特徴とするものである。
A fifteenth aspect of the present invention is the electronic mail filtering program according to the twelfth to fourteenth aspects, wherein in the processing (4), the weighted word list is reorganized by the PLA method. .

【0022】請求項16の発明の記録媒体は、情報ネッ
トワークを通じて受信する電子メールそれぞれに対して
単語解析を行い、重み付き単語リストを参照して出現す
る単語毎の重みを求め、その総和をしきい値と比較して
不要メール候補の電子メールと受信が必要な電子メール
との判定を行う処理(1)と、前記処理(1)で不要メ
ール候補の電子メールと判定された電子メール群を不要
メール候補保存手段に保存する処理(2)と、前記処理
(1)で受信が必要な電子メールと判定された電子メー
ル群を受信メール保存手段に保存する処理(3)とを実
行する電子メールフィルタリングプログラムを記録した
ものである。
In the recording medium of the sixteenth aspect of the present invention, word analysis is performed for each electronic mail received through the information network, the weight of each word that appears is referred to by referring to the weighted word list, and the sum is calculated. The process (1) of comparing the threshold value with the e-mail that is an unnecessary e-mail candidate and the e-mail that needs to be received, and the e-mail group that is determined to be the unnecessary e-mail candidate in the process (1) Electronic for executing processing (2) of storing in unnecessary mail candidate storage means and processing (3) of storing in the received mail storage means an electronic mail group determined to be an electronic mail that needs to be received in the processing (1) It is a record of a mail filtering program.

【0023】請求項17の発明は、請求項16の記録媒
体において、前記処理(1)〜(3)と共に、不要メー
ル保存手段及び前記受信メール保存手段に保存されてい
る電子メール群の単語解析を行い、不要メール候補の電
子メールと受信が必要な電子メールとの判定を行うため
に使用する重みを単語毎に求め、前記重み付き単語リス
トを再編成する処理(4)を実行する電子メールフィル
タリングプログラムを記録したものである。
According to a seventeenth aspect of the present invention, in the recording medium of the sixteenth aspect, together with the processes (1) to (3), word analysis of the electronic mail group stored in the unnecessary mail storage means and the received mail storage means. And an email for executing a process (4) of reconstructing the weighted word list by obtaining a weight used for determining unnecessary email candidate emails and emails that need to be received for each word. It is a record of a filtering program.

【0024】請求項18の発明は、請求項17の記録媒
体において、前記処理(4)では、前記不要メール保存
手段に保存されている電子メール群の容量が所定値に達
したときに実行する電子メールフィルタリングプログラ
ムを記録したものである。
The invention of claim 18 is executed in the recording medium of claim 17, wherein in the processing (4), the capacity of the electronic mail group stored in the unnecessary mail storage means reaches a predetermined value. It is a record of an email filtering program.

【0025】請求項19の発明は、請求項17の記録媒
体において、前記処理(4)では、所定の周期毎に定期
的に実行する電子メールフィルタリングプログラムを記
録したものである。
According to a nineteenth aspect of the present invention, in the recording medium according to the seventeenth aspect, in the process (4), an electronic mail filtering program which is periodically executed at predetermined intervals is recorded.

【0026】請求項20の発明は、請求項16〜19の
記録媒体において、前記処理(4)では、PLA法によ
って前記重み付き単語リストの再編成を行う電子メール
フィルタリングプログラムを記録したものである。
According to a twentieth aspect of the present invention, in the recording medium according to the sixteenth to nineteenth aspects, in the process (4), an electronic mail filtering program for reorganizing the weighted word list by the PLA method is recorded. .

【0027】[0027]

【発明の実施の形態】以下、本発明の実施の形態を図に
基づいて詳説する。図1は本発明の1つの実施の形態の
電子メールフィルタリングシステムの機能構成を示して
いる。本実施の形態の電子メールフィルタリングシステ
ムは、現実には高性能なメールサーバに各モジュールの
処理機能をプログラムとして組み込み、そのメールサー
バで全機能を処理させるシステムとして構築することが
でき、あるいは各モジュール毎に個別のコンピュータに
組み込み、若しくは負荷の低いモジュールのいくつかを
統合し、複数台のコンピュータに組み込み、その複数台
のコンピュータ全体で1つのシステムとすることもでき
る。しかしながら、以下の説明では、本システムの主だ
った機能をモジュール毎に分けて説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described in detail below with reference to the drawings. FIG. 1 shows a functional configuration of an electronic mail filtering system according to an embodiment of the present invention. The electronic mail filtering system of this embodiment can actually be constructed as a system in which the processing functions of each module are installed as a program in a high-performance mail server and all the functions are processed by the mail server. It is also possible to incorporate each of them into individual computers or to integrate some of the modules with a low load and incorporate them into a plurality of computers so that the plurality of computers as a whole form one system. However, in the following description, the main functions of this system will be described separately for each module.

【0028】本実施の形態の電子メールフィルタリング
システムは、大きく分けて電子メールフィルタリングモ
ジュール1と受信メール処理モジュール2と不要メール
学習モジュール3と記憶装置上の重み付き単語リスト1
1から構成されている。
The electronic mail filtering system of this embodiment is roughly divided into an electronic mail filtering module 1, a received mail processing module 2, an unnecessary mail learning module 3, and a weighted word list 1 on a storage device.
It is composed of 1.

【0029】電子メールフィルタリングモジュール1
は、インターネット100を通じて送られてくる受信メ
ールRMそれぞれに対して、重み付き単語リスト11を
利用して不要メール候補の電子メールである自動転送不
要メールM1と、受信が必要な電子メールである受信メ
ールM2とを弁別し、自動転送不要メールM1は自動転
送不要メールフォルダ21に、受信メールM2は受信メ
ールフォルダ22に保存する。
E-mail filtering module 1
For each of the received mails RM sent via the Internet 100, using the weighted word list 11, automatic transfer unnecessary mail M1 which is an electronic mail of an unnecessary mail candidate and electronic mail which needs to be received The mail M2 is discriminated, and the automatic transfer unnecessary mail M1 is stored in the automatic transfer unnecessary mail folder 21 and the received mail M2 is stored in the received mail folder 22.

【0030】受信メール処理モジュール2はユーザイン
タフェースを備えていて、電子メールフィルタリングモ
ジュール1によって仕分けされ、自動転送不要メールM
1として自動転送不要メールフォルダ21に保存されて
いる電子メール群をユーザが閲覧し、内容的に真に受信
して閲覧する必要のない不要メールM3を選択して不要
メールフォルダ23に転送し、残りの電子メールを受信
メールフォルダ22に転送する処理を行う。
The incoming mail processing module 2 has a user interface, is sorted by the electronic mail filtering module 1, and has an automatic transfer unnecessary mail M.
The user browses the e-mail group stored in the automatic transfer unnecessary mail folder 21 as 1, and selects the unnecessary mail M3 which does not need to be received by the true reception of the content and transfers it to the unnecessary mail folder 23, Processing for transferring the remaining e-mails to the received mail folder 22 is performed.

【0031】不要メール学習モジュール3は、随時にユ
ーザの指示により、あるいは、定期的に若しくは不要メ
ールフォルダ23に保存される不要メール群のうち前回
の処理から後に新規に保存された不要メールM3のデー
タ量が一定値に達したときに自動的に、受信メールフォ
ルダ22に保存されている受信メール群と不要メールフ
ォルダ23に保存されている不要メール群とを用いて重
み付き単語リスト11を再編成する。
The unnecessary mail learning module 3 detects unnecessary mail M3 newly saved after the previous process in the unnecessary mail group that is saved by the user's instruction at any time or periodically or in the unnecessary mail folder 23. When the data amount reaches a certain value, the weighted word list 11 is automatically re-created using the received mail group stored in the received mail folder 22 and the unnecessary mail group stored in the unnecessary mail folder 23. Organize.

【0032】次に、上記の構成の電子メールフィルタリ
ングシステムによる電子メールフィルタリング方法につ
いて、図2〜図4を用いて説明する。
Next, an electronic mail filtering method by the electronic mail filtering system having the above configuration will be described with reference to FIGS.

【0033】図2のフローチャートに示すように、電子
メールフィルタリングモジュール1は、インターネット
100を通じて送られてきた受信メールRMについて単
語解析し(ステップS1)、重み付き単語リスト11を
参照してメール毎のスコアを計算し(ステップS2)、
あらかじめ設定された判定しきい値とスコアとを比較し
て自動転送不要メールM1/受信メールM2を弁別する
(ステップS3)。そして、自動転送不要メールM1と
判定された電子メールは自動転送不要メールフォルダ2
1に保存し(ステップS4)、それ以外は受信メールM
2として受信メールフォルダ22に保存する(ステップ
S5)。なお、この受信メールフォルダ22に保存され
た電子メールについては、メーラー(メールソフト)側
に転送され、そのメーラーによって正規の受信メールと
して扱われ、メーリングリストに登録され、ユーザの閲
覧指示によりディスプレイの画面上に開いて読めるよう
になる。
As shown in the flow chart of FIG. 2, the electronic mail filtering module 1 analyzes the words in the received mail RM sent through the Internet 100 (step S1) and refers to the weighted word list 11 for each mail. Calculate the score (step S2),
The determination threshold value set in advance is compared with the score to discriminate the automatic transfer unnecessary mail M1 / received mail M2 (step S3). Then, the e-mail determined to be the automatic transfer unnecessary mail M1 is the automatic transfer unnecessary mail folder 2
Saved in 1 (step S4), otherwise received mail M
It is stored as 2 in the received mail folder 22 (step S5). The e-mail saved in the received mail folder 22 is forwarded to the mailer (mail software) side, treated as a legitimate received mail by the mailer, registered in the mailing list, and displayed on the screen of the display according to the user's browsing instruction. You can open it and read it.

【0034】ユーザは、随時にあるいはある程度決めら
れた周期で自動転送不要メールフォルダ21に保存され
ている自動転送不要メールM1と判定された電子メール
群の内容を逐一チェックする。そして、ユーザが個々の
電子メールの内容を見て受信して読む必要のないメール
であると判断した場合、例えば、興味のない宣伝メール
であったり、業務に関連しない勧誘メールであったり、
公序良俗に反する内容のメールであったりするときに
は、その電子メールを不要メールM3として不要メール
フォルダ23に転送する。そして、不要メールではない
メール群については受信メールフォルダ22に転送す
る。
The user checks the contents of the electronic mail group determined to be the automatic transfer unnecessary mail M1 stored in the automatic transfer unnecessary mail folder 21 at any time or at a predetermined cycle. Then, when the user determines that the email does not need to be read after receiving the content of each email, for example, it may be an advertisement email that is not of interest, or a solicitation email that is not related to business,
When the email has contents that are offensive to public order and morals, the email is transferred to the unwanted mail folder 23 as the unwanted mail M3. Then, the mail group that is not the unnecessary mail is transferred to the received mail folder 22.

【0035】そして、ユーザの意志によって随時に不要
メール学習モジュール3を起動し、あるいは、定期的に
若しくは不要メールフォルダ23に保存される不要メー
ル群のうち前回の処理から後に新規に保存された不要メ
ールM3のデータ量が一定値に達したときに自動的に不
要メール学習モジュール3を起動して、受信メールフォ
ルダ22に保存されている受信メール群と不要メールフ
ォルダ23に保存されている不要メール群を用いて重み
付き単語リスト11を再編成する。
Then, the unnecessary mail learning module 3 is activated at any time according to the user's will, or the unnecessary mail newly stored after the previous process in the unnecessary mail group stored regularly or in the unnecessary mail folder 23. When the amount of data of the mail M3 reaches a certain value, the unnecessary mail learning module 3 is automatically activated, and the received mail group stored in the received mail folder 22 and the unnecessary mail stored in the unnecessary mail folder 23 The group is used to reorganize the weighted word list 11.

【0036】これにより、重み付き単語リスト11の内
容が、本システムの運用が進むにつれてユーザの意志を
よりいっそう反映した内容にカスタマイズされていき、
電子メールフィルタリングモジュール1による電子メー
ルフィルタリング処理を、ユーザ毎の個性をより適切に
反映したものにすることができる。
As a result, the content of the weighted word list 11 is customized as the operation of the present system further reflects the user's intention.
The electronic mail filtering process by the electronic mail filtering module 1 can be made to more appropriately reflect the individuality of each user.

【0037】なお、受信メール処理モジュール2は、自
動転送不要メールフォルダ21に保存されている電子メ
ール各々の受信日時を定期的にチェックし、あるいはユ
ーザの指示によってチェックし、ユーザが一定期間閲覧
しないまま経過しているものについては自動的に不要メ
ールM3と判定して不要メールフォルダ23に転送させ
ることにしてもよい。これにより、自動転送不要メール
フォルダ21に保存されている電子メール群を逐一閲覧
しなければならないユーザの煩わしさをなくすことがで
きる。
The received mail processing module 2 periodically checks the reception date and time of each electronic mail stored in the automatic transfer unnecessary mail folder 21, or checks according to the user's instruction, and the user does not browse for a certain period of time. The remaining mail may be automatically determined to be the unnecessary mail M3 and transferred to the unnecessary mail folder 23. As a result, it is possible to eliminate the troublesomeness of the user who has to browse the electronic mail groups stored in the automatic transfer unnecessary mail folder 21 one by one.

【0038】次に、受信メールが自動転送不要メールに
該当するか否かを判定するために利用するメール毎のス
コアの演算方法について詳しく説明する。重み付き単語
リスト11は、予め多数の単語それぞれに後述する方法
で自動転送不要メールM1と受信メールM2とを弁別す
るのにふさわしい重みを設定した図3に示すようなリス
トである。なお、このリスト11にはシステムの運用開
始当初には初期設定値としてあらかじめ用意されている
単語と重みが登録されているが、後述する自動学習によ
り再編成が繰り返され、徐々にユーザの嗜好が反映され
るようになる。
Next, the method of calculating the score for each mail used to determine whether the received mail corresponds to the automatic transfer unnecessary mail will be described in detail. The weighted word list 11 is a list as shown in FIG. 3 in which a number of words is set in advance with a weight suitable for discriminating the automatic transfer unnecessary mail M1 and the received mail M2 by a method described later. Although words and weights prepared in advance as initial setting values are registered in the list 11 at the beginning of system operation, reorganization is repeated by automatic learning to be described later, and the user's preference gradually increases. It will be reflected.

【0039】電子メールを解析し、それ含まれる単語群
を重み付き単語リスト11に登録されている単語群と照
合し、該当する単語i毎のスコアfiを求める。同時に単
語i毎の重みwiも求める。次に、求めた単語i毎のスコ
アfiと重み値wiとを用いて、電子メール中のすべての単
語iについて重み値の総和、つまりスコアSを算出す
る。
The e-mail is analyzed, and the word group contained therein is collated with the word group registered in the weighted word list 11 to obtain the score fi for each corresponding word i. At the same time, the weight wi for each word i is also obtained. Next, using the obtained score fi and weight value wi for each word i, the sum of weight values, that is, the score S is calculated for all words i in the email.

【0040】続いて、この電子メールのスコアSを所定
のしきい値と比較し、スコアSがしきい値よりも小さい
場合には受信メールM2と判定して受信メールフォルダ
22に保存し、スコアSがしきい値よりも大きければ自
動転送不要メールM1と判定して自動転送不要メールフ
ォルダ21に保存するのである。
Subsequently, the score S of this e-mail is compared with a predetermined threshold value, and if the score S is smaller than the threshold value, it is judged as the received mail M2 and stored in the received mail folder 22, and the score If S is larger than the threshold value, it is determined as the automatic transfer unnecessary mail M1 and stored in the automatic transfer unnecessary mail folder 21.

【0041】単純化した例を示せば、電子メールの内容
が「…研究所において打合せします」というものであれ
ば、「研究所」=0.124、「打合せ」=−0.32
0であるので、スコアS1は、S1=0.124−0.
320=−0.196である。そこで、しきい値が0に
設定してあれば、この場合、スコアS1<しきい値であ
り、受信メールM2であると判定する。
To show a simplified example, if the content of the electronic mail is “... meet at a research institute”, “research lab” = 0.124, “meeting” = − 0.32
Since it is 0, the score S1 is S1 = 0.124-0.
320 = -0.196. Therefore, if the threshold value is set to 0, in this case, it is determined that the score S1 <threshold value and the received mail M2.

【0042】これに対して、電子メールの内容が「…研
究所からの投資の情報です」というものであれば、「研
究所」=0.124、「投資」=0.873、「情報」
=0.010であるので、スコアS2は、S2=0.1
24+0.873+0.010=1.007である。こ
の場合、スコアS2>しきい値であり、自動転送不要メ
ールM1であると判定する。
On the other hand, if the content of the e-mail is "... investment information from research institute", "research institute" = 0.124, "investment" = 0.873, "information"
= 0.010, the score S2 is S2 = 0.1
24 + 0.873 + 0.010 = 1.007. In this case, the score S2> the threshold value, and it is determined that the automatic transfer unnecessary mail M1.

【0043】これにより、例えば、ユーザが投資に興味
がなく、そのような勧誘のメールを受けたくない場合、
図3に示したような重み付き単語リスト11のカスタマ
イズにより(なお、このカスタマイズは後述する方法で
自動的に行われるものであるが)投資の勧誘メールを不
要メールとして排除することができる。
Thus, for example, when the user is not interested in investment and does not want to receive such solicitation mail,
By customizing the weighted word list 11 as shown in FIG. 3 (note that this customization is automatically performed by the method described later), the investment solicitation mail can be excluded as an unnecessary mail.

【0044】上記は単純な例について説明したが、より
詳しいスコア算出方法は、次の通りである。取り込んだ
電子メールをベクトル空間モデルによって表現する。す
なわち、すべてメール文を表現するn個の単語を選択
し、それぞれのメール文dをn次元のベクトルで次式の
ように表現する。
Although a simple example has been described above, a more detailed score calculation method is as follows. The captured email is represented by a vector space model. That is, n words expressing all mail sentences are selected, and each mail sentence d is expressed by an n-dimensional vector as in the following equation.

【0045】[0045]

【数1】 このベクトルの各要素は、単語1〜nの各々のメール文
dでの重要度を表したものである。単語の重要度の表現
には、次式で表わされるTF*IDFという手法を用いてい
る。
[Equation 1] Each element of this vector represents the importance of each of the words 1 to n in the mail sentence d. A method called TF * IDF expressed by the following equation is used to express the importance of words.

【0046】[0046]

【数2】 ここで、tfdiは単語iがメール文dに出現する頻度、N
はすべてのメール文の数、dfi は単語iが出現するメー
ル文の数である。
[Equation 2] Here, tf di is the frequency of occurrence of the word i in the mail sentence d, N
Is the number of all mail texts, and df i is the number of mail texts in which the word i appears.

【0047】あるメール文dのスコアScore(d)は、次式
によって計算される。
The score Score (d) of a mail text d is calculated by the following equation.

【0048】[0048]

【数3】 ここで、wiは各単語iに対する重みであり、fdiは数2
式の値であり、メール文dにおける各単語のfdi値であ
る。
[Equation 3] Here, wi is the weight for each word i, and f di is the number 2
It is the value of the expression and the f di value of each word in the mail sentence d.

【0049】そして、数3式のスコアScore(d)がしきい
値である0よりも大きい場合、前記メールは自動転送不
要メールM1であり、0よりも小さい場合には受信メー
ルM2であると判定するのである。なお、上述した各単
語iに対する重みwiは、自動転送不要メールである場
合、スコアScore(d)が0よりも大きくなり、そうでない
メールの場合にはスコアScore(d)が0よりも小さくなる
ように設定される。
If the score Score (d) of the equation 3 is larger than the threshold value of 0, the mail is the automatic transfer unnecessary mail M1, and if it is smaller than 0, it is the received mail M2. Make a decision. The weight wi for each word i described above has a score Score (d) larger than 0 in the case of an automatic transfer unnecessary mail, and becomes smaller than 0 in the case of a mail other than that. Is set as follows.

【0050】図1における不要メール学習モジュール3
により、受信メールフォルダ22のメール群と不要メー
ルフォルダ23のメール群とを用い、重み付き単語リス
ト11を自動的に、あるいはユーザの指示によって随時
に更新する。この重み付き単語リスト11の再編成の方
法はPLA法(Perceptron Learning Algorithm法)に
よる。それを、図4のフローチャートに示す。
Unwanted mail learning module 3 in FIG.
By using the mail group of the received mail folder 22 and the mail group of the unnecessary mail folder 23, the weighted word list 11 is updated automatically or at any time by a user's instruction. The method of reorganizing the weighted word list 11 is based on the PLA method (Perceptron Learning Algorithm method). This is shown in the flowchart of FIG.

【0051】まず、各種パラメータを設定する(ステッ
プS11)。このパラメータとしては、各単語の重みの
集合W=(w1,w2,…,wn)、N個の学習データE=
{d1,d2,…,dN}、誤分類データベクトル和S=(S
1,…,Sn)、定数η、最大学習回数Max、図4に示す学
習処理を繰り返す学習回数mがある。
First, various parameters are set (step S11). As this parameter, a set of weights of each word W = (w1, w2, ..., Wn), N learning data E =
{D1, d2, ..., dN}, misclassified data vector sum S = (S
, ..., Sn), a constant η, a maximum learning number Max, and a learning number m for repeating the learning process shown in FIG.

【0052】それから、全メール文を表現する単語のう
ち頻度の高いn個の単語を選択する(ステップS1
2)。
Then, n high-frequency words are selected from the words expressing all the mail sentences (step S1).
2).

【0053】次に、単語の重みの集合Wを初期化する
(ステップS13)。この初期化では、各単語の重みに
乱数を入力する。それから、すべての学習データに対し
て前記単語重みの総和、つまりスコアScore(d)を数3式
によって計算する(ステップS14)。
Next, the word weight set W is initialized (step S13). In this initialization, a random number is input as the weight of each word. Then, the sum of the word weights, that is, the score Score (d), is calculated for all learning data by the formula 3 (step S14).

【0054】この計算結果において、すべての受信メー
ルM2についてスコアScore(d)≦0であり、かつすべて
の不要メールM3についてスコアScore(d)>0であるか
否かをチェックし(ステップS15)、YESである場
合には処理を終了するが、NOの場合には、誤って分類
されたすべてのメール文について次のステップS17,
S18で示すように重みの変化度合Sを補正する。
In this calculation result, it is checked whether or not the score Score (d) ≦ 0 for all the received mails M2 and the score Score (d)> 0 for all the unnecessary mails M3 (step S15). , If YES, the process is ended, but if NO, the following step S17, for all incorrectly classified mail sentences,
The degree S of change in weight is corrected as shown in S18.

【0055】すなわち、ステップS17では、メールdj
が不要メールM3であって、かつスコアScore(dj)≦0
である場合には、重み変化度合を増加するように補正
し、またステップS18では、メールdjが受信メールM
2であって、かつスコアScore(dj)>0である場合に
は、重み変化度合Sを低減するように補正する。
That is, in step S17, the mail dj
Is unnecessary mail M3, and score Score (dj) ≦ 0
If it is, the weight change degree is corrected to be increased, and in step S18, the mail dj receives the received mail M.
When the score is 2 and the score Score (dj)> 0, the weight change degree S is corrected so as to be reduced.

【0056】そして、このように補正された重み変化度
合Sを使用して単語重みの集合WをステップS19に示
す式のように補正する。それから、学習回数mを+1イ
ンクリメントし(ステップS20)、この学習回数mが
最大学習回数Maxより小さいか否かをチェックする(ス
テップS21)。ここで、学習回数mが最大学習回数Ma
xよりも小さければステップS14に戻り、ステップS
15に示した条件が満たされるまでステップS14以降
の処理を繰り返し行う。そして、最終的にn個の単語i
に対する単語重みwiの集合W=(w1,…,wn)を求め、これ
を重み付き単語リスト11に更新登録するのである。
Then, using the degree S of weight change thus corrected, the set W of word weights is corrected as in the equation shown in step S19. Then, the learning number m is incremented by +1 (step S20), and it is checked whether or not the learning number m is smaller than the maximum learning number Max (step S21). Here, the learning number m is the maximum learning number Ma
If it is smaller than x, the process returns to step S14 and step S
The processing from step S14 is repeated until the condition shown in 15 is satisfied. And finally, the n words i
The set W = (w1, ..., Wn) of the word weight wi for is calculated, and this is updated and registered in the weighted word list 11.

【0057】このようにして、本実施の形態の電子メー
ルフィルタリングシステム及び電子メールフィルタリン
グ方法によれば、ユーザ毎に重み付き単語リスト11を
その個性を反映させる自動学習によって充実させ、受信
メールに対してこの重み付き単語リスト11を利用して
スコアを算出し、しきい値を超えるスコアを示す電子メ
ールについては自動転送不要メールとして受信メールか
ら排除するようにしたので、メール文の内容に応じたフ
ィルタリングが可能であり、従来手法によって誤ってフ
ィルタリングされていた電子メールについても正確にフ
ィルタリングすることができる。また、ユーザ毎に自動
的にカスタマイズしたメールフィルタリングが行える上
に、ユーザ自身がフィルタリングのキーワードを指定す
る必要がなくてユーザへの負担が少ない電子メールフィ
ルタリングができる。
As described above, according to the electronic mail filtering system and the electronic mail filtering method of the present embodiment, the weighted word list 11 for each user is enriched by the automatic learning reflecting the individuality thereof, and the received mail is received. A score is calculated using the lever-weighted word list 11, and an email having a score exceeding a threshold is excluded from the received emails as an email that does not require automatic forwarding. It is possible to filter, and it is possible to accurately filter e-mails that were mistakenly filtered by the conventional method. In addition to automatically customized mail filtering for each user, the user does not need to specify a filtering keyword by himself or herself, and electronic mail filtering can be performed with less burden on the user.

【0058】なお、本発明は上記のシステムだけでな
く、当該システムを構築するためにコンピュータにイン
ストールする電子メールフィルタリングプログラム自
体、またそれを記録した記録媒体をも技術的範囲とす
る。
The present invention covers not only the above system but also the electronic mail filtering program itself installed in the computer for constructing the system, and the recording medium recording the electronic mail filtering program.

【0059】また、上記のシステムはユーザ個々のコン
ピュータ上に構築した電子メールフィルタリングシステ
ムについて説明したが、これに限定されない。例えば、
携帯電話を利用した電子メールのプロバイダ側におい
て、そのメールサーバに当該システムを構築し、通常時
には、個々のユーザに対しては受信メールフォルダ22
に保存された受信メールM2群だけで転送するようにす
る。そして、ユーザの携帯電話あるいはコンピュータ
(通常、自動転送不要メール群のデータ量は大量となる
可能性が高いので、ユーザ毎にIDとパスワードにより
当該システムへのアクセスを可能としておくのが好まし
い)から自動転送不要メールフォルダ21に対するアク
セス要求を受信したときには自動転送不要メールM1群
を該当ユーザの携帯電話又はコンピュータにダウンロー
ドし、ユーザ側でそのメールM1群の内容を閲覧させ
る。そして、受信メール処理モジュール2側では、ユー
ザが不要メールM3と判断した電子メールについては自
動転送不要メールフォルダ21から不要メールフォルダ
23に自動転送させ、それ以外の電子メールについては
受信メールフォルダ22に自動転送させる。そして、プ
ロバイダのメールサーバでは、不要メール学習モジュー
ル3が、ユーザから自動転送不要メールフォルダ21に
対するアクセス要求が発生する度に、不要メールフォル
ダ23の内容が更新されたものとみなし、自動的に上述
した重み付き単語リスト11の更新処理を実行させる。
このようにすれば、携帯電話で電子メールを利用する場
合に、ユーザ毎にその個性を反映させたフィルタリング
を行って必要な内容の電子メールだけを配信することが
できるようになり、迷惑メールの排除にも効果的とな
る。
Further, although the above-mentioned system has been described as the electronic mail filtering system constructed on the computer of each user, the present invention is not limited to this. For example,
On the side of the e-mail provider using a mobile phone, the system is constructed on the mail server, and normally, the received mail folder 22 is set for each user.
Only the received mail M2 group stored in is transferred. Then, from the user's mobile phone or computer (usually, the amount of data in the automatic transfer unnecessary mail group is likely to be large, so it is preferable to enable access to the system by ID and password for each user) When the access request for the automatic transfer unnecessary mail folder 21 is received, the automatic transfer unnecessary mail M1 group is downloaded to the mobile phone or the computer of the relevant user, and the user side browses the contents of the mail M1 group. Then, on the side of the received mail processing module 2, the electronic mail that the user has determined to be unnecessary mail M3 is automatically transferred from the unnecessary automatic mail transfer folder 21 to the unnecessary mail folder 23, and the other electronic mail is transferred to the received mail folder 22. Automatically transfer. Then, in the mail server of the provider, the unnecessary mail learning module 3 considers that the content of the unnecessary mail folder 23 is updated each time the user makes an access request to the automatic transfer unnecessary mail folder 21, and the above-mentioned automatic operation is automatically performed. The weighted word list 11 is updated.
By doing this, when using e-mail on a mobile phone, it becomes possible to perform filtering that reflects the individuality of each user and deliver only the e-mail with the necessary contents, and It is also effective in eliminating.

【0060】また、上記の実施の形態ではTF*IDF
の手法を用いたが、これに限らず、単純にTF(文書内
出現頻度)のみを利用したベクトル、さらに単純なベク
トルとして単語の出現の有無を0/1で表す手法も採用
することができる。
In the above embodiment, TF * IDF
However, the present invention is not limited to this, and a vector that simply uses TF (occurrence frequency in a document), or a simple vector in which the presence or absence of a word is represented by 0/1 can also be adopted. .

【0061】[0061]

【発明の効果】以上のように本発明によれば、ユーザ毎
に重み付き単語リストをその個性を反映させた自動学習
によって充実させ、受信メールに対してこの重み付き単
語リストを利用してスコアを算出し、しきい値を超える
スコアを示す電子メールについては自動転送不要メール
として受信メールから排除するので、メール文の内容に
応じたフィルタリングが可能であり、従来手法によって
誤ってフィルタリングされていた電子メールについても
正確にフィルタリングすることができる。また、ユーザ
毎に自動的にカスタマイズしたフィルタリングが行える
上に、ユーザ自身がフィルタリングのキーワードを指定
する必要がなくてキーワード登録のためにユーザに求め
る負担が少ない利点がある。
As described above, according to the present invention, the weighted word list for each user is enriched by automatic learning reflecting its individuality, and received mails are scored using this weighted word list. Is calculated, and emails with scores exceeding the threshold are excluded from incoming emails as unnecessary emails for automatic forwarding, so it is possible to filter according to the content of the email text, and it was erroneously filtered by the conventional method. E-mail can also be filtered accurately. In addition, it is possible to automatically perform customized filtering for each user, and there is an advantage that the user does not need to specify a keyword for filtering and the burden on the user for registering the keyword is small.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の1つの実施の形態の電子メールフィル
タリングシステムの機能構成を示すブロック図。
FIG. 1 is a block diagram showing a functional configuration of an electronic mail filtering system according to an embodiment of the present invention.

【図2】上記の実施の形態による電子メールフィルタリ
ング処理のフローチャート。
FIG. 2 is a flowchart of an electronic mail filtering process according to the above embodiment.

【図3】上記の実施の形態で用いる重み付き単語リスト
の一例の説明図。
FIG. 3 is an explanatory diagram of an example of a weighted word list used in the above embodiment.

【図4】上記の実施の形態による重み付き単語リストの
編成処理のフローチャート。
FIG. 4 is a flowchart of a weighted word list organization process according to the above embodiment.

【符号の説明】[Explanation of symbols]

1 電子メールフィルタリングモジュール 2 受信メール処理モジュール 3 不要メール学習モジュール 11 重み付き単語リスト 21 自動転送不要メールフォルダ 22 受信メールフォルダ 23 不要メールフォルダ 100 インターネット 1 Email filtering module 2 Received mail processing module 3 unnecessary email learning module 11 Weighted word list 21 Automatic transfer unnecessary mail folder 22 Received mail folder 23 Unnecessary mail folder 100 Internet

───────────────────────────────────────────────────── フロントページの続き (72)発明者 井ノ上 直己 埼玉県上福岡市大原2丁目1番15号 株式 会社ケイディーディーアイ研究所内 Fターム(参考) 5B075 ND03 NR12 PQ05 QP01 UU24   ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Naomi Inoue             2-15-1 Ohara, Kamifukuoka City, Saitama Stock             Company CAD Research Institute F term (reference) 5B075 ND03 NR12 PQ05 QP01 UU24

Claims (20)

【特許請求の範囲】[Claims] 【請求項1】 多数の送信メール又は受信メールそれぞ
れに対して単語解析を行い、重み付き単語リストを参照
して出現する単語毎の重みを求め、その総和をしきい値
と比較して不要メール候補の電子メールと受信が必要な
電子メールとの判定を行い、不要メール候補の電子メー
ルを抽出する電子メールフィルタリング手段と、 前記電子メールフィルタリング手段によって抽出された
不要メール候補の電子メール群を保存する不要メール候
補保存手段と、 前記電子メールフィルタリング手段によって抽出されな
かった受信が必要な電子メール群を保存する受信メール
保存手段と、 前記不要メール候補保存手段に保存されている不要メー
ル候補の電子メール群の中から選択された不要メール群
を保存する不要メール保存手段と、 前記不要メール候補保存手段に保存されている不要メー
ル候補の電子メール群から不要メール群を選択して前記
不要メール保存手段に転送し、残りの電子メール群を前
記受信メール保存手段に転送する受信メール処理手段
と、 前記不要メール保存手段及び受信メール保存手段に保存
されている電子メール群の単語解析を行い、不要メール
候補の電子メールと受信が必要な電子メールとの判定を
行うために使用する重みを単語毎に求め、前記重み付き
単語リストを再編成する不要メール学習手段とを備えて
成る電子メールフィルタリングシステム。
1. An unnecessary mail by analyzing a word for each of a large number of sent mails or received mails, obtaining a weight for each word that appears by referring to a weighted word list, and comparing the sum with a threshold value. E-mail filtering means for determining candidate e-mails and e-mails that need to be received and extracting unnecessary e-mail candidate e-mails, and storing unnecessary e-mail candidate e-mail groups extracted by the e-mail filtering means Unnecessary mail candidate storing means, received mail saving means for saving a group of e-mails that need to be received that have not been extracted by the electronic mail filtering means, and electronic mail for unnecessary mail candidates saved in the unnecessary mail candidate saving means Unnecessary mail storage means for storing the unnecessary mail group selected from the mail group; Incoming mail processing means for selecting an unnecessary mail group from the unnecessary mail candidate electronic mail group stored in the candidate storing means, transferring the unnecessary mail group to the unnecessary mail storing means, and transferring the remaining electronic mail group to the received mail storing means And performing a word analysis of the email groups stored in the unnecessary email storage means and the received email storage means, and determining the weights used for determining unnecessary email candidate emails and emails that need to be received. An e-mail filtering system, comprising: an unnecessary e-mail learning unit that obtains each word and reorganizes the weighted word list.
【請求項2】 前記不要メール候補保存手段に保存され
ている電子メール群のうち、所定期間読出しがなかった
電子メールについて前記不要メール保存手段に転送する
不要メール候補転送手段を備えたことを特徴とする請求
項1に記載の電子メールフィルタリングシステム。
2. An unnecessary mail candidate transfer means for transferring to the unnecessary mail storage means an electronic mail that has not been read out for a predetermined period from the group of electronic mails stored in the unnecessary mail candidate storage means. The electronic mail filtering system according to claim 1.
【請求項3】 前記不要メール学習手段は、前記不要メ
ール保存手段に保存されている電子メール群の容量が所
定量増加したときに前記重み付き単語リストの再編成を
実行することを特徴とする請求項1又は2に記載の電子
メールフィルタリングシステム。
3. The unnecessary mail learning means reorganizes the weighted word list when the capacity of the electronic mail group stored in the unnecessary mail storage means increases by a predetermined amount. The electronic mail filtering system according to claim 1.
【請求項4】 前記不要メール学習手段は、所定の周期
毎に前記重み付き単語リストの再編成を実行することを
特徴とする請求項1又は2に記載の電子メールフィルタ
リングシステム。
4. The electronic mail filtering system according to claim 1, wherein the unnecessary mail learning means executes reorganization of the weighted word list every predetermined period.
【請求項5】 前記不要メール学習手段は、PLA法
(Perceptron Learning Algorithm法)によって前記重
み付き単語リストの再編成を行うことを特徴とする請求
項1〜4のいずかに記載の電子メールフィルタリングシ
ステム。
5. The electronic mail according to claim 1, wherein the unnecessary mail learning means reorganizes the weighted word list by a PLA method (Perceptron Learning Algorithm method). Filtering system.
【請求項6】 情報ネットワークを通じて受信する電子
メールそれぞれに対して単語解析を行い、重み付き単語
リストを参照して出現する単語毎の重みを求め、その総
和をしきい値と比較して不要メール候補の電子メールと
受信が必要な電子メールとの判定を行うステップ(1)
と、 前記ステップ(1)で不要メール候補の電子メールと判
定された電子メール群を不要メール候補保存手段に保存
するステップ(2)と、 前記ステップ(1)で受信が必要な電子メールと判定さ
れた電子メール群を受信メール保存手段に保存するステ
ップ(3)と、 前記不要メール候補保存手段に保存されている不要メー
ル候補の電子メール群から選択された不要メール群を不
要メール保存手段に転送して保存し、残りの電子メール
群を前記受信メール保存手段に転送するステップ(4)
と、 前記不要メール保存手段及び受信メール保存手段に保存
されている電子メール群の単語解析を行い、不要メール
候補の電子メールと受信が必要な電子メールとの判定を
行うために使用する重みを単語毎に求め、前記重み付き
単語リストを再編成するステップ(5)とを有する電子
メールフィルタリング方法。
6. Unwanted mail by analyzing words for each electronic mail received through an information network, obtaining a weight for each word that appears by referring to a weighted word list, and comparing the sum with a threshold value. Step (1) of determining candidate emails and emails that need to be received
And a step (2) of storing the e-mail group determined to be unnecessary e-mail candidate e-mails in the step (1) in the unnecessary e-mail candidate storage means, and an e-mail that needs to be received in the step (1) (3) storing the selected e-mail group in the received e-mail storage means, and the unnecessary e-mail group selected from the unnecessary e-mail candidate e-mail groups stored in the unnecessary e-mail candidate storage means in the unnecessary e-mail storage means. Step (4) of transferring and saving, and transferring the remaining e-mail group to the received mail saving means
And performing a word analysis of the email groups stored in the unnecessary email storage means and the received email storage means, and determining the weights used for determining unnecessary email candidate emails and emails that need to be received. And (5) recalculating the weighted word list, which is obtained word by word.
【請求項7】 前記不要メール候補保存手段に保存され
ている電子メール群のうち、所定期間読出しがなかった
電子メールについて前記不要メール保存手段に転送する
ステップ(6)を有することを特徴とする請求項6に記
載の電子メールフィルタリング方法。
7. The method according to claim 7, further comprising a step (6) of transferring, to the unnecessary mail storage means, an electronic mail that has not been read out for a predetermined period from the electronic mail group stored in the unnecessary mail candidate storage means. The electronic mail filtering method according to claim 6.
【請求項8】 前記ステップ(5)は、前記不要メール
保存手段に保存されている電子メール群の容量が所定値
に達したときに実行することを特徴とする請求項6又は
7に記載の電子メールフィルタリング方法。
8. The method according to claim 6, wherein the step (5) is executed when the capacity of the electronic mail group stored in the unnecessary mail storage means reaches a predetermined value. Email filtering method.
【請求項9】 前記ステップ(5)は、所定の周期毎に
定期的に実行することを特徴とする請求項6又は7に記
載の電子メールフィルタリング方法。
9. The electronic mail filtering method according to claim 6, wherein the step (5) is executed periodically at a predetermined cycle.
【請求項10】 前記ステップ(5)では、PLA法
(Perceptron Learning Algorithm法)によって前記重
み付き単語リストの再編成を行うことを特徴とする請求
項6〜9のいずれかに記載の電子メールフィルタリング
方法。
10. The electronic mail filtering according to claim 6, wherein in the step (5), the weighted word list is reorganized by a PLA method (Perceptron Learning Algorithm method). Method.
【請求項11】 情報ネットワークを通じて受信する電
子メールそれぞれに対して単語解析を行い、重み付き単
語リストを参照して出現する単語毎の重みを求め、その
総和をしきい値と比較して不要メール候補の電子メール
と受信が必要な電子メールとの判定を行う処理(1)
と、 前記処理(1)で不要メール候補の電子メールと判定さ
れた電子メール群を不要メール候補保存手段に保存する
処理(2)と、 前記処理(1)で受信が必要な電子メールと判定された
電子メール群を受信メール保存手段に保存する処理
(3)とをコンピュータに実行させることを特徴とする
電子メールフィルタリングプログラム。
11. An unnecessary mail by performing word analysis on each electronic mail received through an information network, obtaining a weight for each word that appears by referring to a weighted word list, and comparing the sum with a threshold value. Processing to determine candidate emails and emails that need to be received (1)
A step (2) of storing the group of emails determined to be unnecessary email candidates in the step (1) in the unnecessary email candidate storage means; and a step of determining that the emails should be received in the step (1) An electronic mail filtering program which causes a computer to execute a process (3) of storing the received electronic mail group in the received mail storage means.
【請求項12】 不要メール保存手段及び前記受信メー
ル保存手段に保存されている電子メール群の単語解析を
行い、不要メール候補の電子メールと受信が必要な電子
メールとの判定を行うために使用する重みを単語毎に求
め、前記重み付き単語リストを再編成する処理(4)を
コンピュータに実行させることを特徴とする請求項11
に記載の電子メールフィルタリングプログラム。
12. Use for word analysis of an electronic mail group stored in the unnecessary mail storage means and the received mail storage means, and to determine an unnecessary mail candidate electronic mail and an electronic mail that needs to be received. 12. The computer is caused to execute a process (4) of obtaining a weight to be performed for each word and reorganizing the weighted word list.
Email filtering program described in.
【請求項13】 前記処理(4)は、前記不要メール保
存手段に保存されている電子メール群の容量が所定値に
達したときに実行することを特徴とする請求項12に記
載の電子メールフィルタリングプログラム。
13. The electronic mail according to claim 12, wherein the processing (4) is executed when the capacity of the electronic mail group stored in the unnecessary mail storage means reaches a predetermined value. Filtering program.
【請求項14】 前記処理(4)は、所定の周期毎に定
期的に実行することを特徴とする請求項12に記載の電
子メールフィルタリングプログラム。
14. The electronic mail filtering program according to claim 12, wherein the processing (4) is periodically executed at predetermined intervals.
【請求項15】 前記処理(4)では、PLA法(Perc
eptron Learning Algorithm法)によって前記重み付き
単語リストの再編成を行うことを特徴とする請求項12
〜14のいずれかに記載の電子メールフィルタリングプ
ログラム。
15. The PLA method (Perc method) is used in the processing (4).
13. The weighted word list is reorganized by the eptron Learning Algorithm method.
An e-mail filtering program according to any one of 1 to 14.
【請求項16】 情報ネットワークを通じて受信する電
子メールそれぞれに対して単語解析を行い、重み付き単
語リストを参照して出現する単語毎の重みを求め、その
総和をしきい値と比較して不要メール候補の電子メール
と受信が必要な電子メールとの判定を行う処理(1)
と、 前記処理(1)で不要メール候補の電子メールと判定さ
れた電子メール群を不要メール候補保存手段に保存する
処理(2)と、 前記処理(1)で受信が必要な電子メールと判定された
電子メール群を受信メール保存手段に保存する処理
(3)とを実行する電子メールフィルタリングプログラ
ムを記録したコンピュータ読取り可能な記録媒体。
16. An unnecessary mail by performing word analysis on each electronic mail received through an information network, obtaining a weight for each word that appears by referring to a weighted word list, and comparing the sum with a threshold value. Processing to determine candidate emails and emails that need to be received (1)
A step (2) of storing the group of emails determined to be unnecessary email candidates in the step (1) in the unnecessary email candidate storage means; and a step of determining that the emails should be received in the step (1) A computer-readable recording medium recording an electronic mail filtering program for executing the processing (3) of storing the received electronic mail group in the received mail storage means.
【請求項17】 前記処理(1)〜(3)と共に、不要
メール保存手段及び前記受信メール保存手段に保存され
ている電子メール群の単語解析を行い、不要メール候補
の電子メールと受信が必要な電子メールとの判定を行う
ために使用する重みを単語毎に求め、前記重み付き単語
リストを再編成する処理(4)を実行する電子メールフ
ィルタリングプログラムを記録した請求項16に記載の
コンピュータ読取り可能な記録媒体。
17. Along with the processes (1) to (3), word analysis is performed on an electronic mail group stored in the unnecessary mail storage unit and the received mail storage unit, and an unnecessary mail candidate electronic mail and reception are required. 17. The computer reading according to claim 16, wherein an electronic mail filtering program for executing a process (4) of obtaining a weight used for determining a proper electronic mail for each word and reorganizing the weighted word list is recorded. Possible recording medium.
【請求項18】 前記処理(4)では、前記不要メール
保存手段に保存されている電子メール群の容量が所定値
に達したときに実行する電子メールフィルタリングプロ
グラムを記録した請求項17に記載のコンピュータ読取
り可能な記録媒体。
18. The electronic mail filtering program according to claim 17, wherein the processing (4) records an electronic mail filtering program which is executed when the capacity of the electronic mail group stored in the unnecessary mail storage means reaches a predetermined value. Computer-readable recording medium.
【請求項19】 前記処理(4)では、所定の周期毎に
定期的に実行する電子メールフィルタリングプログラム
を記録した請求項17に記載のコンピュータ読取り可能
な記録媒体。
19. The computer-readable recording medium according to claim 17, wherein in the processing (4), an electronic mail filtering program which is periodically executed at a predetermined cycle is recorded.
【請求項20】 前記処理(4)では、PLA法(Perc
eptron Learning Algorithm法)によって前記重み付き
単語リストの再編成を行う電子メールフィルタリングプ
ログラムを記録した請求項16〜19のいずれかに記載
のコンピュータ読取り可能な記録媒体。
20. In the processing (4), the PLA method (Perc
20. The computer-readable recording medium according to claim 16, wherein an electronic mail filtering program for reorganizing the weighted word list by an eptron learning algorithm method) is recorded.
JP2001256795A 2001-08-27 2001-08-27 Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it Pending JP2003067304A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001256795A JP2003067304A (en) 2001-08-27 2001-08-27 Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001256795A JP2003067304A (en) 2001-08-27 2001-08-27 Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it

Publications (1)

Publication Number Publication Date
JP2003067304A true JP2003067304A (en) 2003-03-07

Family

ID=19084565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001256795A Pending JP2003067304A (en) 2001-08-27 2001-08-27 Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it

Country Status (1)

Country Link
JP (1) JP2003067304A (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006514371A (en) * 2003-02-25 2006-04-27 マイクロソフト コーポレーション Adaptive junk message filtering system
JP2007122148A (en) * 2005-10-25 2007-05-17 Just Syst Corp Electronic mail sorting device and electronic mail sorting method
JP2008502998A (en) * 2004-06-14 2008-01-31 クゥアルコム・インコーポレイテッド Communication information about the contents of the electronic message to the server
JP2010506247A (en) * 2006-09-30 2010-02-25 アリババ グループ ホールディング リミテッド Network-based method and apparatus for filtering junk information
JP2010507153A (en) * 2006-10-18 2010-03-04 アリババ グループ ホールディング リミテッド Junk information determination method and system
JP2010239280A (en) * 2009-03-30 2010-10-21 Nec Corp E-mail distribution system, e-mail distribution method and e-mail distribution control program used for the system
JP2011164970A (en) * 2010-02-10 2011-08-25 Nec Corp Mail management method in terminal device, mail management apparatus, and mail management program
US20110213850A1 (en) * 2008-08-21 2011-09-01 Yamaha Corporation Relay apparatus, relay method and recording medium
JP2011526393A (en) * 2008-06-26 2011-10-06 アリババ グループ ホールディング リミテッド Filtering information using targeted filtering schemes
WO2012066650A1 (en) * 2010-11-17 2012-05-24 富士通株式会社 Information processing device, message extracting method and message extracting program
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
JP2013519165A (en) * 2010-02-03 2013-05-23 アルコード コーポレーション Electronic message system and method
WO2016021160A1 (en) * 2014-08-04 2016-02-11 エースチャイルド株式会社 Risk detection device, risk detection method, and risk detection program

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006514371A (en) * 2003-02-25 2006-04-27 マイクロソフト コーポレーション Adaptive junk message filtering system
JP2008502998A (en) * 2004-06-14 2008-01-31 クゥアルコム・インコーポレイテッド Communication information about the contents of the electronic message to the server
JP4688630B2 (en) * 2005-10-25 2011-05-25 株式会社ジャストシステム E-mail classification device and e-mail classification method
JP2007122148A (en) * 2005-10-25 2007-05-17 Just Syst Corp Electronic mail sorting device and electronic mail sorting method
JP2010506247A (en) * 2006-09-30 2010-02-25 アリババ グループ ホールディング リミテッド Network-based method and apparatus for filtering junk information
US8326776B2 (en) 2006-09-30 2012-12-04 Alibaba Group Holding Limited Network-based method and apparatus for filtering junk messages
JP2010507153A (en) * 2006-10-18 2010-03-04 アリババ グループ ホールディング リミテッド Junk information determination method and system
US8234291B2 (en) 2006-10-18 2012-07-31 Alibaba Group Holding Limited Method and system for determining junk information
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
JP2011526393A (en) * 2008-06-26 2011-10-06 アリババ グループ ホールディング リミテッド Filtering information using targeted filtering schemes
US9201953B2 (en) 2008-06-26 2015-12-01 Alibaba Group Holding Limited Filtering information using targeted filtering schemes
US8725746B2 (en) 2008-06-26 2014-05-13 Alibaba Group Holding Limited Filtering information using targeted filtering schemes
US20110213850A1 (en) * 2008-08-21 2011-09-01 Yamaha Corporation Relay apparatus, relay method and recording medium
US8676907B2 (en) 2008-08-21 2014-03-18 Yamaha Corporation Relay apparatus, relay method and recording medium
JP2010239280A (en) * 2009-03-30 2010-10-21 Nec Corp E-mail distribution system, e-mail distribution method and e-mail distribution control program used for the system
JP2013519165A (en) * 2010-02-03 2013-05-23 アルコード コーポレーション Electronic message system and method
JP2011164970A (en) * 2010-02-10 2011-08-25 Nec Corp Mail management method in terminal device, mail management apparatus, and mail management program
WO2012066650A1 (en) * 2010-11-17 2012-05-24 富士通株式会社 Information processing device, message extracting method and message extracting program
US8676568B2 (en) 2010-11-17 2014-03-18 Fujitsu Limited Information processing apparatus and message extraction method
JP5423904B2 (en) * 2010-11-17 2014-02-19 富士通株式会社 Information processing apparatus, message extraction method, and message extraction program
WO2016021160A1 (en) * 2014-08-04 2016-02-11 エースチャイルド株式会社 Risk detection device, risk detection method, and risk detection program

Similar Documents

Publication Publication Date Title
KR100918599B1 (en) Method and apparatus for identifying potential recipients
JP4742618B2 (en) Information processing system, program, and information processing method
US7930351B2 (en) Identifying undesired email messages having attachments
US8010614B1 (en) Systems and methods for generating signatures for electronic communication classification
US7359941B2 (en) Method and apparatus for filtering spam email
US20030074409A1 (en) Method and apparatus for generating a user interest profile
US7949718B2 (en) Phonetic filtering of undesired email messages
US7289982B2 (en) System and method for classifying and searching existing document information to identify related information
US8909713B2 (en) Method and system for filtering text messages
Pérez-Díaz et al. Rough sets for spam filtering: Selecting appropriate decision rules for boundary e-mail classification
JP2003067304A (en) Electronic mail filtering system, electronic mail filtering method, electronic mail filtering program and recording medium recording it
JP2003296365A (en) Apparatus and method for information processing, and recording medium and program
US9774553B2 (en) Systems and methods for estimating message similarity
CN101197790B (en) Method and device for acquiring latest dynamic information of users in instant communication
CN101194277A (en) Displaying conversations in a conversation-based email system
JP2006243803A (en) Information processing system, program, and information processing method
US20100153381A1 (en) Automatic Mail Rejection Feature
EP1649407A1 (en) Methods and systems for training content filters and resolving uncertainty in content filtering operations
JPH1145284A (en) Preparation method for profile and computer readable recording medium recording program for making computer execute respective processes of the method
Reddy et al. Classification of Spam Messages using Random Forest Algorithm
JP2001331422A (en) Mail evaluation device
CN108427769B (en) Character interest tag extraction method based on social network
US11425077B2 (en) Method and system for determining a spam prediction error parameter
JPH1115848A (en) Information sorting device, document information sorting method and recording medium to be used for execution of the method
KR20010109508A (en) Method for dispersing and managing e-mails and system therefor