JP2007122148A - 電子メール分類装置および電子メール分類方法 - Google Patents
電子メール分類装置および電子メール分類方法 Download PDFInfo
- Publication number
- JP2007122148A JP2007122148A JP2005309806A JP2005309806A JP2007122148A JP 2007122148 A JP2007122148 A JP 2007122148A JP 2005309806 A JP2005309806 A JP 2005309806A JP 2005309806 A JP2005309806 A JP 2005309806A JP 2007122148 A JP2007122148 A JP 2007122148A
- Authority
- JP
- Japan
- Prior art keywords
- word
- spam
- tendency
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000000605 extraction Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】単語ごとに、スパムの傾向を有するか非スパムの傾向を有するか、およびこの傾向の大きさを指標化して単語傾向情報のデータベースを構築する。電子メールに含まれる単語のうち、データベースに登録されている単語に対してはデータベースからその単語傾向情報を検出し、データベースに登録されていない単語に対しては、非スパムの傾向を有する単語として単語傾向情報を付与する。検出された単語傾向情報および付与された単語傾向情報を用いて、判別対象の電子メールがスパムメールであるか否かを判別する。
【選択図】図9
Description
但し、p:単語スパム確率
m:単語がスパムメール群において登場した回数
M:スパムメールの総数
n:単語が非スパムメール群において登場した回数
N:非スパムメールの総数
a:1より大きい係数
上記200通のメールに含まれる各単語に対して単語スパム確率を算出してデータベース化する。このデータベースは、判別対象となる電子メールがスパムメールであるか否かの判別に用いられる。具体的には、まず、判別対象の電子メールに含まれる各々の単語のスパム確率をデータベースから検出する。ここで、たとえば図1に示すような検出結果が得られたとする。
但し、p:単語スパム確率
m:単語がスパムメール群において登場した回数
M:スパムメールの総数
n:単語が非スパムメール群において登場した回数
N:非スパムメールの総数
これによって、本発明者が提案したこの技術によれば、精度向上などのために調整を行う際に、閾値Tのみを調整すればよいので、簡単である。
Claims (7)
- 単語がスパムの傾向を有するか非スパムの傾向を有するか、およびこの傾向の大きさを単語傾向情報として、単語ごとに対応づけて保持する単語傾向情報保持部と、
判別対象の電子メールを取得するメール取得部と、
該判別対象の電子メールに含まれる単語を抽出する単語抽出部と、
抽出された単語のうち、前記単語傾向情報保持部に登録されている単語については、単語傾向情報保持部からその単語傾向情報を検出する一方、前記単語傾向情報保持部に登録されていない未登録単語については、非スパムの傾向を有する単語として単語傾向情報を付与する単語傾向情報取得部と、
電子メールから抽出された単語の単語傾向情報から、電子メールがスパムメールであるか否かを判別する判別部とを備えることを特徴とする電子メール分類装置。 - 前記単語傾向情報取得部は、前記未登録単語の数が、抽出された単語の数に対して占める割合が所定の閾値以上であることを条件として未登録単語に単語傾向情報を付与し、
前記判別部は、前記割合が前記閾値より小さい場合には、検出された単語傾向情報のみから、前記判別を行うことを特徴とする請求項1に記載の電子メール分類装置。 - 前記単語傾向情報取得部は、非スパム傾向の大きさがとりうる値の範囲内における中間値近傍の値を前記未登録単語の非スパム傾向の大きさとして付与することを特徴とする請求項1または2に記載の電子メール分類装置。
- 前記単語傾向情報取得部は、前記中間値以下の値を前記未登録単語の非スパム傾向の大きさとして付与することを特徴とする請求項3に記載の電子メール分類装置。
- 前記判別部は、前記単語傾向情報取得部により得られた単語傾向情報に基づいて、スパムの傾向が大きい単語から順に複数の単語を選出して第1の単語群を得るとともに、非スパムの傾向が大きい単語から順に複数の単語を選出して第2の単語群を得る単語群選出部を備え、
第1の単語群と第2の単語群に含まれる各単語の単語傾向情報から、判別対象の電子メールの前記傾向およびこの傾向の大きさを算出することにより、該判別対象の電子メールがスパムメールであるか否かを判別することを特徴とする請求項1から4のいずれか1項に記載の電子メール分類装置。 - 単語がスパムの傾向を有するか非スパムの傾向を有するか、およびこの傾向の大きさを単語傾向情報として、単語ごとに対応づけて保持し、
判別対象の電子メールを取得し、
該判別対象の電子メールに含まれる単語を抽出し、
抽出された単語のうち、単語傾向情報が保持されている単語について、その単語傾向情報を検出し、
抽出された単語のうち、単語傾向情報が登録されていない単語について、非スパムの傾向を有する単語として単語傾向情報を付与し、
電子メールから抽出された単語の単語傾向情報から、電子メールがスパムメールであるか否かを判別することを特徴とする電子メール分類方法。 - 単語がスパムの傾向を有するか非スパムの傾向を有するか、およびこの傾向の大きさを単語傾向情報として、単語ごとに対応づけて保持する手順と、
判別対象の電子メールを取得する手順と、
該判別対象の電子メールに含まれる単語を抽出する手順と、
抽出された単語のうち、単語傾向情報が保持されている単語について、その単語傾向情報を検出する手順と、
抽出された単語のうち、単語傾向情報が登録されていない単語について、非スパムの傾向を有する単語として単語傾向情報を付与する手順と、
電子メールから抽出された単語の単語傾向情報から、電子メールがスパムメールであるか否かを判別する手順とをコンピュータに実行せしめることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005309806A JP4688630B2 (ja) | 2005-10-25 | 2005-10-25 | 電子メール分類装置および電子メール分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005309806A JP4688630B2 (ja) | 2005-10-25 | 2005-10-25 | 電子メール分類装置および電子メール分類方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007122148A true JP2007122148A (ja) | 2007-05-17 |
JP4688630B2 JP4688630B2 (ja) | 2011-05-25 |
Family
ID=38145965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005309806A Expired - Fee Related JP4688630B2 (ja) | 2005-10-25 | 2005-10-25 | 電子メール分類装置および電子メール分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4688630B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009037346A (ja) * | 2007-07-31 | 2009-02-19 | Nextvision Co Ltd | 迷惑メール排除システム |
JP2009076063A (ja) * | 2007-08-24 | 2009-04-09 | Symantec Corp | 未学習言語コンテンツのフィルタリング誤検出を軽減するベイジアン保証チェック |
JP2018049310A (ja) * | 2016-09-20 | 2018-03-29 | 富士通株式会社 | メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067304A (ja) * | 2001-08-27 | 2003-03-07 | Kddi Corp | 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体 |
JP2003085189A (ja) * | 2001-09-14 | 2003-03-20 | Ricoh Co Ltd | 文書分類装置および文書分類方法 |
JP2004348523A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書フィルタリングシステムとプログラム |
-
2005
- 2005-10-25 JP JP2005309806A patent/JP4688630B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067304A (ja) * | 2001-08-27 | 2003-03-07 | Kddi Corp | 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体 |
JP2003085189A (ja) * | 2001-09-14 | 2003-03-20 | Ricoh Co Ltd | 文書分類装置および文書分類方法 |
JP2004348523A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書フィルタリングシステムとプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009037346A (ja) * | 2007-07-31 | 2009-02-19 | Nextvision Co Ltd | 迷惑メール排除システム |
JP2009076063A (ja) * | 2007-08-24 | 2009-04-09 | Symantec Corp | 未学習言語コンテンツのフィルタリング誤検出を軽減するベイジアン保証チェック |
JP2018049310A (ja) * | 2016-09-20 | 2018-03-29 | 富士通株式会社 | メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4688630B2 (ja) | 2011-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7930351B2 (en) | Identifying undesired email messages having attachments | |
EP1924039B1 (en) | Communication terminal, and destination-address right/wrong determining method and program thereof | |
US10528917B2 (en) | Automated electronic message filing system | |
US8645430B2 (en) | Self-adjusting email subject and email subject history | |
US8788948B2 (en) | Electronic mail display device | |
US7949718B2 (en) | Phonetic filtering of undesired email messages | |
US20050041789A1 (en) | Method and apparatus for filtering electronic mail | |
KR100918599B1 (ko) | 잠재적 수신자를 식별하는 방법 및 장치 | |
US20180219827A1 (en) | Method, device and software product for filling an address field of an electronic message | |
US8490185B2 (en) | Dynamic spam view settings | |
CN107729520B (zh) | 文件分类方法、装置、计算机设备及计算机可读介质 | |
JP4742618B2 (ja) | 情報処理システム、プログラム及び情報処理方法 | |
EP2017778A1 (en) | Method and device for processing e-mail | |
JP2003296365A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP2007293635A (ja) | メール誤送信防止システム、メール誤送信防止方法、およびメール誤送信防止プログラム | |
JP4742619B2 (ja) | 情報処理システム、プログラム及び情報処理方法 | |
US8843574B2 (en) | Electronic mail system, user terminal apparatus, information providing apparatus, and computer readable medium | |
JP2003067304A (ja) | 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体 | |
JP4688630B2 (ja) | 電子メール分類装置および電子メール分類方法 | |
JP4688629B2 (ja) | 電子メッセージ分類装置および電子メッセージ分類方法 | |
JPWO2017094202A1 (ja) | 画像処理を応用した文書構造解析装置 | |
JP4746083B2 (ja) | 宛先正否判定システム | |
JP6059559B2 (ja) | 受信メールの優先度別自動振分け装置および方法 | |
JP6651668B1 (ja) | メール解析サーバ、メール解析方法、及びプログラム | |
JP4878468B2 (ja) | 電子メール評価装置および電子メール評価方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |