JP2006293573A - 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム - Google Patents

電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム Download PDF

Info

Publication number
JP2006293573A
JP2006293573A JP2005111498A JP2005111498A JP2006293573A JP 2006293573 A JP2006293573 A JP 2006293573A JP 2005111498 A JP2005111498 A JP 2005111498A JP 2005111498 A JP2005111498 A JP 2005111498A JP 2006293573 A JP2006293573 A JP 2006293573A
Authority
JP
Japan
Prior art keywords
mail
character string
text data
similar
electronic mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005111498A
Other languages
English (en)
Inventor
Masakazu Kamio
政和 神尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaskawa Electric Corp
YE Digital Co Ltd
Original Assignee
Yaskawa Electric Corp
Yaskawa Information Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaskawa Electric Corp, Yaskawa Information Systems Co Ltd filed Critical Yaskawa Electric Corp
Priority to JP2005111498A priority Critical patent/JP2006293573A/ja
Publication of JP2006293573A publication Critical patent/JP2006293573A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文字列の一部をわざと間違えられ、文字と文字の間に無意味な記号を挿入されるなどした電子メールであっても、迷惑メール等の電子メールを効果的に分類することができる電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラムを提供する。
【解決手段】 テキストデータを抽出するテキストデータ抽出手段111と、類似文字列を正規文字列に置換する正規文字列置換手段112と、単語ごとに分割する単語分割手段113と、対象文字列と類似している単語を抽出する相同性検索手段114と、迷惑メールかどうか判断し、迷惑メールなら迷惑電子メール記憶領域124に、そうでなければ前記有用電子メール記憶領域125に記憶するメール分類手段115とを備える。
【選択図】図1

Description

本発明は、コンピュータネットワーク等を介して配信される電子メールの処理に関し、特に「迷惑メール」と呼ばれる受信者にとって不要もしくは閲覧したくない電子メールを自動的に分類する電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラムに関する。
安価で高速なコンピュータネットワーク等の通信網が社会的に普及するにつれて、電話や手紙といったコミュニケーション手段に代わって、電子メールによるコミュニケーション手段が普及してきた。
電子メールは電話や手紙とは異なり、不特定多数の者に対して、容易かつ安価に情報を送信することができるため、不特定多数を対象としたいわゆるダイレクトメール等の営業活動等に頻繁に利用されている。
電子メールは、数万から数百万人という受信者に対して、これを数時間のうちに送信することができるため、受信者は不要もしくは閲覧したくない電子メールを多量に受け取ることになる。こういった営業活動を目的とした電子メールは、受信者にとって迷惑な存在であり、「迷惑メール」と呼ばれている。
受信者は、有用なメールより、迷惑メールの方を多く受信してしまうことがあり、受信者は受信した電子メールの通信文等を閲覧して、迷惑メールであるかそうでないかを分類して、迷惑メールを消去する必要がある。また、場合によっては、迷惑メールの通信文等を閲覧することで、受信者が精神的苦痛を受けることもある。
このような迷惑メールの分類作業を行うため、電子メールを受信するソフトウェアには、送信元のメールアドレス、メールの表題、メール本文の内容などから、受信した電子メールを分類するものがある。このうち、送信元のメールアドレスや、メールの表題については、実際送信した送信元とは異なる偽装された送信元アドレスであったり、空白(NULL)として送信していることが多いため、メール本文の内容を検査する方法が効果的とされている。
メール本文から内容を検査する手法としては、受信者にとって不適切であると考える単語をあらかじめデータベースに登録しておき、登録された単語が、受信した電子メールに含まれているか否かで迷惑メールかどうかを検査する手法や、過去に受け取った電子メールを迷惑メールであるものと、そうでないものとに分類し、それらの電子メールのテキストの中に出現した単語の出現確率をもとに、新たに受信した電子メールの内容を検査する手法が知られている。
具体例を挙げると、受信した電子メールからテキストデータを抽出し、これを単語分割して単語情報を抽出し、単語とその単語に対応づけられた空間中における座標とをあらかじめ記憶した単語概念データベースと、単語概念データベースを参照して、抽出された単語情報に対応する座標を決定し、単語概念データベースを参照して、単語情報に対応する座標の近傍に位置する類似単語を決定し、類似単語を用いて作成した電子メールプレビューを利用者端末に送信するという電子メール中継装置が特許文献1で開示されている。
一方、問い合わせ配列を配列データベースと比較し、類似配列を探す手法として、相同性検索という手法が知られている。また、この相同性検索のアルゴリズムとして、以下のFASTAとBRASTアルゴリズムが知られている。
FASTAアルゴリズムとは、W.pearsonにより開発された相同性検索手法であり、連続して一致する配列の断片を高速に検索し、それらの断片の中で類似度の高いものに着目して局所的なアラインメントを行い、最後にこれらをギャップを考慮して結合して、最終的なアラインメントを行う手法であり、非特許文献1に具体例の説明がある。
BLASTアルゴリズムとは、配列を固定長の断片のワードに区切り、ワード単位で類似する断片を検索し、これらを類似度が最大になるまで両方向に伸ばして局所的なアラインメントを行い、最後にこれらを結合して、最終的なアラインメントを行う手法であり、非特許文献2に具体例の説明がある。
特開2003−316701号公報(17頁、図1) 金久 實著「ポストゲノム情報への招待」共立出版 、2001年6月10日、P98−100 金久 實著「ポストゲノム情報への招待」共立出版 、2001年6月10日、P100−102
前述した迷惑メールの中には、フィルタリングされそうな単語中の文字列の一部をわざと間違えたり、文字と文字の間に無意味な記号を挿入するなどの手段によって単語を改変して、巧みにフィルタリングを回避させつつ、電子メールの内容を受信者が見たときには、送信者が意図する内容を理解させるようにしたものがある。
例えば、フィルタリングされそうな単語中の文字列の一部をわざと間違える方法としては、「お得なサービス」という文字列に含まれる「ー」(長音)を、「−」(ハイフン)に置換して、「お得なサ−ビス」のように文字列を改変したりする。また、文字と文字の間に無意味な記号を挿入する方法としては、「*お*得*な*サ*ー*ビ*ス*」のように、文字と文字の間に意味をなさない記号「*」(星印)などを挿入する方法が考えられる。このように改変された、外観上類似する文字列、あるいは意味をなさない記号を読み飛ばすことで容易に改変前の単語を容易に理解させる文字列によってメール本文を構成することで、電子メールの内容を受信者が見たときには、送信者が意図する内容を理解させるようにすることができる。
しかしながら、特許文献1による技術では、文字列の一部をわざと間違えられ、文字と文字の間に無意味な記号を挿入されるなどした電子メールをフィルタリングしようとすると、正しい文字列によって表記された単語のほか、外観上類似する文字列、記号が挿入された文字列について、考え得るすべてのパターンを単語概念データベースに登録させなければならない。このように、登録すべきパターンが無数に存在するため、データベースへの登録は不可能となり、効果的なフィルタリングが事実上、不可能であるという問題があった。
そこで本発明は、文字列の一部をわざと間違えられ、文字と文字の間に無意味な記号を挿入されるなどした電子メールであっても、迷惑メール等の電子メールを効果的に分類することができる電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラムを提供することを目的とする。
上記問題を解決するため、本発明は、次のように構成したのである。
請求項1に記載の発明は、電子メールを受信するメール送受信部と、前記電子メールが迷惑メールかどうかの判断の基となる単語情報等のデータを記憶するメール情報記憶部と、受信した前記電子メールを分類し迷惑メールを抽出するメール処理部とを有する電子メール処理装置において、前記メール情報記憶部に、正しく表記された文字列による正規文字列と、該正規文字列と外観上類似する文字列による類似文字列との組み合わせをデータベース化した類似文字列データベースと、迷惑メールとして電子メールに使用されると考えられる単語を、電子メールの分類対象として抽出すべき対象文字列としてあらかじめ登録した単語情報データベースと、前記電子メールを検索し迷惑メール中に使用される単語と類似している単語を抽出した結果を記憶する抽出結果記憶領域と、迷惑メールと判断された前記電子メールを記憶する迷惑電子メール記憶領域と、迷惑メールでないと判断された前記電子メールを記憶する有用電子メール記憶領域を備え、前記メール処理部に、前記電子メールからテキストデータを抽出するテキストデータ抽出手段と、前記類似文字列データベースを基に前記テキストデータに含まれる前記類似文字列をそれに対応する前記正規文字列に置換する正規文字列置換手段と、前記テキストデータを単語ごとに分割する単語分割手段と、前記単語情報データベースを基に分割された単語ごとに前記対象文字列と類似している単語を相同性検索により抽出し前記抽出結果記憶領域に記憶する相同性検索手段と、前記抽出結果記憶領域の内容を基に前記電子メールが迷惑メールかどうか分類し、前記電子メールが迷惑メールなら前記迷惑電子メール記憶領域に、迷惑メールでなければ前記有用電子メール記憶領域に記憶するメール分類手段とを備えることを特徴とするものである。
また、請求項2に記載の発明は、前記メール処理部に、前記テキストデータの文字列のうち、前記相同性検索で前記対象文字列と同型と判断した文字列を前記対象文字列に置換する対象文字列置換手段をさらに備えることを特徴とするものである。
また、請求項3に記載の発明は、受信した電子メールのテキストデータを基に、前記電子メールを分類する電子メールフィルタリング方法において、電子メールサーバから前記電子メールを受信し、前記電子メールから前記テキストデータを抽出し、正しく表記された文字列による正規文字列と、該正規文字列と外観上類似する文字列による類似文字列との組み合わせをデータベース化した類似文字列データベースを用いて、前記テキストデータに含まれる前記類似文字列をそれに対応する前記正規文字列に置換し、前記テキストデータを単語ごとに分割し、迷惑メールとして電子メールに使用されると考えられる単語を、電子メールの分類対象として抽出すべき対象文字列としてあらかじめ登録した単語情報データベースを用いて、分割された単語ごとに、前記対象文字列と類似している単語を相同性検索(またはホモロジー検索とも言う)によって抽出し、その抽出結果を基に受信した前記電子メールを分類することを特徴とするものである。
また、請求項4に記載の発明は、前記テキストデータの文字列のうち、前記相同性検索で前記対象文字列と同型と判断した文字列を前記対象文字列に置換した後、その置換されたテキストデータを基に受信した電子メールを分類することを特徴とするものである。
また、請求項5に記載の発明は、前記相同性検索は、FASTAアルゴリズムまたはBLASTアルゴリズムを使用することを特徴とするものである。
また、請求項6に記載の発明は、受信した電子メールをテキストデータに変換して、電子メールを分類する電子メールフィルタリングプログラムであって、請求項3ないし請求項5のいずれかの電子メールフィルタリング方法を実施することを特徴とするものである。
本発明によると、類似文字列データベースを基に電子メールのテキストデータに含まれる類似文字列をそれに対応する前記正規文字列に置換し、テキストデータを単語ごとに分割して、電子メールの分類対象として抽出すべき対象文字列をあらかじめ登録した単語情報データベースを用いて、相同性検索によって対象文字列と類似している単語を単語ごとに抽出して、その抽出結果を基に受信した電子メールを分類するので、文字と文字の間に無意味な記号を挿入されるなどした電子メールであっても、迷惑メール等の電子メールを効果的に分類することができる。
以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明の実施例1にかかる電子メール処理装置の構成を示す図である。
図1において、10は電子メール処理装置で、メール送受信部13と通信網19を介して電子メールサーバ18と接続されている。電子メール処理装置10にはメール処理部11とメール情報記憶部12がある。
メール情報記憶部12には、正しく表記された文字列による正規文字列と、その正規文字列と外観上類似する文字列による類似文字列と、の組み合わせをデータベース化した類似文字列データベース121と、迷惑メールとして電子メールに使用されると考えられる単語を、電子メールの分類対象として抽出すべき対象文字列としてあらかじめ登録した単語情報データベース122と、電子メールを検索し迷惑メール中に使用される単語と類似している単語を抽出した結果を記憶する抽出結果記憶領域123と、迷惑メールを記憶する迷惑電子メール記憶領域124と、迷惑メール以外のメールを記憶する有用電子メール記憶領域125がある。
類似文字列データベース121には、正しく表記された文字列と外観上類似する文字列の情報を登録する。
図2に、類似文字列データベース121の例を示す。例えば、長音を表す文字「ー」に対しては、ハイフンを表す文字「−」、波型を表す文字「〜」などを類似の文字列として、カタカナの「ヨ」に対しては、元として含むという意の数学記号「∋」、存在するという意の数学記号「∃」などを類似の文字列として登録して、類似した形状の文字列を検索可能なようにデータベースを構成する。
単語情報データベース122には、迷惑メールとして電子メールに使用されると考えられる単語を、電子メールの分類対象として抽出すべき対象文字列としてあらかじめ登録しておく。このような単語は、図示しない単語情報更新部を用いて実際に受信した電子メールデータから抽出することも、利用者の手によって登録することも可能である。
メール処理部11には、電子メールからテキストデータを抽出するテキストデータ抽出部111、類似文字列データベース121を基にテキストデータに含まれる類似文字列をそれに対応する正規文字列に置換する正規文字列置換部112、テキストデータを単語ごとに分割する単語分割部113、単語情報データベース122を参照して分割された単語ごとに対象文字列と類似している単語を相同性検索により抽出し、抽出した単語を抽出結果記憶領域123に記憶する相同性検索部114、抽出結果記憶領域123の内容を基に電子メールが迷惑メールかどうか分類し、電子メールが迷惑メールなら迷惑電子メール記憶領域124に、迷惑メールでなければ有用電子メール記憶領域125に記憶するメール分類部115がある。これらの各処理部は、本例ではソフトウエアのモジュールとなっている。これらのモジュールが起動することで電子メールを処理して、迷惑電子メール記憶領域124または有用電子メール記憶領域125に分類して記憶する。
図3は本発明の実施例1にかかる電子メールフィルタリング方法のフローチャートである。本図にしたがって、実施例1の電子メールフィルタリング方法の詳細を説明する。
ステップS1でメール送受信部13が電子メールサーバ18から電子メールを受信する。次にステップS2で、テキストデータ抽出部111が電子メールからテキストデータを抽出する。
ステップS3で、正規文字列置換部112が類似文字列データベース121を基に、テキストデータに含まれる類似文字列を、それに対応する正規文字列に置換する。例えば、正規文字列置換部112が「スタ−ト」という文字を認識した場合には、その第2文字目の「−」(ハイフン)を、「ー」(長音記号)に変換するようにする。
ステップS4で単語分割部113がテキストデータを単語ごとに分割する。
テキストデータが単語1から単語nのn個の単語に分割されたとすると、ステップS5で相同性検索部114が単語情報データベース122を基に、n個の分割された単語ごとに対象文字列と類似している単語を相同性検索によって抽出する。ステップS6で類似している単語が見つかれば、ステップS7でその抽出された単語を抽出結果記憶領域123に記憶する。ステップS8でカウンタiをインクリメントし、iがnになるまでステップS5からの検索を繰り返す。
そして、ステップS10でメール分類部115は、抽出結果記憶領域123の記憶内容を基に、抽出単語数が多い等の基準により電子メールを迷惑メールかどうか分類し、迷惑メールであるとした場合には、電子メールを迷惑電子メール記憶領域124に記憶し、そうでない場合には、電子メールを有用電子メール記憶領域125に記憶する。
なお、分類は抽出単語数の基準を用いる他に、過去のデータから推測を行うベイズ理論に基づいたベイズフィルタや特定文字列に基づくパターンマッチングなどの既知のメールフィルタリング手法を用いる。
相同性検索部114では、文字と文字の間に記号等を含めることによってフィルタリング困難にされた単語を含むテキストデータに対し、前述の本来意図すべき単語の候補を含め、FASTAアルゴリズムまたはBLASTアルゴリズムといったすでに利用されている相同性検出を行うためのアルゴリズムを用いることによって相同性の検出を行う。
例えばFASTAアルゴリズムを用いた相同性検出の具体的な手法は以下のとおりである。
単語情報データベースに登録済みの電子メール中に出現すると考えられる単語を2次元配列の横方向に、検査対象のテキストデータを縦方向に配置し、それぞれで文字が一致する場所について一致フラグをたて、一致フラグで対角線分が現れる場所を検出し、検査対象のテキスト内で対角線分が現れた始点と終点と検査に用いた単語情報データベース122内の単語を記録することで本来意図する単語への置換を行う。
なお、テキストデータ抽出部111では、電子メールがプレーンテキストではなく、バイナリデータを文字列に変換する手法である例えばMIME(Multipurpose Internet Mail Extension)やbase64やuuencodeによってテキスト化され添付されたファイルを含む場合は、それらをデコードすることが望ましい。また、デコードの結果作成されたバイナリデータがワードプロセッサソフトウェアで作成されたテキストデータファイルやPDF(Portable Document Format)などのテキストデータを含むファイルであった場合は、これらのファイルからテキストデータの抽出を行い、プレーンテキストからなるデータを作成することが望ましい。また、受信した電子メール自体がHTML(Hyper Text Markup Languege)で記述されていたり、HTML形式の添付ファイルを含む場合は、HTML形式のファイルからHTMLタグ情報を除くことによってプレーンテキストからなるテキストデータを作成することが望ましい。
また、迷惑電子メール記憶領域124及び有用電子メール記憶領域125に記憶された電子メールは相同性検索部114で作成された本来意図すべきテキストデータと共に使用者に閲覧可能とすることが好ましい。
また、迷惑電子メール記憶領域124に記憶された電子メールと、有用電子メール記憶領域125に記録された電子メールは、使用者が内容を確認した上で、迷惑電子メール記憶領域124から有用電子メール記憶領域125に、あるいは、有用電子メール記憶領域125から迷惑電子メール記憶領域124にその記録場所を変更することができるようにすることが望ましい。
また、メール分類部115は迷惑電子メール記憶領域124及び有用電子メール記憶領域125に記憶した電子メールデータ及び本来意図すべきテキストデータに基づいてメール分類部115で使用する迷惑メール検出パターンを更新するようにするとより好ましい。
また、メール処理部11、メール情報記憶部12と同じ機能を電子メールサーバ18においても良い。テキストデータ抽出部111、電子メールサーバ18が電子メールをスプールするときに、図3に示すフローチャートに従って分類を実施して、電子メールを電子メール処理装置10に配信するときには、分類結果を基に、迷惑メールであるかどうかを付記するようにすれば、同一の作用・効果が期待できる。
このように、実施例1によれば、電子メールのテキストデータを、正しく表記された文字列による正規文字列と、その正規文字列と外観上類似する文字列による類似文字列との組み合わせをデータベース化した類似文字列データベースを用いて、テキストデータに含まれる類似文字列を正規文字列に置換し、単語ごとに分割して、電子メールの分類対象として抽出すべき対象文字列をあらかじめ登録した単語情報データベースを用いて、相同性検索によって対象文字列と類似している単語を単語ごとに抽出して、その抽出結果を基に受信した電子メールを分類するので、文字と文字の間に無意味な記号を挿入されるなどした電子メールであっても、迷惑メール等の電子メールを効果的に分類することができる。
また、FASTAアルゴリズムまたはBLASTアルゴリズムによって相同性検索を行うので、電子メールを分類する上で効率よく相同性検索を行うことができる。
以下、本発明の実施例2について、図を参照して説明する。
図4は、実施例2にかかる電子メール処理装置の構成を示す図である。
図4において、メール処理部11は、テキストデータのうち、相同性検索で高いスコアを得て対象文字列と同型と判断した文字列を、対象文字列に置換する対象文字列置換部116をさらに備える。
図5は本発明の実施例2にかかる電子メールフィルタリング方法のフローチャートである。本図にしたがって、実施例2の電子メールフィルタリング方法の詳細を説明する。
実施例2では、実施例1の各ステップに対し、ステップS11が追加となっている。他のステップは実施例1の図3と同一であるので、説明は省略する。
ステップS5〜ステップS9で対象文字列と類似している単語を相同性検索によって抽出した後、ステップS11で対象文字列置換部116が、相同性検索で高いスコアを得て対象文字列と同型と判断した文字列を対象文字列に置換する。
その後、ステップS10に進むようにし、迷惑メール記憶領域124には、その置換されたテキストデータを記憶するようにすれば良い。
このように、実施例2によれば、相同性検索で高いスコアを得て対象文字列と同型と判断した文字列を対象文字列に置換した後で、その置換されたテキストデータを基に受信した電子メールを分類することが出来る。
本発明にかかる電子メールの迷惑メールの判別技術は、人間にとっては読解可能でありながら計算機によって判断することが困難な記述のなされた電子メールの判別方法として有用であり、既存の迷惑メールの判別手法と組み合わせて使用し、その判別精度を上げることに適している。
本発明の実施例1にかかる電子メール処理装置の構成を示す図 類似文字列データベースの例 本発明の実施例1にかかる電子メールフィルタリング方法のフローチャート 本発明の実施例2にかかる電子メール処理装置の構成を示す図 本発明の実施例2にかかる電子メールフィルタリング方法のフローチャート
符号の説明
10 電子メール処理装置
11 メール処理部
111 テキストデータ抽出部
112 正規文字列置換部
113 単語分割部
114 相同性検索部
115 メール分類部
116 対象文字列置換部
12 メール情報記憶部
121 類似文字列データベース
122 単語情報データベース
123 抽出結果記憶領域
124 迷惑電子メール記憶領域
125 有用電子メール記憶領域
13 メール送受信部
18 電子メールサーバ
19 通信網

Claims (6)

  1. 電子メールを受信するメール送受信部と、
    前記電子メールが迷惑メールかどうかの判断の基となる単語情報等のデータを記憶するメール情報記憶部と、
    受信した前記電子メールを分類し迷惑メールを抽出するメール処理部とを有する電子メール処理装置において、
    前記メール情報記憶部に、正しく表記された文字列による正規文字列と、該正規文字列と外観上類似する文字列による類似文字列との組み合わせをデータベース化した類似文字列データベースと、
    迷惑メールとして電子メールに使用されると考えられる単語を、電子メールの分類対象として抽出すべき対象文字列としてあらかじめ登録した単語情報データベースと、
    前記電子メールを検索し迷惑メール中に使用される単語と類似している単語を抽出した結果を記憶する抽出結果記憶領域と、
    迷惑メールと判断された前記電子メールを記憶する迷惑電子メール記憶領域と、
    迷惑メールでないと判断された前記電子メールを記憶する有用電子メール記憶領域を備え、
    前記メール処理部に、前記電子メールからテキストデータを抽出するテキストデータ抽出手段と、
    前記類似文字列データベースを基に前記テキストデータに含まれる前記類似文字列をそれに対応する前記正規文字列に置換する正規文字列置換手段と、
    前記テキストデータを単語ごとに分割する単語分割手段と、
    前記単語情報データベースを基に分割された単語ごとに前記対象文字列と類似している単語を相同性検索により抽出し前記抽出結果記憶領域に記憶する相同性検索手段と、
    前記抽出結果記憶領域の内容を基に前記電子メールが迷惑メールかどうか分類し、前記電子メールが迷惑メールなら前記迷惑電子メール記憶領域に、迷惑メールでなければ前記有用電子メール記憶領域に記憶するメール分類手段とを備えることを特徴とする電子メール処理装置。
  2. 前記メール処理部に、前記テキストデータの文字列のうち、前記相同性検索で前記対象文字列と同型と判断した文字列を前記対象文字列に置換する対象文字列置換手段をさらに備えることを特徴とする請求項1記載の電子メール処理装置。
  3. 受信した電子メールのテキストデータを基に、前記電子メールを分類する電子メールフィルタリング方法において、
    電子メールサーバから前記電子メールを受信し、
    前記電子メールから前記テキストデータを抽出し、
    正しく表記された文字列による正規文字列と、該正規文字列と外観上類似する文字列による類似文字列との組み合わせをデータベース化した類似文字列データベースを用いて、前記テキストデータに含まれる前記類似文字列をそれに対応する前記正規文字列に置換し、
    前記テキストデータを単語ごとに分割し、
    迷惑メールとして電子メールに使用されると考えられる単語を、電子メールの分類対象として抽出すべき対象文字列としてあらかじめ登録させた単語情報データベースを用いて、分割された単語ごとに、前記対象文字列と類似している単語を相同性検索によって抽出し、
    その抽出結果を基に受信した前記電子メールを分類することを特徴とする電子メールフィルタリング方法。
  4. 前記テキストデータの文字列のうち、前記相同性検索で前記対象文字列と同型と判断した文字列を前記対象文字列に置換した後、その置換されたテキストデータを基に受信した電子メールを分類することを特徴とする請求項3記載の電子メールフィルタリング方法。
  5. 前記相同性検索は、FASTAアルゴリズムまたはBLASTアルゴリズムを使用することを特徴とする請求項3または請求項4に記載の電子メールフィルタリング方法。
  6. 受信した電子メールをテキストデータに変換して、電子メールを分類する電子メールフィルタリングプログラムであって、
    請求項3ないし請求項5のいずれかの電子メールフィルタリング方法を実施することを特徴とする電子メールフィルタリングプログラム。
JP2005111498A 2005-04-08 2005-04-08 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム Withdrawn JP2006293573A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005111498A JP2006293573A (ja) 2005-04-08 2005-04-08 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005111498A JP2006293573A (ja) 2005-04-08 2005-04-08 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム

Publications (1)

Publication Number Publication Date
JP2006293573A true JP2006293573A (ja) 2006-10-26

Family

ID=37414101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005111498A Withdrawn JP2006293573A (ja) 2005-04-08 2005-04-08 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム

Country Status (1)

Country Link
JP (1) JP2006293573A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007503660A (ja) * 2003-05-15 2007-02-22 ブライトメイル・インコーポレーテッド 類似性測度に基づいて電子メール・スパムをフィルタ処理するための方法および装置
JP2008135926A (ja) * 2006-11-28 2008-06-12 Yamaguchi Univ 迷惑メールのフィルタ機能を有する電子メールシステム
JP2009230333A (ja) * 2008-03-21 2009-10-08 Fujitsu Ltd 電子メールフィルタプログラム及び電子メールフィルタ装置
WO2010037292A1 (zh) * 2008-09-27 2010-04-08 腾讯科技(深圳)有限公司 一种确定可疑垃圾邮件范围的方法和系统
JP2013510368A (ja) * 2009-11-10 2013-03-21 アリババ グループ ホールディング リミテッド テキストフィルタリングの方法およびシステム
KR20140116410A (ko) * 2012-01-25 2014-10-02 비트데펜더 아이피알 매지니먼트 엘티디 문자 히스토그램들을 이용한 스팸 검출을 위한 시스템들 및 방법들
CN106708961A (zh) * 2016-11-30 2017-05-24 北京粉笔蓝天科技有限公司 垃圾文本库的建立方法、过滤方法及系统
US10212114B2 (en) 2012-01-25 2019-02-19 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
CN111064656A (zh) * 2019-12-20 2020-04-24 北京懿医云科技有限公司 数据管理方法、装置、系统、存储介质及电子设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007503660A (ja) * 2003-05-15 2007-02-22 ブライトメイル・インコーポレーテッド 類似性測度に基づいて電子メール・スパムをフィルタ処理するための方法および装置
JP2008135926A (ja) * 2006-11-28 2008-06-12 Yamaguchi Univ 迷惑メールのフィルタ機能を有する電子メールシステム
JP4686724B2 (ja) * 2006-11-28 2011-05-25 国立大学法人山口大学 迷惑メールのフィルタ機能を有する電子メールシステム
JP2009230333A (ja) * 2008-03-21 2009-10-08 Fujitsu Ltd 電子メールフィルタプログラム及び電子メールフィルタ装置
WO2010037292A1 (zh) * 2008-09-27 2010-04-08 腾讯科技(深圳)有限公司 一种确定可疑垃圾邮件范围的方法和系统
CN101360074B (zh) * 2008-09-27 2011-09-21 腾讯科技(深圳)有限公司 一种确定可疑垃圾邮件范围的方法和系统
US8874597B2 (en) 2009-11-10 2014-10-28 Alibaba Group Holding Limited Method and system for text filtering based on semantic matching
JP2013510368A (ja) * 2009-11-10 2013-03-21 アリババ グループ ホールディング リミテッド テキストフィルタリングの方法およびシステム
US9600570B2 (en) 2009-11-10 2017-03-21 Alibaba Group Holding Limited Method and system for text filtering
KR20140116410A (ko) * 2012-01-25 2014-10-02 비트데펜더 아이피알 매지니먼트 엘티디 문자 히스토그램들을 이용한 스팸 검출을 위한 시스템들 및 방법들
JP2015513133A (ja) * 2012-01-25 2015-04-30 ビットディフェンダー アイピーアール マネジメント リミテッド キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法
KR101686147B1 (ko) * 2012-01-25 2016-12-13 비트데펜더 아이피알 매니지먼트 엘티디 문자 히스토그램들을 이용한 스팸 검출을 위한 시스템들 및 방법들
US10212114B2 (en) 2012-01-25 2019-02-19 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
CN106708961A (zh) * 2016-11-30 2017-05-24 北京粉笔蓝天科技有限公司 垃圾文本库的建立方法、过滤方法及系统
CN106708961B (zh) * 2016-11-30 2020-11-06 北京粉笔蓝天科技有限公司 垃圾文本库的建立方法、过滤方法及系统
CN111064656A (zh) * 2019-12-20 2020-04-24 北京懿医云科技有限公司 数据管理方法、装置、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US9819634B2 (en) Organizing messages in a messaging system using social network information
JP2006293573A (ja) 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
KR100943870B1 (ko) 잠재적 수신자를 식별하는 방법 및 장치
US7930351B2 (en) Identifying undesired email messages having attachments
US8489689B1 (en) Apparatus and method for obfuscation detection within a spam filtering model
CN108259415B (zh) 一种邮件检测的方法及装置
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
Gansterer et al. E-mail classification for phishing defense
WO2008068987A1 (en) Pure adversarial approach for identifying text content in images
GB2496120A (en) Analysis of emails using a hidden Markov model to recognize sections of the email, e.g. header, body, signature block and disclaimer
KR20080024165A (ko) 정보 검색 및 디스플레이 방법과 컴퓨터 판독가능 매체
CN104969254A (zh) 内容的个性化概要
Al-Jarrah et al. Identifying potentially useful email header features for email spam filtering
US20100161748A1 (en) Apparatus, a Method, a Program and a System for Processing an E-Mail
CN109462538B (zh) 电子装置、基于密级的邮件共享方法及存储介质
JP2009104400A (ja) 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
US11321630B2 (en) Method and apparatus for providing e-mail authorship classification
US20180276459A1 (en) Document Structure Analysis Device with Image Processing
JP4686724B2 (ja) 迷惑メールのフィルタ機能を有する電子メールシステム
Bozkir et al. Spam e-mail classification by utilizing n-gram features of hyperlink texts
CN105847122A (zh) 广告邮件识别方法及装置
WO2018096672A1 (ja) 評価装置、評価方法、評価プログラムおよび評価システム
Manek et al. ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails
Islam et al. Machine learning approaches for modeling spammer behavior

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701