JP2005135024A - 迷惑メール遮断方法及び迷惑メール遮断プログラム - Google Patents
迷惑メール遮断方法及び迷惑メール遮断プログラム Download PDFInfo
- Publication number
- JP2005135024A JP2005135024A JP2003367895A JP2003367895A JP2005135024A JP 2005135024 A JP2005135024 A JP 2005135024A JP 2003367895 A JP2003367895 A JP 2003367895A JP 2003367895 A JP2003367895 A JP 2003367895A JP 2005135024 A JP2005135024 A JP 2005135024A
- Authority
- JP
- Japan
- Prior art keywords
- url
- spam
- information
- url information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【解決手段】 電子メールの送受信における迷惑メール遮断方法であって、電子メールを、メール本文に含まれるセパレータ文字列に従って、メール構造の最小単位であるパートに分解するメール解析工程と、分解したパート毎に電子指紋を取得する電子指紋取得工程と、パートに含まれるURL情報を取得するURL情報取得工程と、過去の電子メールから取得・蓄積された電子指紋またはURL情報が格納されたデータベースを参照する参照工程と、電子指紋取得工程で取得された電子指紋またはURL情報取得工程で取得されたURL情報が、データベースに迷惑メールに関連する電子指紋またはURL情報として格納されていた場合に、電子メールを迷惑メールと判定して該電子メールの配信を停止する配信停止工程と、を備えている。
【選択図】 図2
Description
しかし、上記従来技術によれば、送信側でURLに部分的に改変が加えられてしまった場合には、対応することができないという問題があった。ドメイン名は容易に更新できるため、上記従来技術では迷惑メールの遮断を確実に行うことは不可能であった。
しかし、上記方法では、レイティングされていないホームページについては対応することができないという問題があった。また、この方法においても、送信側でURLに部分的に改変が加えられてしまった場合には、対応することができないという問題があった。
現在では、一方的に送りつけられるメールに対して、その表題欄に「未承諾広告*」或いは「!広告!」を付記することが義務づけられている。したがって、メール文中に、「未承諾広告*」或いは「!広告!」の文字を発見した場合には、迷惑メールとして判定するものである。しかし、上記方法では、言語依存が激しいため、全ての言語で効果を上げるのは非常に難しい。
上記処理により、URL情報が符号化により偽装されている場合であっても、復号化することにより偽装を見破ることが可能となる。また、改変することが難しい「ホスト名,ポート番号,パス名からなる文字列」を生成したり、IPアドレスを取得することにより、繰り返し送付される情報を確実に発見することが可能となる。
すなわち、電子メールの送受信における迷惑メール遮断方法であって、前記電子メールを、メール本文に含まれるセパレータ文字列に従って、メール構造の最小単位であるパートに分解するメール解析工程と、前記分解したパート毎に電子指紋を取得する電子指紋取得工程と、前記パートに含まれるURL情報を取得するURL情報取得工程と、過去の電子メールから取得・蓄積された電子指紋またはURL情報が格納されたデータベースを参照するデータベース参照工程と、前記電子指紋取得工程で取得された電子指紋または前記URL情報取得工程で取得されたURL情報が既に存在した場合には、データを更新するデータ更新処理を行い、前記電子指紋取得工程で取得された電子指紋または前記URL情報取得工程で取得されたURL情報が存在しなかった場合には、新規データとして登録する新規データ登録処理を行う。
すなわち、受信した電子メールのヘッダ情報を取得するステップと、前記電子メールの本文のハッシュ値を計算するステップと、前記電子メールの本文の復号を行うステップと、前記電子メールがマルチパート構造の場合に、セパレータ文字列に従って各パートを切り出すステップと、前記切り出された各パートについて、ヘッダ情報の取得,本文のハッシュ値の計算,本文の復号,各パートの切り出しを繰り返し行うステップと、前記各パートが可読の場合にURL情報を抽出するステップと、を備えている。
すなわち、受信した電子メールからURL文字列を取得するステップと、前記URL文字列が符号化されている場合に復号化するステップと、前記復号化されたURL文字列を、スキーム,ユーザ情報,ホスト名,ポート番号,パス名,クエリーに分解するステップと、前記分解された部分に基づいて、ホスト名,ポート番号,パス名からなる文字列を生成するステップと、前記ホスト名からIPアドレスを取得するステップと、を備えている。
すなわち、前記ハッシュ値、前記復号化されたURL文字列、前記ホスト名、ポート番号、パス名からなる文字列、前記IPアドレスを迷惑メール判定のための判定情報とし、新たに受信した電子メールの判定情報と、過去の電子メールから取得・蓄積された判定情報とを対比させるステップと、前記新たに受信した電子メールの判定情報のうち少なくとも1つが、前記過去の電子メールから取得・蓄積された判定情報に合致した場合に、前記新たに受信した電子メールを迷惑メールとして判定するステップを備えている。
すなわち、前記ハッシュ値、前記復号化されたURL文字列、前記ホスト名、ポート番号、パス名からなる文字列、前記IPアドレスを迷惑メール判定のための判定情報とし、新たに受信した電子メールの判定情報と、過去の電子メールから取得・蓄積された判定情報のデータベースとを対比させるステップと、新たに受信した電子メールの判定情報のうち少なくとも一つが、過去の電子メールから取得・蓄積された判定情報と合致した場合に、前記データベースのカウンタを1繰り上げるとともに、更新日時を更新して再登録するステップと、新たに受信した電子メールの判定情報が、過去の電子メールから取得・蓄積された判定情報と合致しない場合に、前記新たに受信した電子メールの判定情報を前記データベースに新規登録するステップと、を備えている。
すなわち、前記各ステップにおける処理の結果をHTMLファイルまたはテキストファイルに保存するステップと、前記HTMLファイルまたはテキストファイルをウェブ上で参照するためのURLをユーザに送信するステップと、を備えている。
ユーザ端末20は、メールを作成及び送受信する機能を持つメールソフトウェアを備えており、ユーザ端末20がメールサーバ10に接続された状態において、ユーザ端末20はメールサーバ10のメールボックスから、ユーザ宛のメールを取得することができる。なお、ユーザ端末20が携帯電話である場合、メールサーバ10とユーザ端末20とは電通信回線を介して接続される。
メールサーバ10は、例えばワークステーションやパーソナルコンピュータ(パソコン)をはじめとするコンピュータ装置により構成される。メールサーバ10は、電子指紋として取得されるメールのハッシュ値や、メールに含まれていたURL情報が格納されるデータベースDB1〜DB4、ホワイトリスト情報が格納されるデータベースW1〜W4、メールの解析結果が格納されるデータ格納部11a,11b、メールボックス12、迷惑メールボックス13、ウェブサーバー14、POPサーバまたはIMAPサーバ15を備えて構成されている。また、メールサーバ10は、MTAや各種プログラムに従って各種処理を行う制御部(図示せず)を備えている。
ローカル処理がなされる場合、電子メールは、判定プログラムに入力され、迷惑メールであるか否かが判定される。迷惑メールではないと判定された電子メールは、宛先が指定され、ローカルメーラープログラムによりメールボックス12へ配信される。
DB1〜DB4には、電子メールから抽出された情報が格納される。DB1〜DB4に格納される情報としては、電子メールに含まれるURL文字列(復号化されたもの)、URLから容易に可変できる部分を除いた”host:port/path”の文字列、URLのホストをDNS検索して得られるIPアドレス、メールのパートごとのハッシュ値、の4種類がある。メールのパートごとのハッシュ値は、電子指紋として取得されるものである。
W1〜W4に登録される情報はDB1〜DB4に格納される情報と対になっており、復号後のURL文字列、”host:port/path”の文字列、IPアドレス、メールのパートごとのハッシュ値、が格納される。ここに記録された各情報に該当したメールについては、迷惑メール判定の対象外とされる。
DB1〜DB4及びW1〜W4はハッシュ形式であり、「復号後のURL文字列」、「”host:port/path”の文字列」、「IPアドレス」、「メールのパートごとのハッシュ値」、がキーとされ、「重複登録回数」、「最終更新日時(unix time)」、「最初に登場したメールのアーカイブ名」がデータとして登録される。
ユーザ提示される情報は、解析結果をHTMLファイルにすることにより形成される。HTML出力されたファイルは、データ格納部11aに格納される。
また、電子メールそのものがテキストファイルとして出力される。この情報は、データ格納部11bに格納される。データ格納部11a,11bへそれぞれファイルを格納するときは、最初に登場したメールのアーカイブ名がファイル名とされる。電子メールのテキストファイルは、解析結果のページからリンクを張って参照可能とされる。
データ格納部11a及び11bに格納された解析結果は、ウェブサーバ14を介して、外部から閲覧することができる。閲覧を希望するユーザには、これらの情報を閲覧するためのURLがメールにより送信される。
ユーザは解析結果を参照し、ホワイトリストに登録すべきものがあるかどうか検討する。ホワイトリストに登録するものがあれば、後述するように、そのURL情報をホワイトリスト登録用のアドレスにメール送信する。
この場合、特定のメールアドレスにメールを転送することにより、aliasファイルに書かれたプログラムが所定のオプション付きで起動され、転送されたメールがそのプログラムに入力される、という動作がMTAにより行われる。
図6に、本例におけるオプションの一例を示す。また、図7に、メールサーバ10のaliasファイルに書かれているプログラムの一例を示す。
例えば、迷惑メールに含まれるURL情報等を、データベースDB1〜DB4へ登録する場合は、登録用のメールアドレス(−bオプションの指定されているalias)に対して電子メールを転送することにより行う。
また、特定の情報をデータベースDB1〜DB4から削除する場合は、その情報をメールに書いて、削除用のメールアドレス(−eオプションの指定されているalias)に送信するだけで良い。
さらに、ホワイトリストデータベースW1〜W4への登録であれば、ホワイトリスト登録用のメールアドレス(−wオプションの指定されているalias)に対して、本文に登録する情報を書いてメールを送信する。
本例のシステムでは、迷惑メールを判定するための情報として、送信元情報ではなく、誘導先情報であるURL情報と、メールの各パートのハッシュ値を用いているので、結果として、上記のように単純なメール送信によるDBへの登録が可能となっている。
「メールの各パートのハッシュ値」は、電子メールがMIME(Multipurpose Internet Mail Extensions)で規定されたパートからなるメールとして送付されたときに、その各パートから得られるものである。
ハッシュ値とは、任意の長さのデータを固定長のデータに投影するハッシュ関数を用いて計算される固定長のデータを指すものである。ハッシュ関数の種類によって、得られるハッシュ値のデータ長は異なる。
本例では、160bitのハッシュ値が得られるSHA1と称するハッシュ関数を用いている。ハッシュ関数としては、上記SHA1の他に、MD5(128bit)、RIPEMD(160bit)、SHA256(256bit)などがあるが、本例では、実用上十分な精度があり、計算量も適切なSHA1を用いている。
ハッシュ値を利用することにより、同一のデータが繰り返し送付された場合に、それを検出することができ、迷惑メールとして判定することが可能となる。
ここで、MIMEメールの構造について説明する。
MIMEメールの最小単位になるパートは、図8に示すように、ヘッダ部、空行、本文から構成されているが、図9及び図10に示すようにマルチパートの構造からなるものがある。この場合、ヘッダ部には、例えば「Content−Type:multipart/mixed」のように記載されている。
マルチパートの構造は、セパレータ文字列を区切りにして、パートの中に、さらにパートを備えた構造となっている。
また、入れ子構造の他に、パートの中に複数のパートが並列に格納されている構造や、並列に格納された構造と、入れ子構造を組み合わせた構造としたものもある。
迷惑メールでは、上記各パートにURLを含ませて、URLを隠蔽していることがある。このため、各パートをMIME−multipartの構造に沿って復号化し、さらに各パートに含まれるURLを抽出する必要がある。
最初に、本文とヘッダからなるメールが、解析対象のパートとして渡される(ステップS11)。
次に、パートのヘッダ部の解析が行われる(ステップS12)。ヘッダ部には、符号化方式、コンテンツの種類等の情報が記載されている。
ヘッダ部に、例えば「Content−Type:multipart/mixed」と記載されている場合は、電子メールがマルチパートの構造であると判断される。電子メールがマルチパートの構造である場合は、セパレータ文字列を読み取る。
さらに、各パートは、base64やquoted−printableという手法で符号化されていることがあるため、ステップS14で、ヘッダ部に符号化指定が記載されているかどうか判定する(ステップS14)。符号化指定がある場合は(ステップS14;Yes)、ステップS15で復号化処理を行い、本文の復号化を行う。符号化指定があるのに、符号化されていない場合は、復号化処理は行わず、ステップS16に進む。
また、符号化指定がない場合は(ステップS14;No)、ステップS16に進む。
ステップS16では、ステップS12で解析したヘッダ部の情報に基づき、パートがマルチパートの構造であるか否かが判定される。
マルチパートの構造ではない場合(ステップS16;No)、ステップS17に進み、パートが可読なものであるか否かを判定する。パートのメディアタイプが、text/plain、text/html等可読なものの場合には(ステップS17;Yes)、ステップS18でURLの抽出・解析処理を行う。
パートのメディアタイプが可読なものでない場合は(ステップS17;No)、処理を終了する。
この処理により、電子メールを構成する各パートについて、それぞれハッシュ値が求められるとともに、各パートにURL情報が含まれている場合は、その情報が抽出・解析される。
このように、本例ではMIMEマルチパートが入れ子構造を許していることに対応して、解析手続きを再帰呼び出しして、完全な解析を実現している。
なお、解析結果を収納する記憶部(メモリ)の構造についても、MIMEマルチパートの構造にしたがって入れ子構造になっている。図20(a)は、1つのパートを納める記憶部の構造を示すものである。入れ子構造のパートの場合は、内包するパートを256個まで格納できる。内包されるパートについては、実際には図20(a),(b)に示すように、この定義で示されている構造体へのポインタとして格納される。
ステップS21では、電子メールに所定のスキームが含まれているかどうかのサーチがなされる。
ステップS21のスキームのサーチにおいて、ターゲットとなるURLは、以下の4種類の仕様(スキーム)に対応するURLである。
「http://」で始まるURL。このURLは、HTTP(Hypertext Transfer Protocol)、すなわちウェブサーバとウェブクライアントの間でHTML文書を送受信するための通信プロトコルに対応しているものである。
「https://」で始まるURL。このURLは、HTTPS(Hypertext Transfer Protocol Security)、すなわち、HTTPとSSL(Secure Sockets Layer)の暗号化機能を組み合わせた通信プロトコルに対応するものである。
「rtsp://」で始まるURL。このURLは、RTSP(Real Time Streaming Protocol)、すなわち、オーディオ・データやビデオ・データを実時間転送するための通信プロトコルに対応するものである。
「ftp://」で始まるURL。このURLは、FTP(File Transfer Protocol)、すなわち、ファイル転送プロトコルに対応するものである。
ここで、URLが1つもない場合には、以下のステップにおけるデータは生成されず、ハッシュ値だけの参照となる。
そして、ステップS23では、URLが符号化されているかどうかの判定がなされる。符号化されている場合(ステップS23;Yes)、ステップS24で復号化が行われ、再度、URLの終点が確定される。
ステップS23及びステップS24の処理は、符号化により偽装されたURLに対応するために行われるものであり、この処理により、「復号後のURL文字列」を取得することができる。
符号化の手法として、例えば文字実体参照、数値実体参照、エスケープ符号化がある。
文字実体参照は、DTD(Document Type Definition;文書型定義)で定義された名前で文字を指定する手法であり、文字コード位置が「&」と「;」で囲まれる記載となる。
文字実体参照の例として、例えば「&」であれば、「&」と表示される。また、例えば「¥」であれば、「¥」と表示される。また、例えば「<」であれば、「<」と表示される。
数値実体参照において、例えば10進数で指定する場合は、文字コード位置が「&♯」と「;」で囲まれる記載となる。
数値文字参照の例として、例えば「&」であれば「&♯38;」と表示される。また、例えば「¥」であれば、「¥」と表示される。また、例えば「<」であれば、「&♯60;」と表示される。
このように、符号化に際しては特定の文字が使用されているため、ステップS23では文字が符号化されているか否かを判定するため、URLのなかに、「&」、「♯」、「;」、「%」の文字が使用されているか否かがチェックされる。
図14に、復号化の一例を示す。図において、上段が符号化されたURL、下段が復号化されたURLである。例1は数値実体参照による符号化の例、例2は数値実体参照(セミコロンなし)による符号化の例、例3はエスケープ(URI−encode)による符号化の例である。
ステップS25では、URLを要素に分解する処理がなされる。
URLはインターネットで使用される様々なリソースの場所を表すものであり、URLにはリソースを取り出すためのプロトコルやディレクトリ、ポートなどの情報が含まれている。
URLは、一般に次のような形式とされている。
「scheme://userinfo@host:port/path?query」
なお、「userinfo@」、「:port」、「path」、「?query」は省略されていることもある。
ステップS25では、URLを、「scheme」、「userinfo」、「host」、「port」、「path」、「query」に分解する処理がなされる。
「http://ando:password@ns@www.ppml.tv/」
というURLの場合は、次のように分解される。
「userinfo」は「ando:password@ns」。
「host」は「www.ppml.tv」。
「port」は省略されているが、httpなので「80」。ポート番号は、httpなら80、httpsなら443、ftpなら21、rtspなら554、が適用される。
「path」は「/」。
「query」は「なし」。
「scheme」は「http」。
例えば、userinfoにわざと「@」を含む文字列を使って、
「scheme://intrude@intercept@host:port/」
のようにされているURLがある。この場合は、「intrude@intercept」がuserinfoとして扱われるべき文字列となる。
また、userinfoに「空白文字」を含ませて、
「http://u s e r i n f o@host:port/」のようにされているURLがある。この場合は、「u s e r i n f o」がuserinfoとして扱われるべき文字列となる。
さらに、userinfoに「改行」を含ませて、
「http://user(改行)
info@string@hostname:port/」のようにされているURLがある。この場合は、「改行」を除き、「userinfo@string」がuserinfoとして扱われるべき文字列となる。
a.「www.ppml.tv」を、大文字と小文字を入れ替えることにより「www.PpMl.tv」としている。
b.ホスト名である「www.ppml.tv」を、IPアドレスである「210.138.35.27」としている。
c.IPアドレス「210.138.35.27」を、Hexadecimal(16進数)形式を用いて「0xD2.0x8A.0x23.0x1B」としている。
e.IPアドレス「210.138.35.27」を、Hexadecimal形式(unsigned long;符号なし長整数)を用いて「0xD28A231B」としている。
f.IPアドレス「210.138.35.27」を、Decimal(10進数)形式(unsigned long)を用いて「3532268315」としている。
また、上記b〜fのように、IPアドレスを別の形式で書き換えてあるものについて、「210.138.35.27」のようにドットで区切られた10進数での表記に統一する。
「http://ando:password@ns@www.ppml.tv/」の例では、「host:port/path」文字列として「www.ppml.tv:80/」が生成される。
この処理は、上記ステップS25でIPアドレスが得られた場合には省略される。
ステップS28では、ステップS26でホスト名「www.ppml.tv」が得られた場合、このホスト名に基づいてIPアドレスが取得される。IPアドレスは、DNS(Domein Name System)サーバへのアクセスにより得ることができる。IPアドレスは得られた数だけ全てが取得される。
URLの解析が終了すると、解析結果は図20に示す記憶部に保存される。そして、その後、DB1〜DB4参照による判定処理及びDB1〜DB4への登録処理等の各処理が行われる。
迷惑メールに記載されるURLは、特定のURLとして禁止されることを防止するため、無関係なサイトのリダイレクト機能を用いていることがある。すなわち、本来のURLの前に、別のURLを付加し、この別のURLにアクセスしてきたユーザを、強制的に本来的に見せたいページへ導くものである。
「http://srd.abcde.com/drst/800501378255/*http:/www.365pharm1.com/」
のように記載されている。
上記URLのうち、「http:/www.365pharm1.com/」が本来的にユーザに見せたいページを示す部分である。
ステップS41では、URLに記載された「*」の位置が確定される。次いで、ステップS42では、「*」以降に記載されている、本来ユーザに見せたい方のURL(この場合では「http:/www.365pharm1.com/」の部分)を抽出する処理を行う。
URLが抽出されたら、URLの抽出・解析処理のステップS26〜ステップS28において、URLの解析が行われる。
判定のフローは、MTAからローカルメイラーの代わりに、以下の処理を行うプログラムが呼び出されて行われる。
ステップS1及びステップS2の処理を経て、「メールの各パートのハッシュ値」、「復号後のURL文字列」、「”host:port/path”文字列」、「IPアドレス」が取得されると、DB1〜DB4を参照し、一致するデータのスコアを計算し、スコアが1以上であるか否かが判定される(ステップS31)。
スコアが1以上であった場合(ステップS31;Yes)、迷惑メールであると判定され、迷惑メールボックス13にメールが配送される(ステップS32)。
また、スコアが0であった場合(ステップS31;No)、迷惑メールではないと判定され、ユーザのメールボックス12にメールが配送される(ステップS33)。
このとき、メールのヘッダに検出結果(スコア)を付加して配送する。こうすることにより、MUA(Mail User Agent)で、ヘッダ情報を利用した分別等の処理が可能となる。なお、配送先のアカウントを切り替える際は、図6の−u及び−rオプションを使用することにより、切り替えが可能となる。
登録のフローは、登録用のメールアドレスにメールを転送することで行われる。そうすると、登録用のプログラムが呼び出され、登録処理が行われる。
登録処理では、解析結果をもとに、「メールの各パートのハッシュ値」、「復号後のURL文字列」、「”host:port/path”文字列」、「IPアドレス」が、それぞれのデータベースDB1〜DB4に登録される。
ステップS41では、取得された上記4種類のデータについて、DB1〜DB4が参照され、当該情報がDB1〜DB4へ登録されているか否かが判定される。登録があった場合(ステップS41;Yes)は、重複登録回数(カウンタ)を1増加させ、更新日時を更新して再登録する(ステップS42)。
登録がなかった場合(ステップS41;No)は新規登録となる。新規登録されるURL情報は、重複登録回数(カウンタ)が1、更新日時は現在、アーカイブ名は現在処理中のもので登録される(ステップS43)。
ステップS51では、電子メールがテキストファイルとして出力される。出力されたデータは、「アーカイブ名.txt」というファイル名でデータ格納部11bに格納される。
また、ステップS52では、解析結果がHTML出力される。出力されたデータは、「アーカイブ名.html」というファイル名でデータ格納部11aに格納される。
ステップS53では、解析結果を閲覧希望するユーザに対して、これらの情報を閲覧するためのURLがメールにより送信される。テキストファイルは、解析結果のページからリンクを張って参照可能とされる。
図18に示す例では、送付された電子メールのタイプ(図中の符号A)、本文のハッシュ値(図中の符号B)、各パートのメディアタイプ(図中の符号C)、各パートのハッシュ値(図中の符号D,E,F)、各パートに含まれていたURLの数(図中の符号G,H,I)、送付時のURL文字列(図中の符号J)、復号後のURL文字列(図中の符号K)、URLを分解した結果情報(図中の符号L)、”host:port/path”の文字列(図中の符号M)、IPアドレス(図中の符号N)等の情報が表示されている。
図19に示す例では、送付された電子メールの解析結果に加えて、DB1〜DB4に登録されるデータについても表示されている。
図19では、送付された電子メールのタイプ(図中の符号A)、本文のハッシュ値(図中の符号B)、メールに含まれていたURL情報の数(図中の符号G)、送付時のURL文字列(図中の符号J)、復号後のURL文字列(図中の符号K)、URLを分解した結果情報(図中の符号L)、”host:port/path”の文字列(図中の符号M)、IPアドレス(図中の符号N)が表示されている。
さらに、抽出されたIPアドレスの重複登録回数(図中の符号O)、更新日時(図中の符号P)、アーカイブ名(図中の符号Q)が表示されている。
このとき、DBに登録したくないURL情報(すなわち、迷惑メールとは無関係なURL情報)があれば、そのURL情報はホワイトリストに登録される。
この場合は、迷惑メールと無関係なURL情報をメールの本文に記載し、ホワイトリスト登録用のメールアドレスにメールを送信する。そうすると、図7の「ホワイトリスト登録とレポート」に記載されたプログラムが起動される。そして、該当情報がデータベースDB1〜DB4から削除されるとともに、ホワイトリストのデータベースW1〜W4への登録が行われる。
ログファイルは、例えば次のような形式で記録される。
X−Picky−Score:101(ip:23/27、hpp:39/43、url:39/43、psig:0/3)
上記の例では、メールサーバで、同じIPアドレス(ip)、または同じhostname:port/pth文字列(hpp)、または同じURL(url)、または同じ各パートの電子指紋(psig)のうち、全部で101個がDB1〜DB4に登録されていたことを示している。
この例では、ip(IPアドレス)については27個検出のうちの23個がDB3の情報に一致し、hpp(「host:port/path」文字列)についは43個検出のうちの39個がDB2の情報に一致し、url(復号後のURL文字列)については43個検出のうちの39個がDB1の情報に一致し、psig(メールの各パートのハッシュ値)については3個検出のうちの0個がDB4の情報に一致したことが示されている。
この場合も、上記実施の形態と同様にして、有害ウェブサイトに関するURL情報を取得する。このURL情報を有する端末では、登録されたURL情報に基づいて、有害ウェブサイトへのアクセスがなされようとしている場合に、そのアクセスが制限される。
(1)電子メールにより誘導される特定ウェブサイトへのアクセス制限方法であって、
前記電子メールを、メール本文に含まれるセパレータ文字列に従って、メール構造の最小単位であるパートに分解するメール解析工程と、
前記分解したパート毎に電子指紋を取得する電子指紋取得工程と、
前記パートに含まれるURL情報を取得するURL情報取得工程と、
過去の電子メールから取得・蓄積された電子指紋またはURL情報が格納されたデータベースを参照するデータベース参照工程と、
前記電子指紋取得工程で取得された電子指紋または前記URL情報取得工程で取得されたURL情報が、前記データベースに迷惑メールに関連する電子指紋またはURL情報として格納されていた場合に、前記URL情報を有害ウェブサイトに関する情報と判定して、該有害ウェブサイトへのアクセスを制限するアクセス制限工程と、を備えたことを特徴とする特定ウェブサイトへのアクセス制限方法。
迷惑メールを1通ずつ解析し、迷惑メールとして登録するという手順で、34日分、37,000通あまりをDBに登録した。
その結果、URLからIPアドレスが取得できたものに限ると、31日目のデータで99.58%の迷惑メールを遮断することができた。これは一般的な迷惑メール遮断の手法を上回る検出率である。
URL文字列のDB:68,473件
host:port/path文字列のDB:40,526件
メールの各パートのハッシュ値のDB:37,424件
IPアドレスのDB:5,202件
となった。
このなかで、検出に最も貢献したのは、IPアドレスのDBであった。
このように、本例のシステムでは、小さなサイズのDBで高い検出効率を達成することができるため、大規模サイトへの適用も可能である。
また、従来の仕組みのように、発信元のホストやIPアドレス、発信者のドメインを利用して迷惑メールを判定する手法では、迷惑メールの発信元として登録されてしまうと、それ以降その発信元からはメールが届かなくなってしまうが、本例のシステムでは、誘導先のURL情報さえ消せば確実にメールは到達するので、実用上、より弊害の少ない安全なシステムになっていると言える。
Claims (12)
- 電子メールの送受信における迷惑メール遮断方法であって、
前記電子メールを、メール本文に含まれるセパレータ文字列に従って、メール構造の最小単位であるパートに分解するメール解析工程と、
前記分解したパート毎に電子指紋を取得する電子指紋取得工程と、
前記パートに含まれるURL情報を取得するURL情報取得工程と、
過去の電子メールから取得・蓄積された電子指紋またはURL情報が格納されたデータベースを参照するデータベース参照工程と、
前記電子指紋取得工程で取得された電子指紋または前記URL情報取得工程で取得されたURL情報が、前記データベースに迷惑メールに関連する電子指紋またはURL情報として格納されていた場合に、前記電子メールを迷惑メールと判定して該電子メールの配信を停止する配信停止工程と、を備えたことを特徴とする迷惑メール遮断方法。 - 前記URL情報取得工程では、符号化されたURL文字列を復号する処理、復号されたURL文字列を分解する処理、前記分解された部分に基づいてホスト名,ポート番号,パス名からなる文字列を生成する処理、前記ホスト名に基づいてIPアドレスを取得する処理がなされることを特徴とする請求項1記載の迷惑メール遮断方法。
- 電子メールの送受信における迷惑メール遮断方法であって、
前記電子メールを、メール本文に含まれるセパレータ文字列に従って、メール構造の最小単位であるパートに分解するメール解析工程と、
前記分解したパート毎に電子指紋を取得する電子指紋取得工程と、
前記パートに含まれるURL情報を取得するURL情報取得工程と、
過去の電子メールから取得・蓄積された電子指紋またはURL情報が格納されたデータベースを参照するデータベース参照工程と、
前記電子指紋取得工程で取得された電子指紋または前記URL情報取得工程で取得されたURL情報が既に存在した場合には、データを更新するデータ更新処理を行い、前記電子指紋取得工程で取得された電子指紋または前記URL情報取得工程で取得されたURL情報が存在しなかった場合には、新規データとして登録する新規データ登録処理を行うことを特徴とする迷惑メール遮断方法。 - 前記データ更新処理または新規データ登録処理では、前記電子指紋またはURL情報の重複登録回数、最終更新日時、最初に登場した電子メールのアーカイブ名が登録されることを特徴とする請求項3記載の迷惑メール遮断方法。
- 前記最終更新日時から現時点までの期間に応じて、登録の古い順からデータの削除を行うことを特徴とする請求項4記載の迷惑メール遮断方法。
- 前記電子メール自体の情報と、前記メール構造に関する情報と、前記電子指紋に関する情報と、前記URL情報と、のうち少なくとも一つをHTMLファイルまたはテキストファイルとして出力する工程と、
該HTMLファイルまたはテキストファイルをウェブサーバを介して外部に表示する工程と、を備えたことを特徴とする請求項1または3記載の迷惑メール遮断方法。 - 前記IPアドレスをDNSサーバに適用可能なブラックリストとして出力する処理がなされることを特徴とする請求項2記載の迷惑メール遮断方法。
- 受信した電子メールのヘッダ情報を取得するステップと、
前記電子メールの本文のハッシュ値を計算するステップと、
前記電子メールの本文の復号を行うステップと、
前記電子メールがマルチパート構造の場合に、セパレータ文字列に従って各パートを切り出すステップと、
前記切り出された各パートについて、ヘッダ情報の取得,本文のハッシュ値の計算,本文の復号,各パートの切り出しを繰り返し行うステップと、
前記各パートが可読の場合にURL情報を抽出するステップと、
を備えたことを特徴とする迷惑メール遮断プログラム。 - 受信した電子メールからURL文字列を取得するステップと、
前記URL文字列が符号化されている場合に復号化するステップと、
前記復号化されたURL文字列を、スキーム,ユーザ情報,ホスト名,ポート番号,パス名,クエリーに分解するステップと、
前記分解された部分に基づいて、ホスト名,ポート番号,パス名からなる文字列を生成するステップと、
前記ホスト名からIPアドレスを取得するステップと、
を備えたことを特徴とする迷惑メール遮断プログラム。 - 前記ハッシュ値、前記復号化されたURL文字列、前記ホスト名、ポート番号、パス名からなる文字列、前記IPアドレスを迷惑メール判定のための判定情報とし、
新たに受信した電子メールの判定情報と、過去の電子メールから取得・蓄積された判定情報とを対比させるステップと、
前記新たに受信した電子メールの判定情報のうち少なくとも1つが、前記過去の電子メールから取得・蓄積された判定情報に合致した場合に、前記新たに受信した電子メールを迷惑メールとして判定するステップと、を備えたことを特徴とする請求項8または9記載の迷惑メール遮断プログラム。 - 前記ハッシュ値、前記復号化されたURL文字列、前記ホスト名、ポート番号、パス名からなる文字列、前記IPアドレスを迷惑メール判定のための判定情報とし、
新たに受信した電子メールの判定情報と、過去の電子メールから取得・蓄積された判定情報のデータベースとを対比させるステップと、
新たに受信した電子メールの判定情報のうち少なくとも一つが、過去の電子メールから取得・蓄積された判定情報と合致した場合に、前記データベースのカウンタを1繰り上げるとともに、更新日時を更新して再登録するステップと、
新たに受信した電子メールの判定情報が、過去の電子メールから取得・蓄積された判定情報と合致しない場合に、前記新たに受信した電子メールの判定情報を前記データベースに新規登録するステップと、
を備えたことを特徴とする請求項8または9記載の迷惑メール遮断プログラム。 - 前記各ステップにおける処理の結果をHTMLファイルまたはテキストファイルに保存するステップと、
前記HTMLファイルまたはテキストファイルをウェブ上で参照するためのURLをユーザに送信するステップと、を備えたことを特徴とする請求項8乃至11いずれか記載の迷惑メール遮断プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003367895A JP4445243B2 (ja) | 2003-10-28 | 2003-10-28 | 迷惑メール遮断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003367895A JP4445243B2 (ja) | 2003-10-28 | 2003-10-28 | 迷惑メール遮断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005135024A true JP2005135024A (ja) | 2005-05-26 |
JP4445243B2 JP4445243B2 (ja) | 2010-04-07 |
Family
ID=34645763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003367895A Expired - Fee Related JP4445243B2 (ja) | 2003-10-28 | 2003-10-28 | 迷惑メール遮断方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4445243B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007025789A (ja) * | 2005-07-12 | 2007-02-01 | Ntt Data Corp | メールサーバ、プロキシサーバ、サーバシステム、誘導アドレス判定方法、アクセス先確認方法及びプログラム |
JP2007156697A (ja) * | 2005-12-02 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 正当サイト検証手法におけるホワイトリスト収集方法および装置 |
WO2007101324A1 (en) * | 2006-03-09 | 2007-09-13 | Borderware Technologies Inc. | Method and sytem for recognizing desired email |
JP2007241378A (ja) * | 2006-03-06 | 2007-09-20 | Data Henkan Kenkyusho:Kk | 検索装置及びそのプログラム |
JP2008210254A (ja) * | 2007-02-27 | 2008-09-11 | Rakuten Inc | 連続メール対策システム |
JP2011227884A (ja) * | 2010-03-31 | 2011-11-10 | Broadband Security Inc | ファイルのアップロード遮断システム及びファイルのアップロード遮断方法 |
JP2011248500A (ja) * | 2010-05-25 | 2011-12-08 | Kddi R & D Laboratories Inc | Webページ収集装置、方法及びプログラム |
US8612560B2 (en) | 2004-02-10 | 2013-12-17 | Sonicwall, Inc. | Message classification using domain name and IP address extraction |
WO2016117776A1 (ko) * | 2015-01-23 | 2016-07-28 | 주식회사 플랜티넷 | 라우터 기반의 유해 차단 시스템 및 그 방법 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877680A (zh) * | 2010-05-21 | 2010-11-03 | 电子科技大学 | 一种垃圾邮件发送行为控制系统及方法 |
US10810176B2 (en) | 2015-04-28 | 2020-10-20 | International Business Machines Corporation | Unsolicited bulk email detection using URL tree hashes |
-
2003
- 2003-10-28 JP JP2003367895A patent/JP4445243B2/ja not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8612560B2 (en) | 2004-02-10 | 2013-12-17 | Sonicwall, Inc. | Message classification using domain name and IP address extraction |
US9860167B2 (en) | 2004-02-10 | 2018-01-02 | Sonicwall Inc. | Classifying a message based on likelihood of spoofing |
US9100335B2 (en) | 2004-02-10 | 2015-08-04 | Dell Software Inc. | Processing a message based on a boundary IP address and decay variable |
US8856239B1 (en) | 2004-02-10 | 2014-10-07 | Sonicwall, Inc. | Message classification based on likelihood of spoofing |
JP2007025789A (ja) * | 2005-07-12 | 2007-02-01 | Ntt Data Corp | メールサーバ、プロキシサーバ、サーバシステム、誘導アドレス判定方法、アクセス先確認方法及びプログラム |
JP4732042B2 (ja) * | 2005-07-12 | 2011-07-27 | 株式会社エヌ・ティ・ティ・データ | メールサーバ、プロキシサーバ、サーバシステム、誘導アドレス判定方法、アクセス先確認方法及びプログラム |
JP2007156697A (ja) * | 2005-12-02 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 正当サイト検証手法におけるホワイトリスト収集方法および装置 |
JP4612535B2 (ja) * | 2005-12-02 | 2011-01-12 | 日本電信電話株式会社 | 正当サイト検証手法におけるホワイトリスト収集方法および装置 |
JP2007241378A (ja) * | 2006-03-06 | 2007-09-20 | Data Henkan Kenkyusho:Kk | 検索装置及びそのプログラム |
US7627641B2 (en) | 2006-03-09 | 2009-12-01 | Watchguard Technologies, Inc. | Method and system for recognizing desired email |
WO2007101324A1 (en) * | 2006-03-09 | 2007-09-13 | Borderware Technologies Inc. | Method and sytem for recognizing desired email |
JP2008210254A (ja) * | 2007-02-27 | 2008-09-11 | Rakuten Inc | 連続メール対策システム |
JP2011227884A (ja) * | 2010-03-31 | 2011-11-10 | Broadband Security Inc | ファイルのアップロード遮断システム及びファイルのアップロード遮断方法 |
JP2011248500A (ja) * | 2010-05-25 | 2011-12-08 | Kddi R & D Laboratories Inc | Webページ収集装置、方法及びプログラム |
WO2016117776A1 (ko) * | 2015-01-23 | 2016-07-28 | 주식회사 플랜티넷 | 라우터 기반의 유해 차단 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4445243B2 (ja) | 2010-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8015250B2 (en) | Method and system for filtering electronic messages | |
US11770353B2 (en) | System and method for securely performing multiple stage email processing with embedded codes | |
CN101567889B (zh) | 用于为网络提供漏洞利用保护的系统与方法 | |
US8584233B1 (en) | Providing malware-free web content to end users using dynamic templates | |
US8539224B2 (en) | Obscuring form data through obfuscation | |
CN100492963C (zh) | 代理服务器和访问控制方法 | |
US7739337B1 (en) | Method and apparatus for grouping spam email messages | |
JP4395848B2 (ja) | 廃棄可能なeメールアドレスを生成し、処理するための方法、システム、及びコンピュータ・プログラム | |
US8069213B2 (en) | Method of controlling access to network resources using information in electronic mail messages | |
CN108259415B (zh) | 一种邮件检测的方法及装置 | |
US7103599B2 (en) | Parsing of nested internet electronic mail documents | |
US8321512B2 (en) | Method and software product for identifying unsolicited emails | |
EP1738519A1 (en) | Method and system for url-based screening of electronic communications | |
EP2729895A2 (en) | Syntactical fingerprinting | |
JP4445243B2 (ja) | 迷惑メール遮断方法 | |
JP2022530290A (ja) | 悪性url検出のための、最適走査パラメータ計算方法、デバイス、およびシステム | |
US8473556B2 (en) | Apparatus, a method, a program and a system for processing an e-mail | |
US8676907B2 (en) | Relay apparatus, relay method and recording medium | |
Ahmad et al. | Overview of phishing landscape and homographs in Arabic domain names | |
US20210329007A1 (en) | Method of Using Sequential Email Numbering to Detect an Email Phishing Attempt or Fraudulent Email Within an Email Domain | |
US8375089B2 (en) | Methods and systems for protecting E-mail addresses in publicly available network content | |
KR20040013180A (ko) | 유알엘 패턴 매칭 방법을 이용한 전자 메일 차단 시스템 및 방법 | |
JP2006221586A (ja) | 報告型迷惑メールフィルタリングシステム | |
US20230291767A1 (en) | Method of Detect an Email Phishing Attempt or Fraudulent Email Within an Email Domain | |
JP2017167934A (ja) | 通信装置、メール処理方法およびメール処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4445243 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
S201 | Request for registration of exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R314201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
S201 | Request for registration of exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R314201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140122 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |