JP4546761B2 - 高度なスパム検出技法 - Google Patents

高度なスパム検出技法 Download PDF

Info

Publication number
JP4546761B2
JP4546761B2 JP2004148162A JP2004148162A JP4546761B2 JP 4546761 B2 JP4546761 B2 JP 4546761B2 JP 2004148162 A JP2004148162 A JP 2004148162A JP 2004148162 A JP2004148162 A JP 2004148162A JP 4546761 B2 JP4546761 B2 JP 4546761B2
Authority
JP
Japan
Prior art keywords
message
feature
features
name
spam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004148162A
Other languages
English (en)
Other versions
JP2005018745A (ja
Inventor
ティー.スターバック ブライアン
エル.ラウンスウェイト ロバート
イー.ヘッカーマン デビッド
ティー.グッドマン ジョシュア
シー.ギラム エリオット
ディー.ハウエル ネイサン
アール.アルジンガー ケネス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005018745A publication Critical patent/JP2005018745A/ja
Application granted granted Critical
Publication of JP4546761B2 publication Critical patent/JP4546761B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Paper (AREA)
  • Burglar Alarm Systems (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Description

本発明は、スパムメッセージを識別するためのシステムおよび方法に関し、より詳細には、スパム送信者が回避することが難しい特徴と、スパム送信者が複製することが難しい非スパム中の特徴とを見つけるシステムおよび方法に関する。
インターネットなど地球規模の通信ネットワークの出現により、膨大な数の潜在顧客に到達する商業機会が提供された。電子メッセージング、特に電子メール「Eメール」が、(「スパム」を意味することもある)望ましくない広告および宣伝をネットワークユーザに広めるための手段としてますます普及しつつある。
Radicati Group,Inc.というコンサルティングとマーケットリサーチの会社では、2002年8月時点で20億通のジャンク電子メールメッセージが毎日送付されている(この数は2年ごとに3倍に増えると予測されている)と見積もっている。個人および団体(たとえば、企業、政府機関)は、ますます迷惑を受けるようになっており、しばしばジャンクメッセージによって苦しめられている。したがって、スパムは、現在、あるいはすぐにも信頼すべきコンピューティングに対する主要な脅威になるはずである。
スパムを阻止するために利用される一般の技法は、フィルタリングのシステム/方法の使用を必要とする。1つの実証済みのフィルタリング技法は、機械学習手法に基づいている。機械学習フィルタは、着信メッセージにそのメッセージがスパムである確率を割り当てる。この手法では、一般に2つのクラスのメッセージ例(例えば、スパムメッセージおよび非スパムメッセージ)から特徴を抽出し、学習フィルタを適用して2つのクラスが確率的に区別される。多くのメッセージの特徴は内容(例えば、メッセージの主題および/または本文における単語および句の全体)に関係しているので、かかるタイプのフィルタは、一般に「内容ベースのフィルタ」と呼ばれる。これらのタイプの機械学習フィルタでは、通常、スパムメッセージを検出しこれらを善良なメッセージと区別するための厳密なマッチング技法が使用されている。
あいにく、スパム送信者はしばしば、彼らのスパムメッセージを修正して良質なメールに見えるようにし、またはメッセージ全体にわたって様々な異常な文字を含めて文字認識システムを回避および/または混乱させることによって、従来技術の機械学習および/または内容ベースフィルタをだますことができる。したがって、かかる従来技術のフィルタでは、スパムに対して提供される保護が限られている。
以下は、本発明の一部の態様を基本的に理解するために本発明の簡略化した概要を提示したものである。この概要は、本発明の広範な全体像ではない。本発明の重要/不可欠な要素を特定し、または本発明の範囲を示すことは意図されていない。その唯一の目的は、後で提示するより詳細な説明への前触れとして簡略化した形式で本発明の一部の概念を提示することにある。
機械学習技法に基づいているか、それとも他の技法に基づいているかにかかわらず、スパムフィルタは、メッセージの内容を調べてメッセージがスパムであるか否かを判定しなければならない。あいにくスパム送信者は、しばしば、彼らのメッセージの多くの様相を偽装することが可能である。彼らは、スパムらしい単語のスペルを間違え、同義語を使用し、または単語を含むイメージを使用することができる。スパムフィルタは、OCR(光学式文字認識)ソフトウェアを使用してイメージの形の単語を見つけることができるが、特にスパム送信者がOCRシステムにとっては難しいイメージを意図的に使用する場合には、それは一般にあまりにも高くつきすぎる。彼らのメッセージを偽装する能力を低下させるために、スパム送信者が偽造することが難しい特徴を生成することができる。
特徴とは、電子メールまたはメッセージを追跡するコンポーネントが検出する事実(fact)のことである。メッセージ追跡コンポーネントは、メッセージ中の各単語に特徴を作成することができる。メッセージ追跡コンポーネントはまた、句読点を使用するたびに特徴を作成することが可能であり、これは、使用される句読点の種類に依存したものとすることができる。特徴は、機械学習フィルタでも、また手で構築される規則の一部など他の多くの方法でも使用することができる。
本発明では、スパム送信者が偽造するのが難しい、従来技術のスパムフィルタが一般に使用している特徴を超える追加の特徴を含めることによってスパムを検出し防止することを実施するシステムおよび方法を提供している。かかる1つの特徴は、メッセージ中の1対の特徴を調べることに関与している。スパム中のある種の特徴は、別々に考える場合には簡単に偽造され、すなわちほとんど価値がないが、一緒になると、すなわち一緒に考える場合にはずっと価値のある物になる。対として使用することができる特徴の例には、メッセージの元の情報から導き出され、またはそれに関係する特徴が含まれる。特に、SMTP(Simple Mail Transfer Protocol簡易メール転送プロトコル)中のドメイン名およびホスト名、HELOコマンド中のドメイン名およびホスト名、Received fromヘッダ中のIPアドレスまたはサブネット、表示名中の任意のドメイン名またはホスト名、Message Fromフィールド中の任意のドメイン名またはホスト名、およびヘッダから最後に受信された中での任意のタイムゾーンは、何らかの方法またはその組合せですべてマッチしていなければならない。したがって、前述の任意の対は、機械学習フィルタまたは他の任意の規則ベースのフィルタをトレーニングするのに有用とすることができる
第2の特徴は、一連のキャラクタを検査することに関与している。メッセージにおける従来技術の最大の特徴は、メッセージ中の単語に関係しており、最も一般にはスペースで区切られた単語に関係している。しかし、(スペース付きまたはスペースなしの)ある種のキャラクタシーケンスが、メッセージの一部の中で生ずるという事実は、スパムであることを示す可能性がある。したがって、本発明は、句読点やスペースを含めて、各キャラクタシーケンスまたはほぼすべての可能なキャラクタシーケンスについて作成される特徴を使用するシステムおよび方法を提供している。スパム送信者の中には、件名またはメッセージの末尾または先頭に、たいていのスパムフィルタリングシステムで見出される厳密なマッチング技術を妨害することが可能なチャフ(chaff)を含める者もいる。このチャフは、良質なメールではまれにしか生じない「xz」や「qp」などのキャラクタNグラム(n−gram)を含み得る。したがって、チャフおよび/またはキャラクタNグラムの存在または発生が、そのメッセージが不良(例えば、スパム)であることを示す強力な指標となり得る。キャラクタNグラムはまた、位置に依存している可能性がある。したがって、この位置依存性を含む特徴もまた、主題の本発明に従って作成し使用することができる。
チャフを検出するために、まれなキャラクタシーケンスを使用することに対する代替方法は、機械学習システム中で使用することができるさらに第3のタイプの特徴に関与する。この第3の特徴は、例えばキャラクタNグラム言語モデルを使用してキャラクタの高いエントロピーを検出することに関与している。このモデルでは、ある種のキャラクタシーケンスが他のキャラクタシーケンスに比べてより起こりやすいように、生起確率を各キャラクタに対して割り当てることができる。例えば、(「the」、「hear」、「she」「theater」などで見出されるような)キャラクタシーケンス「he」は、所与の任意のキャラクタのランまたはストリングにおいてシーケンス「xz」よりも起こりやすそうである。したがって、キャラクタシーケンス「xz」に対するエントロピーは、シーケンス「he」の場合よりも高くなるはずである。
高いエントロピーに加えて、件名またはメッセージの末尾または先頭などでキャラクタの平均エントロピーを検出することもできる。さらに、キャラクタの相対エントロピーに関係する特徴を役立たせることもできる。例えば、件名の先頭における平均エントロピーが件名の中央における平均エントロピーよりも0.5高い場合についての特徴を指定することができる。他の特徴の例は、メッセージの中央に比べて1.0大きいメッセージ本体の末尾における平均エントロピーに対応させることも可能である。さらに、高いエントロピー、平均エントロピー、および/または相対エントロピーのこれら検出されたイベントのそれぞれを別々の特徴として使用することもできる。
第4のタイプの有用な特徴は、一般的なヘッダに関与するものである。従来技術の機械学習アルゴリズムは、件名およびメッセージ本体における一般の特徴、またはメッセージヘッダ中に見出される他の一般のフィールドに基づいた特徴のみ使用している。従来のフィルタと違って、本発明では、ヘッダ行タイプの有無を含めてほぼすべてのヘッダを利用する。さらに重要なことには、本機械学習システムでは、すべての有用なヘッダの特徴を自動的に識別することが可能であり、一部のケースでは、同様に一部のヘッダ行を除外することさえ可能である。
本発明の他の態様では、機械学習技法にとって有用となり得る電子メールの(Eメール)通信の追加の特徴は、特徴の拡張されたサイズならびにイメージの特徴を含む。非常に小さなスパムも、非常に大きいので、本明細書中に前述した少なくとも1つの他の特徴と組み合わせた特徴の多くの異なるサイズによって、スパムの識別が容易になることがある。例えば、特徴をメッセージサイズに対応するように作成することができる。すなわち、100バイト、200バイトより大きな、またbバイト(ここでbは1以上)までのメッセージサイズでは、特徴を各サイズごとにまたはサイズの範囲ごとに生成することができる。スパム送信者はしばしば、メッセージのソースを混乱および/または偽装するために長い表示名を使用するので、これを件名および表示名サイズに適用することもできる。同様に、ユーザの中には彼らのメッセージを決して開けないが代わりに件名だけに頼る者もいるので、スパムの件名には、メッセージの重要な一部分または本体全部が含まれる傾向もある。
前述の特徴のどれかを機械学習システムで使用し、ジャンクメールフィルタおよび/またはスパムフィルタをトレーニングし改善することが可能であり、したがってスパム送信者が彼らのメッセージを変更してこれらのフィルタを回避することはさらに難しくなる。さらに、スパム送信者がスパムをメッセージングシステム中に通す機会はさらに少なくなる。
前述および関連する目標を達成するために、本発明のある種の例示の態様を以下の説明および添付図面に関連して本明細書中に説明している。しかし、これらの態様は、本発明の原理を使用することができ、本発明がかかる態様およびそれらの等価物をすべて含むことを意図している様々な方法のうちの少ししか示してはいない。本発明の他の利点および新しい特徴は、図面と併せ考慮する場合に本発明の以下の詳細な説明から明らかになろう。
次に、本発明を図面を参照して説明する。図面中、同じ参照番号を使用して全体を通して同様な要素について言及している。以下の説明では、説明の目的で、本発明の完全な理解が得られるようにするために数多くの特定の詳細を示している。しかし、これらの特定の詳細なしに本発明を実施することができることは明らかであろう。他の例では、本発明の説明を実施するために周知の構造およびデバイスをブロック図中に示している。
本出願で使用しているように用語「コンポーネント」および「システム」は、コンピュータに関係するエンティティを、すなわちハードウェア、ハードウェアおよびソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアを意味することが意図されている。例えば、コンポーネントは、それだけには限定されないが、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行形式ファイル、実行スレッド、プログラム、および/またはコンピュータであり得る。例としては、サーバ上で実行されるアプリケーションもそのサーバも共にコンポーネントであり得る。1つまたは複数のコンポーネントは、プロセスおよび/または実行スレッド内に存在することができ、またコンポーネントは、1台のコンピュータ上に集中および/または複数台のコンピュータ間に分散することもできる。
主題の本発明では、様々な推論スキームおよび/または機械学習スパムフィルタリングのためのトレーニングデータの生成に関する技法を組み込むことができる。本明細書中で使用するときに、用語「推論(inference)」は一般に、イベントおよび/またはデータを介して捕捉される1組の観察から、システム、環境、および/またはユーザの状態を推理または推論するプロセスを意味する。推論を使用して、特定のコンテキストまたは動作を識別し、あるいは推論によって例えば状態間の確率分布を生成することができる。推論は、確率的とすることができ、これはすなわちデータおよびイベントの考察に基づいて関心のある状態についての確率分布の計算となる。推論はまた、1組のイベントおよび/またはデータから高位のイベントを構成するために使用する技法を意味することもあり得る。イベントが時間的に近接した関係にあってもそうでなくても、またイベントとデータが1つまたはいくつかのイベントおよびデータソースに由来してもしなくても、かかる推論の結果、1組の観察されたイベントおよび/または記憶されたイベントデータから新しいイベントまたは動作の構築がもたらされる。
メッセージという用語は、本明細書全体にわたって広範に使用されているが、かかる用語は、電子メールそれ自体だけには限定されず、適切な任意の通信アーキテクチャ上に分散することができる任意形式の電子メッセージングを適宜含むようにすることができる。たとえば、ユーザがメッセージを交換するときに通常のチャットメッセージ中に望ましくないテキストを電子的に散りばめ、または先頭メッセージ、終了メッセージ、もしくは以上のすべてとして望ましくないテキストを挿入し、あるいはその両方を行うことができるので、2人以上の人の間で会議を実施する会議アプリケーション(例えば双方向のチャットプログラムおよびインスタントメッセージプログラム)では、本明細書に開示のフィルタリングの利点を利用することもできる。この特定のアプリケーションでは、フィルタをトレーニングして、特定のメッセージ内容(テキストおよびイメージ)に自動的にフィルタをかけて望ましくない内容(例えば、コマーシャル、宣伝、または広告)を捕捉してジャンクとしてタグを付けることができる。別の例を挙げると、セルラ電話のSMSメッセージにもフィルタをかけることができる。
次に図1を参照すると、本発明の一態様による、対をなす特徴の使用を実施してスパム検出を促進するシステム100の全般的なブロック図が示されている。特徴の中には、それらがすでに個々に使用されている場合でさえも、対として特に役に立つ物がある。一般に、マッチすべきメールの起点となる情報がある。例えば、あるIPアドレスを偽造することは実用的ではない。したがって、スパムフィルタをトレーニングして他のいくつかの特徴がIPアドレスの特徴と矛盾がないことを検査することができる。マッチを一般的な意味で使用することができる。例えば、同じサーバを使用して2つのドメイン(例えば、ホットメールおよびMSN)からメールを送信する。HELOコマンドおよび「from」コマンドは、同じドメインを提供する必要はないが、一般にある種の妥当な対の形でのみ生ずるはずである。
図1に示すように、1人または複数人の送信者110からのメッセージは、そのそれぞれの送信者からシステム100に含まれる、SMTPサーバなどのメールサーバ130に向けて配信される。メッセージの配信は、例えばいくつかのSMTPコマンド120を介して実現することができる。他のメール配信プロトコルも可能であり、同様にして本発明に適用することができる。
したがって、一連のSMTPコマンドを発行し問題を解決してはじめて、メッセージ140を配信の受信者が受け入れることができる。特に、対をなす特徴を確立するために使用することができる発生情報150をこのSMTPコマンド120中で見つけることができる。発生情報150から特徴を導き出すために、情報150をメッセージ解析コンポーネント160で評価し解析することができる。メッセージ140の発生情報150の少なくとも一部分を解析した後に、この解析済みの部分または特徴を特徴対形成コンポーネント170に伝えることができる。この特徴対形成コンポーネント170は、結果としての特徴対が追加の特徴として役に立つように任意の特徴の可能な組合せを分析することができる。動作可能にシステム100に結合されるフィルタトレーニングコンポーネント180は、例えばスパムフィルタをトレーニングする際に、特徴対を使用することができる。
フィルタを十分にトレーニングした後に、機械学習システムに関連してそのフィルタを使用し、別のグループのメールメッセージに適用してグループからスパムのようなメッセージにフィルタをかけることができる。このフィルタを定期的に更新しまたは新しいフィルタを必要に応じて作成し、あるいはその両方を行ってスパムメールから正当なメールを効果的に識別することができる。
図2〜図4は、本発明の一態様による、SMTPコマンド内で見出される発生情報から解析でき、(例えば図の間の矢印で示すような)いくつかの有用な対へと組み合わせることができる様々な特徴を示すものである。例えば、図2において、第1のSMTPコマンドは、送信マシンが例えばHELOx.y.z.などその名前を言うHELOコマンド200とすることが可能である。x.y.zがmail1.ddd.comの形式の場合には、「mail1.ddd.com」をホスト名210と称し、「ddd.com」をドメイン名220と称することが可能である。したがって、ホスト名210から一部を取り除いてドメイン名220にすることができる。
送信者のIPアドレスを検出することもできる。すなわち、SMTPプロトコルは一般に、TCP/IPプロトコルに優先して使用され、したがってこの通信用に使用されるIPアドレスは、受信者に知られている。IPアドレス230は、しばしばサブネット240と呼ばれるグループ内で売られ使用される。サブネット240は、様々な方法で定義することができるが、実際にはサブネットの一例は、最初の24ビットを共用するすべてのIPアドレスを含むように定義することができる。したがって、HELOコマンド200がHELO ddd.comのことを言う場合、ddd.comから送信する複数のマシンがあることもある。しかし、送信マシンのほとんどは同じサブネット240上にあることになる。
一般に、一部の特徴対は、他の対に比べてあまり意味のあるものではない。例えば、HELOホスト名210とHELOドメイン名220の対形成は、一方が他方から導き出されるのであまり有用ではない。しかし、サブネット240とHELOドメイン名220の対形成は、これらの特徴の少なくとも一部分が通常の環境下でマッチすべきなので非常に有用である。
HELOコマンド200の後、x.y.zおよびこのメッセージが由来するIPアドレスを含む行、および主張時間帯を含む時間をメッセージの受取人がReceived from行に追加することができる。スパムフィルタは、ヘッダをスキャンしてHELOコマンド200が何を言ったかを調べることができる。送信者の主張時間帯(1つの特徴)は、メッセージのタイムスタンプ(別の特徴)とマッチすべきである。さらに、主張時間帯はまた、HELOコマンド200中の送信者の主張マシン名またはIPアドレスとマッチすべきである。このミスマッチは、スパムを指し示す可能性がある。
一般に、HELOコマンド200(例えば、HELOx.y.z)からのIPアドレスは、そのReceived from行中の主張マシン名またはIPアドレスと同じであるべき、またはマッチすべきであるが、スパム送信者は、彼らのIPアドレスについて正しいホスト名またはドメイン名を使用しないことによってメールを偽造することができる。したがって、ここでのミスマッチは、スパムを指し示す可能性がある。IPアドレス230が(ドメイン名220と)ミスマッチを起こすのに比べてIPアドレス230のサブネット240がドメイン名220とミスマッチをさらに起こしにくいことを理解されたい。
ドメインの中にHELOコマンド200で適切なマシン名を正しく提供するようにそのマシンが構成されていない物があるケースでは、フィルタは、(後続のメッセージ中で)もう一度その対を調べる場合、その対を適切なマッチとして受け入れることができるような特定の対が何かを学習することができる。したがって、フィルタをトレーニングして、フィルタのトレーニングとフィルタの使用の間で何らかの一貫性が保持される限り、個人的な好み、ならびに発生情報中のささいなエラーまたはミスマッチに対応できるようにすることができる。さらに、例えば、リスト中にない発生情報中で検出される情報がスパムである可能性が高くなるように、妥当なホスト名および妥当なIPアドレスを入れた可能な対のリストを作成することができる。
後のコマンドは、本発明の一態様による、図3に示すようなMAIL FROMコマンド300である。Envelop Fromとしても知られているように、MAIL FROMコマンドは、MAIL FROMa@b.c.dの形式にすることができる。b.c.dはx.y.zと同じにしてもよいし、そうしなくてもよいことを理解すべきだが、例に従って理解されたい。特に、ホスト名310の一部は、一般にマッチすべきである。例えば、c.dは、フィルタによって妥当なマッチを構成するようにy.zと同じまたはy.zに対応すべきである。さらにホスト名310の一部をはぎ取ってドメイン名320にし、HELO IPアドレス230(図2)などをもつ追加の特徴対を提供することができる。
DATAコマンド400中など、メッセージ中の後の方で、From:e@f.g.hの形式の行を追加することができる。この場合にも、ホスト名410f.g.hは、x.y.zおよびb.c.dと同じにすることができる。代わりに、少なくともドメイン名420g.hは、y.zおよびc.dとマッチすべきであるが、必ずしもそうとは限らない。このFrom行のことを、Message fromと呼ぶこともある。時には、この行は、From:“i”<e@f.g.h>の形式になる。この“i”は、表示名430と呼ばれる。多くの電子メールクライアントは、実際にはe@f.g.hではなくて表示名“i”だけを表示する。しかし、“i”は、“j@k.l.m”形式とすることが可能であり、それによって、メッセージ送信者の正体についてユーザの判断を誤らせる。かかる表示名は非定型なので、これだけ単独で、スパムを指し示すはずである。しかし、“i”が、“j@k.l.m”の形式で存在する場合には、k.l.mは他のホスト名とマッチすべきであり、あるいは、最低でもドメイン名がマッチ(例えば、l.mがg.hに対応)すべきである。
一部のケースでは、特定の3つ組(例えばx.y.z)がホスト名かドメイン名であるかを見分けることが面倒または困難となり得る。時には、それがいずれとなり得るかを推測することが必要になる。例えば、HELOコマンドがx.y.zの形式のアドレスを与え、MAIL FROMコマンドがy.zの形式のアドレスを有する場合には、x.y.zがホスト名で、y.zがドメイン名であることを、ある確かさで確認することができる。HELOコマンドがx.y.zの形式のアドレスを与え、MAIL FROMコマンドがb.c.dの形式のアドレスを与える場合には、x.y.zとb.c.dは共にホスト名およびドメイン名であり、y.zおよびc.dはドメイン名であると言う推測がなされる必要があるはずである。推測のすべての対は、まさしく最上の推測としてではなくて特徴として使用することができる。代わりに、最上の推測を使用することもできる。これらの推測をするための様々な簡単な推論を導き出すことができる。一般に機械学習システムを扱う場合には、この推測が所与の種類のメールについて矛盾がない(それ故、同じ特徴対が一貫して生ずる)限り、推測が常に正しいことは重要ではない。
さらに、SMTPのMAIL FROMコマンド中のドメイン名およびホスト名、HELOコマンド中のドメイン名およびホスト名、Received fromヘッダ中のIPアドレスまたはサブネット、表示名中のドメイン名またはホスト名、Message From中の任意のドメイン名またはホスト名、最後のRecived fromヘッダ中の任意の時間帯、および送信者が使用するあるタイプのメーリングソフトウェアに関係する特徴は、すべて何らかの方法でマッチすべきである。これらの特徴のうちの任意の対は、IPアドレスとそのサブネットを例外として、事実上すべてのリスト化された属性をスパム送信者が偽造することができるので、有用となる可能性が高い。したがって、IPアドレスまたはサブネットを含む対は、他の特徴のどれかと組み合わせる場合に、特に強力で有用となる。
図5は、メールメッセージのMessage From行およびReceived fromヘッダ(一括して500)から導き出すことができる特徴の可能な対を示している。図に示すように、ドメイン名「domain.com」510は、対にしてIPアドレス520,送信者の主張時間帯530、および/またはIPアドレス520のサブネット540とマッチさせることができる。その代わりまたは追加して、送信者の主張時間帯530を対にして送信者の主張IPアドレス520とマッチさせることができる。本明細書中に例示していない他の特徴ならびに図に示していない他の特徴対も可能である。
図6および図7は、高度のスパム検出を実施する追加の特徴生成システムを示している。ここで図6を参照すると、キャラクタのランおよびこれらキャラクタシーケンスのエントロピーに少なくとも一部基づいた特徴に関係するときの、特徴を作成するためのシステムの一例600のブロック図が示されている。
メッセージ中のほとんどの特徴はメッセージ中で見出される単語に関係している。しかし、メッセージ中またはメッセージの一部における、ある種のキャラクタシーケンスの存在もまた、役立てることができる。例えば、時に、スパム送信者は、「rich」または「RICH」の代わりに「R.I.C.H.」などのキャラクタシーケンスを使用することがある。パターンマッチ技法を使用して、「R.I.C.H.」と書かれた単語から簡単に抽出して基礎単語「RICH」を明らかにすることができる。
さらに、スパム送信者は、時に件名またはメッセージの末尾または先頭にチャフとしてランダム文字を追加することがある。これは、従来技術のフィルタで一般に使用される厳密なマッチ技法を混乱させる。これらのランダムキャラクタシーケンスは、良質なメールではたとえあったとしてもまれにしか生じない「xz」または「qp」のようなキャラクタNグラムを含む可能性が高いので、メッセージ中にこれらが起こることは、そのメッセージが悪質(例えば、スパム)であることを示す強力な指標となり得る。スパム送信者はまた、ピリオドやハイフンなどの句読点ならびにシンボルを任意に加えてスパムの特徴として知られている単語および/またはフレーズを変形することによって従来のスパムフィルタを回避することもできる。
このタイプの意図的な操作を軽減するために、システム600は、可能な各キャラクタシーケンスについて特徴を生成して意図的なキャラクタの置換、挿入、およびスペルの間違いを識別し検出する。システム600は、テキストをキャラクタごとにウォークスルーすることによって、また長さn(例えば、nは1以上の整数)のランごとに特徴を生成することによって、これをある程度達成し、これによって単語、句読点、スペース、および他の内容を効果的に拾い上げることになる。
例えば、送信者610は、図に示すようにメッセージ620を送信する。このメッセージ620は、メッセージサーバ630へと配信され、ここでこのメッセージをキャラクタ順序付けコンポーネント640によって処理して1つまたは複数の特徴をもたらすことができる。このキャラクタ順序付けコンポーネント640は、スパムを指し示す特定のキャラクタシーケンス、ストリングおよび/またはサブストリングを求めて探索することによってメッセージの少なくとも一部分を分析することができる。このシーケンス、ストリングおよび/またはサブストリングは、必ずしも全体またはスペースで区切られた単語である必要はない。
例えば、メッセージ620が以下のテキストを含んでいると想定する。
「Get Rich 〜−quick−〜 by Calling now!!!!!」
長さ6のランは、これらの例示キャラクタシーケンス650を作成するはずである。
「Get Ric」
「et Rich」
「t Rich 」
「Rich 〜−」
長さ7のランは、これらの例示キャラクタシーケンス650を作成するはずである。
「Rich 〜−q」
「ich 〜−qu」
「now!!!!」
キャラクタシーケンス650が識別され作成されるときに、特徴生成コンポーネント660は、各キャラクタシーケンスごとに対応する特徴670を生成する。次いでフィルタトレーニングコンポーネント680がかかる特徴670を使用して例えばスパムフィルタをトレーニングする。
例えば同じメッセージに対して1のような少ない数からある長さnまでの複数のラン長を利用して、個々の長さ(ストリング)ならびに副次的長さ(サブストリング)の両者を追跡することができる。
キャラクタNグラムに関して、どこでNグラムが発生するかに応じて同じ特徴または異なる特徴を使用することができる。Nグラムは、Fromアドレス、件名、テキスト本体、html本体および/または添付情報中に配置することができる。さらに、Nグラムの特徴は、メッセージ中の位置に従って生成し使用することができる。例えば、(例えばNグラムを含む)チャフが件名の先頭または末尾で生ずる傾向があるので、件名の先頭または末尾にある珍しいキャラクタシーケンスは、中央にある珍しいキャラクタシーケンスに比べてスパムを指し示すことが多い。したがって、件名の先頭または末尾など所望の位置だけでチャフおよび/またはNグラムを検出するようにシステム600をプログラムすることができる。同様に、Nグラムの特徴が、メッセージの先頭または末尾についての位置依存性をもつようにすることもできる。
このシステム600は、外国語、特に韓国や日本の言語(ひらがなおよびカタカナ)などスペースで単語を区切らない言語で使用する場合にも有用である。前述のように、異なるキャラクタ長のほぼすべてのシーケンスを簡単に検出することができる。代わりに、スペースが非常に少ない場合、英語ではまれにしか使用されない多くのキャラクタ(すなわち、高バイトキャラクタ)が検出される場合、ある種のユニコードキャラクタタイプが検出される場合などそのテキストが外国語ではないかと疑われる場合にのみ、システム600を呼び出すこともできる。したがって、キャラクタNグラムは、大文字、小文字、句読点またはスペースの特徴をもたないと判定されるキャラクタについて使用されるにすぎないことになる。例えば、メッセージがスキャンされ、非常に少ないスペース、および/または高バイトキャラクタの長いストリングが検出される場合に、このNグラム順序付けを呼び出すことができる。完全なNグラムがあらゆる電子メールについて実施するには高くつき時間もかかり得ることから、このキャラクタNグラムの限定適用は、前述のように(例えば、すべてのメッセージについての)完全なキャラクタNグラムの使用よりも有利にすることができる。
珍しいキャラクタシーケンスを使用することは、チャフを検出する一方法であるが、それには多く存在し得る珍しい各キャラクタシーケンスのリストを作成する必要がある。チャフを検出する別の方法は、本発明の他の態様による、キャラクタシーケンスの高いエントロピーを検出するものである。キャラクタシーケンスの高いエントロピーを検出することは、スパムを識別するためのより費用効率の高い効率的な方法となり得る。
やはり、図6を参照すると、システム600は、チャフを検出する代替技法および/または追加技法を提供するエントロピー検出コンポーネント690を含んでいる。このエントロピー検出コンポーネントでは、例えば、メッセージがスパムであることを示すランダムキャラクタのストリングの探索によってメッセージの少なくとも一部分を分析することができる。
キャラクタシーケンスのエントロピーとは、本質的にシーケンスの非類似性、またはランダム性のことである。一般にキャラクタシーケンス「abc...z」の確率PをP(abc...z)で定義する場合には、シーケンスのエントロピーは、
−logP(abc...z)
のように表される。
Figure 0004546761
のように記述される平均エントロピー、すなわちキャラクタ(a,b,c,...z)のエントロピーを同様にして利用してチャフを認識し識別することもできる。エントロピーの測定の単位は「ビット」である。
キャラクタシーケンスの確率を得るための多くの方法がある。例えば、良質および悪質な電子メールの完全なコーパス(corpus)および/または非電子メールデータベースを使用することにより、知られている良質な電子メールメッセージ上でキャラクタNグラム言語モデルをトレーニングすることができる。他の発見的方法を使用して高いエントロピーまたは平均のエントロピーを検出することも可能である。例えば、普通の文字対、または3つ組文字のリスト(例えば、それぞれ妥当なキャラクタシーケンス、または2文字および3文字)を作成することができる。続けて、所与の任意のキャラクタシーケンス中の、かかるリストに従って生起しない対または3つ組のパーセンテージを、キャラクタシーケンスのエントロピー決定に含めることができる。
実際には、高度で頑強なスパム検出システムを提供する際に、相対的エントロピーを非常に役立てることもできる。より詳細には、平均エントロピーを件名の先頭または末尾で、件名の中央に比べて高くまたは相対的に高いように検出することができる。実際に、例えば、件名の先頭における平均エントロピーを件名の中央におけるよりも0.5ビット高くすることができる。
代わりにまたは追加して、メッセージの末尾または先頭における平均エントロピーをメッセージ全体の平均エントロピーに比べて高くすることが可能であり、またはメッセージの中央の平均エントロピーに比べて高くすることが可能である。例えば、メッセージの末尾における平均エントロピーは、メッセージの中央に比べて少なくとも1ビット高い可能性もある(例えば、単位数をパーセンテージまたは係数に変換することができる)。これらの検出イベントのそれぞれを別の特徴とすることができる。したがって、多くの特徴が可能となる。
ランダムなキャラクタシーケンスに加えて、大きな割合のスパムには、テキストの代わりにイメージが含まれている。イメージは、単なる1および0、または他の数字のシーケンスにすぎない。このため、スパム送信者は、イメージの数字シーケンス中に最小限の量のスタティック(static)を入力して従来技術によるスパムフィルタリングシステムをうまく通り抜けることができる。したがって、イメージのエントロピーも、キャラクタシーケンスのエントロピーと同様にして決定することができる。さらに、2つ以上のメッセージ中にあると検出されたイメージを互いに比較することができる。それらがほぼ同様なものであることが見出された場合には、同じまたはほぼ同じイメージを含むすべてのメールを阻止することができる。
最終的には、キャラクタシーケンスおよびイメージシーケンスに対するエントロピーイベントに関係する特徴670をフィルタトレーニングコンポーネント680が使用して機械学習フィルタをトレーニングすることが可能である。
次に図7を参照すると、本発明の一態様による、スパム検出を実施する例示の特徴生成システム700のブロック図が示されている。このシステム700は、メッセージサーバ710を含んでおり、そのために送信者720は、メッセージ730を送信し、このメッセージは、その受信者に到達する前にメッセージサーバ710へと配信される。このメッセージサーバ710では、メッセージヘッダ分析コンポーネント740、イメージ処理コンポーネント750、および/またはメッセージおよび特徴のサイジングコンポーネント760がこのメッセージを解析して無数の特徴をもたらすことができる。
このメッセージヘッダ分析コンポーネント740は、機械学習フィルタをトレーニングすることに関連してメッセージヘッダのほぼすべての特徴を分析する。特に、機械学習を使用してすべての有用なヘッダの特徴を自動的に識別することができる。一手法は、例えば「X−Priority」などのヘッダ行タイプ、ならびに例えば、「X−Priority:3」など特定のヘッダタイプの存在または不在に少なくとも一部基づいて特徴を作成するものである。さらに、配信停止(unsubscribing)用のヘッダ行は、より簡単にスパムを識別するために有用である。
一部のヘッダ行は、特にユーザの好みに従って同様に除外することができる。さらに、送信者が使用するメーリングソフトウェアのタイプなどヘッダ行の内容は、スパムを検出する際に有用になり得る。すべてのヘッダ行をそれらの存在、不在、および/または内容について検査し分析することにより、件名およびメッセージ本体中の特徴を使用することに制限されている従来の機械学習システムアルゴリズムよりも優れた改善が示される。一部の機械学習アルゴリズムは、電子メールヘッダに基づく特定の特徴を使用するが、以前の手法では、ヘッダ行中のすべてまたは事実上すべての可能な特徴が使用されてはいなかった。
テキストでなくイメージを分析することはフィルタにとってより難しく時間がかかるので、スパム送信者がテキストでなくてイメージを使用するのを好むことから、イメージ処理コンポーネント750を使用してメッセージ中に含まれるイメージに基づいて様々な特徴を解析し取り出すことができる。例えば、イメージ数、(例えば、メッセージ中に埋め込まれ、または外部にリンクされる)イメージの位置、および/またはイメージのタイプ(例えば、JPGおよび/またはGIF)をそのメッセージから確認し、特徴として使用することができる。さらに、サイズ(例えば、バイト数)ならびにイメージのX−Y寸法を、特にメッセージに埋め込まれたイメージに関して最低限の処理で決定することができる。
個人的なデジタル写真を含む正当なメールを阻止するのを回避するために、特別な(一般に肯定的な)特徴を作成することができ、この場合、イメージサイズは普通サイズおよび/またはデジタルカメラで生成された寸法とマッチする。特徴はまた、バイトによるイメージサイズならびにイメージの全面積にも関係し得る。最終的には、ほとんどのスパム送信者が彼らのスパム中に外部リンクを含めるので、メッセージ中のイメージが(例えば、メッセージ外部の)どこか他にリンクしているかどうかに関係する特徴によって、スパムを指し示すことができる。
代わりに、メッセージはクリック可能なイメージを含むことも可能であり、それによって、イメージ自体を外部にリンクしたイメージとしてではなくクリック可能なハイパーリンクとして使用する。この例では、メッセージ中のHTMLテキストは、<A HREF=“first URL”><IMG SRC=“second URL”></A>などのタグパターンを含んでいる。第1のURLと第2のURLが異なるURLであることを理解されたい。したがって、タグパターンの少なくとも一部分に関係する特徴をスパムフィルタをトレーニングする際に使用することができる。一般に、ほとんどのスパム送信者がテキストでなくてイメージを使用してスパムフィルタを回避しようとするので、HTML属性およびタグパターン内のそれらのそれぞれの位置によって、スパムを指し示すことが可能である。したがって、かかる情報を特徴として抽出してフィルタをトレーニングする目的のために使用することができる。
非常に小さなスパムが非常に大きいので、メッセージサイジングコンポーネント760によってサイズを粒状化(granularize)して1つまたは複数のバケット中に入れ、多くの異なるサイズの特徴を利用することができる。一手法は、メッセージサイズ>100バイト、>200バイト、>400バイト、および>bバイトまで(ここでbは1以上の整数)のメッセージサイズについての特徴を含む。この粒状化は、サイズ500バイトのメッセージが、サイズ>100、>200、>400に対する特徴に関連づけられることになるような重複バケットに基づくようにすることが可能である。代わりに、この粒状化を非重複バケットに基づくようにすることも可能である。すなわち、各バケットは、1つのサイズの特徴が各メッセージに関連づけられるようにメッセージの特定のサイズに関係する。例えば、メッセージサイズ<100バイト;100=サイズ<200バイト;200=サイズ<400バイト、以下bバイトまでのメッセージサイズについてのバケットが存在する。
第2の手法では、スパムおよび/またはスパムに類似のメッセージは、例えばチャフが存在することに起因してより長い件名および表示名をもつ傾向があるので、このメッセージサイジングコンポーネントをより小さなサイズ尺度で件名および表示名に適用することもできる。
もう一度、メッセージを解析し情報ビットを識別するとき、特徴生成コンポーネント770は、この情報から特徴を生成し、次いでそれらまたはそれらの選択された部分を伝えてフィルタトレーニングコンポーネント780に関連して使用することができる。
主題の本発明による様々な方法を一連の動作を用いて次に説明する。一部の動作は本発明に従って本明細書中に示され説明される動作と異なる順序でまたは他の動作と同時にあるいはその両方で行われ得るので、本発明は、動作の順序によっては限定されないことを理解し認識されたい。例えば、状態図の形など一連の相互に関係する状態またはイベントとして方法を代替的に表すことができることが当業者には理解し認識されよう。さらに、本発明による方法を実装するためには必ずしもすべての例示した動作が必要ではないこともある。
次に図8を参照すると、高度のスパム検出に関連して特徴の生成を実施する例示の方法800のフローチャートが示されている。方法800は、810でメッセージを受信することから開始することができる。820で、どれか適切な電子メール解析コンポーネントによってこのメッセージの少なくとも一部分を解析することができ、それによって、このメッセージの発生情報に対応する特徴が生成される。830でこの特徴は対に組み合わせることができる。840で、最も有用な特徴対を選択することができ、850で、機械学習アルゴリズムを使用してかかる特徴対を用いてフィルタをトレーニングすることができる。方法800を所望の頻度で反復してフィルタを十分にトレーニングすることができる。
メッセージの発生情報から導き出される多くの特徴があるが、これらの特徴のいくつかは、スパムを正当なメールから区別する上で他の特徴よりも有用である。特に、IPアドレスや関係したサブネットなどの特徴は、スパム送信者にとって修正しまたは偽装することが非常に困難である。したがって、正当なユーザにとって、これらの特徴は、送信者の主張するマシン名および/または送信者の主張する時間帯などの他の特徴とマッチすべきである。したがって、これらの特徴対を検査する場合、各特徴対の間のマッチにより、そのメッセージが正当である(例えば、スパムでない)という強い可能性が示される。逆に、対がマッチしない場合には、そのメッセージがスパムであるという強い可能性が存在する。
次に図9を参照すると、本発明の一態様による、図8のトレーニング済みのフィルタを使用する例示の方法900のフローチャートが示されている。とりわけ、方法900は、910におけるメッセージを受信するステップと、920におけるこのメッセージを解析して1つまたは複数の発生の特徴を生成するステップと、930における次いでこの特徴を対形成して最も有用な特徴対を取得するステップとを含む。940で、特徴対を機械学習フィルタに通してこの特定のメッセージがよりスパムに類似しているかどうかを判断する。950で、メッセージのスパム性について機械学習システムから判定を得ることができる。例えば、この判定は、そのメッセージがスパムである可能性に対応する確率の形式にすることができる。
図10に示す特徴など、スパム検出を促進する追加の特徴を作成することができる。図10には、例示の方法1000のフローチャートが示されており、この方法は、1010で1つまたは複数のメッセージを受信し、このメッセージおよび/または件名のテキストのウォークスルーをして1020で長さnまでのキャラクタの各ランについての特徴を作成し、また1030でキャラクタシーケンスの各副次的長さについての特徴を作成するものである。
さらに、1040で、Nグラムの位置(例えば、件名および/またはメッセージ本体の先頭、末尾、中央)に基づいてキャラクタNグラムについての特徴を作成することもできる。1050で、キャラクタシーケンスが件名および/またはメッセージ本体の中央に比べて末尾および/または先頭で生ずるときのキャラクタシーケンスの相対的エントロピーに関係する特徴を生成することもできる。1050で、キャラクタシーケンスの高いエントロピーおよびキャラクタごとのエントロピー(例えば、平均エントロピー)を同様に特徴として決定し使用することができる。最後に、1060でこれらの特徴を使用して機械学習フィルタをトレーニングすることができる。この方法1000をこのフィルタが所望のメッセージ数、エントロピーイベント、および/またはキャラクタシーケンスを用いて実質的にトレーニングされるまで反復することができる。
図11は、図10に従ってトレーニングされるフィルタを使用してスパムの検出を実施する例示の方法1100のフローチャートである。この方法1100は、1110における、メッセージを受信するステップと、1120における、(例えば、複数の長さの)妥当なキャラクタシーケンスのリストにマッチし、またはマッチしないかあるいはその両方のキャラクタシーケンスを求めてメッセージの少なくとも一部分をスキャンするステップと、1130における、妥当なキャラクタシーケンスのリスト上に見出されないこれらのキャラクタシーケンスを含めて、メッセージおよび/または件名のキャラクタシーケンスの少なくとも一部分のエントロピーを検出するステップとを含む。1140で、検出されたイベントを特徴として使用し、機械学習フィルタに通す。1150で、機械学習システムからこのメッセージがよりスパムに類似しているか否かについての判定を得る。
次に、図12および図13を参照すると、主題の本発明の他の態様による、機械学習アルゴリズムで使用するための高度な特徴の生成を実施する例示の方法1200および1300のフローチャートがそれぞれ示されている。最初に、方法1200は、1210で1つまたは複数のメッセージを受信するものであり、それによって、1220でヘッダ行を解析し分析することによって特徴を作成することができる。さらに、1230で、メッセージおよび/または特徴サイズ(例えば、メッセージサイズ、表示名長、件名長)に関係する特徴を任意選択で作成することができる。1240で、とりわけ、サイズ、位置(メッセージの内部または外部リンク)および/または量に関してメッセージ中の任意のイメージを分析してさらなる特徴を生成することができる。1250で機械学習システムを使用して、作成される事実上すべての特徴をフィルタのトレーニングに使用することができる。
図12のトレーニング済みのフィルタを図13の例示の方法1300に記述されるように新しいメッセージに適用することができる。1310で、1つまたは複数のメッセージを受信する。1320で、ヘッダの特徴をこのメッセージから解析する。メッセージ、特徴サイズ、および/またはイメージ特性に対応する特徴を同様にそれぞれ1320および1330でこのメッセージから解析することができる。1340で、これらの特徴を機械学習フィルタに通し、それによって検査することができる。1350で、そこから解析される特徴に少なくとも一部基づいてメッセージの量またはスパム性の確率を示す判定が得られる。
本発明の様々な態様についての追加のコンテキストを提供するために、図14および以下の説明では、本発明の多様な態様を実装することができる適切な動作環境1410の簡潔な全般的な説明を提供することを意図している。本発明は、1つまたは複数のコンピュータまたは他の装置で実行されるプログラムモジュールなどコンピュータ実行可能な命令の一般的なコンテキストで説明されるが、他のプログラムモジュールおよび/またはハードウェアおよびソフトウェアの組合せに関連して本発明を実装することもできることが、当業者には理解されよう。
しかし、一般にプログラムモジュールは、特定のタスクを実施し、または特定のデータ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含んでいる。この動作環境1410は、適切な動作環境の一例にすぎず、本発明の使用範囲または機能に関してどのような限定を示唆するものでもない。本発明での使用に適したものとすることができる他の周知のコンピュータシステム、環境、および/または構成には、それだけには限定されないが、パーソナルコンピュータ、ハンドヘルド装置またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能な大衆消費電子製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、前述のシステムまたは装置を含む分散計算機環境などが含まれる。
図14を参照すると、本発明の多様な態様を実装するための環境の一例1410が、コンピュータ1412を含んでいる。このコンピュータ1412は、処理装置1414,システムメモリ1416、およびシステムバス1418を含む。このシステムバス1418は、それだけには限定されないが、システムメモリ1416を処理装置1414に結合するのを含めてシステムコンポーネントを結合する。処理装置1414は、様々な使用可能なプロセッサのうちのいずれにすることも可能である。2重マイクロプロセッサおよび他のマルチプロセッサアーキテクチャを処理装置1414として使用することもできる。
システムバス1418は、メモリバスもしくはメモリ制御装置、周辺バスもしくは外部バス、および/または、それだけには限定されないが、11ビットバス、ISA(Industrial Standard Architecture)、MSA(Micro−Channel Architecture)、EISA(Extended ISA)、IDE(Intelligent Drive Electronics)、VLB(VESA Local Bus)、PCI(Peripheral Component Interconnect)、USB(ユニバーサルシリアルバス)、AGP(Advanced Graphics Port)、PCMCIA(Personal Computer Memory Card International Association bus)、およびSCSI(Small Computer System Interface)を含めて様々な任意の使用可能なバスアーキテクチャを使用したローカルバスを含むいくつかのタイプのバス構造のうちのどれにすることも可能である。
システムメモリ1416は、揮発性メモリ1420および不揮発性メモリ1422を含んでいる。起動時など、コンピュータ1412内部の要素間で情報を転送する基本ルーチンを含むBIOS(基本入出力システム)は、不揮発性メモリ1422に記憶される。例として、限定するものではないが、不揮発性メモリ1422には、ROM(読出し専用メモリ)、PROM(プログラム可能ROM)、EPROM(電気的プログラム可能ROM)、EEPROM(電気的消去可能ROM)、またはフラッシュメモリが含まれ得る。揮発性メモリ1420は、外部キャッシュメモリとしての機能を果たすRAM(ランダムアクセスメモリ)を含んでいる。例として、限定するものではないが、RAMは、SRAM(シンクロナスRAM)、DRAM(ダイナミックRAM)、SDRAM(シンクロナスDRAM)、DDR SDRAM(ダブルデータレートSDRAM)、ESDRAM(エンハンスドSDRAM)、SLDRAM(シンクリンクDRAM)、およびDR(D)RAM(ダイレクトラムバス(D)RAM)などの多くの形態で使用可能である。
コンピュータ1412はまた、着脱可能/着脱不能の揮発性/不揮発性のコンピュータ記憶媒体を含んでいる。図14は、例えばディスク記憶装置1424を示している。ディスク記憶装置1424は、それだけには限定されないが、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、Ls−100ドライブ、フラッシュメモリカード、またはメモリスティックのような装置を含んでいる。さらに、ディスク記憶装置1424は、それだけには限定されないが、CD−ROM(コンパクトディスクROM)装置、CD−R(CD記録可能)ドライブ、CD−RW(CD再書込み可能)ドライブ、DVD−ROM(デジタル多用途ディスクROM)ドライブなどの光ディスクドライブを含めて、別々のまたは他の記憶媒体と組み合わせた記憶媒体を含むことができる。ディスク記憶装置1424をシステムバス1418に接続するのを容易にするために、インターフェース1426など着脱可能または着脱不能のインターフェースが一般に使用される。
図14が、ユーザと適切な動作環境1410中で説明される基本的なコンピュータリソースとの間の橋渡し役をするソフトウェアについて説明していることを理解されたい。かかるソフトウェアは、オペレーティングシステム1428を含んでいる。ディスク記憶装置1424に記憶することができるオペレーティングシステム1428は、コンピュータシステム1412のリソースを制御し割り付ける役割を果たす。システムアプリケーション1430は、システムメモリ1416またはディスク記憶装置1424に記憶されるプログラムモジュール1432およびプログラムデータ1434を介してオペレーティングシステム1428によるリソースの管理を利用している。本発明を様々なオペレーティングシステムまたはオペレーティングシステムの組合せを用いて実装することができることを理解されたい。
ユーザは、入力装置1436を介してコマンドまたは情報をコンピュータ1412に入力する。入力装置1436には、それだけに限定はされないが、マウス、トラックボール、スタイラス、タッチパッドなどのポインティング装置、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラ、などが含まれる。これらおよび他の入力装置は、インターフェースポート1438を経由してシステムバス1418を介して処理装置1414に接続される。インターフェースポート1438には、例えば、シリアルポート、パラレルポート、ゲームポート、およびUSB(ユニバーサルシリアルバス)が含まれる。出力装置1440は、入力装置1436と同じタイプのポートをいくつか使用している。したがって、例えば、USBポートを使用してコンピュータ1412に入力を提供し、また情報をコンピュータ1412から出力装置1440に出力することができる。出力アダプタ1442は、特別なアダプタを必要とする他の出力装置1440の中にはモニタ、スピーカ、プリンタのようないくつかの出力装置1440が存在することを示すために提供されている。出力アダプタ1442には、例として、限定するものではないが、出力装置1440とシステムバス1418との接続の手段を提供するビデオカードおよびサウンドカードが含まれる。リモートコンピュータ1444など、他の装置および/または装置システムは、入力機能も出力機能も提供することに留意されたい。
コンピュータ1412は、リモートコンピュータ1444など1つまたは複数のコンピュータへの論理接続を使用してネットワーク環境中で動作することができる。リモートコンピュータ1444は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースのアプライアンス、ピア装置または他の共通ネットワークノードなどとすることが可能であり、一般にコンピュータ1412に関連して説明される要素の多くまたはすべてを含んでいる。簡潔に示すために、リモートコンピュータ1444と一緒には、メモリ記憶装置1446だけしか示していない。リモートコンピュータ1444は、ネットワークインターフェース1448を介してコンピュータ1412に論理的に接続され、次いで、通信接続1450を介して物理的に接続される。ネットワークインターフェース1448は、LAN(ローカルエリアネットワーク)やWAN(ワイドエリアネットワーク)などの通信ネットワークを含んでいる。LAN技術には、FDDI(Fiber Distributed Data Interface光ファイバ分散データインターフェース)、CDDI(Copper Distributed Data Interface銅配線分散データインターフェース)、イーサネット(登録商標)/IEEE1102.3、トークンリング/IEEE1102.5などが含まれる。WAN技術には、それだけには限定されないが、ポイントツーポイントリンク、ISDN(デジタル総合サービス網)およびその変形のような回路交換ネットワーク、パケット交換ネットワーク、およびDSL(デジタル加入者回線)が含まれる。
通信接続1450は、ネットワークインターフェース1448をバス1418に接続するために用いられるハードウェア/ソフトウェアのことを意味する。通信接続1450は、図で明瞭に示すためにコンピュータ1412の内部に示しているが、通信接続はコンピュータ1412の外部にあることも可能である。ネットワ−クインターフェース1448に接続するために必要なハードウェア/ソフトウェアには、例示の目的だけであるが、通常の電話グレードのモデム、ケーブルモデム、およびDSLモデムを含めてモデム、ISDNアダプタ、およびイーサネット(登録商標)カードなどの内部技術および外部技術が含まれる。
以上で説明したものには、本発明の例が含まれている。本発明を説明する目的のためにコンポーネントまたは方法の考えられるあらゆる組合せについて説明することはもちろんできないが、本発明のさらなる多くの組合せおよび置換が可能であることが当業者には理解されよう。したがって、本発明は、添付特許請求の範囲の趣旨および範囲内に含まれる、かかる変更形態、修正形態、および変形形態をすべて包含するものとする。さらに、用語「includes」が詳細なる説明または特許請求の範囲中で使用される範囲では、かかる用語は、特許請求の範囲中の移行語として使用される場合に「comprising」と解釈されるので、用語「comprising」と同様な意味を含むものとする。
本発明の一態様による、スパムの防止を実施するシステムの全般的なブロック図である。 本発明の一態様に従ってHELOコマンドからの特徴を分解して示した概略図である。 本発明の一態様に従ってMAIL FROMコマンドからの特徴を分解して示した概略図である。 本発明の一態様に従ってDATAコマンドからの特徴を分解して示した概略図である。 本発明の一態様に従ってMessage From行およびReceived行からの互いに対となし得る特徴を分解して示した概略図である。 本発明の一態様による、キャラクタのランおよび/またはキャラクタシーケンスおよび/またはかかるキャラクタシーケンスのエントロピーに関係する特徴の生成を実施するシステムの全般的なブロック図である。 本発明の一態様による、メッセージヘッダ内容および/またはサイズに関係する特徴および/またはメッセージ中に存在するイメージに関係する特徴の生成を実施するシステムの全般的なブロック図である。 本発明の一態様による、フィルタをトレーニングする対をなす特徴を含めて特徴の生成を実施する方法の一例のフローチャートである。 図8のトレーニング済みのフィルタの使用を実施してスパムメッセージおよび/またはスパムのようなメッセージを識別する方法の一例のフローチャートである。 本発明の一態様による、フィルタをトレーニングするために使用することができるキャラクタのランおよび/またはキャラクタのかかるランのエントロピーに基づいて特徴の作成を実施する方法の一例のフローチャートである。 図10のトレーニング済みのフィルタの使用を実施してスパムメッセージおよび/またはスパムのようなメッセージを識別する方法の一例のフローチャートである。 本発明の一態様による、フィルタをトレーニングするために使用することができる特徴の作成を実施する方法の一例のフローチャートである。 図12のトレーニング済みのフィルタの使用を実施してスパムメッセージおよび/またはスパムのようなメッセージを識別する方法の一例のフローチャートである。 本発明による通信環境の一例の概略ブロック図である。

Claims (26)

  1. メッセージの発生情報の少なくとも一部分に関係する特徴を識別するコンポーネントと、
    スパムの検出を実施するための機械学習フィルタをトレーニングすることに関連して使用するための有用な対に前記特徴を組み合わせるコンポーネントと
    を備え、前記有用な対は、送信者の主張時間帯とMessage Fromのドメイン名の対を含むことを特徴とするスパム検出システム。
  2. 前記有用な対に組み合わせる特徴は、さらに、
    Message Fromコマンド中のホスト名と
    HELOコマンド中のドメイン名およびホスト名のうちの少なくとも一方と、
    Received fromヘッダ中のIPアドレスおよびサブネットのうちの少なくとも一方と、
    表示名中のドメイン名およびホスト名のうちの少なくとも一方と、
    Message From行中のホスト名のうちの少なくとも一方と、
    最後のReceived fromヘッダ中の少なくとも1つの時間帯と
    のうちの少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  3. 前記ドメイン名は、前記ホスト名から導き出されることを特徴とする請求項2に記載のシステム。
  4. 前記サブネットは、第1のビット数を共通に共用する1つまたは複数のIPアドレスを含むことを特徴とする請求項2に記載のシステム。
  5. 前記有用な対に組み合わせる特徴は、さらに、Message Fromからのホスト名と、HELOコマンドからのドメイン名およびホスト名のうちのいずれか一方を含むことを特徴とする請求項1に記載のシステム。
  6. 前記有用な対に組み合わせる特徴は、さらに、表示名のドメイン名およびホスト名と、Message Fromのホスト名を含むことを特徴とする請求項1に記載のシステム。
  7. 前記有用な対に組み合わせる特徴は、さらに、Message From中のホスト名と、Received fromのIPアドレスおよびサブネットのうちのいずれか一方を含むことを特徴とする請求項1に記載のシステム。
  8. 前記有用な対に組み合わせる特徴は、さらに、送信者のメーリングソフトウェアのタイプと、SMTPコマンドおよびメッセージヘッダのうちの1つから導き出されるドメイン名、ホスト名、およびユーザ名のうちのいずれか1つを含むことを特徴とする請求項1に記載のシステム。
  9. 前記発生情報は、SMTPコマンドを含み、前記SMTPコマンドは、HELOコマンド、MAIL FROMコマンド、およびDATAコマンドを含むことを特徴とする請求項1に記載のシステム。
  10. 前記DATAコマンドは、Message From行、送信者の主張時間帯、および送信者のメーリングソフトウェアを含むことを特徴とする請求項に記載のシステム。
  11. 1つまたは複数の発見的方法をメールメッセージに一貫して適用して一貫した特徴対形成を得るコンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  12. 通信デバイスとプロセッサを有するスパム検出システムにおいて、スパム検出に使用するための特徴の生成を実施する方法であって、
    スパム検出に使用するための特徴の生成を実施する少なくとも1つのメッセージを前記通信デバイスにより受信するステップと、
    前記メッセージの少なくとも一部分を解析して1つまたは複数の特徴を前記プロセッサにより生成するステップと、
    少なくとも2つの前記特徴を組み合わせて対にするステップであって、各特徴対は少なくとも1つの追加の特徴を前記プロセッサにより作成し、各対の前記特徴は、互いに一致するステップと、
    前記特徴対を使用して機械学習スパムフィルタを前記プロセッサによりトレーニングするステップと
    を含み、前記有用な対は、送信者の主張時間帯とMessage Fromのドメイン名の対を含むことを特徴とする方法。
  13. 解析される前記メッセージの前記少なくとも一部分は、前記メッセージの発生情報に対応することを特徴とする請求項12に記載の方法。
  14. 前記有用な対に組み合わせる特徴は、さらに、
    AIL FROMコマンド中のホスト名と
    HELOコマンド中のドメイン名およびホスト名のうちの少なくとも一方と、
    Received fromヘッダ中のIPアドレスおよびサブネットのうちの少なくとも一方と、
    表示名中のドメイン名およびホスト名のうちの少なくとも一方と、
    Message From行中のホスト名と
    最後のReceived fromヘッダ中の少なくとも1つの時間帯と
    のうちの少なくとも1つを含むことを特徴とする請求項12に記載の方法。
  15. 前記ドメイン名は、前記ホスト名から導き出されることを特徴とする請求項14に記載の方法。
  16. 前記有用な対に組み合わせる特徴は、さらに、表示名のドメイン名およびホスト名と、Message Fromのホスト名を含むことを特徴とする請求項12に記載の方法。
  17. 前記有用な対に組み合わせる特徴は、さらに、Message Fromからのホスト名と
    HELOコマンドからのドメイン名およびホスト名のうちのいずれか一方
    を含むことを特徴とする請求項12に記載の方法。
  18. 前記有用な対に組み合わせる特徴は、Message From中のホスト名と、Received fromのIPアドレスおよびサブネットのうちのいずれか一方を含むことを特徴とする請求項12に記載の方法。
  19. 前記有用な対に組み合わせる特徴は、送信者のメーリングソフトウェアのタイプと、SMTPコマンドおよびメッセージヘッダのうちの1つから導き出されるドメイン名、ホスト名、および表示名のうちのいずれか1つを含むことを特徴とする請求項12に記載の方法。
  20. 前記機械学習フィルタをトレーニングするために1つまたは複数の最も有用な特徴対を前記プロセッサにより選択するステップをさらに含むことを特徴とする請求項12に記載の方法。
  21. 新しいメッセージを前記通信デバイスにより受信するステップと、
    前記メッセージ中の発生情報に基づいた特徴対を前記プロセッサにより生成するステップと、
    前記プロセッサにより前記特徴対を前記機械学習フィルタ中に通過させるステップと、
    少なくとも1つの特徴対は前記メッセージがスパムである可能性が高いことを示すかどうかについての判定を前記プロセッサにより得るステップと
    を実施することによってスパムを検出するために前記機械学習フィルタをトレーニングした後、前記機械学習フィルタを前記プロセッサにより使用するステップを
    さらに含むことを特徴とする請求項12に記載の方法。
  22. 請求項12に記載の方法を含むことを特徴とするコンピュータ読取り可能媒体。
  23. コンピュータに、
    メッセージの発生情報の少なくとも一部分に関係する特徴を識別するコンポーネントと、
    スパムの検出を実施するための機械学習フィルタをトレーニングすることに関連して使用するための有用な対へと前記特徴を組み合わせるコンポーネントと
    として機能させるコンピュータ実行可能なプログラムであって、前記有用な対は、送信者の主張時間帯とMessage Fromのドメイン名の対を含むコンピュータ実行可能なプログラムをその上に記憶していることを特徴とするコンピュータ読取り可能媒体。
  24. 前記コンピュータ実行可能なプログラムは前記コンピュータに、さらに、
    スパムを指し示す、単語全体に制限されない特定のキャラクタシーケンスを求めて探索することによってメッセージの一部分を分析するコンポーネントと、
    任意長の前記キャラクタシーケンスに関係する特徴を生成するコンポーネントと
    として機能させることを特徴とする請求項23に記載のコンピュータ読取り可能媒体。
  25. 前記コンピュータ実行可能なプログラムは前記コンピュータに、さらに、メッセージがスパムであることを指し示すランダムキャラクタストリングのインスタンスを求めて探索することによって前記メッセージの一部分を分析するコンポーネントをさらに含むことを特徴とする請求項23に記載のコンピュータ読取り可能媒体。
  26. 少なくとも1つのメッセージを受信する手段と、
    メッセージの少なくとも一部分を解析して1つまたは複数の特徴を生成する手段と、
    少なくとも2つの特徴を組み合わせて対にする手段であって、各特徴対が少なくとも1つの追加の特徴を作成し、各対の前記特徴が互いに一致する手段と、
    前記特徴対を使用して機械学習スパムフィルタをトレーニングする手段と
    を備え、前記特徴対の中に、送信者の主張時間帯とMessage Fromのドメイン名の特徴対を含むことを特徴とするスパム検出に使用するための特徴の生成を実施するシステム。
JP2004148162A 2003-06-23 2004-05-18 高度なスパム検出技法 Expired - Fee Related JP4546761B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/601,741 US8533270B2 (en) 2003-06-23 2003-06-23 Advanced spam detection techniques

Publications (2)

Publication Number Publication Date
JP2005018745A JP2005018745A (ja) 2005-01-20
JP4546761B2 true JP4546761B2 (ja) 2010-09-15

Family

ID=33418608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004148162A Expired - Fee Related JP4546761B2 (ja) 2003-06-23 2004-05-18 高度なスパム検出技法

Country Status (9)

Country Link
US (2) US8533270B2 (ja)
EP (2) EP1492283B1 (ja)
JP (1) JP4546761B2 (ja)
KR (1) KR101045452B1 (ja)
CN (1) CN1573782B (ja)
AT (2) ATE556519T1 (ja)
DE (1) DE602004013492D1 (ja)
DK (1) DK1696619T3 (ja)
SI (1) SI1696619T1 (ja)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7032023B1 (en) 2000-05-16 2006-04-18 America Online, Inc. Throttling electronic communications from one or more senders
US8046832B2 (en) 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
WO2004059506A1 (en) * 2002-12-26 2004-07-15 Commtouch Software Ltd. Detection and prevention of spam
US7483947B2 (en) 2003-05-02 2009-01-27 Microsoft Corporation Message rendering for identification of content features
US7272853B2 (en) * 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
US7711779B2 (en) 2003-06-20 2010-05-04 Microsoft Corporation Prevention of outgoing spam
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7814545B2 (en) 2003-07-22 2010-10-12 Sonicwall, Inc. Message classification using classifiers
US7406503B1 (en) * 2003-08-28 2008-07-29 Microsoft Corporation Dictionary attack e-mail identification
US7835294B2 (en) 2003-09-03 2010-11-16 Gary Stephen Shuster Message filtering method
US7548956B1 (en) * 2003-12-30 2009-06-16 Aol Llc Spam control based on sender account characteristics
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
JP2005210240A (ja) * 2004-01-21 2005-08-04 Nec Corp メールフィルタシステム、メールフィルタ装置及びそれらに用いるメールフィルタ方法並びにそのプログラム
US8886727B1 (en) 2004-01-27 2014-11-11 Sonicwall, Inc. Message distribution control
US9471712B2 (en) 2004-02-09 2016-10-18 Dell Software Inc. Approximate matching of strings for message filtering
US8918466B2 (en) * 2004-03-09 2014-12-23 Tonny Yu System for email processing and analysis
US7644127B2 (en) * 2004-03-09 2010-01-05 Gozoom.Com, Inc. Email analysis using fuzzy matching of text
US7631044B2 (en) 2004-03-09 2009-12-08 Gozoom.Com, Inc. Suppression of undesirable network messages
US20050204005A1 (en) * 2004-03-12 2005-09-15 Purcell Sean E. Selective treatment of messages based on junk rating
US7555523B1 (en) * 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields
US20060031318A1 (en) * 2004-06-14 2006-02-09 Gellens Randall C Communicating information about the content of electronic messages to a server
US20050283519A1 (en) * 2004-06-17 2005-12-22 Commtouch Software, Ltd. Methods and systems for combating spam
US7664819B2 (en) * 2004-06-29 2010-02-16 Microsoft Corporation Incremental anti-spam lookup and update service
US7580981B1 (en) 2004-06-30 2009-08-25 Google Inc. System for determining email spam by delivery path
US7157327B2 (en) * 2004-07-01 2007-01-02 Infineon Technologies Ag Void free, silicon filled trenches in semiconductors
US8671144B2 (en) * 2004-07-02 2014-03-11 Qualcomm Incorporated Communicating information about the character of electronic messages to a client
US7904517B2 (en) 2004-08-09 2011-03-08 Microsoft Corporation Challenge response systems
US7660865B2 (en) * 2004-08-12 2010-02-09 Microsoft Corporation Spam filtering with probabilistic secure hashes
US7555524B1 (en) * 2004-09-16 2009-06-30 Symantec Corporation Bulk electronic message detection by header similarity analysis
US20060168017A1 (en) * 2004-11-30 2006-07-27 Microsoft Corporation Dynamic spam trap accounts
US8655957B2 (en) * 2004-12-16 2014-02-18 Apple Inc. System and method for confirming that the origin of an electronic mail message is valid
EP1710965A1 (en) * 2005-04-04 2006-10-11 Research In Motion Limited Method and System for Filtering Spoofed Electronic Messages
JP5118020B2 (ja) * 2005-05-05 2013-01-16 シスコ アイアンポート システムズ エルエルシー 電子メッセージ中での脅威の識別
US7543076B2 (en) * 2005-07-05 2009-06-02 Microsoft Corporation Message header spam filtering
KR100800776B1 (ko) * 2005-07-22 2008-02-01 삼성전자주식회사 이메일 전송 방법 및 시스템
US7930353B2 (en) * 2005-07-29 2011-04-19 Microsoft Corporation Trees of classifiers for detecting email spam
US8065370B2 (en) 2005-11-03 2011-11-22 Microsoft Corporation Proofs to filter spam
ES2306558B1 (es) * 2005-12-27 2009-07-14 Sp Berner Plastic Group, S.L. Dispositivo de anclaje para cajas plegables.
KR100819965B1 (ko) * 2006-01-12 2008-04-07 (주)아이티 시스템즈 스팸 전화, 스팸 메시지 차단 및 가입자 상태 바로 알림방법 및 장치
WO2007093661A1 (es) * 2006-02-15 2007-08-23 Consejo Superior De Investigaciones Científicas Método para clasificar mensajes de correo electrónico en correo deseado y correo no deseado
CN101094197B (zh) * 2006-06-23 2010-08-11 腾讯科技(深圳)有限公司 反垃圾邮件的方法及其邮件服务器
WO2008021244A2 (en) * 2006-08-10 2008-02-21 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
US8224905B2 (en) * 2006-12-06 2012-07-17 Microsoft Corporation Spam filtration utilizing sender activity data
US8290311B1 (en) * 2007-01-11 2012-10-16 Proofpoint, Inc. Apparatus and method for detecting images within spam
US8290203B1 (en) * 2007-01-11 2012-10-16 Proofpoint, Inc. Apparatus and method for detecting images within spam
US8763114B2 (en) * 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US20080219495A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Image Comparison
US7941391B2 (en) 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
CN101079851B (zh) * 2007-07-09 2011-01-05 华为技术有限公司 邮件类型判断方法、装置及系统
US10540651B1 (en) * 2007-07-31 2020-01-21 Intuit Inc. Technique for restricting access to information
US20090077617A1 (en) * 2007-09-13 2009-03-19 Levow Zachary S Automated generation of spam-detection rules using optical character recognition and identifications of common features
US8572184B1 (en) 2007-10-04 2013-10-29 Bitdefender IPR Management Ltd. Systems and methods for dynamically integrating heterogeneous anti-spam filters
JP4963099B2 (ja) * 2007-10-23 2012-06-27 Kddi株式会社 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
US20090113016A1 (en) * 2007-10-24 2009-04-30 Subhabrata Sen Managing email servers by prioritizing emails
US8010614B1 (en) 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
US7849146B2 (en) * 2008-02-21 2010-12-07 Yahoo! Inc. Identifying IP addresses for spammers
US8621010B2 (en) * 2008-03-17 2013-12-31 International Business Machines Corporation Method and system for protecting messaging consumers
US9015130B1 (en) * 2008-03-25 2015-04-21 Avaya Inc. Automatic adjustment of email filters based on browser history and telecommunication records
US20090245635A1 (en) * 2008-03-26 2009-10-01 Yehezkel Erez System and method for spam detection in image data
US8131655B1 (en) 2008-05-30 2012-03-06 Bitdefender IPR Management Ltd. Spam filtering using feature relevance assignment in neural networks
US8150679B2 (en) * 2008-08-15 2012-04-03 Hewlett-Packard Development Company, L.P. Apparatus, and associated method, for detecting fraudulent text message
US8868663B2 (en) * 2008-09-19 2014-10-21 Yahoo! Inc. Detection of outbound sending of spam
JP5366504B2 (ja) * 2008-11-05 2013-12-11 Kddi株式会社 メール受信サーバ、スパムメールの受信拒否方法およびプログラム
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
US8373724B2 (en) 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) * 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US20100332975A1 (en) * 2009-06-25 2010-12-30 Google Inc. Automatic message moderation for mailing lists
CN101938711B (zh) * 2009-06-30 2015-09-09 国际商业机器公司 用于垃圾消息检测的方法和设备
US10565229B2 (en) 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统
US9106680B2 (en) * 2011-06-27 2015-08-11 Mcafee, Inc. System and method for protocol fingerprinting and reputation correlation
US9442881B1 (en) 2011-08-31 2016-09-13 Yahoo! Inc. Anti-spam transient entity classification
US9412096B2 (en) 2012-06-15 2016-08-09 Microsoft Technology Licensing, Llc Techniques to filter electronic mail based on language and country of origin
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
JP5895828B2 (ja) * 2012-11-27 2016-03-30 富士ゼロックス株式会社 情報処理装置及びプログラム
US9692771B2 (en) * 2013-02-12 2017-06-27 Symantec Corporation System and method for estimating typicality of names and textual data
US10404745B2 (en) * 2013-08-30 2019-09-03 Rakesh Verma Automatic phishing email detection based on natural language processing techniques
RU2013144681A (ru) * 2013-10-03 2015-04-10 Общество С Ограниченной Ответственностью "Яндекс" Система обработки электронного сообщения для определения его классификации
CN104714938B (zh) * 2013-12-12 2017-12-29 联想(北京)有限公司 一种信息处理的方法及电子设备
JP6226473B2 (ja) * 2014-03-06 2017-11-08 Kddi株式会社 ネットワーク品質監視装置、プログラムおよびネットワーク品質監視方法
US10333877B2 (en) * 2014-04-29 2019-06-25 At&T Intellectual Property I, L.P. Methods of generating signatures from groups of electronic messages and related methods and systems for identifying spam messages
US9928465B2 (en) 2014-05-20 2018-03-27 Oath Inc. Machine learning and validation of account names, addresses, and/or identifiers
US20160065605A1 (en) * 2014-08-29 2016-03-03 Linkedin Corporation Spam detection for online slide deck presentations
US9560074B2 (en) 2014-10-07 2017-01-31 Cloudmark, Inc. Systems and methods of identifying suspicious hostnames
TWI544764B (zh) * 2014-11-17 2016-08-01 緯創資通股份有限公司 垃圾郵件判定方法及其郵件伺服器
US10810176B2 (en) 2015-04-28 2020-10-20 International Business Machines Corporation Unsolicited bulk email detection using URL tree hashes
JP6048565B1 (ja) * 2015-11-02 2016-12-21 富士ゼロックス株式会社 画像処理装置、情報処理システム及び画像処理プログラム
CN105447204B (zh) * 2016-01-04 2017-12-12 北京百度网讯科技有限公司 网址识别方法和装置
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN107404459B (zh) * 2016-05-19 2020-09-04 华为技术有限公司 获取网络攻击报文的指纹特征的方法以及网络设备
CN107453973B (zh) * 2016-05-31 2021-04-13 阿里巴巴集团控股有限公司 一种甄别电子邮件发送者身份特征的方法和装置
US9858257B1 (en) * 2016-07-20 2018-01-02 Amazon Technologies, Inc. Distinguishing intentional linguistic deviations from unintentional linguistic deviations
JP6784975B2 (ja) * 2016-11-28 2020-11-18 アイマトリックスホールディングス株式会社 評価装置、評価方法、評価プログラムおよび評価システム
US20210092139A1 (en) * 2017-09-14 2021-03-25 Mitsubishi Electric Corporation Email inspection device, email inspection method, and computer readable medium
US11438346B2 (en) 2017-12-08 2022-09-06 Google Llc Restrict transmission of manipulated content in a networked environment
US11356474B2 (en) 2017-12-08 2022-06-07 Google Llc Restrict transmission of manipulated content in a networked environment
US11463441B2 (en) 2018-05-24 2022-10-04 People.ai, Inc. Systems and methods for managing the generation or deletion of record objects based on electronic activities and communication policies
US11924297B2 (en) 2018-05-24 2024-03-05 People.ai, Inc. Systems and methods for generating a filtered data set
US11677699B2 (en) * 2018-12-03 2023-06-13 International Business Machines Corporation Cognitive pre-loading of referenced content in electronic messages
CN110061981A (zh) * 2018-12-13 2019-07-26 成都亚信网络安全产业技术研究院有限公司 一种攻击检测方法及装置
US11411990B2 (en) * 2019-02-15 2022-08-09 Forcepoint Llc Early detection of potentially-compromised email accounts
CN109981818B (zh) * 2019-03-25 2022-02-25 上海予桐电子科技有限公司 域名语义异常分析方法、装置、计算机设备及其存储介质
US11610145B2 (en) * 2019-06-10 2023-03-21 People.ai, Inc. Systems and methods for blast electronic activity detection
WO2021107448A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
KR20230031714A (ko) * 2021-08-27 2023-03-07 삼성전자주식회사 디스플레이 장치, 전자 장치 및 그 동작 방법
CN113516657B (zh) * 2021-09-14 2021-12-10 中国石油大学(华东) 一种基于自适应权重的全极化sar影像海面溢油检测方法
CN116545727B (zh) * 2023-05-29 2023-11-07 华苏数联科技有限公司 应用字符间隔时长鉴定的网络安全防护系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001313640A (ja) * 2000-05-02 2001-11-09 Ntt Data Corp 通信ネットワークにおけるアクセス種別を判定する方法及びシステム、記録媒体
US20030041126A1 (en) * 2001-05-15 2003-02-27 Buford John F. Parsing of nested internet electronic mail documents

Family Cites Families (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8918553D0 (en) 1989-08-15 1989-09-27 Digital Equipment Int Message control system
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5619648A (en) 1994-11-30 1997-04-08 Lucent Technologies Inc. Message filtering techniques
US5638487A (en) 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
CA2220491C (en) 1995-05-08 2001-07-24 Compuserve Incorporated Rules based electronic message management system
US5845077A (en) 1995-11-27 1998-12-01 Microsoft Corporation Method and system for identifying and obtaining computer software from a remote computer
US6101531A (en) 1995-12-19 2000-08-08 Motorola, Inc. System for communicating user-selected criteria filter prepared at wireless client to communication server for filtering data transferred from host to said wireless client
US5704017A (en) 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5884033A (en) 1996-05-15 1999-03-16 Spyglass, Inc. Internet filtering system for filtering data transferred over the internet utilizing immediate and deferred filtering actions
US6151643A (en) 1996-06-07 2000-11-21 Networks Associates, Inc. Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer
US6453327B1 (en) 1996-06-10 2002-09-17 Sun Microsystems, Inc. Method and apparatus for identifying and discarding junk electronic mail
US6072942A (en) 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
US5805801A (en) 1997-01-09 1998-09-08 International Business Machines Corporation System and method for detecting and preventing security
US5905859A (en) 1997-01-09 1999-05-18 International Business Machines Corporation Managed network device security method and apparatus
US6122657A (en) 1997-02-04 2000-09-19 Networks Associates, Inc. Internet computer system with methods for dynamic filtering of hypertext tags and content
US6742047B1 (en) 1997-03-27 2004-05-25 Intel Corporation Method and apparatus for dynamically filtering network content
DE69724235T2 (de) 1997-05-28 2004-02-26 Siemens Ag Computersystem und Verfahren zum Schutz von Software
US7117358B2 (en) 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US20050081059A1 (en) 1997-07-24 2005-04-14 Bandini Jean-Christophe Denis Method and system for e-mail filtering
US6199102B1 (en) 1997-08-26 2001-03-06 Christopher Alan Cobb Method and system for filtering electronic messages
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6393465B2 (en) 1997-11-25 2002-05-21 Nixmail Corporation Junk electronic mail detector and eliminator
AU1907899A (en) 1997-12-22 1999-07-12 Accepted Marketing, Inc. E-mail filter and method thereof
US6023723A (en) 1997-12-22 2000-02-08 Accepted Marketing, Inc. Method and system for filtering unwanted junk e-mail utilizing a plurality of filtering mechanisms
US6052709A (en) 1997-12-23 2000-04-18 Bright Light Technologies, Inc. Apparatus and method for controlling delivery of unsolicited electronic mail
GB2334116A (en) 1998-02-04 1999-08-11 Ibm Scheduling and dispatching queued client requests within a server computer
US6484261B1 (en) 1998-02-17 2002-11-19 Cisco Technology, Inc. Graphical network security policy management
US6195698B1 (en) * 1998-04-13 2001-02-27 Compaq Computer Corporation Method for selectively restricting access to computer systems
US6504941B2 (en) 1998-04-30 2003-01-07 Hewlett-Packard Company Method and apparatus for digital watermarking of images
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6074942A (en) * 1998-06-03 2000-06-13 Worldwide Semiconductor Manufacturing Corporation Method for forming a dual damascene contact and interconnect
US6308273B1 (en) 1998-06-12 2001-10-23 Microsoft Corporation Method and system of security location discrimination
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6167434A (en) 1998-07-15 2000-12-26 Pang; Stephen Y. Computer code for removing junk e-mail messages
US7275082B2 (en) 1998-07-15 2007-09-25 Pang Stephen Y F System for policing junk e-mail messages
US6112227A (en) 1998-08-06 2000-08-29 Heiner; Jeffrey Nelson Filter-in method for reducing junk e-mail
US6434600B2 (en) 1998-09-15 2002-08-13 Microsoft Corporation Methods and systems for securely delivering electronic mail to hosts having dynamic IP addresses
US6732273B1 (en) 1998-10-21 2004-05-04 Lucent Technologies Inc. Priority and security coding system for electronic mail messages
GB2343529B (en) 1998-11-07 2003-06-11 Ibm Filtering incoming e-mail
US6397205B1 (en) * 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6546416B1 (en) 1998-12-09 2003-04-08 Infoseek Corporation Method and system for selectively blocking delivery of bulk electronic mail
US6643686B1 (en) 1998-12-18 2003-11-04 At&T Corp. System and method for counteracting message filtering
US6615242B1 (en) * 1998-12-28 2003-09-02 At&T Corp. Automatic uniform resource locator-based message filter
US6266692B1 (en) 1999-01-04 2001-07-24 International Business Machines Corporation Method for blocking all unwanted e-mail (SPAM) using a header-based password
US6330590B1 (en) 1999-01-05 2001-12-11 William D. Cotten Preventing delivery of unwanted bulk e-mail
US6424997B1 (en) 1999-01-27 2002-07-23 International Business Machines Corporation Machine learning based electronic messaging system
US6449634B1 (en) * 1999-01-29 2002-09-10 Digital Impact, Inc. Method and system for remotely sensing the file formats processed by an E-mail client
US6477551B1 (en) 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
US7032030B1 (en) 1999-03-11 2006-04-18 John David Codignotto Message publishing system and method
US6732149B1 (en) 1999-04-09 2004-05-04 International Business Machines Corporation System and method for hindering undesired transmission or receipt of electronic messages
US6370526B1 (en) 1999-05-18 2002-04-09 International Business Machines Corporation Self-adaptive method and system for providing a user-preferred ranking order of object sets
US6592627B1 (en) 1999-06-10 2003-07-15 International Business Machines Corporation System and method for organizing repositories of semi-structured documents such as email
US6449636B1 (en) 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6321267B1 (en) 1999-11-23 2001-11-20 Escom Corporation Method and apparatus for filtering junk email
US6728690B1 (en) 1999-11-23 2004-04-27 Microsoft Corporation Classification system trainer employing maximum margin back-propagation with probabilistic outputs
US6633855B1 (en) 2000-01-06 2003-10-14 International Business Machines Corporation Method, system, and program for filtering content using neural networks
US6701440B1 (en) 2000-01-06 2004-03-02 Networks Associates Technology, Inc. Method and system for protecting a computer using a remote e-mail scanning device
US7822977B2 (en) 2000-02-08 2010-10-26 Katsikas Peter L System for eliminating unauthorized electronic mail
US6691156B1 (en) 2000-03-10 2004-02-10 International Business Machines Corporation Method for restricting delivery of unsolicited E-mail
US6684201B1 (en) 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7210099B2 (en) 2000-06-12 2007-04-24 Softview Llc Resolution independent vector display of internet content
US20040073617A1 (en) 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
WO2001098936A2 (en) 2000-06-22 2001-12-27 Microsoft Corporation Distributed computing services platform
US7003555B1 (en) 2000-06-23 2006-02-21 Cloudshield Technologies, Inc. Apparatus and method for domain name resolution
US7152058B2 (en) * 2000-07-13 2006-12-19 Biap Systems, Inc. Apparatus for and method of selectively retrieving information and enabling its subsequent display
US6779021B1 (en) 2000-07-28 2004-08-17 International Business Machines Corporation Method and system for predicting and managing undesirable electronic mail
US6842773B1 (en) 2000-08-24 2005-01-11 Yahoo ! Inc. Processing of textual electronic communication distributed in bulk
US6971023B1 (en) 2000-10-03 2005-11-29 Mcafee, Inc. Authorizing an additional computer program module for use with a core computer program
US6757830B1 (en) 2000-10-03 2004-06-29 Networks Associates Technology, Inc. Detecting unwanted properties in received email messages
US6748422B2 (en) 2000-10-19 2004-06-08 Ebay Inc. System and method to control sending of unsolicited communications relating to a plurality of listings in a network-based commerce facility
US7243125B2 (en) 2000-12-08 2007-07-10 Xerox Corporation Method and apparatus for presenting e-mail threads as semi-connected text by removing redundant material
JP3554271B2 (ja) 2000-12-13 2004-08-18 パナソニック コミュニケーションズ株式会社 情報通信装置
US6775704B1 (en) 2000-12-28 2004-08-10 Networks Associates Technology, Inc. System and method for preventing a spoofed remote procedure call denial of service attack in a networked computing environment
US20050159136A1 (en) 2000-12-29 2005-07-21 Andrew Rouse System and method for providing wireless device access
US20020124025A1 (en) 2001-03-01 2002-09-05 International Business Machines Corporataion Scanning and outputting textual information in web page images
GB2373130B (en) * 2001-03-05 2004-09-22 Messagelabs Ltd Method of,and system for,processing email in particular to detect unsolicited bulk email
US6928465B2 (en) 2001-03-16 2005-08-09 Wells Fargo Bank, N.A. Redundant email address detection and capture system
KR100997708B1 (ko) 2001-03-22 2010-12-02 미카엘 정 전자메일, 인터넷 타겟/직접마케팅, 및 전자메일 배너방법 및 시스템
US6751348B2 (en) 2001-03-29 2004-06-15 Fotonation Holdings, Llc Automated detection of pornographic images
US8949878B2 (en) 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US6920477B2 (en) 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US8095597B2 (en) 2001-05-01 2012-01-10 Aol Inc. Method and system of automating data capture from electronic correspondence
US6768991B2 (en) * 2001-05-15 2004-07-27 Networks Associates Technology, Inc. Searching for sequences of character data
US20030009698A1 (en) 2001-05-30 2003-01-09 Cascadezone, Inc. Spam avenger
US7502829B2 (en) 2001-06-21 2009-03-10 Cybersoft, Inc. Apparatus, methods and articles of manufacture for intercepting, examining and controlling code, data and files and their transfer
US20030009495A1 (en) 2001-06-29 2003-01-09 Akli Adjaoute Systems and methods for filtering electronic content
US7328250B2 (en) 2001-06-29 2008-02-05 Nokia, Inc. Apparatus and method for handling electronic mail
TW533380B (en) 2001-07-23 2003-05-21 Ulead Systems Inc Group image detecting method
US6769016B2 (en) 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
AU2002364887A1 (en) * 2001-10-03 2003-06-10 Reginald Adkins Authorized email control system
US20060036701A1 (en) 2001-11-20 2006-02-16 Bulfer Andrew F Messaging system having message filtering and access control
US8561167B2 (en) 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
US6785820B1 (en) 2002-04-02 2004-08-31 Networks Associates Technology, Inc. System, method and computer program product for conditionally updating a security program
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US7237008B1 (en) * 2002-05-10 2007-06-26 Mcafee, Inc. Detecting malware carried by an e-mail message
US20030229672A1 (en) 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
US8046832B2 (en) 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US8924484B2 (en) 2002-07-16 2014-12-30 Sonicwall, Inc. Active e-mail filter with challenge-response
US7363490B2 (en) 2002-09-12 2008-04-22 International Business Machines Corporation Method and system for selective email acceptance via encoded email identifiers
US7188369B2 (en) 2002-10-03 2007-03-06 Trend Micro, Inc. System and method having an antivirus virtual scanning processor with plug-in functionalities
US20040083270A1 (en) 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
US7149801B2 (en) 2002-11-08 2006-12-12 Microsoft Corporation Memory bound functions for spam deterrence and the like
US6732157B1 (en) 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
WO2004059506A1 (en) 2002-12-26 2004-07-15 Commtouch Software Ltd. Detection and prevention of spam
WO2004061698A1 (en) * 2002-12-30 2004-07-22 Activestate Corporation Method and system for feature extraction from outgoing messages for use in categorization of incoming messages
US7533148B2 (en) 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7171450B2 (en) 2003-01-09 2007-01-30 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7725544B2 (en) 2003-01-24 2010-05-25 Aol Inc. Group based spam classification
US7219148B2 (en) 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7366761B2 (en) 2003-10-09 2008-04-29 Abaca Technology Corporation Method for creating a whitelist for processing e-mails
US20040177120A1 (en) 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7320020B2 (en) 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7293063B1 (en) 2003-06-04 2007-11-06 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
US7263607B2 (en) 2003-06-12 2007-08-28 Microsoft Corporation Categorizing electronic messages based on trust between electronic messaging entities
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7051077B2 (en) 2003-06-30 2006-05-23 Mx Logic, Inc. Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers
US7155484B2 (en) 2003-06-30 2006-12-26 Bellsouth Intellectual Property Corporation Filtering email messages corresponding to undesirable geographical regions
US20050015455A1 (en) 2003-07-18 2005-01-20 Liu Gary G. SPAM processing system and methods including shared information among plural SPAM filters
US20050060643A1 (en) 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20050050150A1 (en) 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
US7257564B2 (en) 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US7610341B2 (en) 2003-10-14 2009-10-27 At&T Intellectual Property I, L.P. Filtered email differentiation
US7451184B2 (en) 2003-10-14 2008-11-11 At&T Intellectual Property I, L.P. Child protection from harmful email
US7930351B2 (en) 2003-10-14 2011-04-19 At&T Intellectual Property I, L.P. Identifying undesired email messages having attachments
US7373385B2 (en) 2003-11-03 2008-05-13 Cloudmark, Inc. Method and apparatus to block spam based on spam reports from a community of users
US20050120019A1 (en) 2003-11-29 2005-06-02 International Business Machines Corporation Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM)
US7359941B2 (en) 2004-01-08 2008-04-15 International Business Machines Corporation Method and apparatus for filtering spam email
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
US7693943B2 (en) 2004-01-23 2010-04-06 International Business Machines Corporation Classification of electronic mail into multiple directories based upon their spam-like properties
US20050182735A1 (en) 2004-02-12 2005-08-18 Zager Robert P. Method and apparatus for implementing a micropayment system to control e-mail spam
US20050204159A1 (en) 2004-03-09 2005-09-15 International Business Machines Corporation System, method and computer program to block spam
US7627670B2 (en) 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
US7155243B2 (en) 2004-06-15 2006-12-26 Tekelec Methods, systems, and computer program products for content-based screening of messaging service messages
US20060123083A1 (en) 2004-12-03 2006-06-08 Xerox Corporation Adaptive spam message detector
US7937480B2 (en) 2005-06-02 2011-05-03 Mcafee, Inc. Aggregation of reputation data
US7971137B2 (en) 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001313640A (ja) * 2000-05-02 2001-11-09 Ntt Data Corp 通信ネットワークにおけるアクセス種別を判定する方法及びシステム、記録媒体
US20030041126A1 (en) * 2001-05-15 2003-02-27 Buford John F. Parsing of nested internet electronic mail documents

Also Published As

Publication number Publication date
US20130318116A1 (en) 2013-11-28
ATE394862T1 (de) 2008-05-15
KR101045452B1 (ko) 2011-06-30
EP1492283A3 (en) 2005-03-09
KR20050000309A (ko) 2005-01-03
US20040260776A1 (en) 2004-12-23
US9305079B2 (en) 2016-04-05
EP1492283B1 (en) 2008-05-07
DE602004013492D1 (de) 2008-06-19
CN1573782A (zh) 2005-02-02
EP1696619A1 (en) 2006-08-30
DK1696619T3 (da) 2012-07-16
CN1573782B (zh) 2013-05-22
SI1696619T1 (sl) 2012-08-31
ATE556519T1 (de) 2012-05-15
JP2005018745A (ja) 2005-01-20
EP1492283A2 (en) 2004-12-29
EP1696619B1 (en) 2012-05-02
US8533270B2 (en) 2013-09-10

Similar Documents

Publication Publication Date Title
JP4546761B2 (ja) 高度なスパム検出技法
KR101137065B1 (ko) 데이터의 추출을 용이하게 하는 시스템, 방법, 및 컴퓨터 판독가능 기록매체
US10178115B2 (en) Systems and methods for categorizing network traffic content
KR101143194B1 (ko) 스팸 필터의 혼란화
US20060168006A1 (en) System and method for the classification of electronic communication
RU2710739C1 (ru) Система и способ формирования эвристических правил для выявления писем, содержащих спам
US20100154058A1 (en) Method and systems for collecting addresses for remotely accessible information sources
JP2007532054A (ja) 電子通信を分類する方法及び装置
Wang et al. Toward Automated E-mail Filtering–An Investigation of Commercial and Academic Approaches
Priya et al. An Efficient E-Mail Generalization Scheme For Unsolicited Mail
JP2005149124A (ja) 電子メッセージフィルタシステム及びコンピュータプログラム
Tabra A Suggested GUI Spam Filter Based on SVM Algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100625

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100702

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4546761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees