JP4799057B2 - 増分アンチスパムのルックアップサービスおよびアップデートサービス - Google Patents

増分アンチスパムのルックアップサービスおよびアップデートサービス Download PDF

Info

Publication number
JP4799057B2
JP4799057B2 JP2005180924A JP2005180924A JP4799057B2 JP 4799057 B2 JP4799057 B2 JP 4799057B2 JP 2005180924 A JP2005180924 A JP 2005180924A JP 2005180924 A JP2005180924 A JP 2005180924A JP 4799057 B2 JP4799057 B2 JP 4799057B2
Authority
JP
Japan
Prior art keywords
filter
spam
spam filter
new
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005180924A
Other languages
English (en)
Other versions
JP2006012165A5 (ja
JP2006012165A (ja
Inventor
エム.ヘイザー デレック
イー.マーフィー エリッサ
ジェー.ハルテン ジェフリー
ティー.グッドマン ジョシュア
エル.ラウンスワイト ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006012165A publication Critical patent/JP2006012165A/ja
Publication of JP2006012165A5 publication Critical patent/JP2006012165A5/ja
Application granted granted Critical
Publication of JP4799057B2 publication Critical patent/JP4799057B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Stored Programmes (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Description

本発明は、合法的な情報(例えば、良いメール)も、望ましくない情報(例えば、ジャンクメール)も共に識別するシステムおよび方法に関し、より詳細には、メッセージ処理中に既存のトレーニングされたスパムフィルタに対してリアルタイムに近い、またはリアルタイムのアップデートを提供することに関する。
インターネットなどのグローバル通信ネットワークの出現により、膨大な数の潜在的な顧客と連絡を取る商用的機会が提起されてきている。電子メッセージング、特に電子メール(「Eメール(e−mail)」は、(「スパム」としても示される)望ましくない広告および宣伝をネットワークユーザに配布する手段としてますます広がりつつある。
コンサルティングとマーケットリサーチの会社であるRadicati Group,Inc.は、2002年8月時点において、20億通のジャンク電子メールメッセージが毎日送信されていると見積もっている(この数字は、2年ごとに3倍になると予想される)。個人および団体(例えば、企業、政府機関)は、ジャンクメッセージにより、ますます迷惑しており、多くの場合、腹を立てている。したがって、ジャンク電子メールは、今や、信頼できるコンピューティングに対する大きな脅威となっており、あるいはすぐにも大きな脅威となるはずである。
ジャンク電子メールまたはスパムを阻止するために利用される主要な技法は、フィルタリングシステムおよび/またはフィルタリング方法を使用することである。しかし、スパム発信者(spammer)は、絶えず彼らの技法を変更して、フィルタを回避している。したがってスパム発信者の技法が変化するにつれてフィルタを速やかに自動的にアップデートし、メッセージングクライアントおよび/またはメッセージングサーバによって動作させられるエンドアプリケーションに対して、これらのフィルタを広めさせるのが望ましい。
米国特許出願第10/809163号明細書
例えば、クライアントが使用するメッセージングプログラムの約1億個のコピーが存在し得る。さらに、新しいスパムフィルタは、毎日作成され得る。これらのスパムフィルタは、かなり大規模である可能性があり、フィルタのコピーを動作させる各クライアントにこれらのスパムフィルタを毎日配信することが必要とされる場合もある。このようなことを実行するのは、たとえ禁止はされないにしても、これらクライアント側においてもフィルタプロバイダ側においても、共に問題になる可能性がある。特に、クライアントは、絶えず大規模なファイルをダウンロードする必要があることもあり、かなりの容量のプロセッサメモリを消費し、処理速度を低下させてしまうことになる。このフィルタプロバイダは、毎日すべてのユーザおよび/またはクライアントのために、このフィルタのすべてのコピーをアップデートしなければならなくなることもあるので、膨大な非実用的な量の帯域幅およびサーバが必要になることもある。一日に一度よりも頻繁に新しいフィルタを提供することは、このような条件下においては、たとえ完全にではないにしても、ほぼ不可能となり得る。
以下においては、本発明の簡略化された概要を提示して、本発明のいくつかの態様の基本的な理解を提供している。この概要は、本発明の広範囲にわたる概説ではない。本発明の主要で/重大な要素を特定し、または本発明の範囲を示すことは意図していない。この唯一の目的は、以下に提示されるより詳細な説明に対する前置きとして本発明の一部の概念を簡略化された形式で提示することにある。
本発明は、リアルタイムまたはリアルタイムに近い方法で、部分的アップデートまたは増分(incremental)アップデートの形態によって新しい情報またはデータをスパムフィルタに提供することを実施するシステムおよび/または方法に関する。フィルタを最新の情報を用いてアップデートすることができるリアルタイムに近いメカニズムを提供することは、着信スパム攻撃に対する最も有効な保護を与える1つの戦略となる可能性がある。
特に、本発明は、既存のフィルタに対して情報の増分部分を伝えて、新しい良いメッセージおよび/または新しいスパムに関してこのフィルタを最新に保持することを実行するものである。これは、差分学習によって部分的に実施することができ、この差分学習においては、既存のフィルタの1つまたは複数のパラメータを新しいフィルタのこれらのパラメータと比較することができる。ある変更量を示すこれらのパラメータは、これに応じてアップデートすることができる。このフィルタ全体のあらゆるコピーを置き換える必要性が緩和される。したがって、既存のフィルタと新しいフィルタの間の「差分」を送信して、既存のフィルタをアップデートすることができる。その結果、各アップデートをサイズ的に比較的小さくすることができ、アップデートの頻度によっては、さらに小さくすることさえできる。これは、アップデートされた情報が主として新しい良いメッセージまたは新しいスパムに基づいており、1時間当たりに受信されるスパムまたは良いメッセージが限られていることに一部は起因している。したがって、所与の任意のタイムフレームにおける同じ数だけのアップデートとして実施することは、スパムとの戦いにおいて非常に効率的で有効となり得る。
本発明の一態様によれば、増分アップデートは、サーバがある程度決定をすることができる。これらのサーバは、これらのフィルタのうちのどの部分をアップデートし、これらのアップデートを取得し、次いで、これらを受信するために許可し(opt in)または支払いを行っているユーザまたはクライアントに対してこれらのアップデートを提供すべきかを決定することができる。
本発明の他の態様によれば、増分アップデートは、ウェブベースのサービスを介してユーザまたはクライアントがある程度決定することができる。特に、クライアントは、その現行のフィルタによっては、スパムまたは良好であるとして分類する際における困難があるというメッセージを受信することができる。ウェブベースのサービスは、最近において、良いメッセージもしくはスパムを示すと判定されているメッセージまたはメッセージの特徴に関する、データまたは他の情報を含むルックアップテーブルまたはデータベースを提供することができる。このメッセージからある情報を抽出することにより、クライアントは、ウェブベースのサービスに問い合わせて、任意のアップデートされた情報がそのクライアントのフィルタについて存在するかどうかを判定することができる。
例えば、クライアントはメッセージを受信し、このクライアントのフィルタは、そのメッセージをスパムまたは良いメッセージとして分類するのが難しい場合がある。クライアントは、送信者のIPアドレス、このメッセージ中の1つ(または複数)のURL、このメッセージのハッシュなどのメッセージのある一部分を抽出して、ウェブベースのルックアップサービスからのアップデートされた情報を要求することができる。ある場合には、クエリをウェブベースのサービスに対して送信することができる。代わりにまたは追加して、クライアントは、このルックアップサービスによって現行の情報を用いて構築され保持される1つまたは複数のルックアップテーブルまたはデータベースを参照することができる。少なくとも1つのアップデートが見出されるときに、クライアントのフィルタをそれに従ってアップデートすることができる。クライアントは一連のアップデートを必要としているとこのサービスが判定する場合に、このサービスは、単に最新のアップデートのみを提供し、ダウンロードする必要があるアップデートの総回数を少なくすることができる。
所与の任意のスパムフィルタ上においては、アップデートすることができる数千もの異なるパラメータが存在し得る。これらのフィルタの性質に起因して、1つのパラメータ値に対する1つのわずかな変更が、これらのパラメータのほとんどすべての値に対して何らかの変更を引き起こす可能性がある。したがって、フィルタのうちのどの部分をアップデートすべきかを決定して、最も効果的なスパム保護を提供するための様々な方法が存在する可能性がある。本発明の一態様においては、パラメータに対する変更の絶対値を検査することができる。値において最大の変更を示すパラメータを選択して、アップデートすることができる。代わりに、(例えば、絶対値に基づく)しきい値変更量を設定することができる。このしきい値を超える任意のパラメータは、アップデートするためにマーク付けすることができる。着信メッセージにおけるパラメータまたはフィーチャの頻度など、他のファクタについても同様に考慮することができる。
本発明の他の態様においては、増分アップデートは、フィーチャに固有のものとすることができ、サーバまたはクライアントの選択によって必要に応じたレートで行うことができる。さらに、フィルタは、古いフィルタと新しいフィルタの間のパラメータ変更の数を最小にするように構築することができる。その結果、任意の1つのフィルタアップデート(例えば、データファイル)の全体サイズおよびアップデートすべきパラメータ数は、そうでない場合に比べてかなり少なくすることができる。
前述の目的および関連した目的を達成するため、本発明のある種の例示的な態様について、以下の説明および添付図面に関連して本明細書中で説明している。しかし、これらの態様は、本発明の原理を使用することができる様々な方法のうちの一部しか示しておらず、本発明では、このようなすべての態様およびその等価物を含むことを意図している。本発明の他の利点および新規な特徴については、これらの図面を併せ考慮するときに、本発明の以下の詳細な説明から明らかとなろう。
次に本発明について、図面を参照して説明している。図面中において、同様な参照番号を使用して、全体を通して同様な要素を示している。以下の説明においては、説明を目的として、本発明の十分な理解を提供するために非常に多くの特定の細部について記述している。しかし、本発明は、これらの特定の細部なしに実行することができることが明らかであろう。他の例においては、周知の構造およびデバイスが、本発明の説明をうまく実施するためにブロック図形式で示されている。
この出願において使用されるように、用語「コンポーネント」および「システム」では、コンピュータに関連したエンティティ、すなわちハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアを意味することが意図されている。例えば、コンポーネントは、それだけには限定されないが、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、およびコンピュータとすることができる。例証としては、サーバ上で実行されるアプリケーションもサーバも共にコンポーネントとすることができる。1つまたは複数のコンポーネントは、プロセスおよび/または実行スレッドの内部に存在することができ、コンポーネントは、1台のコンピュータ上にローカルに存在し、または2台以上のコンピュータ間に分散され、あるいはその両方とすることができる。
本発明においては、機械学習スパムフィルタまたは非機械学習スパムフィルタに対する少なくとも部分的なアップデート、または増分アップデートを提供することに関連した様々な推論スキームおよび/または推論技法を組み込むことができる。本明細書で使用されるように、用語「推論(inference)」とは、一般にイベントおよび/またはデータを介して捕捉される1組の観察値からシステム、環境、および/またはユーザの状態についての推理または推論のプロセスのことを意味する。推論を使用して、特定のコンテキストまたはアクションを識別することができ、また例えば状態に対する確率分布を生成することができる。この推論は、確率的とすることができ、すなわちデータおよびイベントの考察に基づいた対象となる状態についての確率分布の計算とすることができる。推論はまた、1組のイベントおよび/またはデータからより高レベルのイベントを構成するために使用される技法を意味することもできる。このような推論の結果、これらのイベントが一時的に近接した近接度に相関しようがしまいが、またこれらのイベントおよびデータが、1つまたは複数のイベントおよびデータソースに由来するかどうかによらず、1組の観察されたイベントおよび/または記憶済みのイベントデータからの新しいイベントまたはアクションの構築がもたらされる。
本発明の様々な態様は、機械学習フィルタおよび非機械学習フィルタに対して適用することができる。1つの一般的な実施態様においては、機械学習スパムフィルタは、機械学習アルゴリズムを使用して、メッセージから抽出される個々の特徴の重み付けを計算することによって、何が良いメッセージとスパムとを特徴づけるかについての定義を学習する。メッセージがホストアプリケーションによって受信されるときに、このメッセージストリームは、スパムメッセージインジケータまたは良いメッセージインジケータとして重み付けされたフィーチャまたは特性について解析し検査することができる。次いで、これらの重み付けされたフィーチャが組み合わされて、このメッセージがスパムであり、またスパムでないという全体的な確率が生成される。メッセージが、確率の特定の「しきい値」を満たす場合には、このメッセージは、このホストアプリケーションの設定に基づいて、割り当てられたアクションのコースを取ることができる。例えば、良いメッセージは、この受信者の受信トレイを対象とすることが可能になるが、一方、スパムメッセージは、特定のフォルダに経路指定され、あるいは削除されることが可能になる。
スパム発信者は、絶えず彼らの方法を適応させている。以前のフィードバックループおよび機械学習技法を用いても、新しいフィルタを自動的にまた簡単に生成することができる。しかし、リアルタイムやリアルタイムに近くなど、速やかにそれらのユーザに対してこれらの新しいフィルタを効率的に広め伝播させることも同様に重要であり得る。これらの新しいフィルタの伝搬については、2つの部分に分解することができる。この第1の部分は、サイズの問題に関与している。この伝搬させられるフィルタは、大規模であり、全体として簡単に配信することが難しいことがある。幸い、これについては、ルックアップシステムを介してこの古いフィルタとこの新しいフィルタの間の「差分」を送信することによって少なくとも部分的に克服することができる。以下に説明するように、この差については、多くのファクタおよび/または選択(クライアントまたはサーバ)に対して決定し、かつ/または基づいたものとすることができる。
第2の問題は、フィルタアップデートの管理に関係している。一方では、多くの人々は、新しいコードおよび新しいデータを含めて、このスパムフィルタに対するすべての変更が自動的に伝搬されることを望むこともある。他方では、多くの管理者は、彼らの全体の組織に対して自動的に伝搬させる前に、新しいファイルおよび/またはデータをテストマシン上にインストールしたいと望むこともある。以下の図面中で説明するように、大規模のフィルタを伝搬させる必要性は、オンラインルックアップサービスを介してこの差分フィーチャ(重み付け)だけをメモリに配信することによって緩和することができる。
次に図1を参照すると、本発明の一態様による、古いまたは既存のスパムフィルタに対して差分情報の提供を実施するアンチスパムアップデートシステム100の一般的なブロック図を示している。システム100は、少なくとも1つのスパムフィルタ120を使用して、着信テストメッセージをスパムまたは良いメッセージとして分類するテストメッセージ受信コンポーネント110を備える。テストメッセージ受信コンポーネント110は、サードパーティクライアントまたはサーバ(例えば、ホームコンピュータ)中に配置することができる。スパムフィルタ120は、SVM(Support Vector Machineサポートベクトルマシン)、最大エントロピーモデル(ロジスティック回帰)、パーセプトロン(perceptron)、判定ツリー、および/またはニューラルネットワークのうちのいずれか1つを使用して識別力があるようにトレーニングすることができる。
システム100は、様々なトレーニングメッセージを受信することができるトレーニングメッセージ受信コンポーネント130も備える。実施例は、フィードバックループデータ(例えば、着信メッセージの少なくとも選択された部分を(スパムまたは良いメッセージに)分類する際に参加するユーザからのデータ)、ユーザの苦情、ハニーポットデータなどを含んでいる。トレーニングメッセージ受信コンポーネント130は、このフィルタプロバイダ側において見出すことができる。
着信トレーニングメッセージの少なくとも一部分は、フィーチャ解析サブシステム140へと経路指定することができ、それによってこのようなメッセージは、そのスパムおよび/または非スパムのような特徴について解析し検査することができる。特に、IPアドレス、URL、および/または特定のテキストなどの複数のフィーチャを各メッセージから抽出し、次いで解析することができる。機械学習コンポーネント150を使用して、アップデートコンポーネント160は、識別力のある方法をおそらく使用してトレーニングすることができる。代わりに、アップデートコンポーネント160は、マッチベースまたはハッシュベースのデータを使用してトレーニングすることができる。このフィーチャ解析サブシステム140へと経路指定されるメッセージは、フィルタされなかったメッセージ、フィルタされたメッセージ、またはこれら両者の組合せとすることができる。フィルタされたメッセージのスパムまたは良いメッセージとしての分類では、アップデートコンポーネント160のトレーニングまたはスパムフィルタ120についてのアップデートの生成に影響を及ぼす必要はない。
アップデートコンポーネント160は、着信メッセージから抽出することができる、単語など複数のメッセージおよび/またはフィーチャについて計算された重み付け値、IPアドレスのリスト、ホスト名、URLなどのデータを含んでいる。このようなデータは、アップデートコンポーネント160によって制御される1つまたは複数のデータファイルまたはデータベースの形に構成することができる。
メッセージ受信/配信システム(例えば、1つまたは複数のサーバ)110によって促されるときに、アップデートコンポーネント160は、追加情報を用いてスパムフィルタ120の少なくとも一部分を少なくとも増分式に強化させることができる。例えば、アップデートコンポーネント160は、所与のフィーチャについて、新しいフィーチャ−重み付けデータを追加し、または古い重み付けデータを新しい重み付けデータで置き換え、あるいはその両方を行うことによって、このスパムフィルタのデータ部分をアップデートすることができる。アップデートコンポーネント160はまた、可能なら、時刻指定ベースまたはスケジュールベースで増分アップデートを行って任意の1つのアップデートの相対サイズを最小にするようにカスタマイズすることもできる。これらのアップデート自体は、同様に時刻指定ベースで、または受信する着信メッセージ数に基づいて生成することができる。例えば、アップデートは、毎時および/または30番目のメッセージ受信後ごとに作成することができる。
次に図2を参照すると、スパム防止を助けるアンチスパムアップデートシステム200の概略ブロック図が示されている。一般的に、アップデートシステム200は、新しいパラメータデータを既存のスパムフィルタ210が利用する古いパラメータデータと比較する。システム200は、着信メッセージから抽出されるフィーチャを調べて、(例えば、スパムメッセージまたは良いメッセージを示す)関連するフィーチャを識別し、それらの重み付け、スコア、および他の関連データを確認することができるフィーチャ抽出−解析コンポーネント220を備える。このデータは、パラメータアップデートデータベース230に記憶し保持することができる。このデータベース中の新しいパラメータデータは、パラメータ解析コンポーネント240によって既存のフィルタ210中の古いパラメータデータに関して解析を行い、このパラメータデータのうちのいずれかが変更されているかどうかを判定することができる。
例えば、パラメータの重み付けを、増大または減少させて、より大きな、またはより小さなスパムの特徴を表示ことができる。さらに、既存のフィルタ210に対してパラメータを追加し、またはそこからパラメータを削除することもできる。後者の場合には、その重み付けがゼロになるときに、パラメータまたはフィーチャをフィルタ210から取り除くことができる。
アップデートが、特定の任意の1組またはサブセットのパラメータについて存在していると判定される場合、このようなパラメータは、アップデートコントローラ250に対して伝えることができる。アップデートコントローラ250は、データベース230からの関連したパラメータデータにアクセスすることができ、次いでこのようなデータを既存のフィルタ210に伝えることができる。基本的に、システム200は、アップデートサービスをスパムフィルタに対して提供し、これらのスパムフィルタを最新に、また新しい形態のスパムに対して有効に保つ。
このアップデートシステム200は、クライアント上またはサーバ上で自動的に実行することができる。さらに、このサービスは、加入契約による動作が可能であり、それによって支払い検証コンポーネント260は、任意のアップデートが提供される前に、クライアントまたはサーバが、このアップデートまたはアップデートサービスについて支払いが済んでいるかどうかを判定することができる。代わりに、フィルタ210は、ルックアップまたはアップデートを行うことができるようになる前に、この加入契約が現在通用していることを検証することもできる。
(例えば図1および2における)アップデートルックアップシステムは、DOS(Denial−of−serviceサービス拒否)攻撃または分散DOS攻撃に関して当然のターゲットになってしまう可能性がある。したがって、このシステムは、異なるIPアドレスに対応する複数のIPアドレスまたは複数のホスト名にまたがって分散させることなどにより、このような攻撃に対して堅固なものとすることができる。実際には、例えば、異なるIPアドレスを異なるユーザ(あるいはクライアントまたはサーバ)に対して分散して、攻撃者が攻撃すべきIPアドレスの全体のリストを見出すことを難しくすることができる。
機械学習技法においては、これらのパラメータのほぼすべてが、少なくともある小さな量だけ変更されることがあり得るので、アップデートできる数千もの異なる数値パラメータが存在する可能性がある。その結果、どのようなアップデートをすべきかについての判定は、いくつかの異なるアプローチを使用して行うことができる。例えば、1つのアプローチは、最も変化しているパラメータの絶対値を調べるものである。しかし、最大の絶対値変更が、どのパラメータをアップデートすべきかを最もよく指し示してはいないこともある。これは、このパラメータがまれにしか観察されないフィーチャに関連している場合に、特に当てはまる可能性がある。したがって、どのパラメータをアップデートすべきかを決定する際に考慮すべき他のファクタが、発生、頻度、または最新のデータに基づいたパラメータの共通点を含むこともできる。例えば、パラメータは相当に変更されているが、その対応するフィーチャは、非常にわずかなメッセージ(例えば、平均して100,000メッセージのうちの3つのメッセージ)中にしか発生しない場合には、このフィーチャについてのアップデートの送信は、このアップデートサービスの効率的な使用ではないこともある。
他のアプローチは、それらを重要にするある量だけ(例えば、ある最小値またはしきい値だけ)、あるいはより一般的なフィーチャにおいては、あまり一般的でないフィーチャの場合と異なるある最小値だけ、変更しているパラメータの絶対値を調べるものである。特定のしきい値が満たされる場合、パラメータをアップデートすることができる。そうでない場合には、パラメータは同じままとすることができる。
さらに他のアプローチは、パラメータ変更の数を制限しようとするようにフィルタまたはフィルタに対するアップデートを構築するものである。釣りあわせるフィーチャ(counterbalancing feature)と呼ばれる一部のフィーチャは、互いに相互作用し、最終的にはこのフィルタの振舞いに影響を及ぼす可能性がある。釣りあわせるフィーチャが、トレーニング中にこのフィルタ内で適切に考慮されないときには、このフィルタの動作は変更され得る。したがって、パラメータ変更の数を制限するフィルタを構築することにより、釣りあわせるフィーチャが適切に考慮されているかどうかを追跡する必要性を緩和することもできる。
例えば、現在使用しているフィルタAが、例えば単語「wet(ぬれた)」については0の重み付けを有し、単語「weather(気候)」については、少し否定的な重み付けを有するものと仮定する。次に、単語「wet」を含む(ただしweatherは含まない)大量のスパムが到着すると仮定する。単語「wet」および「weather」を一緒に含む中程度の量の良いメールも存在すると仮定する。新しいフィルタBは、「wet」をかなりスパムの可能性があるものとして重み付けし、「weather」については釣りあわせる(counterbalancing)否定的な(良い)重みで重み付けをする。これらの単語が一緒に発生するときには、これらの重み付けがキャンセルし、このメールがスパムとして分類されないようにするように学習させることができる。今や、フィルタAに比べてフィルタB中の単語「wet」は、(大量のメール中で発生した)この重み付けをアップデートするために十分に重要であるが、単語「weather」はそうでない(この単語は、すでにわずかな否定的な重み付けを有しているので、少量のメール中で発生し、少量だけ変更している)と、判定することができる。したがって、「wet」についてのアップデートは伝搬させることができるが、「weather」についてのカウンタバランスアップデートは、伝搬させることができず、多数の誤りが生じてしまう。このような望ましくないアップデートの作成を緩和するために、図3に示すようにパラメータ変更の数を最小にするフィルタを構築することができる。
この図3に従って、古いデータのフィーチャおよび重み付けを含む古いフィルタX310から開始される。次に、機械学習を使用して、新しいフィルタY1 320をトレーニングする。ある1つ(または複数)の経験則(Heuristicc)330に従って重要となるX310とY1 320の間の差分を見出す。例えば、この差分の絶対値、この差分からの情報ゲイン、この差分の絶対値×このパラメータの使用頻度などを評価することができる。線型モデル(例えば、SVMモデル、ナイーブ−ベイズモデル(Naive−Bayes model)、パーセプトロンモデル、最大エントロピー(maxent)モデルまたはロジスティック回帰モデル)の場合には、モデルは、フィーチャ(例えば、このメッセージ中の単語)についての重み付けからなる。線型モデルに関しては、これは、これらの対策のうちの1つに従って最も変化しているこれらのフィーチャ重み付けを見出すことからなる(340)。
次に、小さかった(または十分に重要でなかった360)フィルタの間の差分はすべて、X310において有したのと同じ値を、Y2 350においても有する必要があるという制約条件に従って、新しいフィルタY2 350を学習させることができる。例えば、線型モデルにおいては、これは、あまり変化しなかったフィーチャについての重みづけは、Y2 350中とX310中において同じであることを意味する。しかし、(例えば、あるしきい値または経験則を満たす)多く変化しているフィーチャについては、これらの重み付けは、Y2 350において異なっている。以前の「wet」と「weather」の実施例について言及すれば、「wet」が悪いものであると学習されるときに、その釣りあわせる(counterbalancing)重み付け(「weather」)が固定されることになるので、「wet」は、あまりにも悪すぎる用語として学習される可能性はない。したがって、釣りあわせるフィーチャが考慮されているかどうかをそれ以外に追跡する必要性はもはや存在しない。
オプションとして、この手順は、その重み付けが一貫して異なるこれらのフィーチャだけを見出しながら、反復することができる。例えば、この「weather」パラメータ値は、変化させ得ないので、この「wet」パラメータ値も変化させないように決定することができる。
さらに、この1つ(または複数)のフィルタは、Y1 320を使用してアップデートする代わりにY2 350に対するアップデートを使用してアップデートすることができる。このモデルの多くの部分が、同じように制約されていたので、Y2 350とX310の間の差分は、Y1 320とX310の間の差分よりも小さくなる。
代替的な技法は、より速やかに変更しまたはこのモデルに対してより大きな影響を有する部分など、このデータの一部分だけをアップデートするものである。例えば、IPアドレスおよびURLデータは、テキストデータに比べて速やかに(またはゆっくり)変化することもある。さらに、これらのフィーチャを他のフィーチャとは独立にトレーニングするのが簡単なこともある(例えば、「Training Filters for IP Address and URL Learning」という名称で2004年3月25日出願の特許文献1参照)。したがって、他のフィーチャを変更できるようにしながら、ある1組のフィーチャを一定に保持することができるモデルを構築することができる。
さらに、サブセットのフィーチャ(例えば、他のどれかから独立な少なくとも1つのフィーチャ)を選択的にアップデートすることにより、このモデルに対する将来のアップデートをさらに簡単に達成することが可能である。この種のモデルの一実施例が、判定ツリーモデルであり、このモデルでは、各リーフ(leaf)は、他のリーフにおいてこれらのモデルから切り離してアップデートすることができる独立なモデルを含む。研究により、これらのモデルは、現在構築されているが全体としてより良い性能を有する典型的なモデルと同じフィーチャ数を有することができることが見出されてきている。
これらのフィーチャを関連したグループにクラスタ化することにより、または何らかの他のメカニズムによりこのフィーチャスペースを任意に分割することを含めて、このモデル構築中にこれらの間の重み付けをバランスさせない、またはバランスさせることができないフィーチャサブセットを先験的に有するようにモデルを設計することができる他の方法が存在する。代わりに、判定ツリーにおけるように、これらのメッセージは、例えばこれらを関連したグループにクラスタ化することによって分割することもできる(この場合には、判定ツリーの場合におけるように、異なる重み付けをもつ異なるクラスタ中に二重のフィーチャが存在することが可能であるが、これらは、独立にアップデートすることができる)。
増分アップデートは、(特定の顧客(サーバまたはクライアント)が最も受信するメッセージに対して適用されるこれらに対して、まずこのアップデートされるフィーチャを集中させて)このクライアント、サーバ、またはユーザが受信するメッセージの配信によって少なくとも部分的に決定することもできる。したがって、複数のクライアントは、例えば、彼らが受信するメッセージのタイプに従って、彼らのフィルタに対する異なるアップデートを受信することができる。
アップデートのタイプが決定された後に、スパムフィルタのアップデートを管理することは、困難な場合がある。メッセージシステム管理者は、しばしば、または時に、彼らのユーザがデータファイルを含めてどのようなソフトウェアを使用しているかを知ることに関心がある。ある場合には、管理者は、彼らのユーザがすべて同じデータを実行することを望むことさえあり、あるいは代わりに、管理者は、好みの環境または望ましい環境中でそれらをテストする機会を有する前には、新しいデータファイルを配信したくないと思うこともある。したがって、管理者は、ユーザがアップデートサービスと直接に情報をやりとりすることを望まないこともある。
例えば、1つのシナリオにおいては、管理者は、ファイルをこれらのユーザに送信する前に、まず特定のファイルをダウンロードし、操作性、他のシステムファイルとの競合などについてこれらのファイルをテストすることを望む可能性がある。したがって、データまたはコードに対するアップデートが、まずこの管理者に送信され、次いでこれらのユーザに伝搬されるという2段階の伝搬を実施することが望ましい。ある場合においては、管理者は、すでにこのフィルタプロバイダを信頼することが可能であり、検証のない完全に自動的なルックアッププロセスを好むこともある。
このルックアップサービスまたはアップデートサービスは、電子メールクライアント上またはサーバ上でのオペレーションについてのコードを必要とする可能性があることを理解されたい。さらに、ルックアップまたはアップデートは、エンドユーザまたは管理者が指定することができるスケジュールされた間隔で実施することができる。代わりに、ルックアップまたはアップデートは、メッセージングプログラムが開始され、またはオープンされるときなど、ある種のイベントが行われるときに実施することができる。アップデートが使用可能なときに、エンドユーザまたは管理者は、(例えば、アップデートが任意選択可能であると)通知を受けることができ、あるいはこのアップデートを自動的にすることができる。エンドユーザまたは管理者は、これらのオプションの間で選択権を与えられることができる。最終的に、このスパムフィルタに対するアップデートを行うことができ、このメッセージングプログラムを再起動することさえなしに、すぐに効果を得ることができる。
説明したように、スパムフィルタに対するアップデートは、少なくとも増分的なものとすることができ、それによってこのスパムフィルタの最も有用な、または望ましい部分がアップデートされ、その残りの部分は、このアップデート、およびそれに関連する関連データファイルのサイズを最小にするために一定に保たれる。ほとんどの場合において、サーバは、どのアップデートを行うべきか、このようなアップデートをいつ行うべきか、および/またはこのようなアップデートを行う方法を決定する役割を担っている。あいにく、サーバは、このような決定を行う際に遅い可能性があり、あるいはこのようなアップデートのタイミングまたは内容が、クライアントまたはユーザのフィルタリングの必要性と少しずれている可能性がある。特に既存のスパムフィルタが、特定の1つ(または複数)のメッセージの分類について不確実であり、このクライアントが、サーバが促すアップデートを待つことによるさらなる遅延に耐えることができないときには、いずれの場合も、クライアントにとって問題となり得る。
図4には、クライアントによるその使用中に、スパムフィルタのアップデートを可能にするルックアップサービスシステム400の概略ブロック図が示されている。ルックアップサービスシステム400は、特にこのスパムフィルタに対するリアルタイムに近く、またはリアルタイムで伝搬させるためのあるタイプのアップデートデータを生成することに関し、上述の図1におけるアップデートシステム100と同様なものとすることができる。しかしさらに、ルックアップサービスシステム400は、サーバ命令だけによるのでなくて、クライアントまたはエンドユーザによる要求によって、このスパムフィルタに対してアップデートを提供することができる。
この図4に従って、少なくとも1つのスパムフィルタ420を使用してメッセージをスパムまたは非スパムとして分類を実施するテストメッセージ受信コンポーネント410に対し、着信テストメッセージを配信することができる。テストメッセージは、その最新の1組のパラメータを仮定すると、スパムフィルタ420の正確さを決定する助けを行うことができる。テストメッセージ受信コンポーネント410は、サードパーティのサーバまたはクライアント上に配置することができる。スパムフィルタ420は、機械学習でトレーニングされたもの、または非機械学習でトレーニングされたものとすることができる。
アップデート学習は、以下のように実施することが可能であり、すなわち着信トレーニングメッセージの少なくとも一部分は、(フィルタプロバイダ上に配置された)トレーニングメッセージ受信コンポーネント435を介して、フィーチャ解析システム430に対して経路指定をすることができる。フィーチャ解析システム430は、フィーチャ、およびこれらのトレーニングメッセージの少なくとも一部分から抽出されるそれらの各重み付けに基づいて最近のデータを生成し、それらをルックアップデータベース440に記憶することができる。
スパム発信者は、彼らのスパムを適応させ、または修正し、あるいはその両方を行い続けるので、既存のスパムフィルタ420によってスパムまたは良いメッセージとして分類することができない、一部のメッセージが存在する可能性がある。クライアントは、このようなメッセージにマーク付けし、次いでこのメッセージ、このメッセージのハッシュ、および/またはこのメッセージの1つまたは複数のフィーチャに基づいて、ルックアップコンポーネント450に対してクエリまたは要求を送信することができる。
このルックアップデータベースからの任意のデータがこの要求を満たす場合には、このような対応する情報を送信またはダウンロードして、スパムフィルタ420をアップデートすることができる。その後、アップデートされたスパムフィルタをこれらの不確実なメッセージ、並びに、新しい任意のメッセージに適用して、この分類プロセスを実施することができる。
次に図5を参照すると、クライアント510が使用するウェブベースのアップデートサービスを実施するオンラインルックアップシステム500の概略図が示されている。「古い」データ上でトレーニングされている既存のスパムフィルタを使用して、着信メッセージ515を分類していることを仮定する。あいにく、このクライアントの既存のフィルタは、一部のメッセージがスパムであるかそれとも良いメッセージであるかを判定するに際し、ある困難を経験している。メッセージ515を隔離し、またはサーバが促すアップデートが到着するのを待つのでなく、クライアント510は、メッセージ515、またはIPアドレス520、URL525、ホスト名530、他の1つ(もしくは複数)の任意のフィーチャ535など、そこから抽出されるあるフィーチャを取得し、オンラインルックアップシステム500に問い合わせることができる。オンラインルックアップシステム500は、1つまたは複数のルックアップテーブル540および/または1つまたは複数のデータベース545を含むことができる。ルックアップテーブル540は、(IPアドレス555ごとなど)フィーチャ550ごとのアップデートされたデータを含むことができる。クライアントが、このメッセージのIPアドレスに対するクエリを実施する場合には、適切なルックアップテーブルまたはアップデートテーブル中において、このIPアドレスを調べることができる。
同様に、データベース545は、IPアドレス520に属する任意のアップデートについて参照し、検索することができる。データベース545は、(IPアドレス565ごとなど)アップデートされたフィーチャ560ごとに整理することができる。テーブルサイズまたはデータベースサイズを調整するために、アップデートされた情報をもつフィーチャだけしか、それぞれこのルックアップテーブルおよびデータベースに提供しないようにすることができる。しかし、それらの重み付けまたは値が変化しているかどうかにかかわらず、ほぼすべてのフィーチャもしくはパラメータを有するルックアップテーブルおよび/またはデータベースを同様に使用可能にすることもできる。テーブルまたはデータベースの構成にかかわらず、アップデートが見出された場合、このアップデートは、直接に送信し、またはこのクライアントがダウンロードして、このスパムフィルタをアップデートすることができる。したがって、このスパムフィルタに対するアップデートは、クライアントの選択に基づいたものにすることができ、また必要に応じて行うことができる。
このサーバまたはクライアント上のメッセージングシステムが、以前のすべてのアップデートを受信していない場合には、複数の一連のフィーチャまたはアップデートを調べることが必要なこともある。この最後に記録されたルックアップから、このシステムはルックアップを実施することが可能であり、それらを順番に適用することができる。オプションとして、このアップデートサーバは、複数のルックアップファイルを一緒に1つにまとめて、このダウンロード効率を改善することも可能である。最後に、このアップデートは、HTTPSなどのセキュリティ保護されたチャネル上において行うこともできる。
より新しいデータについての増分ルックアップは、ファイルに書き込み、またはディスクに記憶し、次いでメモリ中において結合することができる。さらに、この増分アップデートは、このモデルのある種の一部分、1つ(もしくは複数)のフィーチャ、または1つ(もしくは複数)のパラメータが、もはや必要とされない(例えば、重みがゼロ)ことを指定することができる。したがって、これらを削除することが可能になり、メモリスペースまたはディスクスペースを節約している。
次に図6を参照すると、本発明の一態様によるアンチスパムルックアップウェブベースサービスの例示的な1つのアーキテクチャ600が示されている。アーキテクチャ600は、例えば、サブセットのフィーチャおよび関連する重み付けとトレーニング中に生成されるモデルを格納するデータティアレイヤ(data−tier layer)(またはバックエンドデータベース)、このデータベースとスパムフィルタ間で通信の受渡しを行うミドルウェアレイヤ、あらかじめ定義された頻度、または自動的な頻度でミドルウェアレイヤを呼び出して、最新のアップデートされたモデルを獲得し、このオンラインモデルをこのローカルに記憶されたモデルファイルとまとめるスパムフィルタなどの複数のレイヤを含んでいる。
より詳細には、このデータティアレイヤは、2つの記憶域、すなわち(標準のトレーニングのために使用される)トレインストア(TrainStore)610およびアップデートストア(UpdateStore)620のコピーを格納する。これらの記憶域は、単層ファイルまたはデータベースとすることが可能である。この専用のトレインストア610は、オプションとして、このフィーチャ、および頻繁にアップデートすることにより恩恵を受ける一部のフィーチャについての重み付けしか格納しないこともある。アップデートストア620は、新しいデータベースまたは1組の単層ファイルであり、これらは、専用のトレインストア610からのサブセットの情報からもたらされるバイナリ形式で出力されるモデル、並びに、展開される製品関連付けについての少ない新しい変数を含んでいる。このサブセットの情報は、以下を含むことができる。
・ さらに頻繁にアップデートすることから非常に恩恵を受けるフィーチャを含む新しいモデル、
・ URLフィーチャ、IPフィーチャ、および新しい特有のフィーチャを含んでいるこれらの実施例、
・ 展開されるモデルファイルの以前のバージョンにそれぞれ対する新しい確率的モデルの関係、および/または
・ 新しいモデル転送のサイズを最小にする新しいモデルの増分アップデート。
ミドルウェアレイヤ630は、アップデートストア620とこのスパムフィルタ.dllフィルタ640の間のインターフェースとしての役割を果たすことができる。このミドルウェアレイヤは、このスパムフィルタとこのオンラインルックアップサービスの間で往復して情報を受け渡すウェブサービスインターフェースおよび機能を公開する。このミドルウェアレイヤは、SOAPサービス、HTTPサービス、HTTPSサービス、または他のインターネットサービスとすることができる。
このアンチスパムルックアップサービスは、ある種の他のスパムに関連したシステムおよび方法と組み合わされるときに特に強力である。特に、このアンチスパムルックアップサービスは、メッセージ隔離と組み合わされるときに特に強力となり得る。メッセージ隔離においては、一部のメッセージはジャンクフォルダまたは隔離フォルダ中に入れられ、あるいはそうでなければ一時的に別に保持される。次いでこれらのメッセージは、スパムフィルタアップデートの後に、再度スコア付けされる。ユーザが中央のリポジトリに対してジャンクメッセージの報告を行う「レポートジャンクボタン(report junk button)」などの技法はまた、スパムフィルタアップデートについての重要なデータをもたらすことができる。さらに、メッセージを決して受信していないはずのある種のアカウント(例えば、新しく作成された未使用アカウント)にデータが送信されるハニーポットなどの技法は、スパムフィルタアップデートについての有用なソースである。さらに、フィードバックループ中で、ユーザは、ある種のメッセージが良好であるのか、それともスパムであるのかについて調査(polling)をされる。これは、スパムフィルタをアップデートするために価値あるデータを提供する。このデータは、比較的公平なので、レポートジャンクまたはハニーポットデータよりも有用である場合がある。
本発明による様々な方法について、次に一連の動作を介して説明することにするが、一部の動作が、本発明に従って、本明細書中に図示され説明される順序とは異なる順序で、または他の動作と並行して、あるいはその両方で行うことができる。したがって、本発明は、動作の順序によって限定されないことを理解し認識されたい。例えば、この方法は、一連の相互に関連した状態またはイベントとして、状態図の形などにより代替的に表すことができることが、当業者には理解され認識されよう。さらに、本発明による方法を実施するためには、必ずしもすべての例示された動作が必要ではないこともある。
次に図7を参照すると、使用中にスパムフィルタに対して少なくともリアルタイムに近いアップデートを実施する例示のスパムフィルタアップデートプロセス700の流れ図が示されている。プロセス700は、710において、機械学習技法などにより、新しいデータ、またはより最近のデータ(メッセージ)を用いて新しいフィルタをトレーニングすることを含んでいる。この新しいフィルタは、複数のメッセージフィーチャおよびその関連する重み付け上で識別力のあるようにトレーニングすることができる。フィーチャの少数の実施例には、任意のIPアドレス、URL、ホスト名、もしくはメッセージから抽出することができる任意の単語またはテキストが含まれる。
720において、プロセス700は、この新しいフィルタと(古いデータ上でトレーニングされた)この古いフィルタの間の差分を探すことができる。730において、見出され、または検出されたどのような差分も、1つまたは複数の別々のデータファイルとして記憶することができる。
オプションとして、これらのデータファイルをデータベースに記憶することができ、またはその中に含まれる内容を1つまたは複数のルックアップテーブル中に整理することができ、または、その両方を行うことができる。これらのデータファイルは、ウェブベースのルックアップサービスを介してクライアントに対して使用可能とすることができる。この図7には示していないが、クライアントは、(その既存のスパムフィルタを使用して分類することができないメッセージからのどのようなメッセージまたはフィーチャについても)このルックアップサービスに問い合わせて、特定のアップデートが利用可能かどうかを判定することができる。アップデートが利用可能な場合、このクライアントは、このクライアントが望むアップデートを選択してダウンロードを行い、この既存のスパムフィルタを部分的にまたは増分式にアップデートすることができる。
図7をもう一度参照すると、740においてこの古いスパムフィルタは、1つまたは複数のデータファイルを用いてアップデートすることができる。したがって、この古いフィルタを全体に新しいフィルタで置き換えるのとは対照的に、この古いフィルタは、十分な量の変更を示しているデータを用いて、増分式にアップデートされる。
実際には、例えばこの古いフィルタと新しいフィルタの間で、パラメータの絶対値を比較することができる。変更のしきい値を設定することができる。任意のパラメータのこの絶対値の変更がこのしきい値を満たすときには、次いでこのような変更をアップデートコンポーネントまたはデータファイルに保存することができる。メッセージ中のこれらのパラメータの頻度など、他のファクタが、特定の「変更」がアップデート中に含まれるかどうかに影響を及ぼす可能性がある。アップデートは、データファイルとして記憶することができ、ルックアップテーブル中に整理することができ、かつ/または検索可能データベースに保存することができる。
さらに、アップデート要求は、サーバおよび/または個々のクライアントにより行うことができる。例えば、サーバ管理者は、着信メッセージおよびそのフィルタリングを検査することができ、ある種のメッセージについてのユーザの苦情の増大数、および/または隔離中のメッセージ数またはメッセージの類似点の増大を観察することなど様々なファクタに基づいて、特定のアップデートを必要とするかを決定することができる。これらの領域の問題に対処するために、サーバは、増分フィルタアップデートを少なくとも部分的に要求することができる。したがって、これらのアップデートは、このサーバ側で適用され、次いで個々のクライアントに対して適用されるはずである。
逆に、クライアントは、増分アップデートデータを直接に要求し、それにアクセスさえすることができる。手持ちの疑わしいメッセージからの特定の疑わしいメッセージまたはフィーチャを用いて、クライアントは、オンラインルックアップテーブルまたはデータベースを介して、これらのメッセージからのこの特定のメッセージまたはフィーチャが、それに対応する任意のアップデートを有するかどうかについて問い合わせることができる。もしあれば、次いで、この関連アップデートをこのクライアントに対してダウンロードし、クライアントのフィルタに適用することができる。サーバまたはそのスパムフィルタは、これらのアップデートによって影響を受けることはない。したがって、クライアントは、クライアントが受信しているメッセージの特定のタイプに少なくとも部分的に基づいて、彼らのスパムフィルタに対するアップデートの内容をカスタマイズまたは個人専用のものにすることができる。さらに、より最近のデータがあるかについてこのアップデートまたはルックアップシステムに問い合わせることの方が、隔離プロセスを介して待つよりも高速にすることができる。さらに、この古いフィルタは、ルックアップサービス/システムによって部分的に増分式に、かつ/または部分的にアップデートすることができる。
スパムフィルタは、数千のパラメータ(各パラメータはそれに関連付けられた値を有する)をトレーニングすることができる。1つのパラメータに対する小さな変更は、少なくとも他のパラメータのすべてに少なくとも小さな変更を引き起こす可能性がある。したがって、ある程度まで、パラメータの間に多数の「差」または変更を有することが可能である。変更の数およびフィルタアップデートの全体サイズを最小にするために、図8に示す例示的なプロセス800を使用することができる。プロセス800の結果として、フィルタに対するアップデートは、古いデータと新しいデータの間のより重要な、また、意味のある変更に対して焦点を当てることができる。
この図8に示すように、810において、第1の新しいフィルタ(例えば、フィルタK)は、新しくまたは最近受信したメッセージから抽出されるデータを使用してトレーニングすることができる。このようなトレーニングについては、機械学習技法を使用することができる。820において、この新しいフィルタKと、(現在使用中の)古いまたは既存のフィルタの間の差分は、例えば1つまたは複数の経験則に少なくとも部分的に基づいて、分離することができる。例えば、フィーチャ重み付けを比較し、830においてこの差分の絶対値を決定することができる。メッセージにおけるこの変更したフィーチャまたはパラメータの頻度も、考慮することができる。他の多数の経験則を同様に使用することもできる。さらに、1つまたは複数のしきい値を構成し、次いでこれらの差分の絶対値と比較することができる。これらのしきい値は、1つ(または複数)のフィーチャごとに決定して、良いメッセージおよび/またはスパムメッセージ中の様々なフィーチャの頻度または発生レートを明らかにすることもできる。例えば、良いメッセージまたはスパムメッセージにおいてまれにしか発生しないフィーチャについては、より低いしきい値を設定することができる。
840において、第2の新しいフィルタ(例えば、フィルタQ)は、小さな(またはこれらのしきい値または経験則を満たすのには十分大きくない)、フィルタJとKの間の差分のすべてが、フィルタJ中で有していた同じ値を有することができるという制約条件に従ってトレーニングすることができる。したがって、これらの特定のフィーチャについての重み付けは、この第2の新しいフィルタにおいて一定に保持することができる。850において、この古いフィルタJとこの第2の新しいフィルタQの間の差分を見出すことができる。1つまたは複数のしきい値または経験則を満たすこれらの差分を、アップデートデータファイルに記憶することができる。この第2の新しいフィルタQ中のこれらフィーチャの多くは、この古いフィルタJ中と同じ値を有すべきという制約があるので、これらの2つのフィルタ間においては変更の数がより少なくなることが、明らかなはずである。したがって、このフィルタアップデートは、より小さくなる。次いで、860において、この古いフィルタJをアップデートすることができる。
代わりに、この古いフィルタデータの一部分をアップデートすることもできる。例えば、(どのようなテキストに関連したフィーチャとも独立に)IPアドレスまたはURLデータだけを検査しアップデートすることができる。一般的に、サーバまたはクライアントが、しばらくの間インターネットに接続しておらず、今度は複数のアップデートを必要とする状況においては特に、アップデートを一連の順序で適用することが可能である。各アップデートをダウンロードし、次いで順番に適用することができる。逆に、これらの必要なアップデートを解析し、次いで1つにまとめてこのアップデートの全体サイズを小さくすることができる。例えば、重み付けは、このサーバの最後のアップデート以来、数回変更していることもある。この重み付けに対する各変更を用いてこのフィルタをアップデートする代わりに、この最後のいちばん最近の重み付け値を適用することができ、他の「中間」値は、無視することもできる。したがって、より小さなアップデート、または、より少ないアップデートがもたらされる。
増分アップデートのストレージは、特定のサーバまたはクライアントに応じて柔軟なものとすることができる。例えば、アップデートは、別のファイルに記憶し、次いで最初の(フィルタ)ファイルと1つにまとめることができる。しかし、アップデートファイルは、これらを利用した後すぐに、捨てることができる。したがって、ベースフィルタファイル(base filter file)を維持することができ、次いでいちばん最近の差を、実行中に確認することができる。時には、一部のフィーチャは、最終的には0の重みにすることが可能である。これらのフィーチャをこのフィルタから削除して、スペースを節約することができる。
本発明の様々な態様についての追加的な環境を提供するために、図9および以下の説明においては、本発明の様々な態様を実装することができる適切な動作環境910の簡潔な、一般的な説明を提供することが意図されている。本発明は、1台もしくは複数台のコンピュータまたは他のデバイスが実行する、プログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈において説明しているが、本発明は、他のプログラムモジュールと組み合わせて、またはハードウェアとソフトウェアの組合せとして、あるいはその両方によって実装することもできることは当業者には理解されよう。
しかし、一般的にプログラムモジュールは、特定のタスクを実施し、特定のデータ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含んでいる。動作環境910は、適切な動作環境の一実施例にすぎず、本発明の用途または機能の範囲についてどのような限定を示唆することも意図していない。本発明と共に使用するのに適したものとすることができる他のよく知られているコンピュータシステム、コンピュータ環境、および/またはコンピュータコンフィギュレーションには、それだけには限定されないが、パーソナルコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラマブルな大衆消費電子製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、これらの以上のシステムまたはデバイスを含む分散コンピューティング環境などが含まれる。
図9を参照すると、本発明の様々な態様を実装する例示的な環境910は、コンピュータ912を含んでいる。コンピュータ912は、処理装置914、システムメモリ916、およびシステムバス918を含んでいる。このシステムバス918は、それだけには限定されないがシステムメモリ916を含めて、システムコンポーネントを処理装置914に結合する。この処理装置914は、様々な使用可能なプロセッサのうちのいずれにすることも可能である。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャもまた、処理装置914として使用することができる。
システムバス918は、メモリバスまたはメモリコントローラ、周辺バスまたは外部バス、および/またはそれだけには限定されないが、11−ビットバス、ISA、MCA、EISA、VLB、PCI、USB、AGP(Advanced Graphics Port)、PCMCIAバス、およびSCSIを含めて様々な使用可能な任意のバスアーキテクチャを使用したローカルバスを含む、いくつかのタイプの1つ(または複数)のバス構造のうちのいずれにもすることが可能である。
システムメモリ916は、揮発性メモリ920および不揮発性メモリ922を含んでいる。起動中などコンピュータ912内の要素間において情報を転送する基本ルーチンを含むBIOS(basic input/output system基本入出力システム)は、不揮発性メモリ922に記憶される。例証として限定するものではないが、不揮発性メモリ922は、ROM、PROM、EPROM、EEPROM(またはフラッシュメモリを含むことが可能である。揮発性メモリ920は、RAMを含んでおり、このRAMは外部キャッシュメモリとしての役割を果たす。例証として限定するものではないが、RAMは、SRAM、DRAM、SDRAM、DDR SDRAM、ESDRAM(enhanced SDRAMエンハンストSDRAM)、SLDRAM(Synchlink DRAMシンクリンクDRAM)、DRRAMなど多くの形態で使用可能である。
コンピュータ912はまた、着脱可能/着脱不能な、揮発性/不揮発性のコンピュータストレージ媒体も含んでいる。図9は、例えばディスクストレージ924を示している。ディスクストレージ924は、それだけには限定されないが、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−100ドライブ、フラッシュメモリカード、またはメモリスティックのようなデバイスを含んでいる。さらにディスクストレージ924は、それだけには限定されないが、CD−ROM(compact disk ROMコンパクトディスクROM)デバイス、CD−R(CD recordable書込み可能CD)ドライブ、CD−RW(CD rewritable再書込み可能CD)ドライブ、またはDVD−ROM(デジタル多用途ディスクROM)ドライブなどの光ディスクドライブを含めて、他のストレージ媒体と別々の、または組み合わせたストレージ媒体を含むことができる。ディスクストレージデバイス924のシステムバス918に対する接続をスムーズに実施するために、インターフェース926など着脱可能または着脱不能なインターフェースが、一般的に使用される。
図9は、好適な動作環境910中に記述されたユーザと基本的なコンピュータリソースとの間の仲介手段としての役割を果たすソフトウェアを説明していることを理解されたい。このようなソフトウェアは、オペレーティングシステム928を含んでいる。ディスクストレージ924上に記憶することができるオペレーティングシステム928は、コンピュータシステム912のリソースを制御し割り付ける機能を果たす。システムアプリケーション930は、システムメモリ916またはディスクストレージ924のいずれかに記憶されるプログラムモジュール932およびプログラムデータ934を介してオペレーティングシステム928によるリソースの管理を利用している。本発明は、様々なオペレーティングシステムまたはオペレーティングシステムの組合せを用いて実装することができることを理解されたい。
ユーザは、1つ(または複数)の入力デバイス936を介してコンピュータ912にコマンドまたは情報を入力する。入力デバイス936は、それだけには限定されないが、マウス、トラックボール、スタイラス、タッチパッドなどのポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどを含んでいる。これらおよび他の入力デバイスは、システムバス918を介して1つ(または複数)のインターフェースポート938を経由して処理装置914に接続される。1つ(または複数)のインターフェースポート938は、例えばシリアルポート、パラレルポート、ゲームポート、およびUSB(universal serial busユニバーサルシリアルバス)を含んでいる。1つ(または複数)の出力デバイス940は、1つ(または複数)の入力デバイス936と同じタイプのポートのうちの一部のポートを使用している。したがって、例えば、USBポートを使用して、コンピュータ912に対する入力を提供し、コンピュータ912から出力デバイス940へと情報を出力することができる。出力アダプタ942は、専用のアダプタを必要とする他の出力デバイス940のうちに、モニタ、スピーカ、およびプリンタのような一部の出力デバイス940が存在することを示すように提供される。出力アダプタ942は、例証として限定するものではないが、出力デバイス940とシステムバス918の間の接続の手段を提供するビデオカードおよびサウンドカードを含んでいる。1台(または複数台)のリモートコンピュータ944など、他のデバイスおよび/またはデバイスのシステムは、入力機能も出力機能も共に提供することに留意されたい。
コンピュータ912は、1台(または複数台)のリモートコンピュータ944など、1台または複数台のリモートコンピュータに対する論理接続を使用して、ネットワーク環境中で動作することができる。この1台(または複数台)のリモートコンピュータ944は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースの家庭電気製品、ピアデバイス、または他の共通ネットワークノードなどとすることが可能であり、一般的にコンピュータ912に対して説明したエレメントのうちの多くまたはすべてを含んでいる。簡潔に示すために、メモリストレージデバイス946だけしか、1台(または複数台)のリモートコンピュータ944と共に示していない。1台(または複数台)のリモートコンピュータ944は、ネットワークインターフェース948を介してコンピュータ912に論理的に接続され、次いで通信接続950を経由して物理的に接続される。ネットワークインターフェース948は、LANやWANなどの通信ネットワークを包含している。LAN技術は、FDDI、CDDI(Copper Distributed Data Interface銅配線分散データインターフェース)、イーサネット(登録商標)/IEEE1102.3、トークンリング/IEEE1102.5などを含んでいる。WAN技術は、それだけには限定されないが、ポイントツーポイントリンク、ISDN(Integrated Services Digital Network統合デジタルサービス通信網)およびその変形のような回路交換網、パケット交換網、およびDSLを含んでいる。
1つ(または複数)の通信接続950は、ネットワークインターフェース948をバス918に接続するために使用されるハードウェア/ソフトウェアを意味する。通信接続950は、分かりやすく図示するためにコンピュータ912の内部に示しているが、コンピュータ912の外部に存在することも可能である。このネットワークインターフェース948に接続するために必要なハードウェア/ソフトウェアは、例示の目的にすぎないが、通常の電話品質のモデム、ケーブルモデムおよびDSLモデムを含めたモデム、ISDNアダプタ、ならびにイーサネット(登録商標)カードなど内蔵または外付けの技術を含んでいる。
以上で説明してきた内容は、本発明の実施例を含んでいる。本発明を説明する目的でコンポーネントまたは方法のあらゆる考え得る組合せについて説明することは、もちろん可能ではないが、本発明のさらに多くの組合せおよび置換が可能になることが当業者には理解されよう。したがって、本発明では、添付の特許請求の範囲の趣旨および範囲内に含まれるこのようなすべての変更形態、修正形態、および変形形態を包含することが意図されている。さらに、用語「含む(includes)」が、この詳細なる説明または特許請求の範囲において使用される限りでは、「含む(comprising)」が使用される際には特許請求項中における移行語として解釈されるので、このような用語は、この用語「含む(comprising)」と同様にして包含することを意図している。
本発明の一態様による、スパムフィルタに対する機械学習アップデートの提供を実施するアンチスパムアップデートシステムのブロック図である。 本発明の一態様による増分アップデートシステムの概略ブロック図である。 本発明の一態様による、限られたパラメータ変更数を有する、スパムフィルタを生成しスパムフィルタに対するアップデートを行うシステムまたはメカニズムを示す概略図である。 本発明の一態様による、クライアント要求に少なくとも部分的に基づいたアンチスパムアップデートシステムのブロック図である。 本発明の一態様による、クライアント要求に少なくとも部分的に基づいたアンチスパムアップデートシステムのブロック図である。 本発明の一態様による、例示的なアンチスパムルックアップウェブサービスの概略図である。 本発明の一態様による、少なくとも増分式に(incrementally)スパムフィルタのアップデートを実施する例示的な方法を示すフローチャートである。 本発明の一態様による、以前のフィルタからのアップデートまたは変更が最少の量を示すフィルタの生成を実施する例示的な方法を示すフローチャートである。 本発明の様々な態様を実装するための例示的な環境を示す図である。

Claims (39)

  1. コンピュータで実行されるアンチスパムアップデートシステムにおいて、コンピュータのメモリにストアされた、
    メッセージのIPアドレス、URL、ホスト名、文字ストリングおよび単語のうちの少なくとも1つを含むフィーチャに基づいて構成され、スパムメッセージと良いメッセージとを区別するようにトレーニングされたスパムフィルタと、
    アップデートされた情報で、前記スパムフィルタの少なくとも一部分を増分式に強化しまたは置き換えて、スパム防止を助けるアップデートコンポーネントであって、少なくとも部分的に、機械学習コンポーネントを使用することによって構築されるアップデートコンポーネント
    を備え
    前記機械学習コンポーネントは、1つ以上の新たに受信されたメッセージから抽出されたデータを使用して第1の新しいフィルタをトレーニングし、前記第1の新しいフィルタと前記スパムフィルタとの間の、しきい値を満たす差分を決定し、前記第1の新しいフィルタと前記スパムフィルタとの間の前記しきい値を満たさなかった差分に対応する前記スパムフィルタのフィーチャの重み付けを維持するように制約された第2の新しいフィルタをトレーニングし、前記スパムフィルタと前記第2の新しいフィルタとの間の、1つ以上のしきい値を満たす、前記スパムフィルタの少なくとも一部分を強化しまたは置き換えるための差分を決定し、
    前記アップデートコンポーネントによって使用される前記アップデートされた情報は、少なくとも一部に、前記スパムフィルタと前記第2の新しいフィルタとの間の前記決定された差分に基づいていることを特徴とするシステム。
  2. 前記アップデートコンポーネントは、前記スパムフィルタと前記第2の新しいフィルタとの間の前記決定された差分に関連付けられた、前記スパムフィルタのデータ部分をアップデートすることを特徴とする請求項1に記載のシステム。
  3. クライアントまたはサーバのうちの少なくとも一方の上において実行されることを特徴とする請求項1に記載のシステム。
  4. 前記アップデートコンポーネントは、マッチベースまたはハッシュベースのデータを使用してトレーニングされることを特徴とする請求項1に記載のシステム。
  5. 1つ以上のアップデートが前記スパムフィルタに提供される前に、クライアントまたはサーバがアップデートを受信するために支払いをしているかどうかを判定する支払い検証コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
  6. 前記アップデートコンポーネントは、複数のIPアドレスを介して前記スパムフィルタに前記アップデートされた情報を提供して、サービス拒否(DOS)攻撃を緩和することを特徴とする請求項1に記載のシステム。
  7. 前記アップデートされた情報は、1つ以上のパラメータ変更に対応する1つ以上の増分アップデートファイルを含むことを特徴とする請求項1に記載のシステム。
  8. 前記スパムフィルタの前記少なくとも一部分は、少なくとも1つのフィーチャに特有のデータを含むことを特徴とする請求項1に記載のシステム。
  9. 増分アップデートサイズを最小にするのを助けるため、既存のスパムフィルタと新しいフィルタとの間のパラメータ変更の数が最小となる機械学習スパムフィルタを構築するコンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
  10. 前記アップデートコンポーネントは、複数の異なるアップデートを前記スパムフィルタに順次適用することを特徴とする請求項1に記載のシステム。
  11. 前記アップデートコンポーネントは、前記アップデートされた情報のダウンロード効率を改善するために、複数のアップデートの少なくとも一部分を1つにまとめることを特徴とする請求項1に記載のシステム。
  12. 前記アップデートコンポーネントは、少なくとも1つのフィーチャが、少なくとも1つの他のフィーチャと独立してアップデートされるように、独立した方法によってフィーチャに特有のアップデートを選択的に提供することを特徴とする請求項1に記載のシステム。
  13. 前記スパムフィルタは、互いに独立にトレーニングまたはアップデートが行われ、その結果、分解可能となる複数のサブフィルタを含むことを特徴とする請求項1に記載のシステム。
  14. 前記スパムフィルタが、前記アップデートコンポーネントから前記アップデートされた情報を受信するまで、メッセージの少なくとも一部分の分類を遅延させる隔離コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
  15. サーバーおよびクライアントを含むコンピュータによって実行されるアンチスパムクエリシステムにおいて、コンピュータのメモリにストアされた、
    メッセージのIPアドレス、URL、ホスト名、文字ストリングおよび単語のうちの少なくとも1つを含むフィーチャに基づいて構成され、スパムメッセージと良いメッセージとを区別するようにトレーニングされた機械学習スパムフィルタと、
    前記スパムフィルタをアップデートするのを助けるため、メッセージが到着するときにフィーチャに関連した情報についてのクエリをクラインアトから受信するルックアップコンポーネントであって、少なくとも部分的にルックアップデータベースを使用して構築されるルックアップコンポーネントと
    を備え、
    前記ルックアップデータベースは、1つ以上の最近受信されたメッセージから抽出された1つ以上のフィーチャを使用して第1の新しいフィルタをトレーニングし、前記第1の新しいフィルタと前記スパムフィルタと間の、しきい値を満たす差分を決定し、前記しきい値を満たさなかった前記スパムフィルタのフィーチャの重み付けを維持するよう制約された第2の新しいフィルタをトレーニングし、前記スパムフィルタと前記第2の新しいフィルタとの間の、1つ以上のしきい値を満足する、前記スパムフィルタの少なくとも一部分を強化しまたは置き換えるための差分を決定し、
    前記ルックアップコンポーネントは、少なくとも一部に、前記スパムフィルタと前記第2の新しいフィルタとの間の前記決定された差分に基づいて、前記スパムフィルタをアップデートすることを特徴とするシステム。
  16. 前記フィーチャに関連した情報は、複数のフィーチャまたはメッセージについての肯定的なデータおよび否定的なデータを含むことを特徴とする請求項15に記載のシステム。
  17. 前記フィーチャに関連した情報は、前記フィーチャについてのフィーチャスコアおよび評価スコアを含むことを特徴とする請求項15に記載のシステム。
  18. 前記スパムフィルタは、識別力があるようにトレーニングされることを特徴とする請求項15に記載のシステム。
  19. 前記スパムフィルタは、少なくとも部分的に増分式にアップデートされることを特徴とする請求項15に記載のシステム。
  20. 前記スパムフィルタは、少なくとも部分的に前記ルックアップコンポーネントによってアップデートされることを特徴とする請求項15に記載のシステム。
  21. 前記ルックアップコンポーネントは、増分ルックアップクエリをファイルに書き込み、またはこれらをディスクに記憶し、これらをメモリ中において結合することを特徴とする請求項15に記載のシステム。
  22. 前記ルックアップコンポーネントは、
    1組のフィーチャおよび関連付けられた重み付け、並びに、トレーニング中に生成される1つ以上のモデルまたはフィルタを含むバックエンドデータベースと、
    前記データベースとスパムフィルタの間で通信を受け渡すミドルウェアレイヤと、
    予め定められた頻度または自動的な頻度で前記ミドルウェアレイヤを呼び出して、一番最近のアップデートされたモデルを取得し、オンラインモデルをローカルに記憶されたモデルファイルとマージする前記スパムフィルタと
    を含むことを特徴とする請求項15に記載のシステム。
  23. サービスプロバイダからエンドユーザに対して少なくとも2段階で伝搬されるアップデートされたスパムフィルタであって、前記段階のうちの少なくとも一方は、前記2段階の間に人間の介入についてのオプションが存在するように自動的であるアップデートされたスパムフィルタ、をさらに備えたことを特徴とする請求項15に記載のシステム。
  24. 前記サービスプロバイダから前記エンドユーザに対してフィルタコードを自動的に伝搬させるコンポーネントをさらに備えたことを特徴とする請求項15に記載のシステム。
  25. エンドユーザまたはアドミニストレータの選択に従って、指定された間隔で前記ルックアップコンポーネントにクエリが送信されることを特徴とする請求項15に記載のシステム。
  26. 前記スパムフィルタに対するアップデートは、メッセージングプログラムを再起動せずに有効になることを特徴とする請求項15に記載のシステム。
  27. コンピュータで実行される、アンチスパムアップデート方法において、差分の数を最小化するフィルタを構築するための
    コンピュータメモリの中にストアされた、既存のトレーニング済みのスパムフィルタを備えるステップと、
    機械学習および1つ以上の新しいメッセージからのデータを使用して、第1の新しいスパムフィルタを識別力があるようにトレーニングするステップと、
    前記既存のスパムフィルタと前記第1の新しいスパムフィルタとの間の、しきい値または経験則を満たす差分の第1のセットを決定するステップと、
    前記新しいメッセージデータを使用して第2の新しいスパムフィルタをトレーニングするステップであって、前記第2の新しいスパムフィルタは、前記第1の新しいフィルタと前記既存のスパムフィルタとの間の前記しきい値または経験則を満たさなかったパラメータ変更が、前記第2の新しいフィルタおよび前記既存のフィルタにおいて同一の値を有する制約条件のもとにあるトレーニングするステップと、
    前記第2の新しいスパムフィルタと前記既存のフィルタとの間の差分の第2のセットを決定するステップと、
    前記差分の第2のセットの少なくとも一部分を用いて、前記既存のスパムフィルタを増分式にアップデートするステップと
    の工程を備えることを特徴とするアップデート方法
  28. 前記既存のスパムフィルタは、機械学習を使用してトレーニングされることを特徴とする請求項27に記載のアップデート方法
  29. 前記既存のスパムフィルタは、メッセージングプログラムによって現在使用されてメッセージをスパムまたは良いものであるとして分類していることを特徴とする請求項27に記載のアップデート方法
  30. 前記新しいスパムフィルタは、より最近のまたは新しいデータ上でトレーニングされることを特徴とする請求項27に記載のアップデート方法。
  31. 前記差分は、前記既存のスパムフィルタと前記新しいスパムフィルタとの間の1つ以上のパラメータ変更を含むことを特徴とする請求項27に記載のアップデート方法。
  32. ェブベースサービスであることを特徴とする請求項27に記載のアップデート方法。
  33. ルックアップテーブルおよびデータベースのうちの少なくとも一方を少なくとも部分的に検索することにより、前記既存のスパムフィルタに対する、メッセージのIPアドレス、URL、ホスト名、文字ストリングおよび単語のうちの少なくとも1つを含むフィーチャに特有のアップデートを要求するステップをさらに備えたことを特徴とする請求項27に記載のアップデート方法。
  34. 前記ルックアップテーブルおよび前記データベースは、複数のフィーチャに対応する複数の増分アップデートを含むことを特徴とする請求項33に記載のアップデート方法。
  35. 前記既存のスパムフィルタを増分式にアップデートする前記ステップは、クライアント、サーバ、またはユーザのうちのいずれかが受信するメッセージの配信に少なくとも部分的に基づいていることを特徴とする請求項27に記載のアップデート方法。
  36. 前記既存のスパムフィルタに対する1つまたは複数の増分アップデートは、少なくとも1つのフィーチャが、別のフィーチャから独立にアップデートされるようにしてフィーチャに特有のものであることを特徴とする請求項27に記載のアップデート方法。
  37. コンピュータで実行されるアンチスパムアップデートシステムにおいて、コンピュータのメモリにストアされた、
    既存のトレーニング済みのスパムフィルタを備える手段と、
    機械学習および新しいデータを使用して、第1の新しいスパムフィルタを識別力があるようにトレーニングする手段と、
    前記既存のスパムフィルタと前記第1の新しいスパムフィルタとの間の、しきい値または経験則を満たす差分の第1のセットを決定する手段と、
    前記新しいデータを使用して第2の新しいスパムフィルタをトレーニングする手段であって、前記第2の新しいスパムフィルタは、前記第1の新しいフィルタと前記既存のスパムフィルタとの間の、前記しきい値または経験則を満たさなかったパラメータ変更が、前記既存のスパムフィルタにおいて有しているのと同一の値を前記第2の新しいフィルタで有するという制約条件のもとにあるトレーニングする手段と、
    前記第2の新しいスパムフィルタと前記既存のスパムフィルタとの間の、差分の第2のセットを決定する手段と、
    少なくとも前記差分の第2のセットの一部によって、前記既存のスパムフィルタを増分式にアップデートする手段と
    を備えたことを特徴とするシステム
  38. 少なくとも一部に、ルックアップテーブルおよびデータベースの少なくとも1つを検索することによって、前記既存のスパムフィルタに、フィーチャに特有のアップデートを要求する手段であって、前記フィーチャはメッセージのIPアドレス、URL、ホスト名、文字ストリングおよび単語のうちの少なくとも1つを含むアップデートを要求する手段をさらに備えたことを特徴とする請求項37に記載のシステム。
  39. スパムフィルタへの増分式アップデートを容易にするコンピュータ実行可能な命令をストアしたコンピュータ読取り可能記憶媒体であって、
    既存のスパムフィルタと第1の新たにトレーニングされたスパムフィルタとの比較から生じる差分の第1のセットと関連付けられた情報を求める命令と、
    前記差分の第1のセットの絶対値を、1つ以上のしきい値と比較する命令と、
    第2の新たにトレーニングされたスパムフィルタをトレーニングする命令であって、前記しきい値よりも小さい絶対値を有している、前記差分の第1のセットにおける差分にそれぞれ対応する前記第2の新たにレーニングされたスパムフィルタの要素が、前記既存のフィルタから変化しないようにトレーニングする命令と、
    前記既存のフィルタと前記第2の新たにトレーニングされたフィルタとの比較をすることに関連付けられた、差分の第2のセットに関する情報を求める命令と、
    前記差分の第2のセットに基づいて、前記既存のフィルタをアップデートする命令と
    を備えたことを特徴とするコンピュータ読取り可能記憶媒体
JP2005180924A 2004-06-29 2005-06-21 増分アンチスパムのルックアップサービスおよびアップデートサービス Expired - Fee Related JP4799057B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/879,626 US7664819B2 (en) 2004-06-29 2004-06-29 Incremental anti-spam lookup and update service
US10/879,626 2004-06-29

Publications (3)

Publication Number Publication Date
JP2006012165A JP2006012165A (ja) 2006-01-12
JP2006012165A5 JP2006012165A5 (ja) 2008-07-17
JP4799057B2 true JP4799057B2 (ja) 2011-10-19

Family

ID=35094489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005180924A Expired - Fee Related JP4799057B2 (ja) 2004-06-29 2005-06-21 増分アンチスパムのルックアップサービスおよびアップデートサービス

Country Status (10)

Country Link
US (1) US7664819B2 (ja)
EP (1) EP1613010B1 (ja)
JP (1) JP4799057B2 (ja)
KR (1) KR101076909B1 (ja)
CN (1) CN1716293B (ja)
AT (1) ATE475242T1 (ja)
BR (1) BRPI0502444A (ja)
CA (1) CA2510762A1 (ja)
DE (1) DE602005022384D1 (ja)
MX (1) MXPA05007083A (ja)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219620B2 (en) 2001-02-20 2012-07-10 Mcafee, Inc. Unwanted e-mail filtering system including voting feedback
US20050120118A1 (en) * 2003-12-01 2005-06-02 Thibadeau Robert H. Novel network server for electronic mail filter benchmarking
US7941490B1 (en) * 2004-05-11 2011-05-10 Symantec Corporation Method and apparatus for detecting spam in email messages and email attachments
US8635690B2 (en) * 2004-11-05 2014-01-21 Mcafee, Inc. Reputation based message processing
JP4559295B2 (ja) * 2005-05-17 2010-10-06 株式会社エヌ・ティ・ティ・ドコモ データ通信システム及びデータ通信方法
US8601160B1 (en) * 2006-02-09 2013-12-03 Mcafee, Inc. System, method and computer program product for gathering information relating to electronic content utilizing a DNS server
WO2007093661A1 (es) * 2006-02-15 2007-08-23 Consejo Superior De Investigaciones Científicas Método para clasificar mensajes de correo electrónico en correo deseado y correo no deseado
US7627641B2 (en) 2006-03-09 2009-12-01 Watchguard Technologies, Inc. Method and system for recognizing desired email
US7685271B1 (en) * 2006-03-30 2010-03-23 Symantec Corporation Distributed platform for testing filtering rules
US8615800B2 (en) * 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US8020206B2 (en) 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
US7904418B2 (en) * 2006-11-14 2011-03-08 Microsoft Corporation On-demand incremental update of data structures using edit list
US9654495B2 (en) * 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
GB2458094A (en) * 2007-01-09 2009-09-09 Surfcontrol On Demand Ltd URL interception and categorization in firewalls
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US8214497B2 (en) * 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
US9246938B2 (en) 2007-04-23 2016-01-26 Mcafee, Inc. System and method for detecting malicious mobile program code
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
GB0709527D0 (en) 2007-05-18 2007-06-27 Surfcontrol Plc Electronic messaging system, message processing apparatus and message processing method
US7899870B2 (en) * 2007-06-25 2011-03-01 Microsoft Corporation Determination of participation in a malicious software campaign
EP2169560A4 (en) * 2007-07-04 2012-05-30 Imatrix Corp ELECTRONIC MAIL PROCESSING APPARATUS, ELECTRONIC MAIL PROCESSING METHOD, ELECTRONIC MAIL PROCESSING PROGRAM, AND ELECTRONIC MAIL PROCESSING SYSTEM
CN101345905A (zh) * 2007-07-12 2009-01-14 华为技术有限公司 更新网络侧用户控制参数的方法及设备
US8555379B1 (en) * 2007-09-28 2013-10-08 Symantec Corporation Method and apparatus for monitoring communications from a communications device
US8572184B1 (en) * 2007-10-04 2013-10-29 Bitdefender IPR Management Ltd. Systems and methods for dynamically integrating heterogeneous anti-spam filters
US8010614B1 (en) 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
US20090125980A1 (en) * 2007-11-09 2009-05-14 Secure Computing Corporation Network rating
JP2009157510A (ja) * 2007-12-25 2009-07-16 Nec Corp スパム情報判別システム、スパム情報判別方法、およびスパム情報判別プログラム
US7996897B2 (en) * 2008-01-23 2011-08-09 Yahoo! Inc. Learning framework for online applications
US9240904B2 (en) * 2008-01-31 2016-01-19 Centurylink Intellectual Property Llc System and method for a messaging assistant
US8370930B2 (en) * 2008-02-28 2013-02-05 Microsoft Corporation Detecting spam from metafeatures of an email message
EP2318944A4 (en) * 2008-06-23 2013-12-11 Cloudmark Inc SYSTEMS AND METHOD FOR RESTORING DATA
US8490185B2 (en) * 2008-06-27 2013-07-16 Microsoft Corporation Dynamic spam view settings
CA2729158A1 (en) * 2008-06-30 2010-01-07 Websense, Inc. System and method for dynamic and real-time categorization of webpages
CN101330476B (zh) * 2008-07-02 2011-04-13 北京大学 一种垃圾邮件动态检测方法
US8352557B2 (en) * 2008-08-11 2013-01-08 Centurylink Intellectual Property Llc Message filtering system
US8538466B2 (en) * 2008-08-11 2013-09-17 Centurylink Intellectual Property Llc Message filtering system using profiles
US20100082749A1 (en) * 2008-09-26 2010-04-01 Yahoo! Inc Retrospective spam filtering
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
JP5488592B2 (ja) * 2009-04-30 2014-05-14 日本電気株式会社 通信システム及び処理方法
US8108612B2 (en) * 2009-05-15 2012-01-31 Microsoft Corporation Location updates for a distributed data store
US8959157B2 (en) * 2009-06-26 2015-02-17 Microsoft Corporation Real-time spam look-up system
US8479286B2 (en) 2009-12-15 2013-07-02 Mcafee, Inc. Systems and methods for behavioral sandboxing
US8745729B2 (en) 2010-06-22 2014-06-03 Microsoft Corporation Preventing abuse of services through infrastructure incompatibility
US20120215853A1 (en) * 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
US9122877B2 (en) 2011-03-21 2015-09-01 Mcafee, Inc. System and method for malware and network reputation correlation
US9519682B1 (en) 2011-05-26 2016-12-13 Yahoo! Inc. User trustworthiness
US9106680B2 (en) 2011-06-27 2015-08-11 Mcafee, Inc. System and method for protocol fingerprinting and reputation correlation
US20130018965A1 (en) * 2011-07-12 2013-01-17 Microsoft Corporation Reputational and behavioral spam mitigation
US9087324B2 (en) 2011-07-12 2015-07-21 Microsoft Technology Licensing, Llc Message categorization
CN102377690B (zh) * 2011-10-10 2014-09-17 网易(杭州)网络有限公司 反垃圾邮件网关系统及方法
US8739281B2 (en) 2011-12-06 2014-05-27 At&T Intellectual Property I, L.P. Multilayered deception for intrusion detection and prevention
CN103312585B (zh) * 2012-03-08 2016-12-28 中兴通讯股份有限公司 一种垃圾消息处理方法及系统
US10977285B2 (en) 2012-03-28 2021-04-13 Verizon Media Inc. Using observations of a person to determine if data corresponds to the person
US8931043B2 (en) 2012-04-10 2015-01-06 Mcafee Inc. System and method for determining and using local reputations of users and hosts to protect information in a network environment
US10013672B2 (en) 2012-11-02 2018-07-03 Oath Inc. Address extraction from a communication
US9241259B2 (en) 2012-11-30 2016-01-19 Websense, Inc. Method and apparatus for managing the transfer of sensitive information to mobile devices
CN103020646A (zh) * 2013-01-06 2013-04-03 深圳市彩讯科技有限公司 一种支持增量训练的垃圾图片识别方法和系统
US10346411B1 (en) * 2013-03-14 2019-07-09 Google Llc Automatic target audience suggestions when sharing in a social network
CN103455581B (zh) * 2013-08-26 2016-05-04 北京理工大学 基于语义扩展的海量短文本信息过滤方法
JP6044556B2 (ja) 2014-01-16 2016-12-14 株式会社デンソー 学習システム、車載装置、及び、サーバ
US9268597B2 (en) * 2014-04-01 2016-02-23 Google Inc. Incremental parallel processing of data
US20150304394A1 (en) * 2014-04-17 2015-10-22 Rovio Entertainment Ltd Distribution management
CN104133852B (zh) * 2014-07-04 2018-03-16 小米科技有限责任公司 网页访问方法、装置、服务器及终端
US9070088B1 (en) * 2014-09-16 2015-06-30 Trooly Inc. Determining trustworthiness and compatibility of a person
US9432393B2 (en) * 2015-02-03 2016-08-30 Cisco Technology, Inc. Global clustering of incidents based on malware similarity and online trustfulness
US10009461B2 (en) * 2015-06-08 2018-06-26 Sadiq Aziz Ansari Dynamic user interface to reduce impact of unwanted calls
JP6597250B2 (ja) * 2015-12-04 2019-10-30 富士通株式会社 学習プログラム、学習方法及び学習装置
JP6450032B2 (ja) * 2016-01-27 2019-01-09 日本電信電話株式会社 作成装置、作成方法、および作成プログラム
WO2017195199A1 (en) * 2016-05-10 2017-11-16 Ironscales Ltd. Method and system for detecting malicious and soliciting electronic messages
US10715533B2 (en) * 2016-07-26 2020-07-14 Microsoft Technology Licensing, Llc. Remediation for ransomware attacks on cloud drive folders
US10855635B2 (en) 2016-11-14 2020-12-01 Microsoft Technology Licensing, Llc Electronic mail (e-mail) system support for messages with different traffic types
US10606850B2 (en) 2017-09-21 2020-03-31 International Business Machines Corporation Updating a knowledge base of a spam detection system
US10861025B2 (en) * 2018-03-02 2020-12-08 Capital One Services, Llc Systems and methods of photo-based fraud protection
US11463406B2 (en) * 2018-05-17 2022-10-04 Zixcorp Systems, Inc. System and method for detecting potentially harmful data
KR102113663B1 (ko) * 2018-10-18 2020-05-22 한국과학기술원 디지털 스토리텔링을 위한 계층적 분류 기반의 증분 클래스 학습 방법 및 컴퓨팅 장치
CN109325640B (zh) * 2018-12-07 2022-04-26 中山大学 用户价值预测方法、装置、存储介质及设备
US11070618B2 (en) * 2019-01-30 2021-07-20 Valve Corporation Techniques for updating files
US11323514B2 (en) * 2019-04-30 2022-05-03 EMC IP Holding Company LLC Data tiering for edge computers, hubs and central systems
US11886391B2 (en) 2020-05-14 2024-01-30 Valve Corporation Efficient file-delivery techniques

Family Cites Families (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8918553D0 (en) 1989-08-15 1989-09-27 Digital Equipment Int Message control system
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5619648A (en) 1994-11-30 1997-04-08 Lucent Technologies Inc. Message filtering techniques
US5638487A (en) 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5845077A (en) 1995-11-27 1998-12-01 Microsoft Corporation Method and system for identifying and obtaining computer software from a remote computer
US6101531A (en) 1995-12-19 2000-08-08 Motorola, Inc. System for communicating user-selected criteria filter prepared at wireless client to communication server for filtering data transferred from host to said wireless client
US5704017A (en) 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5884033A (en) 1996-05-15 1999-03-16 Spyglass, Inc. Internet filtering system for filtering data transferred over the internet utilizing immediate and deferred filtering actions
US6151643A (en) * 1996-06-07 2000-11-21 Networks Associates, Inc. Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer
US6453327B1 (en) 1996-06-10 2002-09-17 Sun Microsystems, Inc. Method and apparatus for identifying and discarding junk electronic mail
US6072942A (en) 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
EP0837399B1 (en) 1996-10-15 2000-03-15 STMicroelectronics S.r.l. An electronic device for performing convolution operations
US5905859A (en) 1997-01-09 1999-05-18 International Business Machines Corporation Managed network device security method and apparatus
US5805801A (en) 1997-01-09 1998-09-08 International Business Machines Corporation System and method for detecting and preventing security
US6122657A (en) 1997-02-04 2000-09-19 Networks Associates, Inc. Internet computer system with methods for dynamic filtering of hypertext tags and content
US6742047B1 (en) 1997-03-27 2004-05-25 Intel Corporation Method and apparatus for dynamically filtering network content
DE69724235T2 (de) 1997-05-28 2004-02-26 Siemens Ag Computersystem und Verfahren zum Schutz von Software
US7117358B2 (en) 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US6199102B1 (en) 1997-08-26 2001-03-06 Christopher Alan Cobb Method and system for filtering electronic messages
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6393465B2 (en) 1997-11-25 2002-05-21 Nixmail Corporation Junk electronic mail detector and eliminator
US6351740B1 (en) * 1997-12-01 2002-02-26 The Board Of Trustees Of The Leland Stanford Junior University Method and system for training dynamic nonlinear adaptive filters which have embedded memory
AU1907899A (en) * 1997-12-22 1999-07-12 Accepted Marketing, Inc. E-mail filter and method thereof
US6023723A (en) 1997-12-22 2000-02-08 Accepted Marketing, Inc. Method and system for filtering unwanted junk e-mail utilizing a plurality of filtering mechanisms
US6052709A (en) 1997-12-23 2000-04-18 Bright Light Technologies, Inc. Apparatus and method for controlling delivery of unsolicited electronic mail
GB2334116A (en) 1998-02-04 1999-08-11 Ibm Scheduling and dispatching queued client requests within a server computer
US6484261B1 (en) 1998-02-17 2002-11-19 Cisco Technology, Inc. Graphical network security policy management
US6504941B2 (en) 1998-04-30 2003-01-07 Hewlett-Packard Company Method and apparatus for digital watermarking of images
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6074942A (en) 1998-06-03 2000-06-13 Worldwide Semiconductor Manufacturing Corporation Method for forming a dual damascene contact and interconnect
US6308273B1 (en) 1998-06-12 2001-10-23 Microsoft Corporation Method and system of security location discrimination
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US7275082B2 (en) * 1998-07-15 2007-09-25 Pang Stephen Y F System for policing junk e-mail messages
US6167434A (en) 1998-07-15 2000-12-26 Pang; Stephen Y. Computer code for removing junk e-mail messages
US6112227A (en) * 1998-08-06 2000-08-29 Heiner; Jeffrey Nelson Filter-in method for reducing junk e-mail
US6434600B2 (en) 1998-09-15 2002-08-13 Microsoft Corporation Methods and systems for securely delivering electronic mail to hosts having dynamic IP addresses
US6732273B1 (en) 1998-10-21 2004-05-04 Lucent Technologies Inc. Priority and security coding system for electronic mail messages
GB2343529B (en) 1998-11-07 2003-06-11 Ibm Filtering incoming e-mail
US6546416B1 (en) 1998-12-09 2003-04-08 Infoseek Corporation Method and system for selectively blocking delivery of bulk electronic mail
US6643686B1 (en) 1998-12-18 2003-11-04 At&T Corp. System and method for counteracting message filtering
US6615242B1 (en) 1998-12-28 2003-09-02 At&T Corp. Automatic uniform resource locator-based message filter
US6654787B1 (en) * 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
US6266692B1 (en) 1999-01-04 2001-07-24 International Business Machines Corporation Method for blocking all unwanted e-mail (SPAM) using a header-based password
US6330590B1 (en) 1999-01-05 2001-12-11 William D. Cotten Preventing delivery of unwanted bulk e-mail
US6424997B1 (en) 1999-01-27 2002-07-23 International Business Machines Corporation Machine learning based electronic messaging system
US6477551B1 (en) 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
US7032030B1 (en) 1999-03-11 2006-04-18 John David Codignotto Message publishing system and method
US6732149B1 (en) 1999-04-09 2004-05-04 International Business Machines Corporation System and method for hindering undesired transmission or receipt of electronic messages
US6370526B1 (en) 1999-05-18 2002-04-09 International Business Machines Corporation Self-adaptive method and system for providing a user-preferred ranking order of object sets
US6592627B1 (en) 1999-06-10 2003-07-15 International Business Machines Corporation System and method for organizing repositories of semi-structured documents such as email
US6449636B1 (en) 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6728690B1 (en) 1999-11-23 2004-04-27 Microsoft Corporation Classification system trainer employing maximum margin back-propagation with probabilistic outputs
US6321267B1 (en) 1999-11-23 2001-11-20 Escom Corporation Method and apparatus for filtering junk email
US6701440B1 (en) 2000-01-06 2004-03-02 Networks Associates Technology, Inc. Method and system for protecting a computer using a remote e-mail scanning device
US6633855B1 (en) * 2000-01-06 2003-10-14 International Business Machines Corporation Method, system, and program for filtering content using neural networks
US7822977B2 (en) 2000-02-08 2010-10-26 Katsikas Peter L System for eliminating unauthorized electronic mail
US6691156B1 (en) 2000-03-10 2004-02-10 International Business Machines Corporation Method for restricting delivery of unsolicited E-mail
US6684201B1 (en) 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7210099B2 (en) 2000-06-12 2007-04-24 Softview Llc Resolution independent vector display of internet content
US20040073617A1 (en) 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
WO2001098936A2 (en) 2000-06-22 2001-12-27 Microsoft Corporation Distributed computing services platform
US7003555B1 (en) 2000-06-23 2006-02-21 Cloudshield Technologies, Inc. Apparatus and method for domain name resolution
US6779021B1 (en) * 2000-07-28 2004-08-17 International Business Machines Corporation Method and system for predicting and managing undesirable electronic mail
US6842773B1 (en) 2000-08-24 2005-01-11 Yahoo ! Inc. Processing of textual electronic communication distributed in bulk
US6971023B1 (en) 2000-10-03 2005-11-29 Mcafee, Inc. Authorizing an additional computer program module for use with a core computer program
US6757830B1 (en) 2000-10-03 2004-06-29 Networks Associates Technology, Inc. Detecting unwanted properties in received email messages
US6748422B2 (en) 2000-10-19 2004-06-08 Ebay Inc. System and method to control sending of unsolicited communications relating to a plurality of listings in a network-based commerce facility
US7243125B2 (en) 2000-12-08 2007-07-10 Xerox Corporation Method and apparatus for presenting e-mail threads as semi-connected text by removing redundant material
JP3554271B2 (ja) 2000-12-13 2004-08-18 パナソニック コミュニケーションズ株式会社 情報通信装置
US6775704B1 (en) 2000-12-28 2004-08-10 Networks Associates Technology, Inc. System and method for preventing a spoofed remote procedure call denial of service attack in a networked computing environment
US20050159136A1 (en) 2000-12-29 2005-07-21 Andrew Rouse System and method for providing wireless device access
US20020129111A1 (en) 2001-01-15 2002-09-12 Cooper Gerald M. Filtering unsolicited email
US20020124025A1 (en) 2001-03-01 2002-09-05 International Business Machines Corporataion Scanning and outputting textual information in web page images
US6928465B2 (en) 2001-03-16 2005-08-09 Wells Fargo Bank, N.A. Redundant email address detection and capture system
US6751348B2 (en) 2001-03-29 2004-06-15 Fotonation Holdings, Llc Automated detection of pornographic images
US8949878B2 (en) 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US6920477B2 (en) * 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US8095597B2 (en) * 2001-05-01 2012-01-10 Aol Inc. Method and system of automating data capture from electronic correspondence
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6768991B2 (en) 2001-05-15 2004-07-27 Networks Associates Technology, Inc. Searching for sequences of character data
US7103599B2 (en) 2001-05-15 2006-09-05 Verizon Laboratories Inc. Parsing of nested internet electronic mail documents
US20030009698A1 (en) 2001-05-30 2003-01-09 Cascadezone, Inc. Spam avenger
US7502829B2 (en) 2001-06-21 2009-03-10 Cybersoft, Inc. Apparatus, methods and articles of manufacture for intercepting, examining and controlling code, data and files and their transfer
US20030009495A1 (en) 2001-06-29 2003-01-09 Akli Adjaoute Systems and methods for filtering electronic content
US7328250B2 (en) 2001-06-29 2008-02-05 Nokia, Inc. Apparatus and method for handling electronic mail
TW533380B (en) 2001-07-23 2003-05-21 Ulead Systems Inc Group image detecting method
US6769016B2 (en) 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US7146402B2 (en) 2001-08-31 2006-12-05 Sendmail, Inc. E-mail system providing filtering methodology on a per-domain basis
US20060036701A1 (en) 2001-11-20 2006-02-16 Bulfer Andrew F Messaging system having message filtering and access control
CN1350246A (zh) * 2001-12-03 2002-05-22 上海交通大学 智能化的电子邮件内容过滤方法
US8561167B2 (en) 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
JP2003273936A (ja) * 2002-03-15 2003-09-26 First Trust:Kk ファイアウォールシステム
US6785820B1 (en) * 2002-04-02 2004-08-31 Networks Associates Technology, Inc. System, method and computer program product for conditionally updating a security program
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20030229672A1 (en) 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
JP2004029939A (ja) 2002-06-21 2004-01-29 Hitachi Ltd 通信プロキシ装置、および、通信プロキシ装置を用いたサービス提供方法
US8046832B2 (en) 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US8924484B2 (en) 2002-07-16 2014-12-30 Sonicwall, Inc. Active e-mail filter with challenge-response
US7363490B2 (en) 2002-09-12 2008-04-22 International Business Machines Corporation Method and system for selective email acceptance via encoded email identifiers
JP4237461B2 (ja) 2002-09-27 2009-03-11 株式会社インフォメーションオンライン ホームページ自動更新システム
US7188369B2 (en) * 2002-10-03 2007-03-06 Trend Micro, Inc. System and method having an antivirus virtual scanning processor with plug-in functionalities
US20040083270A1 (en) 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
US7149801B2 (en) 2002-11-08 2006-12-12 Microsoft Corporation Memory bound functions for spam deterrence and the like
US6732157B1 (en) 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
WO2004059506A1 (en) * 2002-12-26 2004-07-15 Commtouch Software Ltd. Detection and prevention of spam
US7171450B2 (en) 2003-01-09 2007-01-30 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7533148B2 (en) 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7725544B2 (en) 2003-01-24 2010-05-25 Aol Inc. Group based spam classification
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7219148B2 (en) * 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7543053B2 (en) * 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US7366761B2 (en) 2003-10-09 2008-04-29 Abaca Technology Corporation Method for creating a whitelist for processing e-mails
US20040177120A1 (en) 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7320020B2 (en) 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7653698B2 (en) 2003-05-29 2010-01-26 Sonicwall, Inc. Identifying e-mail messages from allowed senders
US7293063B1 (en) 2003-06-04 2007-11-06 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
US7263607B2 (en) 2003-06-12 2007-08-28 Microsoft Corporation Categorizing electronic messages based on trust between electronic messaging entities
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7155484B2 (en) 2003-06-30 2006-12-26 Bellsouth Intellectual Property Corporation Filtering email messages corresponding to undesirable geographical regions
US7051077B2 (en) 2003-06-30 2006-05-23 Mx Logic, Inc. Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers
US20050015455A1 (en) 2003-07-18 2005-01-20 Liu Gary G. SPAM processing system and methods including shared information among plural SPAM filters
US20050050150A1 (en) 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
US7451487B2 (en) 2003-09-08 2008-11-11 Sonicwall, Inc. Fraudulent message detection
US7257564B2 (en) 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US7930351B2 (en) 2003-10-14 2011-04-19 At&T Intellectual Property I, L.P. Identifying undesired email messages having attachments
US7451184B2 (en) 2003-10-14 2008-11-11 At&T Intellectual Property I, L.P. Child protection from harmful email
US7610341B2 (en) 2003-10-14 2009-10-27 At&T Intellectual Property I, L.P. Filtered email differentiation
US7373385B2 (en) 2003-11-03 2008-05-13 Cloudmark, Inc. Method and apparatus to block spam based on spam reports from a community of users
US20050102366A1 (en) * 2003-11-07 2005-05-12 Kirsch Steven T. E-mail filter employing adaptive ruleset
US20050120019A1 (en) 2003-11-29 2005-06-02 International Business Machines Corporation Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM)
US7359941B2 (en) 2004-01-08 2008-04-15 International Business Machines Corporation Method and apparatus for filtering spam email
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
US7693943B2 (en) 2004-01-23 2010-04-06 International Business Machines Corporation Classification of electronic mail into multiple directories based upon their spam-like properties
US20050182735A1 (en) 2004-02-12 2005-08-18 Zager Robert P. Method and apparatus for implementing a micropayment system to control e-mail spam
WO2005082101A2 (en) 2004-02-26 2005-09-09 Truefire, Inc. Systems and methods for producing, managing, delivering, retrieving, and/or tracking permission based communications
US20050204159A1 (en) 2004-03-09 2005-09-15 International Business Machines Corporation System, method and computer program to block spam
US7627670B2 (en) 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
US7155243B2 (en) 2004-06-15 2006-12-26 Tekelec Methods, systems, and computer program products for content-based screening of messaging service messages
US20060123083A1 (en) 2004-12-03 2006-06-08 Xerox Corporation Adaptive spam message detector
US7937480B2 (en) 2005-06-02 2011-05-03 Mcafee, Inc. Aggregation of reputation data
US7971137B2 (en) 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents

Also Published As

Publication number Publication date
ATE475242T1 (de) 2010-08-15
US7664819B2 (en) 2010-02-16
DE602005022384D1 (de) 2010-09-02
KR101076909B1 (ko) 2011-10-25
CN1716293A (zh) 2006-01-04
US20060015561A1 (en) 2006-01-19
MXPA05007083A (es) 2006-02-22
KR20060048713A (ko) 2006-05-18
CA2510762A1 (en) 2005-12-29
JP2006012165A (ja) 2006-01-12
EP1613010A3 (en) 2007-06-20
CN1716293B (zh) 2012-04-18
EP1613010A2 (en) 2006-01-04
BRPI0502444A (pt) 2006-02-07
EP1613010B1 (en) 2010-07-21

Similar Documents

Publication Publication Date Title
JP4799057B2 (ja) 増分アンチスパムのルックアップサービスおよびアップデートサービス
JP4572087B2 (ja) スパムフィルタの不明瞭化
US20190081987A1 (en) Method and system for processing a stream of information from a computer network using node based reputation characteristics
JP6385896B2 (ja) 無線装置でコンテンツ変換を管理する装置および方法
Chirita et al. MailRank: using ranking for spam detection
US6732157B1 (en) Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
US7359941B2 (en) Method and apparatus for filtering spam email
US7660865B2 (en) Spam filtering with probabilistic secure hashes
US20090319629A1 (en) Systems and methods for re-evaluatng data
US20100138444A1 (en) Federated challenge credit system
US8291024B1 (en) Statistical spamming behavior analysis on mail clusters
WO2005010692A2 (en) System and method for identifying and filtering junk e-mail messages or spam based on url content
JP2009516269A (ja) コンテンツベースのポリシーコンプラインアンスシステムおよび方法
JP2006012165A5 (ja)
KR20080067352A (ko) 필터 처리 시스템, 음성 및 팩스 메시지와 대화하는 방법,및 메일 서버 방법
US20060259551A1 (en) Detection of unsolicited electronic messages
US20070124385A1 (en) Preference-based content distribution service
US8364666B1 (en) Method and system for context-aware data prioritization using a common scale and logical transactions
US9246860B2 (en) System, method and computer program product for gathering information relating to electronic content utilizing a DNS server
US20060122957A1 (en) Method and system to detect e-mail spam using concept categorization of linked content
US20050021644A1 (en) Systems and methods for validating electronic communications
KR100443695B1 (ko) 메일 분산관리 방법 및 이를 위한 시스템
US8375089B2 (en) Methods and systems for protecting E-mail addresses in publicly available network content
JP4839318B2 (ja) メッセージプロファイリングシステムおよび方法
US20240356969A1 (en) Statistical modeling of email senders to detect business email compromise

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080529

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4799057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees